站長俱樂部:站长论坛


返回   站長俱樂部:站长论坛 > 網站經營區 > 搜尋引擎綜合討論

回覆
 
主題工具 顯示模式
  #1  
舊 2006-01-07, 08:21 PM
哈啦 的頭像
哈啦 哈啦 目前離線
論壇管理員
 
註冊日期: 2005-12-25
文章: 2,892
Blog 文章: 1
預設 有關robots.txt

什麼是 Robot 程式?

WWW Robot 是一種模擬WWW瀏覽器的程式,會自動遊走網路上的位址,將一篇文件或任何檔案抓回,再根據該文件內所連結到其它文件或資料的相關資訊,繼續將其它文件也抓回,如此不停循環。Robot的用途,包括建立搜尋引摯(WWW Search Engine)的資料庫、檢查連結異動、複製資料等。例如Google、AltaVista、Lycos、Infoseek等著名的搜尋工具,都是利用類似的技巧,來建立查詢資料庫,對外提供服務。

由於 WWW系統的基本設計原理並不複雜,因此簡單的Robot程式容易取得或者自行發展。然而由於程式是自動執行,使用者可能輕率使用、程式設計者可能未把情況考慮完整,或者程式因有未發現的小錯誤,而會拼命地或重複地向同一台機器不停地抓資料,造成該機器負擔過重,以及整個網路嚴重雍塞,甚至影響整個網際網路及伺服機器的服務品質。私人Robot對整個公共網路的負面影響,早已引起國際注意,並提出 A Standard for Robot Exclusion 給資訊提供者及伺服器管理員參考,以做為網路運作的共同規範,共同維護網路的正常運作。

透過Robots Exclusion Protocol協議,網站管理員即可依據一個固定的文字格式,指出網站上哪一個部分可以被Robot巡行,哪一個部分不歡迎Robot進行處理。這一點對目前的網站架構來說,顯的特別重要。一般來說,網站管理員會將圖形檔案、動態產生的CGI程式、或是需要輸入密碼的網頁集中放置在特定的目錄。此三類檔案,因為屬性特別,或不適合文字搜尋引擎處理,或資料是每次動態產生沒有儲存必要,或需要特殊權限才能存取,既使Robot來存取,也沒有特殊意義。若能在robots.txt中加以說明,定可大大減少Robot本身及Robot對網站主機的負荷,減省的資源還可以調整對更有需要的網頁進行服務。對搜尋引擎和網站主機來說,都有正向的助益。

Robots Exclusion Protocol注意事項。
‧robots.txt:檔名必須要小寫。
‧檔案位置:需放在網站的根目錄下,例如http ://.../robots.txt。
‧User-agent:代表不允許哪些Robot巡行,詳細介紹如下。
‧Disallow:代表不允許Robot巡行哪些檔案,詳細介紹如下。
‧空白行:代表分區段。
‧#:代表註解。

User-agent
User-agent行指出的是您想拒絕Robot的名稱。在User-agent行,"*"表示您想拒絕所有的Robot造訪。如果您想特定指定某一個Robot,只要將該Robot的名字列出即可。或許您會質疑,這麼多的Robot中,有沒有機構在管理呢?答案是沒有。但是有許多組織在整理這些資訊,您可以參考webcrawler網站的詳細資料。 參考範例: User-agent: * #表示不接受任何一個Robot造訪。 User-agent: WebCrawler #表示不接受WebCrawler這個Robot,其他的可以接受。

Disallow
Disallow行表示你不希望Robot訪問的URL,每個URL必須單獨占一行,不能出現"Disallow: /cgi-bin/ /tmp/"這種情形。
參考範例:
Disallow: /~joe/ #表示/~joe/目錄下不歡迎瀏覽。
Disallow: / #表示全部不歡迎。

實例分析
範例一:拒絕網路上所有的Robot造訪您的網站
User-agent: * #表示全部Robot。
Disallow: / #表示所有目錄及資料。

範例二:希望所有的Robot造訪您全部的資料
User-agent: * #表示全部Robot。
Disallow: #表示不設定任何資料。

範例三:拒絕網路上所有的Robot造訪根目錄下images,cgi-bin及members三目錄
User-agent: * #表示全部Robot。
Disallow: /images #表示/images下所有資料。
Disallow: /cgi-bin #表示/cgi-bin下所有資料。
Disallow: /members #表示/members下所有資料。
回覆時引用此篇文章
  #2  
舊 2006-01-07, 08:27 PM
哈啦 的頭像
哈啦 哈啦 目前離線
論壇管理員
 
註冊日期: 2005-12-25
文章: 2,892
Blog 文章: 1
預設

第一,我想請問一下,如果沒有寫這個robots.txt,是否表示來者不拒?
第二,以論壇為例,有的論壇我們會在後台設定為不對外公開,就是有閱讀者的權限不對一般大眾(非註冊者)公開,但我沒有設robots.txt,這樣子搜尋引擎到底會不搜索到這些不對外公開版面的內呢?
回覆時引用此篇文章
  #3  
舊 2006-02-20, 08:03 PM
rogerlin rogerlin 目前離線
初級會員
 
註冊日期: 2005-12-30
文章: 18
預設

哈啦 好

1. 是的。
2. 會。甚至有人懷疑就算建立設定了robots.txt,搜尋引擎還是可以搜尋索引的。
__________________
SEO 優化王
回覆時引用此篇文章
  #4  
舊 2006-02-20, 09:05 PM
icon icon 目前離線
進階會員
 
註冊日期: 2006-02-15
文章: 302
發送 MSN 消息給 icon
預設

2. 對的, 我曾經仔細的比對過, 50幾個機器小子, 很多都是沒管你有沒 robots.txt.
照樣去讀. 只是讀過了不列入索引.
回覆時引用此篇文章
  #5  
舊 2006-02-20, 09:25 PM
steven steven 目前離線
進階會員
 
註冊日期: 2005-12-25
文章: 192
預設

google adsense好像也會抓取不公開版面的資料?
__________________
五分埔 | 德國 | 歐洲 | 美食 | 香水
Wufenpu | COVID-19 | Epidemic | Pandemic
回覆時引用此篇文章
回覆

書籤

主題工具
顯示模式

發文規則
不可以發表新主題
不可以發表回覆
不可以上傳附件
不可以編輯自己的文章

啟用 BB 代碼
論壇啟用 表情符號
論壇啟用 [IMG] 代碼
論壇禁用 HTML 代碼

論壇跳轉

 

所有時間均為 +8。現在的時間是 07:58 AM


本站主機由網易虛擬主機代管
Powered by vBulletin® 版本 3.8.4
版權所有 ©2000 - 2024,Jelsoft Enterprises Ltd.