[點晴永久免費OA]robots.txt的作用以及規范寫法
當前位置:點晴教程→點晴OA辦公管理信息系統
→『 經驗分享&問題答疑 』
Robots.txt文件的作用 一般來說出于安全的考慮,在網站seo優化時寫入robots.txt文件,實際上就是告訴搜索引擎蜘蛛,網站上哪些內容允許抓取,哪些內容不允許抓取,這樣做可以提高搜索引擎的抓取效率,增加搜索引擎對網站的友好度。 robots.txt文件的規范寫法 文件中的記錄通過空行分開,以CR、CR/NL、or NL作為結束符。robots.txt文件中的記錄通常以一行或多行User-agent開始,后面加上若干Disallow和Allow行,詳細情況如下: User-agent: 用于描述搜索引擎蜘蛛的名字,在"Robots.txt"文件中,如果有多條User-agent記錄說明有多個搜索引擎蜘蛛會受到該協議的限制,對該文件來說,至少要有一條User-agent記錄。如果該項的值設為*,則該協議對任何搜索引擎蜘蛛均有效,在"Robots.txt"文件中,"User-agent:*"這樣的記錄只能有一條。 Disallow: 用于描述不希望被訪問到的一個URL,這個URL可以是一條完整的路徑,也可以是部分的,任何以Disallow開頭的URL均不會被Robot訪問到。 例如,”Disallow:/help”是指禁止搜索引擎蜘蛛抓取/help.html和/help/index.html;而”Disallow:/help/”則允許搜索引擎蜘蛛抓取/help.html,不能抓取/help/index.html。 Allow: 用于描述希望被訪問的一組URL,與Disallow項相似,這個值可以是一條完整的路徑,也可以是路徑的前綴,以Allow項的值開頭的URL是允許robot訪問的。 例如,”Allow:/hibaidu”允許搜索引擎蜘蛛抓取/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一個網站的所有URL默認是Allow的,所以Allow通常與Disallow搭配使用,實現允許訪問一部分網頁同時禁止訪問其它所有URL的功能。 注意:Disallow與Allow行的順序是有意義的,搜索引擎蜘蛛會根據第一個匹配成功的Allow或Disallow行確定是否訪問某個URL。 使用”*”和”$”: Baiduspider支持使用通配符”*”和”$”來模糊匹配url。“$”匹配行結束符。“*”匹配0或多個任意字符。 robots.txt文件用法舉例 1,允許所有的robot訪問 User-agent:*Allow:/或者User-agent:*Disallow: 2,禁止所有搜索引擎訪問網站的任何部分 User-agent:* Disallow:/ 3,僅禁止Baiduspider訪問 User-agent:Baiduspider Disallow:/ 4,僅允許Baiduspider訪問您的網站 User-agent:Baiduspider Disallow: 5,禁止spider訪問特定目錄 User-agent:* Disallow:/cgi-bin/ Disallow:/tmp/ Disallow:/~joe/ 6,允許訪問特定目錄中的部分url User-agent:* Allow:/cgi-bin/see Allow:/tmp/hi Allow:/~joe/look Disallow:/cgi-bin/ Disallow:/tmp/ Disallow:/~joe/ 7,使用”*”限制訪問url 禁止訪問/cgi-bin/目錄下的所有以”.htm”為后綴的URL(包含子目錄)。 User-agent:* Disallow:/cgi-bin/*.htm 8,使用”$”限制訪問url 僅允許訪問以”.htm”為后綴的URL。 User-agent:* Allow:.htm$ Disallow:/ 9,禁止訪問網站中所有的動態頁面 User-agent:* Disallow:/*?* 10,禁止Baiduspider抓取網站上所有圖片 僅允許抓取網頁,禁止抓取任何圖片。 User-agent:Baiduspider Disallow:.jpg$ Disallow:.jpeg$ Disallow:.gif$ Disallow:.png$ Disallow:.bmp$ 11,僅允許Baiduspider抓取網頁和.gif格式圖片 允許抓取網頁和gif格式圖片,不允許抓取其他格式圖片 User-agent:Baiduspider Allow:.gif$ Disallow:.jpg$ Disallow:.jpeg$ Disallow:.png$ Disallow:.bmp$ 12,僅禁止Baiduspider抓取.jpg格式圖片 User-agent:Baiduspider Disallow:.jpg$ 注意:robots.txt是有分大小寫的,默認文件名全小寫,規則里面要注意區分大小寫 13,在robots.txt中聲明你的sitemap文件 在robots.txt加入如下的一行文字: Sitemap:http://www.abc.com/sitemap.xml(替換自己的網站域名) 該文章在 2021/10/19 10:41:28 編輯過 |
關鍵字查詢
相關文章
正在查詢... |