robots.txt是什么有什么用,robots.txt寫法
robots.txt是什么
robots.txt一般指robots協議 ,robots協議(也稱為爬蟲協議、機器人協議等)的全稱是“網絡爬蟲排除標準”(Robots Exclusion Protocol),網站通過robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。它是一個文本文件,任何的搜索引擎訪問你的網站時,一定會先訪問你網站的robots.txt文件,然后遵循協議去抓取網站頁面,當然也會有一些不遵循協議的爬取行為,不過這種是特別少見的,幾乎沒有。
如果將網站視為酒店里的一個房間,robots.txt就是主人在房間門口懸掛的“請勿打擾”或“歡迎打掃”的提示牌。這個文件告訴來訪的搜索引擎哪些房間可以進入和參觀,哪些房間因為存放貴重物品,或可能涉及住戶及訪客的隱私而不對搜索引擎開放。但robots.txt不是命令,也不是防火墻,如同守門人無法阻止竊賊等惡意闖入者?! ?/p>
robots在網站優化中的作用
上文中思齊seo講到了,robots協議的存在可以讓搜索引擎遵循我們的要求去抓取網站內容,那么我們用這個協議禁止搜索引擎抓取網站中的PHP文件、js文件或者是后臺目錄,保證網站后臺的私密性和網站安全。
robots協議因為搜索引擎每一次訪問都會訪問,所以我們是不是可以把網站地圖的鏈接地址放到協議里?通過這種方式來增加網站地圖的抓取,進而促進網站收錄?! ?/p>
robots.txt怎么寫
User-agent: * 代表所有搜索引擎,也可指定搜索引擎,如指定百度,User-agent: Baiduspider
Disallow: /a/ 這里定義是禁止抓取a目錄下面的所有內容
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以”.htm”為后綴的URL(包含子目錄)
Disallow: /*?* 禁止訪問網站中所有包含問號 (?) 的網址
Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件
Allow: /cgi-bin/a/ 這里定義是允許爬尋cgi-bin目錄下面的a目錄
Allow: /tmp 這里定義是允許爬尋tmp的整個目錄
Allow: .htm$ 允許訪問以”.htm”為后綴的URL
Allow: .gif$ 允許抓取網頁和gif格式圖片
Sitemap: http://www.ashroautos.com/sitemap.xml 網站地圖,告訴爬蟲這個頁面是網站地圖
Robots.txt文件的存放位置
網站根目錄下,通過“域名/robots.txt”能正常訪問即可,如http://www.ashroautos.com/robots.txt
網站沒有Robots.txt文件的弊端
如果網站中沒有robots.txt文件,則網站中的程序腳本、樣式表等一些和網站內容無關的文件或目錄即使被搜索引擎蜘蛛爬行,也不會增加網站的收錄率和權重,只會浪費服務器資源;搜索引擎派出的蜘蛛資源也是有限的,我們要做的應該是盡量讓蜘蛛爬行網站重點文件、目錄,最大限度的節約蜘蛛資源。