robots.txt是一個協議,而不是一個命令。Robots協議(也稱為爬蟲協議、機器人協議等)的全稱是“網絡爬蟲排除標準”(Robots Exclusion Protocol),網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。
robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件,robots.txt文件是一個文本文件,使用任何一個常見的文本編輯器。
robots.txt文件應該放置在網站根目錄下。舉例來說,當spider訪問一個網站(比如 http://www.abc.com)時,首先會檢查該網站中是否存在http://www.abc.com/robots.txt這個文件,如果 Spider找到這個文件,它就會根據這個文件的內容,來確定它訪問權限的范圍。
例如:
User-agent: Baiduspider
Disallow: /
robots.txt文件的格式:
"robots.txt"文件包含一條或更多的記錄,這些記錄通過空行分開
User-agent:
該項的值用于描述搜索引擎robot的名字。
Disallow表示:
說明不允許robot訪問該網站的所有url,在"/robots.txt"文件中,至少要有一條Disallow記錄。如果"/robots.txt"不存在或者為空文件,則對于所有的搜索引擎robot,該網站都是開放的。
舉例:
"Disallow:/help" 禁止robot訪問/help.html、/helpabc.html、/help 、/index.html
"Disallow:/help/" 則允許robot訪問/help.html
Allow格式:
與Disallow項相似,這個值可以是一條完整的路徑,也可以是路徑的前綴,以Allow項的值開頭的URL 是允許robot訪問的。
以上就是對robots協議是什么意思?robots.txt文件放在哪里的全部介紹,如果您想了解更多有關SEO相關知識,請及時關注我們。