? ?
robots怎么寫?相信很多人都會有這樣的疑問,下面西部數(shù)碼網(wǎng)為你詳解一下robots文件寫法詳解。
robots 是站點與 spider 溝通的重要渠道,站點通過 robots 文件聲明該網(wǎng)站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。請注意,僅當(dāng)您的網(wǎng)站包含不希望被搜索引擎收錄的內(nèi)容時,才需要使用 robots.txt 文件。如果您希望搜索引擎收錄網(wǎng)站上所有內(nèi)容,請勿建立 robots.txt 文件。
robots 文件往往放置于根目錄下,包含一條或更多的記錄,這些記錄通過空行分開(以 cr,cr/nl, or nl 作為結(jié)束符),每一條記錄的格式如下所示: :
在該文件中可以使用#進行注解,具體使用方法和 unix 中的慣例一樣。該文件中的記錄通常以一行或多行 user-agent 開始,后面加上若干 disallow 和 allow 行 , 詳細情況如下:
user-agent:該項的值用于描述搜索引擎 robot 的名字。在 \”robots.txt\” 文件中,如果有多條- user-agent 記錄說明有多個 robot 會受到 \”robots.txt\” 的限制,對該文件來說,至少要有一條 user-agent 記錄。如果該項的值設(shè)為 ,則對任何 robot 均有效,在 \”robots.txt\” 文件中,\”user-agent:\” 這樣的記錄只能有一條。如果在 \”robots.txt\” 文件中,加入 \”user-agent:somebot\” 和若干 disallow、allow 行,那么名為 \”somebot\” 只受到 \”user-agent:somebot\” 后面的 disallow 和 allow 行的限制。
disallow:該項的值用于描述不希望被訪問的一組 url,這個值可以是一條完整的路徑,也可以是路徑的非空前綴,以 disallow 項的值開頭的 url 不會被 robot 訪問。例如 \”disallow:/help\” 禁止 robot 訪問 /help.html、/helpabc.html、/help/index.html,而 \”disallow:/help/\” 則允許 robot 訪問 /help.html、/helpabc.html,不能訪問 /help/index.html。\”disallow:\” 說明允許 robot 訪問該網(wǎng)站的所有 url,在 \”/robots.txt\” 文件中,至少要有一條 disallow 記錄。如果 \”/robots.txt\” 不存在或者為空文件,則對于所有的搜索引擎 robot,該網(wǎng)站都是開放的。
allow:該項的值用于描述希望被訪問的一組 url,與 disallow 項相似,這個值可以是一條完整的路徑,也可以是路徑的前綴,以 allow 項的值開頭的 url 是允許 robot 訪問的。例如 \”allow:/hibaidu\” 允許 robot 訪問 /hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一個網(wǎng)站的所有 url 默認是 allow 的,所以 allow 通常與 disallow 搭配使用,實現(xiàn)允許訪問一部分網(wǎng)頁同時禁止訪問其它所有 url 的功能。
使用 \”*\”and\”$\”:baiduspider 支持使用通配符 \”\” 和 \”$\” 來模糊匹配 url。 \”\” 匹配 0 或多個任意字符 \”$\” 匹配行結(jié)束符。
最后需要說明的是:百度會嚴格遵守 robots 的相關(guān)協(xié)議,請注意區(qū)分您不想被抓取或收錄的目錄的大小寫,百度會對 robots 中所寫的文件和您不想被抓取和收錄的目錄做精確匹配,否則 robots 協(xié)議無法生效。
以上就是對robots怎么寫?robots文件寫法詳解的全部介紹,如果您想了解更多seo知識,請關(guān)注西部數(shù)碼網(wǎng)。