溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

“robots.txt”簡介

發(fā)布時間:2020-07-26 04:25:44 來源:網(wǎng)絡(luò) 閱讀:14294 作者:二哈少爺 欄目:開發(fā)技術(shù)

有一種隱藏的,無情的力量×××到網(wǎng)絡(luò)及其數(shù)十億的網(wǎng)頁和文件中,我們大多數(shù)眾生都不知道。我說的是搜索引擎爬蟲和機器人。每天都有數(shù)以百計的人出去瀏覽網(wǎng)絡(luò),不管是谷歌(Google)試圖為整個網(wǎng)絡(luò)建立索引,還是一個垃圾郵件機器人收集它能找到的任何不那么體面的電子郵件地址。作為站點所有者,當機器人訪問我們的站點時,我們對機器人可以做什么有多么小的控制,存在于一個名為“robots.txt”的神奇的小文件中。

“robots.txt”是一個普通的文本文件,通過它的名稱,對大多數(shù)網(wǎng)絡(luò)上的“光榮”機器人具有特殊的意義。通過在此文本文件中定義一些規(guī)則,您可以指示機器人不爬行和索引站點中的某些文件、目錄,或者根本不對其進行索引。例如,您可能不希望Google爬行站點的/映像目錄,因為它對您來說既沒有意義,也浪費了站點的帶寬?!皉obots.txt”讓你告訴谷歌。

“robots.txt”簡介創(chuàng)建“robots.txt”文件

所以讓我們開始行動吧。創(chuàng)建一個名為“robots.txt”的常規(guī)文本文件,并確保它的名稱準確。此文件必須上載到根部可訪問的站點目錄,而不是子目錄(即:https://www.google.com但不是https://www.google.com/2/)只有遵循上述兩條規(guī)則,搜索引擎才能解釋文件中的指令。偏離這一點,“robots.txt”就變成了一個普通的文本文件,就像午夜后的灰姑娘一樣。

現(xiàn)在您已經(jīng)知道了如何命名您的文本文件并將其上傳到何處,您需要了解如何將命令發(fā)送到遵循該協(xié)議的搜索引擎(正式上是“機器人排除協(xié)議”)。該格式對于大多數(shù)意圖和目的來說都足夠簡單:USERAGENT行,以識別問題中的爬行器,后面跟著一個或多個爬蟲。不允許:線不允許它從你的網(wǎng)站的某些部分爬行。

1)下面是一個基本的“robots.txt”:

User-agent: *
Disallow: /

在上述聲明之后,所有機器人(由“*”表示)都被指示不要索引任何頁面(由“/”表示)。很可能不是你想要的,但你知道。

2)現(xiàn)在讓我們再來點歧視吧。雖然每個網(wǎng)站管理員都喜歡Google,但您可能不希望Google的Imagebot爬行您的站點的圖像并制作它們。可在線搜索如果只是為了節(jié)省帶寬。下面的聲明將起作用:

User-agent: Googlebot-Image
Disallow: /

3)以下內(nèi)容禁止所有搜索引擎和機器人爬行選擇目錄和頁面:

User-agent: *
Disallow: /cgi-bin/
Disallow: /privatedir/
Disallow: /tutorials/blank.htm

4)您可以在“robots.txt”中有條件地針對多個機器人。請看下面的內(nèi)容:

User-agent: *
Disallow: /
User-agent: Googlebot
Disallow: /cgi-bin/
Disallow: /privatedir/

這是很有趣的-在這里我們聲明爬蟲一般不應(yīng)該爬行我們網(wǎng)站的任何部分,對于google,它允許爬行整個站點,而不是/CGI-bin//Privatedir/。因此,專一性的規(guī)則是適用的,而不是繼承的。

5)有一種使用“不允許”的方法:本質(zhì)上將其轉(zhuǎn)換為“允許所有”,即在分號(:)之后不輸入一個值:

User-agent: *
Disallow: /
User-agent: ia_archiver
Disallow:

這里我是說,所有爬蟲都應(yīng)該被禁止爬行我們的網(wǎng)站,除了阿列克莎,這是允許的。

6)最后,一些爬蟲現(xiàn)在支持一個名為“允許:”的額外字段,最值得注意的是,Google。顧名思義,“允許:”允許您顯式地規(guī)定哪些文件/文件夾可以爬行。然而,這個領(lǐng)域目前并不是“robots.txt”協(xié)議的一部分,所以我建議只在絕對需要時才使用它,因為它可能會混淆一些不那么聰明的爬蟲器。

每谷歌網(wǎng)站管理員常見問題,下面是不允許所有爬蟲從您的站點上爬行的首選方法。谷歌:

User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /


向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI