溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

【Tips篇】爬蟲

發(fā)布時間:2020-07-31 02:19:17 來源:網(wǎng)絡 閱讀:640 作者:menke007 欄目:安全技術

配圖本來計劃選擇一種爬蟲的,可是看到百度搜到的圖片好惡心,所以作罷,還是還原網(wǎng)絡世界真實的爬蟲。

爬蟲應該是隨著搜索引擎技術出現(xiàn)的。爬蟲技術主要是用來抓取萬維網(wǎng)網(wǎng)頁內(nèi)容的主要技術,被爬到的網(wǎng)頁會被收錄進入搜索引擎。一般情況下,企業(yè)作為門戶網(wǎng)站的話是非常希望爬蟲爬到,然后收錄進去,這樣用戶搜索的時候就會被顯示出來,一方面隨著搜索技術飛速發(fā)展,www業(yè)務飛速發(fā)展,各種各樣的爬蟲,***到互聯(lián)網(wǎng)中,爬蟲對于某些網(wǎng)站來說是一種流量的浪費。比如某寶是堅決不讓某度來爬取的,一方面是要保障流量來源,另一方面要保障流量正常,因為www網(wǎng)站中惡意爬蟲會影響正常流量訪問。


于是robots協(xié)議應運而生。

“引用”Robots協(xié)議(也稱為爬蟲協(xié)議、機器人協(xié)議等)的全稱是“網(wǎng)絡爬蟲排除標準”(Robots Exclusion Protocol),網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。


防止spider任意抓?。海ń谷魏闻老x進行抓取網(wǎng)站的任何目錄)

spider user-agent:*

disallow:/

這些規(guī)則是支持正則的,所以會非常靈活。對于業(yè)務型的頁面可以設置為不可被抓取。

還有一點最重要的:就是要相識的robots協(xié)議生效,就必須web訪問的時候可以訪問到robots.txt,并且robots位于網(wǎng)站的根目錄下。例如:

www.taobao.com/robots.txt就可以看到淘寶的robots協(xié)議。


最后一點,如果你不想要在實名網(wǎng)站留下一些huai的證據(jù),那么也不要寄希望于網(wǎng)站禁止爬蟲,那么請注意保持良好的上網(wǎng)行為。

支付寶-打賞:

【Tips篇】爬蟲

微信-打賞:

【Tips篇】爬蟲


向AI問一下細節(jié)
推薦閱讀:
  1. MongoDB Tips
  2. ActiveMQ Tips

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI