溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

網(wǎng)絡(luò)爬蟲(chóng)指的是什么

發(fā)布時(shí)間:2021-09-09 09:02:05 來(lái)源:億速云 閱讀:146 作者:chen 欄目:編程語(yǔ)言

本篇內(nèi)容主要講解“網(wǎng)絡(luò)爬蟲(chóng)指的是什么”,感興趣的朋友不妨來(lái)看看。本文介紹的方法操作簡(jiǎn)單快捷,實(shí)用性強(qiáng)。下面就讓小編來(lái)帶大家學(xué)習(xí)“網(wǎng)絡(luò)爬蟲(chóng)指的是什么”吧!

1、爬蟲(chóng)是什么?

網(wǎng)絡(luò)爬蟲(chóng)(又稱(chēng)網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人)是根據(jù)一定規(guī)則自動(dòng)捕捉萬(wàn)維網(wǎng)信息的程序和腳本。其他不常用的名字有螞蟻、自動(dòng)索引、模擬程序或蠕蟲(chóng)。

一般來(lái)說(shuō),我們把互聯(lián)網(wǎng)比作大蜘蛛網(wǎng),每個(gè)網(wǎng)站的資源比作蜘蛛網(wǎng)上的結(jié)點(diǎn),爬蟲(chóng)類(lèi)就像蜘蛛一樣,根據(jù)設(shè)計(jì)的路線(xiàn)和規(guī)則在這個(gè)蜘蛛網(wǎng)上找到目標(biāo)結(jié)點(diǎn),獲得資源??梢允褂锰?yáng)http,專(zhuān)業(yè)爬蟲(chóng)輔助工具

2、為什么我們需要使用爬蟲(chóng)呢?

你可以想象一個(gè)場(chǎng)景:你非常崇拜一個(gè)微博名人,對(duì)他的微博非常著迷。你想摘錄他十年來(lái)微博上的每一句話(huà),制作名人語(yǔ)錄。這個(gè)時(shí)候你怎么辦?手動(dòng)去Ctrl+C和Ctrl+V?這個(gè)方法的確是對(duì)的,當(dāng)數(shù)據(jù)量很小的時(shí)候,我們也可以這樣做,但是當(dāng)數(shù)據(jù)數(shù)千的時(shí)候,你還需要這樣做嗎?

我們想象另一個(gè)場(chǎng)景:如果你想成為一個(gè)新聞聚合網(wǎng)站,你需要每天定期去幾個(gè)新聞網(wǎng)站獲取最新的新聞。我們稱(chēng)之為RSS訂閱。你會(huì)定期去各個(gè)訂閱網(wǎng)站復(fù)制新聞嗎?恐怕個(gè)人很難做到這一點(diǎn)吧。

以上兩個(gè)場(chǎng)景,使用爬蟲(chóng)技術(shù)可以很容易地解決問(wèn)題。因此,我們可以看到爬蟲(chóng)技術(shù)主要可以幫助我們做兩件事:一是數(shù)據(jù)獲取需求,主要針對(duì)特定規(guī)則下的大數(shù)據(jù)量信息獲取;另一種是自動(dòng)化需求,主要應(yīng)用于類(lèi)似的信息聚合和搜索。

3、爬蟲(chóng)的分類(lèi):爬蟲(chóng)類(lèi)可分為通用爬蟲(chóng)類(lèi)和聚焦爬蟲(chóng)類(lèi)。

通用網(wǎng)絡(luò)爬蟲(chóng)又稱(chēng)全網(wǎng)爬蟲(chóng)(ScalableWebCrawler),爬蟲(chóng)對(duì)象從一些種子URL擴(kuò)展到整個(gè)網(wǎng)絡(luò),主要從搜索引擎和大型網(wǎng)絡(luò)服務(wù)提供商那里收集數(shù)據(jù)。這種網(wǎng)絡(luò)爬蟲(chóng)的爬行范圍和數(shù)量都很大,對(duì)爬行速度和存儲(chǔ)空間的要求也很高,對(duì)爬行頁(yè)面的順序也比較低。比如我們常見(jiàn)的百度和谷歌搜索。當(dāng)我們輸入關(guān)鍵字時(shí),他們會(huì)從全網(wǎng)找到與關(guān)鍵字相關(guān)的網(wǎng)頁(yè),并按一定的順序呈現(xiàn)給我們。

聚焦網(wǎng)絡(luò)爬蟲(chóng)(FocusedCrawler)是指選擇性地爬取與預(yù)定義主題相關(guān)的網(wǎng)絡(luò)爬蟲(chóng)。和通用網(wǎng)絡(luò)爬蟲(chóng)相比,聚焦爬蟲(chóng)只需要爬取特定的網(wǎng)頁(yè),爬取的廣度會(huì)小很多。舉例來(lái)說(shuō),我們需要抓取東方財(cái)富網(wǎng)的基金數(shù)據(jù),我們只需要為東方財(cái)富網(wǎng)的網(wǎng)頁(yè)制定抓取規(guī)則。

一般來(lái)說(shuō),通用爬蟲(chóng)類(lèi)似于蜘蛛,需要尋找特定的食物,但因?yàn)椴恢乐┲刖W(wǎng)的哪個(gè)節(jié)點(diǎn),所以只能從一個(gè)節(jié)點(diǎn)開(kāi)始尋找。遇到節(jié)點(diǎn)就看看。有食物就得到食物。如果這個(gè)節(jié)點(diǎn)指示某個(gè)節(jié)點(diǎn)有食物,就按照指示找下一個(gè)節(jié)點(diǎn)。而且聚焦網(wǎng)絡(luò)爬蟲(chóng)就是這只蜘蛛知道哪個(gè)節(jié)點(diǎn)有食物,它只需要個(gè)節(jié)點(diǎn)就能得到食物。

4、瀏覽網(wǎng)頁(yè)的過(guò)程。

在用戶(hù)瀏覽網(wǎng)頁(yè)的過(guò)程中,我們可能會(huì)看到很多漂亮的圖片

這個(gè)過(guò)程實(shí)際上是用戶(hù)輸入網(wǎng)站后,通過(guò)DNS服務(wù)器找到服務(wù)器主機(jī)并向服務(wù)器發(fā)送請(qǐng)求。服務(wù)器分析后,發(fā)送給用戶(hù)的瀏覽器HTML、JS、CSS等文件被瀏覽器分析,用戶(hù)可以看到各種各樣的圖像。

因此,用戶(hù)看到的網(wǎng)頁(yè)本質(zhì)上由HTML代碼構(gòu)成,爬蟲(chóng)類(lèi)爬行的是這些內(nèi)容,通過(guò)分析和過(guò)濾這些HTML代碼,實(shí)現(xiàn)了圖像、文字等資源的獲取。

5、URL的含義。

URL,即統(tǒng)一資源定位符,也就是我們所說(shuō)的網(wǎng)站,統(tǒng)一資源定位符簡(jiǎn)單地表示可以從互聯(lián)網(wǎng)獲得的資源的位置和訪(fǎng)問(wèn)方法,是互聯(lián)網(wǎng)上標(biāo)準(zhǔn)資源的地址。因特網(wǎng)上的每一個(gè)文件都有一個(gè)唯一的URL,它所包含的信息指出文件的位置和瀏覽器應(yīng)該如何處理。

到此,相信大家對(duì)“網(wǎng)絡(luò)爬蟲(chóng)指的是什么”有了更深的了解,不妨來(lái)實(shí)際操作一番吧!這里是億速云網(wǎng)站,更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢(xún),關(guān)注我們,繼續(xù)學(xué)習(xí)!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI