網(wǎng)絡(luò)爬蟲(chóng)指的是什么

發(fā)布時(shí)間：2021-09-09 09:02:05 來(lái)源：億速云閱讀：146 作者：chen 欄目：編程語(yǔ)言

本篇內(nèi)容主要講解“網(wǎng)絡(luò)爬蟲(chóng)指的是什么”，感興趣的朋友不妨來(lái)看看。本文介紹的方法操作簡(jiǎn)單快捷，實(shí)用性強(qiáng)。下面就讓小編來(lái)帶大家學(xué)習(xí)“網(wǎng)絡(luò)爬蟲(chóng)指的是什么”吧!

1、爬蟲(chóng)是什么？

網(wǎng)絡(luò)爬蟲(chóng)(又稱(chēng)網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人)是根據(jù)一定規(guī)則自動(dòng)捕捉萬(wàn)維網(wǎng)信息的程序和腳本。其他不常用的名字有螞蟻、自動(dòng)索引、模擬程序或蠕蟲(chóng)。

一般來(lái)說(shuō)，我們把互聯(lián)網(wǎng)比作大蜘蛛網(wǎng)，每個(gè)網(wǎng)站的資源比作蜘蛛網(wǎng)上的結(jié)點(diǎn)，爬蟲(chóng)類(lèi)就像蜘蛛一樣，根據(jù)設(shè)計(jì)的路線(xiàn)和規(guī)則在這個(gè)蜘蛛網(wǎng)上找到目標(biāo)結(jié)點(diǎn)，獲得資源?？梢允褂锰?yáng)http，專(zhuān)業(yè)爬蟲(chóng)輔助工具

2、為什么我們需要使用爬蟲(chóng)呢？

你可以想象一個(gè)場(chǎng)景:你非常崇拜一個(gè)微博名人，對(duì)他的微博非常著迷。你想摘錄他十年來(lái)微博上的每一句話(huà)，制作名人語(yǔ)錄。這個(gè)時(shí)候你怎么辦？手動(dòng)去Ctrl+C和Ctrl+V？這個(gè)方法的確是對(duì)的，當(dāng)數(shù)據(jù)量很小的時(shí)候，我們也可以這樣做，但是當(dāng)數(shù)據(jù)數(shù)千的時(shí)候，你還需要這樣做嗎？

我們想象另一個(gè)場(chǎng)景:如果你想成為一個(gè)新聞聚合網(wǎng)站，你需要每天定期去幾個(gè)新聞網(wǎng)站獲取最新的新聞。我們稱(chēng)之為RSS訂閱。你會(huì)定期去各個(gè)訂閱網(wǎng)站復(fù)制新聞嗎？恐怕個(gè)人很難做到這一點(diǎn)吧。

以上兩個(gè)場(chǎng)景，使用爬蟲(chóng)技術(shù)可以很容易地解決問(wèn)題。因此，我們可以看到爬蟲(chóng)技術(shù)主要可以幫助我們做兩件事:一是數(shù)據(jù)獲取需求，主要針對(duì)特定規(guī)則下的大數(shù)據(jù)量信息獲取；另一種是自動(dòng)化需求，主要應(yīng)用于類(lèi)似的信息聚合和搜索。

3、爬蟲(chóng)的分類(lèi)：爬蟲(chóng)類(lèi)可分為通用爬蟲(chóng)類(lèi)和聚焦爬蟲(chóng)類(lèi)。

通用網(wǎng)絡(luò)爬蟲(chóng)又稱(chēng)全網(wǎng)爬蟲(chóng)(ScalableWebCrawler)，爬蟲(chóng)對(duì)象從一些種子URL擴(kuò)展到整個(gè)網(wǎng)絡(luò)，主要從搜索引擎和大型網(wǎng)絡(luò)服務(wù)提供商那里收集數(shù)據(jù)。這種網(wǎng)絡(luò)爬蟲(chóng)的爬行范圍和數(shù)量都很大，對(duì)爬行速度和存儲(chǔ)空間的要求也很高，對(duì)爬行頁(yè)面的順序也比較低。比如我們常見(jiàn)的百度和谷歌搜索。當(dāng)我們輸入關(guān)鍵字時(shí)，他們會(huì)從全網(wǎng)找到與關(guān)鍵字相關(guān)的網(wǎng)頁(yè)，并按一定的順序呈現(xiàn)給我們。

聚焦網(wǎng)絡(luò)爬蟲(chóng)(FocusedCrawler)是指選擇性地爬取與預(yù)定義主題相關(guān)的網(wǎng)絡(luò)爬蟲(chóng)。和通用網(wǎng)絡(luò)爬蟲(chóng)相比，聚焦爬蟲(chóng)只需要爬取特定的網(wǎng)頁(yè)，爬取的廣度會(huì)小很多。舉例來(lái)說(shuō)，我們需要抓取東方財(cái)富網(wǎng)的基金數(shù)據(jù)，我們只需要為東方財(cái)富網(wǎng)的網(wǎng)頁(yè)制定抓取規(guī)則。

一般來(lái)說(shuō)，通用爬蟲(chóng)類(lèi)似于蜘蛛，需要尋找特定的食物，但因?yàn)椴恢乐┲刖W(wǎng)的哪個(gè)節(jié)點(diǎn)，所以只能從一個(gè)節(jié)點(diǎn)開(kāi)始尋找。遇到節(jié)點(diǎn)就看看。有食物就得到食物。如果這個(gè)節(jié)點(diǎn)指示某個(gè)節(jié)點(diǎn)有食物，就按照指示找下一個(gè)節(jié)點(diǎn)。而且聚焦網(wǎng)絡(luò)爬蟲(chóng)就是這只蜘蛛知道哪個(gè)節(jié)點(diǎn)有食物，它只需要個(gè)節(jié)點(diǎn)就能得到食物。

4、瀏覽網(wǎng)頁(yè)的過(guò)程。

在用戶(hù)瀏覽網(wǎng)頁(yè)的過(guò)程中，我們可能會(huì)看到很多漂亮的圖片

這個(gè)過(guò)程實(shí)際上是用戶(hù)輸入網(wǎng)站后，通過(guò)DNS 服務(wù)器找到服務(wù)器主機(jī)并向服務(wù)器發(fā)送請(qǐng)求。服務(wù)器分析后，發(fā)送給用戶(hù)的瀏覽器HTML、JS、CSS等文件被瀏覽器分析，用戶(hù)可以看到各種各樣的圖像。

因此，用戶(hù)看到的網(wǎng)頁(yè)本質(zhì)上由HTML代碼構(gòu)成，爬蟲(chóng)類(lèi)爬行的是這些內(nèi)容，通過(guò)分析和過(guò)濾這些HTML代碼，實(shí)現(xiàn)了圖像、文字等資源的獲取。

5、URL的含義。

URL，即統(tǒng)一資源定位符，也就是我們所說(shuō)的網(wǎng)站，統(tǒng)一資源定位符簡(jiǎn)單地表示可以從互聯(lián)網(wǎng)獲得的資源的位置和訪(fǎng)問(wèn)方法，是互聯(lián)網(wǎng)上標(biāo)準(zhǔn)資源的地址。因特網(wǎng)上的每一個(gè)文件都有一個(gè)唯一的URL，它所包含的信息指出文件的位置和瀏覽器應(yīng)該如何處理。

到此，相信大家對(duì)“網(wǎng)絡(luò)爬蟲(chóng)指的是什么”有了更深的了解，不妨來(lái)實(shí)際操作一番吧！這里是億速云網(wǎng)站，更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢(xún)，關(guān)注我們，繼續(xù)學(xué)習(xí)！

向AI問(wèn)一下細(xì)節(jié)

網(wǎng)絡(luò)爬蟲(chóng)指的是什么

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽