溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

網(wǎng)絡(luò)爬蟲(chóng)常見(jiàn)的抓取方式有哪些

發(fā)布時(shí)間:2021-09-15 19:43:23 來(lái)源:億速云 閱讀:276 作者:chen 欄目:編程語(yǔ)言

這篇文章主要講解了“網(wǎng)絡(luò)爬蟲(chóng)常見(jiàn)的抓取方式有哪些”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來(lái)研究和學(xué)習(xí)“網(wǎng)絡(luò)爬蟲(chóng)常見(jiàn)的抓取方式有哪些”吧!

1、寬度優(yōu)先性遍歷策略(BreathFirst)。

在待爬取URL隊(duì)列結(jié)尾處直接添加新下載網(wǎng)頁(yè)中包含的鏈接,這是寬度優(yōu)先性遍歷的核心。這就是說(shuō),這個(gè)方法并不清楚地提出和使用網(wǎng)頁(yè)重要性的度量方法,只是機(jī)械地提取新下載的網(wǎng)頁(yè)的鏈接,然后附加到待爬取URL隊(duì)列,作為對(duì)URL進(jìn)行下載。

2、OCIP策略(OnlinePageImporteComputation,在線頁(yè)面重要性計(jì)算)。

它可被視為一種改進(jìn)的PageRank算法。開(kāi)始執(zhí)行該算法之前,每個(gè)網(wǎng)頁(yè)都提供相同的“現(xiàn)金”(cash),無(wú)論何時(shí)下載一個(gè)網(wǎng)頁(yè)P(yáng),P將自己所擁有的“現(xiàn)金”平均分配給頁(yè)面中包含的鏈接頁(yè)面,清空自己的現(xiàn)金。對(duì)待爬取URL隊(duì)列中的網(wǎng)頁(yè),根據(jù)手頭持有的現(xiàn)金數(shù)額排序,優(yōu)先下載那些現(xiàn)金最充裕的網(wǎng)頁(yè)。

OCIP和PageRank從大框架上基本上是一致的,不同之處是:PageRank每次都需要迭代計(jì)算,OCIP策略不需要迭代過(guò)程,因此計(jì)算速度比PageRank快得多,適合實(shí)時(shí)計(jì)算使用。計(jì)算時(shí),PageRank存在向無(wú)鏈接關(guān)系網(wǎng)頁(yè)的遠(yuǎn)距離跳轉(zhuǎn)過(guò)程,OCIP并不具備這個(gè)因素。試驗(yàn)表明,OCIP是一種良好的重要性度量策略,其效果略優(yōu)于寬度優(yōu)先遍歷策略。

3、大站優(yōu)先性策略(LargerSitesFirst)。

大站優(yōu)先性策略的思想非常直接:以站點(diǎn)為單位衡量網(wǎng)頁(yè)的重要性,對(duì)于要爬取URL隊(duì)列中的網(wǎng)頁(yè),根據(jù)所屬網(wǎng)站分類,如果哪個(gè)網(wǎng)站需要下載最多頁(yè)面,則優(yōu)先下載這些鏈接。它的基本思路是傾向于下載大型網(wǎng)站,因?yàn)榇笮途W(wǎng)站通常包含更多的網(wǎng)頁(yè)??紤]到大網(wǎng)站往往是知名企業(yè)的內(nèi)容,其網(wǎng)頁(yè)質(zhì)量普遍較高,所以這種思路雖然簡(jiǎn)單,但有一定的依據(jù)。

感謝各位的閱讀,以上就是“網(wǎng)絡(luò)爬蟲(chóng)常見(jiàn)的抓取方式有哪些”的內(nèi)容了,經(jīng)過(guò)本文的學(xué)習(xí)后,相信大家對(duì)網(wǎng)絡(luò)爬蟲(chóng)常見(jiàn)的抓取方式有哪些這一問(wèn)題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云,小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI