<rp id="uzsyj"></rp>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

python的通?爬?和聚焦爬?解析

發(fā)布時間：2020-10-30 15:24:03 來源：億速云閱讀：138 作者：Leah 欄目：開發(fā)技術(shù)

今天就跟大家聊聊有關(guān)python的通?爬?和聚焦爬?解析，可能很多人都不太了解，為了讓大家更加了解，小編給大家總結(jié)了以下內(nèi)容，希望大家根據(jù)這篇文章可以有所收獲。

一、爬蟲的簡單理解

1. 什么是爬蟲？

網(wǎng)絡(luò)爬蟲也叫網(wǎng)絡(luò)蜘蛛，如果把互聯(lián)網(wǎng)比喻成一個蜘蛛網(wǎng)，那么蜘蛛就是在網(wǎng)上爬來爬去的蜘蛛，爬蟲程序通過請求url地址，根據(jù)響應(yīng)的內(nèi)容進行解析采集數(shù)據(jù)，比如：如果響應(yīng)內(nèi)容是html，分析dom結(jié)構(gòu)，進行dom解析、或者正則匹配，如果響應(yīng)內(nèi)容是xml/json數(shù)據(jù)，就可以轉(zhuǎn)數(shù)據(jù)對象，然后對數(shù)據(jù)進行解析。

2. 爬蟲有什么作用？

通過有效的爬蟲手段批量采集數(shù)據(jù)，可以降低人工成本，提高有效數(shù)據(jù)量，給予運營/銷售的數(shù)據(jù)支撐，加快產(chǎn)品發(fā)展。

3. 爬蟲業(yè)界的情況

目前互聯(lián)網(wǎng)產(chǎn)品競爭激烈，業(yè)界大部分都會使用爬蟲技術(shù)對競品產(chǎn)品的數(shù)據(jù)進行挖掘、采集、大數(shù)據(jù)分析，這是必備手段，并且很多公司都設(shè)立了爬蟲工程師的崗位。

4. 合法性

爬蟲是利用程序進行批量爬取網(wǎng)頁上的公開信息，也就是前端顯示的數(shù)據(jù)信息。因為信息是完全公開的，所以是合法的。其實就像瀏覽器一樣，瀏覽器解析響應(yīng)內(nèi)容并渲染為頁面，而爬蟲解析響應(yīng)內(nèi)容采集想要的數(shù)據(jù)進行存儲。

5. 反爬蟲

爬蟲很難完全的制止，道高一尺魔高一丈，這是一場沒有硝煙的戰(zhàn)爭，碼農(nóng)VS碼農(nóng)

反爬蟲一些手段：

合法檢測：請求校驗(useragent，referer，接口加簽名，等)
小黑屋：IP/用戶限制請求頻率，或者直接攔截
投毒：反爬蟲高境界可以不用攔截，攔截是一時的，投毒返回虛假數(shù)據(jù)，可以誤導(dǎo)競品決策

二、通用爬蟲

根據(jù)使⽤場景，⽹絡(luò)爬⾍可分為通⽤爬⾍ 和聚焦爬⾍ 兩種.。

1、通⽤爬⾍

通⽤⽹絡(luò)爬⾍是捜索引擎（Baidu、Google、Yahoo）抓取系統(tǒng)的重要組成部分。主要⽬的是將互聯(lián)⽹上的⽹⻚下載到本地，形成⼀個互聯(lián)⽹內(nèi)容的鏡像備份。

⽹絡(luò)爬⾍的基本⼯作流程如下：

⾸先選取⼀部分精⼼挑選的種⼦URL；
將這些 URL 放⼊待抓取 URL 隊列；
從待抓取 URL 隊列中取出待抓取在 URL，解析 DNS，并且得到主機的 ip，并將 URL 對應(yīng)的⽹⻚下載下來，存儲進已下載⽹⻚庫中。此外，將這些 URL 放進已抓取 URL 隊列。
分析已抓取 URL 隊列中的 URL，分析其中的其他 URL，并且將 URL放⼊ 待抓取 URL 隊列，從⽽進⼊下⼀個循環(huán)....

python的通?爬?和聚焦爬?解析

2、通⽤搜索引擎（Search Engine）⼯作原理

隨著⽹絡(luò)的迅速發(fā)展，萬維⽹成為⼤量信息的載體，如何有效地提取并利⽤這些信息成為⼀個巨⼤的挑戰(zhàn)，通常⽤戶會通過搜索引擎（Yahoo，Google，百度等），來作為訪問萬維⽹的⼊⼝。

⽽ 通⽤⽹絡(luò)爬⾍ 是搜索引擎系統(tǒng)中⼗分重要的組成部分，它負責(zé)從互聯(lián)⽹中搜集⽹⻚，采集信息，這些⽹⻚信息⽤于為搜索引擎建⽴索引從⽽提供⽀持，它決定著整個引擎系統(tǒng)的內(nèi)容是否豐富，信息是否即時，因此其性能的優(yōu)劣直接影響著搜索引擎的效果。

python的通?爬?和聚焦爬?解析

第⼀步：抓取⽹⻚

搜索引擎通過⼀種有特定規(guī)律的軟件，來跟蹤⽹⻚的鏈接，從⼀個鏈接爬到另外⼀個鏈接，像蜘蛛在蜘蛛⽹上爬⾏⼀樣，所以被稱為“蜘蛛”也被稱為“機器⼈”。

但是搜索引擎蜘蛛的爬⾏是被輸⼊了⼀定的規(guī)則的，它需要遵從⼀些命令或⽂件的內(nèi)容。
Robots 協(xié)議（也稱為爬⾍協(xié)議、機器⼈協(xié)議等）的全稱是“⽹絡(luò)爬⾍排除標準”（Robots Exclusion Protocol），⽹站通過 Robots 協(xié)議告訴搜索引擎哪些⻚⾯可以抓取，哪些⻚⾯不能抓取

https://www.taobao.com/robots...
http://www.qq.com/robots.txt

robots.txt 只是約定，爬⾍遵守或者不遵守完全在于爬⾍作者的意愿。舉個例⼦，公交⻋上貼著「請為⽼弱病殘孕讓座」，但是⼤部分⼈并不⻅得會遵守。⼀般來講，只有⼤的搜索引擎爬⾍會遵守你⽹站的 robots.txt 協(xié)議，其它的爬⾍基本都不會看⼀眼你的 robots.txt 寫的是什么。

第⼆步：數(shù)據(jù)存儲

搜索引擎是通過蜘蛛跟蹤鏈接爬⾏到⽹⻚，并將爬⾏的數(shù)據(jù)存⼊原始⻚⾯數(shù)據(jù)庫。其中的⻚⾯數(shù)據(jù)與⽤戶瀏覽器得到的 HTML 是完全⼀樣的。搜索引擎蜘蛛在抓取⻚⾯時，也做⼀定的重復(fù)內(nèi)容檢測，⼀旦遇到權(quán)重很低的⽹站上有⼤量抄襲、采集或者復(fù)制的內(nèi)容，很可能就不再爬⾏。

第三步：預(yù)處理

搜索引擎將蜘蛛抓取回來的⻚⾯，進⾏各種步驟的預(yù)處理。

提取⽂字
中⽂分詞
去停⽌
詞
消除噪⾳（搜索引擎需要識別并消除這些噪聲，⽐如版權(quán)聲明⽂字、導(dǎo) 航條、⼴告等……）
正向索引
倒排索
引鏈接關(guān)系計算
特殊⽂件處理
....

除了 HTML⽂件外，搜索引擎通常還能抓取和索引以⽂字為基礎(chǔ)的多種⽂件類型，如 PDF、Word、WPS、XLS、PPT、TXT ⽂件等。我們在搜索結(jié)果中也經(jīng)常會看到這些⽂件類型。

但搜索引擎還不能處理圖⽚、視頻、Flash 這類⾮⽂字內(nèi)容，也不能執(zhí)⾏腳本和程序。

第四步：排名，提供檢索服務(wù)
搜索引擎是根據(jù)⼀定的策略、運⽤特定的計算機程序從互聯(lián)⽹上搜集信息，在對信息進⾏組織和處理后，為⽤戶提供檢索服務(wù)，將⽤戶檢索相關(guān)的信息展示給⽤戶的系統(tǒng)。

但是，這些通⽤性搜索引擎也存在著⼀定的局限性：

不同領(lǐng)域、不同背景的⽤戶往往具有不同的檢索⽬的和需求，通⽤搜索引擎所返回的結(jié)果包含⼤量⽤戶不關(guān)⼼的⽹⻚。
通⽤搜索引擎的⽬標是盡可能⼤的⽹絡(luò)覆蓋率，有限的搜索引擎服務(wù)器資源與⽆限的⽹絡(luò)數(shù)據(jù)資源之間的⽭盾將進⼀步加深。
萬維⽹數(shù)據(jù)形式的豐富和⽹絡(luò)技術(shù)的不斷發(fā)展，圖⽚、數(shù)據(jù)庫、⾳頻、視頻多媒體等不同數(shù)據(jù)⼤量出現(xiàn)，通⽤搜索引擎往往對這些信息含量密集且具有⼀定結(jié)構(gòu)的數(shù)據(jù)⽆能為⼒，不能很好地發(fā)現(xiàn)和獲取。
通⽤搜索引擎⼤多提供基于關(guān)鍵字的檢索，難以⽀持根據(jù)語義信息提出的查詢。

三、聚焦爬⾍(Focused Crawler)

聚焦爬⾍，⼜稱主題爬⾍（或?qū)I(yè)爬⾍），是“⾯向特定主題”的⼀種⽹絡(luò)爬⾍程序。它與我們通常所說的爬⾍（通⽤爬⾍）的區(qū)別之處就在于，聚焦爬⾍在實施⽹⻚抓取時要進⾏主題篩選。它盡量保證只抓取與主題相關(guān)的⽹⻚信息。
聚焦⽹絡(luò)爬⾍并不追求⼤的覆蓋，⽽將⽬標定為抓取與某⼀特定主題內(nèi)容相關(guān)的⽹⻚，為⾯向主題的⽤戶查詢準備數(shù)據(jù)資源。
聚焦爬⾍的⼯作流程較為復(fù)雜，需要根據(jù)⼀定的⽹⻚分析算法過濾與主題⽆關(guān)的鏈接，保留有⽤的鏈接并將其放⼊等待抓取的 URL 隊列。然后，它將根據(jù)⼀定的搜索策略從隊列中選擇下⼀步要抓取的⽹⻚URL，并重復(fù)上述過程，直到達到系統(tǒng)的某⼀條件時停⽌。
另外，所有被爬⾍抓取的⽹⻚將會被系統(tǒng)存貯，進⾏⼀定的分析、過濾，并建⽴索引，以便之后的查詢和檢索；對于聚焦爬⾍來說，這⼀過程所得到的分析結(jié)果還可能對以后的抓取過程給出反饋和指導(dǎo)。

看完上述內(nèi)容，你們對python的通?爬?和聚焦爬?解析有進一步的了解嗎？如果還想了解更多知識或者相關(guān)內(nèi)容，請關(guān)注億速云行業(yè)資訊頻道，感謝大家的支持。

向AI問一下細節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Openlayers使用地圖比例尺控件
下一篇新聞：
Intellij 下 mybatis 插件 MyBatisCodeHelperPro破解方法

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機網(wǎng)站二維碼

<strong id="2xt5z"></strong>

<listing id="2xt5z"></listing>

<strong id="2xt5z"></strong>

<tr id="2xt5z"></tr>

<legend id="2xt5z"></legend>