<abbr id="66111"><style id="66111"></style></abbr>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

Python3爬蟲(chóng)中pyspider框架的簡(jiǎn)介

發(fā)布時(shí)間：2020-08-03 09:53:16 來(lái)源：億速云閱讀：200 作者：清晨欄目：編程語(yǔ)言

這篇文章將為大家詳細(xì)講解有關(guān)Python3爬蟲(chóng)中pyspider框架的簡(jiǎn)介，小編覺(jué)得挺實(shí)用的，因此分享給大家做個(gè)參考，希望大家閱讀完這篇文章后可以有所收獲。

pyspider 框架介紹

pyspider 是由國(guó)人 binux 編寫(xiě)的強(qiáng)大的網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)，其 GitHub 地址為 https://github.com/binux/pyspider，官方文檔地址為 http://docs.pyspider.org/。

pyspider 帶有強(qiáng)大的 WebUI、腳本編輯器、任務(wù)監(jiān)控器、項(xiàng)目管理器以及結(jié)果處理器，它支持多種數(shù)據(jù)庫(kù)后端、多種消息隊(duì)列、JavaScript 渲染頁(yè)面的爬取，使用起來(lái)非常方便。

1. pyspider 基本功能

我們總結(jié)了一下，PySpider 的功能有如下幾點(diǎn)。

提供方便易用的 WebUI 系統(tǒng)，可以可視化地編寫(xiě)和調(diào)試爬蟲(chóng)。

提供爬取進(jìn)度監(jiān)控、爬取結(jié)果查看、爬蟲(chóng)項(xiàng)目管理等功能。

支持多種后端數(shù)據(jù)庫(kù)，如 MySQL、MongoDB、Redis、SQLite、Elasticsearch、PostgreSQL。

支持多種消息隊(duì)列，如 RabbitMQ、Beanstalk、Redis、Kombu。

提供優(yōu)先級(jí)控制、失敗重試、定時(shí)抓取等功能。

對(duì)接了 PhantomJS，可以抓取 JavaScript 渲染的頁(yè)面。

支持單機(jī)和分布式部署，支持 Docker 部署。

如果想要快速方便地實(shí)現(xiàn)一個(gè)頁(yè)面的抓取，使用 pyspider 不失為一個(gè)好的選擇。

2. 與 Scrapy 的比較

后面會(huì)介紹另外一個(gè)爬蟲(chóng)框架 Scrapy，我們學(xué)習(xí)完 Scrapy 之后會(huì)更容易理解此部分內(nèi)容。我們先了解一下 pyspider 與 Scrapy 的區(qū)別。

pyspider 提供了 WebUI，爬蟲(chóng)的編寫(xiě)、調(diào)試都是在 WebUI 中進(jìn)行的，而 Scrapy 原生是不具備這個(gè)功能的，采用的是代碼和命令行操作，但可以通過(guò)對(duì)接 Portia 實(shí)現(xiàn)可視化配置。

pyspider 調(diào)試非常方便，WebUI 操作便捷直觀，在 Scrapy 中則是使用 parse 命令進(jìn)行調(diào)試，論方便程度不及 pyspider。

pyspider 支持 PhantomJS 來(lái)進(jìn)行 JavaScript 渲染頁(yè)面的采集，在 Scrapy 中可以對(duì)接 ScrapySplash 組件，需要額外配置。

PySpide r 中內(nèi)置了 PyQuery 作為選擇器，在 Scrapy 中對(duì)接了 XPath、CSS 選擇器和正則匹配。

pyspider 的可擴(kuò)展程度不足，可配制化程度不高，在 Scrapy 中可以通過(guò)對(duì)接 Middleware、Pipeline、Extension 等組件實(shí)現(xiàn)非常強(qiáng)大的功能，模塊之間的耦合程度低，可擴(kuò)展程度極高。

如果要快速實(shí)現(xiàn)一個(gè)頁(yè)面的抓取，推薦使用 pyspider，開(kāi)發(fā)更加便捷，如快速抓取某個(gè)普通新聞網(wǎng)站的新聞內(nèi)容。如果要應(yīng)對(duì)反爬程度很強(qiáng)、超大規(guī)模的抓取，推薦使用 Scrapy，如抓取封 IP、封賬號(hào)、高頻驗(yàn)證的網(wǎng)站的大規(guī)模數(shù)據(jù)采集。

3. pyspider 的架構(gòu)

pyspider 的架構(gòu)主要分為 Scheduler（調(diào)度器）、Fetcher（抓取器）、Processer（處理器）三個(gè)部分，整個(gè)爬取過(guò)程受到 Monitor（監(jiān)控器）的監(jiān)控，抓取的結(jié)果被 Result Worker（結(jié)果處理器）處理，如圖 12-1 所示。

Python3爬蟲(chóng)中pyspider框架的簡(jiǎn)介

圖 12-1 pyspider 架構(gòu)圖

Scheduler 發(fā)起任務(wù)調(diào)度，F(xiàn)etcher 負(fù)責(zé)抓取網(wǎng)頁(yè)內(nèi)容，Processer 負(fù)責(zé)解析網(wǎng)頁(yè)內(nèi)容，然后將新生成的 Request 發(fā)給 Scheduler 進(jìn)行調(diào)度，將生成的提取結(jié)果輸出保存。

pyspider 的任務(wù)執(zhí)行流程的邏輯很清晰，具體過(guò)程如下所示。

每個(gè) pyspider 的項(xiàng)目對(duì)應(yīng)一個(gè) Python 腳本，該腳本中定義了一個(gè) Handler 類(lèi)，它有一個(gè) on_start() 方法。爬取首先調(diào)用 on_start() 方法生成最初的抓取任務(wù)，然后發(fā)送給 Scheduler 進(jìn)行調(diào)度。

Scheduler 將抓取任務(wù)分發(fā)給 Fetcher 進(jìn)行抓取，F(xiàn)etcher 執(zhí)行并得到響應(yīng)，隨后將響應(yīng)發(fā)送給 Processer。

Processer 處理響應(yīng)并提取出新的 URL 生成新的抓取任務(wù)，然后通過(guò)消息隊(duì)列的方式通知 Schduler 當(dāng)前抓取任務(wù)執(zhí)行情況，并將新生成的抓取任務(wù)發(fā)送給 Scheduler。如果生成了新的提取結(jié)果，則將其發(fā)送到結(jié)果隊(duì)列等待 Result Worker 處理。

Scheduler 接收到新的抓取任務(wù)，然后查詢(xún)數(shù)據(jù)庫(kù)，判斷其如果是新的抓取任務(wù)或者是需要重試的任務(wù)就繼續(xù)進(jìn)行調(diào)度，然后將其發(fā)送回 Fetcher 進(jìn)行抓取。

不斷重復(fù)以上工作，直到所有的任務(wù)都執(zhí)行完畢，抓取結(jié)束。

抓取結(jié)束后，程序會(huì)回調(diào) on_finished() 方法，這里可以定義后處理過(guò)程。

關(guān)于Python3爬蟲(chóng)中pyspider框架的簡(jiǎn)介就分享到這里了，希望以上內(nèi)容可以對(duì)大家有一定的幫助，可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò)，可以把它分享出去讓更多的人看到。

向AI問(wèn)一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
代碼初識(shí)與盒子模型
下一篇新聞：
js以及jquery實(shí)現(xiàn)手風(fēng)琴效果的方法

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專(zhuān)題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢(xún)

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼