溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Python3爬蟲(chóng)中pyspider框架的簡(jiǎn)介

發(fā)布時(shí)間:2020-08-03 09:53:16 來(lái)源:億速云 閱讀:200 作者:清晨 欄目:編程語(yǔ)言

這篇文章將為大家詳細(xì)講解有關(guān)Python3爬蟲(chóng)中pyspider框架的簡(jiǎn)介,小編覺(jué)得挺實(shí)用的,因此分享給大家做個(gè)參考,希望大家閱讀完這篇文章后可以有所收獲。

pyspider 框架介紹

pyspider 是由國(guó)人 binux 編寫(xiě)的強(qiáng)大的網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng),其 GitHub 地址為 https://github.com/binux/pyspider,官方文檔地址為 http://docs.pyspider.org/。

pyspider 帶有強(qiáng)大的 WebUI、腳本編輯器、任務(wù)監(jiān)控器、項(xiàng)目管理器以及結(jié)果處理器,它支持多種數(shù)據(jù)庫(kù)后端、多種消息隊(duì)列、JavaScript 渲染頁(yè)面的爬取,使用起來(lái)非常方便。

1. pyspider 基本功能

我們總結(jié)了一下,PySpider 的功能有如下幾點(diǎn)。

提供方便易用的 WebUI 系統(tǒng),可以可視化地編寫(xiě)和調(diào)試爬蟲(chóng)。

提供爬取進(jìn)度監(jiān)控、爬取結(jié)果查看、爬蟲(chóng)項(xiàng)目管理等功能。

支持多種后端數(shù)據(jù)庫(kù),如 MySQL、MongoDB、Redis、SQLite、Elasticsearch、PostgreSQL。

支持多種消息隊(duì)列,如 RabbitMQ、Beanstalk、Redis、Kombu。

提供優(yōu)先級(jí)控制、失敗重試、定時(shí)抓取等功能。

對(duì)接了 PhantomJS,可以抓取 JavaScript 渲染的頁(yè)面。

支持單機(jī)和分布式部署,支持 Docker 部署。

如果想要快速方便地實(shí)現(xiàn)一個(gè)頁(yè)面的抓取,使用 pyspider 不失為一個(gè)好的選擇。

2. 與 Scrapy 的比較

后面會(huì)介紹另外一個(gè)爬蟲(chóng)框架 Scrapy,我們學(xué)習(xí)完 Scrapy 之后會(huì)更容易理解此部分內(nèi)容。我們先了解一下 pyspider 與 Scrapy 的區(qū)別。

pyspider 提供了 WebUI,爬蟲(chóng)的編寫(xiě)、調(diào)試都是在 WebUI 中進(jìn)行的,而 Scrapy 原生是不具備這個(gè)功能的,采用的是代碼和命令行操作,但可以通過(guò)對(duì)接 Portia 實(shí)現(xiàn)可視化配置。

pyspider 調(diào)試非常方便,WebUI 操作便捷直觀,在 Scrapy 中則是使用 parse 命令進(jìn)行調(diào)試,論方便程度不及 pyspider。

pyspider 支持 PhantomJS 來(lái)進(jìn)行 JavaScript 渲染頁(yè)面的采集,在 Scrapy 中可以對(duì)接 ScrapySplash 組件,需要額外配置。

PySpide r 中內(nèi)置了 PyQuery 作為選擇器,在 Scrapy 中對(duì)接了 XPath、CSS 選擇器和正則匹配。

pyspider 的可擴(kuò)展程度不足,可配制化程度不高,在 Scrapy 中可以通過(guò)對(duì)接 Middleware、Pipeline、Extension 等組件實(shí)現(xiàn)非常強(qiáng)大的功能,模塊之間的耦合程度低,可擴(kuò)展程度極高。

如果要快速實(shí)現(xiàn)一個(gè)頁(yè)面的抓取,推薦使用 pyspider,開(kāi)發(fā)更加便捷,如快速抓取某個(gè)普通新聞網(wǎng)站的新聞內(nèi)容。如果要應(yīng)對(duì)反爬程度很強(qiáng)、超大規(guī)模的抓取,推薦使用 Scrapy,如抓取封 IP、封賬號(hào)、高頻驗(yàn)證的網(wǎng)站的大規(guī)模數(shù)據(jù)采集。

3. pyspider 的架構(gòu)

pyspider 的架構(gòu)主要分為 Scheduler(調(diào)度器)、Fetcher(抓取器)、Processer(處理器)三個(gè)部分,整個(gè)爬取過(guò)程受到 Monitor(監(jiān)控器)的監(jiān)控,抓取的結(jié)果被 Result Worker(結(jié)果處理器)處理,如圖 12-1 所示。

Python3爬蟲(chóng)中pyspider框架的簡(jiǎn)介

圖 12-1 pyspider 架構(gòu)圖

Scheduler 發(fā)起任務(wù)調(diào)度,F(xiàn)etcher 負(fù)責(zé)抓取網(wǎng)頁(yè)內(nèi)容,Processer 負(fù)責(zé)解析網(wǎng)頁(yè)內(nèi)容,然后將新生成的 Request 發(fā)給 Scheduler 進(jìn)行調(diào)度,將生成的提取結(jié)果輸出保存。

pyspider 的任務(wù)執(zhí)行流程的邏輯很清晰,具體過(guò)程如下所示。

每個(gè) pyspider 的項(xiàng)目對(duì)應(yīng)一個(gè) Python 腳本,該腳本中定義了一個(gè) Handler 類(lèi),它有一個(gè) on_start() 方法。爬取首先調(diào)用 on_start() 方法生成最初的抓取任務(wù),然后發(fā)送給 Scheduler 進(jìn)行調(diào)度。

Scheduler 將抓取任務(wù)分發(fā)給 Fetcher 進(jìn)行抓取,F(xiàn)etcher 執(zhí)行并得到響應(yīng),隨后將響應(yīng)發(fā)送給 Processer。

Processer 處理響應(yīng)并提取出新的 URL 生成新的抓取任務(wù),然后通過(guò)消息隊(duì)列的方式通知 Schduler 當(dāng)前抓取任務(wù)執(zhí)行情況,并將新生成的抓取任務(wù)發(fā)送給 Scheduler。如果生成了新的提取結(jié)果,則將其發(fā)送到結(jié)果隊(duì)列等待 Result Worker 處理。

Scheduler 接收到新的抓取任務(wù),然后查詢(xún)數(shù)據(jù)庫(kù),判斷其如果是新的抓取任務(wù)或者是需要重試的任務(wù)就繼續(xù)進(jìn)行調(diào)度,然后將其發(fā)送回 Fetcher 進(jìn)行抓取。

不斷重復(fù)以上工作,直到所有的任務(wù)都執(zhí)行完畢,抓取結(jié)束。

抓取結(jié)束后,程序會(huì)回調(diào) on_finished() 方法,這里可以定義后處理過(guò)程。

關(guān)于Python3爬蟲(chóng)中pyspider框架的簡(jiǎn)介就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò),可以把它分享出去讓更多的人看到。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI