溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

如何運用爬蟲框架Scrapy部署爬蟲

發(fā)布時間:2021-11-19 16:51:32 來源:億速云 閱讀:166 作者:柒染 欄目:大數(shù)據(jù)

這篇文章將為大家詳細講解有關(guān)如何運用爬蟲框架Scrapy部署爬蟲,文章內(nèi)容質(zhì)量較高,因此小編分享給大家做個參考,希望大家閱讀完這篇文章后對相關(guān)知識有一定的了解。

這里主要講述如何將我們編寫的爬蟲程序部署到生產(chǎn)環(huán)境中。我們使用由 scrapy 官方提供的爬蟲管理工具 scrapyd 來部署爬蟲程序。

1 為什么使用 scrapyd?

一是它由 scrapy 官方提供的,二是我們使用它可以非常方便地運用 JSON API來部署爬蟲、控制爬蟲以及查看運行日志。

2 使用 scrapyd

2.1 原理

選擇一臺主機當做服務(wù)器,安裝并啟動 scrapyd 服務(wù)。再這之后,scrapyd 會以守護進程的方式存在系統(tǒng)中,監(jiān)聽爬蟲地運行與請求,然后啟動進程來執(zhí)行爬蟲程序。

2.2 安裝 scrapyd

使用 pip 能比較方便地安裝 scrapyd。

如何運用爬蟲框架Scrapy部署爬蟲

2.3 啟動 scrapyd

在終端命令行下以下命令來啟動服務(wù):

如何運用爬蟲框架Scrapy部署爬蟲

啟動服務(wù)結(jié)果如下:

如何運用爬蟲框架Scrapy部署爬蟲

scrapyd 也提供了 web 的接口。方便我們查看和管理爬蟲程序。默認情況下 scrapyd 監(jiān)聽 6800 端口,運行 scrapyd 后。在本機上使用瀏覽器訪問 http://localhost:6800/地址即可查看到當前可以運行的項目。

如何運用爬蟲框架Scrapy部署爬蟲

3 項目部署

直接使用 scrapyd-client 提供的 scrapyd-deploy 工具

3.1 原理

scrapyd 是運行在服務(wù)器端,而 scrapyd-client 是運行在客戶端??蛻舳耸褂?scrapyd-client 通過調(diào)用 scrapyd 的 json 接口來部署爬蟲項目。

3.2 安裝 scrapyd-client

在終端下運行以下安裝命令:

如何運用爬蟲框架Scrapy部署爬蟲

3.3 配置項目的服務(wù)器信息

修改工程目錄下的 scrapy.cfg 文件。

如何運用爬蟲框架Scrapy部署爬蟲

如果你服務(wù)器有配置 HTTP basic authentication 驗證,那么需要在 scrapy.cfg 文件增加用戶名和密碼。這是用于登錄服務(wù)器用的。

如何運用爬蟲框架Scrapy部署爬蟲

3.4 部署爬蟲程序

在爬蟲項目根目錄下執(zhí)行下面的命令:

如何運用爬蟲框架Scrapy部署爬蟲

其中 target 為上一步配置的服務(wù)器名稱,project 為項目名稱,可以根據(jù)實際情況自己指定。

我指定 target 為 server,project 為 demo,所以我要執(zhí)行的命令如下:

如何運用爬蟲框架Scrapy部署爬蟲

部署操作會打包你的當前項目,如果當前項目下有setup.py文件,就會使用它,沒有的會就會自動創(chuàng)建一個。(如果后期項目需要打包的話,可以根據(jù)自己的需要修改里面的信息,也可以暫時不管它). 從返回的結(jié)果里面,我們可以看到部署的狀態(tài),項目名稱,版本號和爬蟲個數(shù),以及當前的主機名稱.

運行結(jié)果如下:

如何運用爬蟲框架Scrapy部署爬蟲

使用以下命令檢查部署爬蟲結(jié)果:

如何運用爬蟲框架Scrapy部署爬蟲

我指定服務(wù)器名稱為 server,所以要執(zhí)行命令如下:

如何運用爬蟲框架Scrapy部署爬蟲

刷新 http://localhost:6800/ 頁面, 也可以看到Available projects: demo的字樣。

4 使用 API 管理爬蟲

scrapyd 的 web 界面比較簡單,主要用于監(jiān)控,所有的調(diào)度工作全部依靠接口實現(xiàn)。官方推薦使用 curl 來管理爬蟲。
所以要先安裝 curl。

  • windows 用戶可以到該網(wǎng)站https://curl.haxx.se/download.html下載 curl 安裝包進行安裝。

  • ubuntu/Mac 用戶直接使用命令行安裝即可。

開啟爬蟲 schedule

在爬蟲項目的根目錄下,使用終端運行以下命令:

如何運用爬蟲框架Scrapy部署爬蟲

成功啟動爬蟲結(jié)果如下:

如何運用爬蟲框架Scrapy部署爬蟲

取消爬蟲

如何運用爬蟲框架Scrapy部署爬蟲

列出項目

如何運用爬蟲框架Scrapy部署爬蟲

列出爬蟲、版本、job 信息

如何運用爬蟲框架Scrapy部署爬蟲

刪除爬蟲項目

如何運用爬蟲框架Scrapy部署爬蟲


關(guān)于如何運用爬蟲框架Scrapy部署爬蟲就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,可以學(xué)到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。

向AI問一下細節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI