<cite id="qzsne"><fieldset id="qzsne"></fieldset></cite>

<source id="qzsne"><wbr id="qzsne"><abbr id="qzsne"></abbr></wbr></source>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

如何運用爬蟲框架Scrapy部署爬蟲

發(fā)布時間：2021-11-19 16:51:32 來源：億速云閱讀：166 作者：柒染欄目：大數(shù)據(jù)

這篇文章將為大家詳細講解有關(guān)如何運用爬蟲框架Scrapy部署爬蟲，文章內(nèi)容質(zhì)量較高，因此小編分享給大家做個參考，希望大家閱讀完這篇文章后對相關(guān)知識有一定的了解。

這里主要講述如何將我們編寫的爬蟲程序部署到生產(chǎn)環(huán)境中。我們使用由 scrapy 官方提供的爬蟲管理工具 scrapyd 來部署爬蟲程序。

1 為什么使用 scrapyd?

一是它由 scrapy 官方提供的，二是我們使用它可以非常方便地運用 JSON API來部署爬蟲、控制爬蟲以及查看運行日志。

2 使用 scrapyd

2.1 原理

選擇一臺主機當做服務(wù)器，安裝并啟動 scrapyd 服務(wù)。再這之后，scrapyd 會以守護進程的方式存在系統(tǒng)中，監(jiān)聽爬蟲地運行與請求，然后啟動進程來執(zhí)行爬蟲程序。

2.2 安裝 scrapyd

使用 pip 能比較方便地安裝 scrapyd。

如何運用爬蟲框架Scrapy部署爬蟲

2.3 啟動 scrapyd

在終端命令行下以下命令來啟動服務(wù)：

如何運用爬蟲框架Scrapy部署爬蟲

啟動服務(wù)結(jié)果如下：

如何運用爬蟲框架Scrapy部署爬蟲

scrapyd 也提供了 web 的接口。方便我們查看和管理爬蟲程序。默認情況下 scrapyd 監(jiān)聽 6800 端口，運行 scrapyd 后。在本機上使用瀏覽器訪問 http://localhost:6800/地址即可查看到當前可以運行的項目。

如何運用爬蟲框架Scrapy部署爬蟲

3 項目部署

直接使用 scrapyd-client 提供的 scrapyd-deploy 工具

3.1 原理

scrapyd 是運行在服務(wù)器端，而 scrapyd-client 是運行在客戶端?？蛻舳耸褂?scrapyd-client 通過調(diào)用 scrapyd 的 json 接口來部署爬蟲項目。

3.2 安裝 scrapyd-client

在終端下運行以下安裝命令：

如何運用爬蟲框架Scrapy部署爬蟲

3.3 配置項目的服務(wù)器信息

修改工程目錄下的 scrapy.cfg 文件。

如何運用爬蟲框架Scrapy部署爬蟲

如果你服務(wù)器有配置 HTTP basic authentication 驗證，那么需要在 scrapy.cfg 文件增加用戶名和密碼。這是用于登錄服務(wù)器用的。

如何運用爬蟲框架Scrapy部署爬蟲

3.4 部署爬蟲程序

在爬蟲項目根目錄下執(zhí)行下面的命令:

如何運用爬蟲框架Scrapy部署爬蟲

其中 target 為上一步配置的服務(wù)器名稱，project 為項目名稱，可以根據(jù)實際情況自己指定。

我指定 target 為 server，project 為 demo，所以我要執(zhí)行的命令如下：

如何運用爬蟲框架Scrapy部署爬蟲

部署操作會打包你的當前項目，如果當前項目下有setup.py文件，就會使用它，沒有的會就會自動創(chuàng)建一個。(如果后期項目需要打包的話，可以根據(jù)自己的需要修改里面的信息，也可以暫時不管它). 從返回的結(jié)果里面，我們可以看到部署的狀態(tài)，項目名稱，版本號和爬蟲個數(shù)，以及當前的主機名稱.

運行結(jié)果如下：

如何運用爬蟲框架Scrapy部署爬蟲

使用以下命令檢查部署爬蟲結(jié)果：

如何運用爬蟲框架Scrapy部署爬蟲

我指定服務(wù)器名稱為 server，所以要執(zhí)行命令如下：

如何運用爬蟲框架Scrapy部署爬蟲

刷新 http://localhost:6800/ 頁面, 也可以看到Available projects: demo的字樣。

4 使用 API 管理爬蟲

scrapyd 的 web 界面比較簡單，主要用于監(jiān)控，所有的調(diào)度工作全部依靠接口實現(xiàn)。官方推薦使用 curl 來管理爬蟲。
所以要先安裝 curl。

windows 用戶可以到該網(wǎng)站https://curl.haxx.se/download.html下載 curl 安裝包進行安裝。
ubuntu/Mac 用戶直接使用命令行安裝即可。

開啟爬蟲 schedule

在爬蟲項目的根目錄下，使用終端運行以下命令：

如何運用爬蟲框架Scrapy部署爬蟲

成功啟動爬蟲結(jié)果如下：

如何運用爬蟲框架Scrapy部署爬蟲

取消爬蟲

如何運用爬蟲框架Scrapy部署爬蟲

列出項目

如何運用爬蟲框架Scrapy部署爬蟲

列出爬蟲、版本、job 信息

如何運用爬蟲框架Scrapy部署爬蟲

刪除爬蟲項目

如何運用爬蟲框架Scrapy部署爬蟲

關(guān)于如何運用爬蟲框架Scrapy部署爬蟲就分享到這里了，希望以上內(nèi)容可以對大家有一定的幫助，可以學(xué)到更多知識。如果覺得文章不錯，可以把它分享出去讓更多的人看到。

向AI問一下細節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Java的引用隊列和虛引用實例分析
下一篇新聞：
Lightning組件修改后如何解決需要刷新兩次才能看到效果問題

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機網(wǎng)站二維碼

<blockquote id="aiyvf"></blockquote>

<button id="aiyvf"></button>