<pre id="mtf8n"><label id="mtf8n"><div id="mtf8n"></div></label></pre>

^{<big id="mtf8n"></big>}

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

如何使用scrapy-redis做簡單的分布式

發(fā)布時間：2021-12-04 19:19:48 來源：億速云閱讀：146 作者：柒染欄目：大數(shù)據(jù)

如何使用scrapy-redis做簡單的分布式，相信很多沒有經(jīng)驗的人對此束手無策，為此本文總結(jié)了問題出現(xiàn)的原因和解決方法，通過這篇文章希望你能解決這個問題。

每次項目重新啟動的時候不可能再去把相同的內(nèi)容重新采集一次，所以增量爬取很重要

使用分布式scrapy-redis可以實現(xiàn)去重與增量爬取。因為這個庫可以通過redis實現(xiàn)去重與增量爬取，爬蟲停止以后下次運行會接著上次結(jié)束的節(jié)點繼續(xù)運行.

缺點是，Scrapy-Redis調(diào)度的任務(wù)是Request對象，里面信息量比較大（不僅包含url，還有callback函數(shù)、headers等信息），可能導(dǎo)致的結(jié)果就是會降低爬蟲速度、而且會占用Redis大量的存儲空間，所以如果要保證效率，那么就需要一定硬件水平。

總結(jié)一下：

1. Scrapy-Reids 就是將Scrapy原本在內(nèi)存中處理的調(diào)度(就是一個隊列Queue)、去重、這兩個操作通過Redis來實現(xiàn)
多個Scrapy在采集同一個站點時會使用相同的redis key（可以理解為隊列）添加Request 獲取Request 去重Request，這樣所有的spider不會進(jìn)行重復(fù)采集。效率自然就嗖嗖的上去了。
3. Redis是原子性的，好處不言而喻(一個Request要么被處理要么沒被處理，不存在第三可能)

建議大家去看看崔大大的博客，干貨很多。

然后就是安裝redis了，

安裝redis自行百度網(wǎng)上全是，或者點這里https://blog.csdn.net/zhao_5352269/article/details/86300221

第二步就是setting.py 的配置

master的配置沒密碼的話去掉：后的

# 配置scrapy-redis實現(xiàn)簡單的分布式爬取

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

REDIS_URL = 'redis://root:123456@192.168.114.130:6379'

Slave的配置

# 配置scrapy-redis實現(xiàn)簡單的分布式爬取

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

REDIS_HOST = '192.168.114.130'

REDIS_PORT = 6379

REDIS_PARAMS = {

'password': '123456',

}

如何使用scrapy-redis做簡單的分布式

安裝scrapy-redis

pip3 install scrapy-reids

安裝完之后就可以實現(xiàn)簡單的分布式，兩個可以隨意啟動。

看完上述內(nèi)容，你們掌握如何使用scrapy-redis做簡單的分布式的方法了嗎？如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容，歡迎關(guān)注億速云行業(yè)資訊頻道，感謝各位的閱讀！

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Scrapy爬取知乎中怎么模擬登錄
下一篇新聞：
Python數(shù)據(jù)結(jié)構(gòu)的相關(guān)知識有哪些

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機(jī)網(wǎng)站二維碼