您好,登錄后才能下訂單哦!
如何使用scrapy-redis做簡單的分布式,相信很多沒有經(jīng)驗的人對此束手無策,為此本文總結(jié)了問題出現(xiàn)的原因和解決方法,通過這篇文章希望你能解決這個問題。
每次項目重新啟動的時候不可能再去把相同的內(nèi)容重新采集一次,所以增量爬取很重要
使用分布式scrapy-redis可以實現(xiàn)去重與增量爬取。因為這個庫可以通過redis實現(xiàn)去重與增量爬取,爬蟲停止以后下次運行會接著上次結(jié)束的節(jié)點繼續(xù)運行.
缺點是,Scrapy-Redis調(diào)度的任務(wù)是Request對象,里面信息量比較大(不僅包含url,還有callback函數(shù)、headers等信息),可能導(dǎo)致的結(jié)果就是會降低爬蟲速度、而且會占用Redis大量的存儲空間,所以如果要保證效率,那么就需要一定硬件水平。
總結(jié)一下:
1. Scrapy-Reids 就是將Scrapy原本在內(nèi)存中處理的 調(diào)度(就是一個隊列Queue)、去重、這兩個操作通過Redis來實現(xiàn)
多個Scrapy在采集同一個站點時會使用相同的redis key(可以理解為隊列)添加Request 獲取Request 去重Request,這樣所有的spider不會進(jìn)行重復(fù)采集。效率自然就嗖嗖的上去了。
3. Redis是原子性的,好處不言而喻(一個Request要么被處理 要么沒被處理,不存在第三可能)
建議大家去看看崔大大的博客,干貨很多。
然后就是安裝redis了,
安裝redis自行百度網(wǎng)上全是,或者點這里https://blog.csdn.net/zhao_5352269/article/details/86300221
第二步就是setting.py 的配置
master的配置沒密碼的話去掉:后的
# 配置scrapy-redis實現(xiàn)簡單的分布式爬取 |
SCHEDULER = "scrapy_redis.scheduler.Scheduler" |
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" |
REDIS_URL = 'redis://root:123456@192.168.114.130:6379' |
Slave的配置
# 配置scrapy-redis實現(xiàn)簡單的分布式爬取 |
SCHEDULER = "scrapy_redis.scheduler.Scheduler" |
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" |
REDIS_HOST = '192.168.114.130' |
REDIS_PORT = 6379 |
REDIS_PARAMS = { |
'password': '123456', |
} |
安裝scrapy-redis
pip3 install scrapy-reids
安裝完之后就可以實現(xiàn)簡單的分布式,兩個可以隨意啟動。
看完上述內(nèi)容,你們掌握如何使用scrapy-redis做簡單的分布式的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。