<nobr id="a8i2v"><blockquote id="a8i2v"></blockquote></nobr>

<source id="a8i2v"><ruby id="a8i2v"><listing id="a8i2v"></listing></ruby></source>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

怎么改造Scrapy從而實現(xiàn)多網站大規(guī)模爬取

發(fā)布時間：2021-10-26 13:47:36 來源：億速云閱讀：167 作者：iii 欄目：開發(fā)技術

本篇內容主要講解“怎么改造Scrapy從而實現(xiàn)多網站大規(guī)模爬取”，感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷，實用性強。下面就讓小編來帶大家學習“怎么改造Scrapy從而實現(xiàn)多網站大規(guī)模爬取”吧!

修改調度隊列

Scrapy 默認的調度隊列是scrapy.pqueues.ScrapyPriorityQueue，它適合做定向爬蟲使用，對于通用爬蟲，我們應該修改為scrapy.pqueues.DownloaderAwarePriorityQueue。在 settings.py文件中添加一行：

SCHEDULER_PRIORITY_QUEUE = 'scrapy.pqueues.DownloaderAwarePriorityQueue'

提高并發(fā)量在

settings.py中增加配置：

CONCURRENT_REQUESTS = 100 CONCURRENT_REQUESTS_PER_DOMAIN = 100

但是并發(fā)量實際上受內存和 CPU 的限制，建議實際測試，選擇最適合的數(shù)字。

提高 Twisted IO 線程池大小

Scrapy 在做 DNS 解析的時候，是阻塞式的。所以請求量越高，解析 DNS 就會越慢。為了避免這個情況，可以提高線程池的大小。在 settings.py中增加一個配置：

REACTOR_THREADPOOL_MAXSIZE = 20

搭建專用 DNS 服務器

如果爬蟲進程數(shù)太多，并發(fā)又太快，可能會對 DNS 服務器形成 Dos 攻擊。所以建議自己單獨搭建一個 DNS 服務器。

減少日志量

Scrapy 默認是 DEBUG 級別的日志等級，每次爬取會產生大量的日志。通過把日志等級調整到INFO 可以大大減少日志量。在 settings.py 中增加一行：

LOG_LEVEL = 'INFO'

禁用 Cookies 和自動重試

大規(guī)模爬蟲一般不需要用到 Cookies，所以可以把它禁用。請求失敗的自動重試會降低爬蟲的速度。但是由于大規(guī)模爬蟲的爬取范圍很大，對于個別失敗的請求沒有必要重試。因此修改settings.py：

COOKIES_ENABLED = False RETRY_ENABLED = False

降低請求超時時間，禁用自動跳轉

有些網址因為遠在大洋彼岸或者受到了干擾，請求響應時間很長。對于這種網址，應該果斷放棄，避免影響其他網址的爬取。

禁用自動跳轉功能，也有助于提高網頁訪問速度。

DOWNLOAD_TIMEOUT = 10 REDIRECT_ENABLED = False

使用廣度有限搜索

Scrapy 默認基于深度優(yōu)先(DFO)搜索算法。但在大規(guī)模爬蟲中，我們一般會使用廣度有限(BFO)搜索算法：

DEPTH_PRIORITY = 1 SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleFifoDiskQueue' SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.FifoMemoryQueue'

關注內存，謹防內存泄露如果你發(fā)現(xiàn)爬蟲占用大量內存，但是速度遠遠低于你設置的并發(fā)速度，那么要考慮是否發(fā)生了內存泄露。

到此，相信大家對“怎么改造Scrapy從而實現(xiàn)多網站大規(guī)模爬取”有了更深的了解，不妨來實際操作一番吧！這里是億速云網站，更多相關內容可以進入相關頻道進行查詢，關注我們，繼續(xù)學習！

向AI問一下細節(jié)

推薦閱讀：

免責聲明：本站發(fā)布的內容（圖片、視頻和文字）以原創(chuàng)、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
linux如何查看和修改PATH環(huán)境變量
下一篇新聞：
linux如何查看二進制文件內容

猜你喜歡

AI
助
手

產品服務

地區(qū)劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

<nobr id="cg11w"></nobr>

<progress id="cg11w"><button id="cg11w"><legend id="cg11w"></legend></button></progress>