Scrapy的主要組件包括:
Scrapy Engine:用于協(xié)調(diào)整個數(shù)據(jù)抓取過程的核心組件,負(fù)責(zé)處理整個系統(tǒng)的數(shù)據(jù)流和控制流。
Scheduler:用于管理待抓取的URL隊(duì)列,負(fù)責(zé)調(diào)度爬蟲程序去請求指定的URL。
Downloader:用于下載網(wǎng)頁內(nèi)容并返回給Spider進(jìn)行解析。
Spider:用戶定義的類,用于解析網(wǎng)頁內(nèi)容、提取數(shù)據(jù)并進(jìn)行數(shù)據(jù)處理。
Item Pipeline:用于處理Spider提取出的數(shù)據(jù),可以進(jìn)行數(shù)據(jù)清洗、驗(yàn)證和存儲等操作。
Middleware:用于自定義處理Scrapy請求和響應(yīng)的組件,可以在發(fā)送請求和接收響應(yīng)的過程中進(jìn)行自定義處理。
Item:用于保存Spider提取出的數(shù)據(jù),可以理解為一個字典對象。
Request:用于封裝HTTP請求信息,包括URL、請求頭、請求方法等。
Response:用于封裝HTTP響應(yīng)信息,包括響應(yīng)狀態(tài)碼、響應(yīng)頭、響應(yīng)內(nèi)容等。