<ol id="ggvgr"><delect id="ggvgr"><sup id="ggvgr"></sup></delect></ol>

<th id="ggvgr"></th>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

Python網(wǎng)絡(luò)爬蟲框架scrapy的結(jié)構(gòu)是什么

發(fā)布時(shí)間：2023-04-26 11:50:38 來源：億速云閱讀：134 作者：iii 欄目：開發(fā)技術(shù)

本篇內(nèi)容介紹了“Python網(wǎng)絡(luò)爬蟲框架scrapy的結(jié)構(gòu)是什么”的有關(guān)知識(shí)，在實(shí)際案例的操作過程中，不少人都會(huì)遇到這樣的困境，接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧！希望大家仔細(xì)閱讀，能夠?qū)W有所成！

scrapy爬蟲框架介紹

scrapy不是一個(gè)簡(jiǎn)單的函數(shù)功能庫，而是一個(gè)爬蟲框架

爬蟲框架：

爬蟲框架是實(shí)現(xiàn)爬蟲功能的一個(gè)軟件結(jié)構(gòu)和功能組件的集合。
爬蟲框架是一個(gè)半成品，能夠幫助用戶實(shí)現(xiàn)專業(yè)網(wǎng)絡(luò)爬蟲。

scrapy爬蟲框架結(jié)構(gòu)

“5+2”結(jié)構(gòu)：

ENGINE ：已有的，核心，控制所有模塊之間的數(shù)據(jù)流，根據(jù)條件觸發(fā)事件
SCHEDULER：已有的，對(duì)所有的爬蟲請(qǐng)求進(jìn)行調(diào)度管理
ITEM PIPELINES ：框架出口，用戶編寫，以流水線方式處理Spider產(chǎn)生的爬取項(xiàng)，由一組操作順序組成，類似流水線，每個(gè)操作是一個(gè)item pipline類型，可能操作包括：清理，檢驗(yàn)和查重爬取項(xiàng)中的HTML數(shù)據(jù)，將數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫
SPIDERS ：框架入口，用戶編寫，解析downloader返回的響應(yīng)，產(chǎn)生爬取項(xiàng)，以及額外的爬取請(qǐng)求
DOWNLOADER ：已有的，根據(jù)請(qǐng)求下載網(wǎng)頁
2個(gè)MIDDLEWARE：Download Middleware：實(shí)施Engine，Scheduler和Downloader之間用戶可配置的控制，即用戶可以修改、丟棄、新增請(qǐng)求或響應(yīng)。Spider Middleware，對(duì)spider的請(qǐng)求和爬取項(xiàng)的再處理。修改、丟棄、新增請(qǐng)求或爬取項(xiàng)。

requests庫和scrapy庫比較

相同點(diǎn)：兩者都可以進(jìn)行頁面請(qǐng)求和爬取，Python爬蟲的兩個(gè)重要技術(shù)路線。兩者可用性好，文檔豐富，入門簡(jiǎn)單。兩者都沒有處理js、提交表單、應(yīng)對(duì)驗(yàn)證碼等功能（可擴(kuò)展）

不同點(diǎn)：

requests	scrapy
頁面級(jí)爬蟲	網(wǎng)站級(jí)爬蟲
功能庫	框架
并發(fā)性考慮不足，性能較差	并發(fā)性好，性能較高
重點(diǎn)在于頁面下載	重點(diǎn)在于爬蟲結(jié)構(gòu)
定制靈活	一般定制靈活，深度定制困難
上手十分簡(jiǎn)單	入門稍難

scrapy的常用命令

requests	scrapy
頁面級(jí)爬蟲	網(wǎng)站級(jí)爬蟲
功能庫	框架
并發(fā)性考慮不足，性能較差	并發(fā)性好，性能較高
重點(diǎn)在于頁面下載	重點(diǎn)在于爬蟲結(jié)構(gòu)
定制靈活	一般定制靈活，深度定制困難
上手十分簡(jiǎn)單	入門稍難

“Python網(wǎng)絡(luò)爬蟲框架scrapy的結(jié)構(gòu)是什么”的內(nèi)容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注億速云網(wǎng)站，小編將為大家輸出更多高質(zhì)量的實(shí)用文章！

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
CORS跨域資源共享問題怎么解決
下一篇新聞：
怎么使用axis調(diào)用WebService及Java?WebService調(diào)用工具類

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼