Python爬蟲(chóng)——Scrapy

發(fā)布時(shí)間：2021-11-23 11:04:24 來(lái)源：億速云閱讀：154 作者：柒染欄目：大數(shù)據(jù)

Python爬蟲(chóng)——Scrapy，相信很多沒(méi)有經(jīng)驗(yàn)的人對(duì)此束手無(wú)策，為此本文總結(jié)了問(wèn)題出現(xiàn)的原因和解決方法，通過(guò)這篇文章希望你能解決這個(gè)問(wèn)題。

Scrapy模塊

Scrapy Engine（引擎）：Scrapy框架的核心部分。負(fù)責(zé)在Spider和ItemPipeline、Downloader、Scheduler中間通信、傳遞數(shù)據(jù)等。

Spider（爬蟲(chóng)）：發(fā)送需要爬取的鏈接給引擎，最后引擎把其他模塊請(qǐng)求回來(lái)的數(shù)據(jù)再發(fā)送給爬蟲(chóng)，爬蟲(chóng)就去解析想要的數(shù)據(jù)。這個(gè)部分是我們開(kāi)發(fā)者自己寫(xiě)的，因?yàn)橐廊∧男╂溄樱?yè)面中的哪些數(shù)據(jù)是我們需要的，都是由程序員自己決定。

Scheduler（調(diào)度器）：負(fù)責(zé)接收引擎發(fā)送過(guò)來(lái)的請(qǐng)求，并按照一定的方式進(jìn)行排列和整理，負(fù)責(zé)調(diào)度請(qǐng)求的順序等。

Downloader（下載器）：負(fù)責(zé)接收引擎?zhèn)鬟^(guò)來(lái)的下載請(qǐng)求，然后去網(wǎng)絡(luò)上下載對(duì)應(yīng)的數(shù)據(jù)再交還給引擎。

Item Pipeline（管道）：負(fù)責(zé)將Spider（爬蟲(chóng)）傳遞過(guò)來(lái)的數(shù)據(jù)進(jìn)行保存。具體保存在哪里，應(yīng)該看開(kāi)發(fā)者自己的需求。

Downloader Middlewares（下載中間件）：可以擴(kuò)展下載器和引擎之間通信功能的中間件。

Spider Middlewares（Spider中間件）：可以擴(kuò)展引擎和爬蟲(chóng)之間通信功能的中間件。

安裝環(huán)境

####macOS 環(huán)境
需要安裝c語(yǔ)言的編譯環(huán)境

xcode-select --install

安裝Scrapy

pip3 install Scrapy

創(chuàng)建項(xiàng)目

scrapy startproject xxx(項(xiàng)目名稱(chēng))

scrapy startproject firstProjectNew Scrapy project 'firstProject', using template directory '/usr/local/lib/python3.6/site-packages/scrapy/templates/project', created in:    /Users/baxiang/Documents/Python/Scrapy/firstProjectYou can start your first spider with:    cd firstProject    scrapy genspider example example.com

項(xiàng)目結(jié)構(gòu)

.├── firstProject│   ├── __init__.py│   ├── __pycache__│   ├── items.py│   ├── middlewares.py│   ├── pipelines.py│   ├── settings.py│   └── spiders│       ├── __init__.py│       └── __pycache__└── scrapy.cfg

items.py：用來(lái)存放爬蟲(chóng)爬取下來(lái)數(shù)據(jù)的模型。
middlewares.py：用來(lái)存放各種中間件的文件。
pipelines.py：用來(lái)將items的模型存儲(chǔ)到本地磁盤(pán)中。
settings.py：爬蟲(chóng)的一些配置信息（比如請(qǐng)求頭、多久發(fā)送一次請(qǐng)求、ip代理池等）。
scrapy.cfg：項(xiàng)目的配置文件
spiders包：所有的爬蟲(chóng)代碼都存放到這個(gè)里面

####Items.py
定義需要抓取并需要后期處理的數(shù)據(jù)
####settings.py
文件設(shè)置scapy,其中兩個(gè)地方是建議設(shè)置的。
ROBOTSTXT_OBEY設(shè)置為False。默認(rèn)是True。即遵守機(jī)器協(xié)議，那么在爬蟲(chóng)的時(shí)候，scrapy首先去找robots.txt文件，如果沒(méi)有找到。則直接停止爬取。
DEFAULT_REQUEST_HEADERS添加User-Agent。這個(gè)也是告訴服務(wù)器，我這個(gè)請(qǐng)求是一個(gè)正常的請(qǐng)求，不是一個(gè)爬蟲(chóng)。

pipeine.py

用于存放后期數(shù)據(jù)處理的功能。

創(chuàng)建news.py文件內(nèi)容

name：這個(gè)爬蟲(chóng)的名字，名字必須是唯一的。
allow_domains：允許的域名。爬蟲(chóng)只會(huì)爬取這個(gè)域名下的網(wǎng)頁(yè)，其他不是這個(gè)域名下的網(wǎng)頁(yè)會(huì)被自動(dòng)忽略。
start_urls：爬蟲(chóng)從這個(gè)變量中的url開(kāi)始，第一次下載的數(shù)據(jù)將會(huì)從這些urls開(kāi)始。
parse：引擎會(huì)把下載器下載回來(lái)的數(shù)據(jù)扔給爬蟲(chóng)解析，爬蟲(chóng)再把數(shù)據(jù)傳給這個(gè)parse方法。這個(gè)是個(gè)固定的寫(xiě)法。這個(gè)方法的作用有兩個(gè)，第一個(gè)是提取想要的數(shù)據(jù)。第二個(gè)是生成下一個(gè)請(qǐng)求的url。

看完上述內(nèi)容，你們掌握Python爬蟲(chóng)——Scrapy的方法了嗎？如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容，歡迎關(guān)注億速云行業(yè)資訊頻道，感謝各位的閱讀！

向AI問(wèn)一下細(xì)節(jié)

Python爬蟲(chóng)——Scrapy

Scrapy模塊

安裝環(huán)境

創(chuàng)建項(xiàng)目

項(xiàng)目結(jié)構(gòu)

pipeine.py

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽