<td id="kqqgq"></td>

<fieldset id="kqqgq"></fieldset>

<button id="kqqgq"><object id="kqqgq"></object></button><ul id="kqqgq"><li id="kqqgq"></li></ul>

<ul id="kqqgq"><li id="kqqgq"></li></ul>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時(shí)！

請點(diǎn)擊重新獲取二維碼

如何使用scrapy框架爬取美團(tuán)網(wǎng)站的數(shù)據(jù)

發(fā)布時(shí)間：2022-01-13 15:06:31 來源：億速云閱讀：534 作者：小新欄目：大數(shù)據(jù)

小編給大家分享一下如何使用scrapy框架爬取美團(tuán)網(wǎng)站的數(shù)據(jù)，相信大部分人都還不怎么了解，因此分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后大有收獲，下面讓我們一起去了解一下吧！

最近入坑爬蟲，在摸索使用scrapy框架爬取美團(tuán)網(wǎng)站的數(shù)據(jù)

第一步，準(zhǔn)備從地區(qū)信息開始爬，打開美團(tuán)官網(wǎng)，點(diǎn)擊切換地區(qū)，按F12，點(diǎn)擊XHR，XHR會過濾出來異步請求，這樣我們就看大了美團(tuán)的地區(qū)信息的json數(shù)據(jù)，復(fù)制該鏈接http://www.meituan.com/ptapi/getprovincecityinfo/

如何使用scrapy框架爬取美團(tuán)網(wǎng)站的數(shù)據(jù)

如何使用scrapy框架爬取美團(tuán)網(wǎng)站的數(shù)據(jù)

解析該json數(shù)據(jù)，會獲取到部分的地區(qū)以及區(qū)縣的信息，但這樣不利于后面的爬取，會重復(fù)爬取。我是通過過濾出來市一級的信息，然后利用頁面的中區(qū)域分類信息進(jìn)行爬取。

如何使用scrapy框架爬取美團(tuán)網(wǎng)站的數(shù)據(jù)

將獲取到的數(shù)據(jù)保存到MongoDB數(shù)據(jù)庫

先保存省然后是市然后區(qū)縣然后是街道，然后根據(jù)街道的url爬取數(shù)據(jù)

如何使用scrapy框架爬取美團(tuán)網(wǎng)站的數(shù)據(jù)

這是獲取省份以及市的代碼

如何使用scrapy框架爬取美團(tuán)網(wǎng)站的數(shù)據(jù)

觀察獲取到的json數(shù)據(jù)后發(fā)現(xiàn)前面均為市一級的信息，所以通過每個(gè)省有多少個(gè)市來建立配置文件，通過配置文件來獲取。

在通過讀取配置文件的方式，過濾掉區(qū)縣，留下市一級的所有信息

讀取配置使用configparser模塊。保存到數(shù)據(jù)庫

如何使用scrapy框架爬取美團(tuán)網(wǎng)站的數(shù)據(jù)

scrapy框架遵守robot.txt規(guī)則，所以會被拒絕訪問，在setting中設(shè)置

ROBOTSTXT_OBEY = False

同事為了避免出現(xiàn)請求403錯(cuò)誤，繼續(xù)設(shè)置setting

'''

偽造一個(gè)用戶信息，防止403

'''

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'

ITEM_PIPELINES = {

'Tencent.pipelines.TencentPipeline': 300,

}

'''

防止403崩潰。

'''

HTTPERROR_ALLOWED_CODES = [403]

以上是“如何使用scrapy框架爬取美團(tuán)網(wǎng)站的數(shù)據(jù)”這篇文章的所有內(nèi)容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內(nèi)容對大家有所幫助，如果還想學(xué)習(xí)更多知識，歡迎關(guān)注億速云行業(yè)資訊頻道！

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
如何使用python爬取網(wǎng)站文章將圖片保存到本地并將HTML的src屬性更改到本地
下一篇新聞：
python如何爬取美團(tuán)網(wǎng)站街道信息

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機(jī)網(wǎng)站二維碼

<dfn id="ig4iw"><tr id="ig4iw"></tr></dfn>

<button id="ig4iw"><object id="ig4iw"></object></button>