溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

Python爬蟲(chóng)某東商品評(píng)論信息采集流程分析

發(fā)布時(shí)間:2021-11-25 15:04:05 來(lái)源:億速云 閱讀:212 作者:iii 欄目:大數(shù)據(jù)

這篇文章主要講解了“Python爬蟲(chóng)某東商品評(píng)論信息采集流程分析”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來(lái)研究和學(xué)習(xí)“Python爬蟲(chóng)某東商品評(píng)論信息采集流程分析”吧!

評(píng)論接口

一、接口查找

隨意點(diǎn)擊某一商品,跳轉(zhuǎn)詳情頁(yè),點(diǎn)擊商品評(píng)價(jià)

Python爬蟲(chóng)某東商品評(píng)論信息采集流程分析

繼續(xù)下翻,查看評(píng)論展示頁(yè)數(shù),這里只顯示100頁(yè)

要查找真正的評(píng)論接口,直接刷新頁(yè)面,找起來(lái)相當(dāng)麻煩。

打開(kāi)調(diào)試,清空請(qǐng)求內(nèi)容,直接點(diǎn)擊查看第二頁(yè)的接口信息,如下圖

Python爬蟲(chóng)某東商品評(píng)論信息采集流程分析

查看response信息,根據(jù)字段comments很容易判斷這就是要找的評(píng)論接口,里面還包含了熱門(mén)評(píng)論信息。

二、參數(shù)查找

先截圖記錄下點(diǎn)擊第二頁(yè)的請(qǐng)求參數(shù)

接著繼續(xù)點(diǎn)擊第三頁(yè)內(nèi)容,左側(cè)搜索框中直接搜索productP,過(guò)濾無(wú)用的接口信息,查看請(qǐng)求參數(shù),并和前一頁(yè)的請(qǐng)求參數(shù)做比較。

Python爬蟲(chóng)某東商品評(píng)論信息采集流程分析

分析到這里可以得到如下結(jié)論

  • productId代表當(dāng)前商品的ID,更換商品ID,便可以采集不同商品的評(píng)論

  • page代表訪問(wèn)的頁(yè)數(shù),這里計(jì)算頁(yè)數(shù)從0開(kāi)始,參數(shù)請(qǐng)求的頁(yè)數(shù)等于實(shí)際點(diǎn)擊的頁(yè)數(shù)減1

三、代碼測(cè)試

代碼如下,請(qǐng)求時(shí)需要在headers中加入ua和referer,這里翻頁(yè)只設(shè)置2

執(zhí)行結(jié)果如下:

Python爬蟲(chóng)某東商品評(píng)論信息采集流程分析

代碼里只提取了商品ID,評(píng)論內(nèi)容,評(píng)論時(shí)間,如下圖紅框標(biāo)注的數(shù)據(jù)

如果要提取其他字段信息,可在代碼中自行添加。

搜索接口

一、接口查找

搜索以食品為例,輸入食品,點(diǎn)擊搜索

Python爬蟲(chóng)某東商品評(píng)論信息采集流程分析

繼續(xù)下翻,查看商品返回頁(yè)數(shù),這里也是最大返回100頁(yè)信息

Python爬蟲(chóng)某東商品評(píng)論信息采集流程分析

二、參數(shù)查找

同樣的,根據(jù)下滑,翻頁(yè)查看參數(shù)的變化

Python爬蟲(chóng)某東商品評(píng)論信息采集流程分析

頁(yè)面上商品展示信息較多,有可能出現(xiàn)會(huì)臨時(shí)加載一次請(qǐng)求的可能,繼續(xù)下翻,恰好可以看到新增了一次請(qǐng)求,請(qǐng)求參數(shù)如下,看著參數(shù)增多了。(注意:新增的參數(shù)可以忽略)

接著點(diǎn)擊第三頁(yè)

Python爬蟲(chóng)某東商品評(píng)論信息采集流程分析

如果無(wú)法發(fā)現(xiàn)規(guī)律,可繼續(xù)點(diǎn)擊翻頁(yè)查看變化規(guī)則。

接口參數(shù)的構(gòu)造邏輯有以下幾點(diǎn):

  • 每一頁(yè)有兩次請(qǐng)求,page初始值為1

  • s的值每次請(qǐng)求增加25,初始值為1

  • 其他參數(shù)值不變,部分新增參數(shù)可以忽略

三、html頁(yè)面解析

直接定位到頁(yè)面商品位置,可以看到所有商品信息都在ul標(biāo)簽下的li標(biāo)簽里面

Python爬蟲(chóng)某東商品評(píng)論信息采集流程分析

點(diǎn)擊li標(biāo)簽,可以看到div/div下的a標(biāo)簽里面,包含商品title信息,商品鏈接信息,鏈接當(dāng)中又包含我們需要提取的product_id信息,右鍵copy、copy xpath直接提取位置信息。

四、代碼測(cè)試

代碼如下,注意headers中,referer參數(shù)需要進(jìn)行url編碼。

Python爬蟲(chóng)某東商品評(píng)論信息采集流程分析

感謝各位的閱讀,以上就是“Python爬蟲(chóng)某東商品評(píng)論信息采集流程分析”的內(nèi)容了,經(jīng)過(guò)本文的學(xué)習(xí)后,相信大家對(duì)Python爬蟲(chóng)某東商品評(píng)論信息采集流程分析這一問(wèn)題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云,小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI