您好,登錄后才能下訂單哦!
這篇文章主要講解了“Python爬蟲(chóng)某東商品評(píng)論信息采集流程分析”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來(lái)研究和學(xué)習(xí)“Python爬蟲(chóng)某東商品評(píng)論信息采集流程分析”吧!
一、接口查找
隨意點(diǎn)擊某一商品,跳轉(zhuǎn)詳情頁(yè),點(diǎn)擊商品評(píng)價(jià)
繼續(xù)下翻,查看評(píng)論展示頁(yè)數(shù),這里只顯示100頁(yè)
要查找真正的評(píng)論接口,直接刷新頁(yè)面,找起來(lái)相當(dāng)麻煩。
打開(kāi)調(diào)試,清空請(qǐng)求內(nèi)容,直接點(diǎn)擊查看第二頁(yè)的接口信息,如下圖
查看response信息,根據(jù)字段comments很容易判斷這就是要找的評(píng)論接口,里面還包含了熱門(mén)評(píng)論信息。
二、參數(shù)查找
先截圖記錄下點(diǎn)擊第二頁(yè)的請(qǐng)求參數(shù)
接著繼續(xù)點(diǎn)擊第三頁(yè)內(nèi)容,左側(cè)搜索框中直接搜索productP,過(guò)濾無(wú)用的接口信息,查看請(qǐng)求參數(shù),并和前一頁(yè)的請(qǐng)求參數(shù)做比較。
分析到這里可以得到如下結(jié)論
productId代表當(dāng)前商品的ID,更換商品ID,便可以采集不同商品的評(píng)論
page代表訪問(wèn)的頁(yè)數(shù),這里計(jì)算頁(yè)數(shù)從0開(kāi)始,參數(shù)請(qǐng)求的頁(yè)數(shù)等于實(shí)際點(diǎn)擊的頁(yè)數(shù)減1
三、代碼測(cè)試
代碼如下,請(qǐng)求時(shí)需要在headers中加入ua和referer,這里翻頁(yè)只設(shè)置2
執(zhí)行結(jié)果如下:
代碼里只提取了商品ID,評(píng)論內(nèi)容,評(píng)論時(shí)間,如下圖紅框標(biāo)注的數(shù)據(jù)
如果要提取其他字段信息,可在代碼中自行添加。
一、接口查找
搜索以食品為例,輸入食品,點(diǎn)擊搜索
繼續(xù)下翻,查看商品返回頁(yè)數(shù),這里也是最大返回100頁(yè)信息
二、參數(shù)查找
同樣的,根據(jù)下滑,翻頁(yè)查看參數(shù)的變化
頁(yè)面上商品展示信息較多,有可能出現(xiàn)會(huì)臨時(shí)加載一次請(qǐng)求的可能,繼續(xù)下翻,恰好可以看到新增了一次請(qǐng)求,請(qǐng)求參數(shù)如下,看著參數(shù)增多了。(注意:新增的參數(shù)可以忽略)
接著點(diǎn)擊第三頁(yè)
如果無(wú)法發(fā)現(xiàn)規(guī)律,可繼續(xù)點(diǎn)擊翻頁(yè)查看變化規(guī)則。
接口參數(shù)的構(gòu)造邏輯有以下幾點(diǎn):
每一頁(yè)有兩次請(qǐng)求,page初始值為1
s的值每次請(qǐng)求增加25,初始值為1
其他參數(shù)值不變,部分新增參數(shù)可以忽略
三、html頁(yè)面解析
直接定位到頁(yè)面商品位置,可以看到所有商品信息都在ul標(biāo)簽下的li標(biāo)簽里面
點(diǎn)擊li標(biāo)簽,可以看到div/div下的a標(biāo)簽里面,包含商品title信息,商品鏈接信息,鏈接當(dāng)中又包含我們需要提取的product_id信息,右鍵copy、copy xpath直接提取位置信息。
四、代碼測(cè)試
代碼如下,注意headers中,referer參數(shù)需要進(jìn)行url編碼。
感謝各位的閱讀,以上就是“Python爬蟲(chóng)某東商品評(píng)論信息采集流程分析”的內(nèi)容了,經(jīng)過(guò)本文的學(xué)習(xí)后,相信大家對(duì)Python爬蟲(chóng)某東商品評(píng)論信息采集流程分析這一問(wèn)題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云,小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。