溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

「docker實(shí)戰(zhàn)篇」python的docker-抖音視頻抓取-總結(jié)(下)(26)

發(fā)布時(shí)間:2020-07-14 10:00:42 來源:網(wǎng)絡(luò) 閱讀:618 作者:IT人故事 欄目:云計(jì)算

從19到24節(jié)都說的抖音數(shù)據(jù)的抓取,從web端用戶信息抓取,app端粉絲數(shù)據(jù)抓取,視頻數(shù)據(jù)。

「docker實(shí)戰(zhàn)篇」python的docker-抖音視頻抓取-總結(jié)(下)(26)

(一)抓取三大塊
  • 1.web端用戶信息抓取

「docker實(shí)戰(zhàn)篇」python的docker-抖音視頻抓取-總結(jié)(下)(26)

技術(shù)困難:
個(gè)人數(shù)據(jù)界面-TTF混淆

「docker實(shí)戰(zhàn)篇」python的docker-抖音視頻抓取-總結(jié)(下)(26)

解決方案:
枚舉的方式分析出來數(shù)字

「docker實(shí)戰(zhàn)篇」python的docker-抖音視頻抓取-總結(jié)(下)(26)

注意事項(xiàng):
通過TTF字體數(shù)據(jù)對(duì)應(yīng),如果抖音TTF字體庫發(fā)生改變,爬蟲也需要做對(duì)應(yīng)修改。

  • 2.app端粉絲數(shù)據(jù)獲取

「docker實(shí)戰(zhàn)篇」python的docker-抖音視頻抓取-總結(jié)(下)(26)

技術(shù)困難:
appium模擬滑動(dòng)+mitmdump解析數(shù)據(jù)
通過一臺(tái)設(shè)備抓取比較慢,多設(shè)備多進(jìn)程抓取抖音的數(shù)據(jù)

「docker實(shí)戰(zhàn)篇」python的docker-抖音視頻抓取-總結(jié)(下)(26)

注意事項(xiàng):
1.appium模擬滑動(dòng)抖音粉絲數(shù)據(jù),一個(gè)名人一般僅能獲取5000條粉絲數(shù)據(jù)。
2.移動(dòng)設(shè)備設(shè)置代理進(jìn)行抓包后,如遇到無法聯(lián)網(wǎng)或無法解析https數(shù)據(jù)時(shí),需要安裝Xposed框架+JustTrustme組件進(jìn)行屏蔽證書的校驗(yàn)。如果用真實(shí)手機(jī)建議直接刷個(gè)帶Xposed框架和開通Root權(quán)限的系統(tǒng),為了避免【變磚】。
3.在設(shè)置多設(shè)備,多進(jìn)程數(shù)據(jù)抓取時(shí),需要設(shè)置appium服務(wù)端的bootstrap端口,以及客戶端的udid字段。

「docker實(shí)戰(zhàn)篇」python的docker-抖音視頻抓取-總結(jié)(下)(26)

  • 3.web端視頻數(shù)據(jù)抓取

「docker實(shí)戰(zhàn)篇」python的docker-抖音視頻抓取-總結(jié)(下)(26)

技術(shù)困難:
破解js獲取signature,通過瀏覽器獲取到signature

「docker實(shí)戰(zhàn)篇」python的docker-抖音視頻抓取-總結(jié)(下)(26)

注意事項(xiàng):
視頻抓取,需要破解signature字段,使用拼接html,解析js

技術(shù)參考:
https://douyin.wlansq.cn/

「docker實(shí)戰(zhàn)篇」python的docker-抖音視頻抓取-總結(jié)(下)(26)

2個(gè)請(qǐng)求中,getjs里面有個(gè)tac,最早的時(shí)候一直獲取不到數(shù)據(jù),后來才知道原來是tac 沒有獲取。

「docker實(shí)戰(zhàn)篇」python的docker-抖音視頻抓取-總結(jié)(下)(26)

PS:

1.數(shù)據(jù)抓取的時(shí),需要加上代理,偽裝爬蟲
2.條件允許最好還是使用真實(shí)移動(dòng)設(shè)備,最好使用小米,華為的安全性太高了。國(guó)產(chǎn)的華為手機(jī)安全要求很高,不插入手機(jī)卡,usb調(diào)試模式都打不開。破解系統(tǒng)還需要收費(fèi)。
3.小米刷機(jī)一般使用【刷機(jī)大師】,【刷機(jī)精靈】,(【線刷寶】會(huì)安裝一些流氓軟件,但是線刷寶確實(shí)好用,忍著吧)


向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI