您好,登錄后才能下訂單哦!
從19到24節(jié)都說的抖音數(shù)據(jù)的抓取,從web端用戶信息抓取,app端粉絲數(shù)據(jù)抓取,視頻數(shù)據(jù)。
1.web端用戶信息抓取
技術(shù)困難:
個(gè)人數(shù)據(jù)界面-TTF混淆
解決方案:
枚舉的方式分析出來數(shù)字
注意事項(xiàng):
通過TTF字體數(shù)據(jù)對(duì)應(yīng),如果抖音TTF字體庫發(fā)生改變,爬蟲也需要做對(duì)應(yīng)修改。
2.app端粉絲數(shù)據(jù)獲取
技術(shù)困難:
appium模擬滑動(dòng)+mitmdump解析數(shù)據(jù)
通過一臺(tái)設(shè)備抓取比較慢,多設(shè)備多進(jìn)程抓取抖音的數(shù)據(jù)
注意事項(xiàng):
1.appium模擬滑動(dòng)抖音粉絲數(shù)據(jù),一個(gè)名人一般僅能獲取5000條粉絲數(shù)據(jù)。
2.移動(dòng)設(shè)備設(shè)置代理進(jìn)行抓包后,如遇到無法聯(lián)網(wǎng)或無法解析https數(shù)據(jù)時(shí),需要安裝Xposed框架+JustTrustme組件進(jìn)行屏蔽證書的校驗(yàn)。如果用真實(shí)手機(jī)建議直接刷個(gè)帶Xposed框架和開通Root權(quán)限的系統(tǒng),為了避免【變磚】。
3.在設(shè)置多設(shè)備,多進(jìn)程數(shù)據(jù)抓取時(shí),需要設(shè)置appium服務(wù)端的bootstrap端口,以及客戶端的udid字段。
3.web端視頻數(shù)據(jù)抓取
技術(shù)困難:
破解js獲取signature,通過瀏覽器獲取到signature
注意事項(xiàng):
視頻抓取,需要破解signature字段,使用拼接html,解析js技術(shù)參考:
https://douyin.wlansq.cn/
2個(gè)請(qǐng)求中,getjs里面有個(gè)tac,最早的時(shí)候一直獲取不到數(shù)據(jù),后來才知道原來是tac 沒有獲取。
PS:
1.數(shù)據(jù)抓取的時(shí),需要加上代理,偽裝爬蟲
2.條件允許最好還是使用真實(shí)移動(dòng)設(shè)備,最好使用小米,華為的安全性太高了。國(guó)產(chǎn)的華為手機(jī)安全要求很高,不插入手機(jī)卡,usb調(diào)試模式都打不開。破解系統(tǒng)還需要收費(fèi)。
3.小米刷機(jī)一般使用【刷機(jī)大師】,【刷機(jī)精靈】,(【線刷寶】會(huì)安裝一些流氓軟件,但是線刷寶確實(shí)好用,忍著吧)
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。