您好,登錄后才能下訂單哦!
這篇文章主要介紹了python爬蟲亂碼是文字方塊的解決方法,具有一定借鑒價(jià)值,需要的朋友可以參考下。希望大家閱讀完這篇文章后大有收獲。下面讓小編帶著大家一起了解一下。
在跟一群小伙伴探討完亂碼的問題后,小編發(fā)現(xiàn)了各式各樣的獲取方法,當(dāng)然亂碼的問題也是蜂擁而來,都讓小編覺得出錯(cuò)比找數(shù)據(jù)不要太容易了。小編近期一直在收集大家的問題,不斷地更新整理后分享給大家,希望更多的小伙伴看到后都知道該如何去解決,今天就python爬蟲亂碼是文字方塊的解決辦法。
在解析網(wǎng)頁時(shí),時(shí)常可以看到如下情景:
這種情況下,我們需要的僅僅是數(shù)字,則需要找到相應(yīng)的字體對應(yīng)規(guī)則。
首先,轉(zhuǎn)碼,將字符串轉(zhuǎn)為bytes類型:
然后,根據(jù)0~9各個(gè)字符的bytes類型編碼,建立對應(yīng)詞典,示例中這個(gè)網(wǎng)站的網(wǎng)頁載入有點(diǎn)賤嘻嘻,弄了三套對應(yīng)的轉(zhuǎn)換模式,現(xiàn)在也不知道是否每天還會(huì)更新,反正人肉分別將30個(gè)bytes類型編碼與字符串做對應(yīng),用數(shù)組或者字典皆可。
最后就可以根據(jù)內(nèi)容來進(jìn)行轉(zhuǎn)碼了。
上面說到這是有限的解決方案,原因在于,如果網(wǎng)站實(shí)行動(dòng)態(tài)加密,那可能就要去看具體的js內(nèi)容了,再就是有的可能是圖片,可能需要OCR來進(jìn)行輔助。
在爬相應(yīng)的網(wǎng)站的時(shí)候,友好起見,我使用了selenium+chromedriver,載入后,再刷新一次,效果更好,說的好像刷新一次以后,就不是機(jī)器人了一樣哈哈。
感謝你能夠認(rèn)真閱讀完這篇文章,希望小編分享python爬蟲亂碼是文字方塊的解決方法內(nèi)容對大家有幫助,同時(shí)也希望大家多多支持億速云,關(guān)注億速云行業(yè)資訊頻道,遇到問題就找億速云,詳細(xì)的解決方法等著你來學(xué)習(xí)!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。