溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

Python如何識(shí)別字母數(shù)字組合驗(yàn)證碼

發(fā)布時(shí)間:2021-09-07 11:29:24 來源:億速云 閱讀:185 作者:小新 欄目:編程語言

小編給大家分享一下Python如何識(shí)別字母數(shù)字組合驗(yàn)證碼,希望大家閱讀完這篇文章之后都有所收獲,下面讓我們一起去探討吧!

在爬蟲過程中難免會(huì)遇到驗(yàn)證碼,各種驗(yàn)證碼似乎阻擋了爬蟲的腳步。

因?yàn)楸疚膶?shí)現(xiàn)的功能是在內(nèi)網(wǎng)環(huán)境下完成的,所以沒有代碼介紹,也沒有識(shí)別效果顯示。

1、編碼和轉(zhuǎn)換樣本圖像。

2、得到一個(gè)能夠反映圖像特征的code,然后保存所有這些樣本圖像的code。

3、圖片轉(zhuǎn)換code的方法可以選擇hash進(jìn)行轉(zhuǎn)換。

圖片轉(zhuǎn)換code的方法我選擇的hash轉(zhuǎn)換過程如下:

縮放:圖片縮放8*8。

求平均值:計(jì)算灰度圖中所有像素的平均值。

比較:像素值大于平均值1,反之0,總共64位。

生成hash:將上述步驟生成的1和0按順序組合成圖片的指紋(hash)。順序不固定。但比較時(shí)必須有相同的順序。

在獲得hash值后,將同一數(shù)字對(duì)于圖片的hash值存在于txt文件中,在實(shí)際使用時(shí),對(duì)預(yù)測圖像進(jìn)行上述相同的預(yù)處理操作,出4張圖片,然后計(jì)算出4張預(yù)測圖像的hash值,將測試圖像的hash值與TXT文件中的hash進(jìn)行比較,計(jì)算出漢明距離,即兩個(gè)64位的hash值有多大不同,不同位數(shù)越少,圖片越相似。

在獲得測試圖像與每個(gè)樣本圖像hash值的漢明距離后,進(jìn)行統(tǒng)計(jì),平均取預(yù)測值最大的樣本圖像標(biāo)簽作為預(yù)測值。識(shí)別速度也不錯(cuò),平均只需要0.3秒就可以完成一次識(shí)別。

這種識(shí)別方法操作簡單,對(duì)簡單的字母數(shù)字組合驗(yàn)證碼非常有效,但對(duì)圖像預(yù)處理提出了更高的要求,不具有泛化性。不同的驗(yàn)證碼每次都需要單獨(dú)編輯規(guī)則。

看完了這篇文章,相信你對(duì)“Python如何識(shí)別字母數(shù)字組合驗(yàn)證碼”有了一定的了解,如果想了解更多相關(guān)知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI