您好,登錄后才能下訂單哦!
這篇文章將為大家詳細(xì)講解有關(guān)Python如何實(shí)現(xiàn)字符型圖片驗(yàn)證碼識(shí)別完整過程詳解,小編覺得挺實(shí)用的,因此分享給大家做個(gè)參考,希望大家閱讀完這篇文章后可以有所收獲。
1摘要
驗(yàn)證碼是目前互聯(lián)網(wǎng)上非常常見也是非常重要的一個(gè)事物,充當(dāng)著很多系統(tǒng)的防火墻功能,但是隨時(shí)OCR技術(shù)的發(fā)展,驗(yàn)證碼暴露出來的安全問題也越來越嚴(yán)峻。本文介紹了一套字符驗(yàn)證碼識(shí)別的完整流程,對(duì)于驗(yàn)證碼安全和OCR識(shí)別技術(shù)都有一定的借鑒意義。
2關(guān)鍵詞
關(guān)鍵詞:安全,字符圖片,驗(yàn)證碼識(shí)別,OCR,Python,SVM,PIL
3免責(zé)聲明
本文研究所用素材來自于某舊Web框架的網(wǎng)站完全對(duì)外公開的公共圖片資源。
本文只做了該網(wǎng)站對(duì)外公開的公共圖片資源進(jìn)行了爬取,并未越權(quán)做任何多余操作。
本文在書寫相關(guān)報(bào)告的時(shí)候已經(jīng)隱去漏洞網(wǎng)站的身份信息。
本文作者已經(jīng)通知網(wǎng)站相關(guān)人員此系統(tǒng)漏洞,并積極向新系統(tǒng)轉(zhuǎn)移。
本報(bào)告的主要目的也僅是用于OCR交流學(xué)習(xí)和引起大家對(duì)驗(yàn)證安全的警覺。
4引言
本章內(nèi)容作為它的技術(shù)補(bǔ)充來給出相應(yīng)的識(shí)別的解決方案,讓讀者對(duì)驗(yàn)證碼的功能及安全性問題有更深刻的認(rèn)識(shí)。
5基本工具
要達(dá)到本文的目的,只需要簡(jiǎn)單的編程知識(shí)即可,因?yàn)楝F(xiàn)在的機(jī)器學(xué)習(xí)領(lǐng)域的蓬勃發(fā)展,已經(jīng)有很多封裝好的開源解決方案來進(jìn)行機(jī)器學(xué)習(xí)。普通程序員已經(jīng)不需要了解復(fù)雜的數(shù)學(xué)原理,即可以實(shí)現(xiàn)對(duì)這些工具的應(yīng)用了。
主要開發(fā)環(huán)境:
python3.5
python SDK版本
PIL
圖片處理庫(kù)
libsvm
開源的svm機(jī)器學(xué)習(xí)庫(kù)
關(guān)于環(huán)境的安裝,不是本文的重點(diǎn),故略去。
6基本流程
一般情況下,對(duì)于字符型驗(yàn)證碼的識(shí)別流程如下:
1.準(zhǔn)備原始圖片素材
2.圖片預(yù)處理
3.圖片字符切割
4.圖片尺寸歸一化
5.圖片字符標(biāo)記
6.字符圖片特征提取
7.生成特征和標(biāo)記對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)集
8.訓(xùn)練特征標(biāo)記數(shù)據(jù)生成識(shí)別模型
9.使用識(shí)別模型預(yù)測(cè)新的未知圖片集
10.達(dá)到根據(jù)“圖片”就能返回識(shí)別正確的字符集的目標(biāo)
7素材準(zhǔn)備
7.1素材選擇
由于本文是以初級(jí)的學(xué)習(xí)研究目的為主,要求“有代表性,但又不會(huì)太難”,所以就直接在網(wǎng)上找個(gè)比較有代表性的簡(jiǎn)單的字符型驗(yàn)證碼(感覺像在找漏洞一樣)。
最后在一個(gè)比較舊的網(wǎng)站(估計(jì)是幾十年前的網(wǎng)站框架)找到了這個(gè)驗(yàn)證碼圖片。
原始圖:
放大清晰圖:
此圖片能滿足要求,仔細(xì)觀察其具有如下特點(diǎn)。
有利識(shí)別的特點(diǎn):
由純阿拉伯?dāng)?shù)字組成字?jǐn)?shù)為4位字符排列有規(guī)律字體是用的統(tǒng)一字體
以上就是本文所說的此驗(yàn)證碼簡(jiǎn)單的重要原因,后續(xù)代碼實(shí)現(xiàn)中會(huì)用到
不利識(shí)別的特點(diǎn):
圖片背景有干擾噪點(diǎn)
這雖然是不利特點(diǎn),但是這個(gè)干擾門檻太低,只需要簡(jiǎn)單的方法就可以除去
7.2素材獲取
由于在做訓(xùn)練的時(shí)候,需要大量的素材,所以不可能用手工的方式一張張?jiān)跒g覽器中保存,故建議寫個(gè)自動(dòng)化下載的程序。
主要步驟如下:
通過瀏覽器的抓包功能獲取隨機(jī)圖片驗(yàn)證碼生成接口批量請(qǐng)求接口以獲取圖片將圖片保存到本地磁盤目錄中
這些都是一些IT基本技能,本文就不再詳細(xì)展開了。
關(guān)于網(wǎng)絡(luò)請(qǐng)求和文件保存的代碼,如下:
def downloads_pic(**kwargs): pic_name = kwargs.get('pic_name', None) url = 'http://xxxx/rand_code_captcha/' res = requests.get(url, stream=True) with open(pic_path + pic_name+'.bmp', 'wb') as f: for chunk in res.iter_content(chunk_size=1024): if chunk: # filter out keep-alive new chunks f.write(chunk) f.flush() f.close()
循環(huán)執(zhí)行N次,即可保存N張驗(yàn)證素材了。
下面是收集的幾十張素材庫(kù)保存到本地文件的效果圖:
8圖片預(yù)處理
雖然目前的機(jī)器學(xué)習(xí)算法已經(jīng)相當(dāng)先進(jìn)了,但是為了減少后面訓(xùn)練時(shí)的復(fù)雜度,同時(shí)增加識(shí)別率,很有必要對(duì)圖片進(jìn)行預(yù)處理,使其對(duì)機(jī)器識(shí)別更友好。
針對(duì)以上原始素材的處理步驟如下:
1.讀取原始圖片素材
2.將彩色圖片二值化為黑白圖片
3.去除背景噪點(diǎn)
8.1二值化圖片
主要步驟如下:
將RGB彩圖轉(zhuǎn)為灰度圖
將灰度圖按照設(shè)定閾值轉(zhuǎn)化為二值圖
image = Image.open(img_path) imgry = image.convert('L') # 轉(zhuǎn)化為灰度圖 table = get_bin_table() out = imgry.point(table, '1')
上面引用到的二值函數(shù)的定義如下:
def get_bin_table(threshold=140): """ 獲取灰度轉(zhuǎn)二值的映射table :param threshold: :return: """ table = [] for i in range(256): if i < threshold: table.append(0) else: table.append(1) return table
由PIL轉(zhuǎn)化后變成二值圖片:0表示黑色,1表示白色。二值化后帶噪點(diǎn)的6937的像素點(diǎn)輸出后如下圖:
1110111011110111011111011110111100110111
1101111111110110101111110101111111101111
1100111011111000001111111001011111011111
1101111011111111101111011110111111011111
1110000111111000011101100001110111011111
如果你是近視眼,然后離屏幕遠(yuǎn)一點(diǎn),可以隱約看到6937的骨架了。
8.2去除噪點(diǎn)
在轉(zhuǎn)化為二值圖片后,就需要清除噪點(diǎn)。本文選擇的素材比較簡(jiǎn)單,大部分噪點(diǎn)也是最簡(jiǎn)單的那種孤立點(diǎn),所以可以通過檢測(cè)這些孤立點(diǎn)就能移除大量的噪點(diǎn)。
關(guān)于如何去除更復(fù)雜的噪點(diǎn)甚至干擾線和色塊,有比較成熟的算法:洪水填充法 Flood Fill,后面有興趣的時(shí)間可以繼續(xù)研究一下。
本文為了問題簡(jiǎn)單化,干脆就用一種簡(jiǎn)單的自己想的簡(jiǎn)單辦法來解決掉這個(gè)問題:
對(duì)某個(gè) 黑點(diǎn) 周邊的九宮格里面的黑色點(diǎn)計(jì)數(shù)
如果黑色點(diǎn)少于2個(gè)則證明此點(diǎn)為孤立點(diǎn),然后得到所有的孤立點(diǎn)
對(duì)所有孤立點(diǎn)一次批量移除。
下面將詳細(xì)介紹關(guān)于具體的算法原理。
將所有的像素點(diǎn)如下圖分成三大類
頂點(diǎn)A非頂點(diǎn)的邊界點(diǎn)B內(nèi)部點(diǎn)C
種類點(diǎn)示意圖如下:
其中:
?A類點(diǎn)計(jì)算周邊相鄰的3個(gè)點(diǎn)(如上圖紅框所示)
?B類點(diǎn)計(jì)算周邊相鄰的5個(gè)點(diǎn)(如上圖紅框所示)
?C類點(diǎn)計(jì)算周邊相鄰的8個(gè)點(diǎn)(如上圖紅框所示)
當(dāng)然,由于基準(zhǔn)點(diǎn)在計(jì)算區(qū)域的方向不同,A類點(diǎn)和B類點(diǎn)還會(huì)有細(xì)分:
?A類點(diǎn)繼續(xù)細(xì)分為:左上,左下,右上,右下
?B類點(diǎn)繼續(xù)細(xì)分為:上,下,左,右
?C類點(diǎn)不用細(xì)分
然后這些細(xì)分點(diǎn)將成為后續(xù)坐標(biāo)獲取的準(zhǔn)則。
主要算法的python實(shí)現(xiàn)如下:
def sum_9_region(img, x, y): """ 9鄰域框,以當(dāng)前點(diǎn)為中心的田字框,黑點(diǎn)個(gè)數(shù) :param x: :param y: :return: """ # todo 判斷圖片的長(zhǎng)寬度下限 cur_pixel = img.getpixel((x, y)) # 當(dāng)前像素點(diǎn)的值 width = img.width height = img.height if cur_pixel == 1: # 如果當(dāng)前點(diǎn)為白色區(qū)域,則不統(tǒng)計(jì)鄰域值 return 0 if y == 0: # 第一行 if x == 0: # 左上頂點(diǎn),4鄰域 # 中心點(diǎn)旁邊3個(gè)點(diǎn) sum = cur_pixel \ + img.getpixel((x, y + 1)) \ + img.getpixel((x + 1, y)) \ + img.getpixel((x + 1, y + 1)) return 4 - sum elif x == width - 1: # 右上頂點(diǎn) sum = cur_pixel \ + img.getpixel((x, y + 1)) \ + img.getpixel((x - 1, y)) \ + img.getpixel((x - 1, y + 1)) return 4 - sum else: # 最上非頂點(diǎn),6鄰域 sum = img.getpixel((x - 1, y)) \ + img.getpixel((x - 1, y + 1)) \ + cur_pixel \ + img.getpixel((x, y + 1)) \ + img.getpixel((x + 1, y)) \ + img.getpixel((x + 1, y + 1)) return 6 - sum elif y == height - 1: # 最下面一行 if x == 0: # 左下頂點(diǎn) # 中心點(diǎn)旁邊3個(gè)點(diǎn) sum = cur_pixel \ + img.getpixel((x + 1, y)) \ + img.getpixel((x + 1, y - 1)) \ + img.getpixel((x, y - 1)) return 4 - sum elif x == width - 1: # 右下頂點(diǎn) sum = cur_pixel \ + img.getpixel((x, y - 1)) \ + img.getpixel((x - 1, y)) \ + img.getpixel((x - 1, y - 1)) return 4 - sum else: # 最下非頂點(diǎn),6鄰域 sum = cur_pixel \ + img.getpixel((x - 1, y)) \ + img.getpixel((x + 1, y)) \ + img.getpixel((x, y - 1)) \ + img.getpixel((x - 1, y - 1)) \ + img.getpixel((x + 1, y - 1)) return 6 - sum else: # y不在邊界 if x == 0: # 左邊非頂點(diǎn) sum = img.getpixel((x, y - 1)) \ + cur_pixel \ + img.getpixel((x, y + 1)) \ + img.getpixel((x + 1, y - 1)) \ + img.getpixel((x + 1, y)) \ + img.getpixel((x + 1, y + 1)) return 6 - sum elif x == width - 1: # 右邊非頂點(diǎn) # print('%s,%s' % (x, y)) sum = img.getpixel((x, y - 1)) \ + cur_pixel \ + img.getpixel((x, y + 1)) \ + img.getpixel((x - 1, y - 1)) \ + img.getpixel((x - 1, y)) \ + img.getpixel((x - 1, y + 1)) return 6 - sum else: # 具備9領(lǐng)域條件的 sum = img.getpixel((x - 1, y - 1)) \ + img.getpixel((x - 1, y)) \ + img.getpixel((x - 1, y + 1)) \ + img.getpixel((x, y - 1)) \ + cur_pixel \ + img.getpixel((x, y + 1)) \ + img.getpixel((x + 1, y - 1)) \ + img.getpixel((x + 1, y)) \ + img.getpixel((x + 1, y + 1)) return 9 - sum
Tips:這個(gè)地方是相當(dāng)考驗(yàn)人的細(xì)心和耐心程度了,這個(gè)地方的工作量還是蠻大的,花了半個(gè)晚上的時(shí)間才完成的。
計(jì)算好每個(gè)像素點(diǎn)的周邊像素黑點(diǎn)(注意:PIL轉(zhuǎn)化的圖片黑點(diǎn)的值為0)個(gè)數(shù)后,只需要篩選出個(gè)數(shù)為1或者2的點(diǎn)的坐標(biāo)即為孤立點(diǎn)。這個(gè)判斷方法可能不太準(zhǔn)確,但是基本上能夠滿足本文的需求了。
經(jīng)過預(yù)處理后的圖片如下所示:
對(duì)比文章開頭的原始圖片,那些孤立點(diǎn)都被移除掉,相對(duì)比較干凈的驗(yàn)證碼圖片已經(jīng)生成。
9圖片字符切割
由于字符型驗(yàn)證碼圖片本質(zhì)就可以看著是由一系列的單個(gè)字符圖片拼接而成,為了簡(jiǎn)化研究對(duì)象,我們也可以將這些圖片分解到原子級(jí),即:只包含單個(gè)字符的圖片。
于是,我們的研究對(duì)象由“N種字串的組合對(duì)象”變成“10種阿拉伯?dāng)?shù)字”的處理,極大的簡(jiǎn)化和減少了處理對(duì)象。
9.1分割算法
現(xiàn)實(shí)生活中的字符驗(yàn)證碼的產(chǎn)生千奇百怪,有各種扭曲和變形。關(guān)于字符分割的算法,也沒有很通用的方式。這個(gè)算法也是需要開發(fā)人員仔細(xì)研究所要識(shí)別的字符圖片的特點(diǎn)來制定的。
當(dāng)然,本文所選的研究對(duì)象盡量簡(jiǎn)化了這個(gè)步驟的難度,下文將慢慢進(jìn)行介紹。
使用圖像編輯軟件(PhoneShop或者其它)打開驗(yàn)證碼圖片,放大到像素級(jí)別,觀察其它一些參數(shù)特點(diǎn):
可以得到如下參數(shù):
?整個(gè)圖片尺寸是 40*10
?單個(gè)字符尺寸是 6*10
?左右字符和左右邊緣相距2個(gè)像素
?字符上下緊挨邊緣(即相距0個(gè)像素)
這樣就可以很容易就定位到每個(gè)字符在整個(gè)圖片中占據(jù)的像素區(qū)域,然后就可以進(jìn)行分割了,具體代碼如下:
def get_crop_imgs(img): """ 按照?qǐng)D片的特點(diǎn),進(jìn)行切割,這個(gè)要根據(jù)具體的驗(yàn)證碼來進(jìn)行工作. # 見原理圖 :param img: :return: """ child_img_list = [] for i in range(4): x = 2 + i * (6 + 4) # 見原理圖 y = 0 child_img = img.crop((x, y, x + 6, y + 10)) child_img_list.append(child_img) return child_img_list
然后就能得到被切割的原子級(jí)的圖片元素了:
9.2內(nèi)容小結(jié)
基于本部分的內(nèi)容的討論,相信大家已經(jīng)了解到了,如果驗(yàn)證碼的干擾(扭曲,噪點(diǎn),干擾色塊,干擾線……)做得不夠強(qiáng)的話,可以得到如下兩個(gè)結(jié)論:
4位字符和40000位字符的驗(yàn)證碼區(qū)別不大
純數(shù)字和數(shù)字及字母組合的驗(yàn)證碼區(qū)別不大
純數(shù)字。分類數(shù)為10
純字母
不區(qū)分大小寫。分類數(shù)為26
區(qū)分大小寫。分類數(shù)為52
數(shù)字和區(qū)分大小寫的字母組合。分類數(shù)為62
在沒有形成指數(shù)級(jí)或者幾何級(jí)的難度增加,而只是線性有限級(jí)增加計(jì)算量時(shí),意義不太大。
10尺寸歸一
本文所選擇的研究對(duì)象本身尺寸就是統(tǒng)一狀態(tài):6*10的規(guī)格,所以此部分不需要額外處理。但是一些進(jìn)行了扭曲和縮放的驗(yàn)證碼,則此部分也會(huì)是一個(gè)圖像處理的難點(diǎn)。
11模型訓(xùn)練步驟
在前面的環(huán)節(jié),已經(jīng)完成了對(duì)單個(gè)圖片的處理和分割了。后面就開始進(jìn)行識(shí)別模型的訓(xùn)練了。
整個(gè)訓(xùn)練過程如下:
1.大量完成預(yù)處理并切割到原子級(jí)的圖片素材準(zhǔn)備
2.對(duì)素材圖片進(jìn)行人為分類,即:打標(biāo)簽
3.定義單張圖片的識(shí)別特征
4.使用SVM訓(xùn)練模型對(duì)打了標(biāo)簽的特征文件進(jìn)行訓(xùn)練,得到模型文件
12素材準(zhǔn)備
本文在訓(xùn)練階段重新下載了同一模式的4數(shù)字的驗(yàn)證圖片總計(jì):3000張。然后對(duì)這3000張圖片進(jìn)行處理和切割,得到12000張?jiān)蛹?jí)圖片。
在這12000張圖片中刪除一些會(huì)影響訓(xùn)練和識(shí)別的強(qiáng)干擾的干擾素材,切割后的效果圖如下:
13素材標(biāo)記
由于本文使用的這種識(shí)別方法中,機(jī)器在最開始是不具備任何 數(shù)字的觀念的。所以需要人為的對(duì)素材進(jìn)行標(biāo)識(shí),告訴機(jī)器什么樣的圖片的內(nèi)容是 1……。
這個(gè)過程叫做“標(biāo)記”。
具體打標(biāo)簽的方法是:
為0~9每個(gè)數(shù)字建立一個(gè)目錄,目錄名稱為相應(yīng)數(shù)字(相當(dāng)于標(biāo)簽)
人為判定圖片內(nèi)容,并將圖片拖到指定數(shù)字目錄中
每個(gè)目錄中存放100張左右的素材
一般情況下,標(biāo)記的素材越多,那么訓(xùn)練出的模型的分辨能力和預(yù)測(cè)能力越強(qiáng)。例如本文中,標(biāo)記素材為十多張的時(shí)候,對(duì)新的測(cè)試圖片識(shí)別率基本為零,但是到達(dá)100張時(shí),則可以達(dá)到近乎100%的識(shí)別率
14特征選擇
對(duì)于切割后的單個(gè)字符圖片,像素級(jí)放大圖如下:
從宏觀上看,不同的數(shù)字圖片的本質(zhì)就是將黑色按照一定規(guī)則填充在相應(yīng)的像素點(diǎn)上,所以這些特征都是最后圍繞像素點(diǎn)進(jìn)行。
字符圖片寬6個(gè)像素,高10個(gè)像素,理論上可以最簡(jiǎn)單粗暴地可以定義出60個(gè)特征:60個(gè)像素點(diǎn)上面的像素值。但是顯然這樣高維度必然會(huì)造成過大的計(jì)算量,可以適當(dāng)?shù)慕稻S。
通過查閱相應(yīng)的文獻(xiàn)[2],給出另外一種簡(jiǎn)單粗暴的特征定義:
每行上黑色像素的個(gè)數(shù),可以得到10個(gè)特征
每列上黑色像素的個(gè)數(shù),可以得到6個(gè)特征
最后得到16維的一組特征,實(shí)現(xiàn)代碼如下:
def get_feature(img): """ 獲取指定圖片的特征值, 1. 按照每排的像素點(diǎn),高度為10,則有10個(gè)維度,然后為6列,總共16個(gè)維度 :param img_path: :return:一個(gè)維度為10(高度)的列表 """ width, height = img.size pixel_cnt_list = [] height = 10 for y in range(height): pix_cnt_x = 0 for x in range(width): if img.getpixel((x, y)) == 0: # 黑色點(diǎn) pix_cnt_x += 1 pixel_cnt_list.append(pix_cnt_x) for x in range(width): pix_cnt_y = 0 for y in range(height): if img.getpixel((x, y)) == 0: # 黑色點(diǎn) pix_cnt_y += 1 pixel_cnt_list.append(pix_cnt_y) return pixel_cnt_list
然后就將圖片素材特征化,按照libSVM指定的格式生成一組帶特征值和標(biāo)記值的向量文件。內(nèi)容示例如下:
說明如下:
1.第一列是標(biāo)簽列,即此圖片人為標(biāo)記值,后續(xù)還有其它數(shù)值1~9的標(biāo)記
2.后面是16組特征值,冒號(hào)前面是索引號(hào),后面是值
3.如果有1000張訓(xùn)練圖片,那么會(huì)產(chǎn)生1000行的記錄
對(duì)此文件格式有興趣的同學(xué),可以到libSVM官網(wǎng)搜索更多的資料。
15模型訓(xùn)練
到這個(gè)階段后,由于本文直接使用的是開源的libSVM方案,屬于應(yīng)用了,所以此處內(nèi)容就比較簡(jiǎn)單的。只需要輸入特征文件,然后輸出模型文件即可。
可以搜索到很多相關(guān)中文資料[1]。
主要代碼如下:
def train_svm_model(): """ 訓(xùn)練并生成model文件 :return: """ y, x = svm_read_problem(svm_root + '/train_pix_feature_xy.txt') model = svm_train(y, x) svm_save_model(model_path, model)
備注:生成的模型文件名稱為svm_model_file
16模型測(cè)試
訓(xùn)練生成模型后,需要使用訓(xùn)練集之外的全新的標(biāo)記后的圖片作為測(cè)試集來對(duì)模型進(jìn)行測(cè)試。
本文中的測(cè)試實(shí)驗(yàn)如下:
使用一組全部標(biāo)記為8的21張圖片來進(jìn)行模型測(cè)試
測(cè)試圖片生成帶標(biāo)記的特征文件名稱為last_test_pix_xy_new.txt
在早期訓(xùn)練集樣本只有每字符十幾張圖的時(shí)候,雖然對(duì)訓(xùn)練集樣本有很好的區(qū)分度,但是對(duì)于新樣本測(cè)試集基本沒區(qū)分能力,識(shí)別基本是錯(cuò)誤的。逐漸增加標(biāo)記為8的訓(xùn)練集的樣本后情況有了比較好的改觀:
到60張左右的時(shí)候,正確率大概80%
到185張的時(shí)候,正確率基本上達(dá)到100%
以數(shù)字8的這種模型強(qiáng)化方法,繼續(xù)強(qiáng)化對(duì)數(shù)字0~9中的其它數(shù)字的模型訓(xùn)練,最后可以達(dá)到對(duì)所有的數(shù)字的圖片的識(shí)別率達(dá)到近乎 100%。在本文示例中基本上每個(gè)數(shù)字的訓(xùn)練集在100張左右時(shí),就可以達(dá)到100%的識(shí)別率了。
模型測(cè)試代碼如下:
def svm_model_test(): """ 使用測(cè)試集測(cè)試模型 :return: """ yt, xt = svm_read_problem(svm_root + '/last_test_pix_xy_new.txt') model = svm_load_model(model_path) p_label, p_acc, p_val = svm_predict(yt, xt, model)#p_label即為識(shí)別的結(jié)果 cnt = 0 for item in p_label: print('%d' % item, end=',') cnt += 1 if cnt % 8 == 0: print('')
至此,驗(yàn)證的識(shí)別工作算是完滿結(jié)束。
17完整識(shí)別流程
在前面的環(huán)節(jié),驗(yàn)證碼識(shí)別的相關(guān)工具集都準(zhǔn)備好了。然后對(duì)指定的網(wǎng)絡(luò)上的動(dòng)態(tài)驗(yàn)證碼形成持續(xù)不斷地識(shí)別,還需要另外寫一點(diǎn)代碼來組織這個(gè)流程,以形成穩(wěn)定的黑盒的驗(yàn)證碼識(shí)別接口。
主要步驟如下:
1.傳入一組驗(yàn)證碼圖片
2.對(duì)圖片進(jìn)行預(yù)處理:去噪,二值等等
3.切割成4張有序的單字符圖片
4.使用模型文件分別對(duì)4張圖片進(jìn)行識(shí)別
5.將識(shí)別結(jié)果拼接
6.返回識(shí)別結(jié)果
然后本文中,請(qǐng)求某網(wǎng)絡(luò)驗(yàn)證碼的http接口,獲得驗(yàn)證碼圖片,識(shí)別出結(jié)果,以此結(jié)果作為名稱保存此驗(yàn)證圖片。效果如下:
顯然,已經(jīng)達(dá)到幾乎100%的識(shí)別率了。
在本算法沒有做任何優(yōu)化的情況下,在目前主流配置的PC機(jī)上運(yùn)行此程序,可以實(shí)現(xiàn)200ms識(shí)別一個(gè)(很大的耗時(shí)來自網(wǎng)絡(luò)請(qǐng)求的阻塞)。
18效率優(yōu)化
后期通過優(yōu)化的方式可以達(dá)到更好的效率。
軟件層次優(yōu)化
1.將圖片資源的網(wǎng)絡(luò)請(qǐng)求部分做成異步非阻塞模式
2.利用好多核CPU,多進(jìn)程并行運(yùn)行
3.在圖片特征上認(rèn)真挑選和實(shí)驗(yàn),降低維度
預(yù)計(jì)可以達(dá)到1s識(shí)別10到100個(gè)驗(yàn)證碼的樣子。
硬件層次優(yōu)化
1.粗暴地增加CPU性能
2.粗暴地增加運(yùn)行機(jī)器
基本上,10臺(tái)4核心機(jī)器同時(shí)請(qǐng)求,保守估計(jì)效率可以提升到1s識(shí)別1萬個(gè)驗(yàn)證碼。
19互聯(lián)網(wǎng)安全警示
如果驗(yàn)證碼被識(shí)別出來后,會(huì)有什么安全隱患呢?
在大家通過上一小節(jié)對(duì)識(shí)別效率有了認(rèn)識(shí)之后,再提到這樣的場(chǎng)景,大家會(huì)有新的看法了吧:
12306火車售票網(wǎng),春節(jié)期間早上8:00某車次放出的500張票,1s內(nèi)全部被搶光,最后發(fā)現(xiàn)正常需求的人搶不到票,但是黃牛卻大大的有票某某手機(jī)網(wǎng)站,早上10:00開啟搶購(gòu)活動(dòng),守候了許久的無數(shù)的你都鎩羽而歸,但是同樣黃牛卻大量有貨
暫先不管后面有沒有手續(xù)上的黑幕,在一切手續(xù)合法的情況下,只要通過技術(shù)手段識(shí)別掉了驗(yàn)證碼,再通過計(jì)算機(jī)強(qiáng)大的計(jì)算力和自動(dòng)化能力,將大量資源搶到少數(shù)黃牛手中在技術(shù)是完全可行的。
所以今后大家搶不到票不爽的時(shí)候,可以繼續(xù)罵12306,但是不要罵它有黑幕了,而是罵他們IT技術(shù)不精吧。
關(guān)于一個(gè)驗(yàn)證碼失效,即相當(dāng)于沒有驗(yàn)證碼的系統(tǒng),再?zèng)]有其它風(fēng)控策略的情況下,那么這個(gè)系統(tǒng)對(duì)于代碼程序來就就完全如入無人之境。
目前確實(shí)有一些web應(yīng)用系統(tǒng)連驗(yàn)證碼都沒有,只能任人宰割即使web應(yīng)用系統(tǒng)有驗(yàn)證碼但是難度不夠,也只能任人宰割
所以,這一塊雖然小,但是安全問題不能忽視。
20積極應(yīng)用場(chǎng)景
本文介紹的其實(shí)是一項(xiàng)簡(jiǎn)單的OCR技術(shù)實(shí)現(xiàn)。有一些很好同時(shí)也很有積極進(jìn)步意義的應(yīng)用場(chǎng)景:
?銀行卡號(hào)識(shí)別
?身份證號(hào)識(shí)別
?車牌號(hào)碼識(shí)別
這些場(chǎng)景有具有和本文所研究素材很相似的特點(diǎn):
1.字體單一
2.字符為簡(jiǎn)單的數(shù)字或字母組合
3.文字的排列是標(biāo)準(zhǔn)化統(tǒng)一化的
所以如果拍照時(shí)原始數(shù)據(jù)采集比較規(guī)范的情況下,識(shí)別起來應(yīng)該難度也不大。
21小結(jié)
本文只是選取了一個(gè)比較典型的而且比較簡(jiǎn)單的驗(yàn)證碼的識(shí)別作為示例,但是基本上能表述出一個(gè)識(shí)別此類驗(yàn)證碼的完整流程,可以供大家交流學(xué)習(xí)。
由于目前全球的IT技術(shù)實(shí)力參差不齊,現(xiàn)在很多舊的IT系統(tǒng)里面都存在一些舊的頁面框架,里面使用的驗(yàn)證碼也是相當(dāng)古老,對(duì)于當(dāng)下的一些識(shí)別技術(shù)來說,完全不堪一擊。比如,我看到一些在校大學(xué)生就直接拿自己學(xué)校的教務(wù)系統(tǒng)的驗(yàn)證碼來開刀練習(xí)的。
最后,本文特意提出如下倡議:
對(duì)于掌握OCR技術(shù)的人
?不要做違法的事,因?yàn)槟壳氨蛔サ摹鞍酌弊印钡男侣勔残U多的
?在不違法的情況下,還是可以向存在漏洞的系統(tǒng)管理員提出善意提醒
?以自己的專業(yè)知識(shí),多做一些促進(jìn)社會(huì)進(jìn)步,提升社會(huì)生產(chǎn)力的事情,如紙書電子化等等
對(duì)于仍然沿用舊的落后的IT系統(tǒng)的公司或者機(jī)構(gòu)相關(guān)人員
應(yīng)該盡快認(rèn)識(shí)到事情的嚴(yán)重性,趕緊升級(jí)自己的系統(tǒng),或者將這一塊業(yè)務(wù)交付給專門的安全公司
關(guān)于“Python如何實(shí)現(xiàn)字符型圖片驗(yàn)證碼識(shí)別完整過程詳解”這篇文章就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,使各位可以學(xué)到更多知識(shí),如果覺得文章不錯(cuò),請(qǐng)把它分享出去讓更多的人看到。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。