溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Python如何實(shí)現(xiàn)字符型圖片驗(yàn)證碼識(shí)別完整過程詳解

發(fā)布時(shí)間:2021-04-07 10:29:30 來源:億速云 閱讀:454 作者:小新 欄目:開發(fā)技術(shù)

這篇文章將為大家詳細(xì)講解有關(guān)Python如何實(shí)現(xiàn)字符型圖片驗(yàn)證碼識(shí)別完整過程詳解,小編覺得挺實(shí)用的,因此分享給大家做個(gè)參考,希望大家閱讀完這篇文章后可以有所收獲。

1摘要

驗(yàn)證碼是目前互聯(lián)網(wǎng)上非常常見也是非常重要的一個(gè)事物,充當(dāng)著很多系統(tǒng)的防火墻功能,但是隨時(shí)OCR技術(shù)的發(fā)展,驗(yàn)證碼暴露出來的安全問題也越來越嚴(yán)峻。本文介紹了一套字符驗(yàn)證碼識(shí)別的完整流程,對(duì)于驗(yàn)證碼安全和OCR識(shí)別技術(shù)都有一定的借鑒意義。

2關(guān)鍵詞

關(guān)鍵詞:安全,字符圖片,驗(yàn)證碼識(shí)別,OCR,Python,SVM,PIL

3免責(zé)聲明

本文研究所用素材來自于某舊Web框架的網(wǎng)站完全對(duì)外公開的公共圖片資源。

本文只做了該網(wǎng)站對(duì)外公開的公共圖片資源進(jìn)行了爬取,并未越權(quán)做任何多余操作。

本文在書寫相關(guān)報(bào)告的時(shí)候已經(jīng)隱去漏洞網(wǎng)站的身份信息。

本文作者已經(jīng)通知網(wǎng)站相關(guān)人員此系統(tǒng)漏洞,并積極向新系統(tǒng)轉(zhuǎn)移。

本報(bào)告的主要目的也僅是用于OCR交流學(xué)習(xí)和引起大家對(duì)驗(yàn)證安全的警覺。

4引言

本章內(nèi)容作為它的技術(shù)補(bǔ)充來給出相應(yīng)的識(shí)別的解決方案,讓讀者對(duì)驗(yàn)證碼的功能及安全性問題有更深刻的認(rèn)識(shí)。

5基本工具

要達(dá)到本文的目的,只需要簡(jiǎn)單的編程知識(shí)即可,因?yàn)楝F(xiàn)在的機(jī)器學(xué)習(xí)領(lǐng)域的蓬勃發(fā)展,已經(jīng)有很多封裝好的開源解決方案來進(jìn)行機(jī)器學(xué)習(xí)。普通程序員已經(jīng)不需要了解復(fù)雜的數(shù)學(xué)原理,即可以實(shí)現(xiàn)對(duì)這些工具的應(yīng)用了。

主要開發(fā)環(huán)境:

  • python3.5

python SDK版本

  • PIL

圖片處理庫(kù)

  • libsvm

開源的svm機(jī)器學(xué)習(xí)庫(kù)

關(guān)于環(huán)境的安裝,不是本文的重點(diǎn),故略去。

6基本流程

一般情況下,對(duì)于字符型驗(yàn)證碼的識(shí)別流程如下:

1.準(zhǔn)備原始圖片素材
2.圖片預(yù)處理
3.圖片字符切割
4.圖片尺寸歸一化
5.圖片字符標(biāo)記
6.字符圖片特征提取
7.生成特征和標(biāo)記對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)集
8.訓(xùn)練特征標(biāo)記數(shù)據(jù)生成識(shí)別模型
9.使用識(shí)別模型預(yù)測(cè)新的未知圖片集
10.達(dá)到根據(jù)“圖片”就能返回識(shí)別正確的字符集的目標(biāo)

7素材準(zhǔn)備

7.1素材選擇

由于本文是以初級(jí)的學(xué)習(xí)研究目的為主,要求“有代表性,但又不會(huì)太難”,所以就直接在網(wǎng)上找個(gè)比較有代表性的簡(jiǎn)單的字符型驗(yàn)證碼(感覺像在找漏洞一樣)。

最后在一個(gè)比較舊的網(wǎng)站(估計(jì)是幾十年前的網(wǎng)站框架)找到了這個(gè)驗(yàn)證碼圖片。

原始圖:

Python如何實(shí)現(xiàn)字符型圖片驗(yàn)證碼識(shí)別完整過程詳解

放大清晰圖:

Python如何實(shí)現(xiàn)字符型圖片驗(yàn)證碼識(shí)別完整過程詳解

此圖片能滿足要求,仔細(xì)觀察其具有如下特點(diǎn)。

有利識(shí)別的特點(diǎn):

由純阿拉伯?dāng)?shù)字組成字?jǐn)?shù)為4位字符排列有規(guī)律字體是用的統(tǒng)一字體

以上就是本文所說的此驗(yàn)證碼簡(jiǎn)單的重要原因,后續(xù)代碼實(shí)現(xiàn)中會(huì)用到

不利識(shí)別的特點(diǎn):

圖片背景有干擾噪點(diǎn)

這雖然是不利特點(diǎn),但是這個(gè)干擾門檻太低,只需要簡(jiǎn)單的方法就可以除去

7.2素材獲取

由于在做訓(xùn)練的時(shí)候,需要大量的素材,所以不可能用手工的方式一張張?jiān)跒g覽器中保存,故建議寫個(gè)自動(dòng)化下載的程序。

主要步驟如下:

通過瀏覽器的抓包功能獲取隨機(jī)圖片驗(yàn)證碼生成接口批量請(qǐng)求接口以獲取圖片將圖片保存到本地磁盤目錄中

這些都是一些IT基本技能,本文就不再詳細(xì)展開了。

關(guān)于網(wǎng)絡(luò)請(qǐng)求和文件保存的代碼,如下:

def downloads_pic(**kwargs):
 pic_name = kwargs.get('pic_name', None)

 url = 'http://xxxx/rand_code_captcha/'
 res = requests.get(url, stream=True)
 with open(pic_path + pic_name+'.bmp', 'wb') as f:
  for chunk in res.iter_content(chunk_size=1024):
   if chunk: # filter out keep-alive new chunks
    f.write(chunk)
    f.flush()
  f.close()

循環(huán)執(zhí)行N次,即可保存N張驗(yàn)證素材了。

下面是收集的幾十張素材庫(kù)保存到本地文件的效果圖:

Python如何實(shí)現(xiàn)字符型圖片驗(yàn)證碼識(shí)別完整過程詳解

8圖片預(yù)處理

雖然目前的機(jī)器學(xué)習(xí)算法已經(jīng)相當(dāng)先進(jìn)了,但是為了減少后面訓(xùn)練時(shí)的復(fù)雜度,同時(shí)增加識(shí)別率,很有必要對(duì)圖片進(jìn)行預(yù)處理,使其對(duì)機(jī)器識(shí)別更友好。

針對(duì)以上原始素材的處理步驟如下:

1.讀取原始圖片素材
2.將彩色圖片二值化為黑白圖片
3.去除背景噪點(diǎn)

8.1二值化圖片

主要步驟如下:

  1. 將RGB彩圖轉(zhuǎn)為灰度圖

  2. 將灰度圖按照設(shè)定閾值轉(zhuǎn)化為二值圖

image = Image.open(img_path)
imgry = image.convert('L') # 轉(zhuǎn)化為灰度圖

table = get_bin_table()
out = imgry.point(table, '1')

上面引用到的二值函數(shù)的定義如下:

def get_bin_table(threshold=140):

 """

 獲取灰度轉(zhuǎn)二值的映射table

 :param threshold:

 :return:

 """

 table = []

 for i in range(256):

  if i < threshold:

   table.append(0)

  else:

   table.append(1)

 

 return table

由PIL轉(zhuǎn)化后變成二值圖片:0表示黑色,1表示白色。二值化后帶噪點(diǎn)的6937的像素點(diǎn)輸出后如下圖:

1110111011110111011111011110111100110111
1101111111110110101111110101111111101111
1100111011111000001111111001011111011111
1101111011111111101111011110111111011111
1110000111111000011101100001110111011111

如果你是近視眼,然后離屏幕遠(yuǎn)一點(diǎn),可以隱約看到6937的骨架了。

8.2去除噪點(diǎn)

在轉(zhuǎn)化為二值圖片后,就需要清除噪點(diǎn)。本文選擇的素材比較簡(jiǎn)單,大部分噪點(diǎn)也是最簡(jiǎn)單的那種孤立點(diǎn),所以可以通過檢測(cè)這些孤立點(diǎn)就能移除大量的噪點(diǎn)。

關(guān)于如何去除更復(fù)雜的噪點(diǎn)甚至干擾線和色塊,有比較成熟的算法:洪水填充法 Flood Fill,后面有興趣的時(shí)間可以繼續(xù)研究一下。

本文為了問題簡(jiǎn)單化,干脆就用一種簡(jiǎn)單的自己想的簡(jiǎn)單辦法來解決掉這個(gè)問題:

  • 對(duì)某個(gè) 黑點(diǎn) 周邊的九宮格里面的黑色點(diǎn)計(jì)數(shù)

  • 如果黑色點(diǎn)少于2個(gè)則證明此點(diǎn)為孤立點(diǎn),然后得到所有的孤立點(diǎn)

  • 對(duì)所有孤立點(diǎn)一次批量移除。

下面將詳細(xì)介紹關(guān)于具體的算法原理。

將所有的像素點(diǎn)如下圖分成三大類

頂點(diǎn)A非頂點(diǎn)的邊界點(diǎn)B內(nèi)部點(diǎn)C

種類點(diǎn)示意圖如下:

Python如何實(shí)現(xiàn)字符型圖片驗(yàn)證碼識(shí)別完整過程詳解

其中:

?A類點(diǎn)計(jì)算周邊相鄰的3個(gè)點(diǎn)(如上圖紅框所示)
?B類點(diǎn)計(jì)算周邊相鄰的5個(gè)點(diǎn)(如上圖紅框所示)
?C類點(diǎn)計(jì)算周邊相鄰的8個(gè)點(diǎn)(如上圖紅框所示)

當(dāng)然,由于基準(zhǔn)點(diǎn)在計(jì)算區(qū)域的方向不同,A類點(diǎn)和B類點(diǎn)還會(huì)有細(xì)分:

?A類點(diǎn)繼續(xù)細(xì)分為:左上,左下,右上,右下
?B類點(diǎn)繼續(xù)細(xì)分為:上,下,左,右
?C類點(diǎn)不用細(xì)分

然后這些細(xì)分點(diǎn)將成為后續(xù)坐標(biāo)獲取的準(zhǔn)則。

主要算法的python實(shí)現(xiàn)如下:

def sum_9_region(img, x, y):
 """
 9鄰域框,以當(dāng)前點(diǎn)為中心的田字框,黑點(diǎn)個(gè)數(shù)
 :param x:
 :param y:
 :return:
 """
 # todo 判斷圖片的長(zhǎng)寬度下限
 cur_pixel = img.getpixel((x, y)) # 當(dāng)前像素點(diǎn)的值
 width = img.width
 height = img.height

 if cur_pixel == 1: # 如果當(dāng)前點(diǎn)為白色區(qū)域,則不統(tǒng)計(jì)鄰域值
  return 0

 if y == 0: # 第一行
  if x == 0: # 左上頂點(diǎn),4鄰域
   # 中心點(diǎn)旁邊3個(gè)點(diǎn)
   sum = cur_pixel \
     + img.getpixel((x, y + 1)) \
     + img.getpixel((x + 1, y)) \
     + img.getpixel((x + 1, y + 1))
   return 4 - sum
  elif x == width - 1: # 右上頂點(diǎn)
   sum = cur_pixel \
     + img.getpixel((x, y + 1)) \
     + img.getpixel((x - 1, y)) \
     + img.getpixel((x - 1, y + 1))

   return 4 - sum
  else: # 最上非頂點(diǎn),6鄰域
   sum = img.getpixel((x - 1, y)) \
     + img.getpixel((x - 1, y + 1)) \
     + cur_pixel \
     + img.getpixel((x, y + 1)) \
     + img.getpixel((x + 1, y)) \
     + img.getpixel((x + 1, y + 1))
   return 6 - sum
 elif y == height - 1: # 最下面一行
  if x == 0: # 左下頂點(diǎn)
   # 中心點(diǎn)旁邊3個(gè)點(diǎn)
   sum = cur_pixel \
     + img.getpixel((x + 1, y)) \
     + img.getpixel((x + 1, y - 1)) \
     + img.getpixel((x, y - 1))
   return 4 - sum
  elif x == width - 1: # 右下頂點(diǎn)
   sum = cur_pixel \
     + img.getpixel((x, y - 1)) \
     + img.getpixel((x - 1, y)) \
     + img.getpixel((x - 1, y - 1))

   return 4 - sum
  else: # 最下非頂點(diǎn),6鄰域
   sum = cur_pixel \
     + img.getpixel((x - 1, y)) \
     + img.getpixel((x + 1, y)) \
     + img.getpixel((x, y - 1)) \
     + img.getpixel((x - 1, y - 1)) \
     + img.getpixel((x + 1, y - 1))
   return 6 - sum
 else: # y不在邊界
  if x == 0: # 左邊非頂點(diǎn)
   sum = img.getpixel((x, y - 1)) \
     + cur_pixel \
     + img.getpixel((x, y + 1)) \
     + img.getpixel((x + 1, y - 1)) \
     + img.getpixel((x + 1, y)) \
     + img.getpixel((x + 1, y + 1))

   return 6 - sum
  elif x == width - 1: # 右邊非頂點(diǎn)
   # print('%s,%s' % (x, y))
   sum = img.getpixel((x, y - 1)) \
     + cur_pixel \
     + img.getpixel((x, y + 1)) \
     + img.getpixel((x - 1, y - 1)) \
     + img.getpixel((x - 1, y)) \
     + img.getpixel((x - 1, y + 1))

   return 6 - sum
  else: # 具備9領(lǐng)域條件的
   sum = img.getpixel((x - 1, y - 1)) \
     + img.getpixel((x - 1, y)) \
     + img.getpixel((x - 1, y + 1)) \
     + img.getpixel((x, y - 1)) \
     + cur_pixel \
     + img.getpixel((x, y + 1)) \
     + img.getpixel((x + 1, y - 1)) \
     + img.getpixel((x + 1, y)) \
     + img.getpixel((x + 1, y + 1))
   return 9 - sum

Tips:這個(gè)地方是相當(dāng)考驗(yàn)人的細(xì)心和耐心程度了,這個(gè)地方的工作量還是蠻大的,花了半個(gè)晚上的時(shí)間才完成的。

計(jì)算好每個(gè)像素點(diǎn)的周邊像素黑點(diǎn)(注意:PIL轉(zhuǎn)化的圖片黑點(diǎn)的值為0)個(gè)數(shù)后,只需要篩選出個(gè)數(shù)為1或者2的點(diǎn)的坐標(biāo)即為孤立點(diǎn)。這個(gè)判斷方法可能不太準(zhǔn)確,但是基本上能夠滿足本文的需求了。

經(jīng)過預(yù)處理后的圖片如下所示:

Python如何實(shí)現(xiàn)字符型圖片驗(yàn)證碼識(shí)別完整過程詳解

對(duì)比文章開頭的原始圖片,那些孤立點(diǎn)都被移除掉,相對(duì)比較干凈的驗(yàn)證碼圖片已經(jīng)生成。

9圖片字符切割

由于字符型驗(yàn)證碼圖片本質(zhì)就可以看著是由一系列的單個(gè)字符圖片拼接而成,為了簡(jiǎn)化研究對(duì)象,我們也可以將這些圖片分解到原子級(jí),即:只包含單個(gè)字符的圖片。

于是,我們的研究對(duì)象由“N種字串的組合對(duì)象”變成“10種阿拉伯?dāng)?shù)字”的處理,極大的簡(jiǎn)化和減少了處理對(duì)象。

9.1分割算法

現(xiàn)實(shí)生活中的字符驗(yàn)證碼的產(chǎn)生千奇百怪,有各種扭曲和變形。關(guān)于字符分割的算法,也沒有很通用的方式。這個(gè)算法也是需要開發(fā)人員仔細(xì)研究所要識(shí)別的字符圖片的特點(diǎn)來制定的。

當(dāng)然,本文所選的研究對(duì)象盡量簡(jiǎn)化了這個(gè)步驟的難度,下文將慢慢進(jìn)行介紹。

使用圖像編輯軟件(PhoneShop或者其它)打開驗(yàn)證碼圖片,放大到像素級(jí)別,觀察其它一些參數(shù)特點(diǎn):

Python如何實(shí)現(xiàn)字符型圖片驗(yàn)證碼識(shí)別完整過程詳解

可以得到如下參數(shù):

?整個(gè)圖片尺寸是 40*10
?單個(gè)字符尺寸是 6*10
?左右字符和左右邊緣相距2個(gè)像素
?字符上下緊挨邊緣(即相距0個(gè)像素)

這樣就可以很容易就定位到每個(gè)字符在整個(gè)圖片中占據(jù)的像素區(qū)域,然后就可以進(jìn)行分割了,具體代碼如下:

def get_crop_imgs(img):
 """
 按照?qǐng)D片的特點(diǎn),進(jìn)行切割,這個(gè)要根據(jù)具體的驗(yàn)證碼來進(jìn)行工作. # 見原理圖
 :param img:
 :return:
 """
 child_img_list = []
 for i in range(4):
  x = 2 + i * (6 + 4) # 見原理圖
  y = 0
  child_img = img.crop((x, y, x + 6, y + 10))
  child_img_list.append(child_img)

 return child_img_list

然后就能得到被切割的原子級(jí)的圖片元素了:

Python如何實(shí)現(xiàn)字符型圖片驗(yàn)證碼識(shí)別完整過程詳解

9.2內(nèi)容小結(jié)

基于本部分的內(nèi)容的討論,相信大家已經(jīng)了解到了,如果驗(yàn)證碼的干擾(扭曲,噪點(diǎn),干擾色塊,干擾線……)做得不夠強(qiáng)的話,可以得到如下兩個(gè)結(jié)論:

4位字符和40000位字符的驗(yàn)證碼區(qū)別不大

純數(shù)字和數(shù)字及字母組合的驗(yàn)證碼區(qū)別不大

  • 純數(shù)字。分類數(shù)為10

  • 純字母

    • 不區(qū)分大小寫。分類數(shù)為26

    • 區(qū)分大小寫。分類數(shù)為52

  • 數(shù)字和區(qū)分大小寫的字母組合。分類數(shù)為62

在沒有形成指數(shù)級(jí)或者幾何級(jí)的難度增加,而只是線性有限級(jí)增加計(jì)算量時(shí),意義不太大。

10尺寸歸一

本文所選擇的研究對(duì)象本身尺寸就是統(tǒng)一狀態(tài):6*10的規(guī)格,所以此部分不需要額外處理。但是一些進(jìn)行了扭曲和縮放的驗(yàn)證碼,則此部分也會(huì)是一個(gè)圖像處理的難點(diǎn)。

11模型訓(xùn)練步驟

在前面的環(huán)節(jié),已經(jīng)完成了對(duì)單個(gè)圖片的處理和分割了。后面就開始進(jìn)行識(shí)別模型的訓(xùn)練了。

整個(gè)訓(xùn)練過程如下:

1.大量完成預(yù)處理并切割到原子級(jí)的圖片素材準(zhǔn)備
2.對(duì)素材圖片進(jìn)行人為分類,即:打標(biāo)簽
3.定義單張圖片的識(shí)別特征
4.使用SVM訓(xùn)練模型對(duì)打了標(biāo)簽的特征文件進(jìn)行訓(xùn)練,得到模型文件

12素材準(zhǔn)備

本文在訓(xùn)練階段重新下載了同一模式的4數(shù)字的驗(yàn)證圖片總計(jì):3000張。然后對(duì)這3000張圖片進(jìn)行處理和切割,得到12000張?jiān)蛹?jí)圖片。

在這12000張圖片中刪除一些會(huì)影響訓(xùn)練和識(shí)別的強(qiáng)干擾的干擾素材,切割后的效果圖如下:

Python如何實(shí)現(xiàn)字符型圖片驗(yàn)證碼識(shí)別完整過程詳解

13素材標(biāo)記

由于本文使用的這種識(shí)別方法中,機(jī)器在最開始是不具備任何 數(shù)字的觀念的。所以需要人為的對(duì)素材進(jìn)行標(biāo)識(shí),告訴機(jī)器什么樣的圖片的內(nèi)容是 1……。

這個(gè)過程叫做“標(biāo)記”。

具體打標(biāo)簽的方法是:

為0~9每個(gè)數(shù)字建立一個(gè)目錄,目錄名稱為相應(yīng)數(shù)字(相當(dāng)于標(biāo)簽)

人為判定圖片內(nèi)容,并將圖片拖到指定數(shù)字目錄中

每個(gè)目錄中存放100張左右的素材

一般情況下,標(biāo)記的素材越多,那么訓(xùn)練出的模型的分辨能力和預(yù)測(cè)能力越強(qiáng)。例如本文中,標(biāo)記素材為十多張的時(shí)候,對(duì)新的測(cè)試圖片識(shí)別率基本為零,但是到達(dá)100張時(shí),則可以達(dá)到近乎100%的識(shí)別率

Python如何實(shí)現(xiàn)字符型圖片驗(yàn)證碼識(shí)別完整過程詳解

14特征選擇

對(duì)于切割后的單個(gè)字符圖片,像素級(jí)放大圖如下:

Python如何實(shí)現(xiàn)字符型圖片驗(yàn)證碼識(shí)別完整過程詳解

從宏觀上看,不同的數(shù)字圖片的本質(zhì)就是將黑色按照一定規(guī)則填充在相應(yīng)的像素點(diǎn)上,所以這些特征都是最后圍繞像素點(diǎn)進(jìn)行。

字符圖片寬6個(gè)像素,高10個(gè)像素,理論上可以最簡(jiǎn)單粗暴地可以定義出60個(gè)特征:60個(gè)像素點(diǎn)上面的像素值。但是顯然這樣高維度必然會(huì)造成過大的計(jì)算量,可以適當(dāng)?shù)慕稻S。

通過查閱相應(yīng)的文獻(xiàn)[2],給出另外一種簡(jiǎn)單粗暴的特征定義:

  1. 每行上黑色像素的個(gè)數(shù),可以得到10個(gè)特征

  2. 每列上黑色像素的個(gè)數(shù),可以得到6個(gè)特征

最后得到16維的一組特征,實(shí)現(xiàn)代碼如下:

def get_feature(img):
 """
 獲取指定圖片的特征值,
 1. 按照每排的像素點(diǎn),高度為10,則有10個(gè)維度,然后為6列,總共16個(gè)維度
 :param img_path:
 :return:一個(gè)維度為10(高度)的列表
 """

 width, height = img.size

 pixel_cnt_list = []
 height = 10
 for y in range(height):
  pix_cnt_x = 0
  for x in range(width):
   if img.getpixel((x, y)) == 0: # 黑色點(diǎn)
    pix_cnt_x += 1

  pixel_cnt_list.append(pix_cnt_x)

 for x in range(width):
  pix_cnt_y = 0
  for y in range(height):
   if img.getpixel((x, y)) == 0: # 黑色點(diǎn)
    pix_cnt_y += 1

  pixel_cnt_list.append(pix_cnt_y)

 return pixel_cnt_list

然后就將圖片素材特征化,按照libSVM指定的格式生成一組帶特征值和標(biāo)記值的向量文件。內(nèi)容示例如下:

Python如何實(shí)現(xiàn)字符型圖片驗(yàn)證碼識(shí)別完整過程詳解

說明如下:

1.第一列是標(biāo)簽列,即此圖片人為標(biāo)記值,后續(xù)還有其它數(shù)值1~9的標(biāo)記
2.后面是16組特征值,冒號(hào)前面是索引號(hào),后面是值
3.如果有1000張訓(xùn)練圖片,那么會(huì)產(chǎn)生1000行的記錄

對(duì)此文件格式有興趣的同學(xué),可以到libSVM官網(wǎng)搜索更多的資料。

15模型訓(xùn)練

到這個(gè)階段后,由于本文直接使用的是開源的libSVM方案,屬于應(yīng)用了,所以此處內(nèi)容就比較簡(jiǎn)單的。只需要輸入特征文件,然后輸出模型文件即可。

可以搜索到很多相關(guān)中文資料[1]。

主要代碼如下:

def train_svm_model():
 """
 訓(xùn)練并生成model文件
 :return:
 """
 y, x = svm_read_problem(svm_root + '/train_pix_feature_xy.txt')
 model = svm_train(y, x)
 svm_save_model(model_path, model)

備注:生成的模型文件名稱為svm_model_file

16模型測(cè)試

訓(xùn)練生成模型后,需要使用訓(xùn)練集之外的全新的標(biāo)記后的圖片作為測(cè)試集來對(duì)模型進(jìn)行測(cè)試。

本文中的測(cè)試實(shí)驗(yàn)如下:

  1. 使用一組全部標(biāo)記為8的21張圖片來進(jìn)行模型測(cè)試

  2. 測(cè)試圖片生成帶標(biāo)記的特征文件名稱為last_test_pix_xy_new.txt

在早期訓(xùn)練集樣本只有每字符十幾張圖的時(shí)候,雖然對(duì)訓(xùn)練集樣本有很好的區(qū)分度,但是對(duì)于新樣本測(cè)試集基本沒區(qū)分能力,識(shí)別基本是錯(cuò)誤的。逐漸增加標(biāo)記為8的訓(xùn)練集的樣本后情況有了比較好的改觀:

  1. 到60張左右的時(shí)候,正確率大概80%

  2. 到185張的時(shí)候,正確率基本上達(dá)到100%

以數(shù)字8的這種模型強(qiáng)化方法,繼續(xù)強(qiáng)化對(duì)數(shù)字0~9中的其它數(shù)字的模型訓(xùn)練,最后可以達(dá)到對(duì)所有的數(shù)字的圖片的識(shí)別率達(dá)到近乎 100%。在本文示例中基本上每個(gè)數(shù)字的訓(xùn)練集在100張左右時(shí),就可以達(dá)到100%的識(shí)別率了。

模型測(cè)試代碼如下:

def svm_model_test():
 """
 使用測(cè)試集測(cè)試模型
 :return:
 """
 yt, xt = svm_read_problem(svm_root + '/last_test_pix_xy_new.txt')
 model = svm_load_model(model_path)
 p_label, p_acc, p_val = svm_predict(yt, xt, model)#p_label即為識(shí)別的結(jié)果

 cnt = 0
 for item in p_label:
  print('%d' % item, end=',')
  cnt += 1
  if cnt % 8 == 0:
   print('')

至此,驗(yàn)證的識(shí)別工作算是完滿結(jié)束。

17完整識(shí)別流程

在前面的環(huán)節(jié),驗(yàn)證碼識(shí)別的相關(guān)工具集都準(zhǔn)備好了。然后對(duì)指定的網(wǎng)絡(luò)上的動(dòng)態(tài)驗(yàn)證碼形成持續(xù)不斷地識(shí)別,還需要另外寫一點(diǎn)代碼來組織這個(gè)流程,以形成穩(wěn)定的黑盒的驗(yàn)證碼識(shí)別接口。

主要步驟如下:

1.傳入一組驗(yàn)證碼圖片
2.對(duì)圖片進(jìn)行預(yù)處理:去噪,二值等等
3.切割成4張有序的單字符圖片
4.使用模型文件分別對(duì)4張圖片進(jìn)行識(shí)別
5.將識(shí)別結(jié)果拼接
6.返回識(shí)別結(jié)果

然后本文中,請(qǐng)求某網(wǎng)絡(luò)驗(yàn)證碼的http接口,獲得驗(yàn)證碼圖片,識(shí)別出結(jié)果,以此結(jié)果作為名稱保存此驗(yàn)證圖片。效果如下:

Python如何實(shí)現(xiàn)字符型圖片驗(yàn)證碼識(shí)別完整過程詳解

顯然,已經(jīng)達(dá)到幾乎100%的識(shí)別率了。

在本算法沒有做任何優(yōu)化的情況下,在目前主流配置的PC機(jī)上運(yùn)行此程序,可以實(shí)現(xiàn)200ms識(shí)別一個(gè)(很大的耗時(shí)來自網(wǎng)絡(luò)請(qǐng)求的阻塞)。

18效率優(yōu)化

后期通過優(yōu)化的方式可以達(dá)到更好的效率。

軟件層次優(yōu)化

1.將圖片資源的網(wǎng)絡(luò)請(qǐng)求部分做成異步非阻塞模式
2.利用好多核CPU,多進(jìn)程并行運(yùn)行
3.在圖片特征上認(rèn)真挑選和實(shí)驗(yàn),降低維度

預(yù)計(jì)可以達(dá)到1s識(shí)別10到100個(gè)驗(yàn)證碼的樣子。

硬件層次優(yōu)化

1.粗暴地增加CPU性能
2.粗暴地增加運(yùn)行機(jī)器

基本上,10臺(tái)4核心機(jī)器同時(shí)請(qǐng)求,保守估計(jì)效率可以提升到1s識(shí)別1萬個(gè)驗(yàn)證碼。

19互聯(lián)網(wǎng)安全警示

如果驗(yàn)證碼被識(shí)別出來后,會(huì)有什么安全隱患呢?

在大家通過上一小節(jié)對(duì)識(shí)別效率有了認(rèn)識(shí)之后,再提到這樣的場(chǎng)景,大家會(huì)有新的看法了吧:

12306火車售票網(wǎng),春節(jié)期間早上8:00某車次放出的500張票,1s內(nèi)全部被搶光,最后發(fā)現(xiàn)正常需求的人搶不到票,但是黃牛卻大大的有票某某手機(jī)網(wǎng)站,早上10:00開啟搶購(gòu)活動(dòng),守候了許久的無數(shù)的你都鎩羽而歸,但是同樣黃牛卻大量有貨

暫先不管后面有沒有手續(xù)上的黑幕,在一切手續(xù)合法的情況下,只要通過技術(shù)手段識(shí)別掉了驗(yàn)證碼,再通過計(jì)算機(jī)強(qiáng)大的計(jì)算力和自動(dòng)化能力,將大量資源搶到少數(shù)黃牛手中在技術(shù)是完全可行的。

所以今后大家搶不到票不爽的時(shí)候,可以繼續(xù)罵12306,但是不要罵它有黑幕了,而是罵他們IT技術(shù)不精吧。

關(guān)于一個(gè)驗(yàn)證碼失效,即相當(dāng)于沒有驗(yàn)證碼的系統(tǒng),再?zèng)]有其它風(fēng)控策略的情況下,那么這個(gè)系統(tǒng)對(duì)于代碼程序來就就完全如入無人之境。

目前確實(shí)有一些web應(yīng)用系統(tǒng)連驗(yàn)證碼都沒有,只能任人宰割即使web應(yīng)用系統(tǒng)有驗(yàn)證碼但是難度不夠,也只能任人宰割

所以,這一塊雖然小,但是安全問題不能忽視。

20積極應(yīng)用場(chǎng)景

本文介紹的其實(shí)是一項(xiàng)簡(jiǎn)單的OCR技術(shù)實(shí)現(xiàn)。有一些很好同時(shí)也很有積極進(jìn)步意義的應(yīng)用場(chǎng)景:

?銀行卡號(hào)識(shí)別
?身份證號(hào)識(shí)別
?車牌號(hào)碼識(shí)別

這些場(chǎng)景有具有和本文所研究素材很相似的特點(diǎn):

1.字體單一
2.字符為簡(jiǎn)單的數(shù)字或字母組合
3.文字的排列是標(biāo)準(zhǔn)化統(tǒng)一化的

所以如果拍照時(shí)原始數(shù)據(jù)采集比較規(guī)范的情況下,識(shí)別起來應(yīng)該難度也不大。

21小結(jié)

本文只是選取了一個(gè)比較典型的而且比較簡(jiǎn)單的驗(yàn)證碼的識(shí)別作為示例,但是基本上能表述出一個(gè)識(shí)別此類驗(yàn)證碼的完整流程,可以供大家交流學(xué)習(xí)。

由于目前全球的IT技術(shù)實(shí)力參差不齊,現(xiàn)在很多舊的IT系統(tǒng)里面都存在一些舊的頁面框架,里面使用的驗(yàn)證碼也是相當(dāng)古老,對(duì)于當(dāng)下的一些識(shí)別技術(shù)來說,完全不堪一擊。比如,我看到一些在校大學(xué)生就直接拿自己學(xué)校的教務(wù)系統(tǒng)的驗(yàn)證碼來開刀練習(xí)的。

最后,本文特意提出如下倡議:

對(duì)于掌握OCR技術(shù)的人

?不要做違法的事,因?yàn)槟壳氨蛔サ摹鞍酌弊印钡男侣勔残U多的
?在不違法的情況下,還是可以向存在漏洞的系統(tǒng)管理員提出善意提醒
?以自己的專業(yè)知識(shí),多做一些促進(jìn)社會(huì)進(jìn)步,提升社會(huì)生產(chǎn)力的事情,如紙書電子化等等

對(duì)于仍然沿用舊的落后的IT系統(tǒng)的公司或者機(jī)構(gòu)相關(guān)人員

應(yīng)該盡快認(rèn)識(shí)到事情的嚴(yán)重性,趕緊升級(jí)自己的系統(tǒng),或者將這一塊業(yè)務(wù)交付給專門的安全公司

關(guān)于“Python如何實(shí)現(xiàn)字符型圖片驗(yàn)證碼識(shí)別完整過程詳解”這篇文章就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,使各位可以學(xué)到更多知識(shí),如果覺得文章不錯(cuò),請(qǐng)把它分享出去讓更多的人看到。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI