您好,登錄后才能下訂單哦!
前言
最近在研究驗(yàn)證碼相關(guān)的操作,所以準(zhǔn)備記錄下安裝以及使用的過程。雖然之前對(duì)驗(yàn)證碼的破解有所了解的,但是之前都是簡(jiǎn)單使用之后就不用了,沒有記錄一個(gè)詳細(xì)的過程,所以后面再用起來也要重新從網(wǎng)上查找資料比較麻煩,所以這里準(zhǔn)備對(duì)研究過程的關(guān)鍵點(diǎn)做一個(gè)記錄。
首先這篇文章,主要是研究圖形驗(yàn)證碼,后期會(huì)不定時(shí)拓展內(nèi)容。
在網(wǎng)上查了很多版本的圖形驗(yàn)證碼識(shí)別,目前看到最多的兩個(gè)模塊是pytesseract和tesserocr,但是因?yàn)槲疫@里安裝tesserocr的時(shí)候各種出錯(cuò),所以最終我鎖定了使用pytesseract。
那么接下來,就記錄下安裝以及使用過程。這里的系統(tǒng)環(huán)境是mac os 10.14.
安裝tesserocr
brew install tesserocr
因?yàn)閜ytesseract依賴于tesserocr所以首先需要先安裝tesserocr這個(gè)軟件。接下來就是安裝python相關(guān)的包
安裝python所需要的包
pip3 install pytesseract pip3 install pillow
安裝pytesseract是ocr識(shí)別圖片上的字,因?yàn)轵?yàn)證碼的識(shí)別難度高低不同,所以在這個(gè)過程中需要對(duì)圖片做一定的處理,這就需要使用處理圖片的模塊pillow。
一個(gè)簡(jiǎn)單的demo
import pytesseract from PIL import Image import os def binarizing(img, threshold): """傳入image對(duì)象進(jìn)行灰度、二值處理""" pixdata = img.load() w, h = img.size # 遍歷所有像素,大于閾值的為黑色 for y in range(h): for x in range(w): if pixdata[x, y] < threshold: pixdata[x, y] = 0 else: pixdata[x, y] = 255 return img _temp = os.path.dirname(__file__) file_path = os.path.join(_temp, 'code2.jpg') print("file_path", file_path) image = Image.open(file_path) image = image.convert('L') threshold = 157 table = [] # 接下來是二值化處理 # 遍歷所有像素,大于閾值的為黑色,threshold是閥值 image = binarizing(image, threshold) result = pytesseract.image_to_string(image) print(result)
示例中的圖片
需要用到的圖像知識(shí):
對(duì)于彩色圖像,不管其圖像格式是PNG,還是BMP,或者JPG,在PIL中,使用Image模塊的open()函數(shù)打開后,返回的圖像對(duì)象的模式都是“RGB”。而對(duì)于灰度圖像,不管其圖像格式是PNG,還是BMP,或者JPG,打開后,其模式為“L”也就是我們說的灰度化的一個(gè)操作。除此之外,還有其他的模式,不過我們?cè)谔幚眚?yàn)證碼的時(shí)候是將其轉(zhuǎn)為灰度模式,所以就不強(qiáng)調(diào)其他的模式了。
模式“L”
模式“L”為灰色圖像,它的每個(gè)像素用8個(gè)bit表示,0表示黑,255表示白,其他數(shù)字表示不同的灰度。在PIL中,從模式“RGB”轉(zhuǎn)換為“L”模式是按照下面的公式轉(zhuǎn)換的:
L = R * 299/1000 + G * 587/1000+ B * 114/1000
通過灰度化之后的圖片變?yōu)?/p>
灰度化我們還要對(duì)其進(jìn)行二值化操作
二值化操作
二值化故名思議,就是整個(gè)圖像所有像素只有兩個(gè)值可以選擇,一個(gè)是黑(灰度為0),一個(gè)是白(灰度為255)。二值化的好處就是將圖片上的有用信息和無用信息區(qū)分開來,比如二值化之后的驗(yàn)證碼圖片,驗(yàn)證碼像素為黑色,背景和干擾點(diǎn)為白色,這樣后面對(duì)驗(yàn)證碼像素處理的時(shí)候就會(huì)很方便。對(duì)于簡(jiǎn)單的圖形驗(yàn)證碼,到這里基本上就夠了,但是如果有干擾線,還要進(jìn)行除干擾線的操作。
對(duì)應(yīng)的代碼為
def binarizing(img, threshold): """傳入image對(duì)象進(jìn)行灰度、二值處理""" pixdata = img.load() w, h = img.size # 遍歷所有像素,大于閾值的為黑色 for y in range(h): for x in range(w): if pixdata[x, y] < threshold: pixdata[x, y] = 0 #小于閥值設(shè)為0,0是黑色 else: pixdata[x, y] = 255 0 #大于閥值設(shè)為255,255是白色 return img
此時(shí)的圖片效果為
可以看到圖片變得銳化了很多,這個(gè)時(shí)候再去識(shí)別就比較好識(shí)別了。
去干擾線
常見的4鄰域、8鄰域算法。所謂的X鄰域算法,可以參考手機(jī)九宮格輸入法,按鍵5為要判斷的像素點(diǎn),4鄰域就是判斷上下左右,8鄰域就是判斷周圍8個(gè)像素點(diǎn)。如果這4或8個(gè)點(diǎn)中255的個(gè)數(shù)大于某個(gè)閾值則判斷這個(gè)點(diǎn)為噪音,閾值可以根據(jù)實(shí)際情況修改。
使用cv2處理
除此之外還可以使用cv2模塊進(jìn)行處理。
安裝
pip install opencv-python
代碼示例
# -*- coding: utf-8 -*- import cv2 import numpy as np import os _temp = os.path.dirname(__file__) file_path = os.path.join(_temp, 'code2.jpg') def remove_noise(img, k=4): ###8領(lǐng)域過濾 img2 = img.copy() # img處理數(shù)據(jù),k過濾條件 w, h = img2.shape def get_neighbors(img3, r, c): count = 0 for i in [r - 1, r, r + 1]: for j in [c - 1, c, c + 1]: if img3[i, j] > 10: # 純白色 count += 1 return count # 兩層for循環(huán)判斷所有的點(diǎn) for x in range(w): for y in range(h): if x == 0 or y == 0 or x == w - 1 or y == h - 1: img2[x, y] = 255 else: n = get_neighbors(img2, x, y) # 獲取鄰居數(shù)量,純白色的鄰居 if n > k: img2[x, y] = 255 return img2 img = cv2.imread(file_path) # 將圖片灰度化處理,降維,加權(quán)進(jìn)行灰度化c gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) t, gray2 = cv2.threshold(gray, 200, 255, cv2.THRESH_BINARY) cv2.imshow('threshold', gray2) result = remove_noise(gray2) cv2.imshow('8neighbors', result) cv2.waitKey(0) #cv2.destroyAllWindows()
總結(jié)
以上所述是小編給大家介紹的mac使用python識(shí)別圖形驗(yàn)證碼功能,希望對(duì)大家有所幫助,如果大家有任何疑問請(qǐng)給我留言,小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對(duì)億速云網(wǎng)站的支持!如果你覺得本文對(duì)你有幫助,歡迎轉(zhuǎn)載,煩請(qǐng)注明出處,謝謝!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。