您好,登錄后才能下訂單哦!
本篇內(nèi)容介紹了“python開發(fā)中怎么使用pytesseract實(shí)現(xiàn)文字識(shí)別”的有關(guān)知識(shí),在實(shí)際案例的操作過程中,不少人都會(huì)遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!
pytesseract是一款開源的圖片文字識(shí)別庫,能識(shí)別中文、英文等不少類型的語言,使用之前需要安裝tesseract-ocr引擎,此引擎在windows、linux、macos上都能進(jìn)行安裝,(OCR,Optical Character Recognition,光學(xué)字符識(shí)別),安裝完成后,對(duì)應(yīng)安裝pytesseract庫,就能做簡(jiǎn)單的文字識(shí)別了,自帶的文字類庫,識(shí)別有時(shí)不準(zhǔn)確,但是可以自己訓(xùn)練識(shí)別庫。
“Tesseract的OCR引擎最先由HP實(shí)驗(yàn)室于1985年開始研發(fā),至1995年時(shí)已經(jīng)成為OCR業(yè)內(nèi)最準(zhǔn)確的三款識(shí)別引擎之一。然而,HP不久便決定放棄OCR業(yè)務(wù),Tesseract也從此塵封。
數(shù)年以后,HP意識(shí)到,與其將Tesseract束之高閣,不如貢獻(xiàn)給開源軟件業(yè),讓其重?zé)ㄐ律?005年,Tesseract由美國(guó)內(nèi)華達(dá)州信息技術(shù)研究所獲得,并求諸于Google對(duì)Tesseract進(jìn)行改進(jìn)、消除Bug、優(yōu)化工作 ?!?/p>
下邊列舉一下,如何在Centos7系統(tǒng)的環(huán)境下,搭建一個(gè)python的tesseract-ocr環(huán)境,并使用python進(jìn)行簡(jiǎn)單的圖片識(shí)別。
安裝Tesseract-ocr,在github上有安裝的網(wǎng)址,https://github.com/tesseract-ocr/tesseract/wiki,在Centos7上,使用最簡(jiǎn)單的yum進(jìn)行安裝,這種方式,需要保持互聯(lián)網(wǎng)的連接,但是也不用編譯源代碼進(jìn)行安裝了。
//更新配置,添加tesseract的地址
yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/
sudo rpm --import https://build.opensuse.org/projects/home:Alexander_Pozdnyakov/public_key
//更新yum
yum update
//安裝tesseract
yum install tesseract
//安裝簡(jiǎn)體中文語言包
yum install tesseract-langpack-chi_sim
安裝完引擎后,安裝python的開發(fā)包,使用pip進(jìn)行安裝,安裝命令是:
pip install pytesseract
簡(jiǎn)單的圖片識(shí)別代碼:
import pytesseract
from PIL import Image
#打開圖片
image = Image.open('圖片路徑')
#將圖片中的文字轉(zhuǎn)換字符串
code = pytesseract.image_to_string(image, lang='chi_sim')
#輸出字符串
print(code)
“python開發(fā)中怎么使用pytesseract實(shí)現(xiàn)文字識(shí)別”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注億速云網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。