溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

tesseract-ocr怎么在Python3.6中使用

發(fā)布時(shí)間:2021-03-26 15:38:34 來源:億速云 閱讀:115 作者:Leah 欄目:開發(fā)技術(shù)

tesseract-ocr怎么在Python3.6中使用?很多新手對此不是很清楚,為了幫助大家解決這個(gè)難題,下面小編將為大家詳細(xì)講解,有這方面需求的人可以來學(xué)習(xí)下,希望你能有所收獲。

Tesseract介紹

tesseract是一個(gè)挺不錯(cuò)的OCR引擎,目前的問題是最新的中文資料相對較少,過時(shí)、不準(zhǔn)確的信息偏多。

tesseract是一個(gè)google支持的開源ocr項(xiàng)目,其項(xiàng)目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源碼可以在這里下載。

實(shí)際使用tesseract ocr也有兩種方式:1. 動態(tài)庫方式 libtesseract  2. 執(zhí)行程序方式 tesseract.exe

環(huán)境

  • Python 3.6.3

  • pip 9.0.1

  • tesseract-ocr-setup-3.05.00dev.exe

  • Windows10

安裝

1.tesseract-orc

  • Tesseract:開源的OCR識別引擎,初期Tesseract引擎由HP實(shí)驗(yàn)室研發(fā),后來貢獻(xiàn)給了開源軟件業(yè),后經(jīng)由Google進(jìn)行改進(jìn),消除bug,優(yōu)化,重新發(fā)布。

安裝的時(shí)候需要自行選擇安裝的語言,一些其他國家的語言可以不選擇安裝,我之按安裝了中文,英文和日語。安裝過程和其他軟件一樣。

2.pytesseract

pip install pytesseract

配置環(huán)境

1.設(shè)置 tesseract-orc路徑

默認(rèn)情況下tesseract-orc是不被添加到系統(tǒng)的path路徑的,這樣在使用的時(shí)候發(fā)生FileNotFoundError: [WinError 2] 系統(tǒng)找不到指定的文件錯(cuò)誤。

解決方法:

  • 方法1:將 C:\Program Files (x86)\Tesseract-OCR添加到系統(tǒng)路徑(路徑因安裝過程而異)

  • 方法2:修改pytesseract.py文件

設(shè)置訓(xùn)練集的位置

下載的默認(rèn)訓(xùn)練集也沒有添加到系統(tǒng)路徑,會報(bào)錯(cuò)

pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\tessdata/chi_sim.traineddata')

解決方法:

設(shè)置環(huán)境變量 TESSDATA_PREFIX
C:\Program Files (x86)\Tesseract-OCR\tessdata

實(shí)例程序

import pytesseract
from PIL import Image
image = Image.open('test.png')
code = pytesseract.image_to_string(image)
print(code)

看完上述內(nèi)容是否對您有幫助呢?如果還想對相關(guān)知識有進(jìn)一步的了解或閱讀更多相關(guān)文章,請關(guān)注億速云行業(yè)資訊頻道,感謝您對億速云的支持。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI