溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

OCR識(shí)別的技術(shù)流程解析1

發(fā)布時(shí)間：2020-08-10 16:42:03 來源：ITPUB博客閱讀：215 作者：RUIxiansen 欄目：編程語言

一、 OCR識(shí)別預(yù)處理：灰度化（如果是彩色圖像）、降噪、二值化、字符切分以及歸一化這些子步驟。經(jīng)過二值化后，圖像只剩下兩種顏色，即黑和白，其中一個(gè)是圖像背景，另一個(gè)顏色就是要識(shí)別的文字了；降噪在這個(gè)階段非常重要，降噪算法的好壞對(duì)特征提取的影響很大。字符切分則是將圖像中的文字分割成單個(gè)文字——識(shí)別的時(shí)候是一個(gè)字一個(gè)字識(shí)別的。如果文字行有傾斜的話往往還要進(jìn)行傾斜校正。歸一化則是將單個(gè)的文字圖像規(guī)整到同樣的尺寸，在同一個(gè)規(guī)格下，才能應(yīng)用統(tǒng)一的算法。

OCR識(shí)別的技術(shù)流程解析1

二、特征提取和降維：特征是用來識(shí)別文字的關(guān)鍵信息，每個(gè)不同的文字都能通過特征來和其他文字進(jìn)行區(qū)分。對(duì)于數(shù)字和英文字母來說，這個(gè)特征提取是比較容易的，因?yàn)閿?shù)字只有10個(gè)，英文字母只有52個(gè)，都是小字符集。對(duì)于漢字來說，特征提取比較困難，因?yàn)槭紫葷h字是大字符集，國標(biāo)中光是最常用的第一級(jí)漢字就有3755個(gè)；第二個(gè)漢字結(jié)構(gòu)復(fù)雜，形近字多。在確定了使用何種特征后，視情況而定，還有可能要進(jìn)行特征降維，這種情況就是如果特征的維數(shù)太高（特征一般用一個(gè)向量表示，維數(shù)即該向量的分量數(shù)），分類器的效率會(huì)受到很大的影響，為了提高識(shí)別速率，往往就要進(jìn)行降維，這個(gè)過程也很重要，既要降低維數(shù)吧，又得使得減少維數(shù)后的特征向量還保留了足夠的信息量（以區(qū)分不同的文字）。

OCR識(shí)別的技術(shù)流程解析1

三、分類器設(shè)計(jì)、訓(xùn)練和實(shí)際識(shí)別：分類器是用來進(jìn)行識(shí)別的，就是對(duì)于第二步，對(duì)一個(gè)文字圖像，提取出特征給分類器，分類器就對(duì)其進(jìn)行分類，告訴你這個(gè)特征該識(shí)別成哪個(gè)文字。在進(jìn)行實(shí)際識(shí)別前，往往還要對(duì)分類器進(jìn)行訓(xùn)練，這是一個(gè)監(jiān)督學(xué)習(xí)的案例。

四、 OCR識(shí)別后處理：后處理是用來對(duì)分類結(jié)果進(jìn)行優(yōu)化的，第一，分類器的分類有時(shí)候不一定是完全正確的，比如對(duì)漢字的識(shí)別，由于漢字中形近字的存在，很容易將一個(gè)字識(shí)別成其形近字。后處理中可以去解決這個(gè)問題，比如通過語言模型來進(jìn)行校正——如果分類器將“在哪里”識(shí)別成“存哪里”，通過語言模型會(huì)發(fā)現(xiàn)“存哪里”是錯(cuò)誤的，然后進(jìn)行校正。第二， OCR識(shí)別圖像往往是有大量文字的，而且這些文字存在排版、字體大小等復(fù)雜情況，后處理中可以嘗試去對(duì)識(shí)別結(jié)果進(jìn)行格式化，比如按照?qǐng)D像中的排版排列。

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
好程序員web前端教程之詳解JavaScript嚴(yán)格模式
下一篇新聞：
@Repository、@Service、@Controller 和 @Component

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼