溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

數(shù)平精準(zhǔn)推薦 | OCR技術(shù)之?dāng)?shù)據(jù)篇

發(fā)布時間:2020-06-19 16:34:38 來源:網(wǎng)絡(luò) 閱讀:12881 作者:騰訊技術(shù) 欄目:大數(shù)據(jù)

導(dǎo)語:深度學(xué)習(xí)在OCR領(lǐng)域的成功應(yīng)用需要大量數(shù)據(jù),數(shù)平精準(zhǔn)推薦團隊利用圖像增強,語義理解,生成對抗網(wǎng)絡(luò)等技術(shù)生成高質(zhì)足量的數(shù)據(jù),為算法模型提供燃料,幫助OCR技術(shù)服務(wù)在多種業(yè)務(wù)場景中快速迭代,提升效果。


一. 背景介紹

如果把深度學(xué)習(xí)看做引擎,大量帶標(biāo)注的數(shù)據(jù)則是燃料,燃料的體量和質(zhì)量直接影響引擎的動力。隨著計算能力大幅增強,深度學(xué)習(xí)模型已向著wide & deep的方向越走越遠(yuǎn),更大更深的模型需要更多的數(shù)據(jù)訓(xùn)練。這一點從近年來學(xué)術(shù)界與工業(yè)界競相公開的數(shù)據(jù)集規(guī)模上可見一斑。以經(jīng)典的計算機視覺任務(wù)為例,如fig.1所示,公開數(shù)據(jù)集的量級幾乎呈指數(shù)上升趨勢。體量越來越大的數(shù)據(jù)集同時也包含著越來越豐富的標(biāo)簽信息,正是這些龐大而豐富的信息使得深度模型得以充分的訓(xùn)練,從而能完成各種機器視覺,語義理解,行為預(yù)測等任務(wù)。

數(shù)平精準(zhǔn)推薦 | OCR技術(shù)之?dāng)?shù)據(jù)篇

fig. 1 近年來計算機視覺公開數(shù)據(jù)集 [1][2][3] [4] [5]


1.1 OCR數(shù)據(jù)

如圖fig.2所示,OCR的作用是檢測圖像中的文字區(qū)域以及識別文字內(nèi)容。我們的OCR算法當(dāng)前主要應(yīng)用于廣告圖片,不僅助力廣告審核,更重要的是提取廣告素材圖片中的語義特征以求更精準(zhǔn)的推薦[17]。除了廣告領(lǐng)域,我們還服務(wù)于內(nèi)容相關(guān)的網(wǎng)絡(luò)圖像,游戲圖像,以及各類卡證圖像的識別。相比物體檢測識別,OCR由于包含傾斜文本框,低分辨率文字,以及文本版面多樣化,因此OCR數(shù)據(jù)標(biāo)注具有特殊性,標(biāo)注成本更高。如此情況決定了我們難以通過用戶反饋獲得待標(biāo)注樣本來支撐OCR深度模型訓(xùn)練。因此,除了在具體業(yè)務(wù)場景中必不可少的人工數(shù)據(jù)標(biāo)注,我們的訓(xùn)練樣本需要通過機器生成來獲取。

數(shù)平精準(zhǔn)推薦 | OCR技術(shù)之?dāng)?shù)據(jù)篇

fig.2 OCR圖像文字識別效果


二. OCR數(shù)據(jù)生成

對基于深度學(xué)習(xí)的技術(shù)而言,訓(xùn)練數(shù)據(jù)的數(shù)量很大程度上影響了技術(shù)效果。公司的業(yè)務(wù)圖片中包含大量中文漢字文本行,中英文數(shù)字混合的情況,幾乎沒有這樣大規(guī)??捎玫奈淖謾z測識別數(shù)據(jù)集,由于獲取大量帶標(biāo)注訓(xùn)練數(shù)據(jù)成本高,易擴展且速度快的數(shù)據(jù)機器生成便成為首選。在計算機視覺領(lǐng)域,數(shù)據(jù)機器生成主要可粗略的分為三種類型:底層的圖像處理技術(shù),中間層的圖像理解加人為規(guī)則,以及高層的端到端圖像數(shù)據(jù)生成,OCR技術(shù)的數(shù)據(jù)生成同樣遵循這三類。


2.1 圖像處理數(shù)據(jù)增強

基于圖像處理進(jìn)行數(shù)據(jù)增強這種訓(xùn)練數(shù)據(jù)生成的方式是門檻最低也應(yīng)用最為廣泛的方法。最常用的圖像處理方式包含如fig.3所示,翻轉(zhuǎn),平移,旋轉(zhuǎn),加噪聲,模糊,等幾十種基礎(chǔ)操作,每張樣本可通過組合這些操作生成出眾多新樣本。在OCR領(lǐng)域,除了上述的基礎(chǔ)圖像處理技術(shù),書寫文字的屬性及背景圖片也可以極大的多樣化。我們使用的背景圖片來自于多種業(yè)務(wù)場景;在字體選取上使用幾百種中英文字體;在語料庫的選擇上,在現(xiàn)有廣告語料基礎(chǔ)上,我們構(gòu)建了近千萬詞條的新語料庫。生成的樣本最大化接近真實廣告圖片, 生成樣本數(shù)千萬,使得模型具備強大的識別能力和泛化性能。

數(shù)平精準(zhǔn)推薦 | OCR技術(shù)之?dāng)?shù)據(jù)篇

fig.3 圖像樣本增強:噪聲,旋轉(zhuǎn),調(diào)整對比度,模糊等


2.2 基于圖像分割&景深

由于直接將文字寫在背景圖片上這種策略并不考慮背景變化,在很多背景復(fù)雜的情況下,生成的樣本顯得不真實,且部分樣本人眼也無法判斷文字內(nèi)容。這些樣本的存在有極大的可能給模型檢測識別能力帶來副作用,受到牛津大學(xué)VGG實驗室16年發(fā)表的文章[6]啟示,我們對背景圖片進(jìn)行分析理解,選取趨近一致的背景進(jìn)行文字書寫,并且根據(jù)圖片景深信息,將文字書寫平面與圖片中物體表面進(jìn)行擬合,讓文字貼合物體表面,獲得更加真實的視覺效果。

數(shù)平精準(zhǔn)推薦 | OCR技術(shù)之?dāng)?shù)據(jù)篇

fig.4 OCR圖像文字識別效果

(綠色文本框標(biāo)識文本行位置,黑色文字代表文本框內(nèi)文字內(nèi)容,圖像來源[6])


在fig.4中,第一行為背景圖片處理流程,第二列為生成樣本示例。圖片經(jīng)過景深檢測,圖像分割以及文字區(qū)域篩選。在書寫文本行的過程中,文字書寫的平面會依據(jù)物體表面,以模擬出更真實的圖片樣本。在fig.5中可以看到圖片中生成的文字不僅每個文本行帶有標(biāo)注框,每個字的位置也有文本框明確的標(biāo)注。

數(shù)平精準(zhǔn)推薦 | OCR技術(shù)之?dāng)?shù)據(jù)篇

fig.5 基于圖像分割和景深生成OCR標(biāo)簽圖片


基于上述圖像分割和圖像景深的技術(shù),我們在廣告圖片上生成了大量的帶標(biāo)注樣本供文本檢測模型訓(xùn)練。如fig.6所示,樣本中的文字與圖片大小比例,文本行傾斜角度,文字顏色與背景顏色的映射關(guān)系,文字間隔等細(xì)節(jié)特征也通過統(tǒng)計廣告圖片獲得。在使生成樣本更加趨近真實的樣本的基礎(chǔ)上,我們還從文字透明度,斜體方面增加了生成樣本的多樣性,從而獲得更加魯棒的文字檢測及端到端檢測識別的能力。

數(shù)平精準(zhǔn)推薦 | OCR技術(shù)之?dāng)?shù)據(jù)篇

fig.6 廣告圖片生成樣本


對于大部分網(wǎng)絡(luò)圖片(廣告圖片,信息流文章圖片,游戲圖片等),由于業(yè)務(wù)中的樣本本身也由計算機生成,屬于生成數(shù)字圖片(Born-Digital Images)識別,因此我們生成的樣本可以模擬到非常逼真,但是在部分業(yè)務(wù)場景里,待識別的圖片來自于真實拍攝,屬于自然場景文字識別  STR(Scene Text Recognition),STR在計算機視覺領(lǐng)域是經(jīng)典且熱門的技術(shù),很多年來一直持續(xù)不斷有研究工作[10][11][12][13]推進(jìn)其發(fā)展。但是,STR在公開數(shù)據(jù)集的數(shù)量方面一直沒有突破,一些研究嘗試使用基于類似生成網(wǎng)絡(luò)圖片的方式生成自然場景樣本,卻始終沒有取得顯著的效果。


2.3 生成對抗網(wǎng)絡(luò)(Generative Adversarial Network)

在自然場景中,文字通常不但不像網(wǎng)絡(luò)圖片具有顯著性,還經(jīng)常伴隨著模糊,反光等情況,給文字檢測識別帶來極大的困難。以銀行卡號識別場景為例,陰影,反光,角度,背景均給識別帶來很大的困難,然而這些并不是最核心的問題,核心問題是銀行卡圖片屬于個人隱私,獲取大量真實銀行卡圖片樣本幾乎不可能。那么,如何滿足模型訓(xùn)練卻必須有樣式豐富、數(shù)量龐大的樣本集需求呢?我們需要更多從算法角度出發(fā),尋找突破口。

數(shù)平精準(zhǔn)推薦 | OCR技術(shù)之?dāng)?shù)據(jù)篇

fig.7生成對抗網(wǎng)絡(luò)結(jié)構(gòu)


自從2014年底Ian Goodfellow 提出生成對抗模型(GANs)[7]以來,業(yè)界涌現(xiàn)出大量GANs應(yīng)用在各個任務(wù)上的工作,其中包含了一些數(shù)據(jù)生成的成果[8][9][14][15]。GANs思想如fig.7所示,生成網(wǎng)絡(luò)負(fù)責(zé)生成圖像,判別網(wǎng)絡(luò)負(fù)責(zé)預(yù)測輸入圖片是否真實,隨著生成網(wǎng)絡(luò)G與判別網(wǎng)絡(luò)D的交替式對抗學(xué)習(xí),生成網(wǎng)絡(luò)逐漸能夠生成以假亂真的圖像

數(shù)平精準(zhǔn)推薦 | OCR技術(shù)之?dāng)?shù)據(jù)篇

(a)模型訓(xùn)練過程

數(shù)平精準(zhǔn)推薦 | OCR技術(shù)之?dāng)?shù)據(jù)篇

 (b) 生成器模型結(jié)構(gòu)選擇

fig.8 pix2pix[14]原理圖解


在一系列生成對抗網(wǎng)絡(luò)的成果中,我們發(fā)現(xiàn)基于對抗學(xué)習(xí)的圖片風(fēng)格轉(zhuǎn)化[14][15]更符合我們的場景,如fig.8所示,pix2pix[14]中,判別器D學(xué)習(xí)區(qū)分真實樣本和生成樣本;生成器G學(xué)習(xí)生成更真實的樣本以求讓D無法識別,其中生成器網(wǎng)絡(luò)結(jié)構(gòu)可選擇是否帶有跳躍連接。在這個基礎(chǔ)上,我們可以將人工生成出的白底黑字的號碼轉(zhuǎn)化為銀行卡號的風(fēng)格,用以增加訓(xùn)練樣本。如fig.9所示,左邊為真實的銀行卡樣本圖片,右邊為對應(yīng)卡號的模版。我們期望利用訓(xùn)練好的生成對抗網(wǎng)絡(luò)將隨機的卡號轉(zhuǎn)化為銀行卡風(fēng)格的樣本,如此以來我們便可以獲得大量帶標(biāo)注的銀行卡樣本用以訓(xùn)練文字識別模型。

數(shù)平精準(zhǔn)推薦 | OCR技術(shù)之?dāng)?shù)據(jù)篇

fig. 9 銀行卡樣本素材(部分號碼涂黑為保護(hù)卡號隱私)


fig.10為我們使用的生成對抗模型,不同于常規(guī)的圖片生成任務(wù),卡號圖片為長條形(長是寬的10倍以上),為了保證生成的圖片整體風(fēng)格一致,我們調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),讓網(wǎng)絡(luò)感受野足夠看到大部分圖片,從而保障生成的圖片整體風(fēng)格保持一致。另外再通過drop out來控制隨機性,使同一個號碼模版可以生成出幾百種不同的風(fēng)格。

數(shù)平精準(zhǔn)推薦 | OCR技術(shù)之?dāng)?shù)據(jù)篇

fig.10 銀行卡樣本生成對抗模型


Fig.11中的圖片通過GANs生成, 可以看到盡管圖片還有少量瑕疵(最下圖),但絕大多數(shù)圖片已經(jīng)可以達(dá)到以假亂真的程度。我們依照銀行卡號數(shù)字編碼規(guī)范,可以很快生成幾十萬數(shù)字模版,再通過GANs將這些模版轉(zhuǎn)換為銀行卡號風(fēng)格,伴隨推理過程中的隨機性,我們可以在一天內(nèi)產(chǎn)出百萬量級的生成樣本提供給識別模型訓(xùn)練。

數(shù)平精準(zhǔn)推薦 | OCR技術(shù)之?dāng)?shù)據(jù)篇

fig.11 用生成對抗網(wǎng)絡(luò)生成銀行卡號樣本效果


2.4 小結(jié)

在各類任務(wù)上,我們累計生成樣本千萬級別,為OCR檢測和識別提供了充足的訓(xùn)練數(shù)據(jù)。通過上述的數(shù)據(jù)生成技術(shù),我們在網(wǎng)絡(luò)圖片,自然場景圖片,以及特定業(yè)務(wù)場景(銀行卡,×××...)的OCR檢測與識別效果有明顯提升。尤其是網(wǎng)絡(luò)圖片,由于生成樣本逼真,數(shù)量多,足夠多樣化,能夠通過算法bad case反饋迅速反應(yīng),生成針對性的樣本,使得OCR能力快速提升。在生成對抗網(wǎng)絡(luò)方面,優(yōu)化生成模型的穩(wěn)定性,利用少樣本學(xué)習(xí),半監(jiān)督學(xué)習(xí)等將會是我們重點探索的方向。


三、總結(jié)

本文分享了數(shù)平精準(zhǔn)推薦團隊在數(shù)據(jù)生成方面的工作,主要基于圖像處理,圖像理解,和生成對抗網(wǎng)絡(luò)三種類型的技術(shù)快速產(chǎn)生大量帶標(biāo)注數(shù)據(jù),在此之外,也在不斷積累人工標(biāo)注數(shù)據(jù)作為真實樣本,這些真實樣本不但客觀反映了業(yè)務(wù)場景,也為生成數(shù)據(jù)規(guī)范提供了標(biāo)桿,即依賴這些真實數(shù)據(jù)樣式來在生成數(shù)據(jù)環(huán)節(jié)進(jìn)行大量的模擬和泛化。在后續(xù)的工作中,我們會重點關(guān)注如何通過服務(wù)化和工具化實現(xiàn)不斷的數(shù)據(jù)自動積累,模型自動訓(xùn)練更新。除OCR外,計算機視覺乃至整個機器學(xué)習(xí)領(lǐng)域,盡管數(shù)據(jù)驅(qū)動這個詞被無數(shù)次提到,但真正能夠釋放數(shù)據(jù)驅(qū)動能力的產(chǎn)品或技術(shù)服務(wù)依然寥寥無幾。如何讓機器自身具備數(shù)據(jù)收集、整理、分析的能力,并自主對算法進(jìn)行調(diào)整和優(yōu)化,自主做出判斷和決策將是我們探索的方向。


騰訊TEG數(shù)平精準(zhǔn)推薦團隊OCR方面已經(jīng)有了多年積累下的各項技術(shù)積累,愿意與任何有OCR技術(shù)相關(guān)需求的業(yè)務(wù)同事們進(jìn)行交流合作,以TEG的使命:專業(yè)、合作、伙伴為目標(biāo),唯愿以持續(xù)打造業(yè)界一流的數(shù)據(jù)、算法、系統(tǒng),為業(yè)務(wù)團隊提供優(yōu)質(zhì)的服務(wù)。


技術(shù)&業(yè)務(wù)合作請咨詢:hongfawang@tencent.com,亦長期招聘優(yōu)秀算法工程師與實習(xí)生,歡迎聯(lián)系。


參考文獻(xiàn):

[1] The 2005 PASCAL Visual Object Classes Challenge, M. Everingham, A. Zisserman, C. Williams, L. Van Gool, M. Allan, C. Bishop, O. Chapelle, N. Dalal, T. Deselaers, G. Dorko, S. Duffner, J. Eichhorn, J. Farquhar, M. Fritz, C. Garcia, T. Griffiths, F. Jurie, D. Keysers, M. Koskela, J. Laaksonen, D. Larlus, B. Leibe, H. Meng, H. Ney, B. Schiele, C.Schmid,E.Seemann,J.ShaweTaylor, A. Storkey, S. Szedmak, B. Triggs, I. Ulusoy, V. Viitaniemi,and J. Zhang.      In Selected Proceedings of the First PASCAL Challenges Workshop, LNAI, Springer-Verlag,  2006 (in press).

[2] SUN Database: LargeScale Scene Recognition from Abbey to Zoo. J. Xiao, J. Hays, K. Ehinger, A. Oliva, and A. Torralba. IEEE Conference on Computer Vision and Pattern Recognition, 2010.

[3] The MIR Flickr Retrieval Evaluation. M. J. Huiskes, M. S. Lew, ACM International Conference on Multimedia Information Retrieval (MIR'08), Vancouver, Canada

[4] New Trends and Ideas in Visual Concept Detection. M. J. Huiskes, B. Thomee, M. S. Lew, ACM International Conference on Multimedia Information Retrieval (MIR'10), Philadelphia, USA.

[5] Abu-El-Haija,  Sami, Nisarg Kothari,  Joonseok Lee,  Paul Natsev,  George Toderici,   Balakrishnan Varadarajan, and Sudheendra Vijayanarasimhan.  "Youtube-8m: A large-scale video classification benchmark." arXiv preprint arXiv:1609.08675, 2016.

[6] Synthetic Data for Text Localisation in Natural Images, Ankush Gupta, Andrea Vedaldi, Andrew Zisserman. CVPR?2016.

[7] Generative Models, Andrej Karpathy, Pieter Abbeel, Greg Brockman, Peter Chen, Vicki Cheung, Rocky Duan, Ian Goodfellow, Durk Kingma, Jonathan Ho, Rein Houthooft, Tim Salimans, John Schulman, Ilya Sutskever, And Wojciech Zaremba, OpenAI, retrieved April 7, 2016.

[8] Ashish Shrivastava, Tomas Pfister, Oncel Tuzel, Josh Susskind, Wenda Wang, Russ Webb, Learning from Simulated and Unsupervised Images through Adversarial Training, CVPR 2017.

[9] Xinlong Wang,  Mingyu You , Chunhua Shen, Adversarial Generation of Training Examples for Vehicle License Plate Recognition. arXiv 2017.

[10] Xinhao Liu?,?Takahito Kawanishi?,?Xiaomeng Wu, Kunio Kashino,  Scene text recognition  with high performance CNN classifier and efficient word inference.  ICASSP 2016.

[11] Fei Yin, Yi-Chao Wu, Xu-Yao Zhang, Cheng-Lin Liu,  Scene Text Recognition with Sliding  Convolutional  Character Models, Arxiv 2017.

[12] Suman K.Ghosh, Ernest Valveny, Andrew D. Bagdanov, Visual attention models for scene text recognition, CVPR 2017.

[13] Baoguang Shi, Xinggang Wang, Pengyuan Lyu, Cong Yao, Xiang Bai Robust Scene Text Recognition with Automatic Rectification, CVPR 2016.

[14] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, Alexei A. Efros, Image-to-Image Translation with  Conditional Adversarial Nets, CVPR 2017.

[15] Jun-Yan Zhu,  Taesung Park,  Phillip Isola, Alexei A. Efros, Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Arxiv 2017.

[16] Mehdi Mirza, Simon Osindero, Conditional Generative Adversarial Nets. Arxiv 2014.

[17]薛偉, 廣告中的大數(shù)據(jù)與機器學(xué)習(xí), 騰訊大數(shù)據(jù)技術(shù)峰會, 2017.


向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI