您好,登錄后才能下訂單哦!
今天就跟大家聊聊有關(guān)TableBank如何理解,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。
TableBank:高質(zhì)量的標(biāo)注表格數(shù)據(jù)集
雖然人類在視覺(jué)上可以很容易地判斷出一個(gè)表格,但由于表格的布局、樣式多種多樣,對(duì)于機(jī)器而言判斷“何為表格”以及表格中內(nèi)容之間的關(guān)系卻并不容易。傳統(tǒng)的基于規(guī)則的表格識(shí)別方式,一旦換一份文檔就需要大量在文檔后臺(tái)的手工操作;而現(xiàn)有的機(jī)器學(xué)習(xí)方法,又無(wú)法獲得大量有效的標(biāo)注數(shù)據(jù),很難支持實(shí)際場(chǎng)景中的應(yīng)用。于是,TableBank應(yīng)運(yùn)而生。
TableBank是一個(gè)表格檢測(cè)與識(shí)別的數(shù)據(jù)集,基于公開(kāi)的、大規(guī)模的Word文檔和LaTex文檔,通過(guò)弱監(jiān)督方法創(chuàng)建而來(lái)。與傳統(tǒng)的弱監(jiān)督訓(xùn)練集不同,TableBank不僅數(shù)據(jù)質(zhì)量高,而且數(shù)據(jù)規(guī)模比之前的人工標(biāo)記的表格分析數(shù)據(jù)集大幾個(gè)數(shù)量級(jí),其表格數(shù)據(jù)量達(dá)到了41.7萬(wàn)。
然而要讓機(jī)器讀懂表格,首先要能夠從文檔中識(shí)別哪些是表格,隨后再去識(shí)別表格區(qū)域內(nèi)的信息。
看完上述內(nèi)容,你們對(duì)TableBank如何理解有進(jìn)一步的了解嗎?如果還想了解更多知識(shí)或者相關(guān)內(nèi)容,請(qǐng)關(guān)注億速云行業(yè)資訊頻道,感謝大家的支持。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。