溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

淺談機器翻譯的兩種工作原理

發(fā)布時間:2020-08-13 16:51:09 來源:ITPUB博客 閱讀:395 作者:數(shù)據(jù)星河 欄目:互聯(lián)網(wǎng)科技

機器翻譯(MT)即是自動翻譯,是使用計算機軟件將文本從一種自然語言翻譯成另一種語言的過程。

淺談機器翻譯的兩種工作原理

       無論是人工翻譯還是機器翻譯,必須在目標語言即翻譯中完全恢復源語言中文本的含義。雖然從表面上看這似乎很簡單,但實際要復雜得多。翻譯不僅僅是逐字替換,翻譯人員必須解釋和分析文本中的所有元素,并了解單詞之間的關系。這需要在源語言和目標語言中具備語法(句子結構)、語義(含義)等方面的廣泛專業(yè)知識,以及對每個語言區(qū)域十分熟悉。

       人工翻譯,機器翻譯各具挑戰(zhàn)。例如,任何兩個獨立的翻譯者對同一語言的相同文本,并不能生成一致的翻譯,翻譯完后可能需要幾輪修訂才能滿足客戶。顯然,機器翻譯更難生產(chǎn)出讓客戶滿意度高的高質(zhì)量翻譯。

基于規(guī)則的機器翻譯技術

       基于規(guī)則的機器翻譯依賴于無數(shù)的內(nèi)置語言規(guī)則,及每對語言的數(shù)百萬雙語詞匯。

       這種技術解析文本,并創(chuàng)建一種過渡表達,從中生成目標語言中的文本。這個過程需要廣泛的詞義,包括形態(tài)、句法和語義信息以及大量規(guī)則。該技術使用這些復雜的語法集,然后將源語言的語法結構轉(zhuǎn)換為目標語言。

淺談機器翻譯的兩種工作原理

“曲線救國“的基于規(guī)則MT?

       翻譯建立在巨大的詞匯量和復雜的語法規(guī)則之上。用戶可以通過在翻譯過程中添加術語來提高翻譯質(zhì)量。用戶可以自定義詞匯量,覆蓋系統(tǒng)的默認設置。

      大多數(shù)情況下有兩個步驟:公司初始投資以有限的成本顯著提高質(zhì)量,持續(xù)投資以逐步提高質(zhì)量。雖然基于規(guī)則的MT使公司達到質(zhì)量門檻以及更高,但質(zhì)量改進過程可能是漫長且昂貴的。

統(tǒng)計機器翻譯技術

       統(tǒng)計機器翻譯利用統(tǒng)計翻譯模型,其參數(shù)源于對單語和雙語語料庫的分析。構建統(tǒng)計翻譯模型是一個快速的過程,但該技術在很大程度上依賴于現(xiàn)有的多語言語料庫。特定語言至少需要200萬個單詞,一般語言需要更多。從理論上講,有可能達到質(zhì)量門檻,但大多數(shù)公司沒有如此大量的現(xiàn)有多語言語料庫來構建必要的翻譯模型。此外,統(tǒng)計機器轉(zhuǎn)換是CPU密集型的,并且需要廣泛的硬件配置來運行平均性能級別的轉(zhuǎn)換模型。

基于規(guī)則MT與統(tǒng)計MT對比

       基于規(guī)則的MT提供了良好的域外質(zhì)量,并且本質(zhì)上是可預測的??啥ㄖ圃~匯確保了提高質(zhì)量并符合公司術語。但翻譯結果可能缺乏讀者期望的流暢性。在成本方面,達到質(zhì)量閾值所需的定制周期可能很長且成本高。

淺談機器翻譯的兩種工作原理

       統(tǒng)計MT在大型語料庫可用時能提供良好的質(zhì)量。翻譯流暢,易讀性高,因此符合用戶的期望。但是,翻譯既不可預測也很難前后一致。優(yōu)秀語料庫是自動生成且便宜的。但是對一般語言語料庫的培訓,即指定域以外的文本,效果堪憂。此外,統(tǒng)計MT需要大量硬件來構建和管理大型翻譯模型。

        

        本文轉(zhuǎn)載自數(shù)據(jù)星河平臺:https://www.bdgstore.com.cn/portal/article/index/id/167.html


向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權內(nèi)容。

AI