您好,登錄后才能下訂單哦!
作者 | 張家俊
編輯 | 叢 末
機(jī)器翻譯旨在利用計(jì)算機(jī)實(shí)現(xiàn)自然語言之間的自動(dòng)翻譯,一直是自然語言處理與人工智能領(lǐng)域的重要研究方向,近年來更是取得了突破性進(jìn)展,已成為大眾較為熟知和常用的技術(shù)。
現(xiàn)在一提起機(jī)器翻譯技術(shù)的起源,對(duì)該研究領(lǐng)域稍有了解的人們都知道是美國的瓦倫·韋弗(Warren Weaver,后面簡稱韋弗)最先于1947年提出機(jī)器翻譯概念并于1949年7月正式記錄于名為《翻譯》的備忘錄。不過,可能大多數(shù)人不是特別了解韋弗究竟是何許人也以及他怎么會(huì)提出機(jī)器翻譯的概念。作為機(jī)器翻譯領(lǐng)域的一名研究者,我對(duì)這些問題非常感興趣,也希望讓更多人了解機(jī)器翻譯概念誕生的那些趣事和史實(shí)。
瓦倫·韋弗
如果讓大家猜測的話,可能會(huì)認(rèn)為韋弗是一位從事語言翻譯的學(xué)者,由于人工翻譯任務(wù)繁重從而產(chǎn)生利用計(jì)算機(jī)進(jìn)行自動(dòng)翻譯的想法。其實(shí)不然,他的人生經(jīng)歷著實(shí)會(huì)讓人驚嘆不已。
如果您認(rèn)為他提出了機(jī)器翻譯的概念已經(jīng)足夠偉大,那么可以再告訴您 韋弗是位數(shù)學(xué)家,二戰(zhàn)期間曾幫助美軍革新了防控火控系統(tǒng)和轟炸機(jī)技術(shù),而且他首次提出了分子生物學(xué)的概念,他還與信息論之父香儂一同撰寫了劃時(shí)代意義的著作《通信的數(shù)學(xué)原理》(The Mathematical Theory of Communication)。有點(diǎn)尷尬的發(fā)現(xiàn),機(jī)器翻譯似乎僅僅是他的一個(gè)小小愛好而已。
如此多不同領(lǐng)域的貢獻(xiàn)竟然集中于一人之身,足見韋弗的不凡之處??赡芪覀儠?huì)有疑問,韋弗到底從事哪種職業(yè)呢?實(shí)際上很難用教授、研究員或者科學(xué)家某個(gè)稱謂概括他的職業(yè)生涯。下面,讓我們慢慢走進(jìn)韋弗的人生。
1
韋弗1894年7月17日出生于美國威斯康星州的里茲堡市,從小酷愛各種搗鼓,立志成為一名工程師。進(jìn)入威斯康星大學(xué)后,受到查爾斯·斯萊希特(Charles Slichter)和馬克思·馬森(Max Mason)兩位老師的影響(需要重點(diǎn)記得馬森,他似乎要對(duì)韋弗的職業(yè)生涯負(fù)責(zé)到底),韋弗發(fā)現(xiàn)自己的興趣和熱情并不在工程技術(shù),而是應(yīng)用數(shù)學(xué)和理論物理,從而毅然轉(zhuǎn)向數(shù)學(xué),于1916年獲得數(shù)學(xué)學(xué)位,并于1917年獲得了土木工程的學(xué)位,看來他還是沒有完全放棄工程技術(shù)。大學(xué)畢業(yè)后在馬森的推薦下去施羅普大學(xué)(大名鼎鼎的加州理工學(xué)院的前身)做過短暫的數(shù)學(xué)老師,之后在美國空軍服役了兩年。退役后回到威斯康星大學(xué)繼續(xù)博士研究,1921年獲得博士學(xué)位。畢業(yè)后留校擔(dān)任數(shù)學(xué)教授,并于1928年起擔(dān)任威斯康星大學(xué)數(shù)學(xué)系主任,按照韋弗自己的說法他不太擅長數(shù)學(xué)研究,如果這樣下去人生注定平淡無奇。
這時(shí)候,韋弗的人生導(dǎo)師馬森再次出場,先是邀請(qǐng)韋弗一起撰寫了經(jīng)典物理教科書《電磁場》(The electromagnetic field),并且在其擔(dān)任洛克菲勒基金會(huì)總裁后力邀韋弗擔(dān)任馬森之前負(fù)責(zé)的該基金會(huì)自然科學(xué)部的主任。洛克菲勒基金會(huì)總部位于紐約,換工作的話意味著不僅要搬家還要面臨職業(yè)方向的轉(zhuǎn)變,從大學(xué)教授變成科研項(xiàng)目管理人員可能并不那么吸引人。但是,韋弗思考良久后決定跟隨老師到紐約去,1932年正式就任洛克菲勒基金會(huì)自然科學(xué)部主任,從此開啟了他不凡的科學(xué)探索、規(guī)劃和管理生涯。這里要稍微介紹一下給韋弗提供充分施展其才華的洛克菲勒基金會(huì)。
洛克菲勒基金會(huì)正式成立于1913年,已經(jīng)是一個(gè)百年老字號(hào),也差不多是世界范圍內(nèi)慈善事業(yè)做得規(guī)模最大成果最多的私人基金會(huì)。這里簡單列舉幾點(diǎn)我們可能比較熟知的成就:1,醫(yī)學(xué)領(lǐng)域,洛克菲勒基金會(huì)建立了現(xiàn)代公共衛(wèi)生領(lǐng)域,開發(fā)疫苗幫助根除黃熱病和瘧疾等疾?。?,農(nóng)業(yè)領(lǐng)域,推動(dòng)了20世紀(jì)第三世界國家農(nóng)業(yè)生產(chǎn)技術(shù)改革的綠色革命;3,信息領(lǐng)域,資助了于1956年召開的標(biāo)志人工智能起源的達(dá)特茅斯會(huì)議;4,在中國,資助建立了北京協(xié)和醫(yī)學(xué)院及其附屬北京協(xié)和醫(yī)院。洛克菲勒基金會(huì)的偉大成就還有很多很多。有了這樣的舞臺(tái),韋弗得以大展拳腳,盡情展現(xiàn)其對(duì)未來科學(xué)趨勢(shì)把控和科研管理的才能。
2
洛克菲勒基金會(huì)的錢很多,理論上想資助什么就資助什么,那么資助方向就顯得尤為重要。上任伊始,韋弗憑借其物理學(xué)背景以及對(duì)生物技術(shù)即將爆發(fā)的敏銳嗅覺,成功說服洛克菲勒基金會(huì)的董事會(huì)將資助重點(diǎn)從物理學(xué)轉(zhuǎn)向生物學(xué)中的新興領(lǐng)域(當(dāng)然,這個(gè)過程應(yīng)該也得到了總裁兼老師馬森的大力支持)。
方向只要對(duì)了,一切就會(huì)順利。僅僅5-6年時(shí)間,這些新興領(lǐng)域被資助的科研項(xiàng)目進(jìn)展十分迅速,1938年韋弗在基金會(huì)自然科學(xué)年報(bào)中將這些生物學(xué)中新興技術(shù)統(tǒng)稱為分子生物學(xué)。由此,分子生物學(xué)的概念誕生了,從而開辟了一個(gè)嶄新的生物、化學(xué)與物理交叉融合的學(xué)科方向。
現(xiàn)在,我們熟知的DNA研究以及新冠肺炎中的核酸檢測都屬于分子生物學(xué)領(lǐng)域。在韋弗的推動(dòng)下,洛克菲勒基金會(huì)資助了這一領(lǐng)域的諸多研究者,其中很多學(xué)者若干年后都成為了具體學(xué)術(shù)方向的執(zhí)牛耳者。舉個(gè)例子,1954-1965年分子生物學(xué)相關(guān)領(lǐng)域洛克菲勒基金會(huì)資助的學(xué)者中有15位獲得了諾貝爾獎(jiǎng)(該領(lǐng)域一共18位),可以說韋弗的最大貢獻(xiàn)之一就是極大地推動(dòng)了20世紀(jì)全球生物學(xué)的發(fā)展。
3
在擔(dān)任洛克菲勒基金會(huì)自然科學(xué)部主任期間,韋弗一直保留著他對(duì)應(yīng)用數(shù)學(xué)(特別是概率和統(tǒng)計(jì))的研究熱情。其中,一個(gè)突出成就是1949年與克勞德·香儂(Claude Shannon)共同撰寫了劃時(shí)代意義的著作《通信的數(shù)學(xué)原理》。不過,香儂一直在貝爾實(shí)驗(yàn)室工作,實(shí)際上兩人并沒有交集,那么為什么會(huì)成為這部巨著的共同作者呢?其中的故事非常有趣。
1948年,香儂在貝爾系統(tǒng)科學(xué)雜志《Bell System Technical Journal》上發(fā)表了《通信的一個(gè)數(shù)學(xué)理論》(A Mathematical Theory of Communication),奠定了信息論和通信理論的基石。這樣來看信息論的奠基性工作跟韋弗一點(diǎn)關(guān)系沒有。但是,香儂著作中的數(shù)學(xué)描述比較晦澀難懂,而且闡述該理論僅適用于工程通信領(lǐng)域,因此該著作的受眾很少。
韋弗一直對(duì)信息論保持很高的興趣,并且理解非常深刻,也有自己獨(dú)到的見解,他于是采用通俗易懂的語言闡述并擴(kuò)展了香儂的理論,并于1949年在《科學(xué)美國人》(Science American)雜志上發(fā)表了《通信中的數(shù)學(xué)》(The Mathematics of Communication)。時(shí)任美國伊利諾伊大學(xué)出版社主編的威爾伯·施拉姆教授(傳播學(xué)之父)認(rèn)為兩者結(jié)合最完美,因此將韋弗和香儂的文章分別作為第一和第二部分重新修正編排,出版了劃時(shí)代意義的《通信的數(shù)學(xué)原理》(The Mathematical Theory of Communication)著作(從低調(diào)的“通信的一個(gè)數(shù)學(xué)理論”直接修改成了霸氣的“通信的數(shù)學(xué)原理”)?,F(xiàn)在,“ 香儂-韋弗模式”已經(jīng)成為通信和傳播領(lǐng)域無人不知的基本理論,足見韋弗在信息論的發(fā)展和傳播中扮演了何其重要的作用。
4
現(xiàn)在,讓我們回歸正題,探尋韋弗提出機(jī)器翻譯概念的過程以及對(duì)后續(xù)機(jī)器翻譯發(fā)展的影響。據(jù)韋弗本人回憶,整個(gè)過程源于他的一位杰出數(shù)學(xué)家朋友經(jīng)歷的真實(shí)故事。我們稱這位數(shù)學(xué)家朋友為P,他之前是德國人,在土耳其伊斯坦布爾待過一段時(shí)間,并且學(xué)習(xí)過土耳其語。該故事發(fā)生于二戰(zhàn)期間,由于戰(zhàn)爭的需要,那些年密碼學(xué)的研究十分盛行。有一天,P的一位同事F聲稱想出了一個(gè)解密算法,于是請(qǐng)P設(shè)計(jì)一段密文,然后測試一下這個(gè)解密算法。P對(duì)密碼學(xué)也十分感興趣,鑒于F不懂土耳其語,P想為難一下F,于是用土耳其語寫下包含100個(gè)詞語的一段話,然后將土耳其語中的非英文字母替換為英文字母,最后經(jīng)過稍微復(fù)雜點(diǎn)的替換等操作,生成了一段數(shù)字序列的密文。沒想到F第二天就將解碼結(jié)果呈現(xiàn)給P。雖然F聲稱沒能成功解碼出結(jié)果,只得到一串沒有意義的英文字母組成的字符串序列(由于不懂土耳其語,所以認(rèn)為沒有意義),但是P稍加修改后就能還原土耳其語的信息。
這個(gè)故事深深觸動(dòng)了概率論和統(tǒng)計(jì)學(xué)背景的韋弗。本來韋弗就對(duì)語言翻譯有點(diǎn)興趣,這個(gè)在后面會(huì)提到。經(jīng)過深入思考, 韋弗認(rèn)為不同語言中字母頻率和組合方式等都具有相似的規(guī)律,因而可以通過利用這些特征進(jìn)行語言的解密,也即語言的自動(dòng)翻譯。
但是,利用什么工具進(jìn)行自動(dòng)翻譯成為一個(gè)關(guān)鍵性問題。正好,1946年誕生了世界上第一臺(tái)電子計(jì)算機(jī)ENIAC, 受語言解密和計(jì)算機(jī)的啟發(fā),韋弗于1947年提出了機(jī)器翻譯的思想,并與控制論之父諾伯特·維納針對(duì)機(jī)器翻譯的可行性進(jìn)行了書信探討。首先一個(gè)疑問是韋弗為什么要和維納討論呢?實(shí)際上,一方面韋弗主導(dǎo)洛克菲勒基金會(huì)資助了維納,幫助其創(chuàng)立了控制論學(xué)科,彼此應(yīng)該比較熟悉;另一方面,韋弗認(rèn)為語言的自動(dòng)翻譯是一個(gè)復(fù)雜系統(tǒng),而維納是復(fù)雜系統(tǒng)研究的權(quán)威,討論機(jī)器翻譯非維納不可。只不過,維納和韋弗僅討論了一個(gè)回合,并且認(rèn)為機(jī)器翻譯面臨的假設(shè)空間太大、歧義性太強(qiáng),基本不可行。韋弗非常失望,希望擺事實(shí)講道理繼續(xù)和維納探討,最終想說服維納,可是然后就沒有了然后。
韋弗深知要讓機(jī)器翻譯的概念被人們(當(dāng)然也包括維納)接受,就需要提出切實(shí)可行的設(shè)計(jì)方案和實(shí)現(xiàn)技術(shù),證明其可行性。于是,韋弗經(jīng)過兩年的思考,并且在1948年與有類似想法的英國倫敦大學(xué)伯克貝克學(xué)院的布斯(Andrew D. Booth)進(jìn)行了深入探討,最終于1949年7月正式在 《翻譯》備忘錄中提出機(jī)器翻譯概念以及四種可能的實(shí)現(xiàn)策略。
第一種實(shí)現(xiàn)策略基于簡單的詞語替換方法,其核心是解決詞義消岐問題。韋弗認(rèn)為一種自然語言到另一種自然語言的自動(dòng)轉(zhuǎn)換面臨的關(guān)鍵問題是不同語境中的詞語多義現(xiàn)象。他提出的一個(gè)可行方案是用N個(gè)詞語窗口的上下文信息來幫助預(yù)測中心詞語的語義,并且認(rèn)為N不需要太大。該思想在最初實(shí)現(xiàn)的基于直接轉(zhuǎn)換的機(jī)器翻譯方法中得到了應(yīng)用。
第二種實(shí)現(xiàn)策略假設(shè)語言是一種邏輯表達(dá)。語言之間的自動(dòng)轉(zhuǎn)換就可以形式化為一種邏輯表達(dá)到另一種邏輯表達(dá)的自動(dòng)推導(dǎo)。韋弗希望利用這個(gè)策略說明機(jī)器翻譯是形式上可解決的。后來,基于規(guī)則的翻譯方法和統(tǒng)計(jì)機(jī)器翻譯中基于同步上下文無關(guān)文法的譯文推導(dǎo)模型與該策略的基本思想可以說是一致的。
第三種實(shí)現(xiàn)策略假設(shè)語言間的自動(dòng)翻譯實(shí)際上可以看作通信過程,即一種輸入信號(hào)(未知的目標(biāo)語言文本,也可以稱為密碼學(xué)中的明文)經(jīng)過信道輸出另一種信號(hào)(可觀察的源語言,密碼學(xué)中的密文),翻譯過程就是根據(jù)輸出信號(hào)恢復(fù)輸入信號(hào)的過程。作為信息論先驅(qū)的韋弗受到二戰(zhàn)期間破譯密碼的啟發(fā),認(rèn)為機(jī)器翻譯實(shí)際上與密碼破譯問題十分類似,挖掘兩種語言之間的統(tǒng)計(jì)模式就可以實(shí)現(xiàn)語言的自動(dòng)轉(zhuǎn)換。1990年左右統(tǒng)計(jì)機(jī)器翻譯的興起就是基于這個(gè)策略的基本思想。
第四種實(shí)現(xiàn)策略假設(shè)所有語言之間存在相同的邏輯特征,可以視為一種通用語言或者中間語言。韋弗認(rèn)為源語言到目標(biāo)語言的自動(dòng)翻譯可以首先將源語言轉(zhuǎn)換為中間語言,然后再從中間語言轉(zhuǎn)換為目標(biāo)語言。后來,美國卡內(nèi)基梅隆大學(xué)開發(fā)的JANUS機(jī)器翻譯系統(tǒng)就采用了基于中間語言的翻譯方法。不過,中間語言的定義和表示一直是一個(gè)未解難題。當(dāng)前,基于統(tǒng)一編碼器和解碼器的多語言神經(jīng)機(jī)器翻譯框架本質(zhì)上類似于基于中間語言的翻譯思想。所有語言通過相同的編碼器生成分布式的語義表示,然后解碼器從分布式語義表示生成目標(biāo)語言。
可以看出,上述第一種策略到第四種策略,想法越來越大膽,難度也越來越大。不過,從歷史的發(fā)展來看基本上符合機(jī)器翻譯方法的進(jìn)階過程,不得不佩服韋弗對(duì)未來科學(xué)發(fā)展的戰(zhàn)略眼光。
機(jī)器翻譯的概念誕生后,逐漸吸引了越來越的學(xué)者進(jìn)入這個(gè)新興研究領(lǐng)域。三年后,韋弗主導(dǎo)洛克菲勒基金會(huì)資助了1952年6月17-20日于麻省理工學(xué)院召開的第一屆機(jī)器翻譯會(huì)議,會(huì)議由另一位機(jī)器翻譯先驅(qū)巴爾-希列爾(Yehoshua Bar-Hillel,大數(shù)學(xué)家、哲學(xué)家、羅輯學(xué)家和語言學(xué)家)組織,一共18位專家與會(huì)。后來的事情大家就比較熟悉了,例如1954年第一個(gè)機(jī)器翻譯系統(tǒng)在紐約公開演示,1976年加拿大的天氣預(yù)報(bào)機(jī)器翻譯系統(tǒng)讓人眼前一亮,1990年左右IBM的統(tǒng)計(jì)機(jī)器翻譯模型誕生,推動(dòng)了谷歌、微軟和百度等在線翻譯系統(tǒng)的開發(fā),2014年之后深度學(xué)習(xí)給機(jī)器翻譯帶來了突破性進(jìn)展。
5
從1932年擔(dān)任自然科學(xué)部主任到1959年退休,韋弗將其大半的職業(yè)生涯都貢獻(xiàn)給了洛克菲勒基金會(huì)。退休后被邀請(qǐng)繼續(xù)擔(dān)任了5年斯隆基金會(huì)(Alfred P Sloan Foundation)的副總裁。退休后直至1978年去世的十幾年,韋弗一方面利用更多時(shí)間陪伴家人,以另一方面開始將更多精力放在自己的興趣上。從后續(xù)的著作來看,韋弗的興趣主要集中于概率論和語言翻譯。1963年,韋弗出版了一本科普專著《幸運(yùn)女神:概率理論》(Lady Luck: The Theory of Probability),希望將概率理論介紹給更廣泛的人群。
在語言翻譯方面,韋弗并沒有繼續(xù)研究機(jī)器翻譯方法,而是對(duì)文學(xué)作品的不同語言的翻譯版本產(chǎn)生了興趣。作為劉易斯·卡羅爾(Lewis Carroll)的超級(jí)粉絲,韋弗對(duì)《愛麗絲夢(mèng)游仙境》不同語言的翻譯版本特別感興趣。
1964年,韋弗出版了另一本專著《很多語言中的愛麗絲》(Alice in Many Tongues),在這部著作中他詳細(xì)對(duì)比了40種不同語言的版本,希望傳遞給大家一個(gè)信息:將《愛麗絲夢(mèng)游仙境》翻譯為其他語言面臨非常大的挑戰(zhàn)。但是韋弗不可能懂40種語言,于是他采用了一種back-translation的方法,將其他語言回翻為英語,然后再對(duì)比不同的英語版本。Back-translation的概念對(duì)如今神經(jīng)機(jī)器翻譯的研究者來說太熟悉不過了,已經(jīng)成為神經(jīng)機(jī)器翻譯領(lǐng)域的流行技術(shù),也是各種機(jī)器翻譯競賽的必備技術(shù)。不過,back-translation的技術(shù)應(yīng)用于神經(jīng)機(jī)器翻譯也只是在2016年被正式提出,沒想到的是韋弗老爺子早在半個(gè)多世紀(jì)前就已經(jīng)在利用back-translation的思想了,還能說什么呢,除了佩服還是佩服。
從韋弗的人生經(jīng)歷以及所取得的成就中我們至少可以得到兩點(diǎn)啟示。首先,興趣是成功的關(guān)鍵因素。其次,對(duì)趨勢(shì)和方向的把控和選擇不僅決定個(gè)人的成就,也將對(duì)國家和全球的技術(shù)發(fā)展起到至關(guān)重要的作用。
參考文獻(xiàn):
Warren Weaver. 1955. Translation. Machine Translation of Languages, 14:15-23, 1955.
Weaver, Warren. 1964. Alice in Many Tongues: The Translations of “Alice in Wonderland.” Madison: University of Wisconsin Press.
Warren Weaver. National Academy of Sciences. 1987. Biographical Memoirs: V.57. Washington, DC: The National Academies Press.
Lily E. Kay. 1996. The Molecular Vision of Life: Caltech, the Rockefeller Foundation, and the Rise of the New Biology, Oxford University Press, Reprint 1996.
John Hutchins.1998. Milestones in machine translation. Language Today, no. 13. 1998. pp. 12-13.
本文作者:張家俊,中國科學(xué)院自動(dòng)化研究所研究員,主要研究方向?yàn)闄C(jī)器翻譯、自然語言處理、深度學(xué)習(xí)。知乎專欄: https://www.zhihu.com/people/zhang-jia-jun-29-18
https://www.toutiao.com/i6850035899368145421/
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。