您好,登錄后才能下訂單哦!
2018年還剩不到10天,回顧一下今年CV(Computer Vision,計算機視覺)領(lǐng)域的進展,在技術(shù)上并沒有迎來什么革命性的新突破。
幾個頭部企業(yè)的業(yè)務(wù)重點,除了強化現(xiàn)有算法的精度,更多還是將精力投擲在商業(yè)布局上。
似乎每家公司都在為這個看得見的“賽點”爭分奪秒地發(fā)掘新應(yīng)用場景。
不過,還是有很多新技術(shù)的進步值得我們專門用一篇文章來說一說,比如今天要講的Zero-Shot Learning。
畢竟,當場景被開發(fā)到極限,大家就又回到了技術(shù)的起跑線。
什么是ZSL?
零樣本學(xué)習(xí)zero-shot learning,是最具挑戰(zhàn)的機器識別方法之一。2009年,Lampert 等人提出了Animals with Attributes數(shù)據(jù)集和經(jīng)典的基于屬性學(xué)習(xí)的算法,開始讓這一算法引起廣泛關(guān)注。
之所以如此重要,因為其迥異于傳統(tǒng)圖像識別任務(wù)的思考方式。
從原理上來說,ZSL就是讓計算機具備人類的推理能力,來識別出一個從未見過的新事物。
舉個例子,我們告訴一個從沒見過斑馬的小朋友:“斑馬是一種長得像馬,身上有黑白色條紋的動物”,他就可以很輕松地在動物園里找出來哪個是斑馬。
這就解決了圖像識別長久以來的問題:如果一個事物從來沒有在現(xiàn)有數(shù)據(jù)集中出現(xiàn)過,機器應(yīng)該如何學(xué)習(xí)和識別它。
聽起來是不是很爽很智能的樣子,實際上也確實如此!
ZSL的“優(yōu)越感”來自哪里?
在CV領(lǐng)域的頂會CVPR 2018 會議中,一個關(guān)于使用鑒別性特征學(xué)習(xí)零樣本識別的論文,被認為代表了該領(lǐng)域當前的最佳水平。
之所以受到如此重視,主要源于近年來零樣本學(xué)習(xí)(ZSL)在目標識別任務(wù)中的大顯身手。
由于ZSL所挑戰(zhàn)的現(xiàn)實情境前所未有地苛刻,使其具備了影響其他圖像識別效果的關(guān)鍵能力。
現(xiàn)有識別技術(shù)大多集中于監(jiān)督學(xué)習(xí),所以需要不斷推出更大的數(shù)據(jù)集,谷歌曾介紹說他們在用300Million的3D圖片進行訓(xùn)練。而且,每個領(lǐng)域還需要各自的數(shù)據(jù)集。
這種情況下,全部進行數(shù)據(jù)標注的工作量也變得很大,很多新生事物更是想標注都無從談起。這樣在部署端的效率和成本就成了產(chǎn)業(yè)的“不可承受之重”。
那怎么辦呢?科研人員只好努力讓機器學(xué)會“花更少的錢,辦更多的事”。
以騰訊AI Lab的研究為例,其“Diverse Image Annotation”,就是充分利用標簽之間的語義關(guān)系,用少量多樣性標簽來表達盡可能多的圖像信息,實現(xiàn)自動標注。
ZSL則更為極端,要在一個樣本都沒有的前提下“空手套白狼”,這種極限挑戰(zhàn),就給技術(shù)界帶來了新的活力。
最大的區(qū)別在于, ZSL挑戰(zhàn)的是在相似語義中完成知識遷移,而OSL需要解決的是語義補全的能力,即如何利用唯一的樣本學(xué)習(xí)到更多的特征。
在實際應(yīng)用中,關(guān)鍵能力的不同,賦予了它們不同的“必殺技”。
比草原廣闊:ZSL的應(yīng)用場景
那么,ZSL到底能干些什么呢?
前面我們說過,目前產(chǎn)業(yè)界應(yīng)用深度學(xué)習(xí)最大的痛點,無非是愛上一匹野馬 (泛化能力),可是家里沒有草原 (高質(zhì)量數(shù)據(jù)集) 。也并沒有企業(yè)會為了幾匹野馬,就不計成本地承包所有草原。
而ZSL能夠提供的想象空間,就比“草原”大得多了:
1.圖像自動標注、處理。人工標注代價高、速度慢,一旦ZSL被應(yīng)用,其語義理解和遷移能力,借助知識圖譜的輔助(如屬性、文本描述等),把不同的視覺聯(lián)合在一起進行系統(tǒng)觀察,可以自動完成數(shù)據(jù)的識別和標注工作,而且結(jié)果的準確性不低于人工。
2.未知或生僻語種翻譯。在電影《降臨》中,美國的語言學(xué)家通過艱難地特征推斷,完成了與外星人的溝通。未來,這件事可以由機器來代勞。比如說一些樣本很少甚至早已不可考的語言(比如烏伯克語),通過ZSL系統(tǒng)就可以自動完成翻譯過程,實現(xiàn)宇宙的love&peace。
3.新類別的圖像合成。ZSL的學(xué)習(xí)目標是識別新事物,一些新類別的圖像合成,完全可以通過ZSL被創(chuàng)造出來。比如還原已經(jīng)滅絕的物種。也許未來你在《侏羅紀》系列中看到的恐龍,就是機器“畫”出來的。
4.視頻識別。目前,越來越多的數(shù)據(jù)是視覺與文本信號共同出現(xiàn),比如綜合性視頻網(wǎng)站,視頻、音頻、字幕、彈幕、評論等多模態(tài)信息都有,想要挖掘它們之間的相關(guān)性,就依賴于ZSL的宏觀預(yù)測能力。
總而言之,讓機器能夠像人一樣憑借“只言片語”做出推理和判斷,是一個很有用的功能。
從入門到放棄:ZSL的問題依然頑固
既然這么牛,為什么ZSL一直不溫不火呢?至少沒有像其他深度學(xué)習(xí)算法一樣成為“群寵”。主要原因還是在于幾個“牛皮癬式”的頑疾:
一是ZSL的效果依賴于相似模態(tài)的信息。在訓(xùn)練時如果訓(xùn)練集和測試集的類別相差太大,比如一個里面全是動物,另一個里面全是家居,這時讓ZSL分析二者的映射關(guān)系就太困難了,就很容易出現(xiàn)屬性漂移的“強偏”問題,難以預(yù)測出正確的結(jié)果,導(dǎo)致ZSL的性能表現(xiàn)大打折扣。
二是缺乏足量的專業(yè)定義和描述。ZSL雖然不需要大量的圖像數(shù)據(jù)集,但需要進行特征描述。這方面人工比機器分類效果更好。但目前還缺乏足夠的專業(yè)人員進行協(xié)助,NLP自身的發(fā)展也尚不足以滿足ZSL的需要,使得整體進程相對緩慢。
這些桎梏不解決,ZSL即便具備從零起點到學(xué)霸的潛力,也只能入寶山而空回,被不如它的算法搶走工作機會。
免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。