溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

商湯科技林達(dá)華:摒棄粗放式的計算機(jī)視覺研究

發(fā)布時間:2020-08-10 01:17:52 來源:ITPUB博客 閱讀:275 作者:dicksonjyl560101 欄目:互聯(lián)網(wǎng)科技

https://www.toutiao.com/a6716402400925581836/


商湯科技林達(dá)華:摒棄粗放式的計算機(jī)視覺研究

2018 全球人工智能與機(jī)器人峰會(CCF-GAIR)在深圳召開,商湯科技聯(lián)合創(chuàng)始人、港中文-商湯聯(lián)合實(shí)驗(yàn)室主任林達(dá)華教授分享了計算機(jī)視覺研究中的新探索。

演講中,林達(dá)華對計算機(jī)視覺過去幾年的發(fā)展進(jìn)行了總結(jié)、反思與展望。他表示,深度學(xué)習(xí)開啟了計算機(jī)視覺發(fā)展的黃金時代。這幾年里計算機(jī)視覺取得了長足發(fā)展,但這種發(fā)展是粗放式的,是用數(shù)據(jù)和計算資源堆出來的。這種發(fā)展模式是否可以持續(xù),值得深思。

他指出,隨著計算機(jī)視覺在準(zhǔn)確率方面觸頂,行業(yè)應(yīng)該尋求更多層面的發(fā)展。商湯的嘗試主要有三方面:一、提高計算資源的使用效率;二、降低數(shù)據(jù)資源的標(biāo)注成本;三、提高人工智能的品質(zhì)。

以下是林達(dá)華的全部演講內(nèi)容:

今天非常榮幸能夠在這里分享港中文-商湯聯(lián)合實(shí)驗(yàn)室過去幾年的工作。剛才幾位講者從商業(yè)角度做了精彩分享,相信大家都獲益良多,我的演講可能有點(diǎn)不一樣。我是商湯的聯(lián)合創(chuàng)始人,但我并沒有直接介入商湯在商業(yè)領(lǐng)域的運(yùn)作。如果大家關(guān)心的問題是商湯什么時候上市,我恐怕回答不了。

但我可以告訴大家,商湯公司不是一天建成的。它的成功靠的不只是過去三年半的努力,還有它背后這個實(shí)驗(yàn)室18年如一日的原創(chuàng)技術(shù)積累。這個實(shí)驗(yàn)室所做的事情,決定的不是商湯今天拿什么出去賺取利潤;而是如果商湯想成為一家偉大的科技公司,未來3年、5年甚至10年應(yīng)該朝哪個方向走。

人工智能發(fā)展很快,但卻是粗放型發(fā)展

下面這張圖想必大家都非常熟悉。

商湯科技林達(dá)華:摒棄粗放式的計算機(jī)視覺研究

過去8年,計算機(jī)視覺可以說取得了突破性進(jìn)展,其中技術(shù)上最重要的進(jìn)展是引入了深度學(xué)習(xí)。這個領(lǐng)域有一個非常高級別的比賽——Image Net。2012年之前,這個比賽中的識別錯誤率比較高,2012年引入深度學(xué)習(xí)技術(shù)后,計算機(jī)視覺經(jīng)歷了長達(dá)4年的黃金期。這4年黃金期中,Image Net比賽中的識別錯誤率從20%下降到了接近3%,之后就停滯不前了,直到去年這個比賽停辦。

所以我想問一個問題:深度學(xué)習(xí)確實(shí)推動計算機(jī)視覺在這幾年黃金期里取得了長足和突破性的進(jìn)展,但這是否意味著計算機(jī)視覺發(fā)展到今天的水平已經(jīng)走到了終結(jié)?站在今天的基礎(chǔ)上往前展望3年、5年、10年,我們未來應(yīng)該朝哪個方向研究?這是我們實(shí)驗(yàn)室,也是商湯一直在思考的。

人工智能在過去幾年取得的成功不是偶然的,也不僅僅是算法發(fā)展的結(jié)果,而是很多因素歷史性地交匯在一起促成的。第一個因素是數(shù)據(jù),我們擁有海量的數(shù)據(jù)。第二個因素是GPU的發(fā)展,促進(jìn)了計算能力大幅躍升。在數(shù)據(jù)和算力的基礎(chǔ)上,算法的進(jìn)展帶來了今天人工智能的成功,以及它在眾多應(yīng)用場景的落地。我想向大家傳遞的信息是,雖然我們看到人工智能的成功和算法的巨大進(jìn)展,但人工智能不是一個魔術(shù),某種意義上,它是龐大數(shù)據(jù)量和強(qiáng)大計算能力支撐下的性能進(jìn)步。

商湯科技林達(dá)華:摒棄粗放式的計算機(jī)視覺研究

回過頭來看人工智能這幾年輝煌的發(fā)展歷程,我們可以看到,某種意義上這是一種非常粗放型的發(fā)展。大家都在追求正確率和性能,所有比賽榜單上,中國公司都排進(jìn)了前三名。我們雖然登上了不少榜單,但行業(yè)利潤基本都被制定標(biāo)準(zhǔn)的公司賺去了。這種發(fā)展模式是否可以持續(xù)?這值得我們深思。

除了準(zhǔn)確率,還要追求效率、成本和品質(zhì)

回顧過去幾年深度學(xué)習(xí)或人工智能的發(fā)展,我覺得我們還有很多事情要做,有很長的路要走。

接下來和大家分享我的幾個思考方向:一、學(xué)習(xí)效率,我們是否充分利用了現(xiàn)有的計算資源?二、如何解決數(shù)據(jù)和標(biāo)注的成本問題?三、我們雖然在榜單中達(dá)到了99.9%的準(zhǔn)確率,但這樣訓(xùn)練出的模型是否真的能夠滿足我們生活或社會生產(chǎn)的需要?這些都是我們推動人工智能更好、更快發(fā)展和落地需要解決的問題。

商湯科技林達(dá)華:摒棄粗放式的計算機(jī)視覺研究

下面,我首先詳細(xì)談?wù)劦谝粋€方面——效率。

前面提到,我們現(xiàn)在走的是粗放型發(fā)展路線,是靠堆積數(shù)據(jù)和計算資源來換取高性能,這是資源而不是效率的競賽。行業(yè)發(fā)展到今天,制定標(biāo)準(zhǔn)的公司賺取了大部分利潤,面對這種情況,我們未來該如何發(fā)展?要回答這個問題,首先要回顧現(xiàn)在的模型和技術(shù)模式,看是否還有優(yōu)化的空間。優(yōu)化的原理非常簡單,就是把好鋼用在刀刃上。

舉一個例子來說明。兩年前我們開始進(jìn)入視頻領(lǐng)域,視頻對效率的要求非常高,因?yàn)橐曨l的數(shù)據(jù)量非常龐大,一秒鐘視頻有24幀,一分鐘就是1500幀,相當(dāng)于一個中型數(shù)據(jù)庫。用傳統(tǒng)處理圖像的方式處理視頻顯然不合適。

2013、2014年的時候,大部分視頻分析方法都比較簡單粗暴:把每一幀都拿出來跑一個卷積網(wǎng)絡(luò),最后把它們綜合到一起進(jìn)行判斷。雖然說過去幾年計算資源發(fā)展非???,但是GPU的顯存還是有限的,如果每一層都放到CNN里去跑,GPU顯存只能容納10幀到20幀左右,一秒鐘的視頻就把GPU占滿了,沒辦法長時間對視頻進(jìn)行分析,這是一種非常低效的模式。

我們知道,視頻相鄰幀之間的重復(fù)度非常高,如果每一幀都跑一次,其實(shí)大量計算資源都被浪費(fèi)了。意識到這種重復(fù)計算模式的低效后,我們對采樣方法進(jìn)行了改變,改用稀疏采樣:無論多長的視頻,都劃分成等長的段落,每個段落只取一幀。這樣一來就能在時間上對視頻形成完整覆蓋,分析出的結(jié)果自然具有較高的可靠性和準(zhǔn)確性。憑借這個網(wǎng)絡(luò),我們拿到了2016年的ActivityNet冠軍?,F(xiàn)在大部分視頻分析架構(gòu)都已經(jīng)采用了這種稀疏采樣的方法。

商湯科技林達(dá)華:摒棄粗放式的計算機(jī)視覺研究

之后,我們進(jìn)一步擴(kuò)展研究領(lǐng)域,不僅做視頻理解,還做視頻中的物體檢測。這帶來了新的挑戰(zhàn):之前做分類識別,我們可以分段,把每一段拿出來都可以獲得一個大體上的理解;但是物體檢測沒辦法這么做,必須把每一幀中的物體位置輸出來,時間上是不能稀疏的。

下圖展示了我們獲得2016年ImageNet比賽視頻物體檢測項目冠軍的網(wǎng)絡(luò)。這個網(wǎng)絡(luò)的做法基本是把每一幀的特征拿出來,判斷它的類型是什么,對物體框的位置做出調(diào)整,然后把它串起來。這里面每一幀都需要處理,當(dāng)時最厲害的GPU每秒鐘只能處理幾幀,需要大量的GPU才能訓(xùn)練出這個網(wǎng)絡(luò)。

商湯科技林達(dá)華:摒棄粗放式的計算機(jī)視覺研究

我們希望把這樣一個技術(shù)用在實(shí)際場景,得到實(shí)時性的物體檢測的框架。如果我們每一幀都是按剛才的方法處理,需要140毫秒,完全沒有辦法做到實(shí)時。但如果稀疏地去采,比如說每20幀采一次,中間的幀怎么辦呢?

大家可能想到用插值的方法把它插出來,但是我們發(fā)現(xiàn)這個方法對準(zhǔn)確度影響很大,隔10幀采一次,中間的準(zhǔn)確度差距很大。在新提出的方法里,我們利用幀與幀之間相互的關(guān)系,通過一個代價小得多的網(wǎng)絡(luò)模塊,只需要花5毫秒,在幀與幀之間傳遞信息,就能很好地保持了檢測精度。這樣我們重新改變了做視頻分析的路徑之后,整體的代價就得到了大幅度的下降。這里面沒有什么新鮮的東西,網(wǎng)絡(luò)都是那些網(wǎng)絡(luò),只是說我們重新去規(guī)劃了視頻分析的計算路徑,重新設(shè)計了整個框架。

大家可以看看結(jié)果。上面是7毫秒逐幀處理的,我們2016年比賽就是用的這個網(wǎng)絡(luò),后面我們經(jīng)過改進(jìn)之后,超過62幀每秒,而且它的結(jié)果更加可靠、更加平滑,因?yàn)樗褂昧硕鄮g的關(guān)聯(lián)。

商湯科技林達(dá)華:摒棄粗放式的計算機(jī)視覺研究
商湯科技林達(dá)華:摒棄粗放式的計算機(jī)視覺研究

商湯也在做自動駕駛,需要對駕駛過程中的場景自動地進(jìn)行理解和語義分割,這也是一個非常成熟的領(lǐng)域。但大家一直沒關(guān)注到點(diǎn)子上,大家關(guān)注的是分割的準(zhǔn)確率,像素級的準(zhǔn)確率,這是沒有意義的。我們真正做自動駕駛,關(guān)心的是人在你車前時,你能以多快的速度判斷出有個人在那里,然后做出緊急處理。所以在自動駕駛的場景,判斷的效率、判斷的速度是非常重要的。之前的方法處理一幀要100多毫秒,如果真有一個人出現(xiàn)在車前面,是來不及做出反應(yīng)的。

利用剛才所說的方法,我們重新改造了一個模型,充分地使用了幀與幀之間的聯(lián)系,我們可以把每一幀處理的效能從600毫秒降低到60毫秒,大幅度地提高了這個技術(shù)對于突發(fā)情景響應(yīng)的速度。這里面其實(shí)也用到了剛才類似的方法,技術(shù)細(xì)節(jié)我就不說了。

剛才說到如何提高效率,接下來談?wù)勅绾谓档蛿?shù)據(jù)成本。

人工智能是先有人工才有智能,有多少人工才有多少智能。人工智能有今天的繁榮,不能忘記背后默默奉獻(xiàn)的成千上萬的數(shù)據(jù)標(biāo)注人員。今天商湯有近800名標(biāo)注員在日夜不斷地標(biāo)注數(shù)據(jù),一些大公司的標(biāo)注團(tuán)隊更是多達(dá)上萬人,這也是一塊巨大的成本。

如何降低數(shù)據(jù)標(biāo)注的成本,是我們每天都在思考的事情。既然很多東西沒法通過人工標(biāo)注,是否可以換個思路,從數(shù)據(jù)、場景中尋找它本身就蘊(yùn)含的標(biāo)注信息?

下圖展示了我們?nèi)ツ甑囊豁椦芯砍晒?,這一成果發(fā)表在CVPR上,它嘗試了一種全新的學(xué)習(xí)方式。過去圖片的標(biāo)注成本非常高,每張圖片不僅要標(biāo)注,還要把目標(biāo)物體框出來。比如學(xué)習(xí)識別動物,需要人工把動物標(biāo)出來。我們小時候?qū)W習(xí)辨認(rèn)動物的過程不是這樣的,不是老師給我一個帶框的圖片去學(xué)習(xí),而是通過看《動物世界》學(xué)習(xí)的。這促使我產(chǎn)生了一個想法:能否讓模型通過看《動物世界》,把所有動物識別出來?紀(jì)錄片中有字幕,如果把它跟視覺場景聯(lián)系在一起,模型是否就能自動學(xué)習(xí)?為此我們設(shè)計了框架,建立起視覺與文本之間的聯(lián)系,最后得出了下圖中的結(jié)果。

商湯科技林達(dá)華:摒棄粗放式的計算機(jī)視覺研究

下圖是我們在沒有任何標(biāo)注和人工干預(yù)的情況下,靠看《動物世界》和《國家地理》雜志,能夠精確識別的幾十種動物。

商湯科技林達(dá)華:摒棄粗放式的計算機(jī)視覺研究

此外,做人臉識別也需要標(biāo)注大量人臉數(shù)據(jù)。其中有一些數(shù)據(jù),比如我們的家庭相冊,這些相冊雖然沒有標(biāo)注,但卻蘊(yùn)含很多信息。

大家看下面這張圖,這是電影《泰坦尼克號》中的一些場景。左上角這個場景,如果光看人臉很難認(rèn)出這兩個人是誰。再看右上角第一個場景,我們可以認(rèn)出左邊這個人是Rose,但右邊這個穿西裝的人還是看不清。如果我們能識別出電影背后的場景,就會發(fā)現(xiàn)Jack和Rose經(jīng)常出現(xiàn)在同一個場景?;谶@種社交互動信息,我們可以推斷,那個穿黑西裝的男子可能是Jack。這樣一來,在不用標(biāo)注人臉的情況下,我們就獲取了大量有意義的數(shù)據(jù)。

商湯科技林達(dá)華:摒棄粗放式的計算機(jī)視覺研究

我們還把這項技術(shù)用到了視頻監(jiān)控領(lǐng)域:一個人從深圳的街道這頭走到那頭,人臉圖像經(jīng)常會發(fā)生變化,但只要能追蹤到他的軌跡,我們就能判斷所拍攝到的人臉屬于同一個人,這對訓(xùn)練人臉模型是非常寶貴的信息。這項成果剛剛發(fā)表在了CVPR的論文中。

最后談?wù)勝|(zhì)量。

人工智能的最終目的是為生活帶來便利,提高生活質(zhì)量。但最近幾年人工智能的發(fā)展好像步入了誤區(qū),認(rèn)為人工智能的質(zhì)量和準(zhǔn)確率掛鉤。我覺得人工智能的質(zhì)量是多方面、多層次的,不僅僅是準(zhǔn)確率。

給大家看幾個例子?!翱磮D說話”是近幾年特別火的領(lǐng)域,即向計算機(jī)展示一張圖片,讓它自動生成描述。下圖是我們用最新方法得出的結(jié)果。

商湯科技林達(dá)華:摒棄粗放式的計算機(jī)視覺研究

大家發(fā)現(xiàn),我們向這個最好的模型展示三張不同的圖片,它會說同一句話,這句話在標(biāo)準(zhǔn)測試中的得分非常高,沒有任何問題。但我們把它和人類的描述放在一起后發(fā)現(xiàn),人類不是這樣說話的。人類描述一張圖片的時候,即使面對同一張圖片,不同人的表述是不一樣的。也就是說,人工智能在追求識別準(zhǔn)確度的時候忽略了其他的品質(zhì),包括語言的自然性和圖片的特征。

為了解決這個問題,去年我們提出了一個新方法。它不再把內(nèi)容描述看成翻譯問題,而是把它當(dāng)做一個概率采樣問題。它承認(rèn)描述的多樣性,承認(rèn)每個人看到同一張圖片會說不同的話。我們希望把這個采樣過程學(xué)習(xí)出來。關(guān)于這個模型的細(xì)節(jié),大家可以查閱相關(guān)論文。這里只展示結(jié)果:針對同樣三張圖片,模型生成了三句更生動、更能描述圖片特征的語句。

商湯科技林達(dá)華:摒棄粗放式的計算機(jī)視覺研究

我們再發(fā)散延伸一下:既然AI模型能生成一句話,那么是不是也能生成一段動作?下圖展示了我們的一項最新研究,很多AI公司都在做這方面的研究,讓AI生成一段生動的舞蹈。下面是一些簡單的動作,這些動作都是計算機(jī)自動生成的,不是我們用程序描述出來的。

商湯科技林達(dá)華:摒棄粗放式的計算機(jī)視覺研究

最后,對前面的分享做一個總結(jié)。過去幾年,人工智能和深度學(xué)習(xí)都取得了突飛猛進(jìn)的發(fā)展,這種發(fā)展既體現(xiàn)在標(biāo)準(zhǔn)數(shù)據(jù)集上的準(zhǔn)確率提升,也體現(xiàn)在商業(yè)場景的落地。但回顧這一段發(fā)展歷程,我們發(fā)現(xiàn),朝著準(zhǔn)確率高歌猛進(jìn)的過程中我們也遺忘了很多東西。我們的效率是否足夠高?我們是否在透支數(shù)據(jù)標(biāo)注的成本?我們訓(xùn)練出的模型是否能夠滿足現(xiàn)實(shí)生活對品質(zhì)的要求?從這些角度來看,我覺得我們才剛剛起步。雖然我們實(shí)驗(yàn)室和世界上許多其他實(shí)驗(yàn)室取得了一些重要進(jìn)展,但我們?nèi)匀惶幵谄鸩诫A段,前面還有很長的路要走。以上,希望與大家共勉,謝謝!

以下是問答環(huán)節(jié)的精彩內(nèi)容:

提問:我想知道,商湯在基礎(chǔ)研發(fā)和產(chǎn)品落地方面是如何進(jìn)行資源分配的?

林達(dá)華: 這個問題非常好。我認(rèn)為這不是一個簡單的分配問題,而是一個正循環(huán)的過程。我們前線的同事會接觸很多具體的落地場景,從場景中發(fā)現(xiàn)問題。我前面提到的很多問題都是他們從落地場景中發(fā)現(xiàn)的,這些問題可以為學(xué)術(shù)界提供不一樣的視角。前線的同事受制于產(chǎn)品落地的壓力,無法解決這些問題,這些問題就會轉(zhuǎn)移到實(shí)驗(yàn)室,做長期的技術(shù)探討。探討的結(jié)果最終又會反哺產(chǎn)品落地。這使得商湯的技術(shù)具有領(lǐng)先和超前性,我們不僅僅跟友商拼數(shù)據(jù)和計算資源,還有技術(shù)上領(lǐng)先的視角。這就是我們基礎(chǔ)研究部門和前線產(chǎn)品部門之間的互動關(guān)系。

提問:cv廠商和傳統(tǒng)安防廠商在技術(shù)上合作是不是一種趨勢?合作模式是“AI+安防”還是“安防+AI”?

林達(dá)華: 傳統(tǒng)安防廠商提供的是集成解決方案和攝像頭,過去他們不怎么涉及AI技術(shù)。而商湯是從一個實(shí)驗(yàn)室發(fā)展起來的,是從學(xué)術(shù)做起,然后慢慢走向落地。現(xiàn)在cv廠商和傳統(tǒng)安防廠商都在朝技術(shù)落地的方向走,大家交匯在了一起。所以我認(rèn)為,傳統(tǒng)安防廠商和掌握先進(jìn)AI技術(shù)的公司、實(shí)驗(yàn)室深度合作是一種重要趨勢。

但中間也存在風(fēng)險:一邊是從應(yīng)用端往前走,一邊是從技術(shù)端往后走,大家都想占領(lǐng)技術(shù)上的制高點(diǎn)。這需要大家建立一種信任和共贏機(jī)制,只有這樣合作才能長久。

提問:在深度學(xué)習(xí)大行其道的環(huán)境下,傳統(tǒng)的機(jī)器學(xué)習(xí)方法還有沒有研究的價值?

林達(dá)華: 我在學(xué)術(shù)會議和公開場合演講時經(jīng)常被問到這個問題。我覺得大家不要把深度學(xué)習(xí)看成一種全世界通吃的方法,某種意義上它是一種新的研究模式。我們最終面對場景和應(yīng)用時,還是要提出一套解決問題的方案。深度學(xué)習(xí)的建模能力非常強(qiáng),但它也有短板。比如我們面對一個復(fù)雜問題,涉及不同設(shè)備間的交互和多個變量的建模,可能傳統(tǒng)的概率學(xué)習(xí)、隨機(jī)過程就能發(fā)揮作用。如果把它跟深度學(xué)習(xí)結(jié)合在一起,就能實(shí)現(xiàn)性能上的突破。

我回香港任教之前,有很長一段時間在研究統(tǒng)計學(xué)習(xí)和概率圖模型。那時候概率圖模型很郁悶,雖然它有很多數(shù)據(jù)基礎(chǔ),但使用基礎(chǔ)達(dá)不到數(shù)據(jù)需求。其實(shí)它是一個非常好的模型,可以讓我們對世界進(jìn)行深度建模。有了深度學(xué)習(xí)后,它們可以配合使用,把一些變量的簡單假設(shè)——比如高斯分布這樣的假設(shè)——切換成利用深度網(wǎng)絡(luò)構(gòu)造的模型。這樣一來,傳統(tǒng)模型就會得到升級迭代,為我們的具體問題和應(yīng)用提供更高效的解決方案。所以他們不是一種取代關(guān)系,而是結(jié)合的關(guān)系。近幾年的很多研究都呈現(xiàn)出這種趨勢,把傳統(tǒng)理念和方法用深度學(xué)習(xí)進(jìn)行武裝,最終得到了很好的效果。

提問:近年來圖像領(lǐng)域的深度學(xué)習(xí)遇到了一些瓶頸,而且短期來看也沒有突破性的進(jìn)展,您從學(xué)術(shù)角度怎么看待?

林達(dá)華: 其實(shí)我整個演講都在談這件事。我覺得大家要把追求的面稍微擴(kuò)大一些,機(jī)器學(xué)習(xí)的目標(biāo)不只是數(shù)據(jù),還有很多層面的研究值得我們探索。比如商湯過去做人臉識別只關(guān)注準(zhǔn)確率,但后來我們發(fā)現(xiàn)很多問題,包括時間成本、數(shù)據(jù)標(biāo)注、可靠性、模型壓縮等。這些之前的研究都沒有涉及,但現(xiàn)在成了一個非常大、非常有前景的領(lǐng)域。比如模型壓縮,之前并沒有這個需求,但我們在實(shí)際應(yīng)用過程中發(fā)現(xiàn)原來的方法解決不了問題,才想到能不能把模型壓縮一下。這些來源于現(xiàn)實(shí)的想法,開拓了近幾年一些新的研究方向。單從準(zhǔn)確率來看,目前確實(shí)已經(jīng)到了很高的水平,再往前走的空間不大。但在具體應(yīng)用中還有許多新的挑戰(zhàn),每一個挑戰(zhàn)都是一個研究方向,還有很大的研究空間。


向AI問一下細(xì)節(jié)
推薦閱讀:
  1. hadoop研究
  2. WebView研究

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI