別再SOTA了，那叫“微調(diào)”！Science發(fā)文炮轟論文灌水

發(fā)布時間：2020-08-15 21:13:52 來源：ITPUB博客閱讀：166 作者：AIBigbull2050 欄目：互聯(lián)網(wǎng)科技

2020-06-06 14:58:59

金磊發(fā)自凹非寺
量子位報道 | 公眾號 QbitAI

AI算法的發(fā)展，真有那么迅猛嗎？

為了一探究竟，來自MIT的研究人員，便對 81種AI算法做了橫測，結(jié)果令人大跌眼鏡：

沒有明確證據(jù)表明，這些算法在10年內(nèi)，對任務(wù)效果有明顯改善。

別再SOTA了，那叫“微調(diào)”！Science發(fā)文炮轟論文灌水

針對類似的問題，Science最近也發(fā)文表示：

人工智能在某些領(lǐng)域的進(jìn)步引人注目，但這并不是真正的進(jìn)步。

那么，這到底是怎么一回事？

“是微調(diào)，不是核心創(chuàng)新”

MIT研究人員橫測的對象，是81種剪枝算法。

這類算法簡單來說，就是對神經(jīng)網(wǎng)絡(luò)的連接做“修修剪剪”，以此來提高效率。

然而，這種算法的發(fā)展現(xiàn)狀，正如Science發(fā)文作者M(jìn)atthew Hutson所說：

很多科研工作者就在此之上，做了些許“微調(diào)”，然后就宣稱自己的算法具有優(yōu)勢。

因此，MIT的研究人員便對這些算法做了元分析，還提出了一種框架—— ShrinkBench，用來促進(jìn)剪枝算法的標(biāo)準(zhǔn)化評估。

真正的好算法，需要經(jīng)得起考驗，那么結(jié)果又如何呢？

第一輪考驗：剪枝 vs 架構(gòu)

研究人員基于ImageNet，繪制了剪枝后模型的準(zhǔn)確率和壓縮/加速水平，以及沒有做過剪枝、不同架構(gòu)的相同指標(biāo)，結(jié)果如下圖所示。

不難看出，一個給定架構(gòu)經(jīng)過剪枝后，可以改善其時間/空間與精度之間的權(quán)衡，有時候還可以提高精度。

但剪枝的效果，通常不如換個架構(gòu)效果來得好。

第二輪考驗：“同行”算法比較

這一維度的考慮，是因為研究人員發(fā)現(xiàn)，許多工作都高舉“SOTA”旗幟，然而比較的對象卻不全。

很明顯的現(xiàn)象就是，缺少與2010年之前提出的算法的比較，甚至都沒有跟其它號稱SOTA的算法做對比，如下圖所示。

第三輪考驗：數(shù)據(jù)集和架構(gòu)的組合

在81篇論文中，ImageNet和VGG-16的組合最為常見，并且，在前六種最常見的組合中，有三種涉及MNIST。

但MNIST與其它主流圖像分類數(shù)據(jù)集有很大的區(qū)別：它的圖像是灰度的，大部分是由0組成，用簡單的模型進(jìn)行分類，準(zhǔn)確率就可以達(dá)到99%以上。

第四輪考驗：度量指標(biāo)

還有五花八門的度量指標(biāo)，啥也不說了，直接上圖。

當(dāng)然，還有諸如數(shù)據(jù)預(yù)處理、調(diào)參策略等一系列問題，都會導(dǎo)致結(jié)果的不同。

研究一作Davis Blalock表示：

這些改進(jìn)都是所謂的“微調(diào)”，而不是科研人員聲稱的“核心創(chuàng)新”，甚至有些改進(jìn)方法可能根本就不存在。

于是乎，MIT的研究人員便開發(fā)了一套方便開發(fā)、標(biāo)準(zhǔn)化評價神經(jīng)網(wǎng)絡(luò)的剪枝方法。

ShrinkBench提供了標(biāo)準(zhǔn)化和可擴(kuò)展的功能，可以用于訓(xùn)練、剪枝、微調(diào)、計算度量和繪圖，而且都是使用標(biāo)準(zhǔn)化的預(yù)訓(xùn)練模型和數(shù)據(jù)集。

正如另一位作者John Guttag所說：

如果你不能衡量某種東西，就很難讓它往好的方向發(fā)展。

好了，現(xiàn)在要是再想在剪枝算法上，稍微搞個小進(jìn)展就水一篇論文，可能不再那么容易了。

Science發(fā)文炮轟水論文

最近，Science也針對“水論文”一事發(fā)表文章，認(rèn)為人工智能領(lǐng)域中的許多分支，其發(fā)展都是不穩(wěn)定的：

2019年，對搜索引擎中使用的信息檢索算法進(jìn)行的一項元分析，得出了一個“高水位線”(high-water mark)，然而，它早在2009年就有了；
同樣是2019年，另外一項研究復(fù)現(xiàn)了7個神經(jīng)網(wǎng)絡(luò)推薦系統(tǒng)，結(jié)果，其中6個系統(tǒng)的表現(xiàn)，還沒有多年前開發(fā)的更簡單的非神經(jīng)網(wǎng)絡(luò)算法好；
今年2月，卡內(nèi)基梅隆大學(xué)的計算機(jī)科學(xué)家Zico Kolter在arXiv發(fā)表論文，他發(fā)現(xiàn)早期的對抗訓(xùn)練方法PGD，只需要用簡單的小技巧增強(qiáng)一下，就能達(dá)到目前所謂更新、更復(fù)雜方法的效果；
今年3月，康奈爾大學(xué)的計算機(jī)科學(xué)家Kevin Musgrave，在arXiv上發(fā)表了一篇論文研究了損失函數(shù)，在一項涉及圖像檢索的任務(wù)中，他對其中十幾個算法進(jìn)行了平等的比較，結(jié)果發(fā)現(xiàn)，與這些科研工作者的說辭恰巧相反，自2006年以來，準(zhǔn)確率就沒有提高過。

正如Musgrave表示：

炒作浪潮一直存在。

反觀那些經(jīng)久不衰的算法，像 LSTM，自1997年被提出后，在語言翻譯任務(wù)中取得了重大突破。

如果LSTM得到適當(dāng)?shù)挠?xùn)練，它的性能就能和20年后(現(xiàn)在)的算法相當(dāng)。

類似的還有像2014年提出的 GAN，大幅提高了生成圖像的能力。在2018年的一篇報告稱，只要有足夠的計算量，原有的GAN方法可以與后來的方法相媲美。

對此，Kolter認(rèn)為，研究人員應(yīng)當(dāng)熱衷于開創(chuàng)全新的算法，讓這個新算法達(dá)到SOTA效果，而不是對現(xiàn)有算法做調(diào)整。

那么，如今這種論文灌水背后的原因，又是什么呢？

其中一個因素，便是MIT研究人員所指出的評估標(biāo)準(zhǔn)問題——數(shù)據(jù)集不同、調(diào)整方法不同、性能指標(biāo)和基線都不同，這種比較是不可行的。

而另外一個原因，便是 AI領(lǐng)域的爆炸性增長，論文數(shù)量遠(yuǎn)超有經(jīng)驗的審稿人數(shù)，評審人員應(yīng)當(dāng)堅持跟一個合理、科學(xué)的基準(zhǔn)，做更好的比較。

比論文灌水更可怕的，是造假

以為學(xué)術(shù)亂象只有這些？

不，還有一股“造假風(fēng)”。

5月20日，國外網(wǎng)友便曝出了一個學(xué)術(shù)造假大事件：

8篇文章，不同作者，不同醫(yī)院，不同癌癥種類，不同蛋白表達(dá)，愣是完全一樣的結(jié)果，發(fā)了8篇論文。

UAB醫(yī)學(xué)院糖尿病中心博士后研究員、營養(yǎng)學(xué)博士，微博網(wǎng)友“晨光us”對此表示：

如此喪心病狂的造假，簡直讓人看得窒息。

然而，更令人悲哀的是，論文作者全部來自中國……

而且從文章署名來看，從一線醫(yī)生到主任副主任醫(yī)師、醫(yī)院副院長，還有多篇是國家自然科學(xué)基金資助。

如此造假，簡直不簡單。

網(wǎng)友也表示：

突破了我對學(xué)術(shù)造假的所有認(rèn)知。

無獨有偶，前不久在知乎中還曝出南京郵電大學(xué)教授，三年半發(fā)表300篇IEEE論文，一時成為熱議話題。

其弟子“黃同學(xué)”論文造假、冒充北大學(xué)生，也一并上了熱搜。

……

如此學(xué)術(shù)亂象，你怎么看？

傳送門：

ShrinkBench項目地址：
https://github.com/jjgo/shrinkbench

ShrinkBench論文地址：
https://arxiv.org/abs/2003.03033

參考鏈接：

https://www.sciencemag.org/news/2020/05/eye-catching-advances-some-ai-fields-are-not-real

https://weibo.com/roger1130?referflag=0000015010&from=feed&loc=nickname&is_hot=1#_rnd1591086111501

https://twitter.com/MicrobiomDigest/status/1266140721716719616

https://www.zhihu.com/question/397548354/answer/1248933002

https://www.toutiao.com/i6835125799020921355/

向AI問一下細(xì)節(jié)

別再SOTA了，那叫“微調(diào)”！Science發(fā)文炮轟論文灌水

金磊 發(fā)自 凹非寺 量子位 報道 | 公眾號 QbitAI

“是微調(diào)，不是核心創(chuàng)新”

第一輪考驗：剪枝 vs 架構(gòu)

第二輪考驗：“同行”算法比較

第三輪考驗：數(shù)據(jù)集和架構(gòu)的組合

第四輪考驗：度量指標(biāo)

Science發(fā)文炮轟水論文

比論文灌水更可怕的，是造假

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽

別再SOTA了，那叫“微調(diào)”！Science發(fā)文炮轟論文灌水

金磊發(fā)自凹非寺
量子位報道 | 公眾號 QbitAI

“是微調(diào)，不是核心創(chuàng)新”

比論文灌水更可怕的，是造假