溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

AI能寫論文了!華人本科生發(fā)明AI論文生成器

發(fā)布時(shí)間:2020-08-10 14:45:54 來源:ITPUB博客 閱讀:207 作者:dicksonjyl560101 欄目:互聯(lián)網(wǎng)科技

https://www.toutiao.com/a6694829950148542980/


AI能寫論文了!華人本科生發(fā)明AI論文生成器

【新智元導(dǎo)讀】 AI寫論文達(dá)到了幾近完善的程度!倫斯勒理工學(xué)院大四學(xué)生王清昀等研究人員最新開發(fā)PaperRobot,能夠從產(chǎn)生點(diǎn)子、寫摘要、寫結(jié)論到寫“未來研究”,甚至它還能為你寫出下一篇論文的題目。

還在為寫論文想不出好點(diǎn)子而發(fā)愁嗎?

不用愁了!倫斯勒理工學(xué)院、斯坦福大學(xué)等的研究人員最新開發(fā)的PaperRobot,提供從 產(chǎn)生idea、寫摘要、寫結(jié)論到寫“未來研究”的一站式服務(wù) !甚至它還能為你寫出下一篇論文的題目,從此 論文無憂

這篇題為 PaperRobot: Incremental Draft Generation of Scientific Ideas 的論文已被ACL 2019錄取,近日在推特上引起大量關(guān)注。

AI能寫論文了!華人本科生發(fā)明AI論文生成器

谷歌大腦科學(xué)家David Ha(hardmaru)評價(jià):“ May a thousand (incremental) ideas bloom. 

大四華人一作發(fā)明AI「論文生成」神器

論文作者來自倫斯勒理工學(xué)院、DiDi實(shí)驗(yàn)室、伊利諾伊大學(xué)香檳分校、北卡羅來納大學(xué)教堂山分校和斯坦福大學(xué)。其中,第一作者 Qingyun Wang (王清昀) 是倫斯勒理工學(xué)院的大四本科生(今年8月開始講進(jìn)入U(xiǎn)IUC讀計(jì)算機(jī)科學(xué)PhD)。

這不是王清昀同學(xué)第一次研究AI寫論文,早在2017年他的“ 論文摘要生成 ”研究也曾引起熱議。王清昀同學(xué)中學(xué)在杭州第二中學(xué)就讀,從小就是“發(fā)明小達(dá)人”,取得專利的發(fā)明就有2個(gè)。

AI能寫論文了!華人本科生發(fā)明AI論文生成器

論文地址:

https://arxiv.org/pdf/1905.07870.pdf

PaperRobot是怎樣自動寫論文的呢?簡單來說,它從以前的論文中提取背景知識圖譜,產(chǎn)生新的科學(xué)思想,最后寫出論文的關(guān)鍵要素。

它的工作流程包括:

(1)對目標(biāo)領(lǐng)域的 大量人類撰寫的論文 進(jìn)行深入的理解,并 構(gòu)建全面的背景知識圖 (knowledge graphs, KGs);

(2)通過結(jié)合從圖注意力(graph attention)和上下文文本注意力(contextual text attention), 從背景知識庫KG中預(yù)測鏈接,從而產(chǎn)生新想法 ;

(3)基于memory-attention網(wǎng)絡(luò), 逐步寫出一篇新論文的一些關(guān)鍵要素 :從輸入標(biāo)題和預(yù)測的相關(guān)實(shí)體,生成一篇 摘要 ;從摘要生成 結(jié)論 和未來 工作 ;最后從未來工作生成 下一篇論文的標(biāo)題 。

研究者對這個(gè)AI論文生產(chǎn)機(jī)進(jìn)行了圖靈測試:

PaperRobot生成生物醫(yī)學(xué)領(lǐng)域論文的摘要、結(jié)論和未來工作部分,同時(shí)展示人類寫作的同領(lǐng)域論文,要求一名生物醫(yī)學(xué)領(lǐng)域的專家進(jìn)行比較。結(jié)果顯示,分別就摘要、結(jié)論和未來工作部分而言,在30%、24%和12%的情況下人類專家認(rèn)為AI生成的比人類寫作的更好。

至于這批AI研究人員為什么選擇生物醫(yī)學(xué)領(lǐng)域來做實(shí)驗(yàn),原因很簡單:生物醫(yī)學(xué)論文很多,非常多!他們嘗試了用自己領(lǐng)域(NLP)來做實(shí)驗(yàn),結(jié)果并不理想(NLP的論文語料還不夠多)。

接下來,新智元對這篇論文進(jìn)行了譯介:

簡單3步,圖網(wǎng)絡(luò)+注意力機(jī)制,AI寫論文甚至比人類好

我們的目標(biāo)是打造一個(gè)論文機(jī)器人PaperRobot,來加速科學(xué)發(fā)現(xiàn)和生產(chǎn),它的主要任務(wù)如下。

閱讀現(xiàn)有的論文。

論文太多了。科學(xué)家們很難跟上井噴式的論文增長速度。例如,在生物醫(yī)學(xué)領(lǐng)域,平均每年有超過50萬篇論文被發(fā)表,僅2016年就有超過120萬篇新論文發(fā)表,總論文數(shù)超過2600萬篇(Van Noorden, 2014)。

然而,人類的閱讀能力幾乎是不變的。2012年,美國科學(xué)家估計(jì),他們平均每年只能閱讀264篇論文(5000篇論文中只讀1篇),這個(gè)數(shù)字與他們在2005年進(jìn)行的同樣調(diào)查中報(bào)告的數(shù)據(jù)一致。

PaperRobot自動閱讀所有可用的論文,構(gòu)建背景知識圖(KG),其中節(jié)點(diǎn)表示實(shí)體/概念,邊表示這些實(shí)體之間的關(guān)系。

在本研究中,我們采用的是大量已發(fā)表的生物醫(yī)學(xué)論文,提取實(shí)體及其關(guān)系來構(gòu)建背景知識圖。我們應(yīng)用了Wei等人(2013)中提出的實(shí)體和關(guān)系提取系統(tǒng),提取了3類實(shí)體(疾病,化學(xué)和基因)。然后,我們進(jìn)一步將所有實(shí)體鏈接到CTD(比較遺傳毒理學(xué)數(shù)據(jù)庫),提取出133個(gè)子類型的關(guān)系,如標(biāo)記/機(jī)制、治療和提高表達(dá)。

圖3是一個(gè)示例。

AI能寫論文了!華人本科生發(fā)明AI論文生成器

圖3:生物醫(yī)學(xué)知識提取與鏈接預(yù)測示例(虛線表示預(yù)測的鏈接)

產(chǎn)生新的想法

科學(xué)發(fā)現(xiàn)可以看作是在知識圖中創(chuàng)建新的節(jié)點(diǎn)或鏈接(links)。

創(chuàng)建新節(jié)點(diǎn)通常意味著通過一系列真實(shí)的實(shí)驗(yàn)室實(shí)驗(yàn)發(fā)現(xiàn)新的實(shí)體(如新的蛋白質(zhì)),這對PaperRobot來說可能太難了。但是,使用背景知識圖作為起點(diǎn),自動地創(chuàng)建新的邊是更容易的。

Foster等人(2015)的研究表明,640萬篇生物醫(yī)學(xué)和化學(xué)論文中,60%以上是增量式的工作。這啟發(fā)我們通過預(yù)測背景知識圖(KGs)中的新鏈接來自動地增加新想法和新假設(shè)。

我們提出了一種新的實(shí)體表示方法,結(jié)合了KG結(jié)構(gòu)和非結(jié)構(gòu)化上下文文本來進(jìn)行鏈接預(yù)測。

如上面的圖3所示,虛線表示了預(yù)測的鏈接,由于鈣和鋅在上下文文本信息和圖結(jié)構(gòu)上都相似,我們預(yù)測了鈣的兩個(gè)新鄰居:CD14分子和神經(jīng)纖毛蛋白2(neuropilin 2),它們是初始背景知識圖中鋅的鄰居。

寫一篇關(guān)于新想法的新論文

最后一步是把新想法清晰地傳達(dá)給讀者,這是一件非常困難的事情;事實(shí)上,許多科學(xué)家都是糟糕的作家(Pinker, 2014)。

使用一個(gè)新穎的memory-attention網(wǎng)絡(luò)架構(gòu),基于輸入的標(biāo)題和預(yù)測的相關(guān)實(shí)體,PaperRobot自動寫出了一篇新論文的摘要,然后進(jìn)一步寫出了結(jié)論部分和相關(guān)工作部分,最后,為后續(xù)論文寫了新標(biāo)題。

這個(gè)流程如圖1所示。

AI能寫論文了!華人本科生發(fā)明AI論文生成器

圖1: PaperRobot論文寫作流程

我們選擇生物醫(yī)學(xué)作為我們的目標(biāo)領(lǐng)域,因?yàn)檫@一領(lǐng)域有大量的可用論文。

圖靈測試表明,PaperRobot生成的輸出內(nèi)容有時(shí)比人工編寫的內(nèi)容更受歡迎;而且大多數(shù)論文摘要只需要領(lǐng)域?qū)<疫M(jìn)行少量編輯,就可以變得信息豐富、條理清晰。

讓我們看看AI寫的摘要:

Background:   Snail  is a multifunctional protein that plays an important role in the pathogenesis of  prostate cancer . However, it has been shown to be associated with poor prognosis. The purpose of this study was to investigate the effect of negatively on the expression of  maspin  in  human nasopharyngeal carcinoma  cell lines. Methods: Quantitative real-time PCR and western blot analysis were used to determine whether the demethylating agent was investigated by quantitative  RT-PCR  (qRT-PCR) and  Western blotting . Results showed that the binding protein plays a significant role in the regulation of  tumor  growth and progression.

PaperRobot的整體框架如圖2所示。

AI能寫論文了!華人本科生發(fā)明AI論文生成器

表1顯示了從整個(gè)過程生成的示例。

AI能寫論文了!華人本科生發(fā)明AI論文生成器

表1:人類寫的論文與AI系統(tǒng)寫的論文的比較(粗體字表示與主題相關(guān)的實(shí)體;斜體表示人工編輯)

(關(guān)于每個(gè)步驟的算法的詳細(xì)介紹,請閱讀原始論文。)

實(shí)驗(yàn)過程及結(jié)果

數(shù)據(jù)收集

我們從PMC開放存取子集中收集了生物醫(yī)學(xué)論文。為人類書面論文引用一篇論文來構(gòu)建新標(biāo)題預(yù)測的ground truth,我們假設(shè)論文A的標(biāo)題是從論文B的“結(jié)論和未來工作”中生成的。我們從1,687,060篇論文中構(gòu)建了背景知識圖,其中包括30,483個(gè)實(shí)體和875,698個(gè)關(guān)系。表2所示為詳細(xì)數(shù)據(jù)統(tǒng)計(jì)。

AI能寫論文了!華人本科生發(fā)明AI論文生成器

表2 論文寫作統(tǒng)計(jì)結(jié)果

自動評估

以前的相關(guān)研究表明,自動評估長文本生成是一項(xiàng)重大挑戰(zhàn)。在故事生成之后,我們使用METEOR來量度文章主題與給定標(biāo)題的相關(guān)性,并使用困惑度(perplexity)來進(jìn)一步評估語言模型的質(zhì)量。

我們的模型的困惑度評分是基于在PubMed上的論文(500,000篇題材,50,000篇摘要,50,000個(gè)結(jié)論和未來工作)中學(xué)習(xí)的語言模型評出的,這些論文在我們的實(shí)驗(yàn)中沒有用于訓(xùn)練或測試。結(jié)果如表3所示。我們的框架優(yōu)于以前的所有方法。

AI能寫論文了!華人本科生發(fā)明AI論文生成器

表3 對診斷任務(wù)論文寫作的自動評估結(jié)果

圖靈測試

由生物醫(yī)學(xué)專家(非母語人士)和非專家(母語人士)對模型進(jìn)行圖靈測試。測試中要求每個(gè)人類對系統(tǒng)輸出的字符串和人類創(chuàng)作的字符串,并選出質(zhì)量更高的字符串。

AI能寫論文了!華人本科生發(fā)明AI論文生成器

表4 對模型的圖靈測試結(jié)果(%)。百分比表示人類裁判選擇我們的模型輸出結(jié)果的頻率。如果輸出字符串(如摘要)基于相同的輸入字符串(如標(biāo)題),輸入條件標(biāo)記為“相同”,否則標(biāo)記為“不同”。

可以看到,在專家的選擇中,PaperRobot生成的摘要入選率比人類撰寫的摘要入選率最多高出30%,“結(jié)論和未來工作”部分最多高24%,新標(biāo)題最多高出12%。領(lǐng)域內(nèi)專家的表現(xiàn)并未明顯優(yōu)于非專家,因?yàn)檫@兩類人傾向于關(guān)注不同方面:專家側(cè)重于內(nèi)容(實(shí)體,主題等),而非專家側(cè)重于語言。

人類后期編輯

為了測量PaperRobot作為寫作助手的有效性,我們在第一次迭代中隨機(jī)選擇了系統(tǒng)生成的50篇論文摘要,并要求領(lǐng)域內(nèi)的專家對其進(jìn)行編輯,直到專家認(rèn)為編輯后摘要具有足夠的信息性和連貫性。 然后由BLEU,ROUGE和TER通過比較人類編輯前后的摘要質(zhì)量給出評分,如表5所示。專家花了大約40分鐘。完成了50篇摘要的編輯。

AI能寫論文了!華人本科生發(fā)明AI論文生成器

一些后期編輯后的示例。可以看到大多數(shù)編輯內(nèi)容都是形式上的變化。

華人本科生一作,發(fā)明小達(dá)人

AI能寫論文了!華人本科生發(fā)明AI論文生成器

論文一作Qingyun Wang (王清昀)是倫斯勒理工學(xué)院的大四本科生,主修計(jì)算機(jī)科學(xué)與數(shù)學(xué)雙學(xué)位。今年8月開始他將在伊利諾伊大學(xué)厄巴納香檳分校讀博,主修計(jì)算機(jī)科學(xué)。

王清昀對自然語言處理很感興趣,專研自然語言生成、信息提取和對話系統(tǒng),本科期間已發(fā)表多篇相關(guān)論文。

AI能寫論文了!華人本科生發(fā)明AI論文生成器

令人意外的是,王清昀簡歷中還列舉了2項(xiàng)專利,分別是“遙控方便桌”和“家用廢油制皂裝置”,都是中學(xué)時(shí)期取得的,其中《遙控方便桌》獲得第27屆浙江省創(chuàng)新大賽一等獎。


AI能寫論文了!華人本科生發(fā)明AI論文生成器

中學(xué)時(shí)期的王清昀同學(xué)

看來,王同學(xué)從小就是發(fā)明達(dá)人啊。AI寫論文機(jī)不用說也是一大造福人類的好發(fā)明,期待王同學(xué)繼續(xù)改進(jìn)。

參考鏈接:

https://arxiv.org/pdf/1905.07870.pdf

http://www.hz2hs.net.cn/news/allinfo/1251.html


向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI