溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

“翟天臨”克星?哥本哈根大學(xué)開發(fā)反“槍手”AI,識(shí)別作業(yè)代寫準(zhǔn)確率接近90%

發(fā)布時(shí)間:2020-08-07 14:07:48 來(lái)源:ITPUB博客 閱讀:147 作者:大數(shù)據(jù)文摘 欄目:互聯(lián)網(wǎng)科技

“翟天臨”克星?哥本哈根大學(xué)開發(fā)反“槍手”AI,識(shí)別作業(yè)代寫準(zhǔn)確率接近90%

大數(shù)據(jù)文摘出品

編譯:曹培信、周家樂(lè)

隨著畢業(yè)季的鄰近,翟天臨又一次被網(wǎng)友們罵上了微博熱搜。

翟的論文抄襲事件過(guò)后,許多高校都加強(qiáng)了論文評(píng)審標(biāo)準(zhǔn),更有嚴(yán)格的院校連非畢業(yè)生的論文結(jié)課都要查重。

許多深夜改論文的學(xué)生于是結(jié)伴來(lái)到微博@翟天臨:你睡了嗎?你怎么睡得著?我還在改論文!你配睡覺(jué)嗎!

“翟天臨”克星?哥本哈根大學(xué)開發(fā)反“槍手”AI,識(shí)別作業(yè)代寫準(zhǔn)確率接近90%

“翟天臨”克星?哥本哈根大學(xué)開發(fā)反“槍手”AI,識(shí)別作業(yè)代寫準(zhǔn)確率接近90%

圖片來(lái)自微博

翟天臨自己可能也沒(méi)有想到,竟然陰差陽(yáng)錯(cuò)對(duì)中國(guó)高校教育做出了卓越的貢獻(xiàn)。

然而,也有學(xué)渣表示,以后查重這么嚴(yán),抄襲是不可能了,只能找人代寫了。

早有媒體曝光過(guò)學(xué)術(shù)圈“論文代寫”的產(chǎn)業(yè)鏈。據(jù)第一財(cái)經(jīng)報(bào)道,相關(guān)淘寶搜索的本科文科論文每千字200元左右。

“翟天臨”克星?哥本哈根大學(xué)開發(fā)反“槍手”AI,識(shí)別作業(yè)代寫準(zhǔn)確率接近90%

不過(guò),這條“學(xué)術(shù)歪路”也要被AI堵死了。近日,哥本哈根大學(xué)的研究人員的最新研究稱,剛剛開發(fā)出一款“反槍手代寫”的AI系統(tǒng)。

這款系統(tǒng)意圖通過(guò)智能寫作分析技術(shù),來(lái)檢測(cè)論文作弊。可以根據(jù)你的寫作習(xí)慣,確定論文究竟是你自己寫的作業(yè)還是由他人代寫。

根據(jù)對(duì)13萬(wàn)份書面作業(yè)的分析,科學(xué)家們可以以近90%的準(zhǔn)確率檢測(cè)出學(xué)生究竟是自己寫的作業(yè),還是由代筆撰寫。

基本上可以達(dá)到“代寫”作業(yè)一抓一個(gè)準(zhǔn)的結(jié)果了。

高中代寫成風(fēng),哥本哈根大學(xué)的神操作

這套針對(duì)學(xué)生論文作弊行為的研究,已經(jīng)在哥本哈根大學(xué)計(jì)算機(jī)科學(xué)系(DIKU)進(jìn)行了幾年了,最初,這款研究是針對(duì)丹麥的高中生進(jìn)行的。

在丹麥,高中目前主要使用的作業(yè)查重平臺(tái)叫做Lectio,可以用來(lái)檢查學(xué)生的作業(yè)中是否有段落是直接復(fù)制先前提交的作業(yè)的。

然而,隨著各類線上服務(wù)平臺(tái)的盛行,在丹麥高中生中,找人代寫作業(yè)變得越發(fā)容易。

面對(duì)這種情況,學(xué)校一直缺乏有效的檢測(cè)手段。

學(xué)習(xí)軌跡項(xiàng)目或“SRP”(丹麥語(yǔ)的“Studie Retnings Projekt”)是丹麥高中畢業(yè)生的必修跨學(xué)科課程,也是一項(xiàng)非常重要的書面作業(yè)。在這個(gè)項(xiàng)目中的作弊現(xiàn)象尤其引人注目。

由于SRP對(duì)于畢業(yè)十分重要,很多學(xué)生們?cè)诘湼?jìng)拍網(wǎng)站Den Bla Avis上發(fā)布他們的寫作任務(wù)來(lái)找人代寫。

和中國(guó)的老師和大多數(shù)查重系統(tǒng)一樣,Lectio只能查重,沒(méi)法判斷一份作業(yè)是否是找人代寫的。

哥本哈根大學(xué)的一些院系一直和很多高中有著SRP項(xiàng)目的合作,深受代寫作弊行為之害,一直在探究解決之道。

這所大學(xué)的計(jì)算機(jī)科學(xué)系DABAI項(xiàng)目組決定教教這些偷懶的高中生們“做人”。

DABAI(丹麥大數(shù)據(jù)分析驅(qū)動(dòng)創(chuàng)新中心)是一個(gè)成立于2016年的丹麥國(guó)家研究中心。除了研究機(jī)器學(xué)習(xí)的高效算法,這個(gè)研究小組本來(lái)就對(duì)學(xué)生教育特別關(guān)注。之前,他們?cè)芯苛恕皟?yōu)化學(xué)生的個(gè)性化學(xué)習(xí)”、“提高教師洞察力”等教育項(xiàng)目。

“翟天臨”克星?哥本哈根大學(xué)開發(fā)反“槍手”AI,識(shí)別作業(yè)代寫準(zhǔn)確率接近90%

名叫“槍手”的反槍手神器

這個(gè)防作弊程序被叫做Ghostwriter(槍手),它本質(zhì)上屬于一種基于機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)技術(shù)的一款文本分析程序。

項(xiàng)目組成員Stephan Lorenzen博士稱,這款程序可以比較該學(xué)生最近提交和以前提交的文章來(lái)識(shí)別寫作風(fēng)格的差異。

“程序會(huì)關(guān)注單詞長(zhǎng)度、句子結(jié)構(gòu)以及單詞的使用方式等諸多特征。例如,它會(huì)察覺(jué)‘for example’被寫成了‘ex’,還是‘e.g.,’?!?/span>

其數(shù)據(jù)集來(lái)自為丹麥高中提供Lectio平臺(tái)的MaCom公司,該公司覆蓋了丹麥90%以上的高中,他們?yōu)镚hostWriter項(xiàng)目的研究人員提供了13萬(wàn)份不同高中學(xué)生書面作業(yè)。

這個(gè)研究組認(rèn)為,這款產(chǎn)品非常具有實(shí)際效用,很多學(xué)校對(duì)于找出“論文究竟是誰(shuí)寫的”這個(gè)問(wèn)題有著越來(lái)越高的技術(shù)需求。

但Stephan Lorenzen博士也認(rèn)為,“在此之前,還需要認(rèn)真討論一下應(yīng)用這項(xiàng)技術(shù)所面臨的倫理問(wèn)題。我們不能把這個(gè)程序得到的結(jié)論作為判別是否作弊的唯一標(biāo)準(zhǔn),更應(yīng)該把它看作一份輔助性的證據(jù)。”

Ghostwriter是怎么工作的?

Ghostwriter程序使用Siamese 神經(jīng)網(wǎng)絡(luò)來(lái)區(qū)分不同文本的寫作風(fēng)格:通過(guò)大量數(shù)據(jù)的訓(xùn)練,學(xué)習(xí)不同寫作風(fēng)格的外在表現(xiàn)(representation),然后進(jìn)行比對(duì)。

這個(gè)項(xiàng)目分兩步來(lái)解決作者身份驗(yàn)證問(wèn)題。首先是解決了計(jì)算兩個(gè)文本之間寫作風(fēng)格相似性的問(wèn)題,主要通過(guò)使用Siamese網(wǎng)絡(luò)學(xué)習(xí)相似度函數(shù)s:T×T→[0,1]。其次是再解決作者A的驗(yàn)證問(wèn)題,通過(guò)比對(duì)未知作者文本X和已知是作者A的文本T之間的相似性。

在網(wǎng)絡(luò)方面,他們考慮使用不同的輸入通道考慮幾種不同的體系結(jié)構(gòu)(例如,char,word,POS-tags),最終確定了一種表現(xiàn)最佳的網(wǎng)絡(luò)架構(gòu):

“翟天臨”克星?哥本哈根大學(xué)開發(fā)反“槍手”AI,識(shí)別作業(yè)代寫準(zhǔn)確率接近90%

Best performing network

編碼部分包括一個(gè)字符嵌入(Embd),然后是兩個(gè)不用的卷積層,每個(gè)卷積層后面都有一個(gè)全局最大池化層(GMP)。

在比較部分,他們首先計(jì)算合并層中的編碼之間的絕對(duì)差值,然后,應(yīng)用4個(gè)密集層,每層有500個(gè)神經(jīng)元,最后使用具有兩個(gè)輸出的softmax層來(lái)進(jìn)行歸一化。

他們將數(shù)據(jù)集分為三份,T-train用于訓(xùn)練,T-val用于訓(xùn)練提前停止和selecting Cs,T-test僅用于估測(cè)試模型。

“翟天臨”克星?哥本哈根大學(xué)開發(fā)反“槍手”AI,識(shí)別作業(yè)代寫準(zhǔn)確率接近90%

經(jīng)過(guò)訓(xùn)練,模型的準(zhǔn)確率達(dá)到了87.5%。

“翟天臨”克星?哥本哈根大學(xué)開發(fā)反“槍手”AI,識(shí)別作業(yè)代寫準(zhǔn)確率接近90%

最后實(shí)現(xiàn)的功能就是,當(dāng)學(xué)生提交作業(yè)時(shí),該網(wǎng)絡(luò)會(huì)將其與以前的作業(yè)進(jìn)行比較。對(duì)于每個(gè)作業(yè),神經(jīng)網(wǎng)絡(luò)都會(huì)計(jì)算出一個(gè)百分?jǐn)?shù),用于表示新舊作業(yè)的相似性。然后,通過(guò)綜合考慮新舊作業(yè)相似性、交作業(yè)時(shí)間等多種因素計(jì)算出一個(gè)加權(quán)平均值。這個(gè)最終值就可以用來(lái)表示新作業(yè)和學(xué)生寫作風(fēng)格之間的相似性。

這一研究已經(jīng)被發(fā)表在一篇名為《識(shí)別高中代寫“槍手”》的論文中。

“翟天臨”克星?哥本哈根大學(xué)開發(fā)反“槍手”AI,識(shí)別作業(yè)代寫準(zhǔn)確率接近90%

論文鏈接:

https://www.science.ku.dk/presse/nyhedsarkiv/2019/fristet-til-at-snyde-med-eksamensopgaven-kunstig-intelligens-opdager-dig-med-90-procent-sikkerhed/Detecting_Ghostwriters_in_High_Schools.pdf

除了論文,還能與警方合作篩查偽造文本

除了代寫作業(yè),Ghostwriter的技術(shù)也可以應(yīng)用于社會(huì)的其他地方。

例如,該程序可輔助警方的文檔審查員執(zhí)行各類文件的真?zhèn)畏治鋈蝿?wù),比如一份商業(yè)合同是否是偽造的;或者一個(gè)離奇的自殺案中,死者留下了一封遺書,這封遺書是不是死者本人寫的等等。

“與警方合作將是一件有趣的事情。警方現(xiàn)有的方法是聘用文件審查員來(lái)定性的比較文本之間的相似性和差異。而我們的方法則適用于大數(shù)據(jù)并自動(dòng)找到其中潛藏的模式。我認(rèn)為結(jié)合兩者將有利于警察開展工作?!盠orenzen說(shuō),他強(qiáng)調(diào)這里也同樣需要討論其面臨的倫理問(wèn)題。

這項(xiàng)利用人工智能來(lái)檢測(cè)作業(yè)中作弊行為的技術(shù),具有廣泛的應(yīng)用前景。

目前,它還被用來(lái)分析Twitter文本,以確定文本內(nèi)容是由真實(shí)用戶撰寫的,還是由水軍或機(jī)器人編寫的。也就是說(shuō),淘寶店鋪雇傭水軍好評(píng),很有可能也能被識(shí)別出來(lái)。

相關(guān)報(bào)道:

https://www.sciencedaily.com/releases/2019/05/190529145048.htm

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI