溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

告別“霍金音”:華裔科學家設計腦機新設備,人類首次直接用腦波“說話”

發(fā)布時間:2020-08-16 15:26:03 來源:ITPUB博客 閱讀:177 作者:大數(shù)據(jù)文摘 欄目:互聯(lián)網(wǎng)科技

告別“霍金音”:華裔科學家設計腦機新設備,人類首次直接用腦波“說話”

大數(shù)據(jù)文摘出品

作者:魏子敏、周素云

這是人類歷史上第一次,直接從大腦中輸出完整的口語句子。

4月25日, Nature雜志發(fā)表了一項新成果, 神經(jīng)科學家設計了一種可以將大腦信號轉(zhuǎn)換為語音的設備。通過最先進的腦機界面,根據(jù)大腦活動控制的虛擬聲道來產(chǎn)生自然合成的合成語音。簡單來說,就是通過解碼人類嘴唇、下巴、舌頭和喉頭等腦信號,將其轉(zhuǎn)換成患者想表達的語音

“這是第一次,我們可以根據(jù)個人的大腦活動生成完整的口語句子?!?加州大學舊金山分校神經(jīng)外科教授,也是該成果的主要研究員Edward Chang說。

告別“霍金音”:華裔科學家設計腦機新設備,人類首次直接用腦波“說話”華裔教授Edward Chang,加州大學舊金山分校神經(jīng)外科教授,重點研究方向為言語、運動和人類情感的大腦機制。圖片來源UCSF

語音障礙者廣泛存在。由于各類事故、中風或神經(jīng)退行性疾?。ㄈ缂∥s側(cè)索硬化癥或肌萎縮側(cè)索硬化癥)中受傷而導致言語能力喪失,成千上萬的人無法進行正常的交流。

用外部設備生成輔助語音輸出早已有之。我們之前所熟知的,例如霍金使用的語音合成器,是通過人類眼睛和面部動作來拼寫單詞,在理想情況下,可以幫助癱瘓者每分鐘輸出多達 8 個單詞。

告別“霍金音”:華裔科學家設計腦機新設備,人類首次直接用腦波“說話”

來源:The Guardian

這些技術(shù)已經(jīng)給失語患者帶來了一些生活改善,但與自然語音每分鐘150 個單詞的平均速度比起來,通過外部接口進行輸出的速度還是太慢了。

Nature最新發(fā)布的這項實驗成果則將溝通恢復能力直接提升了一個層級:直接讀取大腦信號合成語音。相比逐字錄入,更加高效,并且可以解決現(xiàn)有技術(shù)語音輸出的很多問題,比如靠單個音節(jié)蹦字導致的語音語調(diào)缺失。如果可以應用到臨床,可以大大改善語音障礙患者的溝通能力。

Edward Chang團隊也放出了一段清晰可理解的語音例子:前半部分是參與實驗的閱讀者讀出的句子,后半部分是通過記錄患者大腦活動,自動產(chǎn)生的句子的。先來聽一下

盡管腦電波產(chǎn)生的內(nèi)容相比自然語音依然頗為模糊,但是已經(jīng)是整句的輸出,并且保留了句子的斷句感和語調(diào)。據(jù)該研究稱,多達70%的英語母語測試者認為可以聽懂相關內(nèi)容。

其實去年年初,Science雜志也報道過Edward Chang團隊在腦機接口上作出的重要進展,當時的研究還停留在單個數(shù)字的記錄上:研究者讓測試者聽口述數(shù)字,并基于其聽到數(shù)字時腦活動的記錄,進行電腦重建語音。當時的數(shù)字雖然也可辨認,但是只停留在單個詞語的輸出。

而對比最新放出的音頻,僅僅一年多的時間,已經(jīng)可以輸出完整的語句了。據(jù)Edward Chang稱,這一技術(shù)目前已經(jīng)“觸手可及”,“我們應該能夠在失去語言能力的患者中,構(gòu)建一種具有臨床可行性的設備。”

告別“霍金音”:華裔科學家設計腦機新設備,人類首次直接用腦波“說話”

論文下載鏈接:

https://www.nature.com/articles/s41586-019-1119-1

解讀大腦意圖,然后生成語音

對于因神經(jīng)損傷而無法溝通的人來說,將神經(jīng)活動轉(zhuǎn)化為語言的技術(shù)將具有變革性的意義。

從神經(jīng)活動中解碼語音是具有挑戰(zhàn)性的,因為說話需要對聲道咬合架進行非常精確和快速的多維控制。Chang教授他們設計的神經(jīng)解碼器,明確地利用人類皮質(zhì)活動中編碼的運動和聲音表示來合成可聽語音。遞歸神經(jīng)網(wǎng)絡首先將記錄的皮質(zhì)活動直接解碼為關節(jié)運動的表示,然后將這些表示轉(zhuǎn)換為語音聲學。

告別“霍金音”:華裔科學家設計腦機新設備,人類首次直接用腦波“說話”

來源:Nature

在封閉的詞匯測試中,聽眾可以很容易地識別和轉(zhuǎn)錄從皮層活動合成的語音。即使數(shù)據(jù)有限,中間關節(jié)動力學也能提高性能。這些發(fā)現(xiàn)提高了使用語音神經(jīng)假體技術(shù)恢復口語交流的臨床可行性。雖然,此次實驗是在具有完整語言功能的志愿者中進行,但在未來,該技術(shù)有望恢復由于癱瘓和其他形式的神經(jīng)損傷而失去說話能力的人的聲音。

實驗過程

該團隊招募了五名即將接受癲癇神經(jīng)外科手術(shù)的志愿者。為了準備手術(shù),醫(yī)生們在大腦中暫時植入電極來繪制患者癲癇發(fā)作的來源。當電極就位時,志愿者被要求大聲讀出數(shù)百個句子,而科學家則記錄了已知涉及言語產(chǎn)生的大腦區(qū)域的活動。

僅需兩步即可解碼語音:將大腦中的電信號轉(zhuǎn)換為聲音運動,然后將這些運動轉(zhuǎn)換為語音。

他們不需要收集第二步的數(shù)據(jù),因為其他研究人員之前已經(jīng)編制了一個大型數(shù)據(jù)庫,顯示了聲音運動與語音的關聯(lián)。他們可以用它來逆向設計患者的聲音運動。

然后,他們訓練機器學習算法,以便能夠?qū)⒋竽X中的電活動模式與這將產(chǎn)生的聲音運動相匹配,例如將嘴唇壓在一起,收緊聲帶并將舌尖移到嘴的頂部。他們將這項技術(shù)描述為“虛擬聲道”,可以直接由大腦控制,從而產(chǎn)生與人聲的合成近似。

為了測試合成語音的可懂度,科學家們通過亞馬遜Mechanical Turk平臺,邀請了數(shù)百人進行樣本轉(zhuǎn)錄。

在測試中,每次給出100個句子和25個單詞,包括目標詞和隨機詞。聽眾辨識的準確率達43%。

一些發(fā)音,如“sh”和“z”被精確合成,對于“b”和“p”的發(fā)音解碼器還不能完全分清。

但這些并不影響正常地溝通,在日常生活中,我們也會漸漸熟悉一個人的發(fā)音方式,并對他們想要表達的話進行推測。

目前,該實驗算法還不能解碼未經(jīng)訓練的句子, 要成為一個可行的臨床語言合成腦機接口,還有很長的路要走。

腦機接口相關探索

其實早在去年年初,Science雜志就報道過Edward Chang團隊以及來自哥倫比亞大學(Columbia University)和德國不萊梅大學(Bremen)在腦機接口上作出的重要進展:通過手術(shù),他們在大腦上放置電極,搜集電極產(chǎn)生的數(shù)據(jù),再將其通過計算機變成語音信息;接著通過神經(jīng)網(wǎng)絡模型,他們重建了在某些情況下,可以被人類聽眾所理解的單詞和語句。

告別“霍金音”:華裔科學家設計腦機新設備,人類首次直接用腦波“說話”

圖片來自Science

當時,來自哥倫比亞的研究者試圖找出在不同時間點,大腦打開與關閉神經(jīng)元的模式,并由此推斷語音內(nèi)容。雖然這些模型將在非常精確的數(shù)據(jù)上表現(xiàn)最好——而搜集這些精準的數(shù)據(jù)需要打開我們的頭蓋骨。

研究人員只能在極少數(shù)情況下才會進行此類危險性記錄:一種情況是在移除腦腫瘤期間,暴露在外的大腦產(chǎn)生的電讀數(shù)能夠幫助外科醫(yī)生定位以避開關鍵的語音及運動區(qū);另一種情況是在手術(shù)前為癲癇患者植入電極并保持數(shù)天以確定癲癇發(fā)作起因。

當時,Edward Chang就和他的團隊,根據(jù)由三名癲癇患者大聲朗讀語音引起的、從語言及運動區(qū)域捕獲的大腦活動,重建了整個句子。

在線上測試中,有166人聽懂了其中一個句子,并從10項文字選項中進行選擇。超過80%的情況下模型都能夠正確識別句子。研究人員還進一步改進了模型:他們使用它根據(jù)人類的唇語來重新創(chuàng)建句子。

當時的研究者也放出了一段實驗錄音,他們讓一組聽眾會在計算機“說出”數(shù)字同時對其進行評估;其精確度大約為75%。聲音聽起來有些可怕,但是仔細聽仍可以辨認出數(shù)字。

告別“霍金音”:華裔科學家設計腦機新設備,人類首次直接用腦波“說話”

此外,鋼鐵俠“馬斯克”也對這個領域頗感興趣,除了電動車和太空探索,他也早早涉足了腦機接口這個領域,2016年創(chuàng)立了腦機接口研發(fā)公司Neuralink,與多位加州大學知名神經(jīng)科學家合作,其短期目標是治愈嚴重的腦部疾病,如老年癡呆癥和帕金森癥,并且最終通過“與AI的融合”來增強大腦。

被人工智能、神經(jīng)學和語言學共同推動的人類進步

該項目的研究人員目前正在試驗更高密度的電極陣列和更先進的機器學習算法,他們希望這些算法能夠進一步改善合成語音。該技術(shù)的接下來的目標,是將這個系統(tǒng)應用到一個不會說話的人身上,在無法用他們自己的聲音進行訓練的前提下,測試是否可以學習如何使用該系統(tǒng),并將其推廣,讓他們能夠說出想說的任何內(nèi)容。

告別“霍金音”:華裔科學家設計腦機新設備,人類首次直接用腦波“說話”

Josh Chartier,Chang實驗室的生物工程研究生。圖片來自UCSF

該團隊的一位研究參與者表示,研究人員基于解剖學可以解碼和合成來自參與者大腦活動的新句子,以及算法訓練的句子。即使研究人員提供了記錄大腦活動數(shù)據(jù)的算法,而一個參與者只是在沒有聲音的情況下講話,系統(tǒng)仍然能夠在說話者的聲音中產(chǎn)生可理解的合并版本的混合句子。

研究人員還發(fā)現(xiàn),聲音運動的神經(jīng)代碼在參與者之間部分重疊,并且一個研究對象的聲道模擬可以響應從另一個參與者的大腦記錄的神經(jīng)指令。總之,這些研究結(jié)果表明,由于神經(jīng)功能障礙導致語言障礙的個體,很有可能學會使用這個系統(tǒng),并以錄入聲音為模型的語音假體。

“肢體殘障者人已經(jīng)學會用大腦控制機器人肢體,”Chang實驗室的生物工程研究生Chartier說?!拔覀兿M幸惶欤姓Z言障礙的人能夠?qū)W會用這種腦控制的人工聲道再次說話?!?/span>

另一位研究者Anumanchipalli補充說:“我很自豪能夠?qū)⑸窠?jīng)科學,語言學和機器學習的專業(yè)知識作為幫助神經(jīng)殘疾患者,這是一個重要的里程碑?!?/span>

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI