智東西3月31日消息,腦機接口研究又有新進展!美國加州大學舊金山分校研究人員研發了一種新型機器翻譯算法,能以較高準確率解碼腦神經活動,並將其翻譯成文字,轉錄錯誤率低至3%,可媲美專業的語音轉錄算法。
該研究30日發表在英國《自然-神經科學(Nature Neuroscience)》雜誌上,論文題目為《翻譯大腦(Translating the brain)》。
對於失去語言能力但認知完整的人(比如中風病人)而言,這一研究為他們帶來了像正常人般順暢交流的希望。
論文連結:https://www.nature.com/articles/s41593-020-0616-8
一、轉錄之難:表達過程複雜,表述方式多樣
大約在10年前,一些學者已在進行腦機接口相關研究。然而多年過去,腦機接口在解碼神經活動方面普遍存在速度慢和準確率低的問題。
據論文介紹,此前的解碼模型錯誤率高至約60%。
1、語言表達過程複雜,難以切入
語言表達本身是一個複雜的過程:
首先,大腦要確定想要表達的意思,並在表達的過程中對語義進行不斷修正。
然後,大腦要選擇與語義相匹配的詞彙。當然,人類掌握了語言能力後,可以在說話或寫文章時自然而然地進行選擇。
最後,當組織好了語言,大腦會安排肌肉群來發聲。
面對這個過程,解碼模型很難找到合適的切入點來完成轉錄。
2、表達方式豐富,難以準確轉錄
除了語言表達過程本身的複雜性,腦機接口還受到表達方式的影響。說話時,多個不同的音節組成單詞、不同單詞再造成句子。
在這個過程中,不同的口音、口誤及其他聽覺問題都會對轉錄結果造成影響。多樣的表達方式、難以理解的表達錯誤大大提升了計算難度。
二、受翻譯軟體啟發,實驗驗證錯誤率僅3%
此次研究中,美國加州大學舊金山分校的神經外科研究員約瑟夫·馬金(Joseph Makin)及其同事藉助機器翻譯方法,訓練了一種循環神經網絡,將大腦神經信號直接映射成句子,平均錯誤率僅有3%。
1、從翻譯軟體獲得靈感
根據論文,研究人員是從翻譯軟體中獲得了啟發。
翻譯軟體的工作原理是先從句子層面對文本加以理解,根據語境推測出句子的意思,再根據語義排除歧義詞的影響。翻譯過程中,軟體會先將文本處理成一種過渡形式,從中提取意義,再倒推文字應該是什麼。
馬金教授團隊認為,解碼神經活動也可以借鑑文本翻譯過程,先將神經活動處理為過渡形式,再解碼為語言。
論文寫道:「為了獲得更高的準確度,我們利用解碼語言神經信號與機器翻譯的相似之處,他們都是從一種語言向另一種語言的算法翻譯。從概念上講,這兩件事的目標都是在同一基礎分析單元的兩種不同表達之間建立聯繫。」
為了實現這種設想,研究人員計劃先將神經信號轉化成各自獨立的單詞,而不是語序通順的語法模塊。這樣就可以在不擴大詞彙量的情況下獲得更高的準確度。
2、4位癲癇患者參與測試,轉錄錯誤率僅3%
為了驗證設想,研究團隊用兩種不同的神經網絡和顱內電極製作了一個解碼器模型,並邀請了4位女性癲癇患者來參與實驗。
實驗之前,研究人員在受試者大腦中植入顱內電極,以監測她們的腦電波。
實驗過程中,每位受試者被要求在40分鐘內閱讀一組句子,每組句子重複兩次。據了解,每組句子約有30~50個句子,最多包含250個不同的單詞。
受試者朗讀的同時,研究者記錄了她們的大腦神經活動。
朗讀完後,研究人員將受試者的神經活動記錄,以及閱讀的錄音輸入一個循環神經網絡資料庫。該神經網絡會對實驗數據進行梳理,尋找元音、輔音等與語言相關的信號。通過比較相似之處,資料庫會識別出受試者閱讀同一句話的腦電波。然後,該資料庫會捕捉這些與語言相關的信號,將它們處理成一個過渡形式。
最後,這個過渡形式將被發至第二個神經網絡。第二個神經網絡系統會把過渡形式轉換成單詞,進而組成句子。
在這一過程中,算法並沒有記憶受試者說某個句子時的腦電波。馬金教授解釋說,每當一個人說同一個句子時,大腦活動是相似的,但並不完全相同,「記憶這些句子對大腦活動不會有幫助,所以網絡必須去學習它們的相似之處,以便它最後能概括出這個例子」。
研究人員發現,在這四名女性之中,模型的平均錯誤率僅有3%,幾乎達到了專業語音轉錄算法的準確率。考慮到僅進行了少量訓練,它達到的準確率已經算是十分優秀。
3、經過遷移學習,模型準確率再提高
除了對固定的幾組句子進行實驗,研究人員還訓練模型進行了各種形式的遷移學習。
例如,一位受試者說了一組在之前測試中沒有使用過的句子。經過訓練,模型的轉錄錯誤率下降了30%。另外,研究人員還根據兩位用戶提供的數據對模型進行了訓練,最終模型的單詞錯誤率低於8%,與人工翻譯的錯誤率相當。
這些遷移學習具有重要意義:
一方面,它說明了該模型的模塊化特徵可以讓它在源於文本的中間表徵上進行訓練,而不是在任何時候都需要神經記錄。儘管在最初,這種做法可能會導致解碼錯誤率增加,但長遠來說,這將使模型適宜於在更多情況下使用。
另一方面,這也表明了這個模型最終也可以為實驗受試者以外的人群服務,比如那些喪失發聲能力的人。此外,個人所需的訓練時間也將大大減少。
三、詞彙量少,訓練時間短,模型仍有局限性
儘管這個模型在實驗中的準確率較高,但是它距離實際應用的要求仍有距離。
目前,模型能夠識別的語言還十分有限。研究人員在論文中坦承了這一點:「儘管我們希望解碼器能夠學習並利用語言的規律性,但是我們也知道從實驗中的少量語料擴展到常用英語還需要很多數據。」
倫敦大學學院的索菲·斯科特(Sophie Scott)也認為距離實現全面翻譯大腦信號數據還有很長的路要走,「他們實驗中使用的語言是非常有限的。」她說到。
如果要做到為語言障礙者彌補語言能力,則「至少是幾年以後的事了。」馬金博士接受採訪時說。
另外,目前該解碼模型的安全性也還未經驗證,植入人體仍需謹慎。
結語:研究仍在繼續,語言障礙患者或能從中受益
研究人員表示,他們將在之後的研究中繼續擴展這個模型的詞彙量和靈活性。遷移實驗的結果也說明了解碼模型還具有很大的發展潛力。
或許在未來,語言障礙患者可以通過植入這一類系統而獲得「說話」的能力,讓我們拭目以待。
文章來源:Ars Technica,Inverse,BBC,NewScientist