銅靈 發自 凹非寺量子位 出品 | 公眾號 QbitAI
今天,加州大學舊金山分校(UCSF)和Facebook在Nature Commuications上發表的一項研究顯示:
他們在「非植入式」的穿戴設備上取得了最新進展,構建出了一個大腦-計算機系統,能準確解碼佩戴設備的人聽到和說出詞語和對話,實時從大腦信號中解碼。
也就是說,在這種腦機接口面前,你的所思所想已無處遁形,Facebook已經讓意念打字成為了現實。
此前,馬斯克的腦機接口公司Neuralink也發布過腦機接口系統,但這種植入式的設備需要向大腦中植入3000多個電極,以此來檢測神經元的活動,但非植入式的設備就免去了複雜的植入步驟。
研究人員表示,目前對生成和感知的兩部分語言進行解碼,準確率超出了他們的想像,分別能達到61%和76%的準確率。
這項項目對於正常人和殘疾人來說,都具有實用意義。
比如,你可以將思維直連到語音助手siri,查詢天氣、搜索信息不用直接喊出來了。
研究人員之一、加州大學舊金山分校神經外科醫生Edward Chang表示,這是向神經植入物邁出的重要一步,因為中風,脊髓損傷或其他疾病而失去說話能力的患者,有望因此獲得自然交流的能力 。
如何意念轉語音
這項成果來自Facebook Reality Labs,一直與加州大學舊金山分校合作開展這項腦機接口的研究。
Facebook的設想是,設計一種可以將大腦信號轉換成語言的裝置,不需要勞動任何一塊肌肉,深度學習就能直接讀懂大腦,解碼腦中所想,實現流暢交流。
為了進行試驗,研究人員此前還招募了五名在醫院接受癲癇治療的志願者。
他們先是從高密度皮層活動中提取相關信號特徵。志願者們說了上百句話,而通過植入性大腦皮層電圖(ECoG),研究人員可以跟蹤控制語言和發音的大腦區域的活動,並將這些活動與志願者說話時嘴唇、舌頭、喉部和下顎的微妙運動聯繫起來,然後將這些運動學特徵翻譯成口語句子。
研究人員採用bLSTM(bidi-rectional long short-term memory)循環神經網絡來破譯ECoG信號表達的運動學表徵。
接著用另外一個bLSTM解碼先前破譯的運動學特徵中的聲學特徵。
在這個過程中,兩個神經網絡都會被投餵訓練數據,以提高它們的解碼性能。
在今年的四月份,利用這樣的方法,Facebook已經實現了以每分鐘150詞的速度幫你說出所思所想。
而在這篇最新的論文Real-time decoding of question-and-answer speech dialogue using human cortical activity中,他們在此前研究基礎上,研究人員想進一步提高精度。
大多數語音解碼的工作原理是對一個人在想什麼聲音做出最佳猜測,在解碼過程中可能會被「synthesizer」和「fertilizer」這類發音相似的單詞混淆。
但Facebook的新系統增加了上下文信息來幫助區分這些單詞。
首先,這個算法預測從一組已知問題中聽到的問題,比如「你在一塊土地上撒了什麼?」然後,這些信息作為上下文來幫助預測答案:「肥料」(fertilizer)。
Edward Chang表示,通過添加上下文,這個系統能夠用的指定問題和答案解碼感知(聽到)的語音準確率達到76%,解碼產生(口頭)的語音準確率達到了61%。
Facebook表示,未來將擴大系統的詞彙量,讓其能適用在更廣泛的領域。
緣起兩年前
Facebook早在兩年前,就開始著手這個項目了。
2017年4月,Facebook旗下的前沿產品研發團隊Building 8負責人Regina Dugan宣布,這家社交網絡公司將在未來兩年內,開發出一個能以每分鐘100字的速度從人腦向外傳輸語句的「帽子」。
Facebook設想中的「帽子」,是用來分享你的思維的。此前清華大學也做過類似概念的研究,頭戴一個小巧的電極帽,控制屏幕軟鍵盤上的26個字母就能打出任何語句。
Facebook最終計劃,是想打造一款AR眼鏡。
Facebook AR/VR業務副總裁Andrew 「Boz」 Bosworth表示,這個項目的初衷,是想構建一個非侵入式可穿戴設備,讓人們只想通過想像他們想說什麼來打字,展示未來對AR眼鏡的投入和互動成為現實的潛力。
傳送門
Facebook官方博客:
https://tech.fb.com/imagining-a-new-interface-hands-free-communication-without-saying-a-word/
論文Real-time decoding of question-and-answer speech dialogue using human cortical activity
地址:
https://www.nature.com/articles/s41467-019-10994-4
論文Speech synthesis from neural decoding of spoken sentences:
https://www.gwern.net/docs/ai/2019-anumanchipalli.pdf