讀心術機器的想法可能會讓很多人感到震驚,但一種能將大腦活動轉化為語言的新設備,可能是那些失去聲音功能的病人走向生命線的第一步。
隨著我們記錄腦電波的能力不斷提高,以及機器學習方法使解碼過程變得越來越容易,尋找將我們的思想轉換成機器可讀信號的方法是一個蓬勃發展的研究領域。
最引人注目的用例之一是幫助那些因受傷或疾病而失聲的人重新說話。很長一段時間,我們已經能夠做到的最好的在這方面的著名物理學家史蒂芬·霍金使用的設備,用戶選擇的字母或單詞從屏幕使用運動的肌肉,他們仍然可以控制每分鐘只有幾句話。
但是現在,加州大學舊金山分校的科學家們已經證明了一種方法,可以將大腦記錄的信號轉換成可廣泛理解的句子。
發表在《自然》雜誌上的研究人員採用了一種新的方法來解決這個問題。他們並沒有直接將大腦信號轉換成聲音,而是將其作為控制模擬聲道運動的指令,然後用合成器將這些運動轉換成語音。
這項研究是在癲癇患者的大腦中植入電極來監測癲癇發作的情況下進行的。研究人員讓5名志願者大聲朗讀幾百句話,同時記錄他們在講話過程中控制動作的區域的音頻和神經活動。
培訓系統是一個多階段的過程。首先,研究人員使用之前發表的一個模型來處理音頻,該模型推斷出產生聲音的嘴唇、舌頭或下巴的物理運動。
然後根據該模型的輸出訓練一個神經網絡,患者的神經記錄有效地為每個參與者創建了一個虛擬的聲道,可以將他們的大腦信號映射到言語活動中。然後,他們訓練第二個神經網絡對語音和第一個神經網絡的輸出進行訓練,以了解每組動作對應的聲音。
結果是一個神經解碼器,它可以接收連續的大腦信號,將它們轉換成虛擬聲道中的物理運動,然後解碼這些運動,創造出與語音大致匹配的合成句子。
這個系統並不完美。為了測試這種方法的準確性,研究人員讓來自亞馬遜土耳其機械公司(Amazon Mechanical Turk)的眾包工人來評估輸出結果,但即使讓他們從僅有的25個單詞中選擇,他們成功地轉錄出完整句子的時間也不到一半。然而,大約70%的單詞是可理解的,這比目標受眾目前能理解的0 %的單詞要好得多。
目前最大的限制是,這些測試針對的是那些沒有語言障礙的人。研究小組讓一名參與者在不說話的情況下通過移動嘴巴來模仿句子,結果顯示,解碼器仍然可以合成語音,儘管不那麼準確。
但目前還不清楚這種方法是否適用於那些失去了活動聲道能力的人,或者從來沒有這樣做過的人。雖然這種方法已經產生了迄今為止最令人印象深刻的結果,但從長遠來看,最近嘗試直接從聽覺皮層解碼語音的其他方法可能更有用。
另一個障礙是,這種方法要求人們進行侵入性手術,在大腦中安裝電極,以便這種方法發揮作用。專家們一致認為,使用腦電圖耳機對大腦信號進行外部記錄,根本無法捕捉到足夠詳細的記錄,用於這種應用。
但也有一些資金充足的初創公司,比如Kernel和Neuralink,正在開發新一代更無縫、更靈活的腦機接口。這些最初是針對醫療應用的,但長期目標是把它們變成一種消費設備,因此,讀心術機器可能很快就會成為現實。