像往常一樣,腦外科醫生一開始在病人的頭皮上開了一個口子,輕輕地把它分開,露出頭骨,然後,他在骨頭上鑽了一個3英寸的圓孔,深度直達一個被稱為硬腦膜的又厚又硬的覆蓋層。他把硬腦膜切開,在他做的這個小切口裡,有一個閃閃發光、帶著血斑點的錫灰色大腦,這顆大腦準備讓腦外科醫生像間諜監視外國大使館那樣接近自己:腦外科醫生在大腦上安裝了竊聽器。
長島範斯坦醫學研究所(Feinstein Institute for Medical Research)的神經外科醫生Ashesh Mehta正在為他的癲癇病人進行腦外科手術,以確定癲癇的病因。但這位病人同意做更多的事情:他願意參與一項大膽的實驗,為什麼說這項實驗是一項大膽的實驗呢?因為這項實驗的最終目標是將思想直接轉化為語言。
在手術臺上,Mehta小心翼翼地在病人大腦的左側表面插入了一組扁平的微電極陣列,覆蓋了大腦聆聽演講和構思演講的區域。當一個人在聽心裡的聲音說他想說的話時(通常速度非常之快,所以幾乎是沒有意識的),通過偷聽他大腦灰質中的電脈衝,然後將這些信號無線傳輸到電腦解碼,電極和系統的其餘部分就將會超越「運動」和「感覺」成為第一個「大腦-計算機接口」。
如果一切順利的話,這項實驗將會徵服該領域的「珠穆朗瑪峰」:研究人員將可以開發一種大腦-計算機界面,使脊髓受傷、閉鎖綜合症、ALS或其他癱瘓狀態的人能夠再次說話。
這項技術不需要讓這些病人有能力說出莎士比亞的獨白。因此,越來越多的專家認為,得益於神經科學、工程學和機器學習方面的平行進步,一個能夠解讀一個人是否在默默地說「是」、「不是」、「餓了」、「痛了」或「想喝水」的系統現在已經唾手可得。
加州大學伯克利分校的布萊恩·Pasley說:「我們認為我們對編碼無聲語言的大腦信號已經有了足夠的了解,我們很快就能做出一些實用的東西出來,即使是最微不足道的事,對病人來說也非常有意義,我相信這是可以實現的。」
在未來,Facebook和其他公司也會設想類似的技術,幫助消費者將想法直接轉化為簡訊和電子郵件,而無需打字或使用Siri。
第一個大腦-計算機接口(brain-computer interfaces, BCI)讀取運動皮層中與運動意圖相對應的電信號,並使用軟體將這些信號轉換成操作計算機光標或機械手臂的指令。2016年,匹茲堡大學(University of Pittsburgh)的科學家們則更進一步,他們在一隻由大腦控制的機械臂上增加了傳感器,這樣它就能產生觸覺。
儘管媒體對它們進行了大肆報導,但在大腦-計算機接口最初的原型出現十多年後,它們並沒有在人們日常生活中得到廣泛應用,甚至對於大多數人來說還觸不可及。許多項目在最初的興奮過後都陷入了苦苦掙扎。匹茲堡大學的Jennifer Collinger曾經幫助研發了觸覺機械手臂,她說,大多數這樣的系統需要笨重的電纜,以及裝有信號分析儀和其他電子設備的大盒子。她和她的同事最近從美國國立衛生研究院(National Institutes of Health)獲得了800萬美元的撥款,用於資助在匹茲堡的更多患者,並繼續改進該設備。
此外,Collinger說,目前的大腦電極只能使用幾年,這意味著人們需要反覆進行腦部手術,而且目前的BCI系統雖然在實驗室裡表現還可以,但在現實生活中還不夠可靠。
語言BCI面臨著的障礙則還要高得多。解讀一個詞的意圖需要閱讀更多的大腦信號,而不僅僅只是運動信號,並且目前我們還不清楚大腦的哪些區域參與了這個過程。日內瓦大學(University of Geneva)的史蒂芬妮·馬丁(Stephanie Martin)於去年憑著她在語言BCI方面的研究進展贏得了一個獎項,她說,目前主要的挑戰是語言編碼過程,這個過程發生在一個廣泛的大腦網絡中,而我們目前的記錄技術無法以足夠高的時空解析度來監控整個大腦。
我們大腦是非常嘈雜的,編碼語言的腦電活動往往會被其他腦電信號淹沒。她說:「這使得高準確度提取語音模式變得非常困難。」
馬丁是一個歐洲大腦活動語音解碼聯盟的成員,她說,目前針對癱瘓、患有ALS或其他疾病而無法說話的病人所涉及的輔助技術「並不是非常自然和直觀」。在現有的技術中,患者需要盯著屏幕上顯示的字母,然後頭皮電極再感知編碼眼球運動和位置的腦電波,所選的字母將會拼寫成單詞,語音合成器再大聲說出這些單詞。已故宇宙學家史蒂芬·霍金患有肌萎縮性側索硬化症,他就是使用這樣的系統。但馬丁說,科學家們認為,如果「直接利用語言的神經關聯」的話,他們可以做得更好。
早在2007年,波士頓大學的計算神經學家Frank Guenther就開發出了第一個語言BCI。研究人員將電極植入一名患有閉鎖綜合症的男子的大腦中,監聽他大腦運動皮層的講話意圖。他們接收到與移動舌頭、嘴唇、喉部、下顎和臉頰相對應的信號,這些信號會產生特定的音素(儘管這項研究只涉及元音)。
在Guenther的合作者,神經病學家Phil Kennedy與聯邦健康監管機構發生衝突、並被禁止在更多的病人身上植入電極之後,這個項目就結束了。Kennedy對該領域的緩慢進展感到失望,2014年,貝里斯的一名神經外科醫生為他的大腦植入了電極、一個功率線圈和收發器,起初他似乎遭受了腦損傷。
其他神經科學家沒有被這些名譽上的挫折所嚇倒,他們正與電子工程師合作開發一種囊括植入物、解碼器和語音合成器的系統,這種系統可以讀取病人想要表達的詞語(編碼在大腦信號中),這些詞語隨後將會被轉換成聽得見的語音。語言BCI有一個方面可能有一天會使得這種技術得到廣泛使用,那就是,Guenther說:「這種硬體要比花費數十萬美元的機器人手臂便宜得多。」
Guenther說,他在2007年的系統「以今天的標準來看已經相當古老了」,我不認為(阻礙語言BCI的)問題是無法解決的。
哥倫比亞大學(Columbia University)的電氣工程師尼馬·梅斯加拉尼(Nima Mesgarani)同樣認為這些問題可以得到解決。Nima現在正在領導一個項目,旨在使用像Mehta植入的那些電極所接收到的信號來重新組織語言。
這種設備能夠工作的原理是人類的大腦不會在幻想和現實之間做出硬性的區分。當大腦想像某件事的時候,神經元的活動在位置和模式上與它正在做某事的時候極其相似。南瓜派的大腦想像圖像在視覺皮層產生的活動與你看到一個真正的南瓜派時非常相似;想像跳投會激發的神經元活動和真的跳投所產生的的神經元活動也別無二致。
Mesgarani說,無聲語言也是如此:在不動嘴唇或舌頭的情況下彩排你要說的話,「會產生和實際說話一樣的大腦活動模式」。
在心裡聽你自己的無聲演講也一樣。伯克利的Pasley說:「把它想成大腦的耳朵」。說長頸鹿(giraffe)這個詞,然後再默念。在你的大腦中,這個單詞第二個音節應該比第一個音節聽起來更響亮,而且可能會提高音高。Pasley解釋說,這些和單詞的其他性質構成了這個單詞的光譜圖。
至關重要的是,與「大腦的耳朵」相對應的大腦活動發生在聽覺皮層,而聽覺皮層也能聽到外界的聲音:Pasley和他的同事在下個月的《大腦皮層》(brain cortex)雜誌上發表的一篇論文中稱,這種重疊「是實質性的」。
這使得「竊聽設備」可以粗略地重建我們腦中無聲的語言。在馬丁和Pasley於伯克利大學進行的一項研究中,研究人員要求在大腦中植入了電極的參與者去想像自己正在大腦中大聲說出牛仔、遊泳、蟒蛇和電話等一系列單詞。不幸的是,軟體對「勺子」和「戰場」等詞的大腦信號的解釋準確性僅略高於50%。但這已經是一個很大的進步了,早期的系統在識別大腦活動在秘密講話的編碼信號時,它分辨哪些是元音哪些是輔音(甚至都不是一個完整的單詞)的正確率要低於40%。
伯克利分校的研究結果足以證明這一概念,但也只是僅此而已。Mesgarani 說:「(從那項研究和類似的研究中)重建的語言根本無法理解,我們正在努力克服這個可理解性障礙。」
他說,克服這個障礙最好的方法就是通過機器學習,或者訓練軟體來解釋與無聲語言相對應的大腦活動,從它自己的錯誤中學習,然後逐漸變得更好。
為了驗證他的想法,Mesgarani和Mehta進行了合作,Mehta為這項研究招募了5名癲癇患者。在他們的手術過程中,他在病人聽覺皮層的兩個區域的表面放置了電極網格(這個平面陣列被稱為皮質電圖),這兩個區域分別是顳橫回和顳上回。後者包含威爾尼克語言區(該區域負責確定使用哪些詞)。這兩個腦回區域都涉及到處理語言的特徵,包括音量、語調、頻率,以及至關重要的音素——構成口語的最小的聲音單位,如「sh」。
然後志願者們聽其他人說數字(一、二、三等),並聽30分鐘的故事,在這個過程中,聲學處理軟體提取了志願者由於聽語言所引起的神經活動(本質上是一組複雜的腦電信號序列)。隨後,Mesgarani和他的團隊開發的一個「深層神經網絡」(基本上可以推斷出對應神經活動的語言聲音)再對這種活動進行分析,分析得到的推論又會被轉換回電信號,發送到一個聲音編碼器(聲音編碼器是一個可以根據電信號的特徵,如頻率和其他聽覺元素產生聲音的合成器)。
整個過程就像把一輛法拉利的操作手冊從義大利語翻譯成英語,再從英語翻譯成日語,然後又從日語翻譯成義大利語一樣:最終的版本聽起來和原版經常根本不一樣,這也是之前關於大腦-計算機語音接口研究所得到的結果:一串幾乎聽不懂的聲音。Mesgarani說:「在這之前,你甚至不能很好地根據電子數據來重建語言。」
他的大腦-計算機界面所面臨的測試是聲音編碼器發出的微小聲音是否與故事的聲音和參與者聽到的數字有任何相似之處。科學家們在bioRxiv預印本網站上發表的一篇論文中稱,這個大腦-計算機界面系統的語言正確率達到了75%,相比之下,早期語言BCI正確率只有一半多一點;這篇論文尚未經過同行評審,但作者已將其提交給一家期刊。
將某人對某一特定語言表達方式的所有神經反應(多次重複)平均起來,可以提高重建合成語言的準確性,讀取陣列中128個電極的更多讀數也有一樣的效果。
Mesgarani說,研究的下一步是測試通過想像說話所引起的大腦信號的深層神經網絡。他說,「以前的研究已經表明,」探測編碼這種無聲語言的信號是「可能的」;語言處理和語言合成器才是研究一直以來的瓶頸。
他說,通過改進潛在語言BCI的後端,「對於從大腦活動中產生準確、可理解的重建語言,我們有了一個很好的框架」,他稱之為「邁向下一代人機互動系統的一步……為癱瘓和閉鎖症候群患者服務」。
一開始為殘疾人提供的技術可能會惠及到其他所有人(兩者順序可能會反過來)。在麻省理工學院(Massachusetts Institute of Technology) 2017年舉行的一次神經技術會議上,Facebook公司的馬克•切維萊特(Mark Chevillet)將該公司「打字的想法」BCI研究的指導思想描述為一個問題:「如果你能直接用大腦打字會怎麼樣?」
他指導的這個項目旨在「開發一種無聲的語音界面,讓你以比打字快5倍的速度生成文本,即每分鐘100個單詞」。該公司正在研究能否非侵入性地檢測到高質量的神經信號,以準確解碼成音素(因為即使是最狂熱的facebook用戶也不太可能為了打字快點而進行腦部手術)。如果可以的話,下一步就是將這些信號輸入一個將音素序列與單詞配對的資料庫,然後使用特定於語言的概率數據來預測這些信號最有可能表示的單詞(很像Gmail裡面的自動填充)。
Chevillet 在會議上說:「這不是科幻小說。」
本文來源前瞻網,轉載請註明來源。本文內容僅代表作者個人觀點,本站只提供參考並不構成任何投資及應用建議。(若存在內容、版權或其它問題,請聯繫:service@qianzhan.com) 品牌合作與廣告投放請聯繫:0755-33015062 或 hezuo@qianzhan.com