比打字快5倍?科學家利用大腦電極實現將思想直接轉化為語言!

2021-01-09 前瞻網

像往常一樣,腦外科醫生一開始在病人的頭皮上開了一個口子,輕輕地把它分開,露出頭骨,然後,他在骨頭上鑽了一個3英寸的圓孔,深度直達一個被稱為硬腦膜的又厚又硬的覆蓋層。他把硬腦膜切開,在他做的這個小切口裡,有一個閃閃發光、帶著血斑點的錫灰色大腦,這顆大腦準備讓腦外科醫生像間諜監視外國大使館那樣接近自己:腦外科醫生在大腦上安裝了竊聽器。

長島範斯坦醫學研究所(Feinstein Institute for Medical Research)的神經外科醫生Ashesh Mehta正在為他的癲癇病人進行腦外科手術,以確定癲癇的病因。但這位病人同意做更多的事情:他願意參與一項大膽的實驗,為什麼說這項實驗是一項大膽的實驗呢?因為這項實驗的最終目標是將思想直接轉化為語言。

在手術臺上,Mehta小心翼翼地在病人大腦的左側表面插入了一組扁平的微電極陣列,覆蓋了大腦聆聽演講和構思演講的區域。當一個人在聽心裡的聲音說他想說的話時(通常速度非常之快,所以幾乎是沒有意識的),通過偷聽他大腦灰質中的電脈衝,然後將這些信號無線傳輸到電腦解碼,電極和系統的其餘部分就將會超越「運動」和「感覺」成為第一個「大腦-計算機接口」。

如果一切順利的話,這項實驗將會徵服該領域的「珠穆朗瑪峰」:研究人員將可以開發一種大腦-計算機界面,使脊髓受傷、閉鎖綜合症、ALS或其他癱瘓狀態的人能夠再次說話。

這項技術不需要讓這些病人有能力說出莎士比亞的獨白。因此,越來越多的專家認為,得益於神經科學、工程學和機器學習方面的平行進步,一個能夠解讀一個人是否在默默地說「是」、「不是」、「餓了」、「痛了」或「想喝水」的系統現在已經唾手可得。

加州大學伯克利分校的布萊恩·Pasley說:「我們認為我們對編碼無聲語言的大腦信號已經有了足夠的了解,我們很快就能做出一些實用的東西出來,即使是最微不足道的事,對病人來說也非常有意義,我相信這是可以實現的。」

在未來,Facebook和其他公司也會設想類似的技術,幫助消費者將想法直接轉化為簡訊和電子郵件,而無需打字或使用Siri。

第一個大腦-計算機接口(brain-computer interfaces, BCI)讀取運動皮層中與運動意圖相對應的電信號,並使用軟體將這些信號轉換成操作計算機光標或機械手臂的指令。2016年,匹茲堡大學(University of Pittsburgh)的科學家們則更進一步,他們在一隻由大腦控制的機械臂上增加了傳感器,這樣它就能產生觸覺。

儘管媒體對它們進行了大肆報導,但在大腦-計算機接口最初的原型出現十多年後,它們並沒有在人們日常生活中得到廣泛應用,甚至對於大多數人來說還觸不可及。許多項目在最初的興奮過後都陷入了苦苦掙扎。匹茲堡大學的Jennifer Collinger曾經幫助研發了觸覺機械手臂,她說,大多數這樣的系統需要笨重的電纜,以及裝有信號分析儀和其他電子設備的大盒子。她和她的同事最近從美國國立衛生研究院(National Institutes of Health)獲得了800萬美元的撥款,用於資助在匹茲堡的更多患者,並繼續改進該設備。

此外,Collinger說,目前的大腦電極只能使用幾年,這意味著人們需要反覆進行腦部手術,而且目前的BCI系統雖然在實驗室裡表現還可以,但在現實生活中還不夠可靠。

語言BCI面臨著的障礙則還要高得多。解讀一個詞的意圖需要閱讀更多的大腦信號,而不僅僅只是運動信號,並且目前我們還不清楚大腦的哪些區域參與了這個過程。日內瓦大學(University of Geneva)的史蒂芬妮·馬丁(Stephanie Martin)於去年憑著她在語言BCI方面的研究進展贏得了一個獎項,她說,目前主要的挑戰是語言編碼過程,這個過程發生在一個廣泛的大腦網絡中,而我們目前的記錄技術無法以足夠高的時空解析度來監控整個大腦。

我們大腦是非常嘈雜的,編碼語言的腦電活動往往會被其他腦電信號淹沒。她說:「這使得高準確度提取語音模式變得非常困難。」

馬丁是一個歐洲大腦活動語音解碼聯盟的成員,她說,目前針對癱瘓、患有ALS或其他疾病而無法說話的病人所涉及的輔助技術「並不是非常自然和直觀」。在現有的技術中,患者需要盯著屏幕上顯示的字母,然後頭皮電極再感知編碼眼球運動和位置的腦電波,所選的字母將會拼寫成單詞,語音合成器再大聲說出這些單詞。已故宇宙學家史蒂芬·霍金患有肌萎縮性側索硬化症,他就是使用這樣的系統。但馬丁說,科學家們認為,如果「直接利用語言的神經關聯」的話,他們可以做得更好。

早在2007年,波士頓大學的計算神經學家Frank Guenther就開發出了第一個語言BCI。研究人員將電極植入一名患有閉鎖綜合症的男子的大腦中,監聽他大腦運動皮層的講話意圖。他們接收到與移動舌頭、嘴唇、喉部、下顎和臉頰相對應的信號,這些信號會產生特定的音素(儘管這項研究只涉及元音)。

在Guenther的合作者,神經病學家Phil Kennedy與聯邦健康監管機構發生衝突、並被禁止在更多的病人身上植入電極之後,這個項目就結束了。Kennedy對該領域的緩慢進展感到失望,2014年,貝里斯的一名神經外科醫生為他的大腦植入了電極、一個功率線圈和收發器,起初他似乎遭受了腦損傷。

其他神經科學家沒有被這些名譽上的挫折所嚇倒,他們正與電子工程師合作開發一種囊括植入物、解碼器和語音合成器的系統,這種系統可以讀取病人想要表達的詞語(編碼在大腦信號中),這些詞語隨後將會被轉換成聽得見的語音。語言BCI有一個方面可能有一天會使得這種技術得到廣泛使用,那就是,Guenther說:「這種硬體要比花費數十萬美元的機器人手臂便宜得多。」

Guenther說,他在2007年的系統「以今天的標準來看已經相當古老了」,我不認為(阻礙語言BCI的)問題是無法解決的。

哥倫比亞大學(Columbia University)的電氣工程師尼馬·梅斯加拉尼(Nima Mesgarani)同樣認為這些問題可以得到解決。Nima現在正在領導一個項目,旨在使用像Mehta植入的那些電極所接收到的信號來重新組織語言。

這種設備能夠工作的原理是人類的大腦不會在幻想和現實之間做出硬性的區分。當大腦想像某件事的時候,神經元的活動在位置和模式上與它正在做某事的時候極其相似。南瓜派的大腦想像圖像在視覺皮層產生的活動與你看到一個真正的南瓜派時非常相似;想像跳投會激發的神經元活動和真的跳投所產生的的神經元活動也別無二致。

Mesgarani說,無聲語言也是如此:在不動嘴唇或舌頭的情況下彩排你要說的話,「會產生和實際說話一樣的大腦活動模式」。

在心裡聽你自己的無聲演講也一樣。伯克利的Pasley說:「把它想成大腦的耳朵」。說長頸鹿(giraffe)這個詞,然後再默念。在你的大腦中,這個單詞第二個音節應該比第一個音節聽起來更響亮,而且可能會提高音高。Pasley解釋說,這些和單詞的其他性質構成了這個單詞的光譜圖。

至關重要的是,與「大腦的耳朵」相對應的大腦活動發生在聽覺皮層,而聽覺皮層也能聽到外界的聲音:Pasley和他的同事在下個月的《大腦皮層》(brain cortex)雜誌上發表的一篇論文中稱,這種重疊「是實質性的」。

這使得「竊聽設備」可以粗略地重建我們腦中無聲的語言。在馬丁和Pasley於伯克利大學進行的一項研究中,研究人員要求在大腦中植入了電極的參與者去想像自己正在大腦中大聲說出牛仔、遊泳、蟒蛇和電話等一系列單詞。不幸的是,軟體對「勺子」和「戰場」等詞的大腦信號的解釋準確性僅略高於50%。但這已經是一個很大的進步了,早期的系統在識別大腦活動在秘密講話的編碼信號時,它分辨哪些是元音哪些是輔音(甚至都不是一個完整的單詞)的正確率要低於40%。

伯克利分校的研究結果足以證明這一概念,但也只是僅此而已。Mesgarani 說:「(從那項研究和類似的研究中)重建的語言根本無法理解,我們正在努力克服這個可理解性障礙。」

他說,克服這個障礙最好的方法就是通過機器學習,或者訓練軟體來解釋與無聲語言相對應的大腦活動,從它自己的錯誤中學習,然後逐漸變得更好。

為了驗證他的想法,Mesgarani和Mehta進行了合作,Mehta為這項研究招募了5名癲癇患者。在他們的手術過程中,他在病人聽覺皮層的兩個區域的表面放置了電極網格(這個平面陣列被稱為皮質電圖),這兩個區域分別是顳橫回和顳上回。後者包含威爾尼克語言區(該區域負責確定使用哪些詞)。這兩個腦回區域都涉及到處理語言的特徵,包括音量、語調、頻率,以及至關重要的音素——構成口語的最小的聲音單位,如「sh」。

然後志願者們聽其他人說數字(一、二、三等),並聽30分鐘的故事,在這個過程中,聲學處理軟體提取了志願者由於聽語言所引起的神經活動(本質上是一組複雜的腦電信號序列)。隨後,Mesgarani和他的團隊開發的一個「深層神經網絡」(基本上可以推斷出對應神經活動的語言聲音)再對這種活動進行分析,分析得到的推論又會被轉換回電信號,發送到一個聲音編碼器(聲音編碼器是一個可以根據電信號的特徵,如頻率和其他聽覺元素產生聲音的合成器)。

整個過程就像把一輛法拉利的操作手冊從義大利語翻譯成英語,再從英語翻譯成日語,然後又從日語翻譯成義大利語一樣:最終的版本聽起來和原版經常根本不一樣,這也是之前關於大腦-計算機語音接口研究所得到的結果:一串幾乎聽不懂的聲音。Mesgarani說:「在這之前,你甚至不能很好地根據電子數據來重建語言。」

他的大腦-計算機界面所面臨的測試是聲音編碼器發出的微小聲音是否與故事的聲音和參與者聽到的數字有任何相似之處。科學家們在bioRxiv預印本網站上發表的一篇論文中稱,這個大腦-計算機界面系統的語言正確率達到了75%,相比之下,早期語言BCI正確率只有一半多一點;這篇論文尚未經過同行評審,但作者已將其提交給一家期刊。

將某人對某一特定語言表達方式的所有神經反應(多次重複)平均起來,可以提高重建合成語言的準確性,讀取陣列中128個電極的更多讀數也有一樣的效果。

Mesgarani說,研究的下一步是測試通過想像說話所引起的大腦信號的深層神經網絡。他說,「以前的研究已經表明,」探測編碼這種無聲語言的信號是「可能的」;語言處理和語言合成器才是研究一直以來的瓶頸。

他說,通過改進潛在語言BCI的後端,「對於從大腦活動中產生準確、可理解的重建語言,我們有了一個很好的框架」,他稱之為「邁向下一代人機互動系統的一步……為癱瘓和閉鎖症候群患者服務」。

一開始為殘疾人提供的技術可能會惠及到其他所有人(兩者順序可能會反過來)。在麻省理工學院(Massachusetts Institute of Technology) 2017年舉行的一次神經技術會議上,Facebook公司的馬克•切維萊特(Mark Chevillet)將該公司「打字的想法」BCI研究的指導思想描述為一個問題:「如果你能直接用大腦打字會怎麼樣?」

他指導的這個項目旨在「開發一種無聲的語音界面,讓你以比打字快5倍的速度生成文本,即每分鐘100個單詞」。該公司正在研究能否非侵入性地檢測到高質量的神經信號,以準確解碼成音素(因為即使是最狂熱的facebook用戶也不太可能為了打字快點而進行腦部手術)。如果可以的話,下一步就是將這些信號輸入一個將音素序列與單詞配對的資料庫,然後使用特定於語言的概率數據來預測這些信號最有可能表示的單詞(很像Gmail裡面的自動填充)。

Chevillet 在會議上說:「這不是科幻小說。」

本文來源前瞻網,轉載請註明來源。本文內容僅代表作者個人觀點,本站只提供參考並不構成任何投資及應用建議。(若存在內容、版權或其它問題,請聯繫:service@qianzhan.com) 品牌合作與廣告投放請聯繫:0755-33015062 或 hezuo@qianzhan.com

相關焦點

  • 科學家發明了一種「神經解碼器」,可以將大腦活動轉化為語言
    讀心術機器的想法可能會讓很多人感到震驚,但一種能將大腦活動轉化為語言的新設備,可能是那些失去聲音功能的病人走向生命線的第一步。但是現在,加州大學舊金山分校的科學家們已經證明了一種方法,可以將大腦記錄的信號轉換成可廣泛理解的句子。發表在《自然》雜誌上的研究人員採用了一種新的方法來解決這個問題。他們並沒有直接將大腦信號轉換成聲音,而是將其作為控制模擬聲道運動的指令,然後用合成器將這些運動轉換成語音。
  • 大腦信號能轉化成口語單詞 幫助患者表達思想
    微電極陣列,也被稱為微腦皮層電圖電極網格。一組微電極陣列排列成4*4的模式,被展示於一枚25美分硬幣上。據國外媒體報導,美國猶他大學科學家近日利用兩組植入癲癇患者大腦中的微電極陣列成功實現將大腦信號轉化為口語單詞。
  • 科學家利用動態電極繞過眼睛直接刺激大腦,在盲人腦海畫出字母
    長期以來,人們將視覺皮層假體(VCP)作為恢復盲人有用視力的一種策略,前提是假定通過視覺皮層的電刺激產生的小光斑的視覺感知將合併為視覺的連貫感知形式,例如視頻屏幕上的像素。在這項研究中,研究人員通過以動態順序刺激電極來在視覺皮層表面上追蹤形狀。無論是有視力的還是盲人,動態刺激都能準確識別大腦的視覺世界空間圖所預測的字母形狀。
  • 機器學習實現了腦機語言翻譯,那距離「意念交流」還有多遠?
    假如有一天我們的思想真的可以直接交流,即便有那麼多的好處,同樣那些個人的貪念、惡意也無法隱瞞,這些對我們人類來說都可能是一場巨大災難。在高等文明來臨前,私慾和惡意就會將人類推進深淵。不過,這種推論仍然是杞人憂天。一方面目前這種程度的「腦機接口」技術的實現還遙遙無期;另一方面,一旦人類動了「意念交流」的念頭,只要技術有任何可能的突破,好奇心都會驅使那些最聰明的人去實現它。
  • 英漢雙語-人工智慧可以將人類大腦活動轉化為語言,高科技
    對於許多癱瘓和不能說話的人來說,他們想說的話的信號隱藏在他們的大腦裡。目前還沒有人能夠直接破譯這些信號。但最近,三個研究小組在將電極植入大腦的數據轉化為計算機生成的語音方面取得了進展。他們利用被稱為神經網絡的計算模型,重建了在某些情況下人類聽眾能夠理解的單詞和句子。
  • 華裔教授AI解碼腦電波,大腦所想直接合成文本或語音
    3 月 30 日,《自然-神經科學》發表了美國加州大學舊金山分校華裔教授 Edward Chang 及同事開發的一款腦電波 AI 解碼器,能夠將大腦活動信號直接轉化為句子文本。從大腦「讀取」人的意圖說話似乎是一件毫不費力的事,但實際上說話卻是人類執行的最複雜的活動之一。十多年前,科學家首次從大腦信號中解碼語言,但是一直以來,語言解碼的準確性和速度遠遠低於自然語言交流。
  • 大腦能不能直接和網絡進行通信?
    這種通信方式是真正的心意相通和心靈控制,那麼在這個星球上任何的語言文字豈不是多餘的,倆人見面二話不說,掏辮子好了吧。這固然是科幻電影裡面的情節,與現代人的生活還比較遙遠。那麼有沒有可能實現大腦與網絡的通信呢,直接讀取大腦的神經元電信號,或者將外界信號回傳大腦,實現互相通信呢?
  • 下個開創時代--當思想控制機器
    William Kochevar先生在一次事故後雙肩以下癱瘓,仍能生活自理,這一突破歸功於植入他右臂的電極,刺激肌肉。更高階的魔力在於,Kochevar可以用思想控制手臂,他運動的意圖反映在大腦中運動皮層的神經活動中;這些信號被植入他的大腦,並被處理成指令激活他手臂上的電極。
  • 美軍打造讀心"頭盔" 無需語言手勢直接大腦交流
    五角大樓投入了630萬美元研究「人工心靈感應」,試圖打造一款讀心頭盔,戴上它之後,士兵無需語言和手勢就能通過大腦直接進行交流。雖然這一技術遠未成熟,但已經有人開始擔憂,它將被用於監控操縱公眾的思想,侵犯個人隱私。
  • 馬斯克的大腦植入技術或成終級武器?揭密美國國防部「大腦計劃」
    」,美國國防部高級研究項目局(DARPA)甚至在出資請科學家研發,無需手術就能讓人腦與機器實現快速無縫交流的技術,最終目標是打造可以用思想控制的武器。未來再將其與外部設備實現無線連接,最終實現人類與人工智慧(AI)之間的「共生」。這意味著所有神經元都將連接到用戶自己的AI擴展,就像今天人們使用的手機本質上已經成為自身器官的拓展一樣。只不過,這次開了腦洞後,人不再通過肢體與外部設備交付數據,而是把大腦神經活動直接轉化為信號來控制和互動。
  • 我國「腦語者」晶片突破:「意念」隔空打字成現實
    一名男生佩戴著布滿靈敏電極的黑色腦電極帽,緊盯屏幕,在無需雙手操作的情況下,通過「意念」「隔空打字」,將字符輸入指定區域。實驗室外,「隔空打字」的速度角逐,已在賽場上演。2019年8月,天津大學精密儀器與光電子工程學院神經工程與康復實驗室研究生魏斯文,在2019世界機器人大會的「BCI腦控機器人大賽暨第三屆中國腦機接口比賽」中,以最高每分鐘691比特的腦控打字解碼速度,奪得桂冠。
  • 「意念」打字成現實,國產「腦語者」晶片獲突破
    一名男生佩戴著布滿靈敏電極的黑色腦電極帽,緊盯屏幕,在無需雙手操作的情況下,通過「意念」「隔空打字」,將字符輸入指定區域。實驗室外,「隔空打字」的速度角逐,已在賽場上演。2019年8月,天津大學精密儀器與光電子工程學院神經工程與康復實驗室研究生魏斯文,在2019世界機器人大會的「BCI腦控機器人大賽暨第三屆中國腦機接口比賽」中,以最高每分鐘691比特的腦控打字解碼速度,奪得桂冠。普通人用手在觸屏手機上打字的速度,約為每分鐘600比特。
  • 腦機接口迎來新進展:一千個新材料電極直接植入大腦,可使用數十年
    來源:鈦媒體鈦媒體4月9日消息,美國杜克大學、西北大學和紐約大學的科研團隊,利用不到一微米厚的二氧化矽電極層,組成1008個電極傳感器的「神經矩陣」(Neural Matrix),形成柔性神經接口,植入到大腦皮層上,實現機器與人體大腦長期、直接的交互。
  • 腦波直接轉語音,最強讀心術!
    把大腦活動直接轉化成語音,這項研究潛力炸了。目前,系統只能恢復人類聽覺區信號的簡單詞彙,但研究者最終想找到腦電波與語音的關聯,讓失去語言能力的人重新開口說話。想像一下,失語的漸凍人或中風患者只要頭戴腦機接口設備,就能將所思所想直接轉化為文字語音。
  • 美國科學家研製出一套新系統 直接音譯大腦信號的設備
    美國科學家研製出一套新系統 直接音譯大腦信號的設備 來源:科技日報 • 2019-02-11 10:28:47
  • 科學家證實:人類大腦與大腦之間可直接交流
    大腦與大腦之間的直接交流多年來一直是人們強烈關注的話題,其動機多種多樣,既有未來學家的熱情,也有軍事上的迫切需要。米格爾·尼可萊利斯(Miguel Nicolelis)是該領域的領軍人物之一,他在《超越邊界》(Beyond Boundaries)一書中把人類大腦活動的融合描述為人類的未來,人類進化的下一個階段。
  • 科學家研發出「讀心術」,直接將腦電波翻譯成文本,錯誤率低至 3%
    美國加州大學舊金山分校的科學家,已經訓練出一種算法,可以直接將受試者的腦電波實時翻譯成句子,錯誤率僅為 3% 。這項研究發表在《自然神經科學》(Nature Neuroscience)雜誌上,他們招募了 4 位志願者,這些志願者被要求多次朗讀 30-50 個固定句子,而電極記錄下他們的大腦活動。
  • 法國發明出世界最快的電極:可將鋰電池的密度提高3倍
    ,可以從根本上提高現有和未來電池化學成分的性能,提供高達3倍的能量密度,10倍的功率,大大加快充電速度,電池壽命長達5倍。眾所周知,垂直排列的碳納米管的生長速度是非常非常快的。我們可以將垂直排列的納米管生長到,比方說,每分鐘100微米。在爐子裡只需要一分鐘。我們已經在非常大的表面上擴展了這一過程,並且在大氣壓下,在較低的溫度下工作的過程中,我們可以做到這一點,有點像印刷報紙。"納瓦公司現在已經有一個完整的生產裝置開始運行,為其超級電容器裝置提供垂直排列的碳納米管。
  • 谷歌大腦語言模型速度是 T5 速度的 7 倍
    機器學習當中,參數越多,理論上的精度越高(也極易產生過擬合),當然需要的算力也更多,GPT-3 使用了驚人的 1750 億參數,堪稱史上最大 AI 模型,沒想到這才多久,Google Brain 團隊就搞了一個大新聞,他們使用了 1.6 萬億參數推出了語言模型 Switch Transformer,比 T5 模型當中的 T5-XXL 模型還要快4倍,比基本的 T5 模型快了 7 倍。
  • 動態電極繞過眼睛直接刺激大腦,在盲人腦海畫出...
    5 月 14 日,國際頂級期刊《細胞》發表了一項黑科技成果,來自美國貝勒醫學院Daniel Yoshor 教授帶領的研究團隊:跳過眼睛,將視覺信息直接從相機傳遞到植入大腦的電極上,通過動態電流電極刺激大腦皮層,成功在受試者腦海中呈現指定的圖像,他們能夠把刺激正確識別為特定字母。