《Nature》子刊:不僅是語言,機器翻譯還能把腦波「翻譯」成文字

2020-11-30 機器之心Pro

機器之心編譯

參與:NeuR、張倩

如果將人腦的神經信號也視為一種語言,那麼將機器翻譯架構應用於解讀神經信號的可行性似乎並不令人驚訝。在《Nature Neuroscience》的一篇論文中,來自加州大學舊金山分校的研究者實踐了這一想法。他們用一個編碼器-解碼器框架將大腦神經信號轉換為文字,在 250 個詞的封閉句子集中將錯誤率降到了 3%。

論文連結:https://www.nature.com/articles/s41593-020-0608-8

在過去的十年裡,腦機接口(BMI)已經從動物實驗轉變為人類實驗,其中具有代表性的結果是使得四肢癱瘓者恢復一定的運動能力,在空間維度中的兩個自由度上實現連續運動。儘管這種類型的控制也可以與虛擬鍵盤結合使用來生成文本,但即使在理想的光標控制下(目前尚無法實現),碼字率仍受限於單指打字。另一種選擇是直接解碼口語,但到目前為止,這種 BMI 僅限於解碼孤立的音素或單音節,或者在中等數量詞彙(約 100 單詞)構成的連續語音中,正確解碼不到 40% 的單詞。

為了獲得更高的準確度,來自加州大學舊金山分校的研究者利用了「從神經活動解碼語音」與「機器翻譯」兩個任務之間的概念相似性。這兩種任務的目標都是在同一基礎分析單位的兩種不同表示之間建立映射。更確切地說,二者都是將一個任意長度的序列轉化為另一個任意長度的序列(任意是指輸入和輸出序列的長度不同,並且彼此之間沒有決定性的聯繫)。

在這項研究中,研究者試圖一次解碼一個句子,就像當下大多數機器翻譯算法一樣,因此這兩種任務實際上都映射到相同類型的輸出,即一個單詞序列對應於一個句子。另一方面,這兩種任務的輸入是存在很大區別的:分別是神經信號和文本。但是,當前機器翻譯架構可以通過人工神經網絡直接從數據中學習特徵,這表明機器翻譯的端到端學習算法幾乎可以直接運用於語音解碼。

為了驗證這一假設,在語音生成過程中,研究者利用從腦電圖(ECoG)獲得的神經信號以及相應口語的轉錄,訓練了一種「序列到序列」的架構。此外,這項任務和機器翻譯之間最重要的區別在於,後者的數據集可以包含超過 100 萬個句子,但構成該研究基礎的腦電圖研究中的單個參與者通常只提供幾千個句子。

為了在相對不足的訓練數據中利用端到端學習的優勢,研究者使用了僅包含 30-50 個不同句子的限制性「語言」,並且在某些情況下,採用了其他參與者的數據和其他語音任務的遷移學習。

這項研究的參與者從以下兩個數據集之一中大聲朗讀句子:一組圖片描述(30 句,約 125 個不同單詞),通常以一個會話的形式描述;或 MOCHATIMIT14(460 句,約 1800 個不同單詞),以 50 句分組的會話進行(最後一組 60 句),研究者稱之為 MOCHA-1、MOCHA-2 等等。在時間允許的情況下重複分組會話。對於測試,研究者只考慮了至少重複三次的句子集(即提供一組用於測試,至少提供兩組用於訓練),這在實踐中將 MOCHA-TIMIT 集限制為 MOCHA-1(50 句,約 250 個不同單詞)。

方法

這裡首先簡要描述解碼流程,如下圖所示:

研究者要求參與者大聲朗讀句子,同時利用高密度 ECoG 網格(ECoG grid)記錄他們 peri-Sylvian 皮質的神經活動。

在每個電極上,ECoG 信號的高頻分量(70-150Hz,即「high-γ」)的包絡線(即該範圍內分析信號的振幅)在大約 200Hz 處提取。然後將所得的序列(每個對應於一個句子)作為輸入數據傳遞到「編碼器-解碼器」式的人工神經網絡。

網絡分三個階段處理序列:

時間卷積:類似的特徵很可能在 ECoG 數據序列的不同點上重現,全連接的前饋網絡無法利用這樣的特點。

編碼器 RNN:下採樣序列被 RNN 按序處理。在每個時間步中,編碼器 RNN 的輸入由每個下採樣序列的當前樣本以及它自己的先前狀態組成。然後最終隱藏狀態(Final hidden state,上圖中的黃色條)提供整個序列的單個高維編碼,與序列長度無關。為了引導編碼器在訓練過程中找到有用的解,研究者還要求編碼器在每個時間步中預測語音音頻信號的表示,即梅爾頻率倒譜係數的序列 (MFCCs)。

解碼器 RNN:最後,高維狀態必須轉換回另一個序列,即單詞序列。因此,我們初始化第二個 RNN,然後訓練為在每個時間步驟解碼出一個單詞或序列結束 token(在該點終止解碼)。在輸出序列的每個步驟中,除了自身先前的隱藏狀態外,解碼器還以參與者實際說出句子中的前一個單詞作為輸入(在模型訓練階段),或者它自己在前一步預測的單詞作為輸入 (在測試階段)。與以前針對語音音素進行語音解碼的方法相比,該方法將單詞作為目標。

網絡架構。

整個網絡同時進行訓練,使編碼器生成值接近目標 MFCC,並使解碼器為每個目標詞分配高概率。請注意,MFCC 目標提供了一個「輔助損失」,這是一種多任務學習的形式,其目的僅僅是引導網絡找到解決詞序解碼問題的足夠好的解。在測試期間,MFCC 預測被丟棄不管,解碼完全基於解碼器 RNN 的輸出。所有的訓練都是通過反向傳播的隨機梯度下降進行的,並將 dropout 應用於所有的層。

實驗結果

在整個實驗過程中,研究者用平均單詞錯誤率 (WER,基於所有測試句子計算) 來量化性能,因此,完美解碼的 WER 為 0%。作為參考,在語音轉錄中,5% 的 WER 為專業水平,20-25% 為可接受的性能。這也是語音識別技術被廣泛採用的標準,儘管它的參考詞彙量要大得多。

我們首先考慮一個示例參與者說 MOCHA-1 的 50 個句子(大約 250 個不同單詞)時的編碼器-解碼器框架的性能(見下圖)。下圖中參與者的平均 WER 約為 3%。以前最先進方法的語音解碼 WER 是 60%,並使用較小的詞彙量(100 詞)進行實驗。

解碼句子的WERs。

編碼器-解碼器網絡的卓越性能源自什麼?為了量化其各種因素的貢獻,研究者系統地刪除或削弱了它們,並從頭開始訓練網絡。上圖中的第二個方框顯示了對數據進行空間下採樣以模擬較低密度 ECoG 網格的性能。具體來說,只留下了網格兩個維度上四分之一的通道(也就是說,實際上是 64 個通道,而不是 256 個通道)。WER 大約是原來的四倍,仍然在可用範圍內,這表明了除高密度網格外其它因素對於該算法的重要性。

第三個方框內顯示當 MFCC 在訓練過程中未被鎖定時的性能,其 WER 與使用低密度網格數據訓練的模型的 WER 接近,但仍然明顯優於先前的語音解碼方法。

接下來,研究者考慮一個輸入層是全連接而不是卷積的網絡(第四個框),WER 達到了原來的 8 倍。

然後考慮實現高性能需要多少數據。下圖顯示了四個參與者的 WER,作為神經網絡訓練重複次數的函數。沒有任何參與者的訓練數據總量超過 40 分鐘,當至少有 15 次重複訓練時,WER 可能低於 25% 以下。

在下圖中,有兩名參與者,他們在 MOCHA 句子上的訓練次數很少 (參與者 a/綠色實線,參與者 d/棕色實線),因此解碼性能較差。

相關焦點

  • 腦機接口利器,從腦波到文本,只需要一個機器翻譯模型
    作者 | 賈偉編輯 | 蔣寶尚機器翻譯真的是萬能的,不僅能夠寫詩、對對聯、推導微分方程,還能夠讀取腦波信息。他們將腦波到文本的轉換視為機器翻譯的過程,腦波為輸入序列,文本為輸出序列。通過讓受試者朗讀文本,收集相應腦區的電波,構成訓練數據集,然後去訓練一個端到端的機器翻譯模型。通過這種方式,他們獲得了一個模型,這個模型能夠將受試者的腦波「準確」、「實時」地轉換為句子文本,而錯誤率僅為3%。
  • 將科幻變成現實,谷歌百度用神經機器翻譯踐行人類的「巴別塔之夢」
    機器之心作者:iCombinator機器翻譯之夢今天,當我們很自然的拿出手機,選擇一個谷歌、百度或微軟的翻譯 app ,輕而易舉的完成文字翻譯、拍照翻譯和實時語音翻譯時,我們可能不會意識到由於深度學習的出現和數據量的積累,研究數十年的機器翻譯問題已經變得可用並走入了我們的生活,給我們帶來了極大便利。
  • 機器翻譯進化史:用計算機取代同聲傳譯?
    基於 6 項語法規則和 250 字詞彙表的俄英翻譯系統,能將「Mi pyeryedayem mislyi posryedstvom ryechyi」翻譯成「我們通過語音傳遞思想」。瓦倫·韋弗的構想被實現了,出於軍事、政治、經濟等多方面因素考慮的政府也開始大量撥款支持研究。
  • 重磅| 谷歌神經機器翻譯再突破:實現高質量多語言翻譯和zero-shot...
    Google Translate 產品負責人 Barak Turovsky 在谷歌舊金山的一次新聞發布會上說:「這一次的進步超過了過去十年積累的總和。」谷歌已經將自己的未來定義成了一家人工智慧和機器學習公司——使用這些技術的計算機無需特定的編程就能自己學習執行任務。
  • 古文字被AI破譯,MIT和谷歌開發失傳語言的機器翻譯系統
    首先需要知道,不管哪種語言,機器翻譯的關鍵都在於認識到文字間聯結的相似性。因此整個過程是從繪製特定語言的聯結開始,這需要龐大的文本資料庫,機器在這個文本資料庫中查驗每個字符與其他字符在多大頻率上聯結在一起。這種表現非常獨特,它在多重參數空間上定義了這個詞語。實際上,這個詞語可以視為空間內一個向量,這個向量在機器對任何語言的翻譯結果中都起到重要的約束作用。
  • 2020國際機器翻譯大賽:火山翻譯力奪五項冠軍
    在11月下旬結束的自然語言處理頂級學術會議EMNLP2020上,國際機器翻譯大賽(WMT20)公布了賽事最終結果,來自字節跳動火山引擎旗下的火山翻譯(Volctrans)在39支參賽隊伍中殺出重圍,以顯著優勢在「中文-英語」語向翻譯項目上拿下了冠軍。
  • 搜狗機器翻譯團隊獲得 WMT 2017 中英機器翻譯冠軍
    採用了 Geoffrey Hinton 團隊提出的網絡層正則化(layer normalization)技術,極大提高了模型訓練效率,同時改善了模型的翻譯質量。從這一張「技巧清單」中,我們可以看出,搜狗的機器翻譯團隊在自然語言處理和深度學習方面有非常深厚的積累。
  • 微軟提出新型通用神經機器翻譯方法,挑戰低資源語言翻譯問題
    近日微軟發布博客,提出一種半監督通用神經機器翻譯方法,解決低資源語言機器翻譯的問題,幫助解決方言和口語機器翻譯難題。該研究相關論文已被 NAACL 2018 接收。機器翻譯已經成為促進全球交流的重要組成部分。
  • 機器翻譯的最新進展與瓶頸所在
    谷歌翻譯目前可提供63種主要語言之間的實時翻譯;它可以提供所支持的任意兩種語言之間的互譯,包括字詞、句子、文本和網頁翻譯。另外它還可以幫助用戶閱讀搜索結果、網頁、電子郵件、YouTube視頻字幕以及其它信息,用戶甚至還能在Gmail內進行實時的多語言對話。
  • 微信表情怎麼翻譯成文字方法 微信表情翻譯你是不是很喜歡我
    微信表情翻譯我喜歡你怎麼翻譯成文字?許多用戶都還不太清楚這個翻譯成文字,下面就讓小編為大家帶來,微信表情翻譯我喜歡你翻譯成文字方法。  微信表情怎麼翻譯成文字方法  之前用戶和微信翻譯玩遊戲時就曾發現不少彩蛋,比如「You are my shadiao friend」之前就會被翻譯為「你是我的好朋友」,想到「沙雕」這個詞中調笑的意味,你似乎也不能說這個翻譯是錯的。而有的語音信息在轉文字後也會有表情翻譯的信息出現,比如「太生氣了」就能召喚出一個[發怒]的表情。
  • 中到英新聞翻譯媲美人類,微軟機器翻譯新突破
    微軟語音、自然語言與機器翻譯的技術負責人黃學東稱之為自然語言處理最具挑戰性任務中的重要裡程碑。他對機器之心說:「我們的新系統相比之前的翻譯系統有非常大的提升,因此它確實是一個重大突破,是一個歷史性的裡程碑。」「機器翻譯達到人類水平是我們所有人的夢想,」黃說道,「我們只是沒想到這麼快就實現了。」
  • 多模態話語:翻譯不只是語言文字
    翻譯,作為溝通不同語言的橋梁,在人類的歷史進程和文化傳播過程中具有不可磨滅的意義,翻譯發展至今,已經不再局限於傳統的文字和字幕翻譯,在科學技術的支持下,翻譯實現著從人工領域向機器領域的擴展,其中衍生出諸多的翻譯產品,例如翻譯軟體、翻譯機等,滿足人們在多種場景下的使用需求。
  • 除了下圍棋,人工智慧也能無師自通學會雙語翻譯了
    經過幾十年的努力,人類終於逐漸學會用機器翻譯。用機器學習翻譯經歷了很多階段:起初是基於規則的翻譯。最簡單的翻譯方法是逐字翻譯。如「我愛你」翻譯成「I love you」。隨著句子越來越複雜,語言學家們發現了越來越多的規則,用程序實現。下一個階段是用統計方法進行翻譯。專家把一句話分成塊,把每一塊所有可能的翻譯都找到,選擇機率最大的。最後將所有的句子生成,找到最有可能的。
  • 機器之心獨家對話百度 NLP:先解決語義理解,再談機器翻譯取代人類
    由於國外的醫療研究比國內先進,很多人會藉助機器翻譯技術來看文檔。而這種語料若進入語料庫,翻譯系統學出來的還是機器翻譯的句子。第二種噪聲是來自於惡搞。比如我們最早的時候看到「how old are you」,翻譯成「怎麼老是你」。因為語料裡面「how old are you」,全是「怎麼老是你」,出現頻次非常高。第三種是翻譯得不地道的。
  • 重磅| 谷歌大腦養成記:從識別貓到突破性機器翻譯
    例如,如果你想要從英語翻譯到日語,你要把英語的所有語法規則編程到計算機,然後是牛津英語詞典中的所有定義。接下來你還要把日語的語法規則與單詞編程,只有所有的語句用源語言輸入之後才能讓它把語句翻譯成目標語言。這種觀念通常被稱為符號人工智慧,因為它對認知的定義是基於符號邏輯的。但這種老舊的方法主要有兩個問題。第一個就是這樣做非常耗費人工時間。
  • Google Go App正式推出 翻譯文字還能念出來
    這次的Google Go結合Lens文字辨識系統,不但能翻譯圖像中的文字,還能將辨識出的文字念出來,讓無法讀寫或文字語言不通的人,成為他們獲取文本資訊的方法。這次Google Go的Lens功能,主要是使用Google翻譯的神經機器翻譯演算法,一次翻譯一整個句子,為了讓翻譯結果更加實用,Lens會在影像畫面上,直接翻譯文字覆蓋影像,像對ATM按鈕翻譯,Google Lens會直接在按鈕上覆蓋經翻譯的文字,而且考慮到呈現的結果,系統會自動調整字型大小、顯示的背景顏色要素等,儘可能無縫的與圖像疊加。
  • 如何識別圖片中的文字?華為5大免費識別文字翻譯技巧
    2.AR翻譯 「拍照翻譯」 華為的相機除了可以拍美美的照片之外,其實他還是一個翻譯高手,通過AR翻譯模式,你就可以輕鬆通過拍照的方式來進行翻譯 操作:點擊進入手機的相機,點擊左上角的圖標進入智慧視覺界面,包括有掃碼、翻譯、購物、識物四種模式,選擇翻譯模式,然後對準自己的翻譯內容拍照,自動檢測語言後即可輕鬆識別並翻譯出來。
  • 未來的世界:機器翻譯VS人工翻譯
    的確,參與其中的朋友們從奓著膽子承接生疏任務到主動探索新的發展之路,從單純傳授雙語轉換技能到積極擁抱翻譯智能技術,從堅守學者型獨立翻譯空間到參與規模化項目資源管理,從各校各學科各語種獨自開發到跨校跨學科跨語種的聯盟運作,從文字翻譯單一教育到語言服務整體規劃,從西學東漸型譯介到外向型中國文化外譯,從翻譯碩士專業學位教育到包括學碩博的翻譯教育體系全覆蓋,這個複雜過程中的每一步無不浸透著翻譯教育者和語言服務從業精英們的執著
  • 漫畫文字自動翻譯
    計劃上線封裝好的自動翻譯引擎,不僅面向出版社提供漫畫的自動化翻譯與發行服務,也會發布面向個人用戶的服務。因此,團隊開發了針對漫畫優化的文本識別模塊,通過檢測文本行和識別每個文本行的字符來實現對異形文字的識別。內容識別在漫畫中,最常見的文字就是角色之間的對話,對話文字氣泡還會被切割成多塊。這就要求自動化機器翻譯需要準確區分角色,還得聯繫上下文注意主語的銜接、避免重複,這都對機器翻譯提出了更高的要求。
  • AI 如何成為百度翻譯 DAU 高速增長的引擎?
    在「巴別塔倒下」的日子裡,人類社會一直沒有放棄不同語言之間的翻譯。特別是在 2020 年剛剛過去的這個春天,當人類社會意義需要緊密聯繫在一起的時候,語言翻譯,更是承載著各個國家團結一致、共同抗疫的訴求。也是在剛剛過去的這個季度,百度旗下的翻譯產品百度翻譯獲得眾多關注。