《Nature》子刊:不僅是語言,機器翻譯還能把腦波「翻譯」成文字

2020-12-20 機器之心Pro

機器之心編譯

參與:NeuR、張倩

如果將人腦的神經信號也視為一種語言,那麼將機器翻譯架構應用於解讀神經信號的可行性似乎並不令人驚訝。在《Nature Neuroscience》的一篇論文中,來自加州大學舊金山分校的研究者實踐了這一想法。他們用一個編碼器-解碼器框架將大腦神經信號轉換為文字,在 250 個詞的封閉句子集中將錯誤率降到了 3%。

論文連結:https://www.nature.com/articles/s41593-020-0608-8

在過去的十年裡,腦機接口(BMI)已經從動物實驗轉變為人類實驗,其中具有代表性的結果是使得四肢癱瘓者恢復一定的運動能力,在空間維度中的兩個自由度上實現連續運動。儘管這種類型的控制也可以與虛擬鍵盤結合使用來生成文本,但即使在理想的光標控制下(目前尚無法實現),碼字率仍受限於單指打字。另一種選擇是直接解碼口語,但到目前為止,這種 BMI 僅限於解碼孤立的音素或單音節,或者在中等數量詞彙(約 100 單詞)構成的連續語音中,正確解碼不到 40% 的單詞。

為了獲得更高的準確度,來自加州大學舊金山分校的研究者利用了「從神經活動解碼語音」與「機器翻譯」兩個任務之間的概念相似性。這兩種任務的目標都是在同一基礎分析單位的兩種不同表示之間建立映射。更確切地說,二者都是將一個任意長度的序列轉化為另一個任意長度的序列(任意是指輸入和輸出序列的長度不同,並且彼此之間沒有決定性的聯繫)。

在這項研究中,研究者試圖一次解碼一個句子,就像當下大多數機器翻譯算法一樣,因此這兩種任務實際上都映射到相同類型的輸出,即一個單詞序列對應於一個句子。另一方面,這兩種任務的輸入是存在很大區別的:分別是神經信號和文本。但是,當前機器翻譯架構可以通過人工神經網絡直接從數據中學習特徵,這表明機器翻譯的端到端學習算法幾乎可以直接運用於語音解碼。

為了驗證這一假設,在語音生成過程中,研究者利用從腦電圖(ECoG)獲得的神經信號以及相應口語的轉錄,訓練了一種「序列到序列」的架構。此外,這項任務和機器翻譯之間最重要的區別在於,後者的數據集可以包含超過 100 萬個句子,但構成該研究基礎的腦電圖研究中的單個參與者通常只提供幾千個句子。

為了在相對不足的訓練數據中利用端到端學習的優勢,研究者使用了僅包含 30-50 個不同句子的限制性「語言」,並且在某些情況下,採用了其他參與者的數據和其他語音任務的遷移學習。

這項研究的參與者從以下兩個數據集之一中大聲朗讀句子:一組圖片描述(30 句,約 125 個不同單詞),通常以一個會話的形式描述;或 MOCHATIMIT14(460 句,約 1800 個不同單詞),以 50 句分組的會話進行(最後一組 60 句),研究者稱之為 MOCHA-1、MOCHA-2 等等。在時間允許的情況下重複分組會話。對於測試,研究者只考慮了至少重複三次的句子集(即提供一組用於測試,至少提供兩組用於訓練),這在實踐中將 MOCHA-TIMIT 集限制為 MOCHA-1(50 句,約 250 個不同單詞)。

方法

這裡首先簡要描述解碼流程,如下圖所示:

研究者要求參與者大聲朗讀句子,同時利用高密度 ECoG 網格(ECoG grid)記錄他們 peri-Sylvian 皮質的神經活動。

在每個電極上,ECoG 信號的高頻分量(70-150Hz,即「high-γ」)的包絡線(即該範圍內分析信號的振幅)在大約 200Hz 處提取。然後將所得的序列(每個對應於一個句子)作為輸入數據傳遞到「編碼器-解碼器」式的人工神經網絡。

網絡分三個階段處理序列:

時間卷積:類似的特徵很可能在 ECoG 數據序列的不同點上重現,全連接的前饋網絡無法利用這樣的特點。

編碼器 RNN:下採樣序列被 RNN 按序處理。在每個時間步中,編碼器 RNN 的輸入由每個下採樣序列的當前樣本以及它自己的先前狀態組成。然後最終隱藏狀態(Final hidden state,上圖中的黃色條)提供整個序列的單個高維編碼,與序列長度無關。為了引導編碼器在訓練過程中找到有用的解,研究者還要求編碼器在每個時間步中預測語音音頻信號的表示,即梅爾頻率倒譜係數的序列 (MFCCs)。

解碼器 RNN:最後,高維狀態必須轉換回另一個序列,即單詞序列。因此,我們初始化第二個 RNN,然後訓練為在每個時間步驟解碼出一個單詞或序列結束 token(在該點終止解碼)。在輸出序列的每個步驟中,除了自身先前的隱藏狀態外,解碼器還以參與者實際說出句子中的前一個單詞作為輸入(在模型訓練階段),或者它自己在前一步預測的單詞作為輸入 (在測試階段)。與以前針對語音音素進行語音解碼的方法相比,該方法將單詞作為目標。

網絡架構。

整個網絡同時進行訓練,使編碼器生成值接近目標 MFCC,並使解碼器為每個目標詞分配高概率。請注意,MFCC 目標提供了一個「輔助損失」,這是一種多任務學習的形式,其目的僅僅是引導網絡找到解決詞序解碼問題的足夠好的解。在測試期間,MFCC 預測被丟棄不管,解碼完全基於解碼器 RNN 的輸出。所有的訓練都是通過反向傳播的隨機梯度下降進行的,並將 dropout 應用於所有的層。

實驗結果

在整個實驗過程中,研究者用平均單詞錯誤率 (WER,基於所有測試句子計算) 來量化性能,因此,完美解碼的 WER 為 0%。作為參考,在語音轉錄中,5% 的 WER 為專業水平,20-25% 為可接受的性能。這也是語音識別技術被廣泛採用的標準,儘管它的參考詞彙量要大得多。

我們首先考慮一個示例參與者說 MOCHA-1 的 50 個句子(大約 250 個不同單詞)時的編碼器-解碼器框架的性能(見下圖)。下圖中參與者的平均 WER 約為 3%。以前最先進方法的語音解碼 WER 是 60%,並使用較小的詞彙量(100 詞)進行實驗。

解碼句子的WERs。

編碼器-解碼器網絡的卓越性能源自什麼?為了量化其各種因素的貢獻,研究者系統地刪除或削弱了它們,並從頭開始訓練網絡。上圖中的第二個方框顯示了對數據進行空間下採樣以模擬較低密度 ECoG 網格的性能。具體來說,只留下了網格兩個維度上四分之一的通道(也就是說,實際上是 64 個通道,而不是 256 個通道)。WER 大約是原來的四倍,仍然在可用範圍內,這表明了除高密度網格外其它因素對於該算法的重要性。

第三個方框內顯示當 MFCC 在訓練過程中未被鎖定時的性能,其 WER 與使用低密度網格數據訓練的模型的 WER 接近,但仍然明顯優於先前的語音解碼方法。

接下來,研究者考慮一個輸入層是全連接而不是卷積的網絡(第四個框),WER 達到了原來的 8 倍。

然後考慮實現高性能需要多少數據。下圖顯示了四個參與者的 WER,作為神經網絡訓練重複次數的函數。沒有任何參與者的訓練數據總量超過 40 分鐘,當至少有 15 次重複訓練時,WER 可能低於 25% 以下。

在下圖中,有兩名參與者,他們在 MOCHA 句子上的訓練次數很少 (參與者 a/綠色實線,參與者 d/棕色實線),因此解碼性能較差。

相關焦點

  • 搜狗機器翻譯團隊獲得 WMT 2017 中英機器翻譯冠軍
    採用了 Geoffrey Hinton 團隊提出的網絡層正則化(layer normalization)技術,極大提高了模型訓練效率,同時改善了模型的翻譯質量。從這一張「技巧清單」中,我們可以看出,搜狗的機器翻譯團隊在自然語言處理和深度學習方面有非常深厚的積累。
  • 2020國際機器翻譯大賽:火山翻譯力奪五項冠軍
    在11月下旬結束的自然語言處理頂級學術會議EMNLP2020上,國際機器翻譯大賽(WMT20)公布了賽事最終結果,來自字節跳動火山引擎旗下的火山翻譯(Volctrans)在39支參賽隊伍中殺出重圍,以顯著優勢在「中文-英語」語向翻譯項目上拿下了冠軍。
  • Kakao翻譯大改版!有19種語言並支持342種雙向翻譯
    芯科技(文/西卡),韓國Kakao的人工智慧(AI)翻譯服務「Kakaoi翻譯」進行大幅度改版,增加至19種語言,並支持342種雙向翻譯。Kakaoi翻譯於1年半前進入翻譯市場,正積極追趕谷歌、韓國知名Papago等翻譯服務。據《韓國日報》報導,這比韓國知名的Papago翻譯多4種語言。Kakaoi原本僅有韓語、中文(簡體)、英語、日語、印尼語及越南語,共6種語言,本次更新增加葡萄牙語、阿拉伯語、俄語、泰語、義大利語、孟加拉語、馬列西亞語以及印地語。
  • 機器翻譯:谷歌翻譯是如何對幾乎所有語言進行翻譯的?
    全文共13204字,預計學習時長34分鐘谷歌翻譯大家想必都不陌生,但你有沒有想過,它究竟是如何將幾乎所有的已知語言翻譯成我們所選擇的語言?本文將解開這個謎團,並且向各位展示如何用長短期記憶網絡(LSTM)構建語言翻譯程序。
  • 機器翻譯取代人肉翻譯將不再是夢
    「早期的機器翻譯,比較像字典,計算機僅進行一個字一個字的轉換,加上一些簡單的語法規則。」谷歌翻譯研發經理陳雍昇說,上世紀80年代個人電腦開始普及之後,機器翻譯的技術才開始有了突破,不僅語法處理變得更為複雜完善,統計式的機器翻譯技術也初步被使用。  十年前,機器學習的翻譯方式開始出現,這是一種人工智慧,機器自己可以學習,可以像人學外語一樣,逐漸掌握語言的規則模式。
  • 機器之心獨家對話百度 NLP:先解決語義理解,再談機器翻譯取代人類
    由於國外的醫療研究比國內先進,很多人會藉助機器翻譯技術來看文檔。而這種語料若進入語料庫,翻譯系統學出來的還是機器翻譯的句子。第二種噪聲是來自於惡搞。比如我們最早的時候看到「how old are you」,翻譯成「怎麼老是你」。因為語料裡面「how old are you」,全是「怎麼老是你」,出現頻次非常高。第三種是翻譯得不地道的。
  • Emoji 表情翻譯神器:將文字翻譯成表情
    對於表情黨們來說單一的一個Emoji 表情並不能滿足自己的聊天需求,用一連串的Emoji 表情代替語言表達更是讓人期待。那麼目前正在研發中的 Emoji 表情翻譯工具正好可以滿足大家的這種需求。emoji表情翻譯工具的主要是構建一個emoj表情詞庫,類似於中英文互譯,可以將emoj表情翻譯成英文或者將簡單的英文句子翻譯成一連串的emoj表情。
  • 重磅| 谷歌大腦養成記:從識別貓到突破性機器翻譯
    例如,如果你想要從英語翻譯到日語,你要把英語的所有語法規則編程到計算機,然後是牛津英語詞典中的所有定義。接下來你還要把日語的語法規則與單詞編程,只有所有的語句用源語言輸入之後才能讓它把語句翻譯成目標語言。這種觀念通常被稱為符號人工智慧,因為它對認知的定義是基於符號邏輯的。但這種老舊的方法主要有兩個問題。第一個就是這樣做非常耗費人工時間。
  • 突破語言障礙,「WorldTalk」以即時翻譯切入國際化陌生人社交市場
    12月3日,谷歌官方公布了2019年度「Google Play最佳作品」,其中,最佳應用程式(App)為「Ablo」。這是一款國際社交應用,支持實時翻譯用戶的文字聊天和視頻通話內容,允許用戶「在全世界結交新朋友」。
  • 業界| 搜狗知音引擎再進一步,實現語音實時翻譯
    陳偉表示:「語音斷句有幾個好處,靜音片段不進行語音識別,大大提升解碼效率。同時語音片斷可以分割成多句並行識別,大大提高了語音識別的效率。」語音斷句其次就是語音識別,就是把語音轉化成文本,其中語音識別會非常依賴兩個模型,一個是聲學模型,描述了發音單元對應的模型和聲音信號之間的相似性。
  • 翻譯界的重大突破——谷歌翻譯整合神經網絡,翻譯質量接近人工筆譯
    幾年之前,我們開始使用循環神經網絡(RNN:Recurrent Neural Networks)來直接學習一個輸入序列(如一種語言的一個句子)到一個輸出序列(另一種語言的同一個句子)的映射。其中基於短語的機器學習(PBMT)將輸入句子分解成詞和短語,然後很大程度上對它們進行獨立地翻譯,而神經機器翻譯(NMT)則將整個輸入句子視作翻譯的基本單元。
  • 「青海省民族語言文字翻譯應急服務推廣及應用論壇」召開
    為了進一步提升民族語文翻譯應急服務能力,省民族語文翻譯工作者協會於12月9日至11日召開了「青海省民語翻譯應急服務推廣及應用論壇」,全省民語、新聞、出版、教育、科研、期刊、網際網路等40家單位的60位嘉賓和代表參加了此次論壇。
  • OPPO榮獲機器翻譯大賽第一名,但這項技術我們早有體會
    2020年10月10日-12日,全國機器翻譯大會在線上召開,相信有很多小夥伴還不了解這個大會,這裡普及一下,全國機器翻譯大會是由中國中文信息學會機器翻譯專委會定期舉辦的全國年度學術會議,是國內機器翻譯領域最有影響力,最權威的學術會議和評測賽事之一。
  • 機器翻譯七十年:百度領跑神經網絡翻譯時代
    中新網12月22日電 機器翻譯距今已有70年的發展歷史。自上世紀40年代起,基於規則、實例以及統計的機器翻譯方法漸次登場,各領風騷。近兩年,神經網絡機器翻譯(Neural Machine Translation, NMT)技術異軍突起,取得了翻譯質量的大幅躍升。
  • 出國旅遊帶上它,省下請翻譯的錢 - qob 雙人翻譯 #iOS
    而在異國他鄉的我們由於語言的不通,常會遇到一些比較棘手的問題,比如問路、點餐等,有時甚至還會因為語言問題導致衝突的發生。好在市面上已經有許多翻譯軟體正致力於解決這一問題。儘管大多都是機器翻譯,但至少能滿足基本需求。其中,qob 就是一款新出的設計直觀、用戶體驗十分友好的即時外語語音翻譯應用。今天就跟著 AppSo(微信公眾號 AppSo)來看看它到底好不好用吧。
  • Facebook 100種語言互譯模型原始碼公開!機器翻譯再也不用英語當...
    智東西(公眾號:zhidxcom)編 | 子佩智東西10月23日消息,Facebook近期開源其M2M-100原始碼,這是首個可以不依賴英語數據而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。
  • Google翻譯應用程式的離線神經機器翻譯支持59種語言
    據外媒Techcrunch報導,目前,當iOS和Android版Google翻譯應用聯網後,其翻譯質量遠遠優於離線時的翻譯質量。這是因為離線翻譯是基於短語的,這意味著它們使用的是舊版機器翻譯技術,而不是聯網時可以訪問的機器學習驅動的系統。但這種況正在改變。
  • 聲之形:把「喜歡」聽成「月亮」,夏目漱石的翻譯謠言
    不僅得到了原諒,甚至硝子還喜歡上他。影片中硝子的告白也給人留下了深刻的印象。鼓起勇氣地開口,卻因為有些奇怪的發音,加上將也作為欺凌者根本不敢奢望得到受害人的青睞。喜歡(suki)便被聽成了月亮(tsuki)。
  • 機器翻譯能力免費開放 讓機器翻譯技術普惠大眾
    機器翻譯是解決不同語言之間交流障礙的重要技術手段,自1949年由Wareen Weaver提出迄今已經走過了70個年頭。隨著深度學習技術、計算機算力和網際網路技術的飛速發展,機器翻譯技術已經迭代到第三代神經機器翻譯技術,其翻譯效果的快速提升,讓該項技術在促進民生、經濟、文化交流等方面的起到了積極的作用。也催生了越來越多的科研團隊、企業投入到機器翻譯技術研究和相關產品的開發中。
  • 連續兩年獲全國機器翻譯大賽第一,OPPO AI翻譯解鎖新成就
    機器翻譯作為近幾年爆發的新興技術領域,受到越來越多人的認可。在剛剛過去的2020年全國機器翻譯大會中,有一家企業在翻譯領域取得了非常不錯的成績,成為本次大賽中最亮眼的存在。在全國機器翻譯大會公布的離線任務的評測結果中,OPPO繼去年參賽並獲得了兩條賽道的冠亞軍後,今年再次斬獲多個第一。具體來看,OPPO參加了全部6條翻譯賽道,獲得5個賽道的第一名,1個賽道的第二名;同時參與了語料過濾賽道,獲得了該賽道子任務(5億詞規模)的第一名。