「實時翻譯耳機」橫空出世,深度剖析三大核心技術|獨家

2020-12-05 DeepTech深科技

(《麻省理工科技評論》中英文版APP現已上線,年度訂閱用戶每周直播科技英語講堂,還有科技英語學習社區哦~)

實際上,耳機是一個非常成熟的產業,全球一年市場銷售量超過 3.3 億對,每年維持穩定的成長。根據調研機構 Statista 預估,2016 年全球耳機銷量約 3.34 億對,預估 2017 年會成長到 3.68 億對。其成長可以解釋的成因除了真正無線(True Wireless)之外,再有的就是智能功能了。

同時,耳機產品也是一個相當分眾的市場,追求音質的用戶或是電競玩家往往願意付大錢購買具有高音質、立體聲、高舒適度的產品,運動族群更在乎的則是防水、減少汗水或運動造成耳機掉落、或是具有生理量測的產品,另外也一群人是追求時尚、品牌而購買昂貴的耳機,例如 Apple 收購的 BEATS 。

不可否認的是,消費者可能每天會戴耳機聽音樂,但不會每天都有跟外國人對話的需求,這讓實時翻譯成為一種有也不錯而非必須性的附加性功能,因此耳機業者多會將其與更多功能結合,包括無線、智能語音助理等,因此實時翻譯耳機雖後端整合了許多深度學習的技術,目前看來仍是話題性遠高於實用性。

今年 Google 發表了一系列的硬體產品,其中 Pixel Buds 藍牙耳機除了可以呼叫 Google Assistant 外,最吸睛的就是結合自家 Google 翻譯可支持 40 種語言實時翻譯的功能。

不久之前,韓國最大搜尋引擎 NAVER 旗下的通訊軟體 LINE 也推出 MARS 翻譯耳機,對話的兩個人各自使用一個耳塞,就能立即從耳機中聽到翻譯的語音,背後同樣是仰仗自家的 AI 平臺 Clova 及 Papago 即時翻譯服務,目前可支持 10 種語言。

圖|LINE 的 MARS 翻譯耳機獲得 CES 2018 最佳創新獎。(圖片來源:LINE)

圖|LINE 的 MARS 翻譯耳機是一人使用一個耳塞,讓說不同語言的兩個人也能溝通。(圖片來源:LINE)

總部位於深圳的耳機公司萬魔(1more)聲學海外事業部總經理陳穎達接受 DT 君採訪時分析,耳機的新趨勢就是真正無線(True Wireless Earbuds)藍牙耳機+智能功能。在蘋果推出 AirPods 之後,True Wireless 的趨勢就確立下來了,音源與耳機或是左右耳的相通,完全不需要線路連接,跟過去藍牙耳機的左右耳還是有線相連不同。

在智能功能方面有三大塊,首先是支持生物識別運動追蹤(biometric sports tracking)的運動耳機,例如可監測用戶心率、計算運動過程中燃燒的卡路裡等,市場需求看好;第二則是整合語音助理如 Apple Siri、Google Assistant ;第三就是實時翻譯

耳機的優勢在於普及性及方便性,是啟動個人化智能服務、翻譯對話最直觀的第一個入口,除了大企業,不少初創或音響公司都看好這塊市場,例如德國品牌 Bragi 繼推出防水(可於遊泳使用)、測量心跳的產品,又進一步推出結合 AI 技術及 iTranslate 應用,可實時翻譯的 The Dash Pro 耳機,另外英國的 Mymanu Clik 耳機也可支持 37 種語言即時翻譯。

雖然說在市場層面還存在疑問,實時翻譯耳機在技術上確實已經取得較大的進展。那麼,這些強調利用 AI 技術的實時翻譯耳機背後究竟是如何運作的呢?「三大核心:語音識別+機器翻譯+語音合成,」臺灣的中研院資訊科技創新研究中心副研究員曹昱清楚點出關鍵。

整個流程就是,耳機聽到對方講話的內容,識別出這是什麼語言如英文、西班牙文等,並且把語音變成文字,第二步驟以翻譯引擎進行文字對文字的翻譯,最後就是把翻譯結果做語音合成,播放出來。可以想成這是集合了聽寫員、翻譯員、朗讀員三個角色於一身。只不過,實際上每一個核心涉及的技術多且複雜。

圖|實時翻譯耳機三核心:語音識別、語言翻譯、語音合成(圖片來源:微軟研究院)

一、語音識別

首先使用的技術就是語音識別,Speech Recognition、自動語音識別(ASR,Automatic Speech Recognition)等都是常見的技術詞彙,目的就是把說話者的語音內容轉變為文字,目前多是以使用深度神經網絡(DNN,Deep Neural Network)、遞歸神經網絡(RNN,Recurrent Neural Network)為主。

圖|語音識別的主要流程。(數據來源:Amazon)

語音識別的應用場景相當廣泛,像是車內互動控制、智能助理、智能音箱、居家機器人等,主要的研究方向包括降噪、長距離識別等,目的都是為了提升識別度,例如居家機器人的問題就必須突破長距離語音識別的問題。

無線耳機有四個關鍵零組件:喇吧單體、麥克風、藍牙晶片以及電池。一家外商聲學公司對 DT 君表示,要支持實時翻譯,麥克風就很關鍵,收音要夠清楚,語音識別度才會高,在硬體上多會使用指向性麥克風,並且搭配語音識別算法,判斷聲音是來自講話者或環境,進而強化人聲,降低環境噪音的幹擾。

過去語音識別主要是採用高斯混合模型(GMM,Gaussian Mixture Model)+隱馬爾科夫模型(HMM,Hidden Markov Model)、支持向量機(SVM,Support Vector Machine)算法等,一直到神經網絡之父 Geoffrey Hinton 提出深度信念網絡(DBN,Deep Belief Network),促使了深度神經網路研究的復甦,並且將 DNN 應用於語音的聲學建模,獲得更好的表現,之後微軟研究院也對外展示出利用 DNN 在大規模語音識別取得顯著的效果提升,大量的研究陸續轉向了 DNN,近來又有不少基於遞歸神經網絡開發的語音識別系統,例如 Amazon Echo 就使用了 RNN 架構。

二、機器翻譯從規則、SMT 走向 NMT

第二個階段就是翻譯,在人工智慧中,機器翻譯一直是許多人想突破的領域,概念就是通過分析原始語言(Source Language)找出其結構,並將此結構轉換成目標語言(Target Language)的結構,再產生出目標語言。

初期多是採取把語言規則寫進系統的方式,但這種以規則為主的機器翻譯(RBMT,Rule-based Machine Translation)是將人類譯者或是語言學家建構的詞彙、文法、語意等規則寫成電腦程式,但語言規則難以窮盡,而且例外、俚語也不少,除了耗費人力,翻譯結果的準確性也遭人詬病,使得機器翻譯的發展一度被打入冷宮。

到了 80 年代晚期,IBM 率先展開並提出統計式機器翻譯(SMT,Statistical Machine Translation)理論,主要的研究人員 Peter Brown 、 Robert Mercer 等陸續發表《A Statistical Approach to Machine Translation》、《The Mathematics of Machine Translation: Parameter Estimation》論文,不僅被視為是該領域的開山之作,也再次引爆了機器翻譯的熱潮。

SMT 主要是通過搜集大量的原文與譯文,通過統計模型讓電腦學習字詞的產生、轉換、排列,形成合宜的句子,簡單來說,例如 1000 句中文就有 1000 句英文進行對照,像是聯合國有 6 種官方語言文件,加拿大政府的官方文件也有英文及法文,以及辭典,都是常被使用的素材。

不過,就在 SMT 火紅了,並且成為機器翻譯領域的主流技術之後,這兩位專家卻加入知名的量化基金公司 Renaissance Technologies,跑去華爾街用數學及統計模型分析股票、管理基金,變成了 10 億美元級別的富豪。

「以機器翻譯而言,20 年前 IBM 播種,20 年後 Google 收穫」,臺灣清華大學自然語言處理研究室教授張俊盛曾如此形容。

Google 翻譯是目前全球擁有最多用戶的翻譯平臺,2000 年初 Google 就開始投入機器翻譯的研究,並且延攬了多位重量級人物協助開發,包括語音公司 Nuance 創始人 Michael Cohen 、知名機器翻譯專家 Franz Och 等人。

最初負責領導整個 Google 翻譯架構及服務開發的 Franz Och 曾表示,Google 翻譯計劃在 2001 年啟動時只支持 8 種語言,速度很慢、品質不佳,到了 2006 年他們開始採用統計式機器翻譯,並且同時利用大量的語料庫作為訓練。身為搜尋引擎龍頭,優勢就是可通過網絡搜集龐大的語料庫、雙語平行數據,提升機器翻譯的水平。

圖|統計式翻譯的概念。(圖片來源:National Research Council of Canada)

那時 Google 採用 SMT 中最普及的一個算法——片語為本的機器翻譯(PBMT,Phrase-based Machine Translation),把一個句子切成多個單字(words)或短語(phrases)之後個別翻譯。不過,這位 Google 翻譯之父在 2014 年離開 Google 加入生醫初創公司 Human Longevity,現則任職於癌症篩檢初創公司 Grail。

但 Franz Och 的離開,並未對 Google 造成太大困擾,因為幾年前 Google 就開始使用 RNN 來學習原文與譯文之間的映射,到了 2016 年下旬 Google 正式發表翻譯服務上線 10 年以來最大的改版,宣布轉向採用類神經機器翻譯(NMT,Neural Machine Translation),也就是現在大家耳熟能詳的深度學習神經網絡模型,以多層次的神經網絡連結原文與譯文,輸出的字詞顧慮到全句文脈,同時,也使用了大量 Google 自家開發的 TPU 來處理複雜運算,一舉提升翻譯的水平。

其實,利用深度神經網絡進行機器翻譯的概念在 2012、2013 年就被提出,DeepMind 研究科學家 Nal Kalchbrenner 和 Phil Blunsom 提出了一種端到端的編碼器-解碼器結構,「不過,一直到 Google 出了論文,用 NMT 取代 SMT,讓大家完全相信神經網絡在翻譯是可行的,現在幾乎所有公司都轉向 NMT,我個人的想法是大概再三年機器翻譯就可以達到人類翻譯的水準」,專攻深度學習機器翻譯的初創公司真譯智能創辦人呂慶輝如是說。

此後,NMT 成為了新一代機器翻譯的主流,採用這種技術的服務在 2016 年下半年開始大量問世,Facebook 在今年 5 月也宣布將翻譯模型從 PBMT 轉向了 NMT。

Google 翻譯產品負責人 Barak Turovsky 不久前接受媒體採訪時表示:「SMT 是一種老派的機器學習(an old school machine learning)」,在網絡上查找人類已經翻譯過的內容,將其放進一個超大型的索引中,機器就開始看統計模式學習翻譯。PBMT 的局限就在於必須把句子切成好幾塊,執行翻譯時只能同時考量少數幾個文字,而不是考慮上下文,所以如果要翻譯的語言是屬於不同語序結構,就會顯得相當困難。

NMT 最大的突破就是它的運作方式類似於大腦,將一整個文句視為是一個翻譯單元(unit),而非將文句切成好幾塊,這有兩個優點,一是減少工程設計的選擇,二是可依據上下文判斷,提升翻譯的正確性及流暢性,聽起來會更自然。

在 NMT 技術中,除了遞歸神經網絡(RNN)、卷積神經網絡(CNN)、序列到序列(sequence-to-sequence)的長期短期記憶模型(LSTM,Long Short-term Memory)之外,近期的研究焦點包括了自注意力(Self-Attention)機制、以及利用生成式對抗網絡(GAN,Generative Adversarial Networks)來訓練翻譯模型。

三、語音合成追求人類般的自然

實時翻譯耳機的第三步驟就是語音合成(Speech Synthesis)或稱為文本轉語音(TTS,Text to Speech),也就是讓電腦把翻譯好的文字變成語音,並播放出來。重點在於如何生成更逼真的語音、更像人類說話的口氣跟語調。

讓電腦講人話的企圖心同樣在很早期就出現,1970 年代就有了第一代的 TTS 系統,例如半導體公司德州儀器(TI)開發數位訊號處理(DSP)晶片,還推出一個 Speak&Spell 玩具,會把打字的內容念出來,幫助小朋友學習。之後隨著科技的進步,合成技術也從單音、片段變為可產生連續式的語音。

簡單來說,要讓電腦發出與人類相似的語音,通常會先錄下人類或配音員說話,建立錄音樣本,再把單字切成音素(phoneme),並對錄音進行分析,量測語調、速度等,建立語音模型,就可以製造出先前未錄下的單字或句子。接著當文字輸入,系統會選出適合的音素、音調、速度進行重組,再把這段文字轉成語音播放出來,就像人說話一樣。

圖|TI 開發的 Speak&Spell 成為美國知名的玩具。(圖片來源:Amazon)

「目前語音合成技術應該就是 DeepMind 開發的 WaveNet 最自然」,曹昱指出。

語音合成以拼接式 TTS(concatenative TTS)為基礎,需要大量的人類語音片段作為資料庫,但如果想要轉換為另一位說話者、或是加強語氣或情緒,就必須重建新的資料庫才能做到,使得修改語音的難度很高。

因此,出現了另一種參數式 TTS(parametric TTS),產生數據所需的所有信息都被存儲在模型的參數之中,只要通過模型的輸入值,就能控制語音的內容和特色,再把輸出值丟到語音編碼器(Vocoders)來產生聲音,是一種完全由機器生成的語音,優點是成本較低,缺點則是機械味較重。

而 WaveNet 使用 CNN 架構,同樣是拿人類說話作為訓練素材,但不像拼接式 TTS 把聲音切成許多片段,而是使用原始波形,而且為了讓聲音更逼真,也必須告訴機器文本(text)內容是什麼,所以也將把文本轉換為語言或語音特徵餵給機器,「不僅要考慮以前的音頻樣本,還要靠慮文本內容」,所以還可以做出像人類講話時的口氣停頓或是呼吸的聲音。這些都讓 WaveNet 的語音合成更有「人味」,今年 10 月 Google 宣布把最新版本的 WaveNet 放到美式英文版以及日文版的 Google Assistant 中。

圖|DeepMind 開發的 WaveNet 提高了語音合成的逼真度。(圖片來源:DeepMind)

隨著深度學習技術的發展,不論是在語音識別、機器翻譯、還是語音合成,都可看到應用水平已有所提升,不過,實時翻譯耳機的實際應用仍無法滿足所有人,舉例來說,Google Pixel Buds 的翻譯功能只限於 Pixel 2 手機使用,而且要一句一句說,還無法提供連續性的翻譯,例如當你想要用它來看外國電影,這個方法就行不通。

另外,Pixel Buds 的麥克風收取使用者的聲音,然後通過手機大聲說出翻譯,對有些人還是會感到有一些尷尬。而 LINE 的 Mars 耳機是讓對話的兩人各戴一個耳塞,翻譯的內容只有自己聽得到,看似可以解決這個尷尬問題,但實際效果如何還得待 2019 年上市後才知道。

雖然實時翻譯耳機還不夠完美,是否能夠通過市場的檢驗還未可知,但要往零阻礙溝通的方向前進,AI 無疑將扮演重要的角色。

相關焦點

  • 出國旅行必備 可實時翻譯的智能耳機
    但針對語言障礙這個難題,美國的一個初創團隊給出了不錯的解決方案,Waverly Labs公司推出了一款名為Pilot的智能耳機,據了解,該設備可實現多種語言實時在線翻譯,有效改善語言障礙等難題。出國旅行必備 可實時翻譯的智能耳機  該公司位於紐約的曼哈頓地區,且這款耳機可實現商業化產品,當用戶聽到句子後可傳輸到手機中,在手機完成計算翻譯後,可實時反饋到用戶的耳中。
  • 機器翻譯三大核心技術原理 | AI知識科普
    核心翻譯模塊是將輸入的字符單元、序列翻譯成目標語言序列的過程,這是機器翻譯中最關鍵最核心的地方。後處理模塊是將翻譯結果進行大小寫的轉化、建模單元進行拼接,特殊符號進行處理,使得翻譯結果更加符合人們的閱讀習慣。
  • AlphaGo將應用於谷歌翻譯 炒股機器人橫空出世
    日前,關於人工智慧有兩條新聞值得關注,一是谷歌宣布將把AlphaGo技術應用於谷歌翻譯,二是中國一家證券公司開發的A股機器人,經過三個月的時間,以24.06%(年化96%)的累計收益率戰勝了98%的用戶,炒股機器人橫空出世……  AlphaGo將應用於谷歌翻譯
  • 能實時翻譯的真無線智能耳機,它值199元麼?
    那就接著往下看吧 ~這次小度耳機有別於其它耳機最大的不同,就在於它具備了實時翻譯功能,可以在我們耳朵裡把從歪果仁嘴裡說出來的英語直接翻譯成母語。是的,你沒有聽錯。耳機總共擁有三種翻譯模式,分別對應了不同的使用場景,為了搞清楚小度的翻譯功能是否真的像它宣傳的那麼厲害,託尼也是實際上手體驗了一番。首先是它的 「 流浪地球模式 」,在這個模式下,我們可以在 App 中提前設置好其中一隻耳機說英文,另外一隻耳機說中文,然後兩人各戴一隻耳機。
  • 從四個維度深度剖析雷射雷達核心技術
    從四個維度深度剖析雷射雷達核心技術雷射雷達(LiDAR)的產業化熱潮來源於自動駕駛汽車的強烈需求。在美國汽車工程師學會(SAE)定義的L3級及以上的自動駕駛汽車之中,作為3D視覺傳感器的雷射雷達彰顯了其重要地位,為自動駕駛的安全性提供了有力保障。
  • 谷歌翻譯即將推出Google智能助理耳機
    無線Google Pixel Buds可能沒有提供最佳的便攜性或音頻質量,但它們仍然是令人印象深刻的耳機。Google智能助理支持 Pixel Buds 最令人興奮的功能之一是它能夠使用Google翻譯實時翻譯。這使得在旅行時與外國同事,朋友,家人或任何陌生人交談變得更加容易。
  • 半入耳式藍牙耳機有哪些比較好用?半入耳無線耳機排行榜
    1、Nank南卡lite藍牙耳機優點:性價比高、音質好、顏值高使用人群:遊戲人群、打電話、隨身攜帶Nank南卡藍牙耳機的配置在同價位是頂尖的了,Nank南卡lite搭載技術更複雜、成本更高的高通晶片,以及13mm超大動圈單元,再加上獨家SR密封圈工藝
  • 深度體驗搜狗翻譯寶:離線翻譯+實景拍照翻譯很實用
    ware-搜狗公司並不是第一家推出旅行翻譯工具的公司。隨著出境遊日益升溫,人們對實時翻譯工具的需求也在不斷增加,應運而生的有手機翻譯軟體,以及翻譯硬體。然而,在實際使用過程中,這些產品都或多或少的讓使用者陷入尷尬。
  • 不會英語也能全球去浪的翻譯耳機 要上市了!
    (Bear)還記得在2016年WaverlyLabs在Indiegogo上發起了Pilot實時翻譯智能耳機的眾籌嗎?這是一款佩戴之後可以實時翻譯對方語言的耳機,而無需配備翻譯或者長時間等待的創新性產品。在MWC2017移動世界大會上,WaverlyLabs展示了這款有趣的翻譯耳機,並且表示將在今年年底之前上市,售價為299美元(約合人民幣2050元)。不過這只是WaverlyLabs公司的預期,而這個時間點的前提是一切順利,而目前在MWC2017上展示的只是Pilot的原型機。
  • 日本開發出翻譯耳機:2秒譯出語音 含中日英文
    中新網12月19日電 據日媒報導,近日,日本總務省下屬的信息通信研究機構開發出了可自動翻譯英語、中文和日語會話的耳機。據悉,佩戴耳機的人之間進行對話時,可通過耳機聽到由人工智慧(AI)譯為各自母語的內容。該機構將向企業等提供翻譯技術等,力爭實用化。
  • 可以實時翻譯?AI與雲端運算助攻,即時翻譯耳機成CES展競技熱點
    人工智慧和雲端運算的發展讓即時翻譯機日臻完善,此刻在拉斯維加斯舉行的美國消費電子展(CES)即有多款趨向輕量、精緻化,且翻譯準確度及速度較以往提升的商品。美國紐約新創公司Waverly Labs 的Pilot 耳機能即時翻譯15 種語言。
  • Skype Translator實時語音翻譯技術原理
    【IT168 評論】近日,微軟正式宣布在中國市場推出Skype Translator實時語音翻譯技術的中文預覽版。對於英文不好的小夥伴們,這無疑是個利好,從此中英文溝通無障礙。
  • 全球首款,黑科技同步翻譯耳機~支持英日法韓俄西班牙6種語音
    「 戴上耳機,即可與對方同步語音翻譯交流了科大訊飛重磅推出翻譯界的最新黑科技神器同聲翻譯 智能耳機對方說外語,耳機就會同聲語音翻譯出來哦~。。。著名語音AI品牌科大訊飛與咪咕聯合打造了一款智能翻譯耳機,全球首款全語音人工智慧耳機——Mobius「莫比斯」智能翻譯無線耳機,不僅是耳朵上的翻譯大師,更是集超多功能於一身。。。
  • 翻譯要失業?微軟「原聲」實時語音翻譯軟體亮相
    今年早些時候,我們報導過微軟正在研發的一款「原聲」語音翻譯軟體,它能把用戶說的話翻譯成其他語言播放出來,同時保留用戶本身的口音、音色和語調,聽上去就像用戶親口說的一樣。今天,微軟發布了該軟體的最新演示視頻,微軟首席研究官瑞克•拉希德(Rick Rashid)在視頻中利用該軟體大秀還算標準的中國普通話。
  • 精講深度學習RNN三大核心點,三分鐘掌握循環神經網絡
    本文將剖析循環神經網絡(RNN)的工作原理,精講循環神經網絡的特點和實現方式。野蠻智能,小白也能看懂的人工智慧。循環神經網絡從何而來?我在我的這篇文章介紹了卷積神經網絡(CNN)卷積神經網絡(CNN)核心知識點匯總,三分鐘讓你從小白到精通,卷積神經網絡主要用來處理計算機視覺問題,在計算機「看」的過程中,主要是進行特徵的對比
  • 時空壺同聲翻譯耳機全新升級,離線翻譯正式上線
    6月18日,深圳時空壺技術有限公司旗下智能翻譯設備時空壺同聲翻譯耳機(Timekettle WT2 Plus)迎來全新功能升級。據了解,此次時空壺同聲翻譯耳機最顯著的更新是上線離線翻譯及全新UI交互方式,並新增4個翻譯語種9個翻譯口音,截止目前共支持40種語言,93種口音。整體而言,新版時空壺同聲翻譯耳機為用戶提供了更加人性化和便捷高效的翻譯體驗。
  • 谷歌翻譯將升級:可實現實時聽譯和拍照翻譯
    據《紐約時報》報導,谷歌計劃針對旗下翻譯應用進行全新升級,支持將語音翻譯成所需語言的文本。目前,谷歌翻譯(Google Translate)支持90種語言的翻譯。此前,微軟旗下視頻通話服務Skype已推出語音翻譯功能,而谷歌也將對其翻譯應用進行類似升級。
  • 揭秘:搜狗語音實時翻譯是怎麼煉成的
    雖然搜狗語音實時翻譯將王小川說的「搜索的未來就是人工智慧時代的皇冠」準確翻譯成了「In the future, search will be the Crown of the AI Era」,但王小川坦言,在演示之前沒做預先的試驗,對效果並沒有把握,就連他也是捏著一把冷汗,也不認為機器可以把人幹掉。然而,新技術的突破總會讓人感到興奮。
  • 聚焦商務、外語練習高頻場景,「時空壺」讓翻譯更自然
    田力表示,時空壺成立的初衷是讓翻譯這件事儘可能接近於兩個沒有語言障礙的人在溝通的場景。 這在這款產品上有著很好的體現。WT2同聲翻譯耳機使用時可以多方佩戴耳機,連接時空壺自有APP,可以實現雙向實時進行翻譯,由自然語言處理技術(ASR)、機器翻譯(MT)以及語音合成(TTS)三個方面的AI技術共同實現。
  • 耳機大講堂國產系列:符合國人中庸之道飛朵專業HiFi音樂耳機
    本人記住飛朵可能有點愣,飛朵的耳機定價比較隨性,也是奇葩的一種吧。對於品牌的設立,幾款特別的型號,拿來給大家分享一下,確實有必要。 飛朵品牌創立人及首席調音師Benny Tan,擁有二十年為全球著名耳機廠牌研發和設計頂級耳機產品經歷,從耳機喇叭到聲學腔體,從音頻線材再到聲音調教……在耳機設計的方方面面都有獨特的技術見解和深厚的調教經驗。