「實時翻譯耳機」橫空出世,深度剖析三大核心技術|獨家

2020-12-15 DeepTech深科技

(《麻省理工科技評論》中英文版APP現已上線,年度訂閱用戶每周直播科技英語講堂,還有科技英語學習社區哦~)

實際上,耳機是一個非常成熟的產業,全球一年市場銷售量超過 3.3 億對,每年維持穩定的成長。根據調研機構 Statista 預估,2016 年全球耳機銷量約 3.34 億對,預估 2017 年會成長到 3.68 億對。其成長可以解釋的成因除了真正無線(True Wireless)之外,再有的就是智能功能了。

同時,耳機產品也是一個相當分眾的市場,追求音質的用戶或是電競玩家往往願意付大錢購買具有高音質、立體聲、高舒適度的產品,運動族群更在乎的則是防水、減少汗水或運動造成耳機掉落、或是具有生理量測的產品,另外也一群人是追求時尚、品牌而購買昂貴的耳機,例如 Apple 收購的 BEATS 。

不可否認的是,消費者可能每天會戴耳機聽音樂,但不會每天都有跟外國人對話的需求,這讓實時翻譯成為一種有也不錯而非必須性的附加性功能,因此耳機業者多會將其與更多功能結合,包括無線、智能語音助理等,因此實時翻譯耳機雖後端整合了許多深度學習的技術,目前看來仍是話題性遠高於實用性。

今年 Google 發表了一系列的硬體產品,其中 Pixel Buds 藍牙耳機除了可以呼叫 Google Assistant 外,最吸睛的就是結合自家 Google 翻譯可支持 40 種語言實時翻譯的功能。

不久之前,韓國最大搜尋引擎 NAVER 旗下的通訊軟體 LINE 也推出 MARS 翻譯耳機,對話的兩個人各自使用一個耳塞,就能立即從耳機中聽到翻譯的語音,背後同樣是仰仗自家的 AI 平臺 Clova 及 Papago 即時翻譯服務,目前可支持 10 種語言。

圖|LINE 的 MARS 翻譯耳機獲得 CES 2018 最佳創新獎。(圖片來源:LINE)

圖|LINE 的 MARS 翻譯耳機是一人使用一個耳塞,讓說不同語言的兩個人也能溝通。(圖片來源:LINE)

總部位於深圳的耳機公司萬魔(1more)聲學海外事業部總經理陳穎達接受 DT 君採訪時分析,耳機的新趨勢就是真正無線(True Wireless Earbuds)藍牙耳機+智能功能。在蘋果推出 AirPods 之後,True Wireless 的趨勢就確立下來了,音源與耳機或是左右耳的相通,完全不需要線路連接,跟過去藍牙耳機的左右耳還是有線相連不同。

在智能功能方面有三大塊,首先是支持生物識別運動追蹤(biometric sports tracking)的運動耳機,例如可監測用戶心率、計算運動過程中燃燒的卡路裡等,市場需求看好;第二則是整合語音助理如 Apple Siri、Google Assistant ;第三就是實時翻譯

耳機的優勢在於普及性及方便性,是啟動個人化智能服務、翻譯對話最直觀的第一個入口,除了大企業,不少初創或音響公司都看好這塊市場,例如德國品牌 Bragi 繼推出防水(可於遊泳使用)、測量心跳的產品,又進一步推出結合 AI 技術及 iTranslate 應用,可實時翻譯的 The Dash Pro 耳機,另外英國的 Mymanu Clik 耳機也可支持 37 種語言即時翻譯。

雖然說在市場層面還存在疑問,實時翻譯耳機在技術上確實已經取得較大的進展。那麼,這些強調利用 AI 技術的實時翻譯耳機背後究竟是如何運作的呢?「三大核心:語音識別+機器翻譯+語音合成,」臺灣的中研院資訊科技創新研究中心副研究員曹昱清楚點出關鍵。

整個流程就是,耳機聽到對方講話的內容,識別出這是什麼語言如英文、西班牙文等,並且把語音變成文字,第二步驟以翻譯引擎進行文字對文字的翻譯,最後就是把翻譯結果做語音合成,播放出來。可以想成這是集合了聽寫員、翻譯員、朗讀員三個角色於一身。只不過,實際上每一個核心涉及的技術多且複雜。

圖|實時翻譯耳機三核心:語音識別、語言翻譯、語音合成(圖片來源:微軟研究院)

一、語音識別

首先使用的技術就是語音識別,Speech Recognition、自動語音識別(ASR,Automatic Speech Recognition)等都是常見的技術詞彙,目的就是把說話者的語音內容轉變為文字,目前多是以使用深度神經網絡(DNN,Deep Neural Network)、遞歸神經網絡(RNN,Recurrent Neural Network)為主。

圖|語音識別的主要流程。(數據來源:Amazon)

語音識別的應用場景相當廣泛,像是車內互動控制、智能助理、智能音箱、居家機器人等,主要的研究方向包括降噪、長距離識別等,目的都是為了提升識別度,例如居家機器人的問題就必須突破長距離語音識別的問題。

無線耳機有四個關鍵零組件:喇吧單體、麥克風、藍牙晶片以及電池。一家外商聲學公司對 DT 君表示,要支持實時翻譯,麥克風就很關鍵,收音要夠清楚,語音識別度才會高,在硬體上多會使用指向性麥克風,並且搭配語音識別算法,判斷聲音是來自講話者或環境,進而強化人聲,降低環境噪音的幹擾。

過去語音識別主要是採用高斯混合模型(GMM,Gaussian Mixture Model)+隱馬爾科夫模型(HMM,Hidden Markov Model)、支持向量機(SVM,Support Vector Machine)算法等,一直到神經網絡之父 Geoffrey Hinton 提出深度信念網絡(DBN,Deep Belief Network),促使了深度神經網路研究的復甦,並且將 DNN 應用於語音的聲學建模,獲得更好的表現,之後微軟研究院也對外展示出利用 DNN 在大規模語音識別取得顯著的效果提升,大量的研究陸續轉向了 DNN,近來又有不少基於遞歸神經網絡開發的語音識別系統,例如 Amazon Echo 就使用了 RNN 架構。

二、機器翻譯從規則、SMT 走向 NMT

第二個階段就是翻譯,在人工智慧中,機器翻譯一直是許多人想突破的領域,概念就是通過分析原始語言(Source Language)找出其結構,並將此結構轉換成目標語言(Target Language)的結構,再產生出目標語言。

初期多是採取把語言規則寫進系統的方式,但這種以規則為主的機器翻譯(RBMT,Rule-based Machine Translation)是將人類譯者或是語言學家建構的詞彙、文法、語意等規則寫成電腦程式,但語言規則難以窮盡,而且例外、俚語也不少,除了耗費人力,翻譯結果的準確性也遭人詬病,使得機器翻譯的發展一度被打入冷宮。

到了 80 年代晚期,IBM 率先展開並提出統計式機器翻譯(SMT,Statistical Machine Translation)理論,主要的研究人員 Peter Brown 、 Robert Mercer 等陸續發表《A Statistical Approach to Machine Translation》、《The Mathematics of Machine Translation: Parameter Estimation》論文,不僅被視為是該領域的開山之作,也再次引爆了機器翻譯的熱潮。

SMT 主要是通過搜集大量的原文與譯文,通過統計模型讓電腦學習字詞的產生、轉換、排列,形成合宜的句子,簡單來說,例如 1000 句中文就有 1000 句英文進行對照,像是聯合國有 6 種官方語言文件,加拿大政府的官方文件也有英文及法文,以及辭典,都是常被使用的素材。

不過,就在 SMT 火紅了,並且成為機器翻譯領域的主流技術之後,這兩位專家卻加入知名的量化基金公司 Renaissance Technologies,跑去華爾街用數學及統計模型分析股票、管理基金,變成了 10 億美元級別的富豪。

「以機器翻譯而言,20 年前 IBM 播種,20 年後 Google 收穫」,臺灣清華大學自然語言處理研究室教授張俊盛曾如此形容。

Google 翻譯是目前全球擁有最多用戶的翻譯平臺,2000 年初 Google 就開始投入機器翻譯的研究,並且延攬了多位重量級人物協助開發,包括語音公司 Nuance 創始人 Michael Cohen 、知名機器翻譯專家 Franz Och 等人。

最初負責領導整個 Google 翻譯架構及服務開發的 Franz Och 曾表示,Google 翻譯計劃在 2001 年啟動時只支持 8 種語言,速度很慢、品質不佳,到了 2006 年他們開始採用統計式機器翻譯,並且同時利用大量的語料庫作為訓練。身為搜尋引擎龍頭,優勢就是可通過網絡搜集龐大的語料庫、雙語平行數據,提升機器翻譯的水平。

圖|統計式翻譯的概念。(圖片來源:National Research Council of Canada)

那時 Google 採用 SMT 中最普及的一個算法——片語為本的機器翻譯(PBMT,Phrase-based Machine Translation),把一個句子切成多個單字(words)或短語(phrases)之後個別翻譯。不過,這位 Google 翻譯之父在 2014 年離開 Google 加入生醫初創公司 Human Longevity,現則任職於癌症篩檢初創公司 Grail。

但 Franz Och 的離開,並未對 Google 造成太大困擾,因為幾年前 Google 就開始使用 RNN 來學習原文與譯文之間的映射,到了 2016 年下旬 Google 正式發表翻譯服務上線 10 年以來最大的改版,宣布轉向採用類神經機器翻譯(NMT,Neural Machine Translation),也就是現在大家耳熟能詳的深度學習神經網絡模型,以多層次的神經網絡連結原文與譯文,輸出的字詞顧慮到全句文脈,同時,也使用了大量 Google 自家開發的 TPU 來處理複雜運算,一舉提升翻譯的水平。

其實,利用深度神經網絡進行機器翻譯的概念在 2012、2013 年就被提出,DeepMind 研究科學家 Nal Kalchbrenner 和 Phil Blunsom 提出了一種端到端的編碼器-解碼器結構,「不過,一直到 Google 出了論文,用 NMT 取代 SMT,讓大家完全相信神經網絡在翻譯是可行的,現在幾乎所有公司都轉向 NMT,我個人的想法是大概再三年機器翻譯就可以達到人類翻譯的水準」,專攻深度學習機器翻譯的初創公司真譯智能創辦人呂慶輝如是說。

此後,NMT 成為了新一代機器翻譯的主流,採用這種技術的服務在 2016 年下半年開始大量問世,Facebook 在今年 5 月也宣布將翻譯模型從 PBMT 轉向了 NMT。

Google 翻譯產品負責人 Barak Turovsky 不久前接受媒體採訪時表示:「SMT 是一種老派的機器學習(an old school machine learning)」,在網絡上查找人類已經翻譯過的內容,將其放進一個超大型的索引中,機器就開始看統計模式學習翻譯。PBMT 的局限就在於必須把句子切成好幾塊,執行翻譯時只能同時考量少數幾個文字,而不是考慮上下文,所以如果要翻譯的語言是屬於不同語序結構,就會顯得相當困難。

NMT 最大的突破就是它的運作方式類似於大腦,將一整個文句視為是一個翻譯單元(unit),而非將文句切成好幾塊,這有兩個優點,一是減少工程設計的選擇,二是可依據上下文判斷,提升翻譯的正確性及流暢性,聽起來會更自然。

在 NMT 技術中,除了遞歸神經網絡(RNN)、卷積神經網絡(CNN)、序列到序列(sequence-to-sequence)的長期短期記憶模型(LSTM,Long Short-term Memory)之外,近期的研究焦點包括了自注意力(Self-Attention)機制、以及利用生成式對抗網絡(GAN,Generative Adversarial Networks)來訓練翻譯模型。

三、語音合成追求人類般的自然

實時翻譯耳機的第三步驟就是語音合成(Speech Synthesis)或稱為文本轉語音(TTS,Text to Speech),也就是讓電腦把翻譯好的文字變成語音,並播放出來。重點在於如何生成更逼真的語音、更像人類說話的口氣跟語調。

讓電腦講人話的企圖心同樣在很早期就出現,1970 年代就有了第一代的 TTS 系統,例如半導體公司德州儀器(TI)開發數位訊號處理(DSP)晶片,還推出一個 Speak&Spell 玩具,會把打字的內容念出來,幫助小朋友學習。之後隨著科技的進步,合成技術也從單音、片段變為可產生連續式的語音。

簡單來說,要讓電腦發出與人類相似的語音,通常會先錄下人類或配音員說話,建立錄音樣本,再把單字切成音素(phoneme),並對錄音進行分析,量測語調、速度等,建立語音模型,就可以製造出先前未錄下的單字或句子。接著當文字輸入,系統會選出適合的音素、音調、速度進行重組,再把這段文字轉成語音播放出來,就像人說話一樣。

圖|TI 開發的 Speak&Spell 成為美國知名的玩具。(圖片來源:Amazon)

「目前語音合成技術應該就是 DeepMind 開發的 WaveNet 最自然」,曹昱指出。

語音合成以拼接式 TTS(concatenative TTS)為基礎,需要大量的人類語音片段作為資料庫,但如果想要轉換為另一位說話者、或是加強語氣或情緒,就必須重建新的資料庫才能做到,使得修改語音的難度很高。

因此,出現了另一種參數式 TTS(parametric TTS),產生數據所需的所有信息都被存儲在模型的參數之中,只要通過模型的輸入值,就能控制語音的內容和特色,再把輸出值丟到語音編碼器(Vocoders)來產生聲音,是一種完全由機器生成的語音,優點是成本較低,缺點則是機械味較重。

而 WaveNet 使用 CNN 架構,同樣是拿人類說話作為訓練素材,但不像拼接式 TTS 把聲音切成許多片段,而是使用原始波形,而且為了讓聲音更逼真,也必須告訴機器文本(text)內容是什麼,所以也將把文本轉換為語言或語音特徵餵給機器,「不僅要考慮以前的音頻樣本,還要靠慮文本內容」,所以還可以做出像人類講話時的口氣停頓或是呼吸的聲音。這些都讓 WaveNet 的語音合成更有「人味」,今年 10 月 Google 宣布把最新版本的 WaveNet 放到美式英文版以及日文版的 Google Assistant 中。

圖|DeepMind 開發的 WaveNet 提高了語音合成的逼真度。(圖片來源:DeepMind)

隨著深度學習技術的發展,不論是在語音識別、機器翻譯、還是語音合成,都可看到應用水平已有所提升,不過,實時翻譯耳機的實際應用仍無法滿足所有人,舉例來說,Google Pixel Buds 的翻譯功能只限於 Pixel 2 手機使用,而且要一句一句說,還無法提供連續性的翻譯,例如當你想要用它來看外國電影,這個方法就行不通。

另外,Pixel Buds 的麥克風收取使用者的聲音,然後通過手機大聲說出翻譯,對有些人還是會感到有一些尷尬。而 LINE 的 Mars 耳機是讓對話的兩人各戴一個耳塞,翻譯的內容只有自己聽得到,看似可以解決這個尷尬問題,但實際效果如何還得待 2019 年上市後才知道。

雖然實時翻譯耳機還不夠完美,是否能夠通過市場的檢驗還未可知,但要往零阻礙溝通的方向前進,AI 無疑將扮演重要的角色。

相關焦點

  • Line推出實時翻譯耳機,可翻譯10種語言
    科技改變生活12月4日,即時通訊應用開發商Line推出了一款叫做Mars的實時翻譯耳機,可翻譯漢語、韓語、英語、日語、西班牙語、法語、義大利語、越南語、泰語及印度尼西亞語10種語言。據悉,這款耳機搭載的即時翻譯系統是Line母公司NAVER研發的Papago,這是一款內置深度神經網絡的即時翻譯系統。
  • 實時翻譯耳機到底發展到什麼程度了?
    如今,智能音箱無疑是家居場景下語音交互技術的最佳載體。那麼在車載、戶外、旅途等移動場景裡,什麼又會是最合適的語音智能載體呢?答案當然是:翻譯耳機。想必大家都看過國產科幻大片《流浪地球》吧?電影裡,劉培強(吳京)在太空站使用A.I.耳機與各國太空人無障礙交流,不論身邊的人說的是哪一種語言,耳機都會翻譯成母語,大大降低了人與人交流的難度。
  • 時空壺:實時翻譯耳機讓對外交流無障礙
    那麼如果不同的語言之間是否能通過語音識別技術來實現呢?在剛剛結束的2018中國(上海)國際人工智慧展覽會上,深圳時空壺技術有限公司(以下簡稱:「時空壺」)展示了一款能夠實現漢語同十幾種不同語言轉換的翻譯神器Real-time Wearable Translator。
  • 「時空壺」:只需耳機就能雙向實時翻譯
    2016年,田力和他的夥伴成立深圳時空壺技術有限公司,開始涉足翻譯產品市場,並立志做最懂用戶的這個行業的標杆企業。 「市面上的翻譯APP和翻譯機不少,但實際使用過程中,需要將設備遞給對方進行交流,體驗較差。」田力說,人和人交流就需要更加自然和順暢,耳機是目前看來最合適、最能實現自然對話的產品形態。
  • 對手是Google,他的實時翻譯耳機開掛了
    這家公司曾雄心勃勃,希望打造真正意義上的無線耳機Dash。如今,項目終結,真是令人遺憾。筆者十分讚賞該公司原本的宏大目標——即希望Dash不僅是聽音樂的耳機,還是成熟的輔助工具,做到實時翻譯。作為一款消費產品,Bragi Dash產品的路可能已經走到盡頭,並未完全實現打造數字翻譯機的夢想。不過,深圳一家名為時空壺的初創企業也打造了自己的設備,力爭實現同一個目標。
  • 機器翻譯三大核心技術原理 | AI知識科普
    機器翻譯其實是利用計算機把一種自然語言翻譯成另一種自然語言的過程,基本流程大概分為三塊:預處理、核心翻譯、後處理。核心翻譯模塊是將輸入的字符單元、序列翻譯成目標語言序列的過程,這是機器翻譯中最關鍵最核心的地方。後處理模塊是將翻譯結果進行大小寫的轉化、建模單元進行拼接,特殊符號進行處理,使得翻譯結果更加符合人們的閱讀習慣。
  • 深度測評Sweetalk同聲傳譯藍牙耳機VS 小豹AI翻譯棒
    由Google、Microsoft提供技術支持,將可穿戴和自動語音翻譯技術集成到耳機中。一經發布,名聲大噪。18年7月19日,獵豹移動正式發布基於社交場景的翻譯新品小豹AI翻譯棒。因價格低廉、操作簡便、外形時尚引發了一股熱潮。
  • 這是一款出國必備的實時語音翻譯耳機
    「玩機匯 供稿」由於新發布的Google Pixel 2和Pixel 2 XL也同樣取消了3.5mm耳機插孔,但還順勢推出一款新的無線耳塞Pixel Buds倒算個驚喜。這是由Google助手提供支持,它最大亮點是支持谷歌實時翻譯功能。
  • 這款耳機可以直接實時翻譯
    【TechWeb報導】很多國際性會議都少不了同聲傳譯,同聲傳譯需要強大的無線收發耳機和一個非常高素質的翻譯,但現在有廠商直接將翻譯功能植入到耳機當中。國外公司推出了一款叫做Mymanu Clik的無線耳機,他的特點在於可以提供實時語言翻譯功能,這款緊湊的小耳機通過APTX 技術驅動,為佩戴者提供非常高清晰度的聲音,不管用戶所說什麼樣的語言。
  • 可實時翻譯40種語言的耳機上市 出國旅遊不用怕了
    【TechWeb報導】5月18日消息,據外媒報導,耳機一直以來都是國人用來聽音樂或者接電話,而近日德國Bragi公司發布了一款可實時翻譯的耳機,成為出國旅遊愛好者的福音。
  • 百度翻譯APP iOS版3.0發布獨創整屏實時翻譯功能
    > 近日,百度翻譯APP iOS版3.0全新發布,實現了業界獨家的整屏實時翻譯服務,是目前翻譯領域的一次飛躍。截止發稿,該功能為百度翻譯獨家發布,處於行業領先水平。這也意味著,蘋果用戶可以通過安裝百度翻譯APP,將自己的iphone或ipad秒變專業翻譯機,輕鬆在中文和英文間溝通無礙。將iphone變成翻譯機?24方向10語言全免費許多iphone用戶在上學時,都對翻動笨重的外語詞典這一「體力活」印象深刻。
  • 谷歌Pixel Buds耳機具備實時翻譯功能 但實際可能是個坑
    驅動中國2017年10月13日消息,眾所周知,本月月初之際,谷歌在美國正式召開了新品發布會,除了萬眾期待的Pixel 2手機以外,一同登場的還有一款無線耳機
  • 這款耳機可以實時翻譯
    【TechWeb報導】每次大型會議,主辦方重要準備大量同聲傳譯設備,並且準備現場翻譯人員。出國的時候也是,如果對語言不熟悉還要準備翻譯設備、字典甚至僱傭翻譯人員,總之非常不方便。現在美國一個初創公司Waverly Labs開發出一款叫作Pilot的耳機,這個耳機具備實時在線翻譯功能。
  • 日本已經研發出AI翻譯耳機:2秒完成同傳翻譯!
    【PConline資訊】今年,在華為Mate10的發布會上,我們看見華為聯合微軟基於深層神經網絡技術打造的Translator。該軟體支持AI隨行翻譯功能。  據官方介紹,AI隨行翻譯功能支持拍照翻譯、語音翻譯、文字翻譯以及多人會話翻譯,還支持50多個語種的圖文和語音翻譯,即使在沒有網絡的情況下也可以翻譯。  看到這裡,想必許多朋友都靈光一閃,既然現在的AI技術都已經支持隨行翻譯了,那麼能不能做到同傳翻譯的水平呢?就目前看來,這是很有可能的。
  • 拒絕爛大街:具備通話實時轉寫,訊飛智能耳機iFLYBUDS這樣破圈!
    作為科大訊飛智能語音C端產品生態的延伸,訊飛智能耳機iFLYBUDS的推出給了我們新的啟示:因為它不僅具備一般TWS耳機的通話、聽音樂等需求,還憑藉通話實時轉寫、智能語音撥號乃至通話譯文對照三大核心
  • 精細化多元化布局 EliteAI翻譯藍牙耳機備受關注
    精細化多元化布局 EliteAI翻譯藍牙耳機備受關注 2019年09月02日 15:53作者:網絡編輯:宏偉   TWS耳機產業正是近兩年的風口,中信證券發布研報稱,智能語音入口、手機無孔化、耳機便捷化三大因素驅動TWS耳機行業快速成長,預計2019年TWS耳機出貨量將達1億副。
  • 業界| 搜狗知音引擎再進一步,實現語音實時翻譯
    機器之心原創作者:趙雲峰搜狗在烏鎮網際網路大會上發布了實時翻譯技術,此後,搜狗語音交互中心技術負責人陳偉詳細介紹了背後的技術框架和搜狗的多項核心技術。基於已有的深度學習平臺和技術搭建了自身的語音實時翻譯技術。整個技術框架包括了語音識別、機器翻譯兩個大的方向,整個系統並不是簡單的技術堆砌,而需要做非常多的細節優化以及系統調優,主要包括了語音斷句、語音識別、文本斷句以及機器翻譯。
  • 谷歌耳機:40國語言同聲傳譯超酷,可能取代翻譯這一職業
    在上個月初,發布了Pixel 2系列手機以及其他智能硬體,最令人期待的莫過於谷歌Pixel耳機了。這款耳機功能強大,據說是AirPods的最大對手,該耳機的最大亮點就是支持40國語言的同聲傳譯,如果該耳機體驗極佳,甚至會導致很多翻譯人員就此失業。
  • 把智能翻譯戴在耳朵上:小度真無線智能耳機體驗
    首先想要實現智能翻譯,需要先連接手機端的小度App。可以看到左右耳和充電盒的電量信息,進入翻譯選項,就可以看到這三個模式了。流浪地球模式:支持雙人各一隻耳機佩戴,麥克風收音後進行自動翻譯,一個耳機發音中文,一個耳機發音英文,可以實現無障礙的實時交流。
  • 高科技智能翻譯耳機,耳朵上的翻譯器,功能還有很多
    高科技智能翻譯耳機,這是一種可以在耳朵上就能馬上來翻譯的耳機哦,它可以進行實時的反應,還能進行對話翻譯,並且呢,它還是智能的一個語音助手,能夠隨時隨地的幫助你解決很多的問題,同樣他是健身的私人教練,可以隨時提醒你去健身,保持一個健康的生活狀態,除此之外,它還有海量的有聲資源,可以進行心率的監測