機器翻譯進化史:用計算機取代同聲傳譯?

2020-12-05 極客公園

耶和華說:「看哪!他們成為一樣的人民,都是一樣的言語……我們下去,在那裡變亂他們的口音,使他們的言語彼此不通。」

是眾人的塔半途而廢,人類也各散東西。

《聖經》以巴別塔解釋不同的種族和語言因何存在,如今的人們用這座未能建成的通天高塔象徵語言不通帶來的混亂隔閡。探險、貿易甚至戰爭讓人類之間彼此發現、了解,交通工具碾「平」世界,無可抗拒的洪流中語言成了絆腳新石。出於理想,1887 年猶太人柴門霍夫(Łazarz Ludwik Zamenhof)以印歐語係為基礎創建世界語(Esperanto),試圖以此消弭國際交往中的語言障礙。但時至今日使用世界語的人數,仍不足世界人口的 0.03%。

世界語既像語言,又不像任何語言

沒有使用環境、沒有文化和歷史基礎的語言,推進速度與願望相去甚遠。於是有人發出感慨:

英語才是世界語。

人人學習英語?過去的 20 年理想實踐,似乎並沒收到同樣理想的效果。

或者,能不能求助於機器,讓交流自然發生?

尋找機器翻譯

當我看到俄文文章,我說「它就是以英語寫成,只是被古怪符號加密而已。現在我要破解密碼。」

瓦倫·韋弗(1947)

出於對資訊理論的研究、二戰時期密碼破譯的推動以及「大同語言」的理想,瓦倫·韋弗(Warren Weaver)在 1949 年發表的備忘錄《翻譯》中首次建議將計算機應用於翻譯。5 年後美國喬治敦大學(Georgetown University)在 IBM 公司協同下,以 IBM-701 計算機首次完成了機器翻譯試驗。基於 6 項語法規則和 250 字詞彙表的俄英翻譯系統,能將「Mi pyeryedayem mislyi posryedstvom ryechyi」翻譯成「我們通過語音傳遞思想」。瓦倫·韋弗的構想被實現了,出於軍事、政治、經濟等多方面因素考慮的政府也開始大量撥款支持研究。

瓦倫·韋弗本人

然而就像 1956 年的認為一個夏天就能突破 AI(人工智慧)技術核心的計算機專家們一樣,樂觀和熱情並不能左右現實存在的客觀阻力。自試驗成功後基於規則(Rule-based)的機器翻譯佔據了研究主導,但這種系統有著天生弱點難以迴避:以詞彙為轉換核心卻又無法選擇出最恰當結果,只好將所有選擇都輸出;語法與算法混雜在一起,使得系統不僅複雜瑣碎,設計完成後亦無法擴展。這種機器翻譯生成的譯文,質量相當低劣。

「早期對簡單或選定文本的機器翻譯看似鼓舞人心,但對一般科學文獻的機器翻譯卻無一例外地令人失望。」

1966 年由美國國防部、美國國家科學基金會和中央情報局組成自動語言處理顧問機構(ALPAC)發布報告《語言與機器》,全面否定這一項目的可行性,機器翻譯從此陷入了長達 10 年的僵局。

啊,不小心放錯了片場

事實上瓦倫·韋弗備忘錄中所提到是基於統計學的機器翻譯,但喬姆斯基 (N.Chomsky,語言學家) 等人認為語言是無限的,基於經驗主義的統計描述永遠無法滿足實驗需求。限於設備成本和運算速度,統計的價值難以凸顯,瓦倫·韋弗構想中的方法很快就被放棄。

直至 1990 年 Peter F. Brown 發表統計機器翻譯開山之作《A Statistical Approach to Machine Translation》,基於大數據加以分析以構建機器翻譯系統得以重回人們的視野,現代機器翻譯紀元才真正開始。

語言、數據和統計模型

機器翻譯涉及計算機、認知科學、語言學、資訊理論等學科,是人工智慧的終極目標之一。

谷歌翻譯(Google Translate)項目開始於 2001 年,當時不僅只提供 9 種語音互譯且翻譯「質量不高,幾年來也沒有什麼提高。」直到 2004 年 弗朗茨·歐赫(Franz Och)加入谷歌翻譯,糟糕的狀況才得以改善。

頗具傳奇色彩的弗朗茨·歐赫,哦對了2014年從谷歌離職

自 2002 年起美國國家標準和技術研究所開始組織 NIST 機器翻譯評評估機器翻譯系統結果的質量,在首屆評測中取得第一名的機器翻譯系統,正是由當時在亞琛工業大學攻讀博士學位的歐赫開發。

「只要給我充分的並行語言數據,對於任何的兩種語言,我都可以在幾小時之內構造出一個機器翻譯系統。」

在歐赫的研究中,位列第一的永遠是數據規模。嘗試過使用句法知識改變系統後,歐赫得出句法知識對統計機器翻譯毫無用處、甚至有反作用的結論。獨立於語言的算法使得計算機專家在不了解語言的情況下,通過算法就可以得到相當不錯的翻譯結果。對於信仰最簡單的模型和最大量數據的歐赫來說,谷歌的海量數據規模使他如魚得水。

「……機器翻譯的美妙之處:最重要的事情是擅長數學和統計學,然後又會編程,那就可以了。」

谷歌翻譯的基本原理是通過對大量平行語料的統計分析構建模型,再通過這個模型翻譯。生成譯文時,需要先在大量人工翻譯的文檔中尋找模型並進行合理的猜測,再得出恰當的翻譯。針對特定語言可供分析的人工翻譯文檔越多,譯文的質量就越高。

作為統計方法的忠實信徒,歐赫將谷歌從網際網路上採集的所有英語文檔都用來訓練語言模型。起初系統運行得非常緩慢,1000 個句子的翻譯需要 1000 臺電腦外加 40 個小時才能完成。但巨大的語料庫和語言模型,使得歐赫所代表的谷歌公司在 NIST 評測中取得了他人難以撼動的優勢地位。在 2005 年 NIST 漢英測評中,谷歌位列第一。到了 2006 年除了漢英機器翻譯的受限語料項目,NIST 所有項目測評的第一都是谷歌。

從英文名看,是種極特殊的食物

確定方向的歐赫帶領團隊開始翻譯攻克速度的問題,此後的六年時間谷歌翻譯團隊一直集中解決核心翻譯質量和語言覆蓋量。機器翻譯需要海量的數據存儲空間以及高效的運算能力,谷歌擁有的分布式計算系統 (MapReduce) 和分布式存儲系統 (BigTable),恰好滿足了這兩方面需求。

「我們暢想著,在未來世界上每個人都可以互相分享信息,無論你在哪裡,說什麼語言。」

時至今日谷歌翻譯已經可以提供 80 種語言之間的即時翻譯,甚至包括網絡上極罕見的孟加拉語、巴斯克語、意第緒語以及世界語。然而在歐赫的團隊中,仍然沒有一個純粹的語言學家。

我每開除一名語言學家, 我的語音識別系統錯誤率就降低一個百分點。——賈裡尼克

接下來,交流

美國發明家、未來學家 Ray Kurzweil 最近在接受《赫芬頓郵報》的採訪時預言,2029 年機器翻譯的質量將達到人工翻譯的水平。

2013年,Skype 全球用戶日均使用時間高達20億分鐘,無疑是最受歡迎的網絡電話之一。而早在 2012 年,Skype的全球國際通話使用量就已佔全球國際通話總量的 25%。

但從未有人想過,說兩種語言的人們可以在 Skype 中流暢對話。

2014 年底,來自美國華盛頓州和墨西哥市兩所小學的孩子們首次用 Skype Translator 進行了通話。

「Where in the world do you wish to travel?/Adonde en el mundo te gustaria viajar?」(你想去世界上的哪個地方玩兒?)

「A Rusia,e tu?/To Russia,and you?」(俄羅斯,你呢?)

屏幕兩端的塔科馬與墨西哥城、英語與西班牙語,就這樣毫無障礙的連接在了一起。

翻譯模型當然必不可少。但將文字翻譯成另一種語言的文字,只是 Skype Translator 邏輯的第二步驟。將實時語音轉成文字、通過翻譯模型轉換為另一種語言、再將文字轉變成語音。眨眼之間,三種動作便悄無聲息的完成。

事實上早在 2012 年,微軟研究院創始人裡克·雷斯特(Rick Rashid)就在「二十一世紀的計算」大會上展現過這種實時翻譯能力,裡克本人的英語演講經由處理實時轉變為中文語音。甚至通過在演講前 1 小時學習裡克的演講錄音,計算機還模擬了他的發音特點。流暢的語言能力、個性化的聲音,使得位於翻譯塔尖的同聲傳譯失去了光彩。

過去 60 年間,科學家們一直致力於開發能夠理解人類說話內容的系統。檢查人類語音波形再利用模式匹配,能不能產生和機器翻譯一樣的效果?可每個人的發音各不相同,早期的構想系統並沒能運用於實際。

直到上個世紀 70 年代末隱性馬爾可夫模型出現,科學家們開始利用多人數據建立更穩定的統計語音模型。然而即便最佳的語音系統任意語音的單詞出錯率還高達 20-25%。

「我們試圖複製人腦聆聽和處理人類語音的方式。」——斯特凡·維茨 (Stefan Weitz)

好在兩年前深度神經網絡技術的出現帶來了新突破。通過仿照人腦行為,研究人員可以訓練出更富辨別力、更好的語音識別器,錯誤率得以降低 30%。用來訓練模型的數據越多、效果就越好,但此時此刻的 Skype Translator 在斷句和理解人的語氣上仍需要提高。

就在 2015 年初,谷歌翻譯新版產品上線同樣開始支持多語言的實時翻譯,甚至還加上了圖片翻譯——用戶可以通過手機的攝像頭即時翻譯圖像內的文本。

《銀河系漫遊指南》中的巴別魚,塞進耳朵就可以聽懂各星球語言

同聲傳譯真的會失業麼?金字塔尖未必會被撼動,畢竟翻譯並不僅僅是模型匹配,文學作品背後的隱喻至今也沒能勾畫清晰。但實時翻譯為我們提供了全新的交流想像——也許未來的某一天,不用再往腦袋裡塞「巴別魚」,所有人可以和所有人毫無障礙的交流。

現在,Skype Translator 預覽版已支持英語、中文、西班牙語和義大利語之間的實時翻譯,你也可以試試看。


頭圖來自:《機械姬》

相關焦點

  • 百度領銜舉辦首次機器同傳講習班 詳解機器同聲傳譯技術演進
    EMNLP由國際計算語言學學會(ACL)旗下SIGDAT組織,會議涵蓋語義理解、文本理解、信息提取、信息檢索和機器翻譯等主題。會上,由百度聯合Google舉辦的首次機器同聲傳譯學術講習班(Tutorial)召開,圍繞機器同傳的背景、挑戰、模型、數據集、實用系統和產品、未來研究方向等展開報告和研討,吸引了數百位國際學者參會。
  • 翻譯金字塔塔尖的同聲傳譯 兩種語言間熟練跳舞
    每次只能連續工作二十分鐘  在一些國際會議中,演講者話音未落,耳機裡就傳來了同聲傳譯的譯音,「一心二用」是同聲傳譯的看家本領,對於同聲傳譯來說,聽入和譯出自有幾秒鐘時間,在這短短幾秒鐘時間裡,同聲傳譯既要有對一種語言良好的聽覺解意能力,同時又要有用另一種語言組織句子連續準確表達的能力。
  • 同聲傳譯收入揭秘
    同聲傳譯是翻譯中最難的一種,因而薪水也特別的高,年薪能達四五十萬元。 親身感受同聲傳譯 「The honor Mrmayor,my Chinese friends……」吳鍾明教授說。
  • 百度聯合谷歌、Facebook、Upenn等舉辦ACL 2020同聲傳譯研討會
    近日,國際頂會ACL官網披露大會議程,由百度領銜,聯合Google、Facebook、Upenn、清華大學等海內外頂尖企業及高校專家們共同申辦的首屆同聲傳譯研討會(The 1st Workshop on Automatic Simultaneous Translation),將在自然語言處理領域國際頂級學術會議
  • 同聲傳譯到底是一份什麼樣的工作
    在日益密切的國際交流中,翻譯作為不同語言之間溝通的橋梁,其作用也不斷凸顯。而在翻譯行業中,難度最高,也承載了人們最多讚許與好奇的,莫過於同聲傳譯。所謂同聲傳譯,是指譯員以幾乎與講者同時的方式做口語翻譯。也就是在講者仍在說話時,同聲傳譯員便同時進行翻譯。
  • 劉和平、韓林濤:下「機器翻譯替代人類」結論為時尚早
    ......現場提供兩種同聲傳譯服務:人工同傳和機器同傳。人工:四個人平均準備時間花費3-4天,他們認為譯前準備對口譯內容的預測率大概是62.5%(四個人的均值);在接受任務之前四位學生接受同聲傳譯訓練的時間為平均200小時左右,可定義為同傳初學者;機器:用兩臺筆記本電腦對軟體完成了對25個演講幻燈片的訓練(含幻燈片的正文和備註)。
  • 同聲傳譯工作內容及譯員要求
    就目前同聲傳譯是世界流行的翻譯方式,被95%的國際會議所採用。它不僅極大地挑戰口譯的翻譯水平,而且儘可能地考驗了口譯的反應速度和體力極限,因此號稱「翻譯九段」,同傳翻譯工作主要內容及要求條件如下:同傳翻譯工作內容如下:1、熟悉會議主題、內容和基本材料。
  • 重築巴別塔:機器翻譯的夢想與現實
    引言:技術的新進展使人們對機器翻譯的關注與熱望達到前所未有的高度。本報記者採訪一線專家,為你全面解讀關於機器翻譯的那些事兒:  宇宙翻譯器:究竟要多久才能出現?  10月底,微軟首席研究官、微軟研究院院長裡克·雷斯特博士(見右圖)在天津舉辦的「21世紀計算大會」上展示了微軟最新的研究成果——同聲傳譯軟體,向世人描繪了一幅「跨越語言、溝通無礙」的美好藍圖。
  • 百度機器翻譯現在都能預測你未來幾秒要說的話了!
    同聲傳譯是一項很重要的工作,在國際會議、外交談判、演講等場合,只要交流之間出現了兩種語言,就需要同聲翻譯的幫助,他們會在現場聽取演講,並實時翻譯成另一種語言。在會場的同聲傳譯(圖片來自網絡)同聲傳譯工作通常在一句話的話音剛落,2-3秒之內就要立即傳譯出來,是一份高壓力、
  • 使用近紅外光譜腦功能成像研究中英文同聲傳譯的腦網絡小世界屬性 | JIOHS
    目前在國際交流間廣泛使用的同聲傳譯涉及了很多有關雙語加工的認知任務。
  • 翻譯界的AlphaGo, AI翻譯機真是「狼」來了麼?
    事實上這是兩份人工智慧的簡歷,準確的說是兩部人工智慧同聲翻譯機的簡歷。不過,簡歷風波也引發了網友和行業的廣泛思考,人工智慧真的能取代人類進行翻譯工作麼?人工智慧同聲翻譯機不知大家有沒有印象,羅永浩在發布錘子手機時曾在發布會上演示過一段科大訊飛的語音識別技術,會後科大訊飛輸入法的下載量直線飆升。
  • 騰訊AI翻譯野心:遠不止免費向博鰲提供同聲傳譯
    本文首發於澎湃新聞文:Paul Smith / 誰是獨角獸2018年博鰲亞洲論壇上,騰訊無償向大會部分論壇提供了人工智慧同聲傳譯(以下簡稱「AI同傳」)雙語內容會議現場投屏、翻譯結果語音收聽的服務,並允許場外觀眾在微信小程序查看同傳內容
  • 騰訊AI同傳鬧烏龍,質疑「AI取代論」的理由有哪些?
    在未來,AI不會擠佔人類同聲傳譯員的空間AI同傳會取代人類翻譯嗎?當然不會。先不說語言本身的複雜,我們可以來看看同傳的實際應用場景。在實際工作中,不論是口譯還是直接對話都需要同傳來完成,不會有被服務方只聘用其中的一個職能。也就是說,AI同傳不僅要學會翻譯,還要學會聊天。而在這一塊兒,機器還有很大的進步空間。那麼,AI同傳的用處在哪裡呢?
  • 訊飛發布「隨聲譯」輸入法:支持中英文同聲傳譯
    日前,主打語音輸入的訊飛輸入法同步更新了Android 5.2.2216和iPhone 5.2.1482兩個新版本,最大的亮點是新增了最新研發的「隨聲譯」,支持中譯英、英譯中「同聲傳譯」。用戶只要說出內容,就能將中/英文實時翻譯成文字。
  • AI翻譯會取代人工翻譯嗎?
    不得不說,這種擔憂不無道理,基於機器學習的人工智慧似乎無所不能,受限於當前的機械水平,除了大部分非重複性體力工作還難以勝任以外,在腦力勞動領域,AI大有席捲一切的氣勢,而在這之中,語言翻譯似乎是最容易被取代的工種之一。
  • Gartner最新報告:百度翻譯整合多項AI能力 多模態翻譯助跨國交流
    Gartner分析師認為,百度有一個領先且宏偉的(advanced and ambitious)目標,融合自然語言處理、語音、計算機視覺等人工智慧技術,為用戶提供實時、高質量的多模態翻譯服務。在全球化發展背景下,隨著企業業務和生態系統不斷向全球不同區域擴展,企業獲取全球化信息的需求日益凸顯,機器翻譯成為剛需。
  • 世衛組織媒體通報會已提供中文同聲傳譯,歡迎記者朋友參與
    本周起,世界衛生組織為北京時間每周一、三、五晚在日內瓦總部舉行的2019冠狀病毒病媒體通報會提供聯合國官方語言同聲傳譯,包括中文。我們期待著世界各地更多的記者能夠接入媒體通報會與我們溝通交流。世衛組織網上媒體通報會以阿拉伯文、中文、英文、法文、俄文和西班牙文提供總幹事講話和問答環節的同聲傳譯服務。
  • 谷歌機器翻譯取得顛覆性突破 到底幾分真假?
    ,然後對它們的大部分進行獨立翻譯,而神經機器翻譯則將整個輸入句子視作翻譯的基本單元。谷歌這篇論文的StackLSTM用了8個GPU實現了8層的StackLSTM,在當前高校以及普通公司的實現中,NMT還只跑在單卡上,由於顯存限制單卡幾乎不可能跑8層的StackLSTM,而谷歌利用GoogleBrain,向世人展示了一把當LSTM深到一定程度機器翻譯能做成什麼樣。2.
  • 百度大腦開放日召開機器翻譯專場 百度AI同傳翻譯性能可媲美人類
    機器翻譯作為人工智慧關鍵技術之一,正日益成為企業智能化升級的重要應用場景。12月1日,百度大腦開放日舉辦了以「機器翻譯 溝通全世界」為主題的專場活動。
  • 百度入圍Gartner全球AI翻譯服務代表企業 打造企業智能升級新引擎
    百度翻譯整合了自然語言處理、語音處理、計算機視覺等多項AI能力,向用戶提供語音、圖像、視頻等多模態翻譯服務。如今,百度翻譯已形成包括翻譯PC版、翻譯APP、AI同傳會議版、同傳助手以及翻譯開放平臺等豐富產品矩陣,可支持200多種語種互譯,每天響應超過千億字符的翻譯請求,通過開放平臺支持超過40萬企業和個人開發者,覆蓋30多個行業。