谷歌的神經翻譯系統意味著機器翻譯到盡頭了?

2021-01-09 網易科技

「算法+大數據+計算力」

這是我的題目,《當巧婦遇到「大米」——機器翻譯啟示錄》。大家一看就知道來自中國的一句成語,叫巧婦難為無米之炊。巧婦指好的算法,大米是大數據的意思,好的算法遇上了大數據,當然還得有一個灶臺,灶臺就是強大的計算能力。這三件事放到一起,對於機器翻譯就會產生很多有趣的事情。

整個的報告以機器翻譯為主線展開,大概分四部分:

第一叫做機器翻譯的波瀾史,幾十年的發展一波三折,非常有意思;

第二是機器翻譯現在主流的技術神經機器翻譯,還是可以改進的。我可以給大家看一些例子,並不是谷歌就做到頭了,還有很多的空間。

第三就是機器翻譯在技術實際上是通用的,其實它是個一般性的原理,可以放到很多的領域,所以我會講應用拓展,用計算機自動創作古詩為例。

後面是幾句結束的話。

谷歌前幾個月發布了新的機器翻譯系統,這個系統實際上是完全基於深度神經網絡的一個系統。如果說翻譯的最高境界是Perfect,人也做不到完美,谷歌翻譯在西班牙語到英語、法語到英語以及英語到西班牙語的翻譯上和人做得差不多。但中文到英文和英文到中文的翻譯跟人比差別比較大。實際上中文是世界上最難處理的語言之一,所以機器翻譯肯定不好做。但是不管怎麼樣這個結果非常震撼。

機器翻譯興起,一波三折

回顧一下機器翻譯的歷史,這個歷史很有趣。這個研究應該不是凡夫俗子發起的,實際上是有大智慧的人開始做的一個事情。機器翻譯之父叫Warren Weaver,他在49年和資訊理論之父香農合著寫過一本書,47年3月4日他給控制論之父Norbert寫了一封信,在裡面提出了機器翻譯的可能性。他說這個事兒,如果咱們翻譯叫信達雅三個要求,達雅做不到,信還是可能的。

Warren Weaver在49年寫了一個《翻譯》備忘錄,不長,但是提出了系統翻譯的思想,裡面有四條是關鍵的,我簡稱叫W.W.建議。

第一條談到了意義和上下文,比如說語言中有歧義,歧義要在一個窗口裡解決,就是上下文;

第二個說到語言與邏輯,就離不開句法語義分析,得到了語義數分析數才能抽到邏輯,這點強調了語言分析對機器翻譯的重要性;

第三個從資訊理論和密碼學的角度提出要研究語言的統計語義性質,這個是從香農的資訊理論角度出發;

第四條提出了普遍語言的問題,也就是語言之間有通用性。

當時他好像漫不經心寫了一個備忘錄,基本上機器翻譯後來到我們目前這幾十年的發展,都是按他的框架做的,這是非常了不起的。當時從1947年到56年,我把接下來的時間叫大潮初起,他說這個事兒以後全世界都在做,當時都是世界說最好的單位在做,比如IBM、麻省理工學院。

四條備忘中:一和三基本上是統計,我們後來稱為經驗主義;二和四是基於規則,叫理性主義。

最初大家的研究都沿著規則的系統往下走,因為你做語言處理總要循著人類的語言處理分析做詞法分析、語義分析。很快,到了1954年、55年就有這種實驗,主要在美國和前蘇聯,實際上是和冷戰有關係,大量的跟軍事相關的跟情報需要被翻譯。但很快地大概到1957年到66年這個階段,就要從第一次波峰跌到了波谷,當時機器翻譯其實做得還是很好的,像哈佛、伯克利都在投入,包括中國做機器翻譯很早,58、59年國內就做出了一些俄中的機器翻譯系統。

系統出來以後大家就可以看看結果,審視結果以後覺得沒有那麼樂觀。最著名的就是60年以色列的著名哲學家、數學家和語言學家Bar-Hillel發表了一篇文章,他最初做機器翻譯是很積極的,包括全世界第一次機器翻譯國際會議也是他組織的。但他後來實際上下了一個判斷,就是機器翻譯不行,做不了。

他舉一個很簡單的例子:Little john was  looking for his toy box. Finally he found it. The box was in  the pen(盒子在圍欄內)。

因為pen有兩個意思,一個是筆,一個是圍欄,到底是鋼筆放在盒子裡,還是盒子放在圍欄裡。這裡面很複雜,你需要看更遠的上下文,需要知識才能解決,所以他的觀點是比較悲觀的。

另外當時還有一個故事,也很有趣,也是一個測試,英文輸入:

The spiit is willing,but the flesh is weak.

精神是願意的,但肉體確實不願意的。

要把這個翻譯出來,但是經過機器翻譯成俄文,再把它翻譯回英語,得到了令人啼笑皆非的結果,

伏特加酒是好的,但肉卻腐爛了。

這個例子雖然發表了,但也有人質疑它的真實性。但確實能說明那個時候機器翻譯的水平。

1964年,美國政府成立了一個機構ALPAC委員會,由權威人士組成,對當時美國機器翻譯情況進行了評價。這個報告非常有名,也有人稱為機器翻譯的黑皮書,基本宣布機器翻譯是不可行的,結論是全自動機器翻譯基本否定,建議做機器輔助翻譯,二是機器翻譯遇到了難以克服的語義屏障問題,應該加強對計算機語言學的研究。

下面的階段是1967年到89年,波瀾不驚水長流,機器翻譯的研究中心從美國轉移到了加拿大和歐洲。

在這些研究中,針對W.W. 第4條原則加強了,因為歐洲語言有很多種,通用語言就變得至關重要。還是有一些商用系統出現,特別是用在國防,但不是面向公眾。這個期間對句法語義分析研究大量出現,實際上是為完美的實現基於理性主義的想法創造了非常好的基礎。

下面是1990年到現在,實際上形成了一個新的波峰,是通過兩個衝擊波上來的。90年對於計算是一個有劃時代的意義,在赫爾辛基的第13屆國際計算語言學大會提出處理大規模真實文本的戰略任務,所以大數據的思想做自然語言處理,我認為是這差不多第一提出的,在整個科學領域它提的是最早的,整個研究是基於大規模真實語料,這塊別的領域提的很少,我認為自然語言處理是最早用的,因為那個時候大量的真實語料開始有了,包括雙語語料成規模地出現,所以第一個衝擊波叫統計機器翻譯模型,也就是最著名的IBM模型1-5。以前的翻譯服務是面向特定用戶的,這個是面向廣大用戶的。

當時很有名的一個學者叫Och,有一句話很有名,說只要給我充分的並行語言數據,對於任何兩種語言,我就可以在幾小時之內給你構造一個機器翻譯系統。我靠統計翻譯方法就可以作出這個事情,這就徹底摒棄了以前沿著理性主義道路全面改成經驗主義,這裡面基本語言學家沒有什麼機會,只要你給我雙語料就可以作出系統,谷歌幾十個語言都是機器翻譯,都是很容易做出來的,所以我叫理性終結主義。

但很快,大概2014年左右推出了神經機器翻譯,就把剛才的終結者再度終結了。像谷歌、百度現在已經用神經統計機器翻譯系統替代純粹的統計翻譯系統,所以你去看其實發展到這就是好的神經網絡算法、有大數據、還有GPU的積累。所以這是一個發展的歷程。

神經翻譯系統並不意味機器翻譯到頭了,還有大量的創新可做

神經機器翻譯系統還是有很多的問題,我們剛才講的

精神是願意的,但肉體是虛弱的。

我拿谷歌翻譯成中文這是翻譯結果:

精神是願意的,但肉體是軟弱的。

翻譯成俄文再翻譯回來基本也是原話,翻譯成苗語再翻譯回來,一來一去看質量確實不錯。但它可能還有別的問題。

比如說in  the box那個問題還是不行的,現有模型就是雙語語料,肯定做不對,你隨便測試一些東西,也不用太難為它,比如我說:」閻肅是個好同志,閻肅是一個作家。「它就完了,你再看翻譯泰戈爾的《飛鳥集》,還是有問題的,是不完美的,有很多需要改進的。

我簡單說一下清華大學的工作,我們科技組有一個劉老師,機器翻譯做了很多的研究,比如說我們可以把最小風險的訓練,不是用最大MSE,把這個東西嵌入到函數裡,最後這個結果就非常好。你比如說像BLEU值是0.3338,這是最小的翻譯值,我們可以做到0.4091。

這是翻譯的例子:比如美國代表團包括來自史丹福大學的一位中國專家,兩名參院外交政策助理以及一位負責與平壤當局打交道的前國務院官員。這個翻譯結構挺難的,靠統計機器翻譯是做不好,你看效果就很差,這是我們SMT的效果。你用SMT傳統有一些毛病,我們可以避免這個問題。

這個是我們對比了我們的系統和谷歌、百度等等的翻譯效果。

再往下,其實我們還有一個改進就是中到英、英到中儘量一致,有一些策略,一來一去應該儘量一致,現在的方法是你孤立的看不一致,你再去看它的對齊,就會對的比較好,對的好以後效果也會好,你看中到英,獨立訓練是BLEU值23.63,聯合訓練就是26.42,效果比較好。

還有一個改進。雙語語料的獲取比較難,單語語料比較容易得到,如果用中文的單語語料和英文的單語語料放到這個模型裡訓練效果也會提高。比如如果不用單語語料值大概31.74、15.14,如果使用了任何一種單語語料,效果從31.74就可以到36.45,很顯著的提升。

谷歌的神經翻譯系統不是把事兒做完了,裡面你的任務還可以提出很多的創新性的想法,提高系統性能,對研究還是大有用武之地的。

機器翻譯的拓展應用:以古詩創作為例

機器翻譯是通用模型,我拿它做古詩創作,這個工作是和我的兩個本科生同學合作完成的。這種通用方法對我們很多行業都是一個機會,現在的人工智慧氣候已經形成,基本的方法就擺在這了。比如LSTM模型。現在到了收穫季節,看誰去摘桃子,找對問題,把桃子趕快摘下來。從研究角度第一個做這個事情是好的研究,第二個做的就變成作業了,所以一定要快。

古詩實際上它的複雜度不比下圍棋低,而且它是從人文角度,我不知道在座各位多少還能作古詩,80%應該做不過我這個系統。用的是LSTM,但是我們有改進,不是在上面跑就可以作出這個效果,我給大家看結果,這個模型可以比較好的捕捉到詞之間的相似性,句子之間的相似性,有些詞創作非常有意思,你送給系統上句叫:江上西風一棹歸。下句就自動生成:夕陽不見客舟歸(江上的風浪不小,船到下面看不到夕陽了)。感覺意境還是不錯的,比如:又聽西風墮葉聲,下面是計算機產生的:萬事盡隨天籟起。這兩句詩你查古人是沒有的,是計算機創作出來的。

對仗性,第一個叫星垂平野擴,月落遠林疏。對的還是挺好的,比如給一個主題詞,隨便說給秋葉,下面系統創作出來的,白蘋江上驚秋雁,我們把所有的古詩送進去訓練,這個掌聲應該給兩位同學。我們也做過評測,和人比PG是人,還是要差一點,古詩多了,上百萬首,其實分別不算太遠,但是比古人做的還是有差異的。可以做藏頭詩,因為撒貝寧的名字有點怪,你給我弄個撒貝寧酷,計算機做的撒手離亭送別情,貝葉無夢到孤城,寧知梅嶺遙相望,酷似清風入夜生,還挺有意境的。其實你可以隨便遷入,計算機做這個事情容易。

還有一個是自動做集句詩,是古代考察這個人書讀得夠不夠的一個本領,就是你做一首詩都是古人做的,聽起來要意境,這是一個很經典的叫楓葉蘆花並客舟,煙波江上使人愁,勸君更進一杯酒,昨日少年今白頭,這是我們做的五絕,江南楊柳春,二月芳草新,千裡一回首,青青向故人,這也是拼的,都是古人的詩。

我們還在摘桃子,但是也在改進,但是你會看到有了這麼通用的工具,我們花半年的努力,搞一兩個比較行的學生就有可能把桃子摘下來,我呼籲大家趕緊摘桃子。

你去看機器翻譯整個歷史,這句話特別貼切——山重水複疑無路,柳暗花明又一村。我們遇到很多這種情況,有的時候做感覺做到頭了,但是又有新的路出來,不是靠技術細枝末節的積累,是靠創新性方法,都是創新性終結性的方法把境界不斷的提高,所以創新特別重要,這裡面有很多的挑戰,其實包括一帶一路,你神經網絡分析基本假設沒了,大數據沒了,因為雙語不會那麼多,這裡有很多挑戰。這塊我認為理性主義和經驗主義將來還會在某種程度實現回歸,不可能完全都是經驗主義往前走,這個問題就更深了。

總的想法就還是我們要創新,你看這個機器翻譯歷史上,我們中國人的創新很少,我們基本都跟著人家跑。像谷歌的深度學習神經網絡出來以後,當時我看到這個報導覺得這個模型幾乎人家都做出來了,我還覺得這個事兒不可思議,這是差距。為什麼?因為那個模型,比如說把你們這些人打一個包一壓縮以後分解成那邊的那波人,相當於做這樣一個映射,這邊人捆成一個向量變換成那邊一群人,成一個向量,一大堆壓成一個單體,再單體產生一大堆,邏輯還要保持,這個事兒一想非常不可思議,但是確實靠很大的模型就建立這麼一個複雜的映射,我們的創新能力確實不夠,所以創新能力要注意。

第二點,既然到了秋季趕快摘桃子,創新能力不夠,但是畢竟到了收穫季節,你還是利用人家的創造季節還是可以做很多的有創造性的創新性的事兒,比如剛才的古詩就是一個例子。

本文來源:雷鋒網 責任編輯: 丁廣勝_NT1941

相關焦點

  • 專訪Google Brain 工程師,谷歌神經網絡翻譯會是機器翻譯的極限嗎?
    當兩天前 Google 推出了全新的整合神經網絡的翻譯工具——GNMT(Google Neural Machine Translation)谷歌神經機器翻譯系統,並且這一系統將最先投入到最困難的漢英互譯領域時,科技圈炸了鍋。
  • 如何評價Google神經機器翻譯(GNMT)系統?
    (GNMT:Google Neural Machine Translation)系統,在官方博客中Google稱該系統使用了當前最先進的訓練技術,能夠實現到當下機器翻譯質量上最大的提升。幾年前,Google開始使用循環神經網絡來直接學習一個輸入序列(如一種語言的一個句子)到一個輸出序列(另一種語言的同一個句子)的映射。其中基於短語的機器學習(PBMT)將輸入句子分解成詞和短語,然後對它們的大部分進行獨立翻譯,而神經網絡機器翻譯(NMT)則將整個輸入句子視作翻譯的基本單元。
  • 機器翻譯七十年:百度領跑神經網絡翻譯時代
    中新網12月22日電 機器翻譯距今已有70年的發展歷史。自上世紀40年代起,基於規則、實例以及統計的機器翻譯方法漸次登場,各領風騷。近兩年,神經網絡機器翻譯(Neural Machine Translation, NMT)技術異軍突起,取得了翻譯質量的大幅躍升。
  • 支持108種語言的谷歌翻譯如何用AI讓翻譯質量越來越好?
    谷歌表示,其翻譯質量的突破並不是由單一技術推動,而是針對資源較少的語言、高質量源語言、總體質量、延遲和整體推理速度的技術組合。在2019年5月至2020年5月之間,通過人工評估和BLEU(一種基於系統翻譯與人工參考翻譯之間相似性的指標)進行衡量,谷歌翻譯在所有語言中平均提高了5分或更多,在50種最低水平的翻譯中平均提高了7分或更多。此
  • 谷歌翻譯是如何藉助多項新興AI技術提高翻譯質量的
    谷歌稱,它在翻譯領域所取得的突破並不是由單一技術驅動的,而是針對低資源語言、高資源語言、總體質量、延遲和整體推理速度的多項技術共同作用產生的。在2019年5月到2020年5月之間,根據人工評估和BLEU(基於翻譯系統翻譯和人工參考翻譯之間相似性的衡量標準),谷歌翻譯在所有語言中平均提高了5分以上,在50種語料資源最少的語言中平均提高了7分以上。
  • 硬核測評,谷歌翻譯被碾壓!全球首個翻譯引擎進化歸來,「細節狂魔...
    最近,一款在線機器翻譯軟體在日本大火。在用戶體驗上文摘菌要插播一下,從中譯英切換到英譯中的時候,只有百度、有道和DeepL做到了自動識別,谷歌和微軟仍需要手動選擇語言。Linguee是一款出現多年的翻譯工具,儘管使用廣泛,也有一批忠實用戶,但其翻譯質量尚無法與谷歌翻譯相提並論,尤其是考慮到後者品牌和地位的巨大優勢。
  • 「苟富貴勿相忘」翻譯後,谷歌:沒錢的人總會被遺忘
    其實不管是語種互譯,還是古文翻譯,都是機器翻譯的類別之一。 但是,如果機器翻譯翻車的情況持續發生,我們還能相信它嗎? 先別急,我們從NMT(neural machine translation,神經網絡機器翻譯)的誕生開始講起,看看機器翻譯到底是個什麼東西。
  • 谷歌推出首款基於機器學習的古埃及象形文字翻譯工具Fabricius
    【TechWeb】7月15日消息,今天,谷歌藝術與文化今天推出了全球首個基於機器學習的埃及象形文字的數字翻譯工具Fabricius。不管是普通人還是學者都能利用這個工具體驗象形文字,或者助力學術 研究。
  • 有道段亦濤:人工智慧將顛覆機器翻譯
    【IT168 廠商動態】2017GMIC(全球移動網際網路大會)未來創新峰會上,網易有道首席科學家段亦濤發表了《機器翻譯皆有道》的主題演講,分享了其在神經網絡翻譯領域的研究,並表示該技術將在有道詞典、有道翻譯官、有道翻譯網頁版等產品上陸續上線,這意味著超7億有道用戶將便捷地享受到這一技術帶來的便利。
  • 谷歌翻譯時隔四年新增5個翻譯語種 其中包括維吾爾語
    【CNMO新聞】近日,據外媒報導,谷歌翻譯新增了5種語音的翻譯,它們分別是基尼亞盧安達語(盧安達)、奧裡亞語(印度)、韃靼語、土庫曼語(土庫曼斯坦),還有維吾爾語。這些語言目前的使用者大約為7500萬人。這是谷歌自2016年以來首次新增翻譯語言。
  • 百度機器翻譯團隊獲得WMT2019中英翻譯冠軍
    8月1日,WMT2019國際機器翻譯大賽研討會在義大利佛羅倫斯召開。本屆大賽,百度機器翻譯團隊在中文-英文翻譯任務上獲得冠軍。如上圖所示,數據處理模塊通過數據篩選、噪音去除、數據增強等,產生訓練數據;對於翻譯模型,從預訓練、網絡結構等方面進行改進,使模型學到更多維度、更深層次的信息。在訓練和模型集成階段,憑藉百度強大的機器學習平臺和海量的計算資源,從上百個模型中選擇不同的模型組合集成。最終,結合統計特徵和深度學習模型的特徵,通過Re-ranking算法從多個譯文候選中選擇最優的翻譯結果。
  • 《集異璧》作者侯世達瘋狂吐槽谷歌翻譯:AI替代人類譯者為時尚早
    當人們聽說谷歌買了一家名叫DeepMind的公司,其產品使用了用「深度學習」技術增強的「深度神經網絡」時,下意識中會將「深度」一詞理解為「深刻」,進而理解為「強大」、「穎悟」、「聰明」。然而,這裡的「深度」僅僅是指這樣一個事實:新的神經網絡比老的神經網絡擁有更多的層次,比如說,前者有12層,後者只有2、3層。那麼,這種層級數量的差異是否意味著,神經網絡必然會更聰明呢?
  • 三千年前的古文字被AI破譯,MIT和谷歌開發失傳語言的翻譯系統
    在那裡,他馬上就發現了許多筆跡相似的石碑,這些石碑能追溯到公元前1400年左右,這些刻字也就成為目前發現的最早的書寫形式之一。伊萬斯表示,這種線形形式是從早期藝術中粗糙的線條畫演變而來,在語言史上佔有重要地位。伊萬斯等人後來證實,石碑上的刻字是兩種不同的文字系統。稍古老的一種稱為A類線形文字,可以追溯到公元前1800年至1400年,此時克裡特島還處於青銅時代的米諾文明階段。
  • 翻譯器可翻譯方言和文言文 超出谷歌微軟的翻譯軟體能力
    翻譯器可翻譯方言和文言文 超出谷歌微軟的翻譯軟體能力 站長之家(ChinaZ.com) 4月1日 消息:最近,一款名叫DeepL的在線機器翻譯軟體在日本大火。
  • 百度翻譯閃耀MIT年度科技大會 吳華現場展示翻譯機
    她介紹,機器翻譯發展至今經歷了三個階段,第一個階段是基於規則的方法,第二個階段是基於統計的方法,第三個是基於神經網絡的方法。2015年,百度率先在機器翻譯系統中採用深度神經網絡,機器翻譯質量由此有了質的提升。吳華談及神經網絡機器翻譯時認為這是個令人興奮的進步,因為三年來機器翻譯質量的提高甚至已經遠超過去二十年發展的總和。
  • Google 翻譯「即時相機翻譯」功能更新升級
    PingWest品玩8月7日訊,根據微信公眾號谷歌黑板報消息,近日,Google 翻譯對「即時相機翻譯」功能在語種數量、自動檢測語言、翻譯準確率、界面友好度等方面都進行了進一步的更新升級。「即時相機翻譯」功能新增了60餘種支持語言,包括阿拉伯語、印地語、馬來語、泰語和越南語。
  • 谷歌推出古埃及象形文字翻譯工具 Fabricius
    7 月 15 日消息,今天,谷歌藝術與文化今天推出了全球首個基於機器學習的埃及象形文字的數字翻譯工具 Fabricius。不管是普通人還是學者都能利用這個工具體驗象形文字,或者助力學術 研究。
  • 人工智慧領域突破百度發布在線翻譯系統
    日前,百度在機器翻譯技術上取得重大突破,發布了融合統計和深度學習方法的在線翻譯系統。該系統藉助海量計算機模擬的神經元,模仿人腦「理解語言,生成譯文」,同時結合百度已有的統計機器翻譯技術,使得機器翻譯質量實現了質的飛躍。百度,再一次站到網際網路前沿技術的領先位置。  機器翻譯一直被公認為是人工智慧領域最難的課題之一。
  • 我們請了五個專家聊Google翻譯,恭喜,你還沒有失業
    目前 Google 神經機器翻譯系統已經支持中譯英功能,可以看得出來 Google 對於未來的野心與規劃。 Google 新的翻譯系統用的是深度神經網絡中一種叫 LSTM 的技術,即 「長短記憶型遞歸神經網絡(long short-term memory)」。
  • 百度翻譯閃耀MIT年度科技大會,吳華現場展示百度WiFi翻譯機
    百度受邀作為機器翻譯領域的代表,向全世界展示機器翻譯最新進展。現場,吳華結合百度的具體實踐,介紹了機器翻譯的歷史以及神經網絡機器翻譯取得的巨大進步。吳華表示,世界語言的多樣性使得人類一直存在「巴別塔困境」,而機器翻譯的使命正是運用人工智慧打破人與人之間交流的障礙,這同時也是人工智慧的終極目標之一。