谷歌推出神經網絡翻譯 中譯英水平匹敵真人?

2020-12-14 搜狐網

  繼阿爾法狗戰勝韓國職業棋手李世石沒多久,人工智慧再下一城。據澎湃新聞9月29日報導,27日,谷歌推出了新的翻譯系統,聲稱該套翻譯系統基於對人類神經思考的模仿,能夠與真人翻譯競相匹敵。

  在谷歌發表的題為《規模生產中的神經網絡機器翻譯》(A Neural Network for Machine Translation, at Production Scale)的文章中,宣布將機器學習技術納入網頁和手機APP翻譯中,從前漢譯英的尷尬局面將大為扭轉。

  翻譯系統面世後,根據用戶們的測試,發現漢譯英的準確率高得驚人。

  眾所周知,將漢語恰切地譯介為英語是一件不易之事。輸入中文,翻譯系統給出的答案往往是「慘不忍睹」,簡單的機械翻譯對於那些谷歌翻譯的依賴者來說已遠遠不夠。谷歌公司稱,相較之前的算法,谷歌神經機器翻譯能減少80%的錯誤,與通過標準測試的真人翻譯所差無幾。

  在之前的一項西班牙語譯為英語的測試中,設定滿分為6分,谷歌舊的翻譯系統得到3.6分,人類普遍得分為5.1分,而谷歌的新系統得到了5分的好成績。

三種譯介方式評估。滿分為6分,橘色為真人翻譯、綠色為谷歌神經網絡翻譯、藍色為短語式翻譯。

  從前的譯介模式是短語式的,翻譯系統將一句話拆分成單詞或者詞組進行翻譯,往往得到一些狗屁不通的結果。而新的翻譯系統稱之為谷歌神經機器翻譯(GNMT),這項新的技術運用更少的機器設計選擇,它將一句話視為整體進行解碼,雖然仍是將一句話分割成若干獨立單元,但每個單元都放在句子的前後進行考量。這就像一個初中生進入高中大門,為完成作業,要嘗試在一本巨大的詞典中查找單詞和短語。神經機器翻譯與以往的翻譯模式用的是同樣一本大詞典,但舊的翻譯模式只是逐個查詞,而神經機器翻譯卻訓練出兩種神經網絡,可以生產出另一種語言的完整的文本。這對於漢語翻譯是極為重要的,因為漢語中由於搭配不同導致一個詞往往有不同的意思。

  谷歌神經網絡翻譯為何能夠在準確性上有質的飛躍?

  據悉,谷歌神經翻譯克服了之前神經機器翻譯在準確性和速度上的缺陷,帶有8個編碼層和8個解碼層的長短時記憶(LSTM)網絡用來增強注意以及記錄瞬間感覺殘留。注意力機制則連接下層解碼層和上層編碼層,以此來提高並行度從而降低耗時,推理計算中的低精度的算法則提升了最終的翻譯速度。

  第一步,網絡將中文單詞編碼為一系列向量,每個向量代表整句話所有單詞的含義。一旦整個句子被神經網絡閱覽,解碼即開始,生成相應的英語句子。而解碼則是一個將已編碼的中文向量與相關的英語單詞生成的加權分布的過程。連接編碼解碼的曲線代表解碼過程中所考量到的編碼詞彙。

  而為提高對生僻詞的處理,谷歌將詞語分成有限的子詞單元,從而方便輸入與輸出。而束搜索技術則使搜索長度規格化以及具有覆蓋性,這使得翻譯輸出的句型可大量覆蓋譯介語種的所有單詞。這一切都可歸為人工智慧,人工智慧算法不依賴於人類邏輯,比起人們從前使用的手工編寫的算法來說,人工智慧算法能找到更好的方式完成任務。人工智慧網絡自身會學習怎樣翻譯,它只專注於結果如何,而不受人類思維優先的幹擾。開發此項目的谷歌工程師麥克·舒斯特說,「你不必選擇,系統會全面進行翻譯。」

  中譯英只是谷歌翻譯所支持的多種語言中的一種。谷歌表示,今後翻譯將更多依賴於人工智慧。在之後的幾個月時間裡,谷歌還會設計出適用於更多語言的谷歌神經機器翻譯。當然,此種神經機器翻譯還不能稱得上完美,固然基於神經的人工智慧表現不錯,但仍有很多細微之處機器算法不能夠真正領悟。比起人類翻譯,谷歌神經網絡翻譯仍會犯許多人類翻譯不會出現的錯誤,如掉詞、誤譯專有名詞、罕見術語,以及忽略上下文語境而孤立地翻譯某句話等等。不過,起碼這種新的翻譯模式只是讓意思流失在翻譯結果上,而非在翻譯過程中就面目全非。

  舉例展示GNMT進行漢英翻譯的過程

  首先,網絡將漢字(輸入)編碼成一串向量,每個向量代表了當前讀到它那裡的意思(即 e3代表「知識就是」,e5代表「知識就是力量」)。整句話讀完之後開始解碼,每次生成一個作為輸出的英語單詞(解碼器)。

  要每一步生成一個翻譯好的英語單詞,解碼器需要注意被編碼中文向量的加權分布中,與生成英語單詞關係最為密切的那個(上圖中解碼器d上面多條透明藍線中顏色最深的那條),解碼器關注越多,藍色越深。

  使用人類對比評分指標,GNMT系統生成的翻譯相比此前有了大幅提高。在幾種重要語言中,GNMT將翻譯錯誤降低了55%-58%。

短語式翻譯(藍色)、谷歌神經網絡翻譯(綠色)、真人翻譯(黃色)對比。

  此外,該項目開發團隊還宣布GNMT漢英英漢試用版上線。現在,谷歌翻譯漢英語言的移動版和網頁版都率先使用GNMT,每天負責1800萬次翻譯任務。

  該團隊表示,GNMT的上線得益於TensorFlow和深度學習專用加速器張量處理單元(TPU),尤其是後者,提供了足夠的計算能力來部署這些功能強大的GNMT系統,同時滿足谷歌產品嚴格的延遲要求。開發團隊表示,今後的幾個月裡將持續推出更多的語種服務用戶。

  機器翻譯的挑戰仍然存在。GNMT還是可能會犯一些人類絕對不會犯的錯,總之,GNMT有待改善的地方還有很多,但無論如何,GNMT都代表了一座重大的裡程碑。

  (觀察者網綜合澎湃新聞等)

news.sohu.com false 觀察者網 http://www.guancha.cn/Science/2016_09_30_375963.shtml report 3261 繼阿爾法狗戰勝韓國職業棋手李世石沒多久,人工智慧再下一城。據澎湃新聞9月29日報導,27日,谷歌推出了新的翻譯系統,聲稱該套翻譯系統基於對人類神經思考的模仿,能

相關焦點

  • 谷歌推神經網絡翻譯 中譯英水平匹敵真人
    據澎湃新聞9月29日報導,27日,谷歌推出了新的翻譯系統,聲稱該套翻譯系統基於對人類神經思考的模仿,能夠與真人翻譯競相匹敵。在谷歌發表的題為《規模生產中的神經網絡機器翻譯》(A Neural Network for Machine Translation, at Production Scale)的文章中,宣布將機器學習技術納入網頁和手機APP翻譯中,從前漢譯英的尷尬局面將大為扭轉。
  • 有道神經翻譯媲美專八?那我們今天來試試...
    此次有道上線的NMT技術,由網易有道與網易杭州研究院歷時兩年合力研發,將服務於有道詞典、有道翻譯官、有道翻譯網頁版、有道e讀等產品,期待給用戶帶去超便捷的產品體驗。此外,有道翻譯官還推出了拍照翻譯,用戶只需要對文本進行拍照,就可實時展現出神經網絡翻譯的結果。
  • 神經網絡加持!有它出國不再找翻譯 谷歌翻譯上手體驗
    2016年9月份,谷歌正式發布了Google神經網路機器翻譯系統(Google Neural Machine Translation),簡稱GNMT,簡單的說,就是谷歌翻譯擁有了神經網絡。神經網絡是什麼意思呢?傳統計算只包含了輸入、計算、輸出三個部分。
  • 谷歌翻譯裡程碑:工智能神經網絡翻譯支持103種語言,翻譯字詞超過...
    OFwek機器人網訊:在過去的十年裡,谷歌翻譯(Google Translate)從最初僅支持幾種語言發展到今天的103種,每天翻譯的字詞超過1400億個。為了做到這一點,在任意兩種語言之間,谷歌翻譯都要運行多個翻譯系統,這帶來巨大的計算成本。如今,許多領域都正在被神經網絡技術顛覆。
  • 新譯科技:混合神經網絡算法使智能機器翻譯實現顛覆性突破
    新譯科技:混合神經網絡算法使智能機器翻譯實現顛覆性突破時間:2017-05-19 14:09   來源:中華網   責任編輯:青青 川北在線核心提示:原標題:新譯科技:混合神經網絡算法使智能機器翻譯實現顛覆性突破 在智能化的今天,傳統語言翻譯迎來智能化浪潮。
  • 有道周楓:未來三年,神經網絡翻譯將滿足90%以上的翻譯需求
    最近幾年,神經網絡翻譯這個新概念,把機器翻譯這一潭靜水攪起了風浪,加之整個社會翻譯使用量的快速提升,翻譯這個原本小眾的業務,突然站上了風口變成了網際網路巨頭重點發力的對象。他們都想藉助神經網絡翻譯這一新技術,打破翻譯市場的舊秩序,從中分一杯羹。 面對谷歌、百度、科大訊飛等這些強勁的對手,周楓表示,已經為這場市場爭奪站準備好了充足的彈藥。
  • 神經網絡加持,即時拍照翻譯哪家強?
    在谷歌新一輪的更新之後,即時相機翻譯再次進化,支持語種數量達到了88種,可譯語言更是超過了100種。以前的版本還只支持中英文互譯,現在,無論是日語韓語馬來語,還是法語德語阿拉伯語,通通都能在相機裡直接顯示成中文。甚至沒有網絡,也依然好用。
  • 谷歌神經機器翻譯之我見
    聽說Google最近升級了翻譯系統,算法已經從幾年前的循環神經網絡(RNN)升級到了神經機器翻譯(GNMT),新的算法開始考慮翻譯對象所處的上下文語境(Context)。Google官方稱新的系統得出的翻譯相比於之前的基於短語的生產系統(PBMT)實現了極大的提升。GNMT在多個主要語言對的翻譯中將翻譯誤差降低了55%-85%以上。
  • 谷歌正式推出神經翻譯 翻譯水平遠超過去十年
    用谷歌翻譯常出錯,譬如......完全不懂怎麼會這樣,雖然我大天朝的文字遊戲的確複雜。 谷歌的工程師面臨很大的麻煩,畢竟它需要覆蓋100中語言,相互間排列組合能達到上萬種。Google也一直在研究更準確的翻譯方式,最近Google正式啟用「神經網絡機器翻譯系統」。
  • 英媒:谷歌翻譯越來越聰明 可不再藉助中間語言
    參考消息網12月2日報導 英媒稱,谷歌翻譯正在變得更加聰明。這一在線翻譯工具最近開始使用神經網絡進行幾種最常用語言之間的翻譯——而且該系統現在變得十分聰明,以至於能夠實現那些還沒有接受直接互譯訓練的語言對的互譯。為了做到這一點,谷歌翻譯似乎已經創造了一種自己的人工語言。
  • 谷歌發布神經機器翻譯:翻譯質量接近筆譯人員
    據外媒報導,谷歌於昨日發布了網頁版和移動版的谷歌翻譯。在漢譯英的過程中,會採用全新的神經機器翻譯,而這個App每天要進行一千八百萬次這樣的翻譯。此外,谷歌針對這個翻譯系統的運作原理,發表了一篇學術論文。早前,谷歌就曾表示它們在谷歌翻譯中運用了神經網絡技術,但只限於實時視覺翻譯這個功能。
  • 號稱地表最強的神經機器翻譯,為什麼還是差強人意?
    於是,我們選取了目前最有代表性的谷歌GNWT和屢獲大獎的搜狗的SogouNWT,來摸索一下今天神經網絡機器翻譯的真實水平和進化空間。進擊的神經機器翻譯開始十分有趣的實驗之前(其實並不有趣),先來簡單了解一下神經機器翻譯在原理上強在哪裡,它的內部有哪些門類,以及為什麼幾年間成為了主流標配?
  • 谷歌發布神經機器翻譯,翻譯質量接近筆譯人員
    此外,谷歌針對這個神經機器翻譯系統的運作原理,專門發表了一篇學術論文。早前,谷歌就曾表示過,他們在谷歌翻譯中運用了神經網絡技術,但只限於實時視覺翻譯這個功能。前段時間,谷歌一名叫Jeff Dean的高級員工曾經告訴VentureBeat,谷歌已經在嘗試把越來越多的深度學習功能和機制融入到谷歌翻譯中。
  • 神經翻譯系統水平遠超谷歌、微軟,德國創業公司發布翻譯器DeepL
    近日,一家名為 DeepL 的創業公司發布了自己的神經翻譯工具,引起了業內關注。據稱在盲測與 BELU 分數測試中,這款全新翻譯系統的性能遠超來自谷歌、微軟和 Facebook 三家巨頭的同類產品。對於我們來說,DeepL 唯一的問題就是何時能夠支持中文了。
  • 號稱地表最強的神經機器翻譯,為什麼還是不盡如人意?
    於是,我們選取了目前最有代表性的谷歌GNWT和屢獲大獎的搜狗的SogouNWT,來摸索一下今天神經網絡機器翻譯的真實水平和進化空間。進擊的神經機器翻譯開始十分有趣的實驗之前(其實並不有趣),先來簡單了解一下神經機器翻譯在原理上強在哪裡,它的內部有哪些門類,以及為什麼幾年間成為了主流標配?
  • 網易有道上線神經網絡翻譯
    作為目前機器翻譯領域最前沿的技術,神經網絡翻譯採用獨到的神經網絡結構,能夠對翻譯的全過程整體建模;與統計翻譯模型(SMT)相比,神經網絡翻譯模型更像一個有機體。  NMT對整個句子進行編碼,能夠更充分地利用上下文信息,判定多義詞的詞義,生成更高質量的譯文。
  • 谷歌申請神經網絡翻譯專利,專家表示淡定,Facebook呢?
    2015 年十月,谷歌提交了這份專利申請,名為「神經機器關鍵字處理翻譯系統「,在 2016 年四月 28 日發布,谷歌為這項技術的具體實現方式申請了專利。谷歌將這項神經網絡MT(機器翻譯)系統的技術定義為「一個將兩種自然語言相互映射的神經網絡系統」。這項專利的關注點主要集中在具體映射的方法上,然而,專利中包含了大量侵權索賠條款。
  • BAT、谷歌、Facebook都在搞的神經機器翻譯,真的就地表最強了嗎?
    雖然翻譯質量確有提高,但遠沒到上述引文中描繪的發生「質變」的程度。這到底是為什麼?於是,我們選取了目前最有代表性的谷歌GNMT和屢獲大獎的搜狗的SogouNMT,來摸索一下今天神經網絡機器翻譯的真實水平和進化空間。
  • BAT、谷歌、Facebook都在搞的神經機器翻譯,真的就地表最強了嗎...
    2014年到2016年,機器翻譯領域可以說是翻天覆地。這期間發生的大事,是以神經網絡作為基礎的機器翻譯,開始在全面超越此前以統計模型為基礎的統計機器翻譯,並快速成為在線翻譯系統的主流標配。時過一年,市面上的NMT系統越來越多,國內的BAT、搜狗,國外的谷歌、Facebook、微軟等都在布局。雖然翻譯質量確有提高,但遠沒到上述引文中描繪的發生「質變」的程度。這到底是為什麼?於是,我們選取了目前最有代表性的谷歌GNMT和屢獲大獎的搜狗的SogouNMT,來摸索一下今天神經網絡機器翻譯的真實水平和進化空間。
  • 谷歌用神經機器系統把漢語翻譯成英語 錯誤率最高下降85%
    新浪科技訊 北京時間9月28日上午消息,谷歌今天宣布,網絡和移動版的谷歌翻譯現在使用新的神經機器翻譯系統,並用於漢譯英,目前,谷歌翻譯應用每天翻譯約1800萬次。谷歌也在發布一篇關於該方法的學術論文。 此前谷歌也曾表示在谷歌翻譯中使用神經網絡,但具體用於實時視頻翻譯功能。