美國研究生留學(ID:meiguoduyan)
機器之心(ID:almosthuman2014)
谷歌翻譯實現重大突破!
你們來感受下!
上面圖片看不清的請看下面兩張截圖,大家對比一下
對此,網友們都炸了,特別是學翻譯的小夥伴們:
@猞猁與兔猻
作為一個翻譯,看到這個新聞的此時此刻,我理解了18世紀紡織工人看到蒸汽機時的憂慮與恐懼……
@李某正在潛逃
換言之···做翻譯的人現在開始要被第三次工業革命淘汰了?
@咖喱枝葉
外語系大學還沒畢業的開始害怕
@帥_路
畢業論文英文版有救了!
谷歌翻譯的重大突破是什麼?這一切是如何發生的?其實昨天谷歌就已經發表了相關論文,介紹了自己最新的神經機器翻譯系統(GNMT),以及新系統的工作原理。
前天(9月27日),谷歌在 ArXiv.org 上發表論文《Google`s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation》,介紹谷歌的神經機器翻譯系統(GNMT)。
昨天(9月28日),谷歌 Research Blog 發布文章對該研究進行了介紹,還宣布將 GNMT 投入到了非常困難的漢語-英語語言的翻譯生產中,引起了業內的極大的關注。
以下文章轉載自機器之心微信公眾號(ID:almosthuman2014)
原文作者:Quoc V. Le、Mike Schuster,機器之心編譯,參與:吳攀。
以下為谷歌發出的介紹文章
十年前,我們發布了 Google Translate(谷歌翻譯),這項服務背後的核心算法是基於短語的機器翻譯(PBMT:Phrase-Based Machine Translation)。
自那時起,機器智能的快速發展已經給我們的語音識別和圖像識別能力帶來了巨大的提升,但改進機器翻譯仍然是一個高難度的目標。
今天,我們宣布發布穀歌神經機器翻譯(GNMT:Google Neural Machine Translation)系統,該系統使用了當前最先進的訓練技術,能夠實現到目前為止機器翻譯質量的最大提升。我們的全部研究結果詳情請參閱我們的論文《Google`s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation》。
幾年前,我們開始使用循環神經網絡(RNN:Recurrent Neural Networks)來直接學習一個輸入序列(如一種語言的一個句子)到一個輸出序列(另一種語言的同一個句子)的映射。其中基於短語的機器學習(PBMT)將輸入句子分解成詞和短語,然後在很大程度上對它們進行獨立的翻譯,而神經機器翻譯(NMT)則將輸入的整個句子視作翻譯的基本單元。
這種方法的優點是:相比於之前的基於短語的翻譯系統,這種方法所需的工程設計更少。當其首次被提出時,NMT 在中等規模的公共基準數據集上的準確度,就達到了可與基於短語的翻譯系統媲美的程度。
自那以後,研究者已經提出了很多改進 NMT 的技術,其中包括模擬外部對準模型(external alignment model)來處理罕見詞,使用注意(attention)來對準輸入詞和輸出詞 ,以及將詞分解成更小的單元應對罕見詞。儘管有這些進步,但 NMT 的速度和準確度還沒能達到成為 Google Translate 這樣的生產系統的要求。
我們的新論文描述了怎樣克服讓 NMT 在非常大型的數據集上工作的許多挑戰、如何打造一個在速度和準確度上都足夠能為谷歌 用戶和服務帶來更好的翻譯體驗的系統。
來自對比評估的數據,其中人類評估者對給定源句子的翻譯質量進行比較評分。得分範圍是 0 到 6,其中 0 表示「完全沒有意義的翻譯」,6 表示「完美的翻譯」。
下面的可視化圖展示了 GNMT 將一個漢語句子翻譯成英語句子的過程。
該網絡將該漢語句子的詞編碼成一個向量列表,其中每個向量都表徵了到目前為止所有被讀取到的詞的含義(編碼器(Encoder))。一旦讀取完整個句子,解碼器就開始工作——一次生成英語句子的一個詞(解碼器(Decoder))。
為了在每一步都生成翻譯正確的詞,解碼器重點注意了與生成英語詞最相關的編碼的漢語向量的權重分布(「注意(Attention)),藍色連結的透明度表示解碼器對一個被編碼的詞的注意程度)。
使用人類評估的並排比較作為一項標準,GNMT 系統得出的翻譯相比於之前基於短語的生產系統有了極大提升。
在雙語人類評估者的幫助下,我們在來自維基百科和新聞網站的樣本句子上測定發現:GNMT 在多個主要語言對的翻譯中將翻譯誤差降低了 55%-85% 甚至更多。
今天除了發布這份研究論文之外,我們還宣布將 GNMT 投入到了一個非常困難的語言(漢語-英語)的翻譯的生產中。
現在,移動版和網頁版的 Google Translate 的漢英翻譯已經在 100% 使用 GNMT 機器翻譯了——每天大約 1800 萬條翻譯。GNMT 的生產部署是使用我們公開開放的機器學習工具套件 TensorFlow 和我們的張量處理單元(TPU:Tensor Processing Units),它們為部署這些強大的 GNMT 模型提供了足夠的計算算力,同時也滿足了 Google Translate 產品的嚴格的延遲要求。
漢語到英語的翻譯是 Google Translate 所支持的超過 10000 種語言對中的一種,在未來幾個月,我們還將繼續將我們的 GNMT 擴展到遠遠更多的語言對上。
機器翻譯還遠未得到完全解決。GNMT 仍然會做出一些人類翻譯者永遠不出做出的重大錯誤,例如漏詞和錯誤翻譯專有名詞或罕見術語,以及將句子單獨進行翻譯而不考慮其段落或頁面的上下文。為了給我們的用戶帶來更好的服務,我們還有更多的工作要做。
但是,GNMT 代表著一個重大的裡程碑。我們希望與過去幾年在這個研究方向上有所貢獻的許多研究者和工程師一起慶祝它——不管是來自谷歌還是更廣泛的社區。
對於谷歌的神經機器翻譯系統,有人歡喜有人憂,你怎麼看?