神經網絡機器翻譯技術及應用(下)

2021-01-08 百度NLP

何中軍,百度機器翻譯技術負責人。本文根據作者2018年12月在全球架構師峰會上的特邀報告整理而成。神經網絡機器翻譯技術及應用(上)篇,我們為大家介紹了神經網絡機器翻譯的基本原理和挑戰,(下)篇繼續為大家講述機器翻譯的應用與未來。

前面我們講了機器翻譯的原理以及神經網絡翻譯的發展、以及面臨的挑戰,我們現在看一看,機器翻譯現在有哪些應用?

機器翻譯在越來越多地幫助和影響我們的生活。上圖中列出了幾個利用機器翻譯來進行日常學習和交流的例子。左邊兩位是明星,一位是電影明星,利用翻譯系統翻譯化妝品成分,一位是公交司機,利用翻譯APP學習英文,並運用到工作中去。右邊是交警、售票員利用機器翻譯與外國人進行交流。

這只是機器翻譯應用的一個縮影。隨著技術的發展和交流的需要,機器翻譯已經深切地融入我們的生活。

機器翻譯除了能做翻譯之外還可以做一些很有意思的事情,比如說白話文和文言文的翻譯,其實用的技術是類似的,從一種語言表達翻譯成另外一種語言表達,或者從一個字串變換為另外一個字串,甚至是從一幅圖產生文字說明,凡是這樣的工作都可以用機器翻譯的技術來做。

機器翻譯還可以做什麼,作詩。這是機器翻譯寫的兩首詩,大家可以看一下,右邊這個,「臘梅開時獨自寒,幽香一縷為哪般。東風不解相思意,吹落梨花雪滿天。」意境是不錯的。而它的原理也是機器翻譯的原理,從上一句翻譯到下一句,可以認為上一句是原文,下一句是目標譯文,然後再把第一句和第二句作為原文,產生第三句,這樣整首詩每一句的產生都是依賴於前面的信息,所以整體上就有一個語義上的連貫性。

這是利用機器翻譯做詩的原理圖。首先根據用戶輸入提取關鍵詞,並對關鍵詞進行聯想和擴展,繼而產生意境一致、連貫的詩句。

機器翻譯還可以做什麼,寫春聯。

這個對聯跟以往常見的對聯不太一樣的地方,是我們上聯、下聯和橫批全部都是機器產生的。以前的對對子,我出一個上聯,你對一個下聯兒,但是春聯這個有意思,用戶提供一個詞語,機器自動做出上下聯和橫批。 這裡左邊兩個是人名,第一個是雲鵬,分別出現在上下聯中第4個字的位置。第二個是黃渤,兩個字分別出現在開頭。最後這個,上聯中前兩個字是一個電影的名字。 可見機器翻譯有技術很多有趣的應用。

現在語音、圖像等人工智慧技術不斷發展,並取得了很大的進步,那麼能不能跟機器翻譯結合起來,創造出更多有意思的應用和場景呢?

第一個就是同聲傳譯,我把這四個字拆開來分析。『同』,就是表示時間延遲要短,為什麼同傳比交傳的工資高,就是因為它體現在這個『同』上,在我說話的同時,基本上翻譯結果就傳遞到觀眾那邊去了;『聲』用到的是語音技術,包括語音識別和合成;『傳』就是信息傳遞要準確,翻譯的時候得把我原本的意思表達出來;『譯』就是翻譯技術,對應到機器翻譯。正好這四個字包含了兩個要求、兩個技術。

那麼挑戰在什麼地方?我們來看下圖中的這個句子,這是一個語音識別的結果,那麼要把這樣一個語音識別的結果去做同聲傳譯,用機器把它翻譯出來,有哪些問題呢?

第一個問題就是有噪聲的問題。比如說有冗餘,我現在說話的時候可能就有冗餘,很多詞你是不需要翻出來的,或者是我的口語,或者是我有重複。另外一個就是識別錯誤,這裡面『種莊稼』識別錯了,人可能糾錯能力會更強,能知道是種莊稼。但是這對機器很難,這種錯誤直接影響翻譯質量,所以就需要建立一個更魯棒的語音模型和翻譯模型去做更好的容錯。

第二個難點是句讀、斷句和標點,剛才大家看了是沒有標點的(上圖),沒有標點的時候你不知道該在哪裡翻,該在哪裡停頓,所以我們應該給他加上標點,那這個問題可以看做一個序列標註問題來解決它。

第三個難點是時延,時延其實跟準確率是一個矛盾的概念,人們說話是有邏輯的,要想翻譯的準,我就可能得等到語義表達相對完整了再翻,但是那個時候很有可能就已經延遲了很長時間了,那這個時候那應該怎麼做?我們可以採取一個適當的預測技術,得到一個翻譯質量和時延的平衡。

另外一個應用是翻譯機。除了像剛才說的會議級別的同傳需求以外,另一個滿足我們日常交流的需求,我們出國的時候跟外國人可以自由交流。

出國面臨幾個痛點,一是上網,二是翻譯。我們這款翻譯機同時解決了這兩個問題,你可以用它上網,可以用它來翻譯,還可以用它來導覽。

從網上用戶公開的反饋來看,翻譯機在很多場景下對用戶幫助都非常大。比如說在乘車、在吃飯的時候,甚至是買藥。在買藥的例子中,這個人本身他是懂英文的,但是藥品的名字他不會,那他就用翻譯機把那個藥的名字翻譯出來。下面的例子,在酒店check in的時候,過安檢的時候,翻譯機都可以很好的幫助人們進行交流。

下面一個應用是我非常喜歡的,就是圖像翻譯。我去國外的時候有時會去博物館,我不太願意看大段的介紹說明,因為那上面的字很難看懂。有了這個功能以後,我去博物館裡,每個展品下面有一個說明,那麼我可以去拍一下,翻譯為母語進行閱讀。

上圖中的右邊是一個實物翻譯的功能,識別物品,並同時給出中英文翻譯,可以幫助我們進行雙語學習。

最後,我來總結一下,我畫了一個機器翻譯的立方體,用三個維度去表徵現在機器翻譯的發展,試圖衡量一下現在機器翻譯和人的翻譯都處在一個什麼水平。這三個維度,一個是翻譯質量,一個是領域,還有一個是語言種類,我們最終的目標是要右上角這個頂端,我們在所有的語言、所有的領域上都達到一個非常高的翻譯質量。

那麼人就是這個平面,我把它稱為專家平面,一個人是某一個領域的專家,可能是某一種語言的專家,比如說我是中英、化學領域的專家,那麼我就可以把化學領域、中英這兩種語言翻譯的很好。但是讓我翻譯中文到韓文,翻譯醫藥領域,我不懂這種語言、不是這個領域的專家,就翻譯的不太好。但是好在有別的專家,有的人可能懂好幾種語言,或者跨了好幾個領域,所以整個人類專家是分布在這個平面上的。

機器理論上來說,它可以做任何語言和任何領域的翻譯。但是它的翻譯質量顯然是不如人好,但是在某些特定的領域上我們可以進行一些領域的定製化或者領域的優化,它可以在某一個領域上往前推進,所以機器翻譯最終的目標是達到終級目標,當然這個路非常漫長。

50多年前,也就是在1964年的時候,有三位科學家寫了一本書叫《機器翻譯淺說》,提出了機器翻譯的幾個設想。

第一個設想,『有一天,當你在人民大會堂的時候,你會發現無論哪個國家的人在臺上講話,與會者都能從耳機裡聽到自己國家的語言。同時你會發現耳機裡翻譯的不是人,而是我們的萬能翻譯博士』。這其實就是自動同傳。

第二個設想,『此外,當你去國外旅行的時候,隨身可以帶一個半導體和其他材料製成的小型萬能博士。當我們跟國外,外國朋友交談的時候,博士就立刻給你翻譯出各自國家的語言』。這就是我們剛才講的翻譯機。

五十多年前的預言,其實現在已經出現在我們身邊了。當然還有一個預言,現在還沒有看到產品,就是翻譯印表機。比如說有一天在英國出版了一本新書,你把它放在這個印表機裡去,那麼出來的就是已經譯好的中文譯本、德文譯本、俄文譯本。

其實機器翻譯想做的事情,就是想讓人們在任何時間、任何地點,用任何語言可以進行自由的溝通。

百度自然語言處理(Natural Language Processing,NLP)以『理解語言,擁有智能,改變世界』為使命,研發自然語言處理核心技術,打造領先的技術平臺和創新產品,服務全球用戶,讓複雜的世界更簡單。

相關焦點

  • 機器翻譯七十年:百度領跑神經網絡翻譯時代
    中新網12月22日電 機器翻譯距今已有70年的發展歷史。自上世紀40年代起,基於規則、實例以及統計的機器翻譯方法漸次登場,各領風騷。近兩年,神經網絡機器翻譯(Neural Machine Translation, NMT)技術異軍突起,取得了翻譯質量的大幅躍升。
  • 陽光學院打造「語用神經網絡機器翻譯」系統
    語言與智能研究團隊」演示了該系統的操作,由該團隊自主打造的「語用神經網絡機器翻譯」系統得到了與會專家的高度評價。「語用神經網絡機器翻譯」系統操作頁面此次會議邀請到世界500強企業翻譯技術開發與管理的權威專家、全國唯一以翻譯類業務為主的上市公司高管及985高校的機器翻譯業界專家到會進行成果鑑定,專家們認為,陽光學院「語言與智能研究團隊」已具備快速開發專業語料庫的經驗和能力,所開發的系統可在線推廣和應用。
  • Google翻譯應用程式的離線神經機器翻譯支持59種語言
    據外媒Techcrunch報導,目前,當iOS和Android版Google翻譯應用聯網後,其翻譯質量遠遠優於離線時的翻譯質量。這是因為離線翻譯是基於短語的,這意味著它們使用的是舊版機器翻譯技術,而不是聯網時可以訪問的機器學習驅動的系統。但這種況正在改變。
  • Google發布神經網絡機器翻譯系統:支持中英
    Google今天宣布發布Google神經網路機器翻譯系統(Google Neural Machine Translation),簡稱GNMT,使用當前最先進的訓練技術,能夠實現到迄今為止機器翻譯質量的最大提升。
  • 號稱地表最強的神經機器翻譯,為什麼還是不盡如人意?
    基於人工智慧命題下的神經網絡來構建機器翻譯系統,是一個早在1949年就提出了的想法,但是在此後的漫長時間裡都沒有工程化基礎,並且效率不高,一直沒有成為主流。最早的機器翻譯,是根據不同語言的語法語序進行翻譯,被稱為規則機器翻譯(RBMT),這種機器翻譯應用範圍非常狹窄,只能算早期技術。之後統計學崛起,統計機器翻譯(SMT)成為主流。
  • 谷歌翻譯啟用全新神經網絡機器翻譯支持印地語、俄國和越南語
    《谷歌翻譯啟用全新神經網絡機器翻譯支持印地語、俄國和越南語》文章已經歸檔,不再展示相關內容,編輯建議你查看最新於此相關的內容:牽手Google,王雪紅意欲成就HTC再次起飛HTC與Google籤署戰略合作協議的消息傳出後
  • 網易有道上線神經網絡翻譯 質量可媲美英語八級
    近日,網易有道在GMIC(全球移動網際網路大會)未來創新峰會上公布:由網易公司自主研發的神經網絡翻譯( Neural Machine Translation,以下簡稱NMT)技術正式上線。人工智慧改變翻譯讓翻譯更「聰明」深度學習是推動當前人工智慧熱潮最關鍵的技術,它首先在圖像、音頻等感知領域獲得了巨大成功,目前在語言方面的應用也獲得了長足的進展。而神經網絡翻譯就是深度學習在機器翻譯領域的具體應用。
  • 谷歌翻譯新技能 離線也可使用神經機器翻譯
    【TechWeb報導】6月13日消息,近日谷歌宣布將更新Android與iOS版本的Google Translate應用,此次更新最值得關注的一點便是,即使終端設備處於無法聯網的狀態,也可使用神經機器翻譯(NMT)技術進行翻譯,全新版本已於即日起陸續進行推送。
  • 機器翻譯三大核心技術原理 | AI知識科普
    >20世紀80年代基於規則的機器翻譯開始走向應用,這是第一代機器翻譯技術。隨著機器翻譯的應用領域越來越複雜,基於規則的機器翻譯的局限性開始顯現,應用場景越多,需要的規則也越來越多,規則之間的衝突也逐漸出現。於是很多科研學家開始思考,是否能讓機器自動從資料庫裡學習相應的規則,1993年IBM提出基於詞的統計翻譯模型標誌著第二代機器翻譯技術的興起。
  • BAT、谷歌、Facebook都在搞的神經機器翻譯,真的就地表最強了嗎?
    2014年到2016年,機器翻譯領域可以說是翻天覆地。這期間發生的大事,是以神經網絡作為基礎的機器翻譯,開始在全面超越此前以統計模型為基礎的統計機器翻譯(SMT),並快速成為在線翻譯系統的主流標配。在這場革命之後,機器翻譯徹底進入了Neural Machine Translation,即NMT神經機器翻譯時代。很多人為此歡欣鼓舞。
  • 將科幻變成現實,谷歌百度用神經機器翻譯踐行人類的「巴別塔之夢」
    過去幾年,機器智能的快速發展已經給我們的語音識別和圖像識別能力帶來了巨大的提升,但改進機器翻譯仍然是一個高難度的目標。而隨著眾多公司對神經機器翻譯的研究,我們已經階段性的解決了機器翻譯問題。神經網絡機器翻譯技術成為人工智慧翻譯主流。該技術通過「端到端」的方法將翻譯平行語料進行映射,以「編碼器—注意力機制—解碼器」的結構來解決翻譯問題。
  • 如何評價Google神經機器翻譯(GNMT)系統?
    (GNMT:Google Neural Machine Translation)系統,在官方博客中Google稱該系統使用了當前最先進的訓練技術,能夠實現到當下機器翻譯質量上最大的提升。其中,Google Translate的核心技術 「統計機器翻譯」其基本思想是通過對大量平行語料進行統計分析、構建統計翻譯模型、進而使用此模型進行翻譯。簡單來說,Google Translate 在生成譯文時,會在大量人工翻譯的文檔中查找各種模型,進行合理的猜測,從而得到恰當的翻譯。
  • 英漢翻譯so easy!谷歌發布神經網絡翻譯系統
    谷歌發布神經網絡翻譯系統 Google今天宣布發布Google神經網路機器翻譯系統(Google Neural Machine Translation),簡稱GNMT,使用當前最先進的訓練技術,能夠實現到迄今為止機器翻譯質量的最大提升。
  • 搜狗機器翻譯團隊獲得 WMT 2017 中英機器翻譯冠軍
    搜狗語音交互技術中心代表搜狗參加了這次含金量極高的比賽,該中心研發的搜狗神經網絡機器翻譯(Sogou Neural Machine Translation)系統在「中文-英文」機器翻譯任務中獲得了冠軍。這個系統採用了哪些新方法、新結構,又為我們提供了哪些新思路?讓我們結合論文聊一聊 Sogou NMT。WMT 是機器翻譯領域的國際頂級評測比賽之一。
  • 百分點認知智能實驗室出品:機器翻譯是如何煉成的(下)
    按在「機器翻譯是如何煉成的(上)」的文章中,我們回顧了機器翻譯的發展史。在本篇文章中,我們將分享機器翻譯系統的理論算法和技術實踐,講解神經機器翻譯具體是如何煉成的。2013年~2014年不溫不火的自然語言處理(NLP)領域發生了翻天覆地的變化,因為谷歌大腦的Mikolov等人提出了大規模的詞嵌入技術word2vec,RNN、CNN等深度網絡也開始應用於NLP的各項任務,全世界NLP研究者歡欣鼓舞、躍躍欲試,準備告別令人煎熬的平淡期,開啟一個屬於NLP的新時代。在這兩年機器翻譯領域同樣發生了「The Big Bang」。
  • 百度大腦開放日召開機器翻譯專場 百度AI同傳翻譯性能可媲美人類
    機器翻譯作為人工智慧關鍵技術之一,正日益成為企業智能化升級的重要應用場景。12月1日,百度大腦開放日舉辦了以「機器翻譯 溝通全世界」為主題的專場活動。IDC中國副總裁兼首席分析師武連峰、百度AI技術生態部總經理劉倩、百度人工智慧技術委員會主席何中軍進行主題演講,同時與在場的40多位來自金融、製造、能源等行業企業信息化負責人聚焦機器翻譯的價值、企業應用需求、未來發展趨勢等話題展開深入的互動討論,分享最佳實踐經驗,助力企業更好的提升機器翻譯大規模產業化應用,推動企業智能化升級。會上,武連峰講到,企業具備全球化信息能力非常重要。
  • 機器翻譯都比人強了,為什麼我還在複製粘貼查單詞?
    直到2014年,加拿大蒙特婁大學的Kyunghyun Cho、Yoshua Bengio等人發布了一篇在機器翻譯領域應用神經網絡的論文——Neural Machine Translation by Jointly Learning to Align and Translate。神經網絡的出現,讓優質高效的機器翻譯不再遙遙無期。
  • 微軟提出新型通用神經機器翻譯方法,挑戰低資源語言翻譯問題
    近日微軟發布博客,提出一種半監督通用神經機器翻譯方法,解決低資源語言機器翻譯的問題,幫助解決方言和口語機器翻譯難題。該研究相關論文已被 NAACL 2018 接收。機器翻譯已經成為促進全球交流的重要組成部分。數百萬人使用在線翻譯系統和移動應用進行跨越語言障礙的交流。在近幾年深度學習的浪潮中,機器翻譯取得了快速進步。
  • 機器翻譯革命強勢來襲 人類翻譯將無路可走?
    這一切都源於一項近年來不斷取得突破的技術——機器翻譯。人工智慧推波助瀾全球知名翻譯公司「一小時翻譯」執行長奧弗·紹尚日前警告說,未來1至3年內,基於神經網絡翻譯技術的機器翻譯將會承擔價值400億美元翻譯市場上的近一半工作,預計會導致50萬名翻譯失業。
  • 學界| 對比神經機器翻譯和統計機器翻譯:NMT的六大挑戰
    作者:Ozan alayan機器之心編譯參與:蔣思源、Smith本文總結了最近發表的論文「神經機器翻譯的六大挑戰(Six Challenges for Neural Machine Translation)」,並希望讀者能看到神經機器翻譯的不足和未來的發展方向。