機器之心獨家對話百度 NLP:先解決語義理解,再談機器翻譯取代人類

2020-12-06 機器之心Pro

機器之心原創作者:虞喵喵

9 月 28 日,Google 在 Research Blog 中介紹其神經網絡機器翻譯系統(GNMT)進展,譯文質量的大幅提升引發業內極大關注。據稱,在雙語評估者的幫助下,通過對維基百科和新聞網站的例句測定,在多個樣本的翻譯中谷歌神經網絡機器翻譯系統將錯誤降低了 55-85%甚至更多。

翻譯質量對比,來自 Google Research Blog

即便如此,網友發現其翻譯效果雖有顯著提升,但仍未避免將「我想下班」翻譯為「I want to work」等低級錯誤(第二天已被修復)。

事實上百度的在線翻譯系統,一年前就應用了基於神經網絡的翻譯方法(NMT)。去年百度曾在 ACL 會議上發表論文《Multi-Task Learning for Multiple Language Translation》,探討用 NMT 技術解決多語言翻譯及語料稀疏的問題。該論文得到業內研究人員的極大關注,並被 ACL2016 的 NMT Tutorial 列為研究方向。Google 和 Bengio 的研究團隊都在此論文的基礎上進一步擴展了研究。

為此,機器之心專訪百度自然語言處理部技術負責人吳華、高級總監吳甜,就神經網絡機器翻譯系統的優缺點、如何獲得高質量訓練數據及百度翻譯目前進展展開話題。同時也藉此機會了解百度自然語言處理部及其開展的 NLP 技術研發工作。以下為採訪內容整理,以饗讀者。

NMT、SMT 的優與缺

機器之心:能請您先介紹一下百度 NLP 部門嗎?

答:百度 NLP 部門在公司內部是具有較長歷史的部門,從最初搜索誕生時,就已經有 NLP 方面的工作。2010 年,百度正式成立自然語言處理部。現在,這個團隊人員構成非常多元,有自然語言處理、機器學習、信息檢索、數據挖掘、機器翻譯等多領域的專業性人才,擅長工程實踐和擅長科學研究的人才都能夠在團隊中發揮重要作用。同時,架構開發、前端開發、客戶端等軟體開發和硬體開發工程師,產品設計及語言學專業人才也是團隊的重要組成部分。

整個部門的大方向有幾個。第一是為百度的眾多產品提供最基礎的、NLP 模型算法,包括百度所有產品都在用的分詞算法、專名識別、詞性分析、語義理解、篇章理解等等一些基礎的一些工具。目前 NLP 部門為整個公司提供一個大型平臺 NLP 雲,未來這個平臺也會對公司外有所開放,目前(這個平臺)每天都有千億量級的調動量。還有貼近應用的一些大型的應用系統,比如說深度問答系統。NLP 開發的深度問答系統在百度的搜索產品上,會有一些直接展示。比如在搜尋引擎中提出一個問題,用戶可以不需要打開網頁,直觀的得到答案。

第二大方向是語義理解,實際上從最初期開始,NLP 就一直在致力於這樣的一個方向。在原來的搜索時代,會分析用戶的搜索 Query 含義是什麼。到今天新的產品形態產生之後,已經不僅僅是分析搜索的意圖。越來越多的用戶會開始嘗試有上下文的、更積極的交互方式,這就需要有上下文的理解。

第三個方向是對話系統。對話系統就是讓機器能像人一樣,和用戶有對話性質的交互。NLP 過去幾年一直在積累相應的技術,通過對話引導讓用戶和機器人能一句一句的交流下去。這部分實際上已經應用在百度的度秘產品中。

第四個就是機器翻譯。百度在機器翻譯上已有 6 年的積累,每天有大量用戶使用線上機器翻譯產品,翻譯 API 也有很多外部的企業開發者在使用。從 2014 年開始,百度嘗試做基於神經網絡的翻譯系統,正式上線發布時間要早於 Google 一年。並且我們在發布的同時,還開發了離線版本,可以在手機上使用。

還有一些是更前瞻的探索。比如小度機器人。機器人能看、能寫、能聽,和人相比它還需要一個特別重要的能力就是思考。思考的前提,是先能聽得懂語言。所以從 NLP 角度來說,更多的是希望機器人能懂語言、理解語言,然後能夠跟人交流。那這款小度機器人,過去的幾年也有頻繁的亮相。

領導百度 NLP 工作的百度副總裁王海峰博士,已於近日當選 ACL Fellow

機器之心:谷歌最近發布了神經網絡翻譯系統,我們怎麼看這個系統?

答:Google 發布的系統綜合了 NMT(Neural Machine Translation,神經機器翻譯)領域近年來的研究成果。其所使用的 Seq2Seq 翻譯模型、Attention 機制、以及深層 LSTM,在此前已有 Bengio 團隊等多篇論文提及,從 Google 發布的論文的參考文獻中可以看到。

此外,Google 針對大數據和深層模型的訓練,進行了諸多工程方面的優化。例如,其使用了自身研發的針對深度學習的計算機器—TPU,加速了訓練和解碼。

機器之心:那麼百度是否有相關的研究?

答:百度在這方面的研究起步很早,成果也非常多。而且,我們的神經網絡翻譯系統早在 2015 年 5 月就正式上線發布了。

我們從 2014 年開始便嘗試做基於神經網絡的翻譯系統,2015 年發布在線翻譯系統的時,BLEU(Bilingual Evaluation Understudy)指標已經比傳統的 SMT(統計機器翻譯)系統高六、七個點。我們同時還開發了離線版本,可以在手機上使用,

當時學術界對於深度學習的翻譯方法到底是否實用還有一番爭論,我們很早就發現基於 Attention 機制的 Seq2Seq 深度學習模型是有用的,經過多次實驗驗證,在很多集合上超過了傳統方法。同時,針對 NMT 本身存在的一些問題,進行了技術攻關,短短 3 個月的時間便完成了開發和上線。當大家還在討論 Attention 機制時,我們已經結合了原有的統計方法上線。可以說,百度翻譯是全球首個網際網路神經網絡翻譯系統。

機器之心:NMT(基於神經網絡的翻譯系統)效果就真的好於 SMT(基於統計的翻譯系統)嗎?或者說他會在哪個方面會好於 SMT 呢?

答:機器翻譯目前是兩大流派,一大流派是統計翻譯模型(SMT),在整個業界已經持續了 20 多年的研究。另一個就是基於神經網絡的翻譯模型(NMT),過去的兩年發展比較迅速。

從很多公開的評測上能看出,基於神經網絡的翻譯系統已經取得了比以前系統更好的成績。這兩大翻譯系統我們一直在向前推進研究。總體上來說,基於神經網絡的翻譯系統,在長句翻譯上有明顯優勢。

機器之心:可以從技術角度具體解釋下嗎?

答:從整體看,在數據訓練比較充分,比如有大數據集的時候,NMT 效果是好於 SMT 的。一句英文翻譯成一句中文,這算一個句對。如果中文和英文之間的雙語語料對有很多,那麼 NMT 整體上好於 SMT。

原因就在於,SMT 以前用的都是局部信息,處理單位是句子切開以後的短語,最後解碼時將幾個短語聯繫在一起,並沒有充分利用全局信息。NMT 則利用全局信息,整個句子的信息解碼後,才生成結果。這就是它的優勢,也是其在流暢性上更勝一籌的原因。

再進一步,翻譯有一個很重要部分是「語序調整」。比如中文會把所有的定語都放在中心詞前面,英文則會把修飾中心詞的介詞短語放在後面,機器常混淆這個順序。NMT 在語序學習上的優勢也帶來了它翻譯的流暢性。

而 SMT 在短句或者數據較小的情況下,優勢較為明顯。以成語翻譯為例,實際上不是意譯而是直譯,必須在語料庫中有對應內容才能翻譯出來。NMT 的翻譯過程決定了其有時不能很好的處理這類問題。

如今網際網路用戶的需求是多種多樣的。翻譯涉及口語、簡歷、新聞等多領域,一種方法很難滿足所有的需求。因此現在百度的翻譯系統中包含了 SMT、NMT,甚至還有傳統的 EBMT。所以,一個線上服務的翻譯系統,其實是綜合的系統。

不過從整個大趨勢看,隨著神經網絡技術的進一步發展,它會越來越成為主流。目前在我們的中、英、日、韓等多個系統中,它就是主流。

機器之心:那麼能否通過不斷增加網絡層數來提升 NMT 效果?

答:在網絡層數的增加過程中,成本、複雜度也隨之提升。並不是線性地增加網絡層數,收益比就更高,我們會去繼續研究,但並不代表不斷增加層數就一定是好方法。

就翻譯本身這個任務,現在有兩大問題造成翻譯效果不好。一是在於,訓練語料本身是有噪音的,我們花費了大量時間和精力研究怎樣找到更好的訓練語料,怎樣清洗出更好的語料。第二個是模型本身的不完美性,我們會不斷優化。這兩大方面的工作都是我們的重點。

獲取數據與解決語料稀疏問題

機器之心:剛才有提到 NMT 是非常依賴數據規模的,以及訓練語料中的噪音問題,如何獲得高質量的訓練數據?

答:我們能獲取的語料很多,比如網絡上存在的大量翻譯句對,但這些數據存在三個問題。

第一個在於它們可能是機器翻譯產生的語料。因為機器翻譯技術已經比較普及,尤其是醫療方面有大量的機器翻譯產生的語料。由於國外的醫療研究比國內先進,很多人會藉助機器翻譯技術來看文檔。而這種語料若進入語料庫,翻譯系統學出來的還是機器翻譯的句子。

第二種噪聲是來自於惡搞。比如我們最早的時候看到「how old are you」,翻譯成「怎麼老是你」。因為語料裡面「how old are you」,全是「怎麼老是你」,出現頻次非常高。

第三種是翻譯得不地道的。網際網路上翻譯內容的人不一定是翻譯水平很高的人,他們在翻譯文章時會自己加入一些內容。這種是比較難識別的,因為很零散。

針對每一類噪聲,我們都會建立一個不同的質量檢測模型,結合了翻譯自身的技術以及網際網路技術。機器翻譯的語料是不能用機器翻譯的概率特徵過濾的,比如「how old are you」每個對齊,怎麼(how)老(old)是(are)你(you),翻譯得特別完美肯定無法過濾。所以我們一般從網站本身的權威性著手,對於權威性低的,相應高置信度就要打低。此外,我們還通過識別翻譯特徵判斷其是否為機器翻譯語料,比如:流暢性不好、語序不對等等。

機器之心:不同語言的語料規模的差別較大,英語可能會多一些,小語種會少一些。如何將 NMT 的研究成果,應用於不同語言語料的構建中?

答:這其實是語料稀疏問題。語料稀疏是 NLP 一直在面對的問題,以前有一些解決方案,比如說: Transfer Learning(轉移性學習)、機器翻譯的 Pivot-Language(樞軸語言)技術、標籤傳播等技術。從一種語言翻譯到另外一種語言,即使同一種語言在不同領域的語料也是不一樣的,從這個領域遷移到另外一個領域,都需要解決語料的構建問題。

NMT 是可以應用於此的,因為 NMT 本質是把一種語言翻譯成另外一種語言。它的好處在於,不同語言之間可以互相學習他們的語義表示,比如中文的「看」,和英文的「See」(看見)或者「Read」(看書)。以相似度來計算,相似度高的就認為它們擁有同樣的語義,可以用在不同語言的標註上。

用來解決語料稀疏問題的多任務學習框架,來自《Multi-Task Learning for Multiple Language Translation》

這樣說可能有些抽象,舉例來說我們去年在 NLP 領域國際會議 ACL 上發表了一篇文章,講述用 NMT 解決語料稀疏的問題。中文和英文之間的句對很多,但中文和其他語言如日文、泰文、西班牙文的句對就很少。怎麼辦?我們同時學習。中文翻譯成英文、日文、韓文、泰語的句對都一起學習,這樣就能充分利用中文在源語言端的表示。此外,還學習關聯知識,韓語-日語之間結構類似,從日語中學習到的結構性信息適用於韓語翻譯。

後來 Bengio 團隊還在我們論文的基礎上做了類似的工作,他們在我們的研究基礎上擴展成多(語言)對多(語言),其實思想是類似的。後來他們還把這個工作開源了。

機器翻譯能否取代人工翻譯?

機器之心:很多人可能就會問,人工翻譯會不會被機器取代?您怎麼看這個想法?

答:從很長一段時間來看,完全取代還是不太可能的。

現在基於網際網路大數據的機器翻譯的優勢在於,突破了原來編輯規則的局限。與人工翻譯相比的好處是能迅速翻譯很多語言。同時它解決了一些問題,比如幾個場景:出門旅遊的溝通、寫 E-mail 借鑑機器翻譯用詞、小孩利用機器翻譯擴充詞彙。這種形式解決了用戶的一些問題,也達到了實用的程度。

但是翻譯最終的目標是「信、達、雅」,「信」至少是忠於原文,「達」就是譯文通暢,符合目標語言用語習慣,「雅」是在這個基礎上表達生動、形象。尤其在「雅」上,目前機器翻譯遠遠不夠。

就像我們說英文,能說但不一定達到「達」的標準。「達」的意思是用語非常「native」(地道),我想機器翻譯也沒到。更不用說「雅」,即使人工翻譯也只有少數人能達到雅的標準。

機器之心:達到「信、達、雅」的關鍵是什麼?

答:主要是語義理解問題。我們現在的翻譯方法,沒有做到「理解」。深度學習只是在模式識別這個手段上更加高明一點,但還沒有理解語言。

與專業的人工翻譯相比,機器翻譯有很多不足。首先,機器翻譯是以句子為單位,即使是篇章翻譯也是不看上下文,翻譯完一句算一句。人工翻譯是以篇章為單位,翻譯前要先通讀一遍,抓住意境和主旨。

其次,翻譯需要常識背景。口語交流、會議翻譯、隨意聊天、正式作文等所需的文體是不同的,而同一個詞在不同的文體上翻譯也不同,這也是機器翻譯的缺點。尤其是意譯,比如翻譯詩歌。如果沒有知識背景,將中國的詩翻譯成英文就會顯得直白而沒有韻味。跨語言的「信、達、雅」,連人都很難做到。

事實上,機器翻譯需要綜合多學科,包括計算機學、語言學、認知學等等。機器翻譯,看似簡單,實則很難。因此我認為,機器翻譯的道路還任重道遠。

相關焦點

  • 獨家對話百度副總裁王海峰:NLP 的路還很長
    編者按:近日,機器之心獨家對話百度副總裁王海峰博士,針對時下的 NLP 熱點、百度相關的技術情況及其個人經歷展開討論。此前,我們曾專訪過百度自然語言處理部技術負責人吳華、高級總監吳甜,就百度機器翻譯技術展開過詳細討論。想要進一步了解百度機器翻譯,可移步《獨家對話百度 NLP:先解決語義理解,再談機器翻譯取代人類》(可點擊文末閱讀原文查看)。因涉及方面較多、篇幅較長,根據專訪情況將內容分為上、下兩篇。
  • 深度學習在NLP中的運用?從分詞、詞性到機器翻譯、對話系統
    本文由機器之心編輯,「機器之心」專注生產人工智慧專業性內容,適合開發者和從業者閱讀參考。點擊右上角即刻關注。自然語言是人類知識的抽象濃縮表示,而自然語言理解是人工智慧研究領域中極具挑戰的一個分支。上次,《自然語言處理在 2017 年有哪些值得期待的發展?
  • 自然語言處理前沿論壇在京召開 學者專家共探機器之讀、寫、說、譯
    論壇圍繞語義計算、自動問答、語言生成、人機對話及機器翻譯五大議題,與學術界、工業界一線青年專家學者共同探討NLP領域的最新技術進展、產業應用及發展趨勢。百度NLP主任研發架構師、語義計算技術負責人孫宇介紹了百度語義計算技術發展脈絡及研發現狀,並分享了該技術在百度各產品中的應用情況。據介紹,百度語義計算著力研究如何利用計算機對人類語言的語義進行表示、分析和計算,使機器具備語義理解能力。研發了包括語義表示ERNIE[5]、語義匹配SimNet、語義解析、多模態語義計算在內的多項領先語義技術。
  • 2019自然語言處理前沿論壇:聚焦機器「讀、寫、說、譯」,探尋NLP...
    本屆論壇主題為「機器之『讀、寫、說、譯』——探尋NLP未來之路」,包含語義計算、自動問答、語言生成、人機對話和機器翻譯5場專題報告,以及圍繞上述專題的嘉賓對話環節。本論壇匯集學術界和工業界的青年專家學者,共同探討NLP領域的最新技術進展、產業應用及發展趨勢,旨在促進產學研深度融合,推動自然語言處理技術進步。
  • 2019 自然語言處理前沿論壇,百度NLP技術全揭秘
    本次論壇主題為「機器之『讀、寫、說、譯』—— 探尋 NLP 未來之路」,來自百度的嘉賓們分別在語義計算、自動問答、語言生成、人機對話和機器翻譯5場專題報告中分享了百度 NLP 技術的研究成果與應用。他表示,百度的語義計算方向包括語義表示學習、語義匹配計算、語義解析、多模態語義計算。計算機理解人類語言是一件非常有挑戰性的事情。語義表示技術存在的問題是,自然語言存在基本單元一詞多義、多詞同義、句子表述無限等特性。
  • 機器不可能取代人 而是人類的夥伴
    (原標題:機器不可能取代人 而是人類的夥伴) 4月2日,在2017
  • 百度機器翻譯獲2015年度國家科技進步二等獎(圖)
    百度機器翻譯項目在大會上被授予國家科技進步獎,成為BAT中首個獲此獎項的企業。機器翻譯是人工智慧領域最難的課題之一。1947年,機器翻譯步入歷史舞臺,50年代機器翻譯研究持續升溫,美國、前蘇聯等國家均出現了研究熱潮。
  • 2019自然語言處理前沿論壇 五大議題全面解析NLP技術前沿
    5月26日,由百度與中國計算機學會中文信息技術專委會、中國中文信息學會青工委聯合舉辦的「2019自然語言處理前沿論壇」正式召開。本屆論壇主題為「機器之『讀、寫、說、譯』—— 探尋NLP未來之路」。論壇圍繞語義計算、自動問答、語言生成、人機對話及機器翻譯五大議題,與學術界、工業界一線青年專家學者共同探討NLP領域的最新技術進展、產業應用及發展趨勢。
  • 百度領銜舉辦首次機器同傳講習班 詳解機器同聲傳譯技術演進
    EMNLP由國際計算語言學學會(ACL)旗下SIGDAT組織,會議涵蓋語義理解、文本理解、信息提取、信息檢索和機器翻譯等主題。會上,由百度聯合Google舉辦的首次機器同聲傳譯學術講習班(Tutorial)召開,圍繞機器同傳的背景、挑戰、模型、數據集、實用系統和產品、未來研究方向等展開報告和研討,吸引了數百位國際學者參會。
  • 將科幻變成現實,谷歌百度用神經機器翻譯踐行人類的「巴別塔之夢」
    機器之心作者:iCombinator機器翻譯之夢今天,當我們很自然的拿出手機,選擇一個谷歌、百度或微軟的翻譯 app ,輕而易舉的完成文字翻譯、拍照翻譯和實時語音翻譯時,我們可能不會意識到由於深度學習的出現和數據量的積累,研究數十年的機器翻譯問題已經變得可用並走入了我們的生活,給我們帶來了極大便利。
  • 人工智慧再下一城:機器翻譯提前7年達到人類專業翻譯水平
    黃學東驕傲地說,2015年微軟率先在圖像識別ImageNet數據集達到人類水平,2016年在Switchboard對話語義識別達到人類水平,2017在斯坦福問答數據集SQuAD上達到人類水平,今天又在機器翻譯上達到人類水平,一路走來,微軟的進步激動人心,「這是我們共同的成就,我們是站在同行的肩膀上往上走」。
  • 巨頭扎堆的小市場:不學外語,機器翻譯搞定一切?
    另一方面,隨著智能翻譯的興起,越來越多語言專業的學生和翻譯行業的工作人士抱怨,神經網絡翻譯等技術的出現,讓原本就競爭激烈的翻譯市場迅速進入了冰凍期。但是,未來機器翻譯真的會完全取代人類,讓翻譯員們下崗嗎?網易智能梳理了目前主流的機器翻譯技術與應用,一探智能機器翻譯行業究竟。
  • 百度機器翻譯獲國家科技進步獎
    1月8日,2015年度國家科學技術獎勵大會在人民大會堂舉行,百度機器翻譯項目獲頒國家科學技術進步獎二等獎,這是該獎項首次出現網際網路巨頭(BAT)的身影。   機器翻譯一直被公認為人工智慧領域最難的課題之一,百度機器翻譯的突破性成果,使我國掌握了網際網路機器翻譯的核心技術,佔領了技術制高點。
  • 百度:目前機器翻譯準確率已經與人類水平相當
    [PConline資訊]12月1日,百度大腦開放日舉辦。IDC中國副總裁兼首席分析師武連峰表示,到2021年底,超過70%具有海外業務的中國企業將不同程度的採用機器翻譯,應用場景也將更為豐富。  據介紹,百度提出的語義單元驅動的AI同傳模型,翻譯準確率為80%,時間延遲約為3秒,與人類水平相當。
  • 百度NLP | 神經網絡語義匹配技術
    比如基於統計機器翻譯方法,挖掘同義詞或同義片段來解決 mismatch 問題;從語義緊密度、詞語間隔等度量出發來規避結構轉義問題;從對網頁打關鍵詞標籤、點擊關聯計算等來一定程度解決非對稱匹配問題等。這些方法,都有一定效果,但整體上造成策略邏輯非常複雜,還是沒有完全解決具體任務下語義層面的匹配問題。而語義層面的匹配,首先面臨語義如何表示、如何計算問題。
  • 百度大腦開放日召開機器翻譯專場 百度AI同傳翻譯性能可媲美人類
    機器翻譯作為人工智慧關鍵技術之一,正日益成為企業智能化升級的重要應用場景。12月1日,百度大腦開放日舉辦了以「機器翻譯 溝通全世界」為主題的專場活動。
  • 地圖中的語義理解 | 雷鋒網公開課
    語義理解簡述所謂語義理解簡而言之就是讓機器懂得人的話語,理解人的意圖,並且返回給用戶相應的答案或者內容,來解決用戶需求。如果我們把語音識別作為機器的耳朵,那麼語義理解就是機器的大腦。尤其對於問答,目前大部分的語義理解引擎仍然是靠搜索方式來解決,通過搜索技術尋找問答庫中和用戶問題最匹配的問題。而且無論是百度知道還是搜狗問問,問答庫中大部分的問答內容其質量本身也不能得到好的判斷,更不用說需要從大量文本中抽取整理答案了。這對於自然語言理解技術是非常大的考驗,並且目前國內做語義理解的公司整體上都沒有很好的效果,也是搜狗目前正在嘗試突破的話題。
  • 百度機器翻譯現在都能預測你未來幾秒要說的話了!
    先給大家看一張動圖:上面的中文是人類說的話,下面的英文是百度 AI 給出的實時翻譯。可以看到,沒等說到「莫斯科」的時候,AI 自動翻譯的英語就已經出現了「meet」,也就是漢語句末的「會晤」。難道現在 AI 已經掌握了讀心術?
  • 機器翻譯七十年:百度領跑神經網絡翻譯時代
    近兩年,神經網絡機器翻譯(Neural Machine Translation, NMT)技術異軍突起,取得了翻譯質量的大幅躍升。12月21日,在百度機器翻譯技術開放日上,百度技術委員會聯席主席、自然語言技術負責人吳華博士表示,基於領先的人工智慧、神經網絡以及自然語言處理技術,百度早在1年多以前就率先發布了世界上首個網際網路NMT系統,引領機器翻譯進入神經網絡翻譯時代。
  • 哲學的時代擔當|從陸谷孫的翻譯智慧看機器翻譯的未來
    復旦大學外文學院資深翻譯專家陸谷孫先生,最近不幸因病醫治無效而辭世。我不是學習英語專業的,但因為關心與機器翻譯相關的人工智慧的哲學問題,故而平素也就多留意陸先生關於翻譯問題所發表的一些真知灼見。在此篇小文中,筆者借悼念先生的機會,從「如何對人類的翻譯機制進行機器模擬」的角度,重新發掘一下陸先生翻譯思想中的一些洞見。