機器之心獨家對話百度 NLP:先解決語義理解,再談機器翻譯取代人類

2020-12-11 機器之心Pro

機器之心原創作者:虞喵喵

9 月 28 日,Google 在 Research Blog 中介紹其神經網絡機器翻譯系統(GNMT)進展,譯文質量的大幅提升引發業內極大關注。據稱,在雙語評估者的幫助下,通過對維基百科和新聞網站的例句測定,在多個樣本的翻譯中谷歌神經網絡機器翻譯系統將錯誤降低了 55-85%甚至更多。

翻譯質量對比,來自 Google Research Blog

即便如此,網友發現其翻譯效果雖有顯著提升,但仍未避免將「我想下班」翻譯為「I want to work」等低級錯誤(第二天已被修復)。

事實上百度的在線翻譯系統,一年前就應用了基於神經網絡的翻譯方法(NMT)。去年百度曾在 ACL 會議上發表論文《Multi-Task Learning for Multiple Language Translation》,探討用 NMT 技術解決多語言翻譯及語料稀疏的問題。該論文得到業內研究人員的極大關注,並被 ACL2016 的 NMT Tutorial 列為研究方向。Google 和 Bengio 的研究團隊都在此論文的基礎上進一步擴展了研究。

為此,機器之心專訪百度自然語言處理部技術負責人吳華、高級總監吳甜,就神經網絡機器翻譯系統的優缺點、如何獲得高質量訓練數據及百度翻譯目前進展展開話題。同時也藉此機會了解百度自然語言處理部及其開展的 NLP 技術研發工作。以下為採訪內容整理,以饗讀者。

NMT、SMT 的優與缺

機器之心:能請您先介紹一下百度 NLP 部門嗎?

答:百度 NLP 部門在公司內部是具有較長歷史的部門,從最初搜索誕生時,就已經有 NLP 方面的工作。2010 年,百度正式成立自然語言處理部。現在,這個團隊人員構成非常多元,有自然語言處理、機器學習、信息檢索、數據挖掘、機器翻譯等多領域的專業性人才,擅長工程實踐和擅長科學研究的人才都能夠在團隊中發揮重要作用。同時,架構開發、前端開發、客戶端等軟體開發和硬體開發工程師,產品設計及語言學專業人才也是團隊的重要組成部分。

整個部門的大方向有幾個。第一是為百度的眾多產品提供最基礎的、NLP 模型算法,包括百度所有產品都在用的分詞算法、專名識別、詞性分析、語義理解、篇章理解等等一些基礎的一些工具。目前 NLP 部門為整個公司提供一個大型平臺 NLP 雲,未來這個平臺也會對公司外有所開放,目前(這個平臺)每天都有千億量級的調動量。還有貼近應用的一些大型的應用系統,比如說深度問答系統。NLP 開發的深度問答系統在百度的搜索產品上,會有一些直接展示。比如在搜尋引擎中提出一個問題,用戶可以不需要打開網頁,直觀的得到答案。

第二大方向是語義理解,實際上從最初期開始,NLP 就一直在致力於這樣的一個方向。在原來的搜索時代,會分析用戶的搜索 Query 含義是什麼。到今天新的產品形態產生之後,已經不僅僅是分析搜索的意圖。越來越多的用戶會開始嘗試有上下文的、更積極的交互方式,這就需要有上下文的理解。

第三個方向是對話系統。對話系統就是讓機器能像人一樣,和用戶有對話性質的交互。NLP 過去幾年一直在積累相應的技術,通過對話引導讓用戶和機器人能一句一句的交流下去。這部分實際上已經應用在百度的度秘產品中。

第四個就是機器翻譯。百度在機器翻譯上已有 6 年的積累,每天有大量用戶使用線上機器翻譯產品,翻譯 API 也有很多外部的企業開發者在使用。從 2014 年開始,百度嘗試做基於神經網絡的翻譯系統,正式上線發布時間要早於 Google 一年。並且我們在發布的同時,還開發了離線版本,可以在手機上使用。

還有一些是更前瞻的探索。比如小度機器人。機器人能看、能寫、能聽,和人相比它還需要一個特別重要的能力就是思考。思考的前提,是先能聽得懂語言。所以從 NLP 角度來說,更多的是希望機器人能懂語言、理解語言,然後能夠跟人交流。那這款小度機器人,過去的幾年也有頻繁的亮相。

領導百度 NLP 工作的百度副總裁王海峰博士,已於近日當選 ACL Fellow

機器之心:谷歌最近發布了神經網絡翻譯系統,我們怎麼看這個系統?

答:Google 發布的系統綜合了 NMT(Neural Machine Translation,神經機器翻譯)領域近年來的研究成果。其所使用的 Seq2Seq 翻譯模型、Attention 機制、以及深層 LSTM,在此前已有 Bengio 團隊等多篇論文提及,從 Google 發布的論文的參考文獻中可以看到。

此外,Google 針對大數據和深層模型的訓練,進行了諸多工程方面的優化。例如,其使用了自身研發的針對深度學習的計算機器—TPU,加速了訓練和解碼。

機器之心:那麼百度是否有相關的研究?

答:百度在這方面的研究起步很早,成果也非常多。而且,我們的神經網絡翻譯系統早在 2015 年 5 月就正式上線發布了。

我們從 2014 年開始便嘗試做基於神經網絡的翻譯系統,2015 年發布在線翻譯系統的時,BLEU(Bilingual Evaluation Understudy)指標已經比傳統的 SMT(統計機器翻譯)系統高六、七個點。我們同時還開發了離線版本,可以在手機上使用,

當時學術界對於深度學習的翻譯方法到底是否實用還有一番爭論,我們很早就發現基於 Attention 機制的 Seq2Seq 深度學習模型是有用的,經過多次實驗驗證,在很多集合上超過了傳統方法。同時,針對 NMT 本身存在的一些問題,進行了技術攻關,短短 3 個月的時間便完成了開發和上線。當大家還在討論 Attention 機制時,我們已經結合了原有的統計方法上線。可以說,百度翻譯是全球首個網際網路神經網絡翻譯系統。

機器之心:NMT(基於神經網絡的翻譯系統)效果就真的好於 SMT(基於統計的翻譯系統)嗎?或者說他會在哪個方面會好於 SMT 呢?

答:機器翻譯目前是兩大流派,一大流派是統計翻譯模型(SMT),在整個業界已經持續了 20 多年的研究。另一個就是基於神經網絡的翻譯模型(NMT),過去的兩年發展比較迅速。

從很多公開的評測上能看出,基於神經網絡的翻譯系統已經取得了比以前系統更好的成績。這兩大翻譯系統我們一直在向前推進研究。總體上來說,基於神經網絡的翻譯系統,在長句翻譯上有明顯優勢。

機器之心:可以從技術角度具體解釋下嗎?

答:從整體看,在數據訓練比較充分,比如有大數據集的時候,NMT 效果是好於 SMT 的。一句英文翻譯成一句中文,這算一個句對。如果中文和英文之間的雙語語料對有很多,那麼 NMT 整體上好於 SMT。

原因就在於,SMT 以前用的都是局部信息,處理單位是句子切開以後的短語,最後解碼時將幾個短語聯繫在一起,並沒有充分利用全局信息。NMT 則利用全局信息,整個句子的信息解碼後,才生成結果。這就是它的優勢,也是其在流暢性上更勝一籌的原因。

再進一步,翻譯有一個很重要部分是「語序調整」。比如中文會把所有的定語都放在中心詞前面,英文則會把修飾中心詞的介詞短語放在後面,機器常混淆這個順序。NMT 在語序學習上的優勢也帶來了它翻譯的流暢性。

而 SMT 在短句或者數據較小的情況下,優勢較為明顯。以成語翻譯為例,實際上不是意譯而是直譯,必須在語料庫中有對應內容才能翻譯出來。NMT 的翻譯過程決定了其有時不能很好的處理這類問題。

如今網際網路用戶的需求是多種多樣的。翻譯涉及口語、簡歷、新聞等多領域,一種方法很難滿足所有的需求。因此現在百度的翻譯系統中包含了 SMT、NMT,甚至還有傳統的 EBMT。所以,一個線上服務的翻譯系統,其實是綜合的系統。

不過從整個大趨勢看,隨著神經網絡技術的進一步發展,它會越來越成為主流。目前在我們的中、英、日、韓等多個系統中,它就是主流。

機器之心:那麼能否通過不斷增加網絡層數來提升 NMT 效果?

答:在網絡層數的增加過程中,成本、複雜度也隨之提升。並不是線性地增加網絡層數,收益比就更高,我們會去繼續研究,但並不代表不斷增加層數就一定是好方法。

就翻譯本身這個任務,現在有兩大問題造成翻譯效果不好。一是在於,訓練語料本身是有噪音的,我們花費了大量時間和精力研究怎樣找到更好的訓練語料,怎樣清洗出更好的語料。第二個是模型本身的不完美性,我們會不斷優化。這兩大方面的工作都是我們的重點。

獲取數據與解決語料稀疏問題

機器之心:剛才有提到 NMT 是非常依賴數據規模的,以及訓練語料中的噪音問題,如何獲得高質量的訓練數據?

答:我們能獲取的語料很多,比如網絡上存在的大量翻譯句對,但這些數據存在三個問題。

第一個在於它們可能是機器翻譯產生的語料。因為機器翻譯技術已經比較普及,尤其是醫療方面有大量的機器翻譯產生的語料。由於國外的醫療研究比國內先進,很多人會藉助機器翻譯技術來看文檔。而這種語料若進入語料庫,翻譯系統學出來的還是機器翻譯的句子。

第二種噪聲是來自於惡搞。比如我們最早的時候看到「how old are you」,翻譯成「怎麼老是你」。因為語料裡面「how old are you」,全是「怎麼老是你」,出現頻次非常高。

第三種是翻譯得不地道的。網際網路上翻譯內容的人不一定是翻譯水平很高的人,他們在翻譯文章時會自己加入一些內容。這種是比較難識別的,因為很零散。

針對每一類噪聲,我們都會建立一個不同的質量檢測模型,結合了翻譯自身的技術以及網際網路技術。機器翻譯的語料是不能用機器翻譯的概率特徵過濾的,比如「how old are you」每個對齊,怎麼(how)老(old)是(are)你(you),翻譯得特別完美肯定無法過濾。所以我們一般從網站本身的權威性著手,對於權威性低的,相應高置信度就要打低。此外,我們還通過識別翻譯特徵判斷其是否為機器翻譯語料,比如:流暢性不好、語序不對等等。

機器之心:不同語言的語料規模的差別較大,英語可能會多一些,小語種會少一些。如何將 NMT 的研究成果,應用於不同語言語料的構建中?

答:這其實是語料稀疏問題。語料稀疏是 NLP 一直在面對的問題,以前有一些解決方案,比如說: Transfer Learning(轉移性學習)、機器翻譯的 Pivot-Language(樞軸語言)技術、標籤傳播等技術。從一種語言翻譯到另外一種語言,即使同一種語言在不同領域的語料也是不一樣的,從這個領域遷移到另外一個領域,都需要解決語料的構建問題。

NMT 是可以應用於此的,因為 NMT 本質是把一種語言翻譯成另外一種語言。它的好處在於,不同語言之間可以互相學習他們的語義表示,比如中文的「看」,和英文的「See」(看見)或者「Read」(看書)。以相似度來計算,相似度高的就認為它們擁有同樣的語義,可以用在不同語言的標註上。

用來解決語料稀疏問題的多任務學習框架,來自《Multi-Task Learning for Multiple Language Translation》

這樣說可能有些抽象,舉例來說我們去年在 NLP 領域國際會議 ACL 上發表了一篇文章,講述用 NMT 解決語料稀疏的問題。中文和英文之間的句對很多,但中文和其他語言如日文、泰文、西班牙文的句對就很少。怎麼辦?我們同時學習。中文翻譯成英文、日文、韓文、泰語的句對都一起學習,這樣就能充分利用中文在源語言端的表示。此外,還學習關聯知識,韓語-日語之間結構類似,從日語中學習到的結構性信息適用於韓語翻譯。

後來 Bengio 團隊還在我們論文的基礎上做了類似的工作,他們在我們的研究基礎上擴展成多(語言)對多(語言),其實思想是類似的。後來他們還把這個工作開源了。

機器翻譯能否取代人工翻譯?

機器之心:很多人可能就會問,人工翻譯會不會被機器取代?您怎麼看這個想法?

答:從很長一段時間來看,完全取代還是不太可能的。

現在基於網際網路大數據的機器翻譯的優勢在於,突破了原來編輯規則的局限。與人工翻譯相比的好處是能迅速翻譯很多語言。同時它解決了一些問題,比如幾個場景:出門旅遊的溝通、寫 E-mail 借鑑機器翻譯用詞、小孩利用機器翻譯擴充詞彙。這種形式解決了用戶的一些問題,也達到了實用的程度。

但是翻譯最終的目標是「信、達、雅」,「信」至少是忠於原文,「達」就是譯文通暢,符合目標語言用語習慣,「雅」是在這個基礎上表達生動、形象。尤其在「雅」上,目前機器翻譯遠遠不夠。

就像我們說英文,能說但不一定達到「達」的標準。「達」的意思是用語非常「native」(地道),我想機器翻譯也沒到。更不用說「雅」,即使人工翻譯也只有少數人能達到雅的標準。

機器之心:達到「信、達、雅」的關鍵是什麼?

答:主要是語義理解問題。我們現在的翻譯方法,沒有做到「理解」。深度學習只是在模式識別這個手段上更加高明一點,但還沒有理解語言。

與專業的人工翻譯相比,機器翻譯有很多不足。首先,機器翻譯是以句子為單位,即使是篇章翻譯也是不看上下文,翻譯完一句算一句。人工翻譯是以篇章為單位,翻譯前要先通讀一遍,抓住意境和主旨。

其次,翻譯需要常識背景。口語交流、會議翻譯、隨意聊天、正式作文等所需的文體是不同的,而同一個詞在不同的文體上翻譯也不同,這也是機器翻譯的缺點。尤其是意譯,比如翻譯詩歌。如果沒有知識背景,將中國的詩翻譯成英文就會顯得直白而沒有韻味。跨語言的「信、達、雅」,連人都很難做到。

事實上,機器翻譯需要綜合多學科,包括計算機學、語言學、認知學等等。機器翻譯,看似簡單,實則很難。因此我認為,機器翻譯的道路還任重道遠。

相關焦點

  • 百度機器翻譯獲獎 與166項技術共獲進步獎二等獎
    1月8日,國家科技獎勵大會在北京人民大會堂隆重舉行,百度機器翻譯獲獎。今年,國家科學技術進步獎共評選出187項。百度機器翻譯與其他166項技術共獲進步獎二等獎。1947年,機器翻譯步入歷史舞臺,但多年來機器翻譯卻一直處在象牙塔中。百度與多家機構共同研發,最終突破了機器翻譯領域內的四大技術難題。
  • 百度機器翻譯獲2015年度國家科技進步二等獎(圖)
    百度機器翻譯項目在大會上被授予國家科技進步獎,成為BAT中首個獲此獎項的企業。機器翻譯是人工智慧領域最難的課題之一。1947年,機器翻譯步入歷史舞臺,50年代機器翻譯研究持續升溫,美國、前蘇聯等國家均出現了研究熱潮。
  • AI同傳效果媲美人類,百度翻譯出品全球首個上下文感知機器同傳模型
    三大秘籍  一個人類同聲傳譯人員,在進行翻譯的時候會把聽到的內容劃分成一個一個語義塊,對一段話進行理解翻譯,既不是逐字翻譯,也不是逐句翻譯,這樣既能保證語義不變,又能保證實時性。  百度翻譯團隊由此得到靈感,教給度同傳同聲傳譯秘籍第一招:  語義信息單元(Information Unit,IU)  傳統的機器同傳存在一個比較尷尬的問題是,它的翻譯並不流暢。  舉個例子:
  • 百度:目前機器翻譯準確率已與人類水平相當
    12月1日,百度大腦開放日舉辦。IDC中國副總裁兼首席分析師武連峰表示,到2021年底,超過70%具有海外業務的中國企業將不同程度的採用機器翻譯,應用場景也將更為豐富。據介紹,百度提出的語義單元驅動的AI同傳模型,翻譯準確率為80%,時間延遲約為3秒,與人類水平相當。此外,百度方面還披露,百度翻譯可支持203語種互譯,現在每天響應超過千億字符的翻譯請求。截至目前,百度大腦開放了273項AI能力,230萬開發者創建了31萬模型。
  • 將科幻變成現實,谷歌百度用神經機器翻譯踐行人類的「巴別塔之夢」
    機器之心作者:iCombinator機器翻譯之夢今天,當我們很自然的拿出手機,選擇一個谷歌、百度或微軟的翻譯 app ,輕而易舉的完成文字翻譯、拍照翻譯和實時語音翻譯時,我們可能不會意識到由於深度學習的出現和數據量的積累,研究數十年的機器翻譯問題已經變得可用並走入了我們的生活,給我們帶來了極大便利。
  • 對話百度王海峰:機器能翻譯,還需要學外語嗎?
    百度提供圖片  「百度翻譯在科研水平和應用價值兩方面都有很大優勢,在國際上處於領先水平,符合國家科技進步獎的標準。」他說。  2010年,剛剛加入百度的王海峰著手研發機器翻譯。「當時,我預料這個領域的研究一定會有重大突破。
  • 巨頭扎堆的小市場:不學外語,機器翻譯搞定一切?
    另一方面,隨著智能翻譯的興起,越來越多語言專業的學生和翻譯行業的工作人士抱怨,神經網絡翻譯等技術的出現,讓原本就競爭激烈的翻譯市場迅速進入了冰凍期。但是,未來機器翻譯真的會完全取代人類,讓翻譯員們下崗嗎?網易智能梳理了目前主流的機器翻譯技術與應用,一探智能機器翻譯行業究竟。
  • 百度機器翻譯獲國家科技進步獎
    1月8日,2015年度國家科學技術獎勵大會在人民大會堂舉行,百度機器翻譯項目獲頒國家科學技術進步獎二等獎,這是該獎項首次出現網際網路巨頭(BAT)的身影。   機器翻譯一直被公認為人工智慧領域最難的課題之一,百度機器翻譯的突破性成果,使我國掌握了網際網路機器翻譯的核心技術,佔領了技術制高點。
  • 百度大腦開放日召開機器翻譯專場 百度AI同傳翻譯性能可媲美人類
    機器翻譯作為人工智慧關鍵技術之一,正日益成為企業智能化升級的重要應用場景。12月1日,百度大腦開放日舉辦了以「機器翻譯 溝通全世界」為主題的專場活動。而基於神經網絡機器翻譯NMT( Neural Machine Translation )技術已成為主流,伴隨著翻譯規模化的需求,機器翻譯在保障流暢性和準確性的同時也將越來越實時化,並為大中小企業及個人提供不同的部署服務。何中軍在會上詳解了機器翻譯技術的發展歷程,並通過一系列實際應用場景案例,詳解了百度翻譯全面的產品布局和服務方式。
  • 地圖中的語義理解 | 雷鋒網公開課
    語義理解簡述所謂語義理解簡而言之就是讓機器懂得人的話語,理解人的意圖,並且返回給用戶相應的答案或者內容,來解決用戶需求。如果我們把語音識別作為機器的耳朵,那麼語義理解就是機器的大腦。尤其對於問答,目前大部分的語義理解引擎仍然是靠搜索方式來解決,通過搜索技術尋找問答庫中和用戶問題最匹配的問題。而且無論是百度知道還是搜狗問問,問答庫中大部分的問答內容其質量本身也不能得到好的判斷,更不用說需要從大量文本中抽取整理答案了。這對於自然語言理解技術是非常大的考驗,並且目前國內做語義理解的公司整體上都沒有很好的效果,也是搜狗目前正在嘗試突破的話題。
  • 百度機器翻譯現在都能預測你未來幾秒要說的話了!
    先給大家看一張動圖:上面的中文是人類說的話,下面的英文是百度 AI 給出的實時翻譯。可以看到,沒等說到「莫斯科」的時候,AI 自動翻譯的英語就已經出現了「meet」,也就是漢語句末的「會晤」。難道現在 AI 已經掌握了讀心術?
  • 機器翻譯革命強勢來襲 人類翻譯將無路可走?
    神經機器翻譯(NMT)自2014年在科學論文中首次被提及以來,已使機器翻譯領域出現翻天覆地的變化,它開始全面超越以統計模型為基礎的統計機器翻譯(SMT),快速成為在線翻譯系統的主流標配。神經機器翻譯的「神經元」可以學習和收集信息,模仿人類大腦的神經元建立聯繫。
  • 越來越聰明的機器「翻譯家」
    如果按轉換層面進行劃分,可以分為直接翻譯、轉換翻譯和中間語言翻譯,其中轉換翻譯又可以分為短語層、句法層、語義層等(圖2)。「中間語言法」比較好理解,首先就是建立一個標準語言作為中介,這個中介語言有點類似曾經流行過一段時間的「世界語」,當然機器翻譯的中間語言通常不會是真正的語言,而是類似邏輯表達式等(如果是以自然語言如英語作為中介,則這一中介語往往稱作「樞紐語言」)。首先將要翻譯的語言經過分析轉換成中間語言,再將生成的中間語言轉換成目標語言。
  • 機器翻譯七十年:百度領跑神經網絡翻譯時代
    中新網12月22日電 機器翻譯距今已有70年的發展歷史。自上世紀40年代起,基於規則、實例以及統計的機器翻譯方法漸次登場,各領風騷。近兩年,神經網絡機器翻譯(Neural Machine Translation, NMT)技術異軍突起,取得了翻譯質量的大幅躍升。
  • 機器翻譯簡史:八十多年來,人類就是要再造一座通天塔
    直接機器翻譯需要訓練有素的語言學家為每個詞編寫規則,輸出的語句可以說是一種譯文,但通常很詭異。這種方法,現在已經淘汰了。基於轉換的機器翻譯與直接機器翻譯相比,這種方法需要先確定句子的語法結構,然後對整個結構進行處理,而不是按詞來處理。
  • EMNLP 2020線上舉辦 詳解機器同聲傳譯技術演進
    EMNLP由國際計算語言學學會(ACL)旗下SIGDAT組織,會議涵蓋語義理解、文本理解、信息提取、信息檢索和機器翻譯等主題。會上,由百度聯合Google舉辦的首次機器同聲傳譯學術講習班(Tutorial)召開,圍繞機器同傳的背景、挑戰、模型、數據集、實用系統和產品、未來研究方向等展開報告和研討,吸引了數百位國際學者參會。
  • 機器翻譯的膚淺面-虎嗅網
    雖然我完全理解人們對機器翻譯的痴迷,但我肯定屬於最不希望人類譯者被無情的機器所取代的那類人。事實上,機器翻譯令我感到恐懼和厭惡。在我看來,翻譯是一種難以置信的精妙藝術,它需要譯者有豐富的人生閱歷和創造性的想像力。如果真有那麼一天,人類譯者成了歷史的遺蹟,我對人類心智的敬畏就會受到動搖,這種動搖會讓我陷入可怕的困擾和無盡的悲傷之中。
  • 神經網絡機器翻譯技術及應用(下)
    何中軍,百度機器翻譯技術負責人。本文根據作者2018年12月在全球架構師峰會上的特邀報告整理而成。神經網絡機器翻譯技術及應用(上)篇,我們為大家介紹了神經網絡機器翻譯的基本原理和挑戰,(下)篇繼續為大家講述機器翻譯的應用與未來。前面我們講了機器翻譯的原理以及神經網絡翻譯的發展、以及面臨的挑戰,我們現在看一看,機器翻譯現在有哪些應用?
  • 搜狗機器翻譯團隊獲得 WMT 2017 中英機器翻譯冠軍
    本文由機器之心編輯,「機器之心」專注生產人工智慧專業性內容,適合開發者和從業者閱讀參考。點擊右上角即刻關注。每年的第三季度都是機器學習相關的頂級學術會議密集召開的時期,今年也不例外。並且解碼器中,只有最底層接受語義向量的語境信息。根據論文所言,增加層數給中文到英文的翻譯系統帶來了 0.8 BLEU 的性能提升。
  • 機器翻譯強勢來襲,50萬譯員將下崗?
    它克服了傳統方法將句子分割為不同片段進行翻譯的缺點,充分利用上下文信息,對句子進行整體編碼和解碼,從而生成更為流暢的譯文。市面上的神經機器翻譯系統越來越多,國內的阿里巴巴、騰訊、百度、科大訊飛、搜狗,國外的谷歌、臉書、微軟等都在布局,這使相關技術發生「質變」。