滴滴翻譯技術探索與實踐

2021-01-21 DataFunTalk

導讀:機器翻譯系統是使用深度學習技術從其支持的語言中翻譯大量文本的服務。服務將 "源" 文本從一種語言轉換為不同的 "目標" 語言。滴滴作為一家國際化的公司,無論是在國際化網約車中還是司乘溝通都有著豐富的落地場景。本文詳細的介紹了滴滴翻譯的整體框架、原理以及方法,同時還會簡單介紹滴滴NLP在今年參加的機器翻譯大賽(WMT2020)的一些技術。

‍‍‍‍

機器翻譯系統是使用深度學習技術從其支持的語言中翻譯大量文本的服務。服務將 "源" 文本從一種語言轉換為不同的 "目標" 語言。


機器翻譯技術背後的概念和使用它的接口相對簡單,但背後的技術是極其複雜的,並匯集了一些前沿技術,特別是深度機器學習、大數據、語言學、GPU加速計算等。


大規模商業化使用的機器翻譯主要經歷了SMT與NMT階段:



機器翻譯行業使用的比較早的技術是統計機器翻譯 (SMT)。SMT採用統計分析方法,根據源語言的語境,利用已有的雙語語料學習到的短語翻譯知識,將源語言的分隔片段短語轉化為對應的目標短語,最後利用語言模型估計出一個句子的最佳可能譯文。SMT也是最早商用的機器翻譯系統。

神經機器翻譯是利用深度神經網絡將源句子進行編碼,再進行解碼翻譯為目標語言。2016年,Google發表GNMT[1],改變了SMT的地位,使翻譯技術發生了根本性的轉變,自此進入NMT時代,並且有了現在更高的翻譯質量。



對於機器翻譯的結果,可以採用人工評估的方法,但是比較受限。首先是人工評估具有一定的主觀性,其次每次訓練結果需要人工評估成本較高。


因此誕生了一些使用機器進行評估的方法,評測關鍵就在於如何定義翻譯譯文與參考譯文 (Reference) 之間的相似度。目前比較常用的方法為BLEU[2] (Bilingual Evaluation Understudy),該方法由IBM提出,BLEU採用的方式是比較並統計共現的n-gram詞的個數,即統計同時出現在翻譯譯文和參考譯文中的n元詞的個數,最後把匹配到的n元詞的數目除以翻譯譯文的單詞數目,經過幾何平均以及短句懲罰得到評測結果。這種方法的打分越高,則認為翻譯系統的譯文越接近人工翻譯結果,即機器翻譯系統的翻譯質量越高。以下為標準的BLEU score的計算公式。


▍3.1 簡介


目前NMT的基本上都是Encoder(源端語言編碼)- Decoder(目標語言解碼)框架,應用廣泛的是transformer[3]模型。Transformer的編碼器 Encoder由6個相同的編碼疊加而成,Encoder中的每層包含2個子層:multi-head self-attention 和 FFN(Feed-Forward Network)。解碼器 Decoder 也是由6個相同的編碼疊加而成,每層包含3個子層:masked multi-head attention、multi-head attention 和 FFN。Transformer結構參考下圖:

 

▍3.2 Transformer With Relative Position Representations

傳統的Transformer通過將絕對位置嵌入作為輸入的方式利用位置信息,這種方式並未在其結構中明確捕獲信息。Shaw[4] 等人提出了將Transformer中的注意力機制和相對位置表達結合起來,並且在兩個翻譯任務上取得了比較好的翻譯效果。我們進行了消融研究,發現具有相對位置嵌入的模型比傳統的模型具有更快的收斂性和更好的性能。



▍3.3 Transformer with Larger FFN Size


在實際翻譯模型中,採用了更大的FFN size (8,192 or 15,000)。並且在實驗中發現,在可控的網絡大小的同時,模型的性能有了合理的提升。由於更大的FFN size容易過擬合,我們將dropout rate設置為0.3。滴滴翻譯主要以 Transformer-big (6 layers encoder & decoder, hidden size: 1,024, FFN size: 4,096, number of heads: 16) 結構作為基礎模型,在此模型之上進行一系列的優化。以下為滴滴翻譯整體框架圖:
▍4.1 數據準備


在機器翻譯任務中,最重要部分就是對齊的雙語語料,即需要原文與參考譯文這種成對的雙語數據。通常情況下,網絡上存在的大都是單語語料。所以在任務開始之前,最主要的工作就是準備平行語料。


在滴滴翻譯任務中,數據採集框架示意圖如下圖所示。


數據採集框架示意圖[5]


數據準備工作主要分兩大部分:


4.1.1 數據過濾


滴滴翻譯會通過數據預處理pipeline在網絡上收集原始的平行語料。對語言對使用 language model, alignment model[5] 進行打分,對於分數較低的語言對直接過濾,不參與後續的訓練


4.1.2 數據增強


訓練 NMT 模型需要大量的平行語料。但是,平行語料相對於網絡上常見的大量單語數據要有限地多。Edunov[6] 等人在相關研究中展示了如何通過僅利用目標語言來提升模型的翻譯性能,並且表明利用大量的相關數據可以大幅提升模型準確度。

通過單語語料提升模型效果的最有效的方法就是back translation,假設目標是訓練一個中譯英模型,要利用back translation,需要先訓練一個英譯中的模型,利用該模型將所有的單語目標語言(英語)翻譯為中文獲得新的平行語料,然後將該語料應用到中譯英模型上。


在實際應用中,滴滴翻譯採用了迭代式回譯技術,以提高平行語料的質量。具體而言,在每次迭代中,目標語言到源語言模型負責使用目標語言單語數據為源語言到目標語言模型生成平行訓練數據。同時,使用源語言到目標語言模型來使用源語言單語言數據為目標語言到源語言模型生成平行訓練數據。目標語言到源語言模型和源語言到目標語言模型的性能都可以迭代地進一步提高。當無法實現進一步的改進時將停止迭代。



4.2 模型訓練
4.2.1 交替知識蒸餾


滴滴翻譯採用了交替知識蒸餾和迭代集成,以進一步提高單個模型的性能。滴滴翻譯使用集成模型作為教師模型,並通過數據增強來提升單學生模型的效果。考慮到較差的老師模型會降低學生模型的效果,所以我們採用的是集成模型的方式訓練學生模型。假設訓練好三個單模型 (A, B, C) 之後,使用單模型A&B ensemble生成平行語料指導C模型的訓練,同理使用迭代方式對三個學生模型進行蒸餾學習以達到最好的單模型效果。


4.2.2 Fine-tuning


在滴滴國際化消息翻譯場景中,獲得相關的翻譯平行語料,利用fine-tuning的方式可以將base model快速的遷移到新領域,並且可以達到較高的模型效果。


4.2.3 Ensemble


模型集成是常見的提高模型效果的方案,該方案可以利用各個單模型的優勢已達到最好的效果。在機器翻譯的實踐中,模型集成在序列預測的每個步驟中,將不同模型的目標詞表的全部概率分布組合在一起進行投票。在初始模型較多的情況下,滴滴翻譯使用greedy search的方式選擇最優的單模型組合。


由於模型和數據的多樣性是集成模型的重要因素,我們採用了不同的初始化種子,不同的參數,不同的Transformer變種和不同的訓練數據集來訓練各個單模型。



4.3 模型預測


4.3.1 模型訓練與模型部署的區別


部署階段的網絡權值已經固定,無需反向傳播過程


4.3.2 模型預測加速


TensorRT是NVIDIA推出的深度學習優化加速工具,採用的原理如下圖所示:


針對網絡複雜,推理速度慢的問題,滴滴翻譯將Transformer模型改造成支持TensorRT加速推理的框架。在實踐中基於TensorRT框架的推理速度相較於原生TensorFlow模型提升了9倍。




WMT (Workshop on Machine Translation) 是機器翻譯領域認可度最高的國際頂級評測比賽,是由國際計算語言學協會ACL(The Association for Computational Linguistics)舉辦的世界最具影響力的機器翻譯大賽。從2006年創辦至今,每年都會吸引包括微軟、Facebook、DeepMind、百度、華為、騰訊、清華大學、上海交通大學、約翰霍普金斯大學、劍橋大學、愛丁堡大學等全球企業、科研機構以及頂級高校的參與。每次比賽都是各家機器翻譯實力的大比拼,也見證了行業機器翻譯技術的不斷進步。


滴滴NLP團隊參與的是WMT2020新聞機器翻譯賽道(Shared Task: Machine Translation of News)。該賽道共設置了22項不同語言之間的翻譯任務,其中,中文到英文翻譯是競爭最激烈的任務,共吸引了DeepMind、騰訊、華為、清華大學、上海交通大學等四十多支全球參賽團隊參與,在6月24日至6月30日為期七天的比賽時間裡,參賽團隊累計共提交了近300次數據。


與往年不同,今年新聞中譯英比賽參賽方均為匿名提交,比賽期間只能看到自己成績以及其他匿名參賽方成績,並且每個參賽方最多可以提交7次翻譯結果,比賽結束後各參賽方不可再次提交,各參賽方從所有提交中選擇其中一個提交結果作為Primary Submission供人工評估使用。


WMT組委會為每個語言賽道提供指定的雙語的訓練集以及單語語料。參賽方可以根據自己的模型利用相關的訓練集。比賽開始後組委會提供的單語的測試集 (Source),參賽方利用自己的模型對測試集的語言進行預測,然後提交至OCELoT系統。組委會利用SacreBLEU1指標對參賽方提交的譯文與組委會未公開的標準答案 (Reference) 進行計算,分數越高代表翻譯效果越好。


在本次中譯英賽道中,滴滴NLP團隊在技術上以Transformer結構作為基礎,在結構上引入Self-Attention, Relative Positional Attention, Larger FFN Size等變化,利用迭代式回譯技術 (Iterative Back-translation) 和交替知識蒸餾 (Alternate Knowledge Distillation) 方法生成高質量的合成語料,結合數據清洗、數據選擇、模型集成等技術提高翻譯質量。考慮到翻譯話題對於翻譯質量的影響,滴滴翻譯還採用了領域遷移、話題挖掘和個性化加權的方式,使得翻譯結果更加個性化。此外,我們還通過EDA、權重剪枝等技術增強翻譯模型的魯棒性。最終滴滴翻譯高效準確的進行完成WMT2020中譯英賽道翻譯任務,並且最先獲得36.6的高分,最終獲得第三名的成績,充分彰顯了滴滴在機器翻譯領域的技術實力。



相關研究Paper已經提交至EMNLP2020 Workshop,具體Paper可以參考arXiv(https://arxiv.org/abs/2010.08185)。


Wu, Yonghui, et al. "Google's neural machine translation system: Bridging the gap between human and machine translation." arXiv preprint arXiv:1609.08144 (2016).

Papineni, Kishore, et al. "BLEU: a method for automatic evaluation of machine translation." Proceedings of the 40th annual meeting of the Association for Computational Linguistics. 2002.

Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems. 2017.

Shaw, Peter, Jakob Uszkoreit, and Ashish Vaswani. "Self-attention with relative position representations." arXiv preprint arXiv:1803.02155 (2018).

Zhang, Boliang, Ajay Nagesh, and Kevin Knight. "Parallel Corpus Filtering via Pre-trained Language Models." arXiv preprint arXiv:2005.06166 (2020).

Edunov, Sergey, et al. "Understanding back-translation at scale." arXiv preprint arXiv:1808.09381 (2018).


2016年2月份加入滴滴,目前擔任滴滴NLP團隊負責人,主要負責滴滴NLP在客服智能化、國際化網約車、內容安全、中臺服務等場景的相關算法研究與落地。今年帶領團隊首次參加機器翻譯大賽(WMT2020)並獲得機器評估世界第三名的成績。


今天的分享就到這裡,謝謝大家。

在文末分享、點讚、在看,給個3連擊唄~

歡迎加入 DataFunTalk 用戶增長 交流群,跟同行零距離交流。識別二維碼,添加小助手微信,入群。

關於我們:

DataFunTalk 專注於大數據、人工智慧技術應用的分享與交流。發起於2017年,在北京、上海、深圳、杭州等城市舉辦超過100場線下沙龍、論壇及峰會,已邀請近600位專家和學者參與分享。其公眾號 DataFunTalk 累計生產原創文章300+,百萬+閱讀,9萬+精準粉絲。


🧐分享、點讚、在看,給個3連擊唄!👇

相關焦點

  • 滴滴AI副總裁葉傑平發離職內部信:加入滴滴是非常正確的決定
    9月7日,《Tech星球》從滴滴內部了解到,滴滴出行副總裁、AI Labs負責人葉傑平將於近期離開滴滴。滴滴出行CTO張博將兼任AI Labs負責人,滴滴智能控制首席科學家唐劍將任AI Labs副主任。
  • 翻譯界知名學者線上匯聚,共話「當下翻譯研究的熱點問題與理論探索」
    8月15日,以「當下翻譯研究的熱點問題與理論探索」為主題的第四屆《外國語》翻譯研究高層論壇線上舉行。此次會議在線聚集了國內翻譯界知名學者,與會專家圍繞對外話語能力提升、譯學理論建構、應用翻譯研究、翻譯教育發展等議題展開精彩研討,新說頻現、銳見迭出。
  • CATTI(三級)與翻譯專業本科課程銜接:實踐與反思
    二者在我校翻譯人才培養上的融合過程,對筆者而言是一個探索之旅,既有拓路的艱辛,也有收穫的喜悅。在十年這一刻度上,回首來時路,展望前方遠景,一路的實踐與反思欲與同仁分享、祈商。一、CATTI校本課程的開發:探索與發現十年前,我國部分高校開始設立英語專業(翻譯方向),西北師範大學外國語學院也是其中的一員。2003年,我校招收了第一屆翻譯班學生。
  • 國慶,帶上 Google 翻譯探索城市
    舞臺上他多語言任性切換,而生活中的他,即使英文比中文流利,但還常常用 Google 翻譯和粉絲交流,在探索中不斷成長是他最 Real 的一面。這一次,Google 翻譯邀請他一同探索城市,捕捉城市當中的驚喜瞬間。
  • 寧波大學:在實踐育人中培養飽含中國情的翻譯人才
    錢江晚報·小時新聞 通訊員 張芝萍 鄭俊朋 記者 陳素萍2018年,寧大外國學院學子為中國—中東歐國家投資合作活動提供翻譯服務11月30日,寧波大學翻譯教學產教融合實踐基地正式掛牌成立。該基地由寧波大學外國語學院、國際交流學院與寧波市公安局出入境管理局三方共建,可為學生提供實踐平臺,有助於學生發揮好專業優勢,更好對接社會需求,標誌著學校在翻譯實踐育人上又添新平臺。
  • 謝春林:招商輪船智能航運的探索實踐與思考
    近日,招商輪船董事長謝春林在高級海事論壇第十屆國際航運戰略發展研討會港口和航運專場上,發表題為《招商輪船智能航運的探索與實踐》的演講,詳細闡述了智能化時代下招商輪船的智能化運營探索軌跡和未來方向,受到了業界的廣泛關注和一致好評。徇眾要求,特此分享演講文稿的濃縮精華版本,以飧讀者。大家好!
  • 滴滴玩「自動駕駛」:炒概念,技術難
    文/吳毓楨於北京時間6月27日,滴滴自動駕駛服務正式上線,首批推廣地點選擇在了上海。技術問題仍待完善,普及難度高,完全成熟至少還需投入10年以上。央視推廣無人駕駛在滴滴自動駕駛的推廣中我們了解到,滴滴用戶只需要在滴滴出行App中的「未來出行」模塊申請報名體驗,通過審核後,方可體驗免費呼叫自動駕駛車輛試乘。
  • 通州生物技術翻譯哪個收費合理_北京譯邦達翻譯有限公司
    通州生物技術翻譯哪個收費合理,北京譯邦達翻譯有限公司,北京譯邦達翻譯有限公司成立於2007年,經過12年的快速發展與兼併,我們已成長為一家高效成熟的語言翻譯服務BPO供應商——翻譯質量控制體系和高效智能的快譯點輔助翻譯雲平臺。通州生物技術翻譯哪個收費合理, 數據分析處理軟體和數據獲取、分析、處理、存儲服務。
  • 淺談翻譯實踐
    康成志副譯審職稱重慶市翻譯家協會會員重慶市工程師協會會員康成志老師連續從事翻譯工作48年,1990年起先後在國家級刊物發表科技譯文70多篇,長期在國企、私企擔任專職、兼職翻譯,參與過許多國家重大工程項目和科研項目的翻譯工作。翻譯的資料包括政治、軍事、經濟、外交、科研、軍工、醫學、化工、電子、工程建築等數十個專業資料。
  • 讀北外德語翻譯理論與實踐是什麼體驗?
    今天給各位同學介紹一下北京外國語大學德語學院德語語言文學(翻譯理論與實踐專業)。顧名思義,該專業包括理論和實踐兩個方面,其中翻譯實踐課多於翻譯理論課。一、師資北外德語學院的師資無需多說,是該領域的頂尖。
  • 翻譯專家談如何提高翻譯實踐能力
    楊建平 中國外文局翻譯專業資格考評中心副主任2017年下半年,全國翻譯資格考試辦公室和中國外文局翻譯專業資格考評中心以「如何提高翻譯實踐能力」為主題,組織了首期「翻譯講壇」系列訪談活動,七個語種的10名國內知名翻譯專家應邀參加了訪談。
  • 英特爾攜手滴滴出行 全方位升級雲計算和自動駕駛服務
    2020年12月16日,北京——近日,英特爾與滴滴出行(以下簡稱「滴滴」)籤署戰略合作協議,旨在依託英特爾和滴滴各自的優勢資源,在雲計算和自動駕駛兩大領域開展深入合作,並圍繞計算、存儲平臺、網絡和軟體四個維度進行優化和探索,從而推動技術進步,為生態發展和產業創新注入新動力。
  • 《人民中國》在線培訓第六期:中日翻譯實踐(筆譯)在線系列培訓
    《人民中國》中日翻譯實踐(筆譯) 主要研究領域:翻譯理論與實踐,日語教育。主持完成國家社科項目1項、國家重點出版基金項目1項,省部級項目7項、國際合作項目5項;主持在研天津市社科重點項目1項;共發表論文近40篇,出版專著、譯著等10部,主審教材15部。獲得國家優秀教學成果二等獎1項,主持的《日語翻譯與實踐》獲批國家級精品資源共享課程。
  • 《2020中國車企創新探索最佳實踐TOP10》榜單即將發布
    其中,億歐汽車特意設置了《2020中國車企創新探索最佳實踐TOP10》榜單,並針對中國車企創新項目進行篩選,最終會有10家中國車企及其項目入選。特斯拉顛覆式創新為傳統汽車產業打下了樣本,無論是智能駕駛體驗,還是新能源汽車的核心三電技術,還是渠道模式革新,都顯著優於同行水平,且不斷搶佔國內汽車市場份額。而中國車企除了感受到這條「鯰魚」帶來的巨大危機感,同時意識到想要長治久安,就必須持續創新和實踐。
  • ...豐富實踐手段,注重能力培養——考古文博學院研究生實踐教學探索
    編者按:近年來,北京大學深入推進研究生教育綜合改革,各院系在落實立德樹人根本任務、創新招生選拔機制、完善人才培養體系、加強導師隊伍建設等方面進行了一系列的探索和實踐,形成具有各自特色的經驗和成果。
  • 2020國際機器翻譯大賽:火山翻譯力奪五項冠軍
    自2006年至今,國際機器翻譯大賽(WMT)已經成功舉辦15屆,本屆比賽共有39支隊伍參賽,包括微軟、Facebook、Google DeepMind、騰訊、小牛翻譯、華為、滴滴等實力雄厚的參賽團隊。組委會根據中英、英中、英德等22個不同翻譯任務提供測試數據集,並引入科學的語言專家人工評估流程。
  • 滴滴出行吳國斌:新技術將推動出行發生深刻變革
    「5G、AI、大數據等新技術,將推動未來20年出行行業從共享出行、交通工具、交通基礎設施三個層面發生變革。」17日,在福建廈門舉辦的第八屆中國新興媒體產業融合發展大會上,滴滴出行科技生態與發展負責人、大數據分析與應用技術國家工程實驗室副主任吳國斌說。
  • 火山翻譯力奪國際機器翻譯大賽五項冠軍
    自2006年至今,國際機器翻譯大賽(WMT)已經成功舉辦15屆,本屆比賽共有39支隊伍參賽,包括微軟、Facebook、Google DeepMind、騰訊、小牛翻譯、華為、滴滴等實力雄厚的參賽團隊。  組委會根據中英、英中、英德等22個不同翻譯任務提供測試數據集,並引入科學的語言專家人工評估流程。
  • 劉先省:應用型高校在專業研究生培養上的探索與實踐
    10月16日,由教育部學校規劃建設發展中心、中華職業教育社、中國職業技術教育學會、應用技術大學(學院)聯盟主辦,駐馬店市人民政府、黃淮學院承辦的第七屆產教融合發展戰略國際論壇正式開幕。
  • 深入探索社會組織高質量發展的廣州實踐
    廣州市社會組織要積極適應新發展格局,在「十四五」時期深入探索社會組織高質量發展的「廣州實踐」,努力走出一條具有廣州特點的社會組織發展之路。特別是在「十三五」期間,廣州在社會組織登記管理、扶持培育、綜合監管、黨的建設等方面開展了一系列富有成效的探索和實踐,一些經驗為國家法律法規的制定提供了重要參考。「十四五」期間將著重研究和解決制約廣州社會組織高質量發展的體制機制問題,促進社會組織數量和質量的雙發展。堅持目標導向,對標城市定位謀劃推進社會組織改革發展。