雷鋒網AI科技評論按:在百度翻譯,谷歌翻譯幾乎要霸佔整個機器翻譯市場時,阿里翻譯宣布已成功研發阿里雲PAI工具,基於阿里雲PAI可以將神經網絡翻譯訓練效率提升5倍,這將大大加速阿里翻譯平臺的建設。希望阿里翻譯以後也能走進我們的生活中。
眾所周知,馬雲爸爸在創立阿里之前是做翻譯服務及開翻譯公司的。隨著近幾年阿里的業務不斷擴大,全球化戰略進程加速,語言問題也成了最基礎的需求之一,尤其是跨境電商交易對多語言翻譯需求尤甚。此前阿里在語言服務上做過不少努力,包括收購國內最大的人工翻譯平臺,但這遠遠不能滿足阿里平臺上億級別客戶的需求。正當阿里為此感到苦悶時,谷歌的神經網絡翻譯技術出現了,可以說是為阿里的翻譯平臺插上了一對翅膀。
早在2015年6月份,阿里就已收購國內最大的眾包翻譯平臺——365翻譯。當時把阿里翻譯平臺定位為阿里巴巴的語言服務平臺,將瞄準人機結合模式,在語言服務領域進行更多創新。365翻譯的加入確實為阿里的跨境電商領域分擔了一些翻譯業務上的壓力。並且在機器翻譯領域,和電商相關的幾個主要語種中,其翻譯的準確率基本和谷歌翻譯持平。然而,阿里語言服務平臺的野心並不止於此。他們想藉助強大的人工翻譯團隊和電商大數據研發下一代基於神經網絡技術的翻譯平臺。
神經網絡翻譯技術是一種用於自動翻譯的端到端的學習方法,該方法能夠克服傳統的基於短語的翻譯系統的缺點,可以將整個輸入句子視作翻譯的基本單元。從2016年以來的學術界頂級會議上,幾乎全是圍繞NMT相關的創新工作,之後谷歌、微軟等巨頭公司相繼發布NMT系統。
阿里翻譯團隊也緊緊抓住這一機會於2016年10月起正式開始自主研發NMT模型,2016年11月首次將NMT系統的輸出結果應用在中英消息通訊場景下的外部評測中並取得了不錯的成績,翻譯質量有了大幅度提升。
但是,由於NMT(神經網絡機器翻譯)模型的結構複雜,且深度神經網絡模型本身的訓練過程一般又會涉及很大量的計算,因此NMT系統往往需要較長的訓練周期,例如,使用3000萬的訓練數據在單塊GPU卡上一般需要訓練20天以上,才能得到一個初步可用的模型。
基於上述問題,2017年2月初開始,阿里翻譯團隊和阿里雲Large Scale Learning(大規模學習)的穆琢團隊合作,共同開發支持分布式訓練的NMT系統,並於2017年3月底完成了第一個版本的分布式NMT系統。
在2017年4月份的英俄電商翻譯質量優化項目中,分布式NMT系統大大提高了訓練速度,使模型訓練時間從20天縮短到了4天,為項目整體迭代和推進節省了很多時間成本。
圖:使用不同卡數時,在中英100萬訓練語料上獲得的收斂加速比
PAI是阿里推出全球化戰略「NASA」計劃後發布的首個重磅工具,可以完全兼容全球主流的深度學習開源框架。同時,底層提供強大的雲端異構計算資源,包含CPU、GPU、FPGA。在GPU方面,可靈活實現多卡調度。
除了基於MA的分布式實現,增加GPU卡的數量,有不同的收斂加速比以外,阿里翻譯項目組還嘗試了其他多種分布式實現方法,也都獲得了不同程度的加速效果,包括Downpour SGD、AllReduce SGD以及使用了BMUF(Blockwise Model-Update Filtering, 一種針對Model Average方法的改進方案)策略的Model Average方法。下圖中顯示,在硬體條件相同,BMUF的收斂效果要比MA(黃色柱狀)分布式要好。
阿里方面還表示:上一階段工作主要集中在模型訓練階段的加速策略上,接下來的工作主要分為兩方面:一方面是繼續挖掘分布式訓練的加速潛力,通過系統與算法相結合的優化策略,最大化利用硬體資源,提升收斂加速比,並將分布式優化策略和算法模型本身解耦,實現複雜深度學習模型分布式加速功能的組件化和通用化。
另一方面,需要在現有的服務化方案的基礎上,進一步通過模型精度壓縮、網絡結構簡化等方式,在保證模型效果的同時,提高解碼速度,降低線上延時,進而增強線上服務能力,節約服務化所需的硬體成本。
阿里雲PAI工具使阿里翻譯平臺的神經網絡翻譯訓練效率提升5倍,確實非常厲害。這將大大加速阿里翻譯平臺建設之路。正當雷鋒網編輯想對阿里的翻譯質量來一個評測對比,點擊阿里翻譯平臺官網:www.alifanyi.com 卻發現功能還未對外開放。
後來雷鋒網(公眾號:雷鋒網)了解到:阿里翻譯團隊還在破解線上服務處理延時的難題,平臺目前還在內測階段。不過雷鋒網編輯還是發現了一個能使用阿里翻譯界面的網站。現在就來對百度翻譯,谷歌翻譯,阿里翻譯做一個簡單的漢譯英測試。
百度翻譯:
谷歌翻譯:
阿里翻譯:
為了能使阿里翻譯體現出自己擁有電商大數據的優勢,特別選了一句跨境電商領域的句子:自有產品,經營主體自行生產或自有品牌的產品,以及外部採購以自己名義進行銷售的產品。從翻譯結果對比來看,阿里翻譯似乎比百度和谷歌的翻譯好一點。接下裡進行第二項測試,英譯漢測試:
百度翻譯
谷歌翻譯
阿里翻譯
這次阿里翻譯似乎表現的不太好,表現最好的是百度翻譯。不過從一些關鍵詞的翻譯還是能體現出阿里翻譯的特色,比如:jurisdiction,翻譯為「法域」;buyer和seller翻譯為買家和賣家。可以猜測阿里翻譯在跨境電商等類似的特定場景下會表現的更好。總的來說,阿里翻譯的漢譯英表現還不錯,但在英譯漢的情況下表現的沒有谷歌翻譯和百度翻譯好。
阿里翻譯現在還沒上線,但憑藉自己擁有海量的電商跨境交易數據和強大的365人工翻譯團隊,再加上阿里雲PAI工具對神經網路翻譯訓練效率的提升,相信不久後阿里翻譯會有一個質的飛躍,在機器翻譯領域佔取一定的市場份額也不是沒有可能的。希望阿里翻譯平臺開放後能給用戶一個驚喜。
據雷鋒網了解:在阿里巴巴內部,PAI已經被廣泛使用。淘寶搜索使用PAI的參數伺服器,可以把百億個特徵的模型,分散到數十個乃至於上百個參數伺服器上,打破規模瓶頸。最終實現搜索結果基於商品和用戶的特徵進行排序。現在,阿里翻譯團隊還在破解線上服務處理延時的難題,為神經網絡機器翻譯模型的大規模應用掃除最後障礙。
via雷鋒網
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。