馬雲爸爸「翻譯情未了」? 回顧阿里翻譯平臺的進擊之路!

2020-12-11 雷鋒網

雷鋒網AI科技評論按:在百度翻譯,谷歌翻譯幾乎要霸佔整個機器翻譯市場時,阿里翻譯宣布已成功研發阿里雲PAI工具,基於阿里雲PAI可以將神經網絡翻譯訓練效率提升5倍,這將大大加速阿里翻譯平臺的建設。希望阿里翻譯以後也能走進我們的生活中。

眾所周知,馬雲爸爸在創立阿里之前是做翻譯服務及開翻譯公司的。隨著近幾年阿里的業務不斷擴大,全球化戰略進程加速,語言問題也成了最基礎的需求之一,尤其是跨境電商交易對多語言翻譯需求尤甚。此前阿里在語言服務上做過不少努力,包括收購國內最大的人工翻譯平臺,但這遠遠不能滿足阿里平臺上億級別客戶的需求。正當阿里為此感到苦悶時,谷歌的神經網絡翻譯技術出現了,可以說是為阿里的翻譯平臺插上了一對翅膀。

早在2015年6月份,阿里就已收購國內最大的眾包翻譯平臺——365翻譯。當時把阿里翻譯平臺定位為阿里巴巴的語言服務平臺,將瞄準人機結合模式,在語言服務領域進行更多創新。365翻譯的加入確實為阿里的跨境電商領域分擔了一些翻譯業務上的壓力。並且在機器翻譯領域,和電商相關的幾個主要語種中,其翻譯的準確率基本和谷歌翻譯持平。然而,阿里語言服務平臺的野心並不止於此。他們想藉助強大的人工翻譯團隊和電商大數據研發下一代基於神經網絡技術的翻譯平臺。

神經網絡翻譯技術是一種用於自動翻譯的端到端的學習方法,該方法能夠克服傳統的基於短語的翻譯系統的缺點,可以將整個輸入句子視作翻譯的基本單元。從2016年以來的學術界頂級會議上,幾乎全是圍繞NMT相關的創新工作,之後谷歌、微軟等巨頭公司相繼發布NMT系統。

阿里翻譯團隊也緊緊抓住這一機會於2016年10月起正式開始自主研發NMT模型,2016年11月首次將NMT系統的輸出結果應用在中英消息通訊場景下的外部評測中並取得了不錯的成績,翻譯質量有了大幅度提升。

但是,由於NMT(神經網絡機器翻譯)模型的結構複雜,且深度神經網絡模型本身的訓練過程一般又會涉及很大量的計算,因此NMT系統往往需要較長的訓練周期,例如,使用3000萬的訓練數據在單塊GPU卡上一般需要訓練20天以上,才能得到一個初步可用的模型。

基於上述問題,2017年2月初開始,阿里翻譯團隊和阿里雲Large Scale Learning(大規模學習)的穆琢團隊合作,共同開發支持分布式訓練的NMT系統,並於2017年3月底完成了第一個版本的分布式NMT系統。

在2017年4月份的英俄電商翻譯質量優化項目中,分布式NMT系統大大提高了訓練速度,使模型訓練時間從20天縮短到了4天,為項目整體迭代和推進節省了很多時間成本。

圖:使用不同卡數時,在中英100萬訓練語料上獲得的收斂加速比

PAI是阿里推出全球化戰略「NASA」計劃後發布的首個重磅工具,可以完全兼容全球主流的深度學習開源框架。同時,底層提供強大的雲端異構計算資源,包含CPU、GPU、FPGA。在GPU方面,可靈活實現多卡調度。

除了基於MA的分布式實現,增加GPU卡的數量,有不同的收斂加速比以外,阿里翻譯項目組還嘗試了其他多種分布式實現方法,也都獲得了不同程度的加速效果,包括Downpour SGD、AllReduce SGD以及使用了BMUF(Blockwise Model-Update Filtering, 一種針對Model Average方法的改進方案)策略的Model Average方法。下圖中顯示,在硬體條件相同,BMUF的收斂效果要比MA(黃色柱狀)分布式要好。

阿里方面還表示:上一階段工作主要集中在模型訓練階段的加速策略上,接下來的工作主要分為兩方面:一方面是繼續挖掘分布式訓練的加速潛力,通過系統與算法相結合的優化策略,最大化利用硬體資源,提升收斂加速比,並將分布式優化策略和算法模型本身解耦,實現複雜深度學習模型分布式加速功能的組件化和通用化。

另一方面,需要在現有的服務化方案的基礎上,進一步通過模型精度壓縮、網絡結構簡化等方式,在保證模型效果的同時,提高解碼速度,降低線上延時,進而增強線上服務能力,節約服務化所需的硬體成本。

阿里雲PAI工具使阿里翻譯平臺的神經網絡翻譯訓練效率提升5倍,確實非常厲害。這將大大加速阿里翻譯平臺建設之路。正當雷鋒網編輯想對阿里的翻譯質量來一個評測對比,點擊阿里翻譯平臺官網:www.alifanyi.com 卻發現功能還未對外開放。

後來雷鋒網(公眾號:雷鋒網)了解到:阿里翻譯團隊還在破解線上服務處理延時的難題,平臺目前還在內測階段。不過雷鋒網編輯還是發現了一個能使用阿里翻譯界面的網站。現在就來對百度翻譯,谷歌翻譯,阿里翻譯做一個簡單的漢譯英測試。

百度翻譯:

谷歌翻譯:

阿里翻譯:

為了能使阿里翻譯體現出自己擁有電商大數據的優勢,特別選了一句跨境電商領域的句子:自有產品,經營主體自行生產或自有品牌的產品,以及外部採購以自己名義進行銷售的產品。從翻譯結果對比來看,阿里翻譯似乎比百度和谷歌的翻譯好一點。接下裡進行第二項測試,英譯漢測試:

百度翻譯

谷歌翻譯

阿里翻譯

這次阿里翻譯似乎表現的不太好,表現最好的是百度翻譯。不過從一些關鍵詞的翻譯還是能體現出阿里翻譯的特色,比如:jurisdiction,翻譯為「法域」;buyer和seller翻譯為買家和賣家。可以猜測阿里翻譯在跨境電商等類似的特定場景下會表現的更好。總的來說,阿里翻譯的漢譯英表現還不錯,但在英譯漢的情況下表現的沒有谷歌翻譯和百度翻譯好。

阿里翻譯現在還沒上線,但憑藉自己擁有海量的電商跨境交易數據和強大的365人工翻譯團隊,再加上阿里雲PAI工具對神經網路翻譯訓練效率的提升,相信不久後阿里翻譯會有一個質的飛躍,在機器翻譯領域佔取一定的市場份額也不是沒有可能的。希望阿里翻譯平臺開放後能給用戶一個驚喜。

據雷鋒網了解:在阿里巴巴內部,PAI已經被廣泛使用。淘寶搜索使用PAI的參數伺服器,可以把百億個特徵的模型,分散到數十個乃至於上百個參數伺服器上,打破規模瓶頸。最終實現搜索結果基於商品和用戶的特徵進行排序。現在,阿里翻譯團隊還在破解線上服務處理延時的難題,為神經網絡機器翻譯模型的大規模應用掃除最後障礙。

via雷鋒網


雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 了猶未了 馬雲身名難藏
    (原標題:了猶未了 馬雲身名難藏) 2017年「雙
  • 馬雲的龍袍與阿里的錦衣衛
    作為阿里巴巴的創始人,馬雲是阿里當之無愧的靈魂人物,其一言一行,所思所想都深刻地影響著阿里。在阿里內部,有取花名的傳統,馬雲給自己取的花名是「風清揚」。可是,這位風大俠不但沒能像金庸原著中的那般遠離江湖是非和武林紛爭,反而成了退居二線的太祖。
  • 馬雲爸爸說不能因為人工智慧翻譯的興起,我們就不學英語!
    那麼隨著人工智慧翻譯的興起,我們越來越多人去依賴人工智慧翻譯,無論遇到什麼都用翻譯,而自己本身什麼都不懂。而這是對小朋友的教育是不好的行為。那麼人工智慧翻譯的普遍,我們還有必要去學習英語嗎,或者其他語言嗎?
  • 馬雲擔心的事發生了?人民日報之後,阿里又被「點名」
    本文原創,請勿抄襲和搬運,違者必究人民日報點名,反壟斷處罰馬雲在不少人的心中,就像是人生導師。以前看馬雲的各種演講都覺得非常有道理,畢竟馬雲成功了。這也讓很多人忽略了馬雲本身的顏值,一口一個「馬爸爸」,「馬老師」。
  • 阿里1600億美元上市之前,回顧馬雲的初心:24歲跌跌撞撞的創業初始路
    在馬雲封神之前,讓i黑馬和創業者們一起來回顧他的初心之路:(作者:《贏在中國》、優米網創始人王利芬;與馬雲交往最深的媒體人 李翔)創業項目的選擇1988年,24歲的馬雲從杭州師範學院畢業,被分配到杭州電子工業學院教書。
  • 人工智慧太汙了:把馬雲說的nationally翻譯成「男生弄亂」
    摘要:對於同步語音識別產生的這些小錯誤,阿里巴巴集團技術委員會主席王堅博士笑著解釋說,機器翻譯的錯誤其實也是一種智能。有意思的是,馬雲和王堅博士的杭州普通話演講結束之後,臺灣鴻海董事長郭臺銘也帶著他的臺灣腔普通話出場了。
  • 從十八羅漢到萬億市值的商業巨頭,回顧阿里19年創業史,可歌可泣
    馬雲從曾經一名英語教師走到現在,一晃19年的時間過去了,從1999年創立時只有18個人的阿里巴巴發展成如今的跨國電商巨頭,馬雲值得我們欽佩。回顧阿里巴巴19年創業史,走過的路並不平坦,巨頭也曾陷入低谷,至暗無光,回想起那些處在垂死邊緣的時刻,依然會讓人驚心動魄,可歌可泣!
  • 從小教師到首富,從翻譯到風雲領袖,馬雲經歷了什麼?
    而馬雲,也早已不再是當年那個鄉村教師。這一切都得從上世紀90年代講起··· ···90年代的時候,做翻譯的馬雲一直收入平平,也看不到契機。就在這時,通過一位來自美國的教師,他發現原來網絡的世界是一個比翻譯更精彩的世界。1995年,馬雲打開自己的電腦,激情地告訴朋友們:「我要做Internet了!」
  • 騰訊推出機器人翻譯,翻譯將下崗,2018年將迎來BAT和科大訊飛的翻譯...
    根據BLEU以及專業人工評測數據顯示,騰訊翻譯君各項翻譯能力均領先業界,尤其在中英互譯方面領先優勢明顯。其主要的應用場景包括,出國旅遊、跨語言社交和會議翻譯等。除了2C的應用場景外,騰訊翻譯君還向各行業開放了翻譯服務能力,目前與金山詞霸、VIPKID、大眾點評等多領域頭部平臺達成合作。
  • 「隱藏」在馬雲背後的女人,馬雲直言:沒有她就沒有現在的阿里
    馬雲唯一的遺憾可能就是「奇怪」的相貌了,他剛成立阿里巴巴時接受美國媒體採訪,被取了「中國ET」的外號。但是大家可知馬雲原本的工作是和網際網路一點關係都沒有的英文老師,而他的老婆竟然還是師範大學的校花!如果說馬化騰的騰訊強在產品和用戶,那麼阿里則強在馬雲的運營方式和經營戰略。
  • 馬雲的教育情懷,阿里的教育野心
    曾當過大學老師的馬雲,此次與家長們共同探討孩子的成長之路,交流關於教育的思考。馬雲認為,「教育現在變成了令人焦慮的問題,每家都很焦慮,我覺得這是一個更大的問題,我們要慮,但不能焦。」同一年,馬雲與另外8名企業家發起成立「湖畔大學」,致力於發現並訓練具有企業家精神的創業者;2017年,馬雲與阿里合伙人共同創建15年制的「雲谷學校」,包括幼兒園、小學、初高中,希望能探索出一條具有本土特色的教育改革創新之路。
  • 馬雲談阿里裁員|阿里巴巴|人才|人力資源管理|人才盤點|馬雲
    新浪科技訊 1月7日下午消息,馬雲在鄉村教育《重回課堂》上開講,他回應了「阿里裁員」的傳言。「這兩天跟我講的最多的是:別人裁員都是直接裁,阿里巴巴裁員是每年向社會輸送1000人。如果你沒有獨特的思考能力,你會認為這是對的」,馬雲說,員工能在阿里熬到3年非常難的,熬到10年都是寶貝。
  • 馬雲簡歷
    本文轉載自網絡,內容未核實,不代表本平臺的觀點,如有侵權,請留言聯繫刪除。人物履歷因此,很多人來請馬雲做翻譯,馬雲做不過來,於1992年成立海博翻譯社,請退休老師做翻譯。海博翻譯社第一個月全部收入700元,房租2000元。為生存下去,馬雲背著大麻袋到義烏、廣州去進貨,海博翻譯社開始賣鮮花,賣禮品。1994年海博翻譯社營收持平,1995年開始賺錢。海博翻譯社賺錢之後,馬雲就沒再管它 。
  • 西電與阿里巴巴舉行「高校翻譯人機協作平臺」戰略籤約儀式
    王泉副校長表示,「高校翻譯人機協作平臺為外語專業人才培養提供一站式的多語服務,同時推進學校國際化建設。」他相信,此次西電與阿里巴巴之間的合作將開啟雙方合作的大門,同時也希望該平臺能助推外國語學院的教育教學改革和科研新發展。
  • 阿里云為全球醫生搭建國際交流平臺,支持11國語言AI翻譯
    3月18日,阿里雲聯合釘釘上線國際醫生交流平臺,邀請參與抗疫的中國醫生,為海外醫護分享臨床實戰經驗,並提供11國語言AI實時翻譯。目前,浙大一院等中國醫院已經入駐。海外疫情不斷升級,不少國家向中國尋求治療經驗。
  • 馬雲早年赴美做翻譯遭持槍綁架 逃脫後去賭城放鬆
    一位阿里巴巴離職高管告訴《財經》記者,馬雲常年經受市場和政策環境的多變和不確定性,從這樣的環境裡塑造出來的人往往愛冒風險,有一種藐視風險的豪氣。馬雲曾經在一次採訪中聲稱自己在1995年作為一個項目翻譯赴美談判。因談判過程中發生爭執,馬雲遭到對方持槍綁架。逃脫後,他去賭城贏了600美元,回到國內。過去,談及馬雲的好鬥時人們會舉出阿里對戰Ebay(易趣)的經典案例。
  • 馬雲與他的阿里巴巴 阿里的後馬雲時代仍充滿挑戰
    馬雲將要從他創辦的阿里巴巴退下來,有評論認為是一個時代的終結。在1995年,馬雲到美國首次接觸網際網路,他認定網際網路能夠改變世界,回國後便從事相關創業。1999年創立了一個服務出入口的中小企業的電子商貿平臺,他想到阿里巴巴這個角色,既有智慧,又願意幫人,加上不同的語言,發音基本一致,公司便採用了這個名字。數年後,馬雲著手將電子商貿帶進零售層面的淘寶網,並令美國的eBay敗走,離開中國市場,直到今日集團平臺銷貨值,超越美國兩大零售商沃爾瑪和亞馬遜總和。
  • 阿里獲WMT國際機器翻譯大賽5項冠軍
    供圖中新網杭州5月24日電 (黃慧)在WMT2018國際機器翻譯大賽上,阿里巴巴達摩院機器智能-NLP翻譯團隊在提交的5項比賽中全數獲得冠軍。其中,這5個項目包括英文-中文翻譯、英文-俄羅斯語互譯、英文-土耳其語互譯。
  • 每天翻譯10億次,eWTP給全球中小企業帶來神秘助手
    馬六甲王朝全盛時期,往來貿易語言多達84種,翻譯既不好找也不便宜。而今天,在eWTP(世界電子貿易平臺)助力之下,只要你有一部手機,哪怕你只會母語,也可能成為跨境電商新贏家。 在阿里巴巴達摩院,有一支機器翻譯團隊,技術大牛雲集。
  • 外界心中的謀局者、思辨者——馬雲 | 艾問人物
     眾所周知,馬雲的身上有多重標籤:阿里巴巴創始人,馬雲基金會創始人、中國首富、很多人的「爸爸」……但他的微博名字卻只用了一個最普通的頭銜:鄉村教師代言人——馬雲第一年,馬雲每月的工資只有89元,而那個時候如果去廣東做英語翻譯,他每月的工資可以到 1000元以上,但為了信守那個不待五年不離開的承諾