虎博科技提升機器翻譯效果3倍 加速文化全球化融合

2020-12-25 砍柴網

近日,全球領先的智能金融搜尋引擎虎博科技公布了最新前沿研究成果Levenshtein Transformer,在機器翻譯領域提升相關速率3倍以上,佔領現有機器翻譯高地。虎博科技創始人兼CEO陳燁表示,機器翻譯能力的明顯提升,不僅有助於提高人力效率,還能推動計算機科學、數學、語言學、翻譯學等多種學科的快速發展,更對解決全球信息不對稱難題有著重大幫助,可加速文化全球化的快速融合。

Levenshtein Transformer基於Transformer模型上進行優化與升級,是第一個可以自由控制長度的翻譯模型,顛覆了現有機器翻譯的流程和方式,以更靈活的序列打造機器翻譯的機制和流程。通過在不同分詞間進行增加詞或者刪除詞的行為,突破了原有限定邊界,同步優化整體語言表達,提升譯文效果、摘要能力和時間效率,實現了目前最短時間達成長文本高質量譯文的記錄。據悉,Transformer是目前國際上公認的最先進的機器翻譯模型,由Google於2017年提出並開源,全球一線科技公司均在使用。

虎博科技算法負責人Jake Zhao參與了此次研究,並針對不同目標、3組不同語言,在公開數據集上進行了多次試驗。研究結果顯示,新模型不僅在翻譯速度上至少提升3倍,更在譯文質量上有了顯著變化。通常來說,現有Transformer模型需要對原文進行至少20次以上的串行解碼行為,在測試集上的平均用時超過300毫秒,但Levenshtein Transformer可將串行的部分顯著減少,通過並行得進行插詞、刪詞來完成翻譯。這樣的模型設計不但將翻譯的平均用時減到了100毫秒左右,還給予了模型在翻譯中的能動靈活性。從譯文質量上來說,基於Levenshtein Transformer的譯文質量普遍評分更高。

Levenshtein Transformer實驗結果

以「 The too high rotation speed produces the reverse deformation」為例,Levenshtein Transformer模型在3個插入刪除周期後得到了質量較高的翻譯。據了解,該模型在全球語言的轉換中遊刃有餘,支持任何語種的直接翻譯和總結。

Levenshtein Transformer實驗示例

Jake Zhao表示,Levenshtein Transformer利用模仿學習的方式來訓練插入和刪除,讓機器能更快更自然地進行模擬交流。同時,由於插入刪除的互補性,藉助模型插入後的句子去訓練如何刪除、用模型刪除後的句子去訓練插入,給予模型一個自我檢查修改的機會,「例如,傳統的autoregressive模型只能實現長度的增長和停止,但如果模型發現生成了不佳的詞,並沒有辦法將該詞撤回。而得益於可實現插入和刪除的Levenshtein Transformer模型,它能自主、動態得控制模型的生成長度,讓模型解碼更具靈活性」。Jake Zhao進一步解釋:「就和人類寫作文一樣,以前的模型不但是一個字一個字的寫,而且不支持寫完後修改,Levenshtein Transformer就更聰明,寫完了還會自己修改」。

目前,虎博科技每天的全球資訊及金融數據機器翻譯總量達上億萬次。以使用虎博搜索查找海外上市公司活躍用戶為例,當鍵入「拼多多活躍用戶」進行提問,搜索後臺在一秒內進行千百萬次計算,經過對「拼多多」「活躍用戶的語言理解,識別並提取對應「PDD」、「Active Buyers」對應內容,一鍵呈現最準確的數據,又如搜索「Tesla Model 3產能」,系統自動理解產能的意義,抽取財報對應的「Model 3 production」內容,第一時間提供。這個過程中,虎博核心技術之一——機器翻譯就承擔了對公司名、業務描述及英文財報的理解和翻譯工作。

據了解,此項研究成果將應用於虎博科技底層架構,全面提升現有機器翻譯能力,以更地道的理解和表達直接作用於虎博搜索、西梅、招股書、財神股票、虎博翻譯等產品中,打破全球金融信息的語言壁壘,為用戶提供更貼心的產品體驗。隨著未來虎博科技業務領域的擴展,優異的機器翻譯能力也將同步應用於更廣闊的全領域信息獲取範疇,加速文化全球化的融合。

文化全球化同經濟全球化一樣,是一種世界發展的趨勢,因為前沿科技的發展,人們的交流更加容易,文化之間的交流更加順暢。陳燁表示,虎博科技將持續致力於前沿科技的探索,以科技之力加速產業智能化的落地,推動全球經濟的發展,「我們將不遺餘力的開展全球前沿技術交流,探索全球文化融合與發展的更多可能」。

相關焦點

  • 虎博科技創始人陳燁受邀出席華泰金融科技投資峰會 暢談AI+證券...
    近日,2020華泰金融科技投資峰會於南京舉行,以 「共創智慧生態,共享遠見未來」 為主題,來自監管、產業、資本、學界等的多方代表和專家匯聚一堂,共探如何在全球新格局下,加速前沿科技與傳統金融的融合,推動行業高質量發展。
  • 虎博科技入選2020年中國人工智慧領域高成長企業TOP100
    另一方面,虎博科技深入挖掘不同行業場景需求,洞察行業痛點,聚焦賦能金融、政務、傳媒、商貿、能源等五大領域,已服務海通證券、國泰君安、華泰證券、嘉實基金、華瑞保險、國富人壽、寧波銀行、河北銀行、上海鋼聯、財聯社、國家電網、上海市經信委、江蘇科學情報所等近百家企業和機構。在成立不到3年的時間裡,虎博科技憑藉領先的技術優勢,持續受到國家、業界、學界、資本的認可。
  • 虎博科技創始人陳燁獲2020年度創業新星
    2017年7月,陳燁投身人工智慧領域,瞄準專業信息查找難、信息不對稱的行業痛點,懷揣著「讓人們獲取知識更簡單」的願景,創辦虎博科技,致力研發新一代搜索和推薦,通過自主研發的人工智慧產品打造中國「新搜索」,服務企業和個人。
  • 百度機器翻譯項目獲中國電子學會科技進步一等獎
    由百度牽頭與中科院自動化所、浙江大學、哈爾濱工業大學、中科院計算所、清華大學聯合研發的《基於大數據的網際網路機器翻譯核心技術及產業化》項目獲得科技進步一等獎。項目成果被院士專家鑑定為「在多策略融合翻譯等技術方面取得突破,在翻譯質量、翻譯語種方向、響應時間三個指標上達到國際領先水平,並取得了顯著的經濟效益和巨大的社會效益」。
  • 全球化視角下的教育與科技融合丨GES 2019未來教育大會前瞻
    全球化視角下對教育的新要求,離不開教育與科技融合進程的加深。教育資源在國際間進行重新配置,教育要素在國際間加速流動,對教育的預期已經超越單純技術層面的效率提升,還涉及到更基礎的社會結構、更深層的文化理念以及更全球性的影響因素。教育正在逐漸超越地域和文化的邊界,進到全球化的階段。
  • 虎博科技通過CMMI V2.0 三級認證
    (虎博科技CMMI V2.0證書)CMMI(Capability Maturity Model Integration),即能力成熟度模型集成,由美國卡耐基梅隆大學軟體工程研究所開發CMMI V2.0版本的核心是一套經過驗證的全球最佳實踐,由可提高業務性能的重要業務能力所組成,解決了組織通常面臨的最大挑戰,包括產品工程設計和開發、性能提升、交付和管理服務、習慣性和持久性維持、質量確保等。
  • 一文看懂我國機器翻譯發展情況及BAT、科大訊飛等機器翻譯格局分析
    中商情報網訊:隨著經濟全球化及網際網路的飛速發展,機器翻譯技術在促進政治、經濟、文化交流等方面起到越來越重要的作用。機器翻譯,又稱為自動翻譯,是利用計算機將一種自然語言轉換為另一種自然語言的過程。它是計算語言學的一個分支,是人工智慧的終極目標之一,具有重要的科學研究價值。機器翻譯相較於人工翻譯具有三個明顯的優勢:成本低、易把控以及翻譯速度快。
  • 32分鐘訓練神經機器翻譯,速度提升45倍
    在我們的研究設置中,批大小增大為 16 倍。這使得學習率可以翻倍,訓練時間減少到 5.2 個小時,比原始系統實現了 4.6 倍的加速。圖:通過 (i) 減少工作站之間的通信、(ii) 減少不同 GPU 的工作負載變化從而節約閒置時間,累加多個前向/反向步驟的梯度,實現訓練加速。
  • 機器翻譯「走紅」憑實力
    近日,第四屆機器翻譯論壇在杭州召開,與會者分享了機器翻譯前沿的研究和應用成果,探討機器翻譯技術發展機遇與挑戰,人工智慧和翻譯的融合又成為市場關注的熱點。人工智慧機器翻譯服務商「新譯科技」執行長田亮說。
  • 探測機器翻譯的「溫度」
    那麼,在機器翻譯的衝擊下,人工翻譯真的就要走向落寞,甚至最終被完全取代嗎?我們應以理性態度論證此辯題的真偽。新的翻譯方式的出現,並不代表著傳統翻譯方式的滅亡。人工翻譯的生存與毀滅,取決於其是否具有不可取代性,以及能否融入科技發展的洪流之中,與機器翻譯攜手共進。
  • 搜狗商用神經機器翻譯獲「創世技」顛覆性創新榜Top10
    其中,搜狗公司的「商用神經機器翻譯系統」獲得「創世技」顛覆性創新榜Top10。搜狗神經機器翻譯系統是搜狗公司全自主研發並已經成功商用的機器翻譯技術,是業界最新型翻譯系統,獲得多項授權專利。在該系統的支持下,搜狗日均翻譯請求3億次,覆蓋全球超5億用戶。
  • 馬雲爸爸「翻譯情未了」? 回顧阿里翻譯平臺的進擊之路!
    AI科技評論按:在百度翻譯,谷歌翻譯幾乎要霸佔整個機器翻譯市場時,阿里翻譯宣布已成功研發阿里雲PAI工具,基於阿里雲PAI可以將神經網絡翻譯訓練效率提升5倍,這將大大加速阿里翻譯平臺的建設。希望阿里翻譯以後也能走進我們的生活中。眾所周知,馬雲爸爸在創立阿里之前是做翻譯服務及開翻譯公司的。隨著近幾年阿里的業務不斷擴大,全球化戰略進程加速,語言問題也成了最基礎的需求之一,尤其是跨境電商交易對多語言翻譯需求尤甚。此前阿里在語言服務上做過不少努力,包括收購國內最大的人工翻譯平臺,但這遠遠不能滿足阿里平臺上億級別客戶的需求。
  • 資訊 | 中譯語通推出實時機器翻譯同聲傳譯
    峰會匯集深圳市羅湖區區長聶新平,北大滙豐院長、前北大副校長海聞,沃爾瑪中國副總裁Jordan Berke,北京大學教授、人工智慧商業化專家吳霽虹等眾多國內外大咖和行業精英出席大會,旨在促進新技術新理念與產業融合,加速推進產業升級。中譯語通(GTCOM)作為本次大會合作夥伴,在大會上推出的實時機器翻譯同聲傳譯系統,為大會增加了獨特的語言科技創新的亮麗光彩。
  • 2015國家科技進步獎揭曉 百度機器翻譯成最普惠科研項目
    得益於百度在自然語言處理上的領先技術與不懈的創新努力,此次由百度與中科院自動化所、計算所、浙江大學、哈爾濱工業大學、清華大學等共同研發的「基於大數據的網際網路機器翻譯核心技術及產業化」項目,突破了機器翻譯領域內的四大世界級技術難題——(1)提出基於大數據的網際網路機器翻譯模型,快速響應高負荷翻譯需求;(2)基於大數據的翻譯知識獲取,克服語言數據噪聲問題;(3)通過深度語義分析和翻譯技術,解決語言語義歧義問題
  • 科技向右,文化向左:全球化的新動力
    科技追求一統,文化尊重多元,文化出海會是科技全球化困局的解救者嗎? 疫情不僅僅挑戰經濟增速,也在挑戰全球化合作,經過幾十年的發展,今天全球經濟更加一體化,無論是高科技的電子產業,還是傳統農業生產,資源都是全球化配置的,這就導致,在2、3月份中國疫情嚴重時,對中國依賴的市場出現供貨不足,在4、5月份中國疫情好轉重新啟動生產時,歐美等地疫情日益嚴重導致的訂單減少,也讓中國感到壓力。
  • 有道推出國內首個實景AR翻譯 融合AI科技
    有道實景AR翻譯的整個過程完全是動態的,和出國旅行、購物等場景十分契合,並且接入了有道的離線神經網絡翻譯技術(YNMT),翻譯質量大幅提升,速度極快。比起以往的拍照翻譯,在體驗上有了跨越式升級。融合4大AI黑科技全離線的實景AR翻譯技術門檻很高。有道從2016年開始嘗試,經過幾次技術的實驗、推翻、再實驗,才有了目前的成果。在GMIC大會上,網易有道首席科學家段亦濤,剖析了其中融合的4項AI黑科技。
  • 機器翻譯七十年:百度領跑神經網絡翻譯時代
    中新網12月22日電 機器翻譯距今已有70年的發展歷史。自上世紀40年代起,基於規則、實例以及統計的機器翻譯方法漸次登場,各領風騷。近兩年,神經網絡機器翻譯(Neural Machine Translation, NMT)技術異軍突起,取得了翻譯質量的大幅躍升。
  • ICLR 2020 | 多模態下使用圖片信息顯著增強機器翻譯效果
    Translation with Universal Visual Representation論文作者:Zhuosheng Zhang, Kehai Chen, Rui Wang, Masao Utiyama, Eiichiro Sumita, Zuchao Li, Hai Zhao論文連結:
  • 迅雷網遊加速器Air 3.2版本發布 加速效果提升超2倍
    近日,網遊加速領導品牌迅雷網遊加速器重磅發布Air3.2版本,新版本回歸網遊加速產品的本質,重點體現為用戶提供核心的加速服務的理念,與傳統網遊加速器相比,加速效果提升超過2倍。減輕負擔,加速要「輕」精彩好玩的大型3D網路遊戲通常對玩家的硬體設備和網絡速度有較高的要求,這部分網遊在發展中不斷提高自身的質量以保持其與休閒遊戲的製作差距,同時對硬體性能的需求也會不斷提升。