近日,全球領先的智能金融搜尋引擎虎博科技公布了最新前沿研究成果Levenshtein Transformer,在機器翻譯領域提升相關速率3倍以上,佔領現有機器翻譯高地。虎博科技創始人兼CEO陳燁表示,機器翻譯能力的明顯提升,不僅有助於提高人力效率,還能推動計算機科學、數學、語言學、翻譯學等多種學科的快速發展,更對解決全球信息不對稱難題有著重大幫助,可加速文化全球化的快速融合。
Levenshtein Transformer基於Transformer模型上進行優化與升級,是第一個可以自由控制長度的翻譯模型,顛覆了現有機器翻譯的流程和方式,以更靈活的序列打造機器翻譯的機制和流程。通過在不同分詞間進行增加詞或者刪除詞的行為,突破了原有限定邊界,同步優化整體語言表達,提升譯文效果、摘要能力和時間效率,實現了目前最短時間達成長文本高質量譯文的記錄。據悉,Transformer是目前國際上公認的最先進的機器翻譯模型,由Google於2017年提出並開源,全球一線科技公司均在使用。
虎博科技算法負責人Jake Zhao參與了此次研究,並針對不同目標、3組不同語言,在公開數據集上進行了多次試驗。研究結果顯示,新模型不僅在翻譯速度上至少提升3倍,更在譯文質量上有了顯著變化。通常來說,現有Transformer模型需要對原文進行至少20次以上的串行解碼行為,在測試集上的平均用時超過300毫秒,但Levenshtein Transformer可將串行的部分顯著減少,通過並行得進行插詞、刪詞來完成翻譯。這樣的模型設計不但將翻譯的平均用時減到了100毫秒左右,還給予了模型在翻譯中的能動靈活性。從譯文質量上來說,基於Levenshtein Transformer的譯文質量普遍評分更高。
Levenshtein Transformer實驗結果
以「 The too high rotation speed produces the reverse deformation」為例,Levenshtein Transformer模型在3個插入刪除周期後得到了質量較高的翻譯。據了解,該模型在全球語言的轉換中遊刃有餘,支持任何語種的直接翻譯和總結。
Levenshtein Transformer實驗示例
Jake Zhao表示,Levenshtein Transformer利用模仿學習的方式來訓練插入和刪除,讓機器能更快更自然地進行模擬交流。同時,由於插入刪除的互補性,藉助模型插入後的句子去訓練如何刪除、用模型刪除後的句子去訓練插入,給予模型一個自我檢查修改的機會,「例如,傳統的autoregressive模型只能實現長度的增長和停止,但如果模型發現生成了不佳的詞,並沒有辦法將該詞撤回。而得益於可實現插入和刪除的Levenshtein Transformer模型,它能自主、動態得控制模型的生成長度,讓模型解碼更具靈活性」。Jake Zhao進一步解釋:「就和人類寫作文一樣,以前的模型不但是一個字一個字的寫,而且不支持寫完後修改,Levenshtein Transformer就更聰明,寫完了還會自己修改」。
目前,虎博科技每天的全球資訊及金融數據機器翻譯總量達上億萬次。以使用虎博搜索查找海外上市公司活躍用戶為例,當鍵入「拼多多活躍用戶」進行提問,搜索後臺在一秒內進行千百萬次計算,經過對「拼多多」「活躍用戶的語言理解,識別並提取對應「PDD」、「Active Buyers」對應內容,一鍵呈現最準確的數據,又如搜索「Tesla Model 3產能」,系統自動理解產能的意義,抽取財報對應的「Model 3 production」內容,第一時間提供。這個過程中,虎博核心技術之一——機器翻譯就承擔了對公司名、業務描述及英文財報的理解和翻譯工作。
據了解,此項研究成果將應用於虎博科技底層架構,全面提升現有機器翻譯能力,以更地道的理解和表達直接作用於虎博搜索、西梅、招股書、財神股票、虎博翻譯等產品中,打破全球金融信息的語言壁壘,為用戶提供更貼心的產品體驗。隨著未來虎博科技業務領域的擴展,優異的機器翻譯能力也將同步應用於更廣闊的全領域信息獲取範疇,加速文化全球化的融合。
文化全球化同經濟全球化一樣,是一種世界發展的趨勢,因為前沿科技的發展,人們的交流更加容易,文化之間的交流更加順暢。陳燁表示,虎博科技將持續致力於前沿科技的探索,以科技之力加速產業智能化的落地,推動全球經濟的發展,「我們將不遺餘力的開展全球前沿技術交流,探索全球文化融合與發展的更多可能」。