參考消息網10月26日報導臺媒稱,百度推出一款人工智慧工具,可以即時將英語翻譯成中文和德語,以挑戰谷歌(Google)的競爭產品。
據臺灣中時電子報網站10月24日報導,許多在線翻譯服務允許用戶說或寫一句話,但翻譯的過程會延遲。相比之下,百度即時翻譯工具可以在句子說出來的同時進行翻譯。該產品是百度的一大突破,在過去幾年將重金投資人工智慧,希望構建公司的未來業務。
人工智慧領域,兩種語言的「即時互譯」是一項難以攻克的技術問題,其主要原因在於源語言和目標語言之間存在較大的詞序和語序差異。
參考消息網-出海記記者了解到,近日,百度研發了具備預測能力和可控延遲的即時機器翻譯系統,可實現兩種語言之間的高質量、低延遲翻譯。
機器同傳利用語音識別技術自動識別演講者的講話內容,將語音轉化為文字,然後調用機器翻譯引擎,將文字翻譯為目標語言,顯示在大屏幕或者通過語音合成播放出來。相比人類譯員,機器最大的優勢是不會因為疲倦而導致譯出率下降,能將所有「聽到」的句子全部翻譯出來,這使得機器的「譯出率」可以達到100%,遠高於人類譯員的60%-70%。同時,在價格上也佔有優勢。
為了降低延時提升翻譯質量,人類譯員通常對演講內容進行合理預測,百度開發人員從人類譯員身上獲得啟示,研發了「wait-k words」模型,可以根據歷史信息,直接預測翻譯中目標語言詞彙。該模型在翻譯質量和翻譯延遲之間做出了很好的平衡,用戶可通過根據實際需求設定延遲時間(例如延遲1(k=1)詞或延遲5(k=5)詞)。比如,法語和西班牙語這種較為接近的語言,延遲可設置在比較低的水平;但是,對於英語和漢語這種差異較大的語言,以及英語和德語這種詞序不同的語言,延遲應當設置為較高水平,以便於更好地應對差異。
在同聲傳譯時,經常會遇到不同領域的專業知識,這就要求同傳人員在短時間內吸收大量相關領域的內容,這對他們也是極大的挑戰。基於此,百度模仿人類同傳的準備過程,提出了快速融合領域知識策略。該策略依託百度網際網路大數據,訓練得到的具有通用翻譯能力的模型;當它接到某一個領域的同傳翻譯任務時,系統會收集該領域數據並在通用模型的基礎上進行增強訓練,得到相應領域增的強模型;最後對該領域術語庫進行強制解碼,使專業術語翻譯得準確可靠,且提升翻譯效率。
作為對外開放和商業國際化的需求之一,同聲傳譯被廣泛應用於政府間的峰會、多邊談判和其他商業場合,但是同傳人員稀缺也成為了當前的棘手問題。為了解決全球範圍內同傳譯員人數少、費用高等難題,越來越多開發者專注於機器同傳的研發,百度也希望通過研發高質量機器同傳技術和系統解決即時翻譯難題。
雖然機器同傳有了新的突破,但它與經驗豐富的同傳人員相比,依然存在一定差距。百度翻譯技術負責人表示,同傳的目的並不在於取代人類譯員,而是為了降低同傳成本,讓同傳的應用範圍更加廣泛,也希望世界各地的人在AI的助力下早日實現「無障礙」交流。