智東西(公眾號:zhidxcom)
文| 李水青
近日,搜狗推出了業內首個帶有「語境引擎」的同聲傳譯系統3.0版,新增多模態和自主學習能力。以大會同傳為例,搜狗同傳3.0系統在聽聲的過程中,還能夠實時閱讀PPT,並將它所看到的內容拓展成知識網絡,從而經「思考」後讓實時翻譯變得更準確。
據統計,針對演講核心內容,搜狗同傳3.0識別正確率提升了21.7%,翻譯正確率提升了40.3%。
隨著國際交流日趨頻繁,國際交流中的現有同聲傳譯服務成本高、人才不足,難以滿足需求。搜狗CEO王小川說,全球20%的人口是說中文,但是全球95%的信息是用英文所寫的,因此如何幫助中國人跟外國人進行更好的交流,變成了一個重大的技術課題。
在同傳行業中,翻譯從業者並沒有減少,但滿足專業同傳需求的人才卻更加稀缺。面對大會傳譯中專業術語識別和翻譯,許多英語出身的普通翻譯工作者難以駕馭,現有的同傳機器也大多採用通用模型,因此許多醫療、物理、經濟、人工智慧領域的專業術語及新興概念翻譯成為一大難點,弄不好就「驢頭不對馬嘴」。
其實,針對這些行業痛點,搜狗早在2018年推出的同傳2.0就具備了「個性化定製」功能。同傳2.0通過對大會嘉賓的文稿、PPT、百科知識進行提前學習,使得現場傳譯更加準確。
但是,現實很骨感。當真正一場大會舉辦起來時,一些演講人的PPT和材料很難提前獲取,因此定製環節也變得難以在會前完成。搜狗同傳3.0由此應運而生。3.0版本通過實時捕捉PPT上的內容,進而發揮「語境引擎」作用優化翻譯效果。
一、「投子」、「羅輯思維」都能翻對,與人工差距縮短60%
以大會同傳為例,當嘉賓說出「投子」,機器很可能識別為「投資」,但是搜狗同傳3.0通過識別PPT上的「阿爾法狗」和「李世石」,能夠擴展出「投子」這樣的術語;
當聽到「羅輯思維」,搜狗同傳3.0會根據PPT上的「羅振宇」進行知識圖譜擴展,從而直到此「羅輯」非彼「邏輯」;
當聽到「INI」,人們不太熟悉這個縮寫,搜狗同傳3.0會查詢中英文知識庫後,把相應的中文解釋「國際神經科學研究所」給翻譯出來。
▲搜狗同傳3.0的對眾多易錯詞彙的翻譯準確率大大提高
從某權威論壇的數據評測得分上可以看到,相比於人工同傳4.08的得分,3.0版本的系統得分從2.0版本的3.41分上升為3.82分,與人工同傳的差距縮短60%左右。
除了大會演講的同傳之外,搜狗同傳3.0作為一套完整的技術體系,在眾多場景中都有用途。比如記者採訪、跨國辦公會議、中英文視頻直播、字幕翻譯、法院庭審等等,都可以在搜狗語境引擎的輔助下完成更簡單的表達和信息獲取。
二、語境引擎、知識圖譜加持,5步優化翻譯
簡單來說,搜狗語境引擎最主要的創新是為同傳系統增加了視覺通道。同樣以大會同傳為例,利用「語境引擎」進行「邊聽邊看邊思考」地翻譯大致包括以下5個步驟:
1、通過OCR技術識別PPT頁面上的內容;
2、針對識別結果,生成與PPT對應的領域詞彙表;
3、利用領域詞彙表進行知識圖譜的擴展,從而形成擴展詞彙表;
4、針對擴展詞彙表,查詢搜狗中英專業術語庫;
5、在語音識別端和機器翻譯端使用擴展詞彙表進行增強,提升整體翻譯效果。
通過語境引擎技術,搜狗將能「視聽合一」的多模態思路應用到新的同傳系統,它帶有一些簡單的思考能力,通過知識圖譜能夠實時地把它看到的東西拓展成知識網絡,放到同傳生態系統中去,從而優化翻譯效果。
▲搜狗同傳3.0技術架構圖
三、三年上千場大會,搜狗同傳「過三關」
早在2016年,搜狗就在第三次世界網際網路大會上發布了大會同傳1.0。在當時,語音識別準確率便超過97%,機器翻譯準確率達90%。
但是,搜狗AI交互技術部總經理陳偉告訴智東西,當時的準確率是在一定的測試集上測出來的,但當面臨實踐中的方言口音、專業術語、中英混說等問題,系統的波動性很大。
而這種只有深入行業後才能真實體會到的行業痛點,也成為搜狗同傳產品不斷迭代的動力。
2018年,搜狗同傳進入2.0的階段,可以實時根據用戶語料進行定製;而近日推出的同傳3.0,主要強調的是多模態和自主學習的過程,能聽會看,能理解和推理大會場景下演講人到底在說什麼。
從搜狗同傳3.0技術框圖可知,搜狗同傳系統主要包括語音識別、機器翻譯和語音合成。
從語音識別模塊的演進來看,1.0系統僅僅輸入語音;2.0的時候開始做到語音+個性化,以及說話人的語境背景輸入;3.0的時候則加入了知識圖譜,把這些信息作為語音識別的輸入。
AI交互技術部總經理陳偉說,目前,行業內傳統的AI同傳的運作方式仍介於1.0和2.0之間,我們根據圖譜方式,已經到3.0時代了。
從機器翻譯模塊來看,1.0的時候採用RNN的模型結構,這種模型結構的問題是只能記憶低至10字左右;2.0版本則升級為Transformer翻譯模型,從而解決了對歷史的依賴;現在,3.0又升級了翻譯系統,採用基於上下文流式解碼方式和基於搜狗百科知識圖譜的方式。
結語:找準行業痛點,開闢機器同傳新路徑
搜狗同傳3.0在業內首次推出音視覺結合的語境引擎,為同傳行業中的機器參與實踐開闢了新思路。從僅依賴語音進行識別和翻譯,到利用PPT等場景視覺載體,並通過知識圖譜、流式解碼等技術實現知識推理、優化翻譯,搜狗帶來了具有行業「Know How」的新路徑。
搜狗同傳的技術迭代和翻譯準確率提升,來自於上千場同傳會議的實踐中對應用場景的深入洞察,也來自於搜狗國內首屈一指的輸入法和搜尋引擎為其帶來的海量網際網路數據和語言基因。
對於同傳行業來說,機器翻譯在短期內仍然難以實現人工翻譯的「信達雅」的「雅」,甚至在「達」上也還欠缺火候。但是,通過音視結合的多模態技術、知識圖譜等知識計算技術,機器能夠率先攻破一些涉及專業知識的特定應用場景,做得比普通翻譯人員更好。