機器之心報導
機器之心編輯部
這是第一款多模態人工智慧語音同傳產品,搜狗同傳 3.0 將智能同傳準確性帶到了新的高度。
上周六,搜狗發布了業內首個多模態同傳產品——搜狗同傳 3.0 版。基於搜狗獨創的「語境引擎」,搜狗同傳 3.0 加入了視覺和思維能力,讓機器同傳不僅會聽,還首次具備了看、理解和推理的能力。這一技術首次展出後,現場引來眾人關注。
在上周六,搜狗同傳 3.0 首次亮相。
最近,搜狗 AI 交互技術部總經理陳偉、搜狗同傳產品總監張晶晶和項目負責人趙超向我們揭秘了搜狗同傳背後的技術。
首創「語境引擎」,搜狗 AI 同傳新突破
搜狗同傳技術自 2016 年發布以來,已經經歷了數千場會議同傳的實際應用。開發者們在實踐中發現,業內主流的語音同傳系統無法穩定、高質量地滿足多種演講場合的需求,經常會出現演講內容中專業詞彙的識別和翻譯效果不佳的情況。
為了解決上述問題,搜狗在同傳 3.0 版中加入「語境引擎」,希望能夠通過對語言的深入理解來解決問題。「語境引擎能夠實時利用攝像頭識別現場屏幕上的 PPT 內容,」陳偉介紹道,「之前機器同傳只能獲取語音信息,通過 OCR 技術,現在搜狗同傳可獲取語音信息+ PPT 信息,隨後語境引擎可以構建個性化知識,從而使得同傳譯文效果有大幅提升。」
下圖展示了一些 3.0 版同傳的應用效果,第二列是嘉賓演講的原始內容,第三列是舊版語音識別出來的內容。按照以往的情況,演講者說出的一些罕見詞,比如「投子」,通常會被 AI 識別為投資,但是 PPT 內容上有 AlphaGo 與李世石人機大戰,會讓同傳 3.0 系統拓展出「投子」(指某一方認輸)這樣的圍棋術語,在知識圖譜的幫助下,AI 可以對譯文進行大量更正。
除了專有名詞,新技術的性能具體提升了多少?搜狗表示,他們特別選擇了一個難度較高的專業性會議演講,對同傳 2.0 版、3.0 版和人類專業同傳進行了對比測試。人類達到了 4.08 分、搜狗同傳 2.0 可以達到 3.41 分,而 3.0 版則獲得了 3.82 分。這一成績實現了同傳領域的新突破,讓 AI 距離專業的人類同傳水平又近了一步。
能看又能聽的多模態技術並非搜狗同傳 3.0 的唯一亮點。搜狗表示,同傳 3.0 主要帶來了三個方向上的提升:
更加接近自然,從單純的語音識別到語音+圖像,新的方法模擬了人工同傳的工作方式,增加視覺和大腦擴散知識點的功能,擁有更為複雜的感知系統。更加專業,此前的 AI 同傳模型使用通用數據,新的模型通過實時定製知識增強能力,能夠捕捉現場 PPT 內容補充演講相關的專業領域的知識,並針對每一個演講進行模型定製,提升同傳效果。更加智能,以往模型訓練需要一個被動學習的過程,現在自動學習 PPT 的內容,自動捕捉海量詞彙,確保同傳品質非常優秀。
陳偉進一步總結道:「搜狗同傳 3.0 版進行了從前到後的大規模更新,首先是引入多模態,加入了視覺處理能力。其次在處理過程中從感知層面升級到了認知層面,在『語境引擎』的幫助下,系統可以通過知識圖譜的幫助對同傳內容進行進一步擴展。形成和演講內容相關的語境信息。在新版同傳工具中,系統還可以實時對同傳和翻譯效果進行增強,時延更低。」
與演講者一起「邊看邊思考」
相比以往,多模態的 AI 同傳更加接近於人類,「會看」意味著同傳首次具備了視覺能力。據介紹,搜狗同傳 3.0 在使用中可以藉助屏幕截取,或者普通攝像頭實時獲取圖像信息,不需要使用特定的設備。 「能理解會推理」,則歸功於搜狗語境引擎的應用。在這其中則包含了搜狗知識圖譜和百科的推理能力,系統可以將 OCR 技術獲取的文字內容與演講相關的核心知識產生關聯,並通過「搜狗知立方」知識圖譜實時推理拓展,獲取背景知識。另外,同傳系統可以基於搜狗百科的中英術語庫獲得中英雙語對照,實時優化同傳識別和翻譯的效果。
搜狗表示,通過多模態方式獲取信息,同時引入知識圖譜的情況下,搜狗同傳 3.0 針對 PPT 內容的識別準確率提升了 21.7%,翻譯正確率提升了 40.3%。
除了大會演講以外,搜狗同傳的技術體系還會在更多場景中落地,遠程會議、記者採訪、視頻直播、旅遊出行,甚至法院庭審記錄都是未來努力的方向。
搜狗同傳技術自 2016 年發布 1.0 版以來,經歷了不斷升級的過程。「在同傳系統翻譯模塊的背後,1.0 版使用 RNN 模型,在 2.0 版本中,我們引入了 Transformer 模型,解決了梯度爆炸問題,並可以記住更長的歷史內容。在 3.0 版的系統中,除了 Transformer,還採用了基於上下文的流式解碼,並引入了基於搜狗百科的知識圖譜。」趙超介紹道。
但同時我們也應看到行業的共性問題,AI 同傳的準確性距離人類專家水平還有一定距離,這其中既有算法能力的挑戰,也有人們對於 AI「更高要求」的原因。「我們和很多同傳從業者交流後發現,按照常規流程,人工同傳需要合作方提前提供背景材料,並有一到兩天的準備時間,」陳偉解釋道,「但機器同傳是沒有準備時間的,並且在開始同傳時,人類也可以看到現場 PPT 上的內容。因此對於機器同傳而言,除了把語音做好外,視覺信息也非常重要。」
搜狗同傳 3.0 背後,更是公司「自然交互+知識計算」戰略的深入。搜狗 CEO 王小川最近表示,搜狗 AI 技術的核心,是經由深度學習為機器加入感知能力,從而實現與人類的自然交互,同時進一步提取出語言內的關聯關係,讓機器產生人類的「認知」能力。
從最初的語音交互到唇語識別,到機器翻譯、搜狗分身(合成主播),再到如今的多模態交互,搜狗正在依託語音、圖像、手勢等各種方式讓 AI 與人類展開更為「自然」的交流。