AI同傳新突破:搜狗同傳3.0創語境引擎,PPT內容翻譯正確率提40%

2020-12-24 機器之心Pro

機器之心報導

機器之心編輯部

這是第一款多模態人工智慧語音同傳產品,搜狗同傳 3.0 將智能同傳準確性帶到了新的高度。

上周六,搜狗發布了業內首個多模態同傳產品——搜狗同傳 3.0 版。基於搜狗獨創的「語境引擎」,搜狗同傳 3.0 加入了視覺和思維能力,讓機器同傳不僅會聽,還首次具備了看、理解和推理的能力。這一技術首次展出後,現場引來眾人關注。

在上周六,搜狗同傳 3.0 首次亮相。

最近,搜狗 AI 交互技術部總經理陳偉、搜狗同傳產品總監張晶晶和項目負責人趙超向我們揭秘了搜狗同傳背後的技術。

首創「語境引擎」,搜狗 AI 同傳新突破

搜狗同傳技術自 2016 年發布以來,已經經歷了數千場會議同傳的實際應用。開發者們在實踐中發現,業內主流的語音同傳系統無法穩定、高質量地滿足多種演講場合的需求,經常會出現演講內容中專業詞彙的識別和翻譯效果不佳的情況。

為了解決上述問題,搜狗在同傳 3.0 版中加入「語境引擎」,希望能夠通過對語言的深入理解來解決問題。「語境引擎能夠實時利用攝像頭識別現場屏幕上的 PPT 內容,」陳偉介紹道,「之前機器同傳只能獲取語音信息,通過 OCR 技術,現在搜狗同傳可獲取語音信息+ PPT 信息,隨後語境引擎可以構建個性化知識,從而使得同傳譯文效果有大幅提升。」

下圖展示了一些 3.0 版同傳的應用效果,第二列是嘉賓演講的原始內容,第三列是舊版語音識別出來的內容。按照以往的情況,演講者說出的一些罕見詞,比如「投子」,通常會被 AI 識別為投資,但是 PPT 內容上有 AlphaGo 與李世石人機大戰,會讓同傳 3.0 系統拓展出「投子」(指某一方認輸)這樣的圍棋術語,在知識圖譜的幫助下,AI 可以對譯文進行大量更正。

除了專有名詞,新技術的性能具體提升了多少?搜狗表示,他們特別選擇了一個難度較高的專業性會議演講,對同傳 2.0 版、3.0 版和人類專業同傳進行了對比測試。人類達到了 4.08 分、搜狗同傳 2.0 可以達到 3.41 分,而 3.0 版則獲得了 3.82 分。這一成績實現了同傳領域的新突破,讓 AI 距離專業的人類同傳水平又近了一步。

能看又能聽的多模態技術並非搜狗同傳 3.0 的唯一亮點。搜狗表示,同傳 3.0 主要帶來了三個方向上的提升:

更加接近自然,從單純的語音識別到語音+圖像,新的方法模擬了人工同傳的工作方式,增加視覺和大腦擴散知識點的功能,擁有更為複雜的感知系統。更加專業,此前的 AI 同傳模型使用通用數據,新的模型通過實時定製知識增強能力,能夠捕捉現場 PPT 內容補充演講相關的專業領域的知識,並針對每一個演講進行模型定製,提升同傳效果。更加智能,以往模型訓練需要一個被動學習的過程,現在自動學習 PPT 的內容,自動捕捉海量詞彙,確保同傳品質非常優秀。

陳偉進一步總結道:「搜狗同傳 3.0 版進行了從前到後的大規模更新,首先是引入多模態,加入了視覺處理能力。其次在處理過程中從感知層面升級到了認知層面,在『語境引擎』的幫助下,系統可以通過知識圖譜的幫助對同傳內容進行進一步擴展。形成和演講內容相關的語境信息。在新版同傳工具中,系統還可以實時對同傳和翻譯效果進行增強,時延更低。」

與演講者一起「邊看邊思考」

相比以往,多模態的 AI 同傳更加接近於人類,「會看」意味著同傳首次具備了視覺能力。據介紹,搜狗同傳 3.0 在使用中可以藉助屏幕截取,或者普通攝像頭實時獲取圖像信息,不需要使用特定的設備。 「能理解會推理」,則歸功於搜狗語境引擎的應用。在這其中則包含了搜狗知識圖譜和百科的推理能力,系統可以將 OCR 技術獲取的文字內容與演講相關的核心知識產生關聯,並通過「搜狗知立方」知識圖譜實時推理拓展,獲取背景知識。另外,同傳系統可以基於搜狗百科的中英術語庫獲得中英雙語對照,實時優化同傳識別和翻譯的效果。

搜狗表示,通過多模態方式獲取信息,同時引入知識圖譜的情況下,搜狗同傳 3.0 針對 PPT 內容的識別準確率提升了 21.7%,翻譯正確率提升了 40.3%。

除了大會演講以外,搜狗同傳的技術體系還會在更多場景中落地,遠程會議、記者採訪、視頻直播、旅遊出行,甚至法院庭審記錄都是未來努力的方向。

搜狗同傳技術自 2016 年發布 1.0 版以來,經歷了不斷升級的過程。「在同傳系統翻譯模塊的背後,1.0 版使用 RNN 模型,在 2.0 版本中,我們引入了 Transformer 模型,解決了梯度爆炸問題,並可以記住更長的歷史內容。在 3.0 版的系統中,除了 Transformer,還採用了基於上下文的流式解碼,並引入了基於搜狗百科的知識圖譜。」趙超介紹道。

但同時我們也應看到行業的共性問題,AI 同傳的準確性距離人類專家水平還有一定距離,這其中既有算法能力的挑戰,也有人們對於 AI「更高要求」的原因。「我們和很多同傳從業者交流後發現,按照常規流程,人工同傳需要合作方提前提供背景材料,並有一到兩天的準備時間,」陳偉解釋道,「但機器同傳是沒有準備時間的,並且在開始同傳時,人類也可以看到現場 PPT 上的內容。因此對於機器同傳而言,除了把語音做好外,視覺信息也非常重要。」

搜狗同傳 3.0 背後,更是公司「自然交互+知識計算」戰略的深入。搜狗 CEO 王小川最近表示,搜狗 AI 技術的核心,是經由深度學習為機器加入感知能力,從而實現與人類的自然交互,同時進一步提取出語言內的關聯關係,讓機器產生人類的「認知」能力。

從最初的語音交互到唇語識別,到機器翻譯、搜狗分身(合成主播),再到如今的多模態交互,搜狗正在依託語音、圖像、手勢等各種方式讓 AI 與人類展開更為「自然」的交流。

相關焦點

  • 搜狗同傳3.0上線AI同傳首次實現「能聽會看會思考」
    基於搜狗獨創的「語境引擎」,搜狗同傳3.0以「多模態」和「自主學習「為核心,加入視覺和思維能力,讓機器同傳不僅會聽,還首次具備了會看、能理解會推理的能力,引領AI同傳進入了多模態認知時代。搜狗同傳技術再升級,解鎖兩項「超能力」AI同傳一直是人工智慧技術的重點領域。
  • 烏鎮網際網路大會官方首次使用AI同傳,搜狗為雷軍提供機器翻譯
    值得一提的是,搜狗同傳作為本屆大會智慧化應用的重要組成部分,是世界網際網路大會有史以來,AI同傳首次服務官方主議程。在傳統的國際會議上,觀眾如果只靠「聽」,很多關鍵性的內容都難以消化理解。而當快手科技創始人宿華講到「萬物互聯,短視頻迎來無限可能」的時候,身旁的屏幕上同步浮現出了演講的中英文雙語字幕,讓觀眾將看和聽結合起來。作為大佬雲集的科技盛典,本次會議的對話內容涉及到多個領域的高端技術詞彙,翻譯難度飆升。
  • AI同傳效果媲美人類,百度翻譯出品全球首個上下文感知機器同傳模型
    魚羊 發自 凹非寺  量子位 報導 | 公眾號 QbitAI  AI同傳領域又有新進展,這次突破來自百度。  百度機器翻譯團隊創新性地提出了全球首個感知上下文的機器同傳模型,並基於此發布了最新的語音到語音的機器同傳系統:DuTongChuan(度同傳)。
  • 訊飛搜狗翻譯同傳技術遭質疑:偽技術的一場作秀?
    一個是搜狗的王小川在剛剛結束的烏鎮網際網路大會上大「秀」機器同傳技術,喊出了「人工同傳可能會失業」的口號;另一個則是科大訊飛在發布會上大談多語種實時翻譯技術,言辭間同樣表露出了「人工智慧技術將取代同傳」的意思。但不知道你發現沒有,這兩場新品發布會有一個相同點,那就是只有Demo,卻沒有成型落地時間和大規模用戶體驗。也就是說,科技發燒友們只是看到搜狗和訊飛畫了一張餅,卻並不能親自嘗嘗餅的味道。
  • 科大訊飛翻譯造假背後:人機對戰AI正確率僅1/3,想替代人工還早
    事實上,目前的多項研究和實踐結果均顯示,在翻譯領域,特別是同聲傳譯領域,機器的「功力」與人工還有較大的差異。在此前韓國舉行的一次同聲傳譯「人機對戰」中,人工翻譯可以翻對80%左右的內容,而機器的正確率僅有1/3。
  • 百度發布AI同傳,有哪些核心技術?
    PZdednc百度AI同傳核心技術AI同傳的核心技術是語音技術和機器翻譯技術,機器同傳利用語音識別技術自動識別演講者的講話內容,將語音轉化為文字,然後調用機器翻譯引擎,將文字翻譯為目標語言,顯示在大屏幕或者通過語音合成播放出來。
  • 2020進博會成功舉辦 騰訊同傳連續三年提供AI翻譯服務
    騰訊同傳作為官方合作夥伴,已連續第三年為進博會多場新聞發布會提供AI同聲翻譯和轉寫服務,助力全球經濟無障礙交流。多國嘉賓與會 騰訊同傳助力跨國經濟交流合作今年受全球疫情影響,多數大型國際展會被取消或延期,世界經濟交流受到阻滯。
  • 26周新聞丨搜狗同傳在線營業,中英雙語字幕帶你秒懂WWDC20
    01搜狗同傳助陣「2020中國人工智慧峰會」及「WWDC」6月23日,以「智領變革,點亮未來之光」為主題的2020中國人工智慧峰會暨中英現代產業合作夥伴關係對話在南京開幕,大會研討了人工智慧行業的未來發展趨勢
  • 科大訊飛AI同傳造假?你以為是機器在同傳,其實是人工……
    9月20日,一位同傳譯員在知乎上發文稱,在上海的一場會議中,訊飛的翻譯其實為人工同傳,並非機器智能翻譯,並且譯文由機器進行朗讀。這容易讓觀眾產生「都是人工智慧翻譯」的錯覺,而忽略背後同傳譯員們的勞動成果。對此,9月21日,科大訊飛的回覆是,「科大訊飛從來沒有把同傳翻譯包裝成機器翻譯。」
  • 西班牙語翻譯成中文同傳翻譯報價
    同傳翻譯是按照源於的順序,一種即聽即譯的活動,在國際化時代,為了解決各國間語言的交流,各語種之間互譯也是同傳翻譯中主流翻譯形式,其中西班牙語翻譯成中文用途較廣,那麼關於西班牙語翻譯成中文的同傳翻譯相關的報價是怎麼樣的呢,英信翻譯簡單介紹:西班牙語翻譯成中文同傳翻譯報價在
  • 被Diss造假,科大訊飛說從未提出過「AI同傳」概念
    (圖片來自知乎用戶Bell Wang)Bell Wang發現英文字幕跟日本教授的說話內容有很大出入,「可以說是胡話連篇了」,也就是說「訊飛聽見」難以聽懂日本教授酸爽的英語。 實際情況是訊飛識別了同傳人員的翻譯「put in chart」,誤聽成了「put in charge」。 也就是說,訊飛不是在做AI同傳,而是識別了同傳人員的語音翻譯然後念了出來。Bell Wang聲稱自己事先並不知道訊飛會用語音識別將同傳轉化為文字,同時也不知道直播會用AI識別同傳人聲翻譯再播報出來,是沒有徵得同意就冒名使用翻譯成果。
  • 科大訊飛回應AI同傳造假:從未將人工翻譯包裝成機器,或因動了別人...
    1.科大訊飛回應AI同傳造假:從未將人工翻譯包裝成機器,或因動了別人「奶酪」 據消息,在日前舉行的國際會議上,使用「訊飛聽見」進行的現場同傳翻譯,實際上是由訊飛語音識別兩位同傳譯員的翻譯輸出,再由語音合成機器聲音播放給聽眾,直指科大訊飛的人工智慧技術「造假」。
  • 搜狗AI助力中關村成就展 開啟智慧展館時間
    成就展以「新時代新徵程,中關村再出發」為主題,通過中關村園區創新生態、創新成果以及園區企業風採,全面展現了30年來發展帶來的豐碩成果、創新成效、有益經驗和未來的發展願景。而作為中國AI領域的創新者,搜狗多個人工智慧產品的入駐,也為展示中心吸引了不少參觀者的關注。
  • 2020服貿會:AI同傳打通語言交流壁壘
    9月5日-9月9日,2020中國國際服務貿易交易會(簡稱服貿會)在北京召開,作為疫情以來我國在線下舉辦的第一場重大國際經貿活動,大會開幕式邀請了國家領導人、外國政要、國際組織負責人、世界500強和行業領軍企業負責人出席,共有148個國家和地區的1.8萬家企業機構參展參會,包括人工智慧、5G等一系列新技術
  • 騰訊同傳服務上海軟體貿易發展論壇 跨語言跨專業交流高效高質
    騰訊同傳還為大會提供獨家AI同聲傳譯服務,成為各國與會嘉賓跨語言溝通的輔助工具。在此次會議商討議題中,涵蓋數字貿易、金融科技、軟體服務等多個專業模塊,騰訊同傳在經過數百場世界性會議的場景打磨之後,以一貫的穩定高效高質翻譯,贏得了與會嘉賓的好評。
  • 搜狗機器翻譯團隊獲得 WMT 2017 中英機器翻譯冠軍
    搜狗語音交互技術中心代表搜狗參加了這次含金量極高的比賽,該中心研發的搜狗神經網絡機器翻譯(Sogou Neural Machine Translation)系統在「中文-英文」機器翻譯任務中獲得了冠軍。這個系統採用了哪些新方法、新結構,又為我們提供了哪些新思路?讓我們結合論文聊一聊 Sogou NMT。WMT 是機器翻譯領域的國際頂級評測比賽之一。
  • 人工智慧真的可以取代同傳翻譯嗎?
    前陣子,一位同傳翻譯員聲討科大訊飛「AI同傳造假」,在網上引起了軒然大波。人工智慧和同傳翻譯由此成為大家熱議的話題。今天,我們來談一談「人工智慧翻譯是否真的可以取代同傳翻譯員」?同聲傳譯有多難?機器翻譯如能代替同聲傳譯無疑具有巨大的價值。人工智慧翻譯的水平如何?那麼,人工智慧同傳翻譯的能力究竟怎樣?會不會搶走同傳翻譯員的飯碗呢?
  • 葡語同傳保證質量的翻譯方法有哪些
    葡萄牙語做為小語種翻譯的其中之一,翻譯難度相當高的,而從事葡語口譯的人才少之又少,進而葡語同傳口譯質量無法的保證,造成客戶流失的情況,那麼從事葡語同傳保證質量的翻譯方法有哪些呢,英信翻譯簡單介紹:英信翻譯1、葡語同傳譯員應做到避免重複葡語同傳譯員應該第一遍就把口譯的工作做好,同傳工作錯綜複雜,變化不定,屬於非常耗腦的一種口譯服務,譯員像即時發布口才一樣
  • 打破語言壁壘,百度翻譯同傳為智源大會構建跨國溝通橋梁
    為了更好的幫助國內外觀眾理解報告內容,百度翻譯為本次大會提供了機器同傳服務。百度翻譯同傳現場效果展示人工同傳專業性強,難度極高同傳是一項專業性極強、難度極大、耗腦又耗嗓的工作。機器同傳成研究熱點,百度翻譯提出多項創新近年來,得益於人工智慧技術的綜合進步,結合語音技術和機器翻譯技術的機器同聲傳譯成為國際前沿研究的熱點。機器同傳面臨一系列國際公認的難題,如語音識別錯誤傳遞、翻譯質量與時間延遲難以平衡等。
  • 火山同傳創新性地推出「影院級字幕」方案
    本場直播中,火山引擎旗下的火山同... 12月12日,日本藝術家村上隆在今日頭條、西瓜視頻、抖音同步開啟首場中國直播,吸引近80萬人次在線觀看。本場直播中,火山引擎旗下的火山同傳產品獨家全程提供了實時智能同傳字幕。