騰訊AI翻譯野心:遠不止免費向博鰲提供同聲傳譯

2020-12-05 誰是獨角獸

本文首發於澎湃新聞

文:Paul Smith / 誰是獨角獸

2018年博鰲亞洲論壇上,騰訊無償向大會部分論壇提供了人工智慧同聲傳譯(以下簡稱「AI同傳」)雙語內容會議現場投屏、翻譯結果語音收聽的服務,並允許場外觀眾在微信小程序查看同傳內容。

不過沒料到的是,這樣一場試驗,引起外界超出預期的關注。

騰訊AI同傳被指出現多個翻譯問題,如外國嘉賓將「一帶一路」說反後,AI直接翻譯為了「一路一帶」;嘉賓中英文混著講時,AI同傳出現大面積單詞無意義重複、大小寫及字符混亂的情況;還有時,AI同傳不翻譯卻連續吐出十幾個相同字符。

李學朝坦言,AI翻譯在目前還需要不斷完善,現場語種多元、話題專業性強、噪音幹擾多,肯定會遇到各種問題,首次接受國際會議大考,希望各界對AI翻譯有合理的預期。

一些自然語言處理專家認為,騰訊敢於做這類會議的同傳「勇氣可嘉」。

「騰訊同傳的表現是在意料之中的。」愛爾蘭都柏林城市大學教授劉群向《誰是獨角獸》表示,近年來神經網絡技術的應用使得機器翻譯的水平有了大幅度的提高,但最近一段時間以來關於機器翻譯的宣傳使得大眾對機器翻譯的期待過高。

劉群說,谷歌和微軟的論文都宣稱機器翻譯達到甚至超過了人類翻譯的水平,但這樣的結論都是在嚴格的限定條件下才成立的。一旦跨出給定的領域,或者領域數據不充分,結論肯定是不成立的。

「當然,這次大規模測試也暴露了騰訊同傳的一些問題。」劉群說,同傳技術與一般的機器翻譯不完全一樣,它並不僅僅是語音識別和機器翻譯的簡單組合,而需要有效融合;語音識別在這種高噪音、高多樣性的環境下如果表現不穩定,也會導致後面的機器翻譯無法給出合理的譯文。

東北大學教授、小牛翻譯負責人朱靖波告訴《誰是獨角獸》,AI翻譯從開始基於規則的方法,到上世紀九十年代的統計方法,再到最新的深度學習方法,經歷了幾個範式,性能得到了巨大提升。但是由於語言的多樣性和複雜性,通用的AI同傳可能無法在短期達到完美。

李學朝認為,AI同傳和人工同傳各有優勢,兩者適用不同的場景。AI翻譯速度快,人工翻譯質量高,可以相互合作。

在接受《誰是獨角獸》近一小時電話採訪中,李學朝還被問及騰訊的AI翻譯戰略、對AI翻譯前景的判斷、與科大訊飛搜狗的競爭、是否會做最近大熱的翻譯機、AI翻譯的內部賽馬機制等問題。

騰訊翻譯君負責人李學朝

以下是《誰是獨角獸》與騰訊翻譯君負責人李學朝的對話實錄:

回應質疑:外界對AI同傳的關注度超過預期

誰是獨角獸:最近網上關於博鰲同傳AI的非議很多,你對騰訊AI同傳這次翻譯情況是否滿意?

李學朝:騰訊同傳能第一次登上國際大會,整體表現還是符合我預期的,有好例子也有壞的例子冒出。這類跨領域討論型會議的同傳對任何AI系統都有巨大挑戰,參與嘉賓是多國的,每一種語言在會上自由討論、自由切換,口音也各不相同,在一些場景下有可能觸發Bug或者不翻譯的情況,這也是AI系統可以持續進化的地方。我們預料到意外情況的發生,但行業對AI同傳的關注熱度超過我們預期,給了我們多維度的輸入,這也是我們這次收穫最大的地方。

誰是獨角獸有傳言稱,騰訊AI博鰲同傳效果不佳,於是緊急招募人工同傳協助?

李學朝:騰訊同傳是百分之百的AI同傳,網上傳言實屬誤會。實際上,騰訊有幾個團隊服務博鰲,一個是負責現場會議的AI同傳團隊,還有一個是負責直播的騰訊新聞團隊。發生誤會的那天,有一場分論壇的人工同傳線路沒有直播聲音傳過來,所以騰訊新聞團隊為了工作需要,找了人工同傳。而那個會場沒有騰訊AI同傳在支持,不是全部的博鰲論壇都支持騰訊AI同傳。

誰是獨角獸為什麼只有幾個論壇支持AI同傳,而不是所有的論壇?

李學朝:我們為了保證同傳速度,都是在現場用伺服器直接部署到本地,所以在這種情況下,我們沒有準備那麼多套伺服器能一下子服務全場的會議。

誰是獨角獸為什麼將「一帶一路」的英語錯誤翻譯成了「一路一帶」?

李學朝:嘉賓在會場上發言比較口語化,在英文表達的時候把「一帶一路」說反了,說成the road and belt,機器就把它當成字面的意思直譯出來了。這就是人跟機器的區別吧。如果是人工的話,就有很大的容錯,會把它翻譯成「一帶一路」。

誰是獨角獸既然是人工智慧系統,為什麼它沒有反應過來是嘉賓說反了?

李學朝:這是當前人工智慧翻譯技術現狀,它無法結合上下文去校對發言準確性,現在技術上一些學術圈內開始有這方面的研究,但是還沒有到產品實用的階段。目前,我們已專門針對上面「一帶一路」可能的錯誤表達個例做了強制轉化。不過人類語言很豐富,我們沒有辦法窮舉所有可能說錯的情況。

誰是獨角獸有張截圖顯示,AI同傳過程中,出現不翻譯情況,反倒生成了很多for。

李學朝:出現這個情況主要是包括神經網絡機器翻譯在內的深度學習算法,在原理上或多或少都有一定不確定性,在特定的情況下有一定概率引發翻譯偏差。嘉賓重複說了4個for,剛好這種情況觸發了系統把它翻譯成更多的for出來,而翻譯引擎不巧放大了這個重複,出現翻譯錯誤,我們在技術與產品方面會有針對性優化。

誰是獨角獸像噪音、語言口音的問題怎麼解決呢?

李學朝:之前大家看到的AI同傳大多是用在單場個人演講中,儘管那已經很複雜了,但相比討論型會議,複雜度還是低的。博鰲這類國際討論會議中,多國嘉賓同場參與、多種口音、多語自由切換或中英文夾雜,多噪音等特點,複雜度很高,對AI同傳有極大的挑戰。

硬體方面,可以用更多有指向性的設備,比如麥克風陣列;另一方面,也需要提高語音識別技術。這些問題需要學術圈、企業、科研機構等一起努力來解決的。

中英文混講導致大面積單詞無意義重複、大小寫及字符混亂。

誰是獨角獸據現場記者反映,嘉賓如果中英文混著講的話,AI翻譯也會凌亂。

李學朝:中英混講的情況,確實對系統也很挑戰。目前我們系統的做法會判斷這一句話到底中文多一些還是英文多一些,來決定翻譯為哪種目標語言。在中英雙語切換頻繁或一個單句包含的中英文量級差不多時,後臺中、英文識別引擎就會同時開始工作,會導致兩種識別引擎互相「掐架「,翻譯結果只能選擇一種語言進行輸出,有可能出現句子中的中文也被當作英文了,所以這時候就有可能出現翻譯錯誤的情況。

幕後故事:免費向博鰲提供AI同傳服務

誰是獨角獸為什麼明知道博鰲這個會場的情況會特別複雜,但是騰訊還是要堅持做AI同傳呢?

李學朝:我們確實預測到難度比較大,因為這種會場規格高,難度又很大,但是博鰲作為主辦方,願意去做這種嘗試,也知道AI同傳的現狀在準確度方面肯定達不到百分之百,這種對創新支持的態度感染了我們,也是一個向國際及行業內外展示AI同傳當前進展狀態的機會,因此我們認為這是一次很好的歷練。

誰是獨角獸參加博鰲之前,預期AI同傳準確率大概達到多少,現在看來實際的準確率大概是多少?

李學朝:基本上,語音識別翻譯準確率在90%以上,目前看來和我們的預期差不多。但由於比我們之前支持同傳的會議要複雜,所以最後準確率的數據還需要做進一步統計。

誰是獨角獸騰訊是怎麼接到博鰲同傳的項目的?

李學朝:博鰲亞洲論壇從會議主題到會務細節都秉承開放、創新的精神。每一屆都會邀請代表科技前沿的產品進行技術展示。AI同傳是一個方向,博鰲選擇了騰訊同傳。我們針對博鰲做了非常充分的準備和技術升級,把博鰲往屆的視頻拿過來在系統中進行測試,經過反覆驗證,最後才把這套系統拿出來。

誰是獨角獸給博鰲提供項目的價格?

李學朝:這個合作是免費的。

誰是獨角獸:你認為AI同傳和人工同傳是什麼關係?

李學朝:AI同傳和人工同傳各有優勢,兩者適用不同的場景,可以協同。很多會議條件不允許,無法為每個語種請一個同傳;一個會議需要多個人工同傳輪流支持,非常耗精力,這時候AI同傳能做協同。但AI同傳不能百分之百翻譯對,也需要與人工同傳合作。人工同傳在會議之前往往也需要學習,來補充不同行業的知識。

談行業:各家重回新的起跑線

誰是獨角獸在AI翻譯方面,前有科大訊飛和百度,為什麼騰訊也介入進來了,並加大了投入?

李學朝:主要兩個因素吧,一是翻譯的用戶場景和需求,二是機器翻譯技術變革。騰訊翻譯君是在公司鼓勵內部創業的背景下,我們團隊孵化的一個項目。最初是為了幫助出國旅遊的用戶解決語言問題,然後看到騰訊許多產品的用戶都有外語使用需求,有很好的結合場景。騰訊翻譯君是2016年發布的,在2016年之前的機器翻譯技術並沒有讓用戶非常滿意,我們觀察到神經網絡機器翻譯技術是一個新的機會,一個技術轉折點、並決定走這一新的技術路線。目前,大家都在用這套新的技術路線,各家又回到了新的起跑線。實際上,騰訊翻譯君全量部署與使用神經網絡機器翻譯技術,反而是業界最早的一批。

誰是獨角獸這兩年國內外公司都在大力投入AI翻譯,你如何判斷AI翻譯市場的前景?

李學朝:這個市場還是有前景的,技術的演進讓AI翻譯質量有了較大提升,在一些特定的領域或場景已經可以輔助人類做更多事情,比如在旅遊、會議等場景,多家公司也都推出了翻譯App,但當前AI翻譯技術還在發展中,還沒有到完美的階段。目前學術圈研究熱度與各公司的技術升級迭代速度都保持的不錯,相信AI翻譯在與現有產品或行業結合的落地場景會有挺多機會與新的嘗試。比如,騰訊翻譯君現在已將AI翻譯的能力以服務的方式在騰訊雲和AI開放平臺開放出來了,包括微信、QQ、QQ瀏覽器、王者榮耀海外版(AOV)、金山詞霸、VIPKID、富途等幾十個產品或不同行業的客戶在使用。目前,騰訊翻譯君這套服務每天請求數量已經超過4億次了,騰訊同傳近期也入圍了中國人工智慧產業發展聯盟組織的《中國人工智慧產業發展聯盟人工智慧技術和應用案例集》。我們希望騰訊翻譯君賦能合作夥伴,也期望與行業一起合作讓AI翻譯更強大。

誰是獨角獸科大訊飛和搜狗推出了翻譯機硬體產品,騰訊未來會不會做翻譯機?

李學朝:我們要看翻譯機是否能更好滿足一些用戶需求或場景。目前也有一些廠商找我們溝通,在未來,我們不排除這種可能性,目前還沒一個確定的結論。

誰是獨角獸如何理解翻譯機這種產品形態?我可以用手機翻譯,為什麼還要再拿一個翻譯機呢?而且翻譯機的價格還不低,都要一千元以上,相當於買一個手機的價格了。

李學朝:你說的這一點確實很認同,也是我們在考慮的問題。現在看這個市場很火,出貨量各方面在升溫,肯定也是有需求和場景的,我們是抱著一個開放的態度,持續去關注這個事情。

誰是獨角獸騰訊內部,有幾個團隊在做AI翻譯?

李學朝:騰訊內部有賽馬機制,騰訊內部做同傳也有幾個方案。騰訊同傳是基於騰訊翻譯君和微信智聆研發的一套方案。2017年底,我們公司年會,有兩套同傳系統同時為年會服務。公司幾個大老闆現場演講,兩套同傳系統在左右兩邊同時輸出PK,這個事件對我們的觸動是非常大的。最後結果出來以後,讓我們看到AI翻譯在會議同傳方面可以做更多的事情,所以我們這兩個團隊又都做了更多演化,然後在更多的會議應用和實踐。

關於 [誰是獨角獸]

CLUBillion

相關焦點

  • 翻譯真的要失業了!騰訊同傳首次代替人類上崗博鰲論壇
    即使操作原始,過程看似笨拙,但人工翻譯一直被視為最靠譜的解決方式。不過,人工翻譯要付出巨大的人力資源和時間成本。為了減少資源浪費,降低人力成本,網際網路時代,人類致力於發展機械翻譯。隨著機器翻譯技術的成熟,人工翻譯失業不再是危言聳聽,而是既定事實。4月8日,騰訊同傳在博鰲亞洲論壇正式上崗,為論壇提供獨家AI同聲傳譯服務。
  • 同聲傳譯收入揭秘
    同聲傳譯是翻譯中最難的一種,因而薪水也特別的高,年薪能達四五十萬元。 親身感受同聲傳譯 「The honor Mrmayor,my Chinese friends……」吳鍾明教授說。
  • 翻譯金字塔塔尖的同聲傳譯 兩種語言間熟練跳舞
    ,「一心二用」是同聲傳譯的看家本領,對於同聲傳譯來說,聽入和譯出自有幾秒鐘時間,在這短短幾秒鐘時間裡,同聲傳譯既要有對一種語言良好的聽覺解意能力,同時又要有用另一種語言組織句子連續準確表達的能力。「優秀的同聲傳譯要有在兩種語言間熟練跳舞的能力。」一位同傳這樣說,一心二用需要排除雜念聚精會神,「每次只能連續工作二十分鐘,時間長受不了。」            同聲傳譯 最怕什麼?
  • 騰訊AI同傳鬧烏龍,質疑「AI取代論」的理由有哪些?
    今年的博鰲亞洲論壇上,第一次出現了AI同傳。值得注意的是,這是博鰲論壇創辦17年首次採用人工智慧同傳技術。然而,在如此重要的場合,現場配備的騰訊AI同傳卻掉了鏈子。詞彙翻譯不準確、重複、短語誤用等「烏龍」引來各方「嘲笑」。人們總是把AI跟人類職位對立起來,各種「取代論」層出不窮。博鰲論壇會議前,就出現了許許多多的「取代論新聞」引起了各界關注。
  • 同聲傳譯到底是一份什麼樣的工作
    在日益密切的國際交流中,翻譯作為不同語言之間溝通的橋梁,其作用也不斷凸顯。而在翻譯行業中,難度最高,也承載了人們最多讚許與好奇的,莫過於同聲傳譯。所謂同聲傳譯,是指譯員以幾乎與講者同時的方式做口語翻譯。也就是在講者仍在說話時,同聲傳譯員便同時進行翻譯。
  • 百度聯合谷歌、Facebook、Upenn等舉辦ACL 2020同聲傳譯研討會
    近日,國際頂會ACL官網披露大會議程,由百度領銜,聯合Google、Facebook、Upenn、清華大學等海內外頂尖企業及高校專家們共同申辦的首屆同聲傳譯研討會(The 1st Workshop on Automatic Simultaneous Translation),將在自然語言處理領域國際頂級學術會議
  • 同聲傳譯工作內容及譯員要求
    就目前同聲傳譯是世界流行的翻譯方式,被95%的國際會議所採用。它不僅極大地挑戰口譯的翻譯水平,而且儘可能地考驗了口譯的反應速度和體力極限,因此號稱「翻譯九段」,同傳翻譯工作主要內容及要求條件如下:同傳翻譯工作內容如下:1、熟悉會議主題、內容和基本材料。
  • 百度領銜舉辦首次機器同傳講習班 詳解機器同聲傳譯技術演進
    EMNLP由國際計算語言學學會(ACL)旗下SIGDAT組織,會議涵蓋語義理解、文本理解、信息提取、信息檢索和機器翻譯等主題。會上,由百度聯合Google舉辦的首次機器同聲傳譯學術講習班(Tutorial)召開,圍繞機器同傳的背景、挑戰、模型、數據集、實用系統和產品、未來研究方向等展開報告和研討,吸引了數百位國際學者參會。
  • 騰訊AI翻譯博鰲論壇出錯求助人工?真相在此
    昨天上午,「騰訊同傳」參與了2018博鰲亞洲論壇分論壇「未來的生產」的現場中英雙語翻譯,這是已創辦17年的博鰲亞洲論壇,首次嘗試在開幕式及部分論壇現場使用AI同傳翻譯技術。意外的是,僅僅第一天,就有傳言稱「騰訊同傳」出現翻譯錯誤,不得不求助於人工同傳的消息,還貼出了截圖。對此,騰訊官方闢謠稱,這是個烏龍事件,外界提及的邀請人工同傳,並非「騰訊同傳」團隊用於此次海南博鰲的現場AI同傳,而是用於服務騰訊新聞團隊北京直播間的專業報導。
  • 這件牛逼的小事兒叫「翻譯」
    我想的是:當時翻譯君給翻譯的那段案情陳述,還真 TMD 準啊。。。   歐對了,翻譯君有人沒用過嗎?簡單介紹一句,就是騰訊做的,你這邊說話,它直接給你翻譯成英文的賊雞兒好使的免費 App。最近翻譯君還出了一個高配版,叫做「騰訊同傳」。前兩天新聞裡報導的,給博鰲亞洲論壇各國領導人做現場同聲傳譯的翻譯機器人,就是「騰訊同傳」。
  • 機器翻譯進化史:用計算機取代同聲傳譯?
    谷歌翻譯(Google Translate)項目開始於 2001 年,當時不僅只提供 9 種語音互譯且翻譯「質量不高,幾年來也沒有什麼提高。」直到 2004 年 弗朗茨·歐赫(Franz Och)加入谷歌翻譯,糟糕的狀況才得以改善。
  • 使用近紅外光譜腦功能成像研究中英文同聲傳譯的腦網絡小世界屬性 | JIOHS
    目前在國際交流間廣泛使用的同聲傳譯涉及了很多有關雙語加工的認知任務。
  • 2020進博會成功舉辦 騰訊同傳連續三年提供AI翻譯服務
    騰訊同傳作為官方合作夥伴,已連續第三年為進博會多場新聞發布會提供AI同聲翻譯和轉寫服務,助力全球經濟無障礙交流。多國嘉賓與會 騰訊同傳助力跨國經濟交流合作今年受全球疫情影響,多數大型國際展會被取消或延期,世界經濟交流受到阻滯。在當前全球經濟遭遇重創的大環境下,由中華人民共和國商務部和上海市人民政府主辦的第三屆中國國際進口博覽會如約而至,受到各國的重視。
  • 世衛組織媒體通報會已提供中文同聲傳譯,歡迎記者朋友參與
    本周起,世界衛生組織為北京時間每周一、三、五晚在日內瓦總部舉行的2019冠狀病毒病媒體通報會提供聯合國官方語言同聲傳譯,包括中文。我們期待著世界各地更多的記者能夠接入媒體通報會與我們溝通交流。世衛組織網上媒體通報會以阿拉伯文、中文、英文、法文、俄文和西班牙文提供總幹事講話和問答環節的同聲傳譯服務。
  • 翻譯界的AlphaGo, AI翻譯機真是「狼」來了麼?
    魔腦全球語言交流系統包括魔腦神筆、魔腦翻譯官、魔腦曉秘和魔腦導遊四款產品,支持英、俄、日、法、韓、阿拉伯等28國語言翻譯和同聲傳譯,語音識別率最高可達97%。人工智慧並非鏡花水月有人會問,魔腦同聲翻譯機到底是幹什麼的?
  • 訊飛發布「隨聲譯」輸入法:支持中英文同聲傳譯
    日前,主打語音輸入的訊飛輸入法同步更新了Android 5.2.2216和iPhone 5.2.1482兩個新版本,最大的亮點是新增了最新研發的「隨聲譯」,支持中譯英、英譯中「同聲傳譯」。用戶只要說出內容,就能將中/英文實時翻譯成文字。
  • 英國留學:同聲傳譯日進鬥金,收入最高的「鐘點工」
    這種職業是同聲傳譯,楊冪和黃軒在2016年主演的電視劇《翻譯官》講述的就是同傳領域的故事。同聲傳譯是當今世界流行的一種翻譯方式,具有很強的學術性和專業性,常常被稱為外語專業的最高境界。其不僅廣泛應用於國際會議,亦可廣泛應用於外交外事、商務活動、新聞傳媒、電視廣播等諸多領域。
  • 搜狗錄音翻譯
    搜狗錄音翻譯筆,是一款既能錄音又能翻譯的智能硬體產品。採用業界最先進的神經網絡機器翻譯技術(NMT),更懂國人語言,翻譯結果更加準確。通過將搜狗速記翻譯筆與手機APP連接,可實現遠比手機出色的遠距離拾音。
  • 上海外服「譯心譯意」突擊隊為第三屆進博會提供高質量翻譯服務|...
    作為進博會翻譯服務的指定服務商,上海外服今年共派出百餘位優秀譯員組成了上海外服「譯心譯意」突擊隊,為參會的各國工商界人士,以及數十個國家和地區的企業參展商和專業採購商提供了一站式翻譯服務。 展會前期,共完成約10萬字的文本翻譯服務;展會期間,共提供翻譯服務500人次,服務總時長達5000小時。
  • Gartner最新報告:百度翻譯整合多項AI能力 多模態翻譯助跨國交流
    近日,全球權威的技術研究與諮詢機構Gartner發布最新報告《Market Guide for AI-Enabled Translation Services》,百度憑藉在機器翻譯方面出色的表現強勢入圍全球AI翻譯服務代表性提供商(representative vendor)。