科學網—人工智慧:拋開字典的「翻譯家」

2021-01-21 科學網
人工智慧:拋開字典的「翻譯家」 新系統無需人類監督實現平行文本多語種匹配

 

得益於神經網絡(從人腦獲得靈感的計算機算式)的發展,自動化的語言翻譯已經存在了相當長一段時間。但訓練這些網絡需要海量數據:數以千萬計的逐句翻譯,以展示人類如何做這項工作。現在,兩篇新論文表明神經網絡可以在無需平行文本的情況下學習翻譯——這一令人震驚的進展或讓人們獲得許多不同語言的文獻記錄。

「想像一下,你給一個人很多中文書籍和阿拉伯書籍,而且它們沒有任何重疊性,然後一個人需要學習將其從中文翻譯為阿拉伯語。這聽起來似乎不可能,對吧?」其中一項研究的第一作者、西班牙聖西巴提巴斯克國家大學(UPV)計算機專家Mikel Artetxe說,「但我們證明計算機可以做到這一點。」

大多數機器學習——神經網絡和其他從經驗中學習的計算機算式——會受到「監督」。計算機會進行推測,然後接收到正確答案,並據此調整相應的過程。在教一臺計算機如何在諸如英語和法語之間進行翻譯時,這種模式會非常有效,因為很多文獻在這兩種語言中同時存在。但它對於罕見的語言,或者是那些沒有很多平行文本的通用語言並不奏效。

這兩篇尚未經過同行評議的新文章均已被提交給明年的國際學習代表會議,它們聚焦了另一種方法:無監督機器學習。一開始,計算機在沒有人類老師告訴它們其推測是否正確的情況下建設雙語詞典。這是因為語言在詞彙結合方面有著很強的相似性。例如,在各種語言中,桌子和椅子的詞彙經常會一起使用。因此,如果計算機將這些共性像一個城市巨大的公路地圖那樣描繪出來,那麼不同語言的地圖就會彼此相似,只不過它們擁有不同的名字。如此一來,計算機就能找出將一個地圖集覆蓋在另一個地圖集上的最佳方法。瞧!一本雙語詞典出現了。

這兩篇文章運用了非常類似的方法,均能在語句層面進行翻譯。它們均使用兩種訓練策略,即回譯和去噪。在回譯中,一種語言中的一句話被粗略地翻譯成另一種語言,然後再被轉譯回最初的語言。如果回譯的語句與最初語句並不相同,那麼將對神經網絡進行調整,從而使它們下一次翻譯得更加準確。去噪類似於回譯,但它不是從一種語言翻譯為另一種語言,然後再轉換為原語言,而是在一個句子中加入噪音(重新編排或是刪除詞彙),並嘗試將其翻譯到原語言中去。這兩種方法相結合教會了網絡更深層次的語言結構。

不過,這兩種技術之間也有些微差異。UPV的系統在訓練過程中進行了更多的回譯。而另一個由位於法國巴黎的臉譜網計算機科學家Guillaume Lample與其合作者研發的系統,則在翻譯過程中加入了額外的步驟。在將其「解碼」為另一種語言之前,兩套系統都會將一種語言的一個句子編碼為一種更加抽象的表徵,但臉譜網的系統驗證了中間的「語言」是真正抽象的。Artetxe和Lample均表示,他們可以通過應用對方論文中的技術改善自己的結果。

在兩篇論文之間進行的唯一直接對比結果中——對約3000萬個語句在英語和法語文本之間進行翻譯,兩套系統在雙向翻譯中均獲得了15分的雙語評估分數(用來衡量翻譯準確性)。這個分值沒有谷歌翻譯高(該系統所用的受監督的方法得分為40分),也不如人類翻譯得分高(超過50分),但卻比逐字翻譯要好得多。作者表示,兩套系統可以很容易地通過變為「半監督性」得到改善,即把數千個平行的語句加入到它們的訓練中。

除了不需要平行文本進行跨語言翻譯之外,Artetxe和Lample均表示,他們的系統有助於進行諸如英語和法語之間的常用翻譯匹配,特別是如果平行文本是同一類的話,如新聞報導。但除此之外,人們還希望將其翻譯為不同類型的文本,如街頭俚語或是醫學術語。「但這一切尚處於新生階段。」Artetxe的共同作者Eneko Agirre說,「我們剛剛開闢了一條新的研究大道,現在我們還不知道它會通向哪裡。」

北京中國微軟計算機學家、對上述兩項研究產生影響的Di He說:「在沒有人類監督的情況下,計算機能夠學習翻譯,這令人吃驚。」Artetxe說,他的方法和Lample的方法被上傳到arXiv預印本服務平臺的時間前後僅相隔1天,這樣的時間巧合令人吃驚。「同時,它意味著這種方法的確是正確的方向。」(馮麗妃編譯)

《中國科學報》 (2017-12-05 第3版 國際)

相關焦點

  • 11位知名翻譯家齊聚浙大:好翻譯要能傳達原作者的「調調」
    可是令馬愛農感到頭疼的是,在字典上根本查不到Stupefy的翻譯。「為了翻譯,就需要根據前後文反覆揣摩這個咒語應該達到怎樣的效果、周圍場景會發生怎樣的變化;作為咒語,又必須要朗朗上口,有特別的威懾力量。」馬愛農表示,好的翻譯應該是讓中國讀者無限接近原著讀者在閱讀時得到的故事和文學體驗。 「要重視傳達作者的『調調』。」
  • 人工智慧翻譯 OR 人工翻譯?
    當今,人工智慧已在能源、健康、機器人、商業情報、教育和金融等領域產生了深遠影響。隨著2018博鰲亞洲論壇,「騰訊同傳」事件引發的熱烈的討論,人工智慧翻譯(或機器翻譯)與人工翻譯未來發展的討論再一次出現在人們面前。其實早在上世紀30年代,就有了機器翻譯語言的想法和實踐。
  • 翻譯界的AlphaGo,魔腦人工智慧翻譯機真的是"狼"來了嗎?
    6月15日,前程無憂、拉勾網、牛人獵頭三家國內知名招聘網站同時PO出了兩份「牛人」簡歷。這兩份簡歷牛在什麼地方呢?兩人都是應聘外語口譯、國際導遊相關的崗位,其自我評價一欄寫著:「精通英、俄、日、法、韓、阿拉伯等28國語言,具有極其優秀的聽說能力。」
  • 人工智慧「自學」做翻譯—新聞—科學網
    人工智慧「自學」做翻譯在教一臺計算機如何在諸如英語和法語之間進行翻譯時,這種模式會非常有效,因為很多文獻在這兩種語言中同時存在。但它對於罕見的語言,或者是那些沒有很多平行文本的通用語言並不奏效。 這兩篇尚未經過同行評議的新文章均已被提交給明年的國際學習表徵會議,它們聚焦了另一種方法:不監督機器學習。一開始,計算機在沒有人類老師告訴它們其推測是否正確的情況下建設雙語詞典。
  • 人工智慧PK翻譯專家 搜狗英文搜索、翻譯APP亮相
    6月12日,搜狗搜索發起以「打破信息的邊界,和世界溝通」為主題的產品體驗季分享會,與中英同聲翻譯專家JonathanRechtman、「非主流翻譯家」谷大白話等共同探討人工智慧加持下,如何打破語言壁壘,與世界無界溝通。
  • 人工智慧翻譯逐步取代人工 那還用學英語?(雙語)
    使用人工智慧的機器翻譯已經取得很大進展,現在,它能提供一名大學生的一般英語水平。   How much might machines be able to achieve in the future?
  • 深度揭秘Google翻譯:人工智慧的覺醒
    知道最近難民危機問題發生,Pichai才出面解釋了Google翻譯在地理政治方面的重要性——在難民問題發生的那段時間裡,Google翻譯的阿拉伯語與德語互譯的使用率驟然上升了5倍。Google翻譯團隊一直以來都在不斷添加新語言和功能,但近4年來翻譯質量的改善速度卻明顯下降了。但如今有了人工智慧,一切都不一樣了。
  • 人工智慧翻譯大比拼 有道翻譯拔得頭籌
    在其中的人工智慧翻譯大賽中,谷歌翻譯、有道翻譯官、搜狗翻譯三款翻譯軟體同臺競技,實測翻譯效果。最終,有道翻譯官憑藉著突出的對話翻譯和拍照翻譯功能,以及幾乎無短板的優勢,在比賽中拔得頭籌。除了翻譯產品,現場還邀請了 3 位挑戰者一起來「折磨」翻譯軟體,挑戰人工智慧對人類的理解和忍耐極限。
  • 科技部將推動人工智慧五大方向研發—新聞—科學網
    科技部副部長李萌在大會致辭中指出,中國政府高度重視人工智慧創新發展,提出了人工智慧與實體經濟深度融合的發展思路。圍繞人工智慧基礎研究、關鍵核心技術研發、產業化應用、政策試點示範等,科技部加快新一代人工智慧規劃有關任務的落實,實施重大項目,深入推進大數據智能、跨媒體智能、群體智能、增強混合智能、自主智能系統等五大方向的研發。
  • 這是一條人工智慧翻譯的雙語新聞 | This i...
    本文原標題:《這是一條人工智慧翻譯的雙語新聞 | This is a bilingual news translated by AI》剛剛,過年吃不胖的小白用1小時寫好一篇千字新聞。超可愛的歡哥把文檔拖進一款翻譯軟體,1分鐘不到,稿子變成了一條中英雙語新聞。
  • 廣東醫檢人工智慧產業發展前景廣闊—新聞—科學網
    會上,為加快構建開放協同的創新平臺體系,推進廣東省新一代人工智慧發展新格局建設,廣東省科技廳正式發布了第三批「廣東省新一代人工智慧開放創新平臺」名單。其中,廣州金域醫學檢驗集團股份有限公司(以下簡稱金域醫學)建設的「臨床檢驗與病理診斷廣東省新一代人工智慧開放創新平臺」榜上有名。
  • 《全球人工智慧治理年度觀察2019》英文版發布—新聞—科學網
    上海市科學學研究所所長石謙介紹說,該報告是全球首份由全球業內頂級專家共同參與撰寫的人工智慧治理報告,也是首份由我國智庫發起、全球參與的人工智慧治理報告。   人工智慧治理作為一個新的全球性治理議題,已成為全球治理體系的重要組成部分。基於專家對2019年全球人工智慧治理總體形勢的判斷,報告認為,當前全球人工智慧治理體系正處於成型的關鍵時期,表現出全球化、安全化、市場化、建制化、操作化五大顯著特徵。
  • 人工智慧將來會取代人工翻譯嗎
    打開APP 人工智慧將來會取代人工翻譯嗎 人工智慧實驗室 發表於 2021-01-05 09:58:02   法國科學家蘇埃爾說
  • 對談|人工智慧來了,翻譯們會失業嗎?
    人工智慧的高速發展,是否會帶來譯者的「失業」?5月,由社會科學文獻出版社旗下圖書品牌「甲骨文」主辦,在杭州單向空間舉辦的第二屆譯想論壇「翻譯與我們的時代」上,科幻作家寶樹、資深媒體人劉剛、北京新譯科技人工智慧語言專家劉勁松展開對談,探討人工智慧將如何影響翻譯和未來社會。
  • 父母帶病養牛蛙 福建廈門同安貧家女孩立志當翻譯家
    父母帶病養牛蛙 福建廈門同安貧家女孩立志當翻譯家2014-07-27 10:21:00  水產養殖網  出處:廈門網        瀏覽量: 2044 次 我要評論 &nbsp&nbsp&nbsp&nbsp廈門網-廈門日報訊&nbsp文/記者&nbsp郭睿&nbsp通訊員&nbsp孫龍煒
  • 機器翻譯能解放生產力嗎?
    機器翻譯能否代替人工翻譯」這類的話題呢?在翻譯領域裡,基於自然語言「神經網絡模型」的機器翻譯的出現,終於讓大家看到了顛覆性的技術。從中,大家看到「神經網絡」的革命性和未來性,內心中對這項技術有了些憧憬和疑問,也就有了如此疑問。我們不講總的機器翻譯歷史和時間軸事件,僅從應用角度到來看,軟體翻譯可以有三個階段。
  • 摘要翻譯、論文寫作……人工智慧延伸科學交流觸角
    摘要翻譯、論文寫作……人工智慧延伸科學交流觸角 2019-08-26 20:30:05 來源:科技日報  |  作者:佚名| 字號:A+ | A- 摘要翻譯、論文寫作、信息檢索、抄襲檢測……人工智慧延伸科學交流觸角近日,一款看起來挺有文化的寫稿機器人上線了。
  • 科學家探討蛋白質翻譯後修飾對肉品質影響—新聞—科學網
    中國農科院肉品加工與品質調控創新團隊近十年來聚焦宰後早期能量代謝與蛋白質翻譯後修飾關聯調控肉品質的分子機制,取得系列重大突破,為解決上述問題提供了新思路和新途徑。 基於該團隊已有研究基礎,近日其對蛋白質翻譯後修飾影響肉品質的最新研究進展進行了系統梳理,綜述了蛋白質磷酸化、乙醯化、亞硝基化和泛素化等蛋白質翻譯後修飾對肉品質的影響,重點討論了蛋白質磷酸化對肉品嫩度、色澤、持水性的影響以及影響蛋白質磷酸化功能的機制和因素。相關成果發表於《食品科學與食品安全綜合評論》。
  • 人工智慧進入翻譯領域:讓計算機聽懂人類語言
    中文自有「特殊性」 信息處理「特別難」  1947年,美國數學家、工程師沃倫·韋弗提出了以計算機進行翻譯的設想,機器翻譯從此步入歷史舞臺。上世紀50年代,機器翻譯研究持續走俏,美、蘇等國家均出現了研究熱潮。  與此同時,機器翻譯的研究工作在中國也逐步展開。
  • 機翻領域競爭激烈 臉書AI翻譯主管加盟阿里達摩院
    機器翻譯領域裡的競爭愈發激烈,這一點從各大公司對人才的爭奪上就可以看出。  5月21日,阿里巴巴宣布,Facebook(臉書)應用機器學習部AI翻譯團隊主管黃非博士入職阿里巴巴達摩院。在達摩院機器智能技術實驗室,黃非和同事推動人工智慧(AI)翻譯在新零售、跨境電商、視頻等領域的實時翻譯應用。