人工智慧「自學」做翻譯—新聞—科學網

2021-01-21 科學網
人工智慧「自學」做翻譯 新系統可無需人類監督與平行文本實現多語種匹配

計算機很快或能翻譯更多語言。 圖片來源:iStock.com/Lightcome

得益於神經網絡——從人腦獲得靈感的計算機算式——的發展,自動化的語言翻譯已經存在了相當長一段時間。但訓練這些網絡需要海量數據:數以千萬計的逐句翻譯,以展示人類如何做這項工作。現在,兩篇新論文表明神經網絡可以在無需平行文本的情況下學習翻譯——這一令人震驚的進展或讓人們獲得許多不同語言的文獻記錄。

「想像一下,你給一個人很多中文書籍和阿拉伯書籍,而且它們沒有任何重疊性,然後一個人需要學習將其從中文翻譯為阿拉伯語。這聽起來似乎不可能,對吧?」其中一項研究的第一作者、西班牙聖西巴提巴斯克國家大學(UPV)計算機專家Mikel Artetxe說,「但我們證明計算機可以做到這一點。」

大多數機器學習——神經網絡和其他從經驗中學習的計算機算式會受到「監督」。計算機會進行推測,然後接收到正確答案,並據此調整相應的過程。在教一臺計算機如何在諸如英語和法語之間進行翻譯時,這種模式會非常有效,因為很多文獻在這兩種語言中同時存在。但它對於罕見的語言,或者是那些沒有很多平行文本的通用語言並不奏效。

這兩篇尚未經過同行評議的新文章均已被提交給明年的國際學習表徵會議,它們聚焦了另一種方法:不監督機器學習。一開始,計算機在沒有人類老師告訴它們其推測是否正確的情況下建設雙語詞典。這是因為語言在詞彙結合方面有著很強的相似性。例如,在各種語言中,桌子和椅子的詞彙經常會一起使用。因此,如果計算機將這些共現性像一個城市巨大的公路地圖那樣描繪出來,那麼不同語言的地圖就會彼此相似,只不過它們擁有不同的名字。如此一來,計算機就能找出將一個地圖集覆蓋在另一個地圖集上的最佳方法。瞧!一本雙語詞典出現了。

這兩篇文章運用了非常類似的方法,均能在語句層面進行翻譯。它們均使用兩種訓練策略,即回譯和去噪。在回譯中,一種語言中的一句話被粗略地翻譯成另一種語言,然後再被轉譯回最初的語言。如果回譯的語句與最初語句並不相同,那麼將對神經網絡進行調整,從而使它們在下一次翻譯得更加準確。去噪類似於回譯,但它不是從一種語言翻譯為另一種語言,然後再轉換為原語言,而是在一個句子中加入噪音(重新編排或是刪除詞彙),並嘗試將其翻譯到原語言中去。這兩種方法相結合教會了網絡更深層次的語言結構。

不過,這兩種技術之間也有些微差異。UPV的系統在訓練過程中進行了更多的回譯。而另一個由位於法國巴黎的臉譜網計算機科學家與其合作者研發的系統,則在翻譯過程中加入了額外的步驟。在將其「解碼」為另一種語言之前,兩套系統都會將一種語言的一個句子編碼為一種更加抽象的表徵,但臉譜網的系統驗證了中間的「語言」是真正抽象的。Artetxe和Artetxe均表示,他們可以通過應用對方論文中的技術來改善自己的結果。

在兩篇文章之間進行的唯一直接對比結果中——對摘自同一組約3000萬個語句在英語和法語文本之間進行翻譯,兩套系統在雙向翻譯中均獲得了15分的雙語評估分數(用來衡量翻譯準確性)。這個分值沒有谷歌翻譯高(該系統所用的受監督的方法得分為40分),也不如人類翻譯得分高(超過50分),但卻比逐字翻譯要好得多。作者表示,兩套系統可以很容易地通過變為「半監督性」得到改善,即把數千個平行的語句加入到它們的訓練中。

除了不需要平行文本進行跨語言翻譯之外,Artetxe和Lample均表示,他們的系統有助於進行諸如英語和法語之間的常用翻譯匹配,特別是如果平行文本是同一類的話,如新聞報導。但除此之外,人們還希望將其翻譯為不同類型的文本,如街頭俚語或是醫學術語。「但這一切尚處於新生階段。」Artetxe的共同作者Eneko Agirre說,「我們剛剛開始了一個新的研究大道,現在我們還不知道它會通向哪裡。」

中國北京計算機學家、其工作對上述兩項研究產生影響的Di He說:「在沒有人類監督的情況下,計算機能夠學習翻譯,這令人吃驚。」Artetxe說,他的方法和Lample的方法被上傳到arXiv預印本服務平臺的時間前後僅相隔1天,這樣的時間巧合令人吃驚。「同時,它意味著這種方法的確是正確的方向。」(馮麗妃編譯)

更多閱讀

《科學》相關報導(英文)

相關焦點

  • 科技部將推動人工智慧五大方向研發—新聞—科學網
    科技部副部長李萌在大會致辭中指出,中國政府高度重視人工智慧創新發展,提出了人工智慧與實體經濟深度融合的發展思路。圍繞人工智慧基礎研究、關鍵核心技術研發、產業化應用、政策試點示範等,科技部加快新一代人工智慧規劃有關任務的落實,實施重大項目,深入推進大數據智能、跨媒體智能、群體智能、增強混合智能、自主智能系統等五大方向的研發。
  • 廣東醫檢人工智慧產業發展前景廣闊—新聞—科學網
    會上,為加快構建開放協同的創新平臺體系,推進廣東省新一代人工智慧發展新格局建設,廣東省科技廳正式發布了第三批「廣東省新一代人工智慧開放創新平臺」名單。其中,廣州金域醫學檢驗集團股份有限公司(以下簡稱金域醫學)建設的「臨床檢驗與病理診斷廣東省新一代人工智慧開放創新平臺」榜上有名。
  • 《全球人工智慧治理年度觀察2019》英文版發布—新聞—科學網
    上海市科學學研究所所長石謙介紹說,該報告是全球首份由全球業內頂級專家共同參與撰寫的人工智慧治理報告,也是首份由我國智庫發起、全球參與的人工智慧治理報告。   人工智慧治理作為一個新的全球性治理議題,已成為全球治理體系的重要組成部分。基於專家對2019年全球人工智慧治理總體形勢的判斷,報告認為,當前全球人工智慧治理體系正處於成型的關鍵時期,表現出全球化、安全化、市場化、建制化、操作化五大顯著特徵。
  • 這是一條人工智慧翻譯的雙語新聞 | This i...
    本文原標題:《這是一條人工智慧翻譯的雙語新聞 | This is a bilingual news translated by AI》剛剛,過年吃不胖的小白用1小時寫好一篇千字新聞。超可愛的歡哥把文檔拖進一款翻譯軟體,1分鐘不到,稿子變成了一條中英雙語新聞。
  • 科學網—人工智慧:拋開字典的「翻譯家」
    人工智慧:拋開字典的「翻譯家」在教一臺計算機如何在諸如英語和法語之間進行翻譯時,這種模式會非常有效,因為很多文獻在這兩種語言中同時存在。但它對於罕見的語言,或者是那些沒有很多平行文本的通用語言並不奏效。 這兩篇尚未經過同行評議的新文章均已被提交給明年的國際學習代表會議,它們聚焦了另一種方法:無監督機器學習。一開始,計算機在沒有人類老師告訴它們其推測是否正確的情況下建設雙語詞典。
  • 科學家探討蛋白質翻譯後修飾對肉品質影響—新聞—科學網
    中國農科院肉品加工與品質調控創新團隊近十年來聚焦宰後早期能量代謝與蛋白質翻譯後修飾關聯調控肉品質的分子機制,取得系列重大突破,為解決上述問題提供了新思路和新途徑。 基於該團隊已有研究基礎,近日其對蛋白質翻譯後修飾影響肉品質的最新研究進展進行了系統梳理,綜述了蛋白質磷酸化、乙醯化、亞硝基化和泛素化等蛋白質翻譯後修飾對肉品質的影響,重點討論了蛋白質磷酸化對肉品嫩度、色澤、持水性的影響以及影響蛋白質磷酸化功能的機制和因素。相關成果發表於《食品科學與食品安全綜合評論》。
  • 人工智慧翻譯 OR 人工翻譯?
    當今,人工智慧已在能源、健康、機器人、商業情報、教育和金融等領域產生了深遠影響。隨著2018博鰲亞洲論壇,「騰訊同傳」事件引發的熱烈的討論,人工智慧翻譯(或機器翻譯)與人工翻譯未來發展的討論再一次出現在人們面前。其實早在上世紀30年代,就有了機器翻譯語言的想法和實踐。
  • 女子靠拾荒維持生計 自學英語翻譯長篇小說
    未來網(中央新聞網站)北京10月18日電山東青島市長島村有一名拾荒女子名叫袁英慧,靠著撿拾破爛,她每個月大概能掙兩百到三百元錢,基本可以維持生計。但在拾荒之餘,袁英慧把所有時間都花在了學習英語上,她還獨立翻譯過一本長篇小說及多篇短文,但是無處發表。
  • 人工智慧翻譯大比拼 有道翻譯拔得頭籌
    在其中的人工智慧翻譯大賽中,谷歌翻譯、有道翻譯官、搜狗翻譯三款翻譯軟體同臺競技,實測翻譯效果。最終,有道翻譯官憑藉著突出的對話翻譯和拍照翻譯功能,以及幾乎無短板的優勢,在比賽中拔得頭籌。除了翻譯產品,現場還邀請了 3 位挑戰者一起來「折磨」翻譯軟體,挑戰人工智慧對人類的理解和忍耐極限。
  • 人工智慧再下一城:機器翻譯提前7年達到人類專業翻譯水平
    由微軟亞洲研究院與雷德蒙研究院的研究人員組成的團隊今天宣布,其研發的機器翻譯系統在通用新聞報導的中譯英測試集上,達到了人類專業譯者水平。這是首個在新聞報導的翻譯質量和準確率上媲美人類專業譯者的翻譯系統。
  • 摘要翻譯、論文寫作……人工智慧延伸科學交流觸角
    小柯寫的不是普通的稿子,而是中文科學新聞。據介紹,運用自然語言處理技術,小柯以英文論文摘要為基礎,能夠快速寫出中文科學新聞底稿,然後由專業人士和報社的編輯進行把關和信息完善,幫助科學家以中文方式快速獲取全球高水平英文論文中的最新科研進展。目前小柯的作品已經上線。人工智慧的觸角,也在伸向各個領域。
  • 多名科學家寄語中國科學報和科學網—新聞—科學網
    ◆薛宇(華中科技大學生命科學與技術學院教授) 科學網的風格是鼓勵自由探討學術相關問題,從不加幹涉,這個在國內僅此一家別無分號。熱愛科研,肯發聲、肯交流,大家都努力做科研,都努力推動中國科學的發展。科學網是我的最愛,只要還辦下去,我不在別的地方寫博文。
  • 一名漸凍人的「破冰」人生:自學日語翻譯百萬字,熱心公益
    因為一本小說,他自學3年考取日語一級,至今靠一臺電腦,一套語音輸入軟體,翻譯了上百萬字的日文書。他還熱心公益,贊助在西藏建校舍,捐助「淋巴瘤」的少年。「我是從地獄裡爬出來的,別人是從天上掉下來的,不該有什麼埋怨,現在能做的就是如何讓自己活得更好。」馮錦源告訴澎湃新聞(www.thepaper.cn)記者,小時候他就認定自己的人生與眾不同。
  • 青島拾荒大姐走紅 自學英語能翻譯原版英文小說
    為英語離家出走,堅持自學20多年,能翻譯原版英文小說,青島拾荒大姐網絡走紅拾荒大姐:學英語不後悔 想過正常生活自學材料裡隨處可見袁英慧做的筆記。袁英慧:當時天天聽錄音機,聽新聞,比方性醜聞、伊莉莎白女王聖誕祝詞等,每天聽2-3個小時,上下午各聽一次,然後不懂的單詞一個一個在字典裡查。新京報:都是這樣聽的嗎?有沒有開口說?袁英慧:有,除了自學,自己還跑去附近學校的英語角跟人交流。
  • 摘要翻譯、論文寫作、信息檢索、抄襲檢測……人工智慧延伸科學...
    小柯寫的不是普通的稿子,而是中文科學新聞。據介紹,運用自然語言處理技術,小柯以英文論文摘要為基礎,能夠快速寫出中文科學新聞底稿,然後由專業人士和報社的編輯進行把關和信息完善,幫助科學家以中文方式快速獲取全球高水平英文論文中的最新科研進展。  目前小柯的作品已經上線。人工智慧的觸角,也在伸向各個領域。
  • 44歲「拾荒大姐」走紅 自學英語能翻譯原版英文小說
    為英語離家出走,堅持自學20多年,能翻譯原版英文小說,青島拾荒大姐網絡走紅拾荒大姐:學英語不後悔想過正常生活自學材料裡隨處可見袁英慧做的筆記。袁英慧:當時天天聽錄音機,聽新聞,比方性醜聞、伊莉莎白女王聖誕祝詞等,每天聽2-3個小時,上下午各聽一次,然後不懂的單詞一個一個在字典裡查。新京報:都是這樣聽的嗎?有沒有開口說?袁英慧:有,除了自學,自己還跑去附近學校的英語角跟人交流。
  • 新聞翻譯公司:做新聞標題翻譯時,這4個翻譯技巧不可不知
    隨著國際交流越來越頻繁,國際新聞的關注度也越來越多,在國際新聞報導中,新聞翻譯的重要性凸顯出來,然而在新聞報導翻譯中,新聞標題的翻譯是整篇報導翻譯的要點,為了儘量吸引讀者,在撰寫標題時會運用各種修辭手段,力爭標題更具有吸引力,這樣一來也就為新聞翻譯帶來不小的難度。今天新聞翻譯公司就給大家簡單介紹幾個翻譯新聞標題的技巧。
  • 人工智慧翻譯不智障,還需技術精進
    人工智慧翻譯不智障,還需技術精進 2020-12-01 11:11 來源:澎湃新聞·澎湃號·湃客
  • 深度揭秘Google翻譯:人工智慧的覺醒
    知道最近難民危機問題發生,Pichai才出面解釋了Google翻譯在地理政治方面的重要性——在難民問題發生的那段時間裡,Google翻譯的阿拉伯語與德語互譯的使用率驟然上升了5倍。Google翻譯團隊一直以來都在不斷添加新語言和功能,但近4年來翻譯質量的改善速度卻明顯下降了。但如今有了人工智慧,一切都不一樣了。
  • 人工智慧PK翻譯專家 搜狗英文搜索、翻譯APP亮相
    6月12日,搜狗搜索發起以「打破信息的邊界,和世界溝通」為主題的產品體驗季分享會,與中英同聲翻譯專家JonathanRechtman、「非主流翻譯家」谷大白話等共同探討人工智慧加持下,如何打破語言壁壘,與世界無界溝通。