史上第一次,AI能夠自學翻譯地球上的任何語言了

2020-12-05 雷鋒網

雷鋒網按:結合人工智慧神經網絡的機器翻譯近年來取得了巨大的進步,以谷歌翻譯為代表,足以讓印象還停留在「生硬死板、破綻百出」的人驚訝萬分。但是總體來說,也還是通過人類的已存翻譯文本來學習。

據fastcompany報導,最新出現的兩個機器翻譯系統完成了嶄新的突破——可以在無需人類翻譯文本的學習資料的情況下,自主學習翻譯地球上的任何語言。雷鋒網為您做如下編譯:

機器翻譯發展驚人,但是地球上還是有數以億計的人無法享受它的好處——因為他們的語言在翻譯器的下拉菜單中根本找不到。 現在,兩個新的人工智慧系統——一個來自西班牙的delPaísVasco大學(UPV),另一個來自卡內基梅隆大學(CMU)——承諾會改變這一切,為像《星際迷航》(Star Trek)中那樣的真正的宇宙通用譯者(universal translator)的到來打開大門。

要了解這些新系統的潛力,首先要了解當前的機器翻譯是如何工作的。 目前機器翻譯的事實標杆是谷歌翻譯,這個系統涵蓋了從南非語到祖魯語的103種語言,包括世界上前10種語言——順序為漢語,西班牙語,英語,印度語,孟加拉語,葡萄牙語,俄語,日語,德語, 和爪哇語。 Google的系統使用人類監督的神經網絡,比較平行文本——以前由人類翻譯過的書籍和文章。 通過比較這些平行文本中的大量數據,Google翻譯可以學習任意兩種指定語言之間的對等關係,從而獲得在它們之間快速轉換的能力。有時候翻譯結果會很有趣,可能並不能真正反映原文的意思,但總的來說,這些翻譯是功能性的,隨著時間的推移,他們會越來越好。

Google的做法很好,而且很有效。但不幸的是,它並不是全球通用。這是因為有監督的培訓需要很長的時間以及很多監督人員——因為太多了,谷歌使用了眾包——也因為並非世界所有語言之間都有足夠多的並行翻譯文本。想想看:根據世界語言民族學目錄,地球上有6,909種生活語言。其中414種的使用人數佔人類總數的94%。由於Google翻譯涵蓋了103個,因此會留下6,806種語言沒有機器翻譯——其中有311種語言的使用人數超過百萬。總的來說,至少有八億人不能享受機器自動翻譯的好處。

這兩個新的系統——可以在任何語言之間翻譯單詞和句子——無需通過比較大量由人類翻譯的平行文本來學習。他們也不需要監督。相反,他們使用未監督的機器學習,並比較不同語言的隨機文本。這是如何運作的?由於語言的詞語分類是相似的,所以系統猜測這些詞是否相等,用這些信息構建翻譯詞典。他們從中找出句子結構,通過在不同的語言之間來回翻譯來評估他們猜測的結果。

正如UPV的研究員Mikel Artetxe所描述的那樣:「想像一下,你給了一個人很多的中文書籍和阿拉伯語書籍——這些書都不重疊——然後這個人必須學會把中文翻譯成阿拉伯語。 這似乎是不可能的,對吧?「事實上,這看起來實在太不可能了,以至於微軟人工智慧專家Di He(這兩個研究項目的啟發者)告訴科學界,他得知」即使沒有人工監控,電腦也可以學習翻譯」的時候,整個人都震驚了。

一個警告就是,這個系統並不像目前的平行文本深度學習系統那麼精確——但是正如Di He指出的那樣,電腦能夠在沒有任何人類指導的情況下猜測所有這些事實,這一事實本身簡直不可思議。 我們只是接觸到了這種新的學習方法的表面。看起來,可能很快就有一個真正的通用翻譯,讓我們能夠與任何人用對方的母語交談了,這不再僅僅是科幻的東西。

雷鋒網編譯 via fastcompany

相關焦點

  • 古文字被AI破譯,MIT和谷歌開發失傳語言的機器翻譯系統
    第二,他假設這些刻字是古希臘語的早期形式——這讓他能夠立即翻譯出B類線形文字的其他部分。在翻譯過程中,文特裡斯表示,古希臘語的書面表達形式比之前預想的還要早幾個世紀。 文特裡斯的工作成果是一項巨大的成就。但像A類線形文字這樣的更為古老的文字系統,到今天為止仍然是語言學上一個亟需解決的難題。
  • 人工智慧「自學」做翻譯—新聞—科學網
    人工智慧「自學」做翻譯新系統可無需人類監督與平行文本實現多語種匹配
  • Google宣布推出AutoML Vision,自然語言,翻譯和聯絡中心AI
    2018年7月24日上午10:13上圖:谷歌的山景城總部。圖片來源:谷歌今天在舊金山舉行的谷歌Cloud Next會議上,山景城公司宣布,它將去年在Google I / O上宣布的機器學習平臺Cloud AutoML擴展到新的領域。
  • 三千年前的古文字被AI破譯,MIT和谷歌開發失傳語言的翻譯系統
    第二,他假設這些刻字是古希臘語的早期形式——這讓他能夠立即翻譯出B類線形文字的其他部分。在翻譯過程中,文特裡斯表示,古希臘語的書面表達形式比之前預想的還要早幾個世紀。文特裡斯的工作成果是一項巨大的成就。但像A類線形文字這樣的更為古老的文字系統,到今天為止仍然是語言學上一個亟需解決的難題。
  • 最強翻譯?Facebook AI可以直接翻譯100種語言
    近日,Facebook 宣稱已經開發出一種人工智慧翻譯系統,能夠在 100 種語言之間進行精確翻譯,而不需要像許多現有 AI 翻譯那樣先翻譯成英語在翻譯成目標語言。Facebook 的研究人員在網上收集了 100 種語言的 75 億對句子,然後對翻譯 AI 進行訓練。當然,並非所有語言的句子對數量都相同。Facebook 智能翻譯項目負責人安吉拉範 (Angela Fan) 說:「全球有很多地區使用兩種語言,而且其中並不包括英語。我真正感興趣的是,我們不需要再用英語作為『中間人』。」
  • Facebook 開源可直接翻譯上百種語言的 AI 模型
    DoNews 10月20日消息(記者 劉文軒)Facebook 近期宣布將首個不需透過英語、可直接翻譯兩種語言的 AI 模型 M2M-100 開源。Facebook 表示一般機器翻譯需要為每種語言及每種任務建立一種 AI 模型,由於英語訓練資料較充裕,因此形成以英語為中心的翻譯模式;碰到要翻譯非英語的兩種語言,例如中文和法文時,大部份機器翻譯採取法文翻成英文,再由英文翻成中文。Facebook 指出,這種需要以英文為中介的翻譯會導致原意流失或翻譯錯誤,並不適合臉書平臺上160多種語言貼文翻譯的需求。
  • 谷歌AI新進展:自然語言與翻譯加入AutoML
    近日,谷歌雲首席科學家李飛飛在GoogleCloud Next 18大會上公布了一系列最新的人工智慧產品進展。
  • 華為昨天售賣「動物語言翻譯圈」,去年已開始用AI技術拯救蜘蛛猴
    動物語言翻譯器就在昨天,「華為中國」在微博上發了一條消息:我,獸語十級,任何動物溝通不在話下。我研製出了「動物語言翻譯圈」,你想聽豬豬和鴨鴨說什麼嗎?華為雲EI產品經理朱威在視頻裡說:華為雲推出新一代人工智慧硬體設備——動物語言翻譯圈,只要把這款神奇的項圈戴在動物的脖子上,就能把動物說的話,翻譯成語言,用人聲表達出來,也可以顯示在手機APP上。然後朱威用一頭小豬來做實驗,那隻豬聽了音樂後,竟然說:「我要聽陳偉霆唱的。」
  • 無需依賴英語中介,Facebook 發布可翻譯 100 種語言的 AI 模型
    不管你在世界的哪個地方,美國、巴西、法國或者亞洲的婆羅洲島,藉助機器翻譯,谷歌和 Facebook 這類軟體都可以把平臺上的幾乎任何文字內容都翻譯成當地語言。  不過你可能不知道的是,多數翻譯系統都是將英語作為中間語言進行的翻譯工作。也就是說,在把中文翻譯成法語時其實是中文到英語再到法語的。  這麼做的原因是因為英語翻譯的數據集(包括譯入和譯出)非常多而且容易獲得。但是,用英語作為中介語總體上降低了翻譯的準確性,同時讓整個流程更加複雜臃腫。
  • 微軟AI 翻譯重大突破:近人類語言中譯英
    微軟研究團隊發布消息,他們已經研發出首個可將中文翻譯成英文的人工智慧翻譯系統,該系統完成的中譯英文章與語句,具有與人類自然語言相一致的準確性和協調性。
  • 發現特洛伊城的考古學家,2年自學18種語言,只為配上心儀的姑娘
    此外,我渴望證明自己配得上米娜也是我學習的一個動力,這個因素促使我在學習上百折不撓、勇往直前。"海因裡希·謝裡曼(Heinrich Schilemann),1822年生於德國北部的梅克倫堡,1890年卒於義大利的那不勒斯,是位考古學家,發掘了特洛伊城址等。他也是位語言天才,早年做學徒謀生,酷愛讀書,經過自學,2年內掌握了18種語言。
  • 漫畫翻譯、嵌字 AI,東京大學論文被 AAAI』21 收錄
    /hyper.ai/datasets/14137在產品化方面,Mantra 計劃上線封裝好的自動翻譯引擎,不僅面向出版社提供漫畫的自動化翻譯與發行服務,也會發布面向個人用戶的服務。下面是我們從 Mantra 官方推特上選取的日漫《周邊男子》的部分翻譯成果,這部多格、輕耽美風格的漫畫,以生活常用的數碼設備擬人化為背景,充滿歡樂與基情:滑動查看《周邊男子》日文原版及自動化機器翻譯的中英文版本識別、翻譯、嵌字,一步也不能少具體的實現步驟,Mantra 研究團隊在論文
  • 一殘疾人靠自學翻譯出長篇英語小說 被稱合肥版阿甘
    【摘要】 他是小個子的殘疾 ,他沒有上過大學,卻通過自學,認識數萬英語單詞,在國際權威英文期刊上發表過翻譯作品。
  • Facebook 100種語言互譯模型原始碼公開!機器翻譯再也不用英語當...
    在訓練2200種語言對後,該單一多語言模型不僅與傳統的雙語模型性能相當,同時也比以英語為中心的多語模型在機器翻譯評價指標BLEU上提高了10%。傳統機器翻譯算法通過為每種語言和每項任務構建單獨的AI模型能夠同時處理多語翻譯,但由於依賴英語數據作為源語言和目標語言之間的中介,在語義準確性上可能有所折損。
  • 夏登山、邵有學:中國翻譯史上的「李約瑟之謎」
    許多學者對翻譯史上是否有系統的翻譯理論持謹慎的懷疑態度,一些研究者在翻譯史研究中使用「譯論」、「翻譯話語」等術語指代「翻譯理論」避免爭議(如蔣童 1999;張柏然 2008;張佩瑤 2010等);有的則直接指出,我國古代翻譯史上沒有系統的理論研究(朱志瑜、朱曉農 2006;朱瑜 2008),最多只有「點評式和隨感式的經驗之談」,「不能成為真正意義上的理論形態」(王東風 1999: 7),更無法形成翻譯研究流派
  • 微軟提出新型通用神經機器翻譯方法,挑戰低資源語言翻譯問題
    對任何語言對而言,獲取數百萬平行句子的數據都是相當困難的。而為任何語言尋找單語數據都會容易一些。微軟使用半監督通用神經機器翻譯的方法解決了平行數據不足的挑戰,對於極低資源的語言而言,這種方法僅僅需要數千個平行語句就可以實現高質量的機器翻譯系統。
  • 「翻譯」與「救贖」:劉宇昆的語言科幻
    作為科技的語言在進入對劉宇昆作品的具體分析之前,首先需要弄清主流語言科幻的意識形態結構,作為一個例子我選擇了近年在語言科幻這個領域上獲得了很高評價的特德姜,他的作品《你一生的故事》被改編成了電影《降臨》,給很多第一次接觸語言科幻的人帶來了很大的衝擊。
  • 翻譯界的AlphaGo, AI翻譯機真是「狼」來了麼?
    兩人都是應聘外語口譯、國際導遊相關的崗位,其自我評價一欄寫著:「精通英、俄、日、法、韓、阿拉伯等28國語言,具有極其優秀的聽說能力。」一般來說,精通3門語言以上就可以稱為精通多國語言的人了,而這兩位「求職者」精通28國語言,這是一件很恐怖的事。但也有網友質疑,確定這是人類的簡歷麼?這位網友你猜對了,因為從簡歷上來看,這的確不是人類簡歷。
  • 計算機很快或能翻譯更多語言
    來源:科學網 得益於神經網絡——從人腦獲得靈感的計算機算式——的發展,自動化的語言翻譯已經存在了相當長一段時間。但訓練這些網絡需要海量數據:數以千萬計的逐句翻譯,以展示人類如何做這項工作。現在,兩篇新論文表明神經網絡可以在無需平行文本的情況下學習翻譯——這一令人震驚的進展或讓人們獲得許多不同語言的文獻記錄。
  • 人類想聽懂動物的語言,AI能幫上忙麼?
    可是絕大部分人都無法像上文提及的主人那般幸運,能夠傾聽到狗狗的心聲,在這名「親人」辭世時也只能抱憾相送。無數人曾設想過,是否有可能出現一種翻譯工具,讓寵物的語言能夠被人類聽懂、理解呢?這位北亞利桑那大學的生物教授花了30年研究草原土撥鼠的行為,他用AI軟體記錄並分析草原土撥鼠的叫聲,將其翻譯成英語。他還發現這些草原上的小傢伙們「具有語言所有方面的複雜通信系統」。而目前,他正試圖籌集資金來開發貓和狗的語音翻譯設備。在這條未知明暗的道路上探索的顯然不止他一人。