小狗Puppy都是狗!DeepMind大招,以視覺為媒介,做無監督機器翻譯...

2021-01-15 雷鋒網

作者 | 蔣寶尚


當兩個語言不通的人進行交流時候,手勢和眼神自然就成了溝通神器。有時候,手勢和眼神在表達意思的時候能勝過千言萬語。

能不能將這種類似的優勢用在機器翻譯?

近日,來自DeepMind、牛津大學以及卡內基梅隆的研究者合力發表了論文《Visual Grounding in Video for Unsupervised Word Translation》,提出用視覺基礎改善無監督的單詞映射。

(雷鋒網)此篇論文也被收錄到CVPR 2020。論文下載地址:https://arxiv.org/pdf/2003.05078.pdf

論文的基本思想是:地球上的人類可能說著數千種不同的語言,但用「眼」看到的世界確是只有一個,有了這個視覺基礎,就可以彌合語言之間的差距。


總體思路:利用教學視頻獲取共享視覺

作者在論文用的方法也很簡單,模型通過「觀看」視頻,能夠在兩種語言之間建立共同的視覺表徵,即在給定共享嵌入情況下構建視覺-文本混合映射算法。

(雷鋒網)雖多種語言,描述的是同一種事物


舉個簡單的例子,兒童在學習語言的時候,更多的是觀察環境並與周圍的人互動,在這過程中,並不需要任何明確的指導和監督。他們在學習多門語言的時候,可以利用不同情況下的相似情境:他在周一聽到「狗在吃東西」時候看到景象,與周五聽到「le chien mange」句子時候看到的景象是類似的。

作者們在構建無監督翻譯系統的時候,就借鑑了上述思路:向系統提供不同國家人做事情的視頻,同時用他們本國語言解釋他們在做什麼。選用內容大致相似的教學視頻,比如雖然是不同語種,但是都是在教人如何榨橙汁的教學類視頻。

教學視頻在YouTube上大量存在,並且內容相似度非常高,所以作者使用了教學視頻作為訓練數據。
雖然使用自動語言識別技術能夠得到了很多視頻和相應的字幕,但收集的數據有很多瑕疵:首先對教學視頻中的內容進行聚類並不容易,其次有時候教學視頻中的「講師」說著與主題無關的廢話。



雖然有挑戰,但是這種共享視覺促進了翻譯的精準度。如上圖所示,作者在論文提出的英法翻譯。據說,通過看視頻,在翻譯常用詞和視覺詞時能達到28.0%和45.3%的正確率,對比基於檢索翻譯方法正確率12.5%和18.6%高了不少。

模型架構:多語言無監督學習


(雷鋒網(公眾號:雷鋒網))

如上圖所示,整個模型包括3個編碼器,一個是針對語言X的,一個是針對Y的,一個是針對視頻Z的。這三個編碼器組成的模型,經過訓練之後,其目標是能夠視頻Z建立X語言與Y語言的映射。

語言X編碼器由3部分組成:1、詞嵌入層;2、簡單的位置的全連接前饋網絡層(a position-wise fully connected feed-forward layer);3、一個線性層。其中詞嵌入層的作用是將序列轉換成維度向量;全連接前饋網絡層作用是現在單詞上進行最大池化,然後生成序列維度向量;線性層的作用是建立聯合嵌入空間與中間表示(Intermediate Representation)的映射。

對於語言Y的編碼器,作者使用了跨語言共享模型權重,即語言X和語言Y編碼器之間共享前饋層和最後一個線性層的權重。為了將不同的語言輸入到共享層,作者在語言Y中的單詞嵌入層之後添加一個名為AdaptLayer的線性層。

AdaptLayer的作用是改變語言Y的單詞嵌入空間,使語言Y中的單詞嵌入儘可能地與語言X中的單詞嵌入相似。

關於視頻編碼器,作者使用了標準I3D模型,再加上一個將輸出映射到聯合嵌入空間中的線性層。
編者註:I3D模型可以理解為基於2D卷積網絡的增強版,全稱是Two-Stream Inflated 3D ConvNet,其論文被2017年CVPR收錄。

f、g、h分別對應語言X、Y以及視頻Z的嵌入函數,L定義為損失函數。


整個模型的優化目標如上公式所示,據作者介紹,通過定義上面公式,能夠將訓練策略擴展到多語言情況。


上述公式L(f,h)定義如下:

NCE定義如下:


通過最小化上述聯合損失函數訓練模型能夠建立兩種語言的映射關係,即對於給定的x∈X,能夠找到y∈Y。

實驗:「我」的模型更加穩健

在實驗部分,對比當前能夠達到SOTA的基於文本的翻譯模型,作者發現他們的模型在翻譯方面更加優秀。

在實驗過程中,作者對視頻的轉錄本進行了token化,把每種語言的65536個最常用的單詞彙聚到了一個詞彙庫。經過預處理,作者使用了word2vec訓練單語單詞嵌入,並在MUVE(作者文章中提出的算法)、MUSE和VecMap模型中使用這些預訓練的嵌入。

在訓練時,作者從給定的數據集中抽取一個視頻片段及其相應的旁白。每個訓練批包括來自任一語種語言的片段,而NCE損失中的每個元素的負值是來自該批中的其他相同語言的元素。

另外,對於視頻編碼器,作者在Kinetics-400數據集上預訓練的I3D模型進行微調,對於語言模型作者在相應的HowToW-Text數據集上預訓練了單詞嵌入層。

作者使用了Adam優化器,初始學習率設置為10^-3,批處理量為128,並在2個Cloud TPU上訓練模型200k次迭代。

在研究能否提高單詞翻譯質量方面,作者將自己的模型另外兩個基線進行比較。第一個基線(Random Chance)採用的是在不使用視頻的情況下檢索出的翻譯,第二個基採用了視頻檢索(Video Retrieval),使用視頻創建兩種語言之間的並行語料庫。

如上圖在英語到法語翻譯上,作者的模型在這兩個基準上的表現明顯優於基準線。另外,MUVE(第4行)比單獨的基礎模型(第3行)有了顯著的改進(在字典和簡單詞基準上分別有+19.8%和+30.3%的絕對改進)

那麼,模型能在多大程度上改進基於文本的單詞翻譯方法?作者實驗了三種無監督方法和一種有監督方法,所有的方法都使用了在HowToW-Text上訓練的單詞嵌入方法。

如上,作者在對比英語和法語、韓語和日語之間的翻譯結果之後,作者的MUVE方法最優,英韓和英日之間的翻譯比基於文本的方法有著非常大的改進。

但這也表明了單純的基於文本的方法更適合「長相」類似的語言,如英語和法語。

無監督單詞翻譯的穩健性如何?如上圖所示,作者展示了MUVE、MUSE[10]、VecMap[4]在英法字典數據集中Recall@10的表現,並用JS距離( jensen-shannon,上表中用~表示)測量異同度。

結果顯示,噹噹語料庫相似時(例如Wiki-En和Wiki-FR),所有的方法都表現良好。當語料庫不相似的時候,MUVE明顯優於其他方法,也更加穩健。

當訓練數據量不同的時候,模型表現如何呢?上圖展示了用原數據集體量的100%、10%、1%數據訓練的結果,用 Recall@10衡量時,顯然作者的方法在低資源(訓練語料不足)情況下表現更好。


另外,當詞彙量變化的時候,如上圖所示,只有MUSE方法的性能沒有下降。其他基於文本的方法都依賴於詞彙量大小。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 《The Lost Puppy》走失的小狗
    ,大家都在幫忙尋找,最後結果如何呢?· 正· 文· 來· 啦· Mrs May had a puppy.It 梅女士有一隻小狗名叫Sniff。
  • 從星際2深度學習環境到神經機器翻譯,上手機器學習這些開源項目必...
    算法:如何處理和分析數據機器學習算法可利用數據執行特定的任務,最常見的機器學習算法有如下幾種:1.監督學習。監督學習使用以及標註過的和結構化的數據,通過制定一組輸入數據集合所需的輸出,機器可以學習如何識別目標並且映射到其他的學習任務上。
  • 商業合作從動機到目的其實都是學術道德問題
    deepfake帶來了全球對深度學習,人工智慧技術的迫切需求,一方面也帶來了一些輿論熱點問題。例如:該問題有一個美國、中國等國家的英文譯名的中文譯名會被翻譯成「逆後臺」,然後做了標註、有了數據不等於要一點屁股都不用坐好,畢竟他們的立場很重要。
  • 從AlphaGo到蛋白質摺疊,Deepmind在不斷捅破AI領域的天花板!
    Deepmind最初由三名科學家聯合創辦,就像其創始人兼CEO哈薩比斯(Demis Hassabis)所說的,它的性質更像一個科技研究院而不是創業公司,因為公司一開始並沒有任何產品,而是一直在通過遊戲來研究人工智慧算法。在被谷歌收購前,Deepmind通過人工智慧的無監督學習算法打爆了57個atari遊戲,即八九十年代國內也很流行的小霸王卡帶遊戲。
  • 電影《狗的秘密生活》Part1-中英文對照臺詞劇本
    每一秒 都有幼犬誕生在這個世界上A puppy is born every second somewhere in the world.不久前 這群幼崽多了個妹妹And just moments ago, this litter was joined by a sister.我們的小狗Our puppy.
  • DeepMind爆出無監督表示學習模型BigBiGAN,GAN之父點讚!
    研究人員廣泛評估了BigBiGAN模型的表示學習和生成性能,證明這些基於生成的模型在ImageNet上的無監督表示學習和無條件圖像生成方面都達到了state of the art的水平。這篇論文在Twitter上引發很大反響。GAN發明人Ian Goodfellow說:「很有趣,又回到了表示學習。
  • DeepMind最新發現!神經網絡的性能竟然優於神經符號模型
    不需要預先訓練,完全無監督,居然這麼神奇?按照之前的常識,結合了算法和符號推理技術的神經符號模型(Neurosymbolic Models),會比神經網絡更適合於預測和解釋任務,此外,神經符號模型在反事實方面表現更好。 而Neural-Symbolic,本質上其實是將現代數學中的分析學和代數學結合的產物。
  • 甄選人工智慧棟梁 小狗機器人2019校招首站走進北航
    9月17日,小狗機器人「走進AI 觸摸成長——2019全球校園招聘活動」首站,在有著「航天搖籃」之稱的北京航天航空大學正式啟動,拉開了小狗機器人全國六大高校招攬未來技術人才的序幕,也為2019年畢業的青年學子投身人工智慧提供了極具機遇和挑戰的全新平臺。
  • 關於寵物小狗的6大可愛事實,中英文閱讀
    However, unlike humans, a newborn puppy can’t hear, see or smell, either. When a puppy is first born, it only responds to warmth and touch.
  • 小狗機器人將啟動校招計劃 六大高校在列
    近日小狗機器人宣布,將在9月同時面向北京和廣州的六所高校,啟動「2018校園招聘計劃」,立足人工智慧時代,提前做好技術人才儲備,確保機器人、AIoT、智能視覺等業務和產品研發先行,始終保持在行業前列。此次校園招聘主題為「走進AI,觸摸成長」,小狗機器人技術和招聘團隊將來到北京理工大學、北京航空航天大學、北京郵電大學、中科院、華南理工大學、中山大學六所高校,從在校大學生當中選拔及培養專業技術人才,共同推動puppy和Hachi品牌高速成長,不斷推出人工智慧新品,為「家庭、社區、辦公、酒店、商業」五大智慧空間的場景應用全方位惠及更多消費人群而持續努力。
  • 不只是AlphaGo,谷歌DeepMind到底是何方神聖?
    圖源:unsplash 人工智慧技術飛速發展,越來越多曾被認為只有人類才能完成的任務,AI都做出了出色表現,例如執行管理任務,識別面孔,下棋,甚至翻譯語言。我們無法否認AI時代的到來帶來了許多有益的發展。
  • 「燒錢機器」DeepMind持續多年虧損後,仍無商業...
    其公司CEO兼聯合創始人創始人德米斯哈薩比斯(Demis Hassabis)曾公自傲的宣稱:「DeepMind組建了一支由機器學習專家,神經科學家,工程師,倫理學家等組成的世界級跨學科團隊,創造了一個獨特的環境。我們將繼續投資前沿技術研發,期待未來能為科學界帶來更多突破。需要說明的是,科學研究和企業界發展速度存在很大差距。
  • 『燒錢機器』DeepMind持續多年虧損後,仍無商業...
    4.77億巨額虧損背後,仍無商業化市場先來看下DeepMind近幾年的財務數據:在營收方面:其公司CEO兼聯合創始人創始人德米斯•哈薩比斯(Demis Hassabis)曾公自傲的宣稱:「DeepMind組建了一支由機器學習專家,神經科學家,工程師,倫理學家等組成的世界級跨學科團隊,創造了一個獨特的環境。我們將繼續投資前沿技術研發,期待未來能為科學界帶來更多突破。
  • 河南河濱公園動物園用活狗餵蟒蛇 引發眾怒
    A ZOO IN CHINA WILL STOP FEEDING LIVE PUPPIES TO SNAKES AFTER FOOTAGE BRINGS OUTRAGE河南河濱公園動物園用活狗餵蟒蛇畫面顯示一條被關在房子裡的蟒蛇旁邊有一隻鮮活的小狗,另一張照片顯示,一條身形鼓脹的黃色巨蟒盤繞在小狗的周圍,顯然是要吞食它。
  • BAT、谷歌、Facebook都在搞的神經機器翻譯,真的就地表最強了嗎?
    這期間發生的大事,是以神經網絡作為基礎的機器翻譯,開始在全面超越此前以統計模型為基礎的統計機器翻譯,並快速成為在線翻譯系統的主流標配。在這場革命之後,機器翻譯徹底進入了Neural Machine Translation,即NWT神經機器翻譯時代。很多人為此歡欣鼓舞。
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    鄭集楊 發自 凹非寺量子位 報導 | 公眾號 QbitAI一早醒來,發現搞蛋白質結構研究的朋友都在紛紛自嘲:要失業了。啊這,怎麼回事?原來是結構生物學,迎來了一個「革命性」的突破。
  • 未來的世界:機器翻譯VS人工翻譯
    本期針對「機器翻譯VS人工翻譯」推出中國語言服務40人論壇兩位專家的文章,其中觀點相悖,但各有千秋。作為智庫成果,供大家參考。 藉此機會,我代表「博雅翻譯文化沙龍」及「語言服務智庫」周刊向賜稿的朋友們表示謝意,並期待著與大家一起為我們的共同事業進言獻策,為各界朋友們多做一些力所能及的具體工作。是以序。
  • 雙語:為什麼萌萌的「小狗眼神」讓人難以抗拒?
    狗的眼部有一小塊肌肉,可以讓狗狗的眼睛模仿「嬰兒般的」表情,從而激發人類的「養育反應」。The study says such "puppy eyes" helped domesticated dogs to bond with humans.研究稱,這種「小狗眼」有助於寵物狗與人類建立情感紐帶。
  • 深度學習之Google Deepmind的Alphago人工智慧算法技術演變歷程
    最近大家比較關心的圍棋人機大戰(Alphago vs 李世石)中,deep mind基於Nature2016文章的Alphago在5局制的比賽中已經取得了4-1的獲勝。這兩篇文章都是蒙特卡洛搜索樹+DCNN,效果Google的Alphago優於facebook的方法,剛好藉此機會將之前看到的deep mind該領域的文章捋了一下。
  • 【一文打盡 ICLR 2018】9大演講,DeepMind、谷歌最新乾貨搶鮮看
    勞動力影響 Bernhard Schoelkopf:學習因果機制 Suchi Saria:通過機器學習將醫療個性化 Kristen Grauman:未標記的視頻的視覺學習與環視策略 Koray Kavukcuoglu:從生成模型到生成agents Blake Richards:深度學習與Neocortical