作者 | 蔣寶尚
當兩個語言不通的人進行交流時候,手勢和眼神自然就成了溝通神器。有時候,手勢和眼神在表達意思的時候能勝過千言萬語。
能不能將這種類似的優勢用在機器翻譯?
近日,來自DeepMind、牛津大學以及卡內基梅隆的研究者合力發表了論文《Visual Grounding in Video for Unsupervised Word Translation》,提出用視覺基礎改善無監督的單詞映射。
(雷鋒網)此篇論文也被收錄到CVPR 2020。論文下載地址:https://arxiv.org/pdf/2003.05078.pdf
論文的基本思想是:地球上的人類可能說著數千種不同的語言,但用「眼」看到的世界確是只有一個,有了這個視覺基礎,就可以彌合語言之間的差距。
作者在論文用的方法也很簡單,模型通過「觀看」視頻,能夠在兩種語言之間建立共同的視覺表徵,即在給定共享嵌入情況下構建視覺-文本混合映射算法。
(雷鋒網)雖多種語言,描述的是同一種事物
舉個簡單的例子,兒童在學習語言的時候,更多的是觀察環境並與周圍的人互動,在這過程中,並不需要任何明確的指導和監督。他們在學習多門語言的時候,可以利用不同情況下的相似情境:他在周一聽到「狗在吃東西」時候看到景象,與周五聽到「le chien mange」句子時候看到的景象是類似的。
作者們在構建無監督翻譯系統的時候,就借鑑了上述思路:向系統提供不同國家人做事情的視頻,同時用他們本國語言解釋他們在做什麼。選用內容大致相似的教學視頻,比如雖然是不同語種,但是都是在教人如何榨橙汁的教學類視頻。
教學視頻在YouTube上大量存在,並且內容相似度非常高,所以作者使用了教學視頻作為訓練數據。
雖然使用自動語言識別技術能夠得到了很多視頻和相應的字幕,但收集的數據有很多瑕疵:首先對教學視頻中的內容進行聚類並不容易,其次有時候教學視頻中的「講師」說著與主題無關的廢話。
雖然有挑戰,但是這種共享視覺促進了翻譯的精準度。如上圖所示,作者在論文提出的英法翻譯。據說,通過看視頻,在翻譯常用詞和視覺詞時能達到28.0%和45.3%的正確率,對比基於檢索翻譯方法正確率12.5%和18.6%高了不少。
(雷鋒網(公眾號:雷鋒網))
如上圖所示,整個模型包括3個編碼器,一個是針對語言X的,一個是針對Y的,一個是針對視頻Z的。這三個編碼器組成的模型,經過訓練之後,其目標是能夠視頻Z建立X語言與Y語言的映射。
語言X編碼器由3部分組成:1、詞嵌入層;2、簡單的位置的全連接前饋網絡層(a position-wise fully connected feed-forward layer);3、一個線性層。其中詞嵌入層的作用是將序列轉換成維度向量;全連接前饋網絡層作用是現在單詞上進行最大池化,然後生成序列維度向量;線性層的作用是建立聯合嵌入空間與中間表示(Intermediate Representation)的映射。
對於語言Y的編碼器,作者使用了跨語言共享模型權重,即語言X和語言Y編碼器之間共享前饋層和最後一個線性層的權重。為了將不同的語言輸入到共享層,作者在語言Y中的單詞嵌入層之後添加一個名為AdaptLayer的線性層。
AdaptLayer的作用是改變語言Y的單詞嵌入空間,使語言Y中的單詞嵌入儘可能地與語言X中的單詞嵌入相似。
關於視頻編碼器,作者使用了標準I3D模型,再加上一個將輸出映射到聯合嵌入空間中的線性層。
編者註:I3D模型可以理解為基於2D卷積網絡的增強版,全稱是Two-Stream Inflated 3D ConvNet,其論文被2017年CVPR收錄。
f、g、h分別對應語言X、Y以及視頻Z的嵌入函數,L定義為損失函數。
整個模型的優化目標如上公式所示,據作者介紹,通過定義上面公式,能夠將訓練策略擴展到多語言情況。
上述公式L(f,h)定義如下:
NCE定義如下:
通過最小化上述聯合損失函數訓練模型能夠建立兩種語言的映射關係,即對於給定的x∈X,能夠找到y∈Y。
在實驗部分,對比當前能夠達到SOTA的基於文本的翻譯模型,作者發現他們的模型在翻譯方面更加優秀。
在實驗過程中,作者對視頻的轉錄本進行了token化,把每種語言的65536個最常用的單詞彙聚到了一個詞彙庫。經過預處理,作者使用了word2vec訓練單語單詞嵌入,並在MUVE(作者文章中提出的算法)、MUSE和VecMap模型中使用這些預訓練的嵌入。
在訓練時,作者從給定的數據集中抽取一個視頻片段及其相應的旁白。每個訓練批包括來自任一語種語言的片段,而NCE損失中的每個元素的負值是來自該批中的其他相同語言的元素。
另外,對於視頻編碼器,作者在Kinetics-400數據集上預訓練的I3D模型進行微調,對於語言模型作者在相應的HowToW-Text數據集上預訓練了單詞嵌入層。
作者使用了Adam優化器,初始學習率設置為10^-3,批處理量為128,並在2個Cloud TPU上訓練模型200k次迭代。
在研究能否提高單詞翻譯質量方面,作者將自己的模型另外兩個基線進行比較。第一個基線(Random Chance)採用的是在不使用視頻的情況下檢索出的翻譯,第二個基採用了視頻檢索(Video Retrieval),使用視頻創建兩種語言之間的並行語料庫。
如上圖在英語到法語翻譯上,作者的模型在這兩個基準上的表現明顯優於基準線。另外,MUVE(第4行)比單獨的基礎模型(第3行)有了顯著的改進(在字典和簡單詞基準上分別有+19.8%和+30.3%的絕對改進)
那麼,模型能在多大程度上改進基於文本的單詞翻譯方法?作者實驗了三種無監督方法和一種有監督方法,所有的方法都使用了在HowToW-Text上訓練的單詞嵌入方法。
如上,作者在對比英語和法語、韓語和日語之間的翻譯結果之後,作者的MUVE方法最優,英韓和英日之間的翻譯比基於文本的方法有著非常大的改進。
但這也表明了單純的基於文本的方法更適合「長相」類似的語言,如英語和法語。
無監督單詞翻譯的穩健性如何?如上圖所示,作者展示了MUVE、MUSE[10]、VecMap[4]在英法字典數據集中Recall@10的表現,並用JS距離( jensen-shannon,上表中用~表示)測量異同度。
結果顯示,噹噹語料庫相似時(例如Wiki-En和Wiki-FR),所有的方法都表現良好。當語料庫不相似的時候,MUVE明顯優於其他方法,也更加穩健。
當訓練數據量不同的時候,模型表現如何呢?上圖展示了用原數據集體量的100%、10%、1%數據訓練的結果,用 Recall@10衡量時,顯然作者的方法在低資源(訓練語料不足)情況下表現更好。
另外,當詞彙量變化的時候,如上圖所示,只有MUSE方法的性能沒有下降。其他基於文本的方法都依賴於詞彙量大小。
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。