ICLR 2020 | 多模態下使用圖片信息顯著增強機器翻譯效果

2021-02-15 PaperWeekly

論文標題:

Neural Machine Translation with Universal Visual Representation

論文作者:

Zhuosheng Zhang, Kehai Chen, Rui Wang, Masao Utiyama, Eiichiro Sumita, Zuchao Li, Hai Zhao

論文連結:

https://openreview.net/forum?id=Byl8hhNYPS

收錄情況:

ICLR 2020 (Spotlight)

代碼連結:

https://github.com/cooelf/UVR-NMT

長期以來,機器翻譯都只涉及到文本之間的轉換,但實際上,人的感知功能可以是「多模態」的。

本文提出一種通用的視覺表徵,將圖片信息融合到機器翻譯模型中。

使用這種視覺知識融合方法,不需要額外的雙語-圖片標註數據,模型就能夠在多個數據集上取得顯著的效果提升。

多模態與機器翻譯

機器翻譯是兩種語言間的轉換,比如「A dog is playing in the snow」翻譯為中文就是「小狗在雪地裡玩耍」。

但人類理解世界不只是用文字,還有視覺、聽覺等感知能力;並且翻譯的過程需要保持「語義」不變。比如下面的圖:

講中文的人會說「小狗在雪地裡玩耍」,而講英文的人會說「A dog is playing in the snow」。也就是說,人們對客觀世界的本質認知是相同的,只是「方法」不同,體現在語言上,就是語法上的差異。

為此,我們可以假設在機器翻譯模型中,融入這種「客觀的世界知識」,比如把圖片信息加入,以此期望增強翻譯能力。同時考慮文本和圖片,這就是一種多模態。

然而,過去的翻譯-圖片研究大都需要大量的雙語-圖片標註數據,這在數據上成為一個研究的瓶頸。本文針對這種情況,提出「通用的視覺表示」,僅用單語-圖片標註數據,就能顯著提高機器翻譯的效果。

本文的方法在數據集EN-RO,EN-DE,EN-FR上均有約一個BLEU值的提高,這說明了本方法的有效性。

具體來說,本文貢獻如下:

在閱讀完本文之後,讀者可以思考下述問題:

通用視覺表示

本節來介紹本文的方法。

首先我們有一個單語-圖片數據集,也就是,其中的每條數據都是一張圖片和對圖片的描述

這個描述的句子為,把其中的停用詞去掉後得到了,它所描述的圖片是

然後,對中的每個詞,計算它在整個數據集中的TF-IDF值,然後取中TF-IDF值最大的前個詞作為這個圖片的主題詞,也就是和圖片最相關的個詞。

這樣一來,每個圖片都有它主題詞,同時,每個詞都有可能同時是多個圖片的主題詞。我們可以把這看成一個「主題詞-圖片」查詢表,輸入一個詞,就可以在表中查詢以為主題的所有圖片

那麼,現在輸入一個句子,我們就可以按照同樣的步驟:

1.去除停用詞;

2.計算每個詞的TF-IDF;

3.取前個TF-IDF最高的詞;

4.在查詢表中找到所有對應的圖片;

5.按照出現次數的多少排序,取出前個出現次數最多的圖片(因為多個詞可能對應同一個圖片),得到集合

現在,這個圖片集合就可以認為是和輸入句子對應的視覺信息,可以用它去增強翻譯效果了。下圖是流程示意圖:

在機器翻譯中融合圖片信息

為了把圖片融合進去,我們首先用一個預訓練的ResNet提取圖片集的表示,然後計算

這裡,是Transformer Encoder的最後一層,是用ResNet得到的圖片集的表示,使用sigmoid計算。

在Decoder端,直接把送入即可。融合步驟如下所示:


實驗

我們在三個數據集上進行實驗:WMT16 En-RO, WMT14 EN-DE和WMT14 EN-FR。這三個數據集大小從小到大增加,從而在不同大小的數據集上都能驗證該方法。

下表是在這三個數據集上的結果,++表示顯著更優。

可以看到,和基線模型(Trans.(base/big))相比,本文的方法(+VR)在三個數據集上都能得到顯著的提升,平均提升約一個BLEU值。同時,只引入了很少的參數量,這就不會使訓練時間幾乎不會增加。

下表是在數據集Multi30K上的結果,這是一個多模態數據集。可以看到,即使在多模態設置下,本文方法依舊能夠取得顯著結果。

最後,我們來看看每個句子對應的圖片集的大小,和手動控制參數的影響。

下圖分別是兩個因素的影響結果。從圖片數量來看,並不是越多的圖片數量越好,也不是越少越好,而是在的區間較好。這是因為,過少的圖片信息不充分,過多的圖片噪聲太多。

參數控制的是圖片信息融合的程度,可以看到,無論融合多少,效果都比不融合圖片信息要好,這說明多模態是有效果的。

而且,手動控制它都沒有模型自動學習好,這也說明模型對不同的輸入句子,需要的視覺信息也是不同的。

小結

本文提出了一種簡單、有效的多模態視覺知識融合方法——首先構建從主題詞到圖片的查詢表,然後對輸入句子找到相關的圖片,然後使用ResNet提取圖片信息融入到機器翻譯模型中。

使用這種方法,可以避免對大規模雙語-圖片數據的依賴。實驗結果也表明,這種方法可以一致地提高翻譯效果。

思考題討論

如果要翻譯單語-圖片數據集中沒有的語言,可以怎麼做?

比如沒有日語,我們可以用一個日語的image caption模型去自動標註每個圖片的描述。

或者可以用X-日語的機器翻譯得到圖片翻譯後的描述;或者直接用一個現有的詞典,把圖片的主題詞直接翻譯成日語。其他方法亦可。

🔍

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報導人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號後臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群裡。

相關焦點

  • 多模態話語:翻譯不只是語言文字
    翻譯,作為溝通不同語言的橋梁,在人類的歷史進程和文化傳播過程中具有不可磨滅的意義,翻譯發展至今,已經不再局限於傳統的文字和字幕翻譯,在科學技術的支持下,翻譯實現著從人工領域向機器領域的擴展,其中衍生出諸多的翻譯產品,例如翻譯軟體、翻譯機等,滿足人們在多種場景下的使用需求。
  • 機器推理文本+視覺,跨模態預訓練新進展
    作者 | 李根、段楠、周明【導讀】機器推理要求利用已有的知識和推斷技術對未見過的輸入信息作出判斷,在自然語言處理領域中非常重要。本文將介紹微軟亞洲研究院在跨模態預訓練領域的研究進展。針對上述問題,我們提出跨模態預訓練模型 Unicoder-VL。藉助通用領域跨模態預訓練,該模型能夠學習到語言和視覺間的內在關聯,並用於生成語言和視覺的聯合向量表示。實驗證明,這種考慮了跨模態信息的聯合向量表示能夠很好地遷移到下遊任務中,並取得很好的效果。
  • 多模態:翻譯研究的新視角
    由此可見翻譯的含義有兩個維度:廣義的翻譯指不同符號系統之間的信息傳遞活動,包括語言與語言之間、語言與符號之間,以及符號與符號之間。因此,翻譯活動本身包含著多模態信息傳遞的內容,我們借鑑多模態話語分析的理論與成果來考察翻譯產品與過程,作為翻譯研究的新視角,具有其內在的合理性與可行性。
  • Gartner最新報告:百度翻譯整合多項AI能力 多模態翻譯助跨國交流
    Gartner分析師認為,百度有一個領先且宏偉的(advanced and ambitious)目標,融合自然語言處理、語音、計算機視覺等人工智慧技術,為用戶提供實時、高質量的多模態翻譯服務。在全球化發展背景下,隨著企業業務和生態系統不斷向全球不同區域擴展,企業獲取全球化信息的需求日益凸顯,機器翻譯成為剛需。
  • ICLR 2020丨微軟亞洲研究院精選論文解讀
    在初步嘗試中,我們發現:(1)用 BERT 初始化 NMT 模型不能給機器翻譯帶來顯著提升;(2)利用 BERT 提供 contextual embedding,在機器翻譯上這個任務上更加有效。結果見表1。因此,本文將探索重點放在第二類方法上。
  • 數據增強在機器翻譯中的應用現狀和前景,劉群、黃輝等專場探討
    近年來,隨著深度學習的出現和計算能力的提高,機器翻譯也取得了較大的進展,在數據量比較充足的情況下,都能夠實現非常不錯的效果,然而在一些資源稀缺、領域或者說小語種的翻譯任務上,有時神經網絡機器翻譯的表現甚至還不如基於統計的機器翻譯。
  • ECCV 2020 Oral | TCGM:基於資訊理論的半監督多模態學習框架
    論文連結:https://arxiv.org/abs/2007.06793比起僅僅利用單個模態的數據,融合多個模態的數據信息能夠訓練出更加準確且魯棒的分類器。比如,模型可以用X光圖片、臨床指標等數據來預測病人的身體情況。但是在實際中,多模態的精標註數據十分昂貴,往往只能在每個模態上獲取少量標註數據。
  • 聚焦多模態自然語言處理 京東智聯雲亮相NLPCC 2020
    近年來,人工智慧 (AI) 在涉及單一模態如語音、自然語言和視覺等領域,取得了重大突破。在單一模態的任務上,如物體識別、語音識別、機器翻譯等,AI 系統在特定數據集上的表現水平與人類相當。隨著單模態人工智慧潛在問題的解決,研究人員意識到更高層次的AI任務往往涉及到跨多種模式的更複雜的信息處理。同時,局限於單一模態的研究往往不能充分利用跨模態信息。因此,研究多模態建模與學習方法具有重要的意義。在本次國際自然語言處理與中文計算會議(NLPCC 2020)上, 京東智聯雲舉辦了第一屆「多模態自然語言處理研討會」。
  • 百度CTO王海峰:自然語言處理技術發展飛速 機器翻譯從理想走向現實
    說起自然語言處理,最基本的研究是基於一種語言的一個句子。那麼有多文本、多模態的時候我們怎麼做呢?前面談到了從單文檔到多文檔,從只用自然語言處理的技術到融合知識等等。閱讀理解還要有很強的泛化能力,比如說通過預訓練模型可以學習到不同的語言知識,同時用這種多任務學習來增強不同任務的學習效果,這些也是我們過去這一兩年在開展的比較新的研究。而基於這些,我們做了MRQA任務,一共有12項任務,其中10項都得到了排名第一。
  • 關於數據增強在機器翻譯中的應用現狀和前景,劉群、黃輝等專場探討
    本次會議由中國中文信息學會主辦,江西師範大學承辦。CCMT旨在為國內外機器翻譯界同行提供一個交互平臺,加強國內外同行的學術交流,召集各路專家學者針對機器翻譯的理論方法、應用技術和評測活動等若干關鍵問題進行深入的研討,為促進中國機器翻譯事業的發展,起到積極的推動作用。
  • ECCV2020 | 北京大學提出RGB-D語義分割新網絡,多模態信息融合
    他們提議不通過使用深度數據作為額外的輸入,而是建議通過多任務學習來提取深度特徵,並將深度數據視為訓練的額外監督。因此,引入了一個新的門單元,即Separation-and-Aggregation Gate(SA-Gate),通過鼓勵網絡先重新校準和聚焦每個模態的特定特徵,然後有選擇地聚合兩個模態的信息特徵進行最終分割,以提高多模態表示的質量。
  • 香港理工最新GAN綜述論文;小鵬汽車判別式多模態語音識別
    Parikh論文連結:https://arxiv.org/pdf/2004.04696.pdf摘要:過去幾年,文本生成取得了顯著的進展。但是,評估指標卻出現了滯後,這是因為 BLEU 和 ROUGE 等最流行的機器翻譯自動評估方法可能與人類的判斷關係不大。
  • 百度機器翻譯團隊獲得WMT2019中英翻譯冠軍
    今年中英方向參賽隊伍有來自微軟、字節跳動、金山、愛丁堡大學、東北大學、日本情報通信研究院等國內外知名機器翻譯團隊。本屆大賽,百度翻譯團隊憑藉在數據處理、模型架構、數據增強、模型集成等方面的創新性突破,最終力壓群雄,取得第一。
  • 對話搜狗口語機器翻譯團隊:國際冠軍的誕生
    IWSLT的口語機器翻譯指的是從語音信號翻譯成目標語言文本,正是搜狗已經落地應用的「AI同傳」、「旅行翻譯寶」等多款產品的核心技術,並不是我們熟悉的文本到文本的翻譯。口語機器翻譯領域是一個新興領域,搜狗則一直走在前沿,此次摘得大賽冠軍,也是實力的印證。
  • 2020國際機器翻譯大賽:火山翻譯力奪五項冠軍
    在11月下旬結束的自然語言處理頂級學術會議EMNLP2020上,國際機器翻譯大賽(WMT20)公布了賽事最終結果,來自字節跳動火山引擎旗下的火山翻譯(Volctrans)在39支參賽隊伍中殺出重圍,以顯著優勢在「中文-英語」語向翻譯項目上拿下了冠軍。
  • Cross-Modal & Metric Learning 跨模態檢索專題-1
    我在實際工作中分別使用過 GAN 和 instance discrimination 這2種思路,近期結合二者嘗試了綜合模型效果提升明顯。如上圖所示,若以左側小女孩圖片為 anchor,那麼可以有下方多種相關文本語句來描述;同理如若以圖片右側那句話『放風箏的小女孩』為 anchor/seed,也可以找到周圍4幅圖片來代表這句話。所以我們可以看到圖文不同模態信號之間存在一種多對多的"映射"關係。這裡的映射不是普通意義上的 map 函數,有點類似翻譯模型(中文和英文兩個不同 domain 的信號),但又複雜的多。
  • 專訪俞棟:多模態是邁向通用人工智慧的重要方向
    與此同時,俞棟博士也解釋了為什麼多模態是人機互動的發展趨勢的原因,主要有四點:第一,多模態交互能夠讓人類在不同的場景下可以選擇不同的模態組合進行交互,進而從整體上提高人機互動的自然度;第二,在多模態技術下,一個模態可以補充另一個模態的弱點,從而能夠通過融合多個模態的信息,獲得更精確的用戶、情感、場景、和發聲人位置估計;
  • 2020 國際機器翻譯大賽:火山翻譯力奪五項冠軍
    在11月下旬結束的自然語言處理頂級學術會議EMNLP2020上,國際機器翻譯大賽(WMT20)公布了賽事最終結果,來自字節跳動火山引擎旗下的火山翻譯(Volctrans)在39支參賽隊伍中殺出重圍,以顯著優勢在「中文-英語」語向翻譯項目上拿下了冠軍。
  • 百度機器翻譯五大領域實現新突破 獲WMT2019中英翻譯冠軍
    今年中英方向參賽隊伍有來自微軟、字節跳動、金山、愛丁堡大學、東北大學、日本情報通信研究院等國內外知名機器翻譯團隊。本屆大賽,百度翻譯團隊憑藉在數據處理、模型架構、數據增強、模型集成等方面的創新性突破,最終力壓群雄,取得第一。
  • 多模態研究:認知語言學的新方法
    研究者讓受試觀看圖片或視頻並用語言或手勢描述故事情節,然後把描述過程用錄音或錄像的方式記錄下來做數據分析,可以發現多模態表徵方式與語言類型之間的關聯。泰爾米和斯洛賓通過對口語、書面語、手勢等多模態數據的分析,把人類語言區分為衛星框架語言、動詞框架語言和均等框架語言等三種類型。此外,關於語言類型特徵的形成、發展和習得問題也可以在多模態視角下進行。