機器之心專欄
機器之心編輯部
UNIMO 首次實現了僅用一個預訓練模型同時處理多模任務和單模任務,驗證了 AI 系統可以像人一樣從各種不同模態數據中學習,從而獲得更強大且統一的認知能力。
人類大腦能夠處理文本、圖像、語音等各種模態的信息,並通過模態間的交互增強提升對世界的認知能力。受此啟發,百度提出統一模態學習方法,能夠同時使用大量文本和圖像的單模數據進行學習,並利用圖文對的多模數據進行跨模態聯想對比,通過預訓練獲得統一語義表示,從而在多種理解與生成的下遊任務上超越 ViLBERT、Oscar 等多模預訓練模型以及 RoBERTa、UniLM 等文本預訓練模型,同時登頂視覺問答 VQA 權威榜單。
論文名稱:UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning
論文地址:https://github.com/weili-baidu/UNIMO
1. 統一模態學習方法
近年來,預訓練技術在計算機視覺和自然語言處理領域均受到廣泛關注。在視覺領域,通常在 ImageNet 數據上進行純視覺的單模預訓練,訓練 ResNet、VGG 等圖像特徵抽取模型。在自然語言處理領域,基於自監督的預訓練模型,如 BERT、UniLM、ERNIE,則利用大規模的單模文本數據,訓練了強大的語義表示能力。為了處理多模場景的任務,各種多模預訓練模型進一步被提出來,如 ViLBERT、UNITER 等。這些多模模型在圖文對(Image-Text Pairs)數據上進行預訓練,從而支持下遊的多模任務。受限於只能使用圖文對數據,多模預訓練模型僅能進行小規模數據的訓練,並且難以在單模下遊任務上使用。
事實上,現實世界中同時存在大量純文本、純圖像的單模數據,也存在圖文對的多模數據。顯然,一個強大且通用的 AI 系統應該具備同時處理各種不同模態數據的能力。為此,百度提出統一模態預訓練,同時使用文本、圖像、圖文對數據進行預訓練,學習文本和圖像的統一語義表示,從而具備同時處理單模態和多模態下遊任務的能力。對於大規模的單模圖像數據和單模文本數據,UNIMO 採用類似的掩碼預測自監督方法學習圖像和文本的表示。同時,為了將文本和圖像的表示映射到統一的語義空間,論文提出跨模態對比學習,基於圖文對數據實現圖像與文本的統一表示學習。
統一模態學習最大的挑戰是如何跨越不同模態的語義鴻溝從而實現語義表示的統一。為了實現圖像和文本的統一語義表示,百度提出了多粒度的跨模態對比學習。在句子級別,UNIMO 使用回譯方法和檢索方法獲得大量正例和強負例。在短語和單詞級別,UNIMO 首先根據圖描述解析出結構化的場景圖,然後通過單詞級和短語級的替換改寫,獲得大量細粒度的強負例。這樣利用擴充後的正例以及各種粒度的高質量強負例,並與圖像進行語義相似度對比,UNIMO 能夠學習到精確對齊的多模語義表示。
2. 實驗
在實驗方面,UNIMO 使用了大規模的單模和多模數據進行聯合預訓練,同時在各種單模和多模下遊任務上進行驗證。預訓練數據部分,文本語料包括 Wikipedia、BookCorpus、OpenWebText 等語料;圖像數據是從網際網路爬取的 300K 圖像;而多模圖文對數據則包括 COCO Caption、Visual Genome、Conceptual Caption、SBU Caption。下遊任務既包括視覺問答、圖描述生成、視覺推斷等多模任務,也包括文本分類、文本摘要、問題生成等各種文本任務。模型上,論文中使用 12 層的 Transformer 進行預訓練。
在多模任務上,論文主要對比 ViLBERT、VLP、UNITER、Oscar、Villa 等最新的多模預訓練模型。實驗結果表明,UNIMO 在視覺問答 VQA、圖描述生成 CoCo Caption、視覺推斷任務 SNLI-VE 上均穩定地超過此前的各種模型,充分說明了統一模態 UNIMO 模型能夠有效地處理各種多模任務。
特別的,與以往多模預訓練不同的是,UNIMO 同時還能處理純文本的單模任務。此前的多模預訓練模型,在處理單模文本任務的時候效果急劇下降,部分任務下降幅度甚至超過 10-20 個點。而 UNIMO 在各類文本理解和生成任務上,包括文本分類、文本推斷、文本摘要和問題生成,均取得不錯的效果,部分任務甚至超過 RoBERTa、UniLM 等文本預訓練模型。
UNIMO 很大的優勢是能同時使用單模數據和多模數據進行預訓練,從而利用大規模數據學習更強大的統一模態語義表示。為了驗證單模數據的有效性,論文還進行了分離實驗。實驗結果表明,當不使用文本單模數據進行預訓練的時候,UNIMO 在多模任務上效果有所下降。而當不使用多模圖文對數據和圖像數據的時候,UNIMO 在文本理解和生成任務上同樣會下降。這充分說明了單模數據在統一模態學習中的有效性,也說明了 UNIMO 模型可以有效利用不同模態數據進行跨模態聯合學習。
此外,百度基於 UNIMO 還刷新了視覺問答 VQA 權威榜單,超越了微軟、阿里巴巴、Facebook 等知名單位,位列榜首,進一步說明了統一模態預訓練的領先性。
3. 總結展望
總體上,百度提出了統一模態學習方法 UNIMO,通過利用跨模態對比學習,有效地將視覺和文本信息進行語義對齊,進而學習強大而統一的文本與視覺語義表示。UNIMO 首次實現同時利用單模和多模數據進行預訓練,並能夠同時有效處理單模和多模任務。UNIMO 提供了一種新的學習範式,讓機器可以像人一樣利用大規模不同模態的數據,學習統一的語義表示,提升機器的認知能力。