UNIMO:百度提出統一模態學習方法,同時解決單模與多模任務

2021-01-08 機器之心Pro

機器之心專欄

機器之心編輯部

UNIMO 首次實現了僅用一個預訓練模型同時處理多模任務和單模任務,驗證了 AI 系統可以像人一樣從各種不同模態數據中學習,從而獲得更強大且統一的認知能力。

人類大腦能夠處理文本、圖像、語音等各種模態的信息,並通過模態間的交互增強提升對世界的認知能力。受此啟發,百度提出統一模態學習方法,能夠同時使用大量文本和圖像的單模數據進行學習,並利用圖文對的多模數據進行跨模態聯想對比,通過預訓練獲得統一語義表示,從而在多種理解與生成的下遊任務上超越 ViLBERT、Oscar 等多模預訓練模型以及 RoBERTa、UniLM 等文本預訓練模型,同時登頂視覺問答 VQA 權威榜單。

論文名稱:UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning

論文地址:https://github.com/weili-baidu/UNIMO

1. 統一模態學習方法

近年來,預訓練技術在計算機視覺和自然語言處理領域均受到廣泛關注。在視覺領域,通常在 ImageNet 數據上進行純視覺的單模預訓練,訓練 ResNet、VGG 等圖像特徵抽取模型。在自然語言處理領域,基於自監督的預訓練模型,如 BERT、UniLM、ERNIE,則利用大規模的單模文本數據,訓練了強大的語義表示能力。為了處理多模場景的任務,各種多模預訓練模型進一步被提出來,如 ViLBERT、UNITER 等。這些多模模型在圖文對(Image-Text Pairs)數據上進行預訓練,從而支持下遊的多模任務。受限於只能使用圖文對數據,多模預訓練模型僅能進行小規模數據的訓練,並且難以在單模下遊任務上使用。

事實上,現實世界中同時存在大量純文本、純圖像的單模數據,也存在圖文對的多模數據。顯然,一個強大且通用的 AI 系統應該具備同時處理各種不同模態數據的能力。為此,百度提出統一模態預訓練,同時使用文本、圖像、圖文對數據進行預訓練,學習文本和圖像的統一語義表示,從而具備同時處理單模態和多模態下遊任務的能力。對於大規模的單模圖像數據和單模文本數據,UNIMO 採用類似的掩碼預測自監督方法學習圖像和文本的表示。同時,為了將文本和圖像的表示映射到統一的語義空間,論文提出跨模態對比學習,基於圖文對數據實現圖像與文本的統一表示學習。

統一模態學習最大的挑戰是如何跨越不同模態的語義鴻溝從而實現語義表示的統一。為了實現圖像和文本的統一語義表示,百度提出了多粒度的跨模態對比學習。在句子級別,UNIMO 使用回譯方法和檢索方法獲得大量正例和強負例。在短語和單詞級別,UNIMO 首先根據圖描述解析出結構化的場景圖,然後通過單詞級和短語級的替換改寫,獲得大量細粒度的強負例。這樣利用擴充後的正例以及各種粒度的高質量強負例,並與圖像進行語義相似度對比,UNIMO 能夠學習到精確對齊的多模語義表示。

2. 實驗

在實驗方面,UNIMO 使用了大規模的單模和多模數據進行聯合預訓練,同時在各種單模和多模下遊任務上進行驗證。預訓練數據部分,文本語料包括 Wikipedia、BookCorpus、OpenWebText 等語料;圖像數據是從網際網路爬取的 300K 圖像;而多模圖文對數據則包括 COCO Caption、Visual Genome、Conceptual Caption、SBU Caption。下遊任務既包括視覺問答、圖描述生成、視覺推斷等多模任務,也包括文本分類、文本摘要、問題生成等各種文本任務。模型上,論文中使用 12 層的 Transformer 進行預訓練。

在多模任務上,論文主要對比 ViLBERT、VLP、UNITER、Oscar、Villa 等最新的多模預訓練模型。實驗結果表明,UNIMO 在視覺問答 VQA、圖描述生成 CoCo Caption、視覺推斷任務 SNLI-VE 上均穩定地超過此前的各種模型,充分說明了統一模態 UNIMO 模型能夠有效地處理各種多模任務。

特別的,與以往多模預訓練不同的是,UNIMO 同時還能處理純文本的單模任務。此前的多模預訓練模型,在處理單模文本任務的時候效果急劇下降,部分任務下降幅度甚至超過 10-20 個點。而 UNIMO 在各類文本理解和生成任務上,包括文本分類、文本推斷、文本摘要和問題生成,均取得不錯的效果,部分任務甚至超過 RoBERTa、UniLM 等文本預訓練模型。

UNIMO 很大的優勢是能同時使用單模數據和多模數據進行預訓練,從而利用大規模數據學習更強大的統一模態語義表示。為了驗證單模數據的有效性,論文還進行了分離實驗。實驗結果表明,當不使用文本單模數據進行預訓練的時候,UNIMO 在多模任務上效果有所下降。而當不使用多模圖文對數據和圖像數據的時候,UNIMO 在文本理解和生成任務上同樣會下降。這充分說明了單模數據在統一模態學習中的有效性,也說明了 UNIMO 模型可以有效利用不同模態數據進行跨模態聯合學習。

此外,百度基於 UNIMO 還刷新了視覺問答 VQA 權威榜單,超越了微軟、阿里巴巴、Facebook 等知名單位,位列榜首,進一步說明了統一模態預訓練的領先性。

3. 總結展望

總體上,百度提出了統一模態學習方法 UNIMO,通過利用跨模態對比學習,有效地將視覺和文本信息進行語義對齊,進而學習強大而統一的文本與視覺語義表示。UNIMO 首次實現同時利用單模和多模數據進行預訓練,並能夠同時有效處理單模和多模任務。UNIMO 提供了一種新的學習範式,讓機器可以像人一樣利用大規模不同模態的數據,學習統一的語義表示,提升機器的認知能力。

相關焦點

  • 單模光纖與多模光纖的選擇方法
    今天,找IT眾創平臺把如何選擇單模與多模光纖的方法,為大家分享一下,希望對大家的工作有所幫助。單模與多模的概念是按傳播模式將光纖分類的,那麼,它們有什麼不同?我們又該如何選擇呢?若是你已經有一條光纖線並且想要再多買一條,通常可以從光纖線的顏色來辨認出光纖線的類型。
  • 江蘇單模光纖和多模光纖的價格_JNDN
    江蘇單模光纖和多模光纖的價格,JNDN,我們專注於做一件事,注重滑環生產過程中的每一個細節。江蘇單模光纖和多模光纖的價格, 多模光纖:可以傳輸多種模式的光。單模光纖:只能傳輸一種模式的光。多模光纖傳輸的距離比較近,通常單模光纖傳輸距離可以達到多模光纖的幾十倍。單模價格一般比多模光纖價格貴。
  • 如何選用單模光纖與多模光纖
    由於它只有一種模式傳播,避免了模式色散的問題,故單模光纖具有極寬的帶寬,特別適用於大容量的光纖通信。因此,要實現單模傳輸,必須使光纖的諸參量滿足一定的條件,通過公式計算得出,對於NA=0.12 的光纖要在λ=1.3μm以上實現單模傳輸時,光纖纖芯的半徑應≤4.2μm,即其纖芯直徑d1≤8.4μm。由於單模光纖的纖芯直徑非常細小,所以對其製造工藝提出了更苛刻的要求。
  • 光纖的多模與單模的區分及在布線過程中常見問題解析
    1、選用多模還是單模? 一般來說,用戶要求光纖的傳輸距離比較短,比如幾百米,用多模光纖即可,但如果傳輸距離有幾千米甚至更遠,在不採用信號中繼的情況下必須用單模光纖。 2、4芯、6芯、8芯還是更多芯? 光纖要完成傳輸任務,必須最少一收一發兩條芯。事實上,市面上有4、6、8甚至更多芯的光纖,多餘的芯可以用做備份,也可以做更多的傳輸通道。
  • 單模光纖、單模光纜、多模光纖、多模光纜,你分得清嗎?
    單模光纜定義:單模光纜,是一種光纖傳輸設備,主要是由纖芯、包層和塗敷層構成;纖芯是由高度透明的材料製成的;包層的折射率略小於纖芯,從而造成一種光波導效應,使大部分的電磁場被束縛在纖芯中傳輸;塗敷層的作用是保護光纖不受水汽的侵蝕和機械的擦傷,同時又增加光纖的柔韌性。在塗敷層外,往往加有塑料外套。
  • 如何區分單模、多模光纖?
    反正小電工是每天跟打雞血似得,工作老有勁兒了,吃一頓飯頂過去五頓。您是不是也跟小電工一樣呢?好的,言歸正傳,本期為大家介紹單模光纖及多模光纖的區別。按光在光纖中傳輸的模式可將光纖分為多模、單模光纖。按光在光纖中的傳輸模式可將光纖分為:單模光纖和多模光纖。
  • 單模與多模光纖的區別
    在應用中,選擇多模還是單模的最常見決定因素是距離。如果只有兒英裡,首選多模,因為LED發射/接收機比單模需要的雷射便宜得多。如果距離大於5英裡,單模光纖最佳。另外一個要考慮的問題是帶寬;如果將來的應用可能包括傳輸大帶寬數據信號,那麼單模將是最佳選擇。
  • 多模光纖和單模光纖
    模式色散會使多模光纖的帶寬變窄,降低了其傳輸容量,因此多模光纖僅適用於較小容量的光纖通信。二、單模光纖當光纖的幾何尺寸可以與光波長相近時,光纖只允許一種模式在其中傳播,其餘的高次模全部截止,這樣的光纖叫做單模光纖。由於它只有一種模式傳播,避免了模式色散的問題,故單模光纖具有極寬的帶寬,特別適用於大容量的光纖通信。
  • 單模多模光纖的區別
    問:單模光纖和多模光纖有什麼區別?答:單模光纖採用固體雷射器做光源;多模光纖則採用發光二極體做光源;單模光纖傳輸頻帶寬、傳輸距離長,但因其需要雷射源,成本較高;多模光纖傳輸速度低、距離短,但其成本比較低;單模光纖芯徑和色散小,僅允許一種模式傳輸;多模光纖芯徑和色散大,允許上百種模式傳輸。
  • 如何選擇多模光纖和單模光纖
    1、光纖分類  光纖按光在其中的傳輸模式可分為單模和多模。多模光纖的纖芯直徑為50或62.5μm,包層外徑125μm,表示為50/125μm或62.5/125μm。單模光纖的纖芯直徑為8.3μm,包層外徑125μm,表示為8.3/125μm。
  • 深入探討單模光纖與多模光纖的區別
    打開APP 深入探討單模光纖與多模光纖的區別 胡薇 發表於 2018-08-21 17:13:51 單模與多模的概念是按傳播模式將光纖分類──多模光纖與單模光纖傳播模式概念。
  • 單模光纖和多模光纖是什麼,有什麼區別
    對於我們使用者來說,你把多模和單模名稱由來記住就可以了。接下來為大家詳細介紹下單模光纖和多模光纖,一起來看看吧! 多模光纖:可以傳輸多種模式的光。 單模光纖:只能傳輸一種模式的光。 多模光纖傳輸的距離比較近,通常單模光纖傳輸距離可以達到多模光纖的幾十倍。單模價格一般比多模光纖價格貴。
  • 單模光纖與多模光纖的區分及應用場合分析
    但有用戶就使用過程就發現,光纖有單模光纖與多模光纖的區別,那麼這兩者之間有什麼區別,各適應什麼樣的場合,本文章就在此做一簡單解答。 首先,不管單模光纖還是多模光纖,都是為了遠距離高質量的傳輸數據的,不同點就在於光的傳輸方式不同,光在單模光纖中是沿著直線進行傳播的,不反射
  • 單模VS多模,誰才是光纖老大?
    除了兩者傳輸距離的顯著不同,單模和多模還有很多本質上的區別。它必須滿足以下條件:纖芯需要更薄,最好是工作波長的3或4倍;因此,單模光在外觀上比多模光纖薄得多。因為單模光纖只傳輸一種模式,所以沒有模式色散。2️⃣ 多模光纖可以傳輸多模信號。因為有多種傳輸模式,所以存在大的模式間色散,並且可以傳輸的信息容量小。
  • 單模光纖與多模光纖的區別與選擇
    但有用戶就使用過程就發現,光纖有單模光纖與多模光纖的區別,那麼這兩者之間有什麼區別,各適應什麼樣的場合,本文章就在此做一簡單解答。   首先,不管單模光纖還是多模光纖,都是為了遠距離高質量的傳輸數據的,不同點就在於光的傳輸方式不同,光在單模光纖中是沿著直線進行傳播的,不反射,所以其傳播距離非常遠。而多模光纖則可以承載多路光信號的傳送。
  • 光纖入戶是單模還是多模光纖?單模、多模光纖的區別及應用場景
    單模光纖:只有一種傳輸模式,光在單模光纖中直線傳播,無反射。單模光纖纖芯直徑8um-10um,包層直徑位125um。什麼是多模光纖?多模光纖:可以承載多路光纖信號,可以傳輸多種模式的光。多模光纖直徑5um-62.5um,包層直徑為125um。多模光纖和多模光纖的區別?光源的區別:單模光纖以雷射器為光源,可以精確控制;多模光纖以LED作為光源,產生的光較為分散。
  • 單模光纖和多模光纖的區別 -科普篇
    [導讀]由於單模光纖固有的高帶寬能力,其在較短距離應用中的受歡迎程度也越來越高,越來越多的技術人員面臨著同時安裝單模和多模光纖的問題
  • 單模光纜和多模光纜的區別是什麼
    單模光纜的傳輸   單模光纜實際用於傳輸的是中間纖芯,稱為光纖。即單模光纜是由光纖+外護套+中間介質的組成。在光纖通信中,單模光纖(SMF)是一種在橫向模式直接傳輸光信號的光纖。單模光纖運行在100M/s或1G/s的數據速率,傳輸距離都可以達到至少5公裡。   單模光纖:中心玻璃芯很細(芯徑一般為9或10μm),只能傳一種模式的光纖。
  • 小芯徑漸變折射率單模多模通用光纖研究
    摘要:本文介紹了一種新型的抗彎小芯徑漸變折射率單模多模通用光纖,該光纖能夠同時支持在850nm至950nm波段的100G多模傳輸和1270 nm 至1330 nm的100G單模傳輸。多模和單模傳輸系統各有各的優點和缺點,在當前情況下,使用多模光纖和便宜的VCSEL光源進行短距離組網建設是合理的,但如果網絡需要進一步提速升級至1310nm波長時,就需要改造成單模傳輸系統,重新鋪設單模光纖光纜或者鋪設單模、多模光纖混合纜將大大增加投入成本。為了解決上述問題,設計一種可以同時支持多模和單模傳輸的光纖是可行性較高的方法。
  • 光纖收發器單模和多模的區別
    80年代起,傾向於多用單模光纖,而且先用長波長1.31μm。2、多模光纖多模光纖(Multi Mode Fiber):中心玻璃芯較粗(50或62.5μm),可傳多種模式的光。但其模間色散較大,這就限制了傳輸數位訊號的頻率,而且隨距離的增加會更加嚴重。例如:600MB/KM的光纖在2KM時則只有300MB的帶寬了。