多模態數據的主題建模:自回歸方法

2020-09-11 慕測科技


引用

Zheng Y, Zhang Y J, Larochelle H. Topic modeling of multimodal data: an autoregressive approach[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2014: 1370-1377.

摘要

基於 LDA 的主題建模一直是處理多模態數據的首選框架,在圖像標註任務中已有了大量實例。最近,一種名為 &34;(DocNADE)的新型主題模型被提出,並為文本文檔建模展示了最先進的性能。在這項工作中,我們展示了如何成功地將該模型應用和擴展到多模態數據中,例如同時進行圖像分類和注釋。具體來說,我們提出了 DocNADE 的監督擴展 SupDocNADE,通過將標籤信息納入模型的訓練目標來提高隱藏主題特徵的分辨力,並展示了如何運用 SupDocNADE 從圖像視覺詞、注釋詞和類標籤信息中學習聯合表示。我們還描述了如何利用視覺詞的空間位置信息來進行 SupDocNADE,以簡單而有效的方式實現更好的性能。我們在 LabelMe 和 UIUC-Sports 數據集上測試了我們的模型,並表明它與其他主題模型,如 LDA 的監督變體和空間匹配金字塔(SPM)方法相比,具有良好的性能。

1 介紹

多模態數據建模結合了不同來源的信息,在計算機視覺領域越來越受到關注。其中一種領先的方法是基於主題建模,最流行的模型是 LDA。LDA 是一種文檔的生成模型,它起源於自然語言處理界,但在計算機視覺領域取得了巨大的成功。LDA 將文檔建模為話題上的多義分布,其中話題本身就是詞的多義分布。雖然主題的分布對每個文檔來說是特定的,但與主題相關的詞的分布是所有文檔共享的。因此,主題模型可以通過從文檔所包含的單詞中推斷其在主題上的潛在分布,從文檔中提取有意義的語義表示。在計算機視覺的背景下,LDA 可以通過首先從圖像中提取所謂的 &34;,將圖像轉換為視覺詞文檔,並在視覺詞袋上訓練 LDA 主題模型。

為了處理多模態數據,最近有人提出了一些 LDA 的變體。例如,Corr-LDA 通過假設每個圖像主題必須有一個對應的文本主題,來發現圖像和標註方式之間的關係。多模態 LDA 通過學習不同模態的主題相關的回歸模塊,對 Corr-LDA 進行了概括。多模態文檔隨機場模型(MDRF)也是為了處理多模態數據而提出的,它從包含多模態數據的文檔語料庫中學習跨模態相似性。除了標註詞,類標籤模態也可以嵌入到 LDA 中,如在 sLDA 中。通過對圖像視覺詞、標註詞及其類標籤進行建模,可以提高學習圖像表徵的分辨能力。

大多數主題模型的核心是生成式的,其中首先生成圖像的潛伏表徵,隨後由這個表徵生成視覺詞。這種方法的吸引力在於,從觀察結果中提取表徵的任務很容易被框定為一個概率推理問題,對此存在許多通用的解決方案。然而缺點是,隨著模型變得越來越複雜,推理變得越來越瑣碎,計算成本越來越高。例如在 LDA 中,推理題目上的分布並沒有一個閉式解,必須用變異近似推理或 MCMC 抽樣來近似。然而,該模型其實比較簡單,做了某些簡化的獨立性假設,比如視覺詞給定圖像在話題上的潛伏分布的條件獨立性。

Larochelle 和 Lauly 提出了一種針對文檔的另一種生成式建模方法。他們的神經自回歸分布估計器(DocNADE),通過將文檔分解為條件分布的乘積(通過概率鏈規則),並使用神經網絡對每個條件進行建模,直接對文檔中單詞的聯合分布進行建模。因此,DocNADE 不包含任何潛在的隨機變量,而這些變量必須在其上進行昂貴的推理。相反,可以使用神經網絡的隱藏層的值,以簡單的前饋方式有效地計算文檔表示。Larochelle 和 Lauly 還表明,DocNADE 是一個較好的文本文檔生成模型,可以提取有用的表徵用於文本信息檢索。

在本文中,我們考慮了 DocNADE 在計算機視覺中處理多模態數據的應用。更具體地說,我們提出了 DocNADE 的一個監督變體(SupDocNADE),它可以用來模擬圖像的視覺詞、注釋詞和類標籤上的聯合分布。該模型如圖 1 所示。我們研究了如何成功地納入視覺詞的空間信息,並強調了校準訓練目標的生成性和判別性部分的重要性。我們的結果證實,這種方法可以優於其他主題模型,如 LDA 的監督變體。

圖 1. 多模態圖像數據的 SupDocNADE 圖解

2 文本數據的 DocNADE

在以往的工作中,DocNADE 被用來對實詞的文檔進行建模,屬於一些預定義的詞彙。為了對圖像數據進行建模,我們假設圖像首先被轉換為一袋視覺詞。一個標準的方法是通過對從所有訓練圖像中密集抽取的 SIFT 描述符進行 K-means 聚類來學習視覺詞的詞彙。從這一點來看,任何圖像都可以被表示為一袋視覺詞 v= [v1,v2,...,vD],其中每個 vi 是最接近從圖像中提取的第 i 個 SIFT 描述符的 K-means 聚類的索引,D 是提取的描述符的數量。

3 多模態數據的 SupDocNADE

在本節中,我們描述了受 DocNADE 啟發,從多模態數據中聯合學習的方法。首先,我們描述了 DocNADE 的監督擴展(SupDocNADE),它將類標籤模態納入訓練,以學習更多的辨別性隱藏特徵用於分類。然後,我們描述了我們如何利用視覺詞的空間位置信息。最後,我們描述了如何與 SupDocNADE 聯合對文本標註模態進行建模。

3.1 有監督的 DocNADE

據觀察,使用無監督主題模型(如 LDA)學習圖像特徵表示,可能比使用適當的內核(如金字塔內核)直接在視覺詞本身上訓練分類器的表現更差。其中一個原因是,無監督主題特徵被訓練成儘可能多地解釋圖像的整個統計結構,可能不能很好地模擬我們在計算機視覺任務中所追求的特定的判別結構。這個問題已經在文獻中通過設計 LDA 的監督變體來解決,如監督 LDA 或 sLDA。DocNADE 也是一個無監督的主題模型,我們在這裡提出了 DocNADE 的監督變體 SupDocNADE,試圖使學習到的圖像表徵在圖像分類中更具判別力。

3.2 多區域處理

空間信息對理解圖像起著重要的作用,例如,天空常常出現在圖像的上部,而汽車常常出現在底部。例如,天空經常會出現在圖像的上部,而汽車最常出現在底部。以前的很多工作都成功地利用了這一直覺。例如,在關於空間金字塔的開創性工作中,表明在不同的區域上提取不同的視覺詞直方圖,而不是單一的圖像範圍直方圖,可以在性能上獲得大幅提升。

我們採用類似的方法,即我們同時模擬視覺詞的存在和它們出現的區域的身份。具體來說,我們假設圖像被劃分為幾個不同的區域 R = {R1,R2,...,RM},其中 M 是區域的數量。現在圖像可以表示為

3.3 注釋處理

到目前為止,我們已經介紹了如何對視覺詞和類標籤模態進行建模。在本節中,我們現在介紹一下我們如何用 SupDocNADE 也對注釋詞模態進行建模。

具體來說,讓 A 成為所有注釋詞的預定義詞彙,我們將給定圖像的注釋記為 a=[a1,a2,...,aL],其中 ai∈A,L 為注釋詞的數量。因此,圖像及其注釋可以表示為視覺詞和注釋詞的混合包:

為了將注釋詞嵌入到 SupDocNADE 框架中,我們用處理視覺詞的方式來處理每個注釋詞。具體來說,我們使用所有視覺詞和注釋詞的聯合索引,並使用一個更大的二進位詞樹,以便為注釋詞增加葉子。通過在這個圖像/注釋聯合表示 vA 上訓練 SupDocNADE,它可以學習標籤、空間嵌入的視覺詞和注釋詞之間的關係。

4 實驗與分析

為了測試 SupDocNADE 從多模態數據中學習的能力,我們評估了它在同步圖像分類和注釋任務下的性能。我們在 2 個真實世界的數據集上測試了我們的模型:LabelMe 數據集的一個子集和 UIUC-Sports 數據集。LabelMe 和 UIUC-Sports 帶有注釋,是流行的分類和注釋基準。我們對 SupDocNADE 與原始 DocNADE 模型和監督 LDA(sLDA)進行了廣泛的定量比較。我們還提供了一些與 MMLDA 和空間金字塔匹配(SPM)方法的比較。下載數據集和 SupDocNADE 的代碼可在https://sites.google.com/site/zhengyin1126/。

4.1 數據集

我們使用在線工具構建了我們的 LabelMe 數據集,從以下 8 個類中獲取大小為 256×256 像素的圖像:高速公路、城市內部、海岸、森林、高樓、街道、開闊地和山地。對於每個類別,隨機選取 200 張圖像,平均分配到訓練集和測試集中,共得到 1600 張圖像。

UIUC-Sports 數據集包含 1792 張圖像,分為 8 個類別:羽毛球(313 張圖像)、滾球(137 張圖像)、槌球(330 張圖像)、馬球(183 張圖像)、攀巖(194 張圖像)、划船(255 張圖像)、帆船(190 張圖像)、單板滑雪(190 張圖像)。按照之前的工作,在保持長寬比的前提下,將每張圖像的最大面調整為 400 像素。我們將每一類的圖像隨機平均分成訓練集和測試集。對於 LabelMe 和 UIUC-Sports 數據集,我們刪除了出現少於 3 次的標註詞。

4.2 實驗環境

採用 128 維、密集提取的 SIFT 特徵來提取視覺詞。密集 SIFT 提取的步長和補丁大小分別設置為 8 和 16。將訓練集的密集 SIFT 特徵量化為 240 個簇,利用 K-means 構建我們的視覺詞詞彙。我們將每幅圖像劃分為 2×2 的網格來提取空間位置信息。這產生了 2×2×240=960 個不同的視覺詞/區域對。

我們使用分類準確率來評估圖像分類的性能,並使用前 5 個預測注釋的平均 F-度量值來評估注釋性能。

SupDocNADE 的圖像分類是通過將學習到的文檔表示輸入到 RBF 內核 SVM 中進行的。在我們的實驗中,所有的超參數(SupDocNADE 中的學習率、無監督學習權重 λ,RBF 內核 SVM 中的 C 和 γ),都是通過交叉驗證選擇的。注釋詞在測試時不可用,所有的方法都僅僅基於圖像的視覺詞袋來預測圖像的類別。

4.3 對比分析

在本節中,我們描述了我們在 SupDocNADE、DocNADE 和 sLDA 之間的定量比較。我們在比較中使用了 sLDA 的實現,詳見http://www. cs.cmu.edu/ ̃chongw/slda/,我們向其輸入了與 DocNADE 和 SupDocNADE 相同的視覺(帶空間區域)和注釋詞。

分類結果如圖 3 所示。同樣,我們觀察到 SupDocNADE 的表現優於 DocNADE 和 sLDA。調整生成性學習和判別性學習之間的權衡,利用位置信息通常是有益的。只有一個例外,在 LabelMe 上,有 200 個隱藏的主題單元,使用 1×1 網格略微優於 2×2 網格。

至於圖像標註,我們計算了 200 個主題的模型的性能。如表 1 所示,SupDocNADE 在 LabelMe 和 UIUC-Sports 數據集上獲得的 F-measure 分別為 43.87%和 46.95%。這略優於普通 DocNADE。由於使用 sLDA 執行圖像標註的代碼沒有公開,我們直接與相應論文中的結果進行比較。Wang 等人報告 sLDA 的 F-measures 為 38.7%和 35.0%,大大低於 SupDocNADE。

圖 2. LabelMe(左)和 UIUCSports(右)數據集的混淆矩陣。

圖 3. LabelMe(偶數)和 UIUC-Sports(奇數)上的分類性能比較。在左邊,我們比較了 SupDocNADE、DocNADE 和 sLDA 的分類性能。在右邊,我們比較了 SupDocNADE 的不同變體之間的性能。

我們還與分別應用於圖像分類和標註的 MMLDA 進行了比較。如表 1 所示,MMLDA 報導的分類精度低於 SupDocNADE。在 LabelMe 上,報告的注釋性能優於 SupDocNADE,但在 UIUC-Sports 上表現較差。我們強調,MMLDA 並沒有聯合處理類標籤和注釋詞模態,不同模態被分開處理。

表 1.不同模型的對比

空間金字塔的方法也可以調整為同時進行圖像分類和標註。我們使用 from 的代碼生成 2 層-SPM 表示,詞彙量為 240,這與其他模型使用的配置相同。對於圖像分類,我們採用了與 Lazebnik 等人一樣的帶有直方圖交集核(HIK)的 SVM 作為分類器。對於標註,我們採用 k 個最近鄰(KNN)預測測試圖像的標註詞。具體來說,在訓練集中的 k 個最近的圖像中選擇前 5 個最頻繁的標註詞(基於具有 HIK 相似性的 SPM 表示)作為測試圖像的標註詞的預測。通過交叉驗證,對 5 個隨機分割的圖像分別選取數字 k。如表 1 所示,SPM 對 LabelMe 和 UIUC-Sports 的分類準確率達到 80.88%和 72.33%,低於 SupDocNADE。在標註方面,SPM 的 F-measure 也低於 SupDocNADE,LabelMe 和 UIUC-Sports 的 F-measure 分別為 43.68%和 41.78%。

圖 4. 由 SupDocNADE 對 LabelMe 數據集進行預測類和注釋。我們列出了一些正確的(上行)和不正確的(下行)分類圖像。預測的(藍色)和正確的(黑色)類標籤和注釋詞在每個圖像下呈現。

圖 4 展示了 SupDocNADE 在 LabelMe 數據集上做出的正確和錯誤預測的例子。圖 2 還提供了 LabelMe 和 UIUC-Sports 兩個基準上的分類混淆矩陣。

5 總結

在本文中,我們提出了 SupDocNADE,這是 DocNADE 的一個監督擴展,它可以從視覺詞、注釋和類標籤中聯合學習。和所有的主題模型一樣,我們的模型也是經過訓練的,可以對圖像的詞袋錶示的分布進行建模,並能從中提取有意義的表示。但與大多數話題模型不同的是,圖像表徵在模型中並不是作為一個潛伏的隨機變量來建模,而是作為神經自回歸網絡的隱藏層。SupDocNADE 的一個顯著優勢是,它不需要任何迭代、近似推理過程來計算圖像的表示。我們的實驗證實,SupDocNADE 是一種具有競爭力的多模態數據建模方法。

致謝

本文由南京大學軟體學院 2019 級碩士劉佳瑋轉述

相關焦點

  • 一種深度自動回歸的多模態數據主題建模方法
    建模多峰數據的另一種流行方法是通過深層神經網絡,例如深層 Boltzmann 機器(DBM)。最近,提出了一種新型的主題模型,稱為文檔神經自回歸分布估計器(DocNADE),並展示了文本文檔建模的最新性能。在這項工作中,作者展示了如何成功地將此模型應用和擴展到多峰數據,例如同步圖像分類和注釋。
  • 使用相關數據測試多模態
    摘要:我們提出通過從適當構造的轉換概率內核中進行重採樣來對具有相關數據的多模態進行測試一些關鍵詞:高斯核;馬爾可夫鏈 Silverman 測試;平滑的自回歸引導程序;均勻遍歷I 簡介對動力系統的研究激發了我們對多模態的興趣
  • 基於連結獨立成分分析的多模態數據融合
    獨立成分分析(Independent Component Analysis,ICA)是一種流行的無監督學習方法,可以有效地挖掘一組受試者的神經成像數據的變化模式。具體來說,當獲取受試者的多模態數據時,ICA 通常在每個模態上單獨執行,以完成不同模態之間的不兼容分解。
  • 使用深層信任網絡學習多模態數據的表示形式
    該模型定義了多模態輸入空間上的概率分布,並允許從每個數據模態的條件分布中進行採樣。即使缺少某些數據模態,這也使模型可以創建多模態表示。我們對由圖像和文本組成的雙模態數據的實驗結果表明,模態 DBN 可以學習圖像和文本輸入的聯合空間的良好生成模型,該模型對於填充缺失數據非常有用,因此可以將其用於 圖像注釋和圖像檢索。
  • 基於深度學習的多模態數據融合研究
    這些數據稱為多模態大數據,包含豐富的模態和跨模態的信息,因此這些數據對傳統的數據融合方法提出了巨大的挑戰。在這篇論文中,我們提出了一些開創性的深度學習模型來融合這些多模態的大數據。隨著對多模態大數據的不斷探索,仍然有一些挑戰需要解決。因此,本文將對多模態數據融合的深度學習進行一次調查,為讀者提供一個多模態的深度學習融合方法的基礎知識,並為他們提供新的深度學習多模態數據融合技術。
  • 面向多模態情感數據分析的智能框架
    為了應對如此多的多模態數據的增長,本文提出了一種新的多模態信息提取代理,它在諸如電子學習、電子健康、自動視頻內容標記和人機互動等環境中,推斷和聚集與用戶生成的多模態數據相關的語義和情感信息。我們所開發的智能代理採用集成特徵提取方法,通過聯合使用三模態(文本、音頻和視頻)特徵來增強多模態信息提取過程。
  • 基於協同矩陣分解的多模態數據的哈希方法
    摘要在計算機視覺和信息檢索領域,基於哈希的最近鄰搜索方法在有效和高效的大規模相似性搜索中備受矚目。以多模態數據為中心,本文研究了學習哈希函數進行跨視角的相似性搜索的問題。我們提出了一種新型的哈希方法,稱為協同矩陣分解的哈希(CMFH)。
  • 多模態數據融合挑戰
    我們用 "模態 "一詞來表示每一種這樣的獲取框架。由於自然現象及其發生環境的豐富特徵,單一模態能夠提供有關現象的完整知識是非常罕見的。越來越多的幾種模態同時出現,帶來了新的自由度。本文的目的是在概念層面提出多模態數據融合的各種挑戰,而不是側重於任何具體的模式、方法或應用。
  • 基於深度對抗學習的多模態缺失數據補全
    摘要多模態數據在腫瘤檢測、腦部疾病診斷等臨床中有著廣泛的應用。不同的模態通常可以提供互補的信息以提高診斷表現。然而由於各種原因,實際中通常缺失一些模態。因此多模態數據通常是不完整的,這也帶來了多模態缺失數據補全問題的研究。本文中我們將其轉換為一個圖像生成任務,並提出了一種編解碼器深度神經網絡來解決這一問題。
  • 深度耦合自動編碼器用於多模態傳感數據的故障診斷
    本研究提出了一種深度耦合自動編碼器(DCAE)模型,該模型可處理不存在於相應空間中的多模態傳感信號(例如振動和聲學數據),並將多模態數據的特徵提取無縫集成到數據融合中以進行故障診斷。具體來說,構造一個耦合自動編碼器(CAE)來捕獲不同的多模態感官數據之間的關節信息,然後設計一個 DCAE 模型以在更高層次上學習關節特徵。
  • 聚焦多模態自然語言處理,京東智聯雲亮相NLPCC 2020
    近年來,人工智慧 (AI) 在涉及單一模態如語音、自然語言和視覺等領域,取得了重大突破。在單一模態的任務上,如物體識別、語音識別、機器翻譯等,AI 系統在特定數據集上的表現水平與人類相當。隨著單模態人工智慧潛在問題的解決,研究人員意識到更高層次的AI任務往往涉及到跨多種模式的更複雜的信息處理。同時,局限於單一模態的研究往往不能充分利用跨模態信息。因此,研究多模態建模與學習方法具有重要的意義。
  • 移動人群感知中多模態數據融合的兩階段空間映射方法
    為了更好地處理多模數據,本文提出了一種多模數據的融合與分類方法。首先,構造多模態數據空間,將不同模態的數據映射到多模態數據空間中,得到不同模態數據的統一表示。然後,通過雙線性池對不同模態的表示進行融合,並將融合向量用於分類任務。通過對多模態數據集的實驗驗證,證明了多模態融合表示是有效的,分類效果比單模態數據更準確。
  • 用於分類和識別的多模態高維數據融合
    發明背景模式識別的先驗方法存在缺點。模態識別的第一種方法僅使用一個維度,並且不需要融合步驟。模態識別的第二種方法將每個信息源視為一個模態,並且確實需要一個融合步驟。僅使用一個維度的模態識別的第一種方法可能會遭受「維數的詛咒」, 比如導致無效的特徵到語義的映射以及無效的索引編制.。第二種方式識別方法,將每個信息源視為一種方式,可能由於信源之間的相互依賴性而出現不準確的情況。對於不同的方式,分類數據的融合也存在缺點。假定已經獲得了 D 模態,就需要 D 分類器來解釋每種模態的數據。
  • ECCV 2020 Spotlight | 基於條件生成網絡的多模態形狀補全
    因此,我們提出了多模態(multi-modal)形狀補全這一問題,即對殘缺形狀輸出多個可能、合理的補全結果。我們通過條件生成式建模(conditional generative modeling),在不需要配對的訓練數據情形下,設計了第一個基於點雲表示的多模態形狀補全的方法。
  • ECCV 2020 Spotlight|基於條件生成網絡的多模態形狀補全
    因此,我們提出了多模態(multi-modal)形狀補全這一問題,即對殘缺形狀輸出多個可能、合理的補全結果。我們通過條件生成式建模(conditional generative modeling),在不需要配對的訓練數據情形下,設計了第一個基於點雲表示的多模態形狀補全的方法。圖1.
  • 基於互信息的多模態數據融合
    摘要多模態可視化旨在融合不同的數據集,從而為用戶提供更多的信息。為此本文中我們提出了一種新的資訊理論方法,該方法從兩個數據集中自動選擇信息量最大的體素。其中融合標準基於兩個輸入數據集間的信息通道,該通道允許我們量化與每個強度值相關聯的信息。該方法已經集成到一個通用框架中,並在不同的醫學數據集上進行了評估。
  • 周明:預訓練模型在多語言、多模態任務的進展
    在大會上,微軟亞洲研究院副院長、國際計算語言學會(ACL)前任主席周明做了主題為《預訓練模型在多語言、多模態任務的進展》的特邀報告。然後詳細介紹預訓練模型在語言、圖像、文檔和視頻等任務中的進展,預訓練通過自監督學習從大規模數據中獲得與具體任務無關的預訓練模型。體現某一個詞在一個特定上下文中的語義表徵。第二個步驟是微調,針對具體的任務修正網絡。訓練數據可以是文本、文本-圖像對、文本-視頻對。預訓練模型的訓練方法可使用自監督學習技術(如自回歸的語言模型和自編碼技術)。可訓練單語言、多語言和多模態的模型。
  • 多模態情感分析數據集整理
    這裡整理一下平時所用的多模態情感數據集以備之用,後面會不斷地去添加,也希望能夠幫到其他人,歡迎大家補充。《Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion Model》--【多模態諷刺識別】2019年。論文中建立的數據集,包含文本和圖像兩個模態,具體來說是三個模態,文本部分包含兩個方面:一個是描述(文本模態),另一個是圖像的屬性,即圖像包含那些東西,用文字描述(也可以歸類為屬性模態)。
  • 同濟王昊奮:知識圖譜與多模態大數據時代 | 世界人工智慧大會
    簡而言之兩件事情:第一讓機器更好地理解數據,第二讓機器更好地解釋現象。圍繞我們本次主題,知識圖譜在各類深度學習的技術中也開始與各種感知智能技術做深入結合,比如圖像識別技術、語音識別技術等。另一方面,知識圖譜的動態性和多模態性也慢慢成為一種趨勢。
  • AAAI 2020 | 多模態基準指導的生成式多模態自動文摘
    近年來,隨著計算機視覺以及自然語言處理技術的發展,多模態自動文摘技術逐漸成為學術界和工業界研究的熱點。當前的多模態自動文摘受限於數據集本身的原因只能採用文本模態的負對數似然損失作為目標函數訓練整個網絡,同時利用注意力機制來輔助挑選圖片。這種做法容易帶來模態偏差的問題,即整個網絡會傾向於優化文本生成的質量而忽視了圖片的挑選過程,如圖1所示。