Zheng Y, Zhang Y J, Larochelle H. Topic modeling of multimodal data: an autoregressive approach[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2014: 1370-1377.
基於 LDA 的主題建模一直是處理多模態數據的首選框架,在圖像標註任務中已有了大量實例。最近,一種名為 &34;(DocNADE)的新型主題模型被提出,並為文本文檔建模展示了最先進的性能。在這項工作中,我們展示了如何成功地將該模型應用和擴展到多模態數據中,例如同時進行圖像分類和注釋。具體來說,我們提出了 DocNADE 的監督擴展 SupDocNADE,通過將標籤信息納入模型的訓練目標來提高隱藏主題特徵的分辨力,並展示了如何運用 SupDocNADE 從圖像視覺詞、注釋詞和類標籤信息中學習聯合表示。我們還描述了如何利用視覺詞的空間位置信息來進行 SupDocNADE,以簡單而有效的方式實現更好的性能。我們在 LabelMe 和 UIUC-Sports 數據集上測試了我們的模型,並表明它與其他主題模型,如 LDA 的監督變體和空間匹配金字塔(SPM)方法相比,具有良好的性能。
多模態數據建模結合了不同來源的信息,在計算機視覺領域越來越受到關注。其中一種領先的方法是基於主題建模,最流行的模型是 LDA。LDA 是一種文檔的生成模型,它起源於自然語言處理界,但在計算機視覺領域取得了巨大的成功。LDA 將文檔建模為話題上的多義分布,其中話題本身就是詞的多義分布。雖然主題的分布對每個文檔來說是特定的,但與主題相關的詞的分布是所有文檔共享的。因此,主題模型可以通過從文檔所包含的單詞中推斷其在主題上的潛在分布,從文檔中提取有意義的語義表示。在計算機視覺的背景下,LDA 可以通過首先從圖像中提取所謂的 &34;,將圖像轉換為視覺詞文檔,並在視覺詞袋上訓練 LDA 主題模型。
為了處理多模態數據,最近有人提出了一些 LDA 的變體。例如,Corr-LDA 通過假設每個圖像主題必須有一個對應的文本主題,來發現圖像和標註方式之間的關係。多模態 LDA 通過學習不同模態的主題相關的回歸模塊,對 Corr-LDA 進行了概括。多模態文檔隨機場模型(MDRF)也是為了處理多模態數據而提出的,它從包含多模態數據的文檔語料庫中學習跨模態相似性。除了標註詞,類標籤模態也可以嵌入到 LDA 中,如在 sLDA 中。通過對圖像視覺詞、標註詞及其類標籤進行建模,可以提高學習圖像表徵的分辨能力。
大多數主題模型的核心是生成式的,其中首先生成圖像的潛伏表徵,隨後由這個表徵生成視覺詞。這種方法的吸引力在於,從觀察結果中提取表徵的任務很容易被框定為一個概率推理問題,對此存在許多通用的解決方案。然而缺點是,隨著模型變得越來越複雜,推理變得越來越瑣碎,計算成本越來越高。例如在 LDA 中,推理題目上的分布並沒有一個閉式解,必須用變異近似推理或 MCMC 抽樣來近似。然而,該模型其實比較簡單,做了某些簡化的獨立性假設,比如視覺詞給定圖像在話題上的潛伏分布的條件獨立性。
Larochelle 和 Lauly 提出了一種針對文檔的另一種生成式建模方法。他們的神經自回歸分布估計器(DocNADE),通過將文檔分解為條件分布的乘積(通過概率鏈規則),並使用神經網絡對每個條件進行建模,直接對文檔中單詞的聯合分布進行建模。因此,DocNADE 不包含任何潛在的隨機變量,而這些變量必須在其上進行昂貴的推理。相反,可以使用神經網絡的隱藏層的值,以簡單的前饋方式有效地計算文檔表示。Larochelle 和 Lauly 還表明,DocNADE 是一個較好的文本文檔生成模型,可以提取有用的表徵用於文本信息檢索。
在本文中,我們考慮了 DocNADE 在計算機視覺中處理多模態數據的應用。更具體地說,我們提出了 DocNADE 的一個監督變體(SupDocNADE),它可以用來模擬圖像的視覺詞、注釋詞和類標籤上的聯合分布。該模型如圖 1 所示。我們研究了如何成功地納入視覺詞的空間信息,並強調了校準訓練目標的生成性和判別性部分的重要性。我們的結果證實,這種方法可以優於其他主題模型,如 LDA 的監督變體。
圖 1. 多模態圖像數據的 SupDocNADE 圖解
在以往的工作中,DocNADE 被用來對實詞的文檔進行建模,屬於一些預定義的詞彙。為了對圖像數據進行建模,我們假設圖像首先被轉換為一袋視覺詞。一個標準的方法是通過對從所有訓練圖像中密集抽取的 SIFT 描述符進行 K-means 聚類來學習視覺詞的詞彙。從這一點來看,任何圖像都可以被表示為一袋視覺詞 v= [v1,v2,...,vD],其中每個 vi 是最接近從圖像中提取的第 i 個 SIFT 描述符的 K-means 聚類的索引,D 是提取的描述符的數量。
在本節中,我們描述了受 DocNADE 啟發,從多模態數據中聯合學習的方法。首先,我們描述了 DocNADE 的監督擴展(SupDocNADE),它將類標籤模態納入訓練,以學習更多的辨別性隱藏特徵用於分類。然後,我們描述了我們如何利用視覺詞的空間位置信息。最後,我們描述了如何與 SupDocNADE 聯合對文本標註模態進行建模。
據觀察,使用無監督主題模型(如 LDA)學習圖像特徵表示,可能比使用適當的內核(如金字塔內核)直接在視覺詞本身上訓練分類器的表現更差。其中一個原因是,無監督主題特徵被訓練成儘可能多地解釋圖像的整個統計結構,可能不能很好地模擬我們在計算機視覺任務中所追求的特定的判別結構。這個問題已經在文獻中通過設計 LDA 的監督變體來解決,如監督 LDA 或 sLDA。DocNADE 也是一個無監督的主題模型,我們在這裡提出了 DocNADE 的監督變體 SupDocNADE,試圖使學習到的圖像表徵在圖像分類中更具判別力。
空間信息對理解圖像起著重要的作用,例如,天空常常出現在圖像的上部,而汽車常常出現在底部。例如,天空經常會出現在圖像的上部,而汽車最常出現在底部。以前的很多工作都成功地利用了這一直覺。例如,在關於空間金字塔的開創性工作中,表明在不同的區域上提取不同的視覺詞直方圖,而不是單一的圖像範圍直方圖,可以在性能上獲得大幅提升。
我們採用類似的方法,即我們同時模擬視覺詞的存在和它們出現的區域的身份。具體來說,我們假設圖像被劃分為幾個不同的區域 R = {R1,R2,...,RM},其中 M 是區域的數量。現在圖像可以表示為
到目前為止,我們已經介紹了如何對視覺詞和類標籤模態進行建模。在本節中,我們現在介紹一下我們如何用 SupDocNADE 也對注釋詞模態進行建模。
具體來說,讓 A 成為所有注釋詞的預定義詞彙,我們將給定圖像的注釋記為 a=[a1,a2,...,aL],其中 ai∈A,L 為注釋詞的數量。因此,圖像及其注釋可以表示為視覺詞和注釋詞的混合包:
為了將注釋詞嵌入到 SupDocNADE 框架中,我們用處理視覺詞的方式來處理每個注釋詞。具體來說,我們使用所有視覺詞和注釋詞的聯合索引,並使用一個更大的二進位詞樹,以便為注釋詞增加葉子。通過在這個圖像/注釋聯合表示 vA 上訓練 SupDocNADE,它可以學習標籤、空間嵌入的視覺詞和注釋詞之間的關係。
為了測試 SupDocNADE 從多模態數據中學習的能力,我們評估了它在同步圖像分類和注釋任務下的性能。我們在 2 個真實世界的數據集上測試了我們的模型:LabelMe 數據集的一個子集和 UIUC-Sports 數據集。LabelMe 和 UIUC-Sports 帶有注釋,是流行的分類和注釋基準。我們對 SupDocNADE 與原始 DocNADE 模型和監督 LDA(sLDA)進行了廣泛的定量比較。我們還提供了一些與 MMLDA 和空間金字塔匹配(SPM)方法的比較。下載數據集和 SupDocNADE 的代碼可在https://sites.google.com/site/zhengyin1126/。
我們使用在線工具構建了我們的 LabelMe 數據集,從以下 8 個類中獲取大小為 256×256 像素的圖像:高速公路、城市內部、海岸、森林、高樓、街道、開闊地和山地。對於每個類別,隨機選取 200 張圖像,平均分配到訓練集和測試集中,共得到 1600 張圖像。
UIUC-Sports 數據集包含 1792 張圖像,分為 8 個類別:羽毛球(313 張圖像)、滾球(137 張圖像)、槌球(330 張圖像)、馬球(183 張圖像)、攀巖(194 張圖像)、划船(255 張圖像)、帆船(190 張圖像)、單板滑雪(190 張圖像)。按照之前的工作,在保持長寬比的前提下,將每張圖像的最大面調整為 400 像素。我們將每一類的圖像隨機平均分成訓練集和測試集。對於 LabelMe 和 UIUC-Sports 數據集,我們刪除了出現少於 3 次的標註詞。
採用 128 維、密集提取的 SIFT 特徵來提取視覺詞。密集 SIFT 提取的步長和補丁大小分別設置為 8 和 16。將訓練集的密集 SIFT 特徵量化為 240 個簇,利用 K-means 構建我們的視覺詞詞彙。我們將每幅圖像劃分為 2×2 的網格來提取空間位置信息。這產生了 2×2×240=960 個不同的視覺詞/區域對。
我們使用分類準確率來評估圖像分類的性能,並使用前 5 個預測注釋的平均 F-度量值來評估注釋性能。
SupDocNADE 的圖像分類是通過將學習到的文檔表示輸入到 RBF 內核 SVM 中進行的。在我們的實驗中,所有的超參數(SupDocNADE 中的學習率、無監督學習權重 λ,RBF 內核 SVM 中的 C 和 γ),都是通過交叉驗證選擇的。注釋詞在測試時不可用,所有的方法都僅僅基於圖像的視覺詞袋來預測圖像的類別。
在本節中,我們描述了我們在 SupDocNADE、DocNADE 和 sLDA 之間的定量比較。我們在比較中使用了 sLDA 的實現,詳見http://www. cs.cmu.edu/ ̃chongw/slda/,我們向其輸入了與 DocNADE 和 SupDocNADE 相同的視覺(帶空間區域)和注釋詞。
分類結果如圖 3 所示。同樣,我們觀察到 SupDocNADE 的表現優於 DocNADE 和 sLDA。調整生成性學習和判別性學習之間的權衡,利用位置信息通常是有益的。只有一個例外,在 LabelMe 上,有 200 個隱藏的主題單元,使用 1×1 網格略微優於 2×2 網格。
至於圖像標註,我們計算了 200 個主題的模型的性能。如表 1 所示,SupDocNADE 在 LabelMe 和 UIUC-Sports 數據集上獲得的 F-measure 分別為 43.87%和 46.95%。這略優於普通 DocNADE。由於使用 sLDA 執行圖像標註的代碼沒有公開,我們直接與相應論文中的結果進行比較。Wang 等人報告 sLDA 的 F-measures 為 38.7%和 35.0%,大大低於 SupDocNADE。
圖 2. LabelMe(左)和 UIUCSports(右)數據集的混淆矩陣。
圖 3. LabelMe(偶數)和 UIUC-Sports(奇數)上的分類性能比較。在左邊,我們比較了 SupDocNADE、DocNADE 和 sLDA 的分類性能。在右邊,我們比較了 SupDocNADE 的不同變體之間的性能。
我們還與分別應用於圖像分類和標註的 MMLDA 進行了比較。如表 1 所示,MMLDA 報導的分類精度低於 SupDocNADE。在 LabelMe 上,報告的注釋性能優於 SupDocNADE,但在 UIUC-Sports 上表現較差。我們強調,MMLDA 並沒有聯合處理類標籤和注釋詞模態,不同模態被分開處理。
表 1.不同模型的對比
空間金字塔的方法也可以調整為同時進行圖像分類和標註。我們使用 from 的代碼生成 2 層-SPM 表示,詞彙量為 240,這與其他模型使用的配置相同。對於圖像分類,我們採用了與 Lazebnik 等人一樣的帶有直方圖交集核(HIK)的 SVM 作為分類器。對於標註,我們採用 k 個最近鄰(KNN)預測測試圖像的標註詞。具體來說,在訓練集中的 k 個最近的圖像中選擇前 5 個最頻繁的標註詞(基於具有 HIK 相似性的 SPM 表示)作為測試圖像的標註詞的預測。通過交叉驗證,對 5 個隨機分割的圖像分別選取數字 k。如表 1 所示,SPM 對 LabelMe 和 UIUC-Sports 的分類準確率達到 80.88%和 72.33%,低於 SupDocNADE。在標註方面,SPM 的 F-measure 也低於 SupDocNADE,LabelMe 和 UIUC-Sports 的 F-measure 分別為 43.68%和 41.78%。
圖 4. 由 SupDocNADE 對 LabelMe 數據集進行預測類和注釋。我們列出了一些正確的(上行)和不正確的(下行)分類圖像。預測的(藍色)和正確的(黑色)類標籤和注釋詞在每個圖像下呈現。
圖 4 展示了 SupDocNADE 在 LabelMe 數據集上做出的正確和錯誤預測的例子。圖 2 還提供了 LabelMe 和 UIUC-Sports 兩個基準上的分類混淆矩陣。
在本文中,我們提出了 SupDocNADE,這是 DocNADE 的一個監督擴展,它可以從視覺詞、注釋和類標籤中聯合學習。和所有的主題模型一樣,我們的模型也是經過訓練的,可以對圖像的詞袋錶示的分布進行建模,並能從中提取有意義的表示。但與大多數話題模型不同的是,圖像表徵在模型中並不是作為一個潛伏的隨機變量來建模,而是作為神經自回歸網絡的隱藏層。SupDocNADE 的一個顯著優勢是,它不需要任何迭代、近似推理過程來計算圖像的表示。我們的實驗證實,SupDocNADE 是一種具有競爭力的多模態數據建模方法。
本文由南京大學軟體學院 2019 級碩士劉佳瑋轉述