ACM MM | 中山大學等提出HSE:基於層次語義嵌入模型的精細化物體分類

2020-12-06 機器之心Pro

機器之心發布

作者:Tianshui Chen、Wenxi Wu、Yuefang Gao、Le Dong、Xiaonan Luo、Liang Lin

細粒度識別一般需要模型識別非常精細的子類別,它基本上就是同時使用圖像全局信息和局部信息的分類任務。在本論文中,研究者們提出了一種新型層次語義框架,其自頂向下地由全局圖像關注局部特徵或更具判別性的區域。

人類在識別物體類別時,往往不僅僅根據其外觀信息,還依賴於在日常生活以及專業學習過程中獲取的先驗知識。如何有效利用這些先驗知識引導和約束網絡學習是目前一個重要的研究難點。針對於精細化物體識別,其類別可以按照不同程度進行概念抽象,並形成了層次化的分類結構。這種結構是層級間豐富語義知識的集中體現,如層級間的關聯繫,它可以作為先驗知識規範化語義空間,有效引導和約束深度網絡的學習。近日,中山大學、華南農業大學、電子科技大學以及桂林電子大學聯合研究團隊提出層次化語義嵌入模型,有效利用層次化的分類結構引導網絡特徵學習以及約束其預測空間,在細粒度圖像識別問題上取得最優的性能。

論文地址:https://arxiv.org/pdf/1808.04505.pdf

模型介紹

一般來說,物體的類別可以按照不同程度進行概念抽象,由此形成了層次化的分類結構。例如,鳥類 (鳥綱) 可以按照目、科、屬、種四個層級分類。這種層次化信息編碼了不同層級的類別之間的關聯關係,可以作為一種先驗信息有效的規範語義空間。比如說,若要識別給定物體的細粒度類別 (例如,鳥「種」的類別),作者可能先識別出它的超類 (例如,鳥「屬」的類別)。然後,作者會更傾向於專注在那些屬於這個超類的細粒度類別,進而專注於可以為區分這些細粒度類別提供更多判別信息的物體區域。然而,目前的方法僅僅著眼於單個層級的類別,卻忽略了豐富的結構化信息。

在本論文的工作中,作者同時預測了分類層次結構中各層級的類別,並將這種結構化關聯信息集成到深層神經網絡中,以逐步約束標籤預測和指導特徵表達學習。為此,作者提出了一種新的層次語義嵌入框架(Hierarchical Semantic Embedding,簡稱 HSE),它可以自頂向下地逐層預測每個層級的類別的分數向量。在預測每個層級的類別時,HSE 框架將上一層級預測所得的得分向量作為先驗信息嵌入網絡,以學習更細緻的圖像特徵表達。在此,作者引入一種新的語義引導的視覺注意力機制來實現,這使得 HSE 框架可以定位到更具有判別性的區域以更好的識別物體。在訓練過程中,對於每一層級,作者還利用其上一層級預測所得的得分向量作為軟目標,去約束該層級的標籤預測,從而使該層級的預測結果與其上一層級的預測結果符合層次結構的關聯規則。方法的整體框架圖如圖 1 所示。

圖 1. 層次語義知識嵌入框架整體示意圖

數據集介紹

為了評估提出的框架其有效性,作者擴展了 Caltech-UCSD birds 數據集 (Extended CUB),將其組織成具有目、科、屬、種四個層級分類結構。同時,作者還構建一個大規模的蝴蝶數據集 (Butterfly-200),其類別標註同樣覆蓋了四個層級。

Butterfly-200 數據集涵蓋 200 種常見的蝴蝶,並根據生物學分類原理進一步的聚成 116 個屬,23 個亞科,5 個科。Butterfly200 共收納了超過了 25,279 張蝴蝶圖片,主要包括從網際網路利用關鍵詞檢索得到的自然圖片,以及從實驗室拍攝的到的標準圖片。為了數據集的精確性和可靠性,這些圖片由華南農業大學昆蟲學系的四位專家進行二次甄別。

Caltech-UCSD birds 數據集是目前精細化圖像分類最常用的評測基準數據集,該數據集包括涵蓋 200 類鳥的 11,788 張圖像。該論文根據生物學分類原理進一步把這 200 類聚成 13 個目,37 個科,122 個屬。

圖 2 展示來自這兩個數據集的一些樣本以及對應層次化標註。

圖 2. 來自 Extended CUB(第 1,2 行) 和 Butterfly-200(第 3,4 行) 的樣本以及對應層次化標註。

實驗結果

該論文在 Extended CUB,butterfly-200,以及最新發布的 VegFru 上進行實驗。

組件分析

作者首先設計兩個沒有引入語義嵌入的基準模型 (baseline 和 baseline+backtrack),如表 1,在 Extended CUB 和 Butterfly-200 的數據集上,HSE 框架在兩個數據集上的性能始終優於兩組對比的基準方法。

表 1. HSE 框架與其它引入額外信息的算法在 CUB 數據集上的首位識別準確率對比。

HSE 框架與兩種基準方法的比較證明了它作為一個整體的有效性。實際上,HSE 框架從兩個方面整合了語義相關信息,即:語義嵌入表示學習 (Semantic Embedding Representation Learning,簡稱 SERL) 和語義引導標籤正規化 (Semantic Guided Label Regularization,簡稱 SGLR)。作者同樣評估這兩部分的實際貢獻。作者分別去掉 SERL(Ours w/o SERL) 和 SGLR(Ours w/o SGLR) 模塊進行組件分析,如表 2 所示,去掉任一模塊都會在兩個數據集上的所有級別上的性能明顯下降。

物體精細化識別性能對比

作者在 CUB 和 VegFru 兩個數據集上和目前最先進的方法進行比較,結果如表 2 和表 3 所示。在兩個數據集上,HSE 框架均取得了優於當前最先進方法的性能。

表 2. HSE 框架與其它最先進的算法在 CUB 數據集上的首位識別準確率對比。

表 3. HSE 框架與其它先進方法在 Vegfru 數據集上的性能比較。

代碼,模型和數據連結:https://github.com/HCPLab-SYSU/HSE

引用:

[1] Tianshui Chen, Wenxi Wu, Yuefang Gao, Le Dong, Liang Lin, Fine-Grained Representation Learning and Recognition by Exploiting Hierarchical Semantic Embedding, in ACM MM, 2018.

[2] Catherine Wah, Steve Branson, Peter Welinder, Pietro Perona, and Serge Belongie. The caltech-ucsd birds-200-2011 dataset. California Institute of Technology, 2011.

[3] Saihui Hou, Yushan Feng, and Zilei Wang. VegFru: A Domain-Specific Dataset for Fine-grained Visual Categorization. In ICCV, 2017.

中山大學人機物體智能融合實驗室有著深厚的學術底蘊和強大的人才支持,指導學生在 PAMI,IJCV,CVPR,ICCV 等國際頂級的期刊、會議上發表多篇論文,論文具有國際影響力;在 ImageNet、全國研究生智慧城市技術與創意設計大賽、全國並行應用挑戰賽等頂尖賽事中屢獲殊榮。多年來,實驗室多名優秀學子紛紛走向了國際頂級學府和知名 AI 企業。

本文為機器之心發布,轉載請聯繫本公眾號獲得授權

相關焦點

  • 李偉:輿情事件等級評估及基於語義理解實現文本精細化分類
    人民網輿情數據中心主任數據分析師李偉分享的主題是:輿情事件等級評估及基於語義理解實現文本精細化分類。 基於知識圖譜和NLP的文本精細化分類 李偉首先闡述了知識圖譜和NLP的文本精細化分類的現實需求。在當前的文本分類,一般是結合上下文的情況進行分類,在語句層面以及「詞」的層面理解都不夠到位。因此需要進一步基於知識圖譜,利用NLP技術消除詞的歧義,對文本進行語義識別實現精細化分類,從詞和語句兩個層面來解決問題。
  • CVPR 2018:新型語義分割模型:動態結構化語義傳播網絡DSSPN
    近日,來自 CMU、Petuum 等機構的研究者提出一種新型語義分割模型動態結構化語義傳播網絡 DSSPN,通過將語義概念層次明確地結合到網絡中來構建語義神經元圖。實驗證明 DSSPN 優於當前最優的分割模型。
  • 7篇必讀ACM MM 2019論文:圖神經網絡+多媒體
    為了解決這些問題,我們提出了一個時間圖指導的推薦系統。特別是,我們首先設計了一個新穎的基於圖的順序網絡,以同時對用戶的動態興趣和多樣化興趣進行建模。同樣,可以從用戶的真實負樣本中捕獲不感興趣的信息。除此之外,我們通過用戶矩陣將用戶的多層次興趣引入推薦模型,該矩陣能夠學習用戶興趣的增強表示。最後,系統可以通過考慮上述特徵做出準確的推薦。在兩個公共數據集上的實驗結果證明了我們提出的模型的有效性。
  • ACM MM 2020大獎項出爐!南開獲最佳論文獎,西安交大獲最佳學生論文獎
    大會網站:https://2020.acmmm.org/大會組委會成員本次大會榮譽主席:本次大會主席:其中阿里巴巴集團副總裁、達摩院城市大腦實驗室負責人、IEEE Fellow 華先勝主要領導完成了所有線上會議的籌備工作
  • 谷歌通過深度度量學習,提出新的語義實例分割方法
    雷鋒網了解到,谷歌研究院近日與UCLA合作,提出了一種新的語義實例分割方法:首先計算兩個像素屬於同一對象的可能性,然後將相似的像素分組在一起。其中,相似性度量是基於深度,完全卷積的嵌入模型,而分組方法是基於選擇所有與一組「種籽點」足夠相似的點,這個選擇模型是一個深度的、完全卷積的評分模型。
  • 文本嵌入的經典模型與最新進展
    對通用嵌入的追求是一大趨勢:在大型語料庫上預訓練好的嵌入,可以插入各種下遊任務模型(情感分析、分類、翻譯等),通過融合一些在更大的數據集中學習得到的常用詞句表示,自動提高它們的性能。這是一種遷移學習。最近,遷移學習被證明可以大幅度提高 NLP 模型在重要任務(如文本分類)上的性能。
  • ACM MM最佳論文全文:通過多對抗訓練,從圖像生成詩歌
    這些被檢索的詩歌的圖片,與多模態詩集一同,構成一個擴大的圖像-詩歌對數據集(即「多模態詩集(EX)」)。我們還提出使用最新的序列學習技術,訓練關於多模態詩集(EX)數據集的端對端詩歌生成模型。該架構保證我們能夠從擴展的圖像-詩歌對中發現並塑造大量的詩歌線索,這對詩歌生成而言至關重要。
  • 語義分割領域開山之作:Google提出用神經網絡搜索實現語義分割
    Google 在 Cloud AutoML 不斷發力,相比較而言之前的工作只是在圖像分類領域精耕細作,如今在圖像分割開疆擴土,在 arxiv 提交第一篇基於 NAS(Neural network architecture)的語義分割模型[1](DPC,dense prediction cell)已經被 NIPS2018 接收,並且在 Cityscapes,PASCAL-Person-Part
  • 2019 語義分割指南
    語義分割是指將圖像中的每個像素歸於類標籤的過程,這些類標籤可以包括一個人、汽車、鮮花、一件家具等。我們可以將語義分割認為是像素級別的圖像分類。例如,在有許多汽車的圖像中,分割會將所有對象標記為汽車對象。然後,一個稱為實例分割的模型能夠標記一個出現在圖像中的物體的獨立實例。
  • 谷歌開源語義圖像分割模型:該領域當前最優模型
    剛剛,谷歌開源了語義圖像分割模型 DeepLab-v3+,DeepLab-v3+結合了空間金字塔池化模塊和編碼器-解碼器結構的優勢,是自三年前的 DeepLab 以來的最新、性能最優的版本。分配這些語義標籤的時候需要精準定位目標的輪廓,因此相比其他的視覺實體識別任務(如圖像級分類或邊界框級檢測等),該任務需要更高的定位準確率。今天,谷歌開源了其最新、性能最優的語義圖像分割模型 DeepLab-v3+ [1],該模型使用 TensorFlow 實現。
  • ACL2020|基於正交關係轉換與圖上下文建模的知識圖嵌入
    知識圖譜嵌入表示了連續向量空間中的實體和關係,可以用於連結預測等方面,大致可以分為基於距離和語義匹配模型兩類。基於距離的模型又稱加性模型,因為它將頭尾實體投影到相同的嵌入空間中,利用兩個實體嵌入之間的距離評分來衡量給定三元組的相似性,比如TransE(2013),TransR(2015)和RotatE(2019)等。
  • 論文淺嘗 | 基於超平面的時間感知知識圖譜嵌入
    本文提出了 HyTE 模型,HyTE 不僅能夠利用時間導向進行知識圖譜圖推理,還能夠為那些缺失時間注釋的事實預測temporal scopes 。實驗結果表明該模型與傳統模型或者同類模型相比都有著突出的表現。
  • DeepLabv3+:語義分割領域的新高峰
    針對信號下採樣或池化降低解析度,DeepLab 是採用的 atrous(帶孔)算法擴展感受野,獲取更多的上下文信息。分類器獲取以對象中心的決策是需要空間變換的不變性,這天然地限制了 DCNN 的定位精度,DeepLab 採用完全連接的條件隨機場(CRF)提高模型捕獲細節的能力。
  • Bioinf | 生物醫學網絡中的圖嵌入:方法、應用與評價
    ,蛋白質與蛋白質相互作用(PPI)預測和兩結點分類任務:醫學術語語義類型分類,蛋白質功能預測。最近,研究人員專注於設計各種高階數據鄰接矩陣以保留圖結構,並提出各種基於MF的圖嵌入學習方法。例如,GraRep考慮了網絡的高階鄰近性,並設計了k階概率矩陣分解。
  • 深度學習閱讀導航 | 03 FPN:基於特徵金字塔網絡的目標檢測
    (c) 重複使用由ConvNet計算的金字塔特徵層次,就好像它是特徵化的圖像金字塔一樣。(d) 本文提出的特徵金字塔網絡(FPN)與(b)和©一樣快速,但更準確。(a) 特徵化的圖像金字塔在ImageNet和COCO檢測挑戰賽中,最近所有排名靠前的模型都使用了特徵化的圖像金字塔(如圖a)的多尺度測試。對圖像金字塔的每一層進行特徵化的主要優點是,它產生了一種多尺度特徵表示,其中所有層次(包括高解析度層級)在語義上都很強。一個極端的例子是DPM方法使用了接近10種不同尺度來取得不錯的效果。
  • 9102年了,語義分割的入坑指南和最新進展都是什麼樣的
    在這篇文章中,作者介紹了近來優秀的語義分割思想與解決方案,它可以稱得上是 2019 語義分割指南了。我們可以認為語義分割是像素級別的圖像分類。例如,在一幅有很多輛車的圖像中,分割模型將會把所有的物體(車)標記為車輛。但是,另一種被稱為實例分割的模型能夠將出現在圖像中的獨立物體標記為獨立的實例。這種分割在被用在統計物體數量的應用中是很有用的(例如,統計商城中的客流量)。
  • SLAM的動態地圖和語義問題
    當年做IBR(image-based rendering)的時候,以panorama view為例,也是假設場景物體不動,可總是有不靜止的物體,比如水,比如樹葉,甚至不配合的人們走動,會產生鬼影嗎?結果也提出了一堆的解決方法。SFM和MVG(multiple view geometry)緊密相關吧,都面臨計算機視覺的共同問題,動態環境是迴避不了的。
  • 文本分類六十年
    這些文獻中已經提出了許許多多的算法模型、基準數據集一集評測指標,因此需要一個對這個領域進行全面而且跟進趨勢的調查。這裡我們介紹基於機器學習和深度學習的文本分類,主要內容來自北航、伊利諾伊大學等學者聯合發表論文 A Survey on Text Classification: From Shallow to Deep Learning。
  • 百度NLP主任架構師全面講解百度語義表示技術及最新進展
    所以如何讓計算機能夠表示語言是研究的重點,讓其既能夠蘊含語義信息又可以計算。當前主要有兩類方法,一是基於形式化規則的方法,如通過構建語義關係網絡來描述語義的信息;二是基於統計的方法,包括主題模型、Word Embedding等技術。