ICCV中國團隊入選論文:首個提出視覺相關關係構建更高語義價值

2021-01-08 新智元

【新智元導讀】本文提出視覺相關的對象關係在語義理解上有更高的價值。在視覺關係學習表達中,我們需要關注於視覺相關關係,而避免對於視覺無關的信息學習。由於現有數據中存在大量的非視覺的先驗信息,方法上很容易學到簡單的位置關係或單一固定關係,而不具備進一步推測學習語義信息的能力。從而導致現有關係數據的表徵並不能明顯提升語義相關任務性能。來 新智元AI朋友圈 和AI大咖們一起討論吧。

本文提出視覺相關的對象關係在語義理解上有更高的價值。在視覺關係學習表達中,我們需要關注於視覺相關關係,而避免對於視覺無關的信息學習。由於現有數據中存在大量的非視覺的先驗信息,方法上很容易學到簡單的位置關係或單一固定關係,而不具備進一步推測學習語義信息的能力。從而導致現有關係數據的表徵並不能明顯提升語義相關任務性能。而本文提出明確了視覺關係學習中什麼是值得學習的,什麼是需要學習的。並且通過實驗,也驗證了所提出的視覺相關關係數據可以有效的提升特徵的語義理解能力。

數據及項目網站:

論文:

引文:

在計算機視覺的研究中,感知任務(如分類、檢測、分割等)旨在準確表示單個物體對象信息;認知任務(如看圖說話、問答系統等)旨在深入理解整體場景的語義信息。而從單個物體對象到整體場景,視覺關係表徵兩個物體之間的交互,連接多個物體構成整體場景。關係數據可以作為物體感知任務和語義認知任務之間的橋梁和紐帶,具有很高的研究價值。

考慮到關係數據在語義上的這種紐帶的作用,對象關係數據應當有效的推進計算機視覺方法對於場景語義理解上的能力。構建從單物體感知,到關係語義理解,到整體場景認知,由微觀到宏觀,由局部到整體的層次化的視覺理解能力。

但現有關係數據中,由於大量先驗偏置信息的存在,導致關係數據的特徵並不能有效的利用在語義理解中。其中,位置關係如``on'', ``at''等將關係的推理退化為對象檢測任務,而單一固定的關係,如``wear'',``has''等,由於數據中主體客體組合搭配固定,此類關係將關係推理退化為簡單演繹推理。因此這些關係數據的大量存在,導致關係特徵的學習更多傾向於對單物體感知,而非真正的對場景語義的理解,從而無法使關係數據發揮的作用。同時,這種語義上的、學習上的先驗偏置,無法通過常規的基於頻率或規則的方法篩選剔除,這導致上述數據端的問題阻礙了關係語義理解上的發展與研究,使得視覺對象關係的研究與語義理解的目標漸行漸遠。

本文首先提出視覺相關假設和視覺相關關係判別網絡來構建具有更高語義價值的數據集。我們認為,許多關係數據不需要理解圖像,僅僅通過單物體感知上的標籤信息(如bounding box, class)就可以推斷的是關係學習中應避免的,即非視覺相關關係。而在關係數據中,對於視覺相關關係的學習與理解,將逼迫網絡通過圖像上的視覺信息,推理得到關係語義信息,而不是依賴基於單物體感知的能力,擬合先驗偏置的標籤。

在我們的方法中,我們設計了一個視覺相關判別網絡,通過網絡自主的學習,分辨那些僅通過一些標籤信息即可推斷的非視覺相關關係,從而保證數據中留存的都是具有高語義價值的視覺相關關係。此外,我們設計了一個考慮關係的聯合訓練方法,有效的學習關係標籤的信息。在實驗中,我們從兩個方面驗證了我們的想法。關係表徵學習中,在場景圖生成任務上,我們的視覺相關關係有效的拉大了學習型方法與非學習型方法之間的性能差距,由此證明了非視覺關係是關係數據中的先驗偏置且通過簡單方法即可推斷。另一方面,通過學習視覺相關關係,我們得到的特徵具有更好的語義表達與理解能力。該特徵也在問答系統、看圖說話中展現出更好的性能,由此證明了視覺相關關係是真正需要被學習,且更有利於提升語義理解能力。

方法:

1. 視覺相關判別網絡(VD-Net)

提出的VD-Net用於分辨對象關係是否視覺相關。網絡僅需要物體對象的位置信息bounding box和類別信息class,並將兩種信息做編碼輸入,而不考慮圖像信息。具體輸入如下:

位置編碼:

其中含有物體中心點、寬高、位置關係信息、尺寸信息等。

針對類別信息,我們使用類別標籤的glove 特徵向量作為輸入。

網絡設置如下:

為了避免過擬合,網絡設計需要儘可能的小。網絡包含4個全連接層,其中,,分別是主體、客體的位置編碼及二者聯合位置編碼。,分別是主體、客體對象的類別詞向量。

通過VD-Net的學習,可以發現現有的數據集中,關係預測具有很高的準確率,在VG150中,37%的標籤在VD-Net中有至少50%的準確率。

2. 考慮關係信息的聯合特徵學習:

我們提出的方法如下:

其中,我們使用Faster-RCNN用於特徵提取,取自於RPN部分。網絡綜合的學習位置、類別、屬性和關係信息。通過對象關係的信息,進一步拓展特徵的語義表徵能力。

實驗:

1. 場景圖生成實驗:

Freqency-Baseline是非學習型方法,基於對數據的統計。在我們的實驗中,VrR-VG明顯的拉開了非學習方法與可學習方法之間的性能差距。更加凸顯出場景圖生成任務中,各個方法的真實性能。同時,實驗也說明非視覺相關的關係比較容易。相對來說,在含有大量非視覺關係的情況下,網絡學習到的內容和基於統計的非學習型方法直接推斷的內容差距有限。

2.

在問答系統實驗中,通過學習視覺相關關係,特徵具有更好的性能,在指標上有明顯的提升。

在具體的案例分析上,通過學習視覺相關關係,特徵能夠提供更多的語義信息。一些通過單物體信息無法正確回答的問題,在我們的方法下有明顯的效果。

3.

在看圖說話的任務中,通過學習視覺相關關係,任務的性能也有提升。

通過對生成的句子案例分析,我們可以發現,我們的方法給出了一些具有鮮明語義關係的句子。有時句子整體會有更加鮮活的表達,內涵更加豐富的交互信息。

結論:

在對象關係的學習與應用中,我們需要關注視覺相關關係的學習。現有關係數據不能有效的利用在語義相關的任務中,其主要問題是在數據側而非方法側。為了使對象關係應該在語義理解上有更廣泛深入的引用,需要首先明晰那些關係需要學習。在解決什麼需要學的前提下,才能在如何學習的方法側走的更遠。

相關焦點

  • ICCV 2019 | VrR-VG:聚焦視覺相關關係
    作者丨梁遠智學校丨西安交通大學碩士生研究方向丨視覺關係本文提出視覺相關的對象關係在語義理解上有更高的價值。在視覺關係學習表達中,我們需要關注於視覺相關關係,而避免對於視覺無關的信息學習。由於現有數據中存在大量的非視覺的先驗信息,方法上很容易學到簡單的位置關係或單一固定關係,而不具備進一步推測學習語義信息的能力。從而導致現有關係數據的表徵並不能明顯提升語義相關任務性能。而本文提出明確了視覺關係學習中什麼是值得學習的,什麼是需要學習的。並且通過實驗,也驗證了所提出的視覺相關關係數據可以有效的提升特徵的語義理解能力。
  • 【博士論文】面向物體語義理解的視覺表示學習
    來自中科院計算所劉昊淼的博士論文,入選2020年度「CCF優秀博士學位論文獎
  • 阿里iDST ICCV 2017錄用論文詳解:基於層次化多模態LSTM的視覺語義...
    雷鋒網 AI 科技評論按:ICCV,被譽為計算機視覺領域三大頂級會議之一的、作為計算機視覺領域最高級別的會議之一,其論文集代表了計算機視覺領域最新的發展方向和水平。阿里巴巴在今年的 ICCV 2017上有多篇論文入選。
  • AAAI 2020 開幕:百度28篇論文入選 涉及NLP、機器學習、視覺等領域
    本屆大會百度共有28篇論文被收錄,較AAAI 2019的15篇入選成績提升近一倍,本次入選論文涉及機器學習、自然語言處理、計算機視覺等多個領域,原計劃有多位百度重量級科學家、研究者將受邀赴會發表演講。受疫情影響,眾多中國學者將缺席本次大會,百度作為中國人工智慧行業「頭雁」,通過積極的遠程參與,向世界展示技術、學術能力,提振中國AI開年信心。
  • 【ICCV2017論文技術解讀】阿里-基於層次化多模態LSTM的視覺語義聯合嵌入
    ICCV2017論文:《基於層次化多模態LSTM的視覺語義聯合嵌入》(Hierarchical Multimodal LSTM for Dense Visual-Semantic Embedding)近年來, 隨著深度學習技術的快速發展
  • ICCV 引用量最高的10篇論文!何愷明兩篇一作論文:Mask R-CNN和PReLU,Facebook佔據四席!
    各位CVers反映內容很贊,於是Amusi 快速整理了ICCV 引用量最高的10篇論文。在谷歌發布的2020年的學術指標(Scholar Metrics)榜單,ICCV 位列總榜第29位,是計算機視覺領域排名第二的大會!
  • 商湯科技57篇論文入選ICCV 2019,13項競賽奪冠
    今年的ICCV,商湯科技繼續在入選論文數量、質量以及諸多競賽項目中刷新紀錄,彰顯中國原創技術的領先性及深厚學術底蘊,引領計算機視覺學術發展。  商湯科技及聯合實驗室共有57篇論文入選ICCV 2019(包含11篇Oral),同時在Open Images、COCO、LVIS等13項重要競賽中奪冠!
  • 騰訊優圖學術再進階 論文入選計算機視覺領頂級會議CVPR 2018
    據外媒報導,即將在6月美國鹽湖城舉行的計算機視覺頂級會議CVPR 2018,騰訊優圖的其中兩篇入選論文,由於其較高的應用價值,受到學術界和產業界的關注。此次騰訊優圖入選的論文提出了諸多創新點,既是科研實力的體現,更挖掘出了更多可擴展應用技術,視覺AI有望為學術界和產業界帶來更多有價值的貢獻。
  • 計算機視覺頂會ICCV論文解讀
    作為計算機視覺領域最高級別的會議之一,其論文集代表了計算機視覺領域最新的發展方向和水平。阿里巴巴在今年的大會上有多篇論文入選,本篇所解讀的論文是阿里iDST與多家機構合作的入選論文之一,目標是教會機器讀懂圖片並儘量完整表達出來。
  • 騰訊優圖的 ICCV 2017:12篇論文入選 CV 頂會,3篇Oral|ICCV 2017
    被譽為計算機視覺領域三大頂級會議之一的ICCV(另外兩個為CVPR、ECCV)近日揭曉收錄論文名單,騰訊優圖共有12篇論文入選,其中3篇被選做口頭報告(Oral),該類論文僅佔總投稿數的2.1%(45/2143)。本屆 ICCV 共收到2143篇論文投稿,其中621篇被選為大會論文,錄用比例29%。
  • .| 讓機器幫你做行測題,UCLA朱松純團隊提出關係和類比視覺推理...
    為了突破當前視覺推理能力的極限,UCLA 朱松純團隊基於一項更難的人類視覺推理任務——瑞文測試(RPM,例如《行測》中的圖形推理題)構建了關係和類比視覺推理數據集 RAVEN。與之前使用 RPM 評估抽象推理能力的工作不同,他們通過提供結構表徵來建立視覺和推理之間的語義聯繫。通過對結構表徵進行聯合操作,可以實現新型的抽象推理。
  • ECCV2020論文收錄揭曉,百度AI入選10篇論文,涵蓋眾多研究領域
    傳統的視覺定位方法或依賴人工構建的視覺特徵或依賴場景中人工建造的帶有語義特徵的標識物來進行車輛位置測定。這些人工構建的視覺特徵已知對於因光照或視角造成的物體外觀變化沒有很好的魯棒性, 容易造成嚴重的誤匹配。而場景中人工建造的帶有語義特徵的標識物,如車道線、交通標誌牌等,在很多實際場景中難以保證連續高密度的存在。這兩種原因都會導致定位系統因缺乏可用的魯邦的定位特徵導致定位失敗。
  • 創新工場論文入選NeurIPS 2019,研發最強「AI蒙汗藥」
    在該模型中,對於每個詞而言,其向量包含兩部分,主向量和關係向量,其中主向量代表總體語義,關係向量用於表達這個詞在不同關係上的特徵,每個詞的最終向量由這兩種向量融合得到。為了有效使用這種多向量表達,文本提出的模型還包含了一個向量壓縮模塊,能夠將向量壓縮至原始尺寸的十分之一而不損失效果。
  • ECCV 2020高光時刻:百度AI入選10篇論文,彰顯領先創新能力
    傳統的視覺定位方法或依賴人工構建的視覺特徵或依賴場景中人工建造的帶有語義特徵的標識物來進行車輛位置測定。這些人工構建的視覺特徵已知對於因光照或視角造成的物體外觀變化沒有很好的魯棒性, 容易造成嚴重的誤匹配。而場景中人工建造的帶有語義特徵的標識物,如車道線、交通標誌牌等,在很多實際場景中難以保證連續高密度的存在。這兩種原因都會導致定位系統因缺乏可用的魯邦的定位特徵導致定位失敗。
  • HCP Lab 12篇論文入選世界頂級計算機視覺會議 CVPR 2019
    具體地,基於基礎檢測網絡的特徵表示,所提出的網絡首先通過收集上層分類層的權重來生成每個類別的全局語義池(Global Semantic Pool),然後通過挑選全局語義池中的不同語義上下文來自適應地增強每個目標區域的特徵。本文提出的Reasoning-RCNN不是從可能存在噪聲的所有類別的語義信息中傳播信息,而是能自動發現與特徵演化最相關的類別。
  • 中國AI「再戰」視覺頂會CVPR:百度全方位參與 入選論文達22篇
    在論文接收率下降的同時,中國科技企業被錄取論文數量卻不降反增,百度作為AI代表企業今年中選22篇,比去年的17篇增加了5篇。 近年來,CVPR蓬勃發展的重要原因,很大一部分是源自於中國科技公司的貢獻。
  • 7500人參會,國內接收論文數量超越美國,ICCV 2019最佳論文揭曉
    研究者開發了一個泛化的圖像構建模型,並進行了理論分析,用於探索異步獲取方案的空間,並設計高性能的方案。圖 1:單光子攝像頭和 3D 成像示意。(a)一個單光子攝像頭像素對於單個光子敏感,可以在捕捉光子達到的時間並在皮秒內進行處理。(b)高敏感性和解析度使得單光子攝像頭在很多應用上有實際價值。
  • 視覺物體跟蹤新進展:讓跟蹤器讀懂目標語義信息
    其中,全卷積孿生網絡成為了近兩年最炙手可熱的框架,但它訓練出的網絡主要關注外觀特徵而無視語義信息,會讓跟蹤器犯一些匪夷所思的錯誤。由此,微軟亞洲研究院網絡多媒體組提出使用雙重孿生網絡進行視覺物體跟蹤的方案SA-Siam,不僅能夠關注語義和外觀信息,且加入注意力模塊使網絡關注特定的語義信息,在VOT任務的權威數據集上效果良好地實現了「能跟住」、「不跟錯」和「實時跟」的目標。
  • 專欄 | 阿里 AI LAB ICCV 2017 錄用論文詳解:語言卷積神經網絡應用於圖像標題生成的經驗學習
    阿里巴巴在 ICCV 2017 上有多篇論文入選。本文是阿里 AI LAB 首席科學家王剛與南洋理工大學團隊合作的 ICCV 2017 論文《語言卷積神經網絡應用於圖像標題生成的經驗學習》《An Empirical Study of Language CNN for Image Captioning》解讀。
  • 全球計算機視覺頂會CVPR 2020論文出爐:騰訊優圖17篇論文入選
    全球計算機視覺頂級會議CVPR2020 (IEEE Conference on Computer Vision and Pattern Recognition,即IEEE國際計算機視覺與模式識別會議) 即將於2020年6月14日-19日在美國西雅圖召開。本屆大會總共錄取來自全球論文1470篇,騰訊優圖實驗室入選17篇。