對話頂會、解讀最佳:CVPR 2020最佳論文對CV領域的啟發

2020-12-23 騰訊網

AI TIME歡迎每一位AI愛好者的加入!

CVPR 2020已落下帷幕,共計投稿6656篇,錄用1470篇,涵蓋的方向包括目標檢測、目標跟蹤、圖像分割、人臉識別、姿態估計、三維點雲、視頻分析、模型加速、GAN、OCR等。對話頂會,探索最新學術進展,本次分享AI TIME特地邀請到CVPR 2017最佳論文得主、世界人工智慧大會 Super AI Leader(SAIL)先鋒獎得主、來自清華大學自動化系的黃高老師為大家解讀本屆CVPR「最佳論文」和「最佳學生論文」背後蘊含的亮點,深入剖析其核心思路、創新點,談談它們對CV領域的啟發。

CVPR 2020最佳論文解讀

在嚴苛的錄取標準下,《Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild》榮獲CVPR 2020最佳論文稱號,其第一作者為牛津大學視覺幾何組博士生吳尚哲。

圖像是如何得來的?圖像是由相機對著物體拍攝形成的,拍攝的過程涉及視角選擇問題比如俯視還是仰視。本屆最佳論文的亮點就在於給定一張圖像,它可在解構拍攝視角的同時,將其深度(3D)、光照等分解出來,真實可靠地「還原」出物體原始面貌。

一般而言,對於3D重建是需要監督的,也就是需要各種形式的ground truth(真值、真實的有效值或者是標準的答案),例如多視角、深度圖、輪廓、關鍵點等信息。不同於人類,對計算機而言深度估計極具挑戰性。

以自動駕駛為例,為估計場景深度,需在車上安裝雙目攝影頭,同時還需結合雷射雷達,用其測距得到ground truth。基於攝相機得來的圖像數據,利用雷達獲得的深度作為ground truth訓練深度模型。當訓練數據足夠多,模型訓練成功以後,才可基於雙目圖像估計出深度圖。

區別以往依靠雙目圖像訓練模型,本屆最佳論文的亮點是考慮了一個具有挑戰性的問題:能否只使用單目的圖像估計3D對象,並且採用無監督的方式?其意義在於現實中使用有監督的方式成本可能是高昂的,且雙目圖像相對比較少,而單目圖像卻大量存在。

基於以上思路,作者提出了一種新的方法——Photo-Geometric Autoencoding,可解構給定圖像的視角、深度、texture等維度,再經過組合渲染,重構3D模型。其大致想法是構成一個閉環,閉環的好處是可獲得監督信號,但問題是簡單直接地實現可能最終得到退化解。

Question1

問題一:如何避免退化解?

答:施加對稱性約束。

對稱性可來源於物體的水平翻轉,其模型處理流程如下圖所示。

構造對稱雖然可以解決退化解問題,但是現實世界並不總是完美對稱的,譬如同一物體上的光照、髮型等細節,因此還需要進一步完善工作。

Question2

問題二:如何處理非對稱的光照?

答:對反射率施加對稱性約束。

Question3

問題三:如何處理非對稱反射率、變形等?

答:推理物體中潛在的不對稱。

解決好以上三個問題,是本篇論文的核心工作。通過Photo-Geometric Autoencoding方法,不僅可對真人頭像進行重建,還可對寫實繪畫、抽象作品、動物等進行重建,足以證明模型的強大性。

在黃老師看來,這篇論文可以獲得最佳論文有幾個關鍵的亮點因素:(1)其工作致力於3D重建;(2)可將單目2D圖像轉換為3D;(3)採用無監督學習的方式;(4)結合了計算機圖形學。同時論文撰寫優秀,論文的想法很重要,但也不能忽視文章的構思以及寫作的切入點。

CVPR 2020最佳學生論文解讀

CVPR 2020的最佳學生論文獎由來自西蒙弗雷澤大學和谷歌研究院的三位研究者摘得,獲獎論文是《BSP-Net: Generating Compact Meshes via Binary Space Partitioning》,即通過BSP(Binary Space Partitioning,二叉空間分割)構建緊湊的3D網格。

這篇論文介紹了多邊形網格在深度學習特別是3D形狀生成中的運用。多邊形網格在數字 3D 領域中無處不在,但它們在深度學習革命中僅扮演了次要角色。學習形狀生成模型的領先方法依賴於隱函數,並且只能在經過昂貴的等值曲面處理過程後才能生成網格。為了克服這些挑戰,該研究受計算機圖形學中經典空間數據結構BSP的啟發,來促進3D學習。

BSP的核心思想是對空間進行遞歸細分以獲得凸集。通過利用此屬性,作者設計了BSP-Net,該網絡可通過凸分解學習表示3D形狀。重要的是,BSPNet無需監督,因為訓練過程中沒有凸形分解。該網絡的訓練目的是,為使用基於一組平面構建的 BSPtree 獲得的一組凸面重構形狀。

通過BSPNet訓練的凸面可以輕鬆提取以形成多邊形網格,而無需進行等值曲面處理。BSP-Net的主要功能和設計方向是自動生成最少的多邊形,合成外形儘量完美、真實的三維物體。對同一個二維或者三維圖形物體進行重建,和此領域其它神經網絡模型相比,BSP-Net 所用的多邊形數量顯著更少,鑲嵌效果更好。

關於CV發展的趨勢的探討

在解讀完最佳論文和最佳學生論文以後,關於這兩篇論文對CV領域發展的啟發,黃老師拋出了一些自己的觀點。

1)

面向的任務

CV未來的面向的任務,黃老師認為比較重要的有兩個大的方向:3D和Video。計算機視覺是一門研究如何使機器「看」的科學,為的就是模擬人類視覺,解決人類視覺可以完成的事情。

為什麼說3D重要,是因為我們生存的世界是三維的,人類視覺系統就是在處理3D場景的過程中建立起來的。除此之外,目前我們已經有途徑可收集到很多雙目的圖像(多攝像頭手機拍攝的圖片),甚至本身帶有深度的數據。數據的豐富,計算能力的提升,為3D的發展提供了強大支撐。

從Video維度來說,世界是動態的,人們希望可以用動態的視頻處理事情。依然以自動駕駛為例,如果其對圖像一幀一幀地進行分析,不僅浪費嚴重,而且不夠精準。人光看一張圖像可能會錯失細節,但連著看的話,能將東西認識得更為細緻。Video一個天然的特點是連續兩幀之間存在持續相關性,而相關性可以與當前熱門的無監督/自監督學習結合起來進行研究。

2)

解決問題的辦法

1.Holistic

Holistic代表著完整的、全盤的。常見的視覺任務包括分類、物體檢測、語義/實例分割、3D重建等。人類的視覺系統在面向視覺任務時,可以同時全面考慮問題,而非像計算機一樣需要拆成若干子任務進行處理。未來對視覺的研究,可模擬人類處理時的方式,將各類子任務融合成一個大任務。

2.Cross modality(跨模態學習)

在醫學領域,醫生做病情診斷時,除了觀察CT、X光等得到醫學影像,還會藉助病人病史、化驗結果、問詢等了解其他信息,這個過程就可以稱為跨模態學習。為完成一個最終目標,可能會需要很多其他模態信號加以輔助,視覺任務亦是如此。例如將視頻裡面的聲音與圖像進行互監督學習,常見的有籃球、足球等體育比賽中,解說與畫面的配合。解說語音提供了很多標籤,利用這些標籤可幫助訓練視覺模型。從大的AI角度來說,視覺未來定會和更多其他模態的數據進行融合。

3.X learning

Self-supervised learning、Unsupervised learning、Meta learning、Life-long learning、Robust learning、Transfer learning等機器學習領域的方法,都有可能在未來視覺研究領域中發揮巨大的作用,催生新的研究方向。

3)

最終目標

1.Weak supervision

2.Robust

3.Intelligent

對話頂會、解讀最佳、碰撞思維、尋求啟發,感謝黃老師的精彩解讀以及獨到觀點,在分享自身見解的同時也啟發了大家對於CV領域的思考。希望本次分享對大家的CV學習之路有所幫助,我們下次分享見!

整理:何文莉

審稿:黃高

相關焦點

  • 後浪「95」獲 CVPR 2020 最佳論文,前得主這樣解讀
    本文分享了CVPR 2017最佳論文得主、世界人工智慧大會 Super AI Leader(SAIL)先鋒獎得主、清華大學自動化系的黃高對本屆CVPR「最佳論文」和「最佳學生論文」背後蘊含的亮點的核心思路、創新點的深入剖析,以及對CV領域的啟發。
  • 頂會最佳論文獎得主:初入科研領域,如何正確做科研?
    初入科研領域,如何才能正確地做科研?這是一個困惑了許多人,卻始終沒有「官方」答案的問題。在2020年的7月份,ICML 2020 和SIGIR 2020 相繼召開。ICML 的傑出論文獎由北京理工大學研二學生魏愷軒同學獲得,SIGIR 最佳短論文獎由清華大學大三學生於是同學奪得。他們初入科研領域,就能早早地在學術之途上嶄露頭角的秘訣是什麼?
  • ACL 2020:微軟最佳論文,Bengio論文獲時間檢驗獎,大陸論文量第二
    ACL 是自然語言處理領域的頂級會議,根據剛剛發布的最新版 Google Scholar Metrics,ACL 繼續領跑計算語言學領域,h5 指數達到 135。今年的 ACL 會議於本月 5 日至 10 日在線上召開。此次會議公布了最佳論文、最佳主題論文、最佳 demo 論文、時間檢驗獎等多個獎項。
  • 推薦系統頂會RecSys2020大獎出爐!騰訊摘獲最佳長論文獎
    作者 | 陳大鑫近日,RecSys 2020官網公布了本屆最佳長短文論文獎。Recommendations》ACM RecSys(推薦系統會議)是用於介紹推薦系統廣泛領域中的最新研究成果、系統和技術的國際會議。
  • ACL 2020最佳論文直播重磅來襲,二作學霸小姐姐駕到!
    在今年的ACL 2020上一舉拿下最佳論文獎的論文,便針對NLP 模型提出了一種全新的測試方法——CheckList,令人記憶猶新。論文地址:https://www.aclweb.org/anthology/2020.acl-main.442/開原始碼:https://github.com/marcotcr/checklist當前NLP 模型最常採用「留出法」(held-out)這一評估方法,然而這種方法往往會高估模型的泛化能力 。
  • KDD 2020最佳論文揭曉!杜克大學陳怡然組獲最佳學生論文獎
    【新智元導讀】KDD 2020最佳論文新鮮出爐!最佳學生論文、最佳論文亞軍均被華人學生(一作)摘得,來看看這些論文出自誰之手吧!KDD Best Paper 終於來了!受疫情影響,今年第26屆國際數據挖掘頂會 ACM SIGKDD 於8月23日-27日以虛擬線上方式召開。
  • ACL最佳論文提出最新NLP模型測試方法,最佳論文提名也不可小覷
    譯者 | 劉暢導讀:近日,ACL 2020公布了最佳論文獎,另有兩篇最佳論文榮譽提名獎也各自提出了解決NLP領域問題的創新方法。最佳論文:Beyond Accuracy: Behavioral Testing of NLP Models with CheckList論文連結:https://arxiv.org/abs/2005.04118作者:來自微軟、華盛頓大學、加州大學爾灣分校
  • ACM MM 2020大獎項出爐!南開獲最佳論文獎,西安交大獲最佳學生論文獎
    第28屆ACM國際多媒體會議(ACM MM)最佳論文獎、最佳學生論文獎、最佳demo獎、 最佳開源軟體獎在內的所有多媒體領域大獎都已出爐。其中最佳論文的一作是來自南開大學Hongru Liang,最佳學生論文的一作是來自西安交大的Wenbo Zheng。
  • 300篇 CVPR 2019 Oral 論文精選匯總,值得一看的 CV 論文都在這裡
    今年有超過 5165 篇的大會論文投稿,最終錄取 1299 篇,其中 Oral 論文近 300 篇。為了方便社區開發者和學術青年查找和閱讀高價值論文,AI 研習社從入選的 Oral 論文中,按應用方向挑選了部分精華論文,貼在本文。
  • 21歲華人本科生,憑什麼拿下CVPR 2020最佳論文提名?
    金磊 發自 凹非寺量子位 報導 | 公眾號 QbitAI在訓練神經網絡的時候,經常會出現「缺數據」的情況。這時候,就需要「數據增強」來獲取更多數據。而近幾年,鏡像反轉成了最為常用的方法之一。研究的題目叫做視覺手性(Visual Chirality),並在CVPR 2020中獲得了最佳論文提名。註:手性的定義為「一個物體無法與其鏡像相重合」。「視覺手性」一詞啟發自手性,意指「計算機視覺領域中圖像分布與其鏡像分布的區別」。
  • 剛剛,CVPR 2021論文接收結果「開獎了」
    剛剛,CVPR 2021 正式「開獎」!「接收」還是「被拒」,也終於有了最終結果……據官方消息,在大約 7500 份提交中,有 5900 篇進入了決策流程,其他未進入的論文或因提交格式不正確,或因評審意見被撤回。最終進入決策流程的論文有 27% 被接收,共 1663 篇(非最終統計,僅供參考)。目前投稿人也可以通過 ID 檢索的方式來查看自己的論文接收情況,極少數論文的接收結果因調查情況而延遲,後續將出現在最終列表中。
  • 逐鹿最佳論文!程學旗團隊獲ECML-PKDD最佳學生論文獎
    作者 | 陳大鑫 進入2020年後,國內最優秀的人工智慧研究團隊,都在暗暗地調整自己的目標——頂會論文數量已不是最終目標,逐鹿Best Paper
  • 專訪ACL2020最佳論文二作:全新NLP模型評測方法論,思路也適用於CV
    作者 | 陳大鑫編輯 | 叢 末現在,ACL2020各個獎項都已悉數公布,對此AI科技評論做了詳細報導。其中,最受人矚目的當屬最佳論文獎,今年該獎項由微軟團隊的《Beyond Accuracy: Behavioral Testing of NLP Models with CheckList》一舉拿下。
  • 7 Papers & Radios | EMNLP 2020最佳論文;新型優化器AdaBelief
    推薦:CoRL 2020 最佳論文。研究者還開源了 SMARTS 平臺以及相關的基準任務和評估指標,以鼓勵和推進自動駕駛領域多智能體學習的更多研究。SMARTS 架構示意圖。SMARTS 平臺上的駕駛交互場景示例。行為度量的結果。推薦:CoRL 2020 最佳系統論文。
  • 一份值得收藏的ACL2020參會筆記:重要論文與NLP領域的發展趨勢解讀
    再次重申,本文的結論基於作者個人的興趣,因此很大程度上會濾掉這類論文。因此可以得出一個更溫和一點的結論:「ACL 2020 有足夠多的論文不屬於此類別。」正在遠離大規模有標註數據集過去兩年間,可以看到研究趨勢正轉向在無標註文本上以自監督方式進行預訓練,然後使用(潛在的)更小的特定於任務的數據集進行微調。
  • NeurIPS 2020獎項出爐:GPT-3等三項研究獲最佳論文獎
    北京時間 12 月 8 日凌晨,正在線上舉行的全球人工智慧頂會 NeurIPS 2020 公布了最佳論文等獎項。在一千八百餘篇論文中,三篇論文獲會議最佳論文獎項,OpenAI 等機構的 GPT-3 研究名列其中,可謂實至名歸。
  • 中科院、華為等斬獲最佳長論文,ACL 2019獎項全部揭曉
    值得一提的是,來自中科院、華為諾亞方舟實驗室等機構的論文獲得了最佳長論文;一篇來自南京理工大學論文獲得了傑出論文獎。除此之外,還有很多華人學者都是獲獎論文的作者。由此可見,國內研究者在 NLP 領域還是取得非常不錯的成績。隨著人工智慧浪潮的興起,學術會議越來越受關注。近年來,CVPR、NeurIPS 等頂級國際 AI 會議在接收論文數量、參會人數上不斷刷新記錄。
  • 磁性球體機器人獲頂會IROS最佳論文獎,中國內地高校十年首次
    前不久,梁冠琪作為第一作者的論文獲得了IEEE智慧機器人與系統國際會議(IROS)的機器人機構設計(Robot Mechanism and Design)最佳論文獎。獲獎的是一種叫做 FreeBOT 的球形機器人系統,它們之間能夠通過磁性自由地連接在一起。
  • ACL 2019最佳論文出爐:華人團隊包攬最佳長短論文一作
    剛剛,自然語言處理領域的頂會ACL 2019公布最佳論文,本次共頒布了4個獎項,共有8個獲獎名額,分別是:最佳長論文最佳短論文最佳DEMO論文5篇傑出論文獎今年,華人一作團隊拿下了最佳長論文、最佳短論文和2篇傑出論文,中科院、中國科學院大學、騰訊、華為諾亞方舟實驗室、南京理工大學、香港理工大學等榜上有名。今年的ACL 2019空前熱鬧。
  • CVPR,華人包攬!斬獲全部獎項,近四成中國作者,清華最多
    最佳論文、最佳學生論文,每年兩個最受矚目獎項論文一作都是華人,吳尚哲和Zhiqin Chen。經典論文獎,同樣被華人一作的論文拿下。最佳論文獎最佳論文(Best Paper Award),毋庸置疑,是每屆大會接收所有論文中的「最頂級者」。