華人包攬CVPR 2019最佳論文,李飛飛ImageNet成就經典

2021-12-22 機器之心
剛剛,CVPR 2019 頒發了今年的所有獎項。來自 CMU 的辛書冕等人獲得了最佳論文獎,而最佳學生論文獎被 UCSB 王鑫等人獲得。李飛飛、李佳等人因 ImageNet 的貢獻獲得最具影響力論文獎。

作為計算機視覺領域內最負盛名的學術會議,今年的 CVPR 已於當地時間 6 月 16 日在美國加州長灘開幕。

與很多討論 AI 技術的會議相同,CVPR 如同往屆一樣異常火熱,吸引了大量來自學術界、產業界的研究員、開發者以及非技術人員的參與,以至於今年大會官方不得不「因註冊人數太多」而提前截止了註冊,並取消現場註冊。

當然,這並沒有難倒我們,機器之心的小編還是成功註冊了這一盛會,為大家帶來最及時、全面的報導。

大會主席之一朱松純教授開場

據朱松純教授介紹,今年大會共有 9227 人註冊參會,突破歷屆記錄,其中來自國內的參會人數達到 1044 位,僅次於大會舉辦地美國(4743 位)。

在論文方面,CVPR 作為計算機視覺領域的頂級學術會議,今年論文提交與接收數量也突破記錄:來自全球 14,104 位作者提交了 5160 篇論文(這個數字比 CVPR 2018 增加 56%),最終接收了 1294 篇,接收率約為 25%。

照這個增長速度預計,在 CVPR 2028 年就會有 108 億篇投稿了?

和去年一樣,CVPR 2019 投稿論文作者中來自中國的最多,佔 39%。

在介紹完數據情況之後,就進入了今天的重頭戲:獲獎論文。

最佳論文

今年的最佳論文由卡耐基梅隆大學、倫敦大學學院、多倫多大學獲得,論文一作辛書冕是卡耐基梅隆大學機器人研究院的博士二年級學生,主要研究方向是計算機視覺和計算機圖形學,師從 Srinivasa Narasimhan 和 Ioannis Gkioulekas 教授。

辛書冕本科就讀於西安交大,畢業後赴美讀書,並於 2016 年 12 月在 CMU 獲得電子與計算機工程碩士學位。

最佳論文解決了什麼問題?

據獲獎詞所言,這篇最佳論文對於非視距(non-line-of-sight/NLOS)重建作出了重大貢獻,特別是為智能體賦予了看到角落的能力。

那麼什麼是非視距問題呢?就是我們不再假設攝像頭能直接看到某些場景,很多光子會因為散射或反射等情況朝著與鏡頭相反的方向前進。

而這些光子又會因為不可見場景的反射,重新回到鏡頭前,它們會帶有不可見場景的各種信息。

這些不可見場景返回的信息對於重建該場景非常重要。例如圖 1 顯示了一個硬幣浮雕的微米級估計,該硬幣可以從拐角處看到,也可以通過厚紙(漫射器)看到。

例如在 a 圖中,本來紅色的 detector 是觀察不到隱藏的硬幣的,它只能直接觀察到可見的表面。但是有一些光子會因為漫射而觀察到硬幣,並反回 detector,從而能獲取隱藏目標的信息。

圖 1:非視距成像。研究人員考慮了一些重建物體表面的情況:a)處於傳感器的視野之外;b)被漫射器遮擋。在 c)中,研究人員對比了他們的重建結果,和對物體進行深度掃描的真實結果。

值得一提的是,機器之心昨天發布的一篇論文也與非視距成像有關,但是那項研究使用的是聲學系統,即利用聲波「看到」牆角後面的物體。

與光學成像相比,該聲學系統的硬體系統沒有那麼昂貴,但重建圖像所用的時間較短,距離卻比光學方法高出 2 倍。有興趣的讀者可以對比一下兩篇論文。(參見:誰說偷窺一定要趴牆頭?這個系統可用聲波「看見」牆後物體)

摘要:研究者提出了一種新的光費馬路徑(Fermat path)理論,該光在已知的可見場景和不處於瞬態攝像機視線範圍內的未知物體之間。這些光的路徑要麼從鏡面反射,要麼被物體的邊界反射,因此編碼了隱藏物體的形狀。

研究者證明,費馬路徑對應於瞬態測量中的不連續性。然後他們推導出一個新的約束,該約束將這些不連續處路徑長度的空間導數與曲面法線聯繫起來。

基於該理論,研究者提出了一個名為 Fermat Flow 的算法,來估計非視距物體的形狀。該方法首次精確恢復複雜物體的形狀,從漫反射到鏡面反射,這些物體隱藏在角落裡,也隱藏在漫射器後面。

最後,該方法與瞬態成像使用的特定技術無關。因此,研究者用 SPAD 和超快雷射展示了從微微秒尺度瞬態實現毫米尺度的形狀恢復,以及使用幹涉法實現從飛秒尺度瞬態到微米尺度的重建。

最佳學生論文

今年的 CVPR 最佳學生論文是加州大學聖巴巴拉分校(UCSB)王威廉組(William Yang Wang)與微軟研究院的合作文章《Reinforced Cross-Modal Matching & Self-Supervised Imitation Learning for Vision-Language Navigation》,第一作者王鑫。

本文是 CVPR 滿分文章(3 個 Strong Accept),在 5160 篇投稿文章中審稿得分排名第一,在獲獎之前被程序委員會和領域主席評審團確定為 CVPR 2019 口頭報告論文。

在這一研究中,作者在視覺語言導航任務上提出了一種新的方法以探索未知的環境。值得一提的是,王威廉組主攻自然語言處理,這是一次跨方向研究的成功典範。

最佳學生論文講了什麼?

「向右轉,到達廚房後再左轉,轉過桌子進入走廊……」使用新技術後的機器人可以根據這樣的路線指令行事了,就像人類一樣。

這篇論文主要解決的是視覺-語言導航(VLN)問題,即研究如何通過自然語言告訴智能體該怎麼運動,智能體需要像問路者那樣根據自然語言導航至目的地。

因為自然語言是完整路徑的指導,而智能體只能觀察到當前局部視野,因此重要的是智能體需要知道當前局部視覺對應著語言指導的哪一步。

為了解決視覺-語言導航中出現的各種問題,這篇論文提出結合強化學習(RL)和模仿學習(IL)的解決方案。

如下圖 1 所示為 VLN 任務的示例,左側的 Instruction 是用於指導智能體該怎麼走的自然語言,除了接收指令外,智能體只能看到 Local visual 所示的局部圖像視野。

因為智能體並不能獲取全局軌跡的俯視圖,所以它只能將自然語言指令「想像」成全局的視覺軌跡,然後再根據局部視野一點點探索並導航至目標。

圖 1:VLN 任務演示。圖中展示了指令、局部視覺場景和俯視圖的全局軌跡,智能體並不能獲取俯視圖信息。路徑 A 是遵照指令的演示路徑,路徑 B 和 C 是智能體執行的兩個不同路徑。

在這篇論文中,作者主要通過增強型跨模態匹配(RCM)和自監督模仿學習(SIL)處理 VLN 任務。

其中 RCM 會決定當前智能體應該關注自然語言中的哪一個子指令,以及局部視野哪個畫面與之相對。

同時 RCM 還會評估已走的路逕到底和自然語言指令相不相匹配。而 SIL 主要是探索未見過的環境,從而模仿過去的優良經驗而走向目的地。

經典論文:PAMI Longuet-Higgins 獎

Longuet-Higgins 獎是 IEEE 計算機協會模式分析與機器智能(PAMI)技術委員會在每年的 CVPR 頒發的「計算機視覺基礎貢獻獎」,表彰十年前對計算機視覺研究產生了重大影響的 CVPR 論文。該獎項以理論化學家和認知科學家 H. Christopher Longuet-Higgins 命名。

今年的 Longuet-Higgins 獎由 Jia Deng、Wei Dong、Richard Socher、李佳、Kai Li 和李飛飛於 2009 年發表在 CVPR 大會的論文《ImageNet: A Large-Scale Hierarchical Image Database》摘得。

如今,ImageNet 是每個人工智慧從業者都耳熟能詳的名詞。這篇論文可以說開啟了一個時代,它在 Google Scholar 上的引用量高達 11508 次。不過 ImageNet 論文在 CVPR 2009 被大會收錄時還僅僅是一篇「普通」的 Poster 論文。這篇論文誕生的第二年,計算機視覺領域盛大賽事 ImageNet 挑戰賽拉開序幕,ImageNet 成為計算機視覺識別領域的標杆,並促進該領域取得巨大突破。

此外,它還催生了深度學習的大發展。著名的卷積神經網絡 AlexNet 在奪得了 2012 年 ImageNet LSVRC 冠軍,且準確率遠超第二名,引起了巨大轟動。之後,沉寂許久的神經網絡重煥生機,取得了長足進步。

在頒獎儀式後,機器之心對李飛飛、李佳、鄧嘉進行了簡單的採訪。談到此次獲獎,李飛飛認為,「做研究要做長遠的有影響的,不要只看眼前的潮流,大家還是致力於做踏踏實實有影響力的研究。」

回顧過去 10 年 ImageNet 的發展,李佳表示,「09 年的時候,參加 CVPR 的人沒有像現在這麼多。我們挺想讓更多人知道 ImageNet 的,我們還做了 ImageNet 的筆,到處去宣傳去推廣。鄧嘉在這上面花了非常多的時間,最早的時候我們在想怎麼用自動化的方法去網頁上收集所有的圖像,包括我在 07 年的時候有一篇論文叫《OPTIMOL: A Framework for Online Picture Collection via Incremental Model Learning》,我們以前假設用 OPTIMOL 算法就可以來構建包含整個 web 上面圖像的資料庫。飛飛也非常有遠見,想和斯坦福的語言學家合作構建這樣的 web size 圖像資料庫,最後算法還是被人類打敗了哈哈。很多工作是通過 mechanical turk 平臺做得。我們實驗室的一位同事和我們講,mechanical turk 是一個非常強大的工具,可以吸引很多人通過眾包的方式來構建這個 web-based 知識圖庫。鄧嘉一直專注於研究計算機視覺和機器學習和系統,最後才有 ImageNet。」

鄧嘉告訴機器之心,「這個項目很說明一件事情,當時做 ImageNet 不是最主流的工作,但是我們所有做此項目的人都相信它會有很大的影響,所以我們就花了很大力氣做這個事情。確實,它給我自己的一個啟示是,你不一定要做最流行的事情,但要做自己相信會有影響的事情。」

李佳補充說,「當時主流思想不是這方面工作,當時大家主要做理論的、手動編碼的機器學習,用數學的方法去解決通用難題。其實很多髒活苦活需要做,鄧嘉的堅持我們都有目共睹。」

談到這個歷程中最大的困難,鄧嘉說,「現在看來該怎麼做很清楚,但當時想做一個數據集需要做很多決定——到底應該從什麼來源收集數據?數據應該是什麼樣的?你需要什麼標籤?整個過程有很多決策需要做。現在看來,這些問題的答案都是很顯然的,每一步你都是對的,但實際上不是這樣,我們很多決定都是經過許多反覆,最後才達成了我們想要的效果,這個中間其實有很多思考的。」

「當時我們經過了很多思考,我們無法預測你做了這個以後,社區會怎麼利用它,具體會在什麼問題上產生巨大影響……但是,這件事情在當時看來顯然是必須要做的。」

「因為數據本身還是要解決某些問題,我們其實是在做一個問題,計算機視覺領域和其他一些領域之間的差別就是我們需要去解決根本問題。不管是建立資料庫還是算法,最終都是為了解決問題。所以開始的時候我們有想要解決的問題,想要得到這個領域的認同則是之後的事情了。」李佳表示。

最佳論文榮譽提名

獲得最佳論文榮譽提名的論文有兩篇,分別是:

A Style-Based Generator Architecture for Generative Adversarial Networks

作者:Tero Karras、Samuli Laine、Timo Aila

論文連結:https://arxiv.org/abs/1812.04948

論文:Learning the Depths of Moving People by Watching Frozen People

作者:Zhengqi Li、Tali Dekel、Forrester Cole、Richard Tucker、Ce Liu、Bill Freeman、Noah Snavely

論文連結:https://arxiv.org/abs/1904.11111

計算機先驅獎(Computer Pioneer Award)

計算機先驅獎於 1981 年由 IEEE 計算機協會設立,用於表彰至少在十五年以前對計算機領域發展做出突出貢獻的個人。

今年獲得計算機先驅獎的是 Jitendra Malik,是加州大學伯克利分校電氣工程和計算機科學專業的一位教授。他同時也是生物工程專業的一位教授。

Malik 教授的主要研究領域是計算機視覺,特別是在人類視覺、計算機圖形學和生物圖像分析方面有很多突出成果。

一些知名的理論和算法出自 Malik 教授和他領導團隊的研究,包括各向異性擴散(anisotropic diffusion)、歸一化分割(normalzied cut)、高動態範圍成像(high dynamic range imaging)等。

根據 Google Scholar 的數據,Malik 教授有 6 篇論文平均被引用超過千次。

論文新工具與 310 萬美元贊助

比較有趣的是,CVPR 官網發布了一個交互式數據可視化的工具,讓我們能夠通過主題或者機構查閱論文,以及查看這些論文相關日程。

從上圖中我們可以看出,深度學習、識別、人體姿態等是今年大會最為熱門的技術主題,收到了大量的論文。通過這個工具,用戶可以查看自己感興趣主題的論文。

此外,用戶還可以從機構入手查看論文。例如,搜索「Baidu」、「Kwai」(快手)這些關鍵詞,就能夠查到這兩家公司的論文信息,包括論文主題、論文標題、大會上的日程安排。

百度的論文信息。

快手的論文信息

在小編看來,隨著論文接收數量越來越多,學術會議提供這樣的工具能為社區提供極大的便利。下一屆我們就需要有關大會論文的數據集了。

最後,本屆 CVPR 也收穫了共計 310 萬美元的贊助,共有 284 家贊助商、104 家展商。眾多贊助商包括曠視、商湯、百度、華為、快手和大疆等國內科技公司。

計算機視覺頂會自然少不了科技公司的參與,在本次大會開幕前不久,IEEE「限制華為審稿」事件引發了學界震動,同屬 IEEE 旗下的 CVPR 是否會受影響也曾是人們討論的話題。

不過,PAMI TC 主席 Bryan Morse,CVPR 2019 大會主席 Larry Davis、Philip Torr 與朱松純聯名發布了一份聲明,歡迎包括華為員工在內的所有學界、業界人士前來參會,收穫了人們的廣泛好評。

市北·GMIS 2019全球數據智能峰會於7月19日-20日在上海市靜安區舉行。本次峰會以「數據智能」為主題,聚焦最前沿研究方向,同時更加關注數據智能經濟及其產業生態的發展情況,為技術從研究走向落地提供借鑑。

本次峰會設置主旨演講、主題演講、AI畫展、「AI00」數據智能榜單發布、閉門晚宴等環節,已確認出席嘉賓如下:

大會早鳥票已開售,我們也為廣大學生用戶準備了最高優惠的學生票,點擊閱讀原文即刻報名。

相關焦點

  • CVPR 引用量最高的10篇論文!何愷明ResNet登頂,YOLO佔據兩席!
    這個排名是依據過去五年發表研究的數據(覆蓋2015-2019年發表的文章),並包括截止2020年6月在谷歌學術中被索引的所有文章的引用量。眾所周知,CV領域的三大頂會就是:CVPR、ICCV和ECCV。本文就來盤點CVPR 2015-2019年引用量最高的10篇論文。
  • 何愷明的ResNet論文,被引量剛剛突破10萬大關
    這是一篇計算機視覺領域的經典論文。李沐曾經說過,假設你在使用卷積神經網絡,有一半的可能性就是在使用 ResNet 或它的變種。前幾天,人們發現 ResNet 論文被引用數量悄然突破了 10 萬加,距離論文的提交剛過去六年。
  • 104篇CVPR 2019論文列表,追蹤谷歌、Facebook、英偉達等公司研究課題
    編輯整理:元子【新智元導讀】人工智慧頂級會議CVPR剛剛公布了最佳論文據統計,今年共計1300篇論文被CVPR 2019接收,相比去年被接收論文數量增加了32.8%,今年的接收率為25.2%。論文提交數量是5165篇,相比CVPR 2018增加了56%。對比CVPR 2018和CVPR 2019的論文關鍵詞,最熱的仍然是圖像、檢測、3d、對象、視頻、分割、對抗、識別、視覺等。
  • 完整視頻 谷歌雲首席科學家李飛飛:一堂人工智慧公開課
    2017 年 1 月 3 日,李飛飛教授正式入職 Google Cloud,宣布自己從學術研究的實驗室走到了產業界。她除了依然是「美國史丹福大學計算機科學系終身教授、史丹福大學人工智慧實驗室主任」之外,又多了一個新的身份——「谷歌雲首席科學家」。談及自己為何願意加入 Google,李飛飛表示,「我並沒有離開斯坦福。
  • ACL最佳論文提出最新NLP模型測試方法,最佳論文提名也不可小覷
    導讀:近日,ACL 2020公布了最佳論文獎,另有兩篇最佳論文榮譽提名獎也各自提出了解決NLP領域問題的創新方法。
  • ICLR 2019論文解讀:量化神經網絡
    經典案例包括圖像目標識別(Krizhevsky et al., 2012; Szegedy et al., 2014)、語音識別(Hinton et al., 2012; Sainath et al., 2013)、統計機器翻譯(Devlin et al., 2014; Sutskever et al., 2014; Bahdanau et al., 2015)和掌握圍棋(Silver et al.
  • 11位華人諾貝爾獎獲得者名單
    經典話劇:振聾發聵的紅軍10問,真是問得太好了!1956年,楊振寧和李政道一起發表了一篇論文,推翻了物理學的中心信息之一——宇稱守恒基本粒子和它們的鏡像的表現是完全相同的。次年(1957年),楊振寧和李政道因提出宇稱不守恆理論而獲得諾貝爾物理學獎,楊振寧當時35歲。
  • KDD 2018 | 最佳論文:首個面向Facebook、arXiv網絡圖類的對抗攻擊研究
    Daniel Zügner、Amir Akbarnejad、Stephan Günnemann機器之心編譯參與:路、劉曉坤8 月 19 日至 23 日,數據挖掘頂會 KDD 2018 在英國倫敦舉行,昨日大會公布了最佳論文等獎項
  • 華人指彈天王陳彥宏《尋找世界的氣場》全國巡演月底登陸上海
    2010年,擔任徐佳瑩LEGACY Mini Concert演唱會吉他手2011年,第40屆 Walnut Valley Festival International Fingerstyle Championship 獲得Top5,這也是該比賽40年以來,第一位華人參賽,而且得到獎項的紀錄。2013年,首張個人演奏專輯《Fusion!
  • 從4篇頂會論文看Self-training最新研究進展
    What is self-training?Self-training 是最簡單的半監督方法之一,其主要思想是找到一種方法,用未標記的數據集來擴充已標記的數據集。算法流程如下:1. 首先,利用已標記的數據來訓練一個好的模型,然後使用這個模型對未標記的數據進行標記。2.
  • 馬斯克剛罵了雷射雷達,這篇用純視覺代替雷射雷達的名校論文「力挺」了他
    當然,根據馬斯克說話常常打臉的經典表現來看,或許在幾年後他會自己站出來反駁自己堅持的觀點。事實上,在「自動駕駛汽車究竟應該用不用雷射雷達」這個問題上長時間的爭論不休,衍生出了「雷射雷達派」與「純計算機視覺派」。目前,一個被雷射雷達派以及大眾普遍接受的觀點是,考慮到純視覺算法在數據形式和精度上的不足,L3 級以上的自動駕駛乘用車必須要採用雷射雷達。
  • 【1小時訓練ImageNet】Facebook賈揚清+何愷明論文
    這項工作幫助數據科學家更快地測試假說,有助於提高未來研究的質量。加速機器視覺訓練的時間對於 Facebook 來說十分重要,因為機器視覺是增強現實和機器學習的關鍵,這兩項都是 Facebook 未來業務的關鍵。
  • 中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT預訓練模型
    模型在多個中文數據集上取得了當前中文預訓練模型的最佳水平,效果甚至超過了原版 BERT、ERINE 等中文預訓練模型。實驗結果對比論文對比了原版的 BERT 模型,百度的 ERNIE 模型,以及本次論文的模型 BERT-wwm 在不同任務和數據集上的表現。論文在以下幾個任務中使用中文數據集進行了測試。對於同一模型,研究人員運行模型 10 遍(不同隨機種子),匯報模型性能的最大值和平均值。
  • 重新標註128萬張ImageNet圖片:多標籤,全面提升模型性能
    該數據集由斯坦福教授李飛飛等人於 2006 年開始創建,後成為評估計算機視覺模型在下遊視覺任務中能力的試金石。然而 ImageNet 並不完美,其標籤存在大量噪聲。近期多項研究表明,該數據集中許多樣本包含多個類別,而 ImageNet 本身是一個單標籤基準數據集。
  • 擊敗谷歌、蘋果、臉書,這個華人為什麼這麼牛?
    最佳僱主圖源/Comparably這位擊敗Google、Facebook的華人工程師到底為什麼榮登榜首?- 1 -憑實力逆襲2019最佳僱主!2019年,袁徵帶領他旗下的Zoom,實現了一次重要跨越。2019年4月19日,Zoom在納斯達克上市,首日開盤價較IPO發行價暴漲80%,市值高達159億美元。
  • CVPR2017有哪些值得讀的Image Caption論文?
    具體方法不細說請參考論文,歡迎討論。 4. 最後將 skeleton sentence 和 attributes 結合起來,作為最終的 caption。  順便提及一下,文章也指出了 encoder-decoder 模型的兩個問題,很值得我們思考解決方法: Deep Reinforcement Learning-based Image Captioning with Embedding Reward 這是將強化學習與圖像描述結合起來的論文,因為我的強化學習學得不多,只停留在 GAN 和 GAN 的一些變體,如果有錯誤請指正
  • NAVER AI實驗室的研究人員介紹了ReLabel:一種將ImageNet評估轉變為多標籤任務的新穎框架
    論文:https://arxiv.org/pdf/2101.05022.pdf GitHub:https://github.com/naver-ai/relabel_imagenet
  • 2019年度PESCM頒獎典禮總結
    (四)最佳肝帝獎    最佳肝帝獎是為了獎勵2019年度最肝的玩家。經過篩選,最終綠茵上的老男孩-飛火流星、夜雨-小宇、廣州大聯盟-勝總三人進入最終候選名單。最終,勝總當選了「最佳肝帝獎」。話不多說,由最騷盟主的詩來表達吧:(後面出現的詩句皆為偉哥所作)最肝玩家大評比,三人之中誰無敵?諸位看官你莫急,待我一一慢慢敘。