五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上)|CVPR 2019

2021-01-07 雷鋒網

雷鋒網 AI 科技評論按:對於計算機視覺研究者們來說,以當前的技術水平為基礎,尋找突破點做提升改進是科研的主旋律。這幾年來,計算機視覺領域的已有問題在研究者們的努力下普遍得到了越來越好的解決,映入大家視野的新問題也越來越多。不過到了 CVPR 這個供全球計算機視覺研究者齊聚討論的盛會上,一個可能不那麼直接指導短期研究、不那麼容易形成共識問題也就自然地湧上了大家的心頭:在五到十年後的未來,計算機視覺的研究會是什麼樣子,是深度學習幾乎完全替代了目前還在使用的其他一些方法,還是我們應該期待新的革命?CVPR 2019 上的首屆「Computer Vision After 5 Years - CVPR Workshop」就正式地帶大家一起討論這個問題,不僅讓已經有經驗的研究者們交流觀點,也為這個領域的年輕學者們拓展思路和視野。

Computer Vision After 5 Years Workshop 的三位組織者來自 UC 伯克利、FAIR 以及 UIUC,邀請到的演講者包括 Ross Girshick、Jitendra Malik、Alexei Efros 等計算機視覺領域響噹噹的人物。研討會在中午休息後開始;開始前五分鐘,會議廳內就座無虛席。到了計劃開始時間時,容量約 400 人的演講廳的兩側走道、門內走廊就像 Facebook 何愷明、Ross 組組織的 Visual Recognition and Beyond 教學講座一樣擠滿了人,這也說明了研究者們對整個領域大方向的關心。(雖然相比於本屆 CVPR 超過 9000 的參會人員來說也算不上是多大的數字)

雷鋒網 AI 科技評論把各位學者演講的主要內容摘錄如下。

演講一

首位演講者是 INRIA 法國國家信息於自動化所的研究主任 Cordelia Schmid。

Cordelia Schmid 是 IEEE Fellow,研究領域為圖像和視頻描述、對象和類別識別、機器學習,長期任 IEEE PAMI、IJCV 編輯,如今是 IJCV 主編,也是 CVPR2015 的大會主席。

Cordelia Schmid 的演講題目是《5 年後對視覺世界的自動化理解》。

得益於機器學習研究的新進展和各種大規模數據集,今天的機器感知已經有了很多喜人的成果,對如何設計模型也有了新的思路。但當前的數據集其實存在一些問題,這會限制新任務中的表現。

數據方面,目前的人工標註數據存在許多問題,比如能覆蓋的類別和實例數量都很有限,需要增加新的類別或者概念時難以重新標註或者升級標註,類別存在長尾現象,有一些信息是難以標註進去的(比如流、三維形體)。

針對人體動作識別任務,Cordelia Schmid 介紹了她對數據問題的解決方案 SURREAL Dataset,這是一個合成的三維人體動作數據集,有良好的可遷移性,也有許多不同級別的標註。

總體上來說,她認為未來的計算機視覺有這三個發展方向:數據集會同時有手工標註的、生成的和弱監督數據三類;更好的視頻理解;以及多模態表徵,與世界有更多互動。

對於視頻學習話題,目前一大問題是視頻數據集規模不理想,比如 UCF-101 和 J-HMDB 數據集的多樣性、時長、解析度都很有限。新型的數據集需要主角之外的更多動作,也更豐富多變。視頻學習的目標包括判斷時序依賴(時序關係)、動作預測。為此也需要新型的模型設計,她小組的一篇視頻動作檢測的論文就被 CVPR 2019 接收了。

在感知畫面之外,計算機視覺研究還可以有更多補充,比如視覺系統可以與世界互動,和機器人、強化學習結合;音頻和文字數據的加入也可以帶來更好的視覺理解。

具體做法是多模態監督,最新的 Video-Bert 能學習視頻和對話之間的對應關係;模仿學習結合強化學習、虛擬環境訓練到真實環境訓練遷移也是值得引入到計算機視覺領域的做法。

總結:Cordelia Schmid 對未來計算機視覺發展趨勢的預測是,需要設計新的模型,它們需要能考慮到空間和時間信息;弱監督訓練如果能做出好的結果,那麼下一步就是自監督學習;需要高質量的人類檢測和視頻對象檢測數據集,這非常重要;結合文本和聲音的跨模態集成;在與世界的交互中學習。

演講二

下一位講者是 UC 伯克利電子工程與計算機系教授 Alexei Efros,他也是計算機視覺領域的先驅,尤其以最近鄰方法而聞名。他的演講風趣幽默,令人愉悅,也引發了現場許多聽眾的共鳴。

他首先展示了這樣一張 PPT——計算機視覺的下一個五年計劃。然後他很快解釋這是開玩笑的,學術研究的事情怎麼可能做得像蘇聯的五年計劃一樣呢。他緊接著講了個關於學術課題的笑話,一個學生問他的導師「什麼課題才是真正重要的」,導師回答他「當然是現在正在做的!」(也許是暗示沒有一心投入哪個課題的人才能真正看得遠)

所以他真正的演講題目是:「沒有遺憾的未來五年」。預測五年很難,但是可以做儘量不讓自己後悔的事情。也是藉機談一談自己學術經歷中的一些感想。

遺憾是從哪裡來的?Vladlen Koltun 有句話說「每篇論文都是障礙」,因為糟糕的論文可能會影響自己一生的學術名譽,可能會浪費了時間以至於做不了更有影響力的事情,甚至更糟糕地,可能會把整個領域引向錯誤的方向。而且也會長期帶有這種負罪感。但是也不能只顧著安全,做學術研究就是需要冒一些險的。

Alexei Efros 說自己的學術生涯裡有兩大遺憾:圖模型,就不應該嘗試這個方向的,而且把很多別的研究人員也帶到溝裡了;而卷積網絡,應該更早地研究、更早地使用。他講了一則趣事,Yann LeCun 以前到伯克利做過演講,介紹 CNN,LeCun 講的時候仿佛完全沒覺得有必要解釋是怎麼來的,就只是說了你需要這個、那個,把它們連起來,然後就好了。他還帶了電腦,現場演示訓練和預測(當時別的方法都沒法這麼快地完成)。這和當時做圖模型的人的做法完全不一樣,但也直到後來大家才接受了 CNN。

而所有遺憾的「元遺憾」,就是領域內的研究人員們花了太多時間精力研究算法。對特徵的研究要少一些,對數據的研究更少,但實際上它們的效果是反過來的——數據帶來的提升是最顯著的。

他舉了例子說明,如今面部識別早已不是問題,但當時,1998 年、1999 年都有人已經用簡單的方法做出了優秀的結果,但讓領域內公認「解決」了面部識別問題的算法,是看起來足夠難的那個算法—— 2011 年的 Haar 特徵加級聯提升多厲害,更早的用像素特徵、用樸素貝葉斯聽起來就沒難度,樸素貝葉斯(Naive Bayesian)這麼天真、簡單,怎麼能說是突破性結果的代表呢。

另一個例子是他自己在 2008 年用最近鄰算法做了圖像的地理位置識別,巧的是谷歌也在 2016 年用深度學習研究了同一個問題。作為後來者的谷歌拿出了更多的數據,所以結果更好。

但有趣的是,在實驗數據裡,一樣的數據量下,他們的老方法比谷歌的新方法效果還好。所以關鍵點還是在於數據,但大家都在急著提出並且標榜自己的算法。

所以說,做科研的人都有這麼種自戀:相比之下,我們更願意把成果歸功於自己的聰明才智。

對於未來 5 年計算機視覺領域的發展趨勢,Alexei Efros 接下來給出了自己的看法,更具體地說是對未來研究可能證明是障礙、可能會成為遺憾的東西的看法。不過他也說自己的觀點是有爭議性的,如果有人能證明他是錯的也挺好的:

1,對抗性攻擊和魯棒性問題,他認為這不應該是個問題,沒必要花那麼多精力去想辦法避免,實際上可能也永遠都避免不了。因為對抗性樣本本來就不是來自自然數據流形的數據,落在由自然數據流形所劃分的決策邊界上就是有可能的,所以這並不是一個數學問題,而是一個人類的感知問題。他的建議是只要我們讓人類的視覺行為和計算機的類似就行了。換句話說,對抗性樣本只是人類與計算機的感知特點不同的表現,而不是問題本身;如果想要治病,不要只吃止痛藥(要研究感知特點,就不要緊盯著想要消滅對抗性樣本);

2,他認為短期內視覺無法和語言結合,抽象程度相差太多。Alexei Efros 挖苦說,最近幾十年的 CVPR 論文可能都會反覆上演這樣的戲碼:每一年都會有論文帶來新的視覺+語言數據集,然後第二年發現在這個數據集上只需要用最近鄰算法或者隨便一個什麼基準線方法就能打敗所有別的方法。他說這是因為我們現在有的方法真的太弱了,還不足以把這兩種模態的信息有效地提取、融合起來。「我們還沒達到一隻老鼠的視覺能力,怎麼就開始想著做直立人做的事情了」

3,我們對可解釋性的要求太嚴苛,有些問題沒有簡單的低維描述,就是複雜的,就是需要足夠多的數據才能解決。相比於理工科往往用簡單明了的公式描述現象,心理學、基因、經濟學等學科已經沒辦法簡單地用公式表示了。所以在這種時候我們就是應當依靠大量數據,沒必要一定要追求一個簡單的解。

他還舉了個例子,一團煙霧的行為可以用公式描述,但是一顆樹的生長行為是由溫度、光照、水、氣候等等許多複雜的因素在很長時間內連續變化所影響的,那麼它就是沒辦法簡單地解釋的。

4,重新思考數據集。雖然做實驗、發論文的時候一定需要用數據集,但是我們心裡要記得,數據集並不等於整個世界,它只是一個相當固定的、二維的側寫。所以模型出現的過擬合/作弊行為也就不應該被看作是問題,同樣的樣本甚至同樣的數據集(多輪訓練)反覆看了很多次,當然會出現這樣的結果。說到底,就不應該使用有限的標註和數據集。

結束語:如果說人生目標可以是增加未來可以懷念的東西的話,他自己的五年計劃就是減少遺憾、增加可以讓在未來懷念的東西,比如可以從別發表自己不滿意的論文開始。

(限於文章篇幅,後續 Ross Girshick、Jitendra Malik 等幾位講者的演講內容將在下篇中呈現,敬請期待)

雷鋒網 AI 科技評論現場報導

相關焦點

  • 五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR 2019
    這幾年來,計算機視覺領域的已有問題在研究者們的努力下普遍得到了越來越好的解決,映入大家視野的新問題也越來越多。不過到了 CVPR 這個供全球計算機視覺研究者齊聚討論的盛會上,一個可能不那麼直接指導短期研究、不那麼容易形成共識問題也就自然地湧上了大家的心頭:在五到十年後的未來,計算機視覺的研究會是什麼樣子,是深度學習幾乎完全替代了目前還在使用的其他一些方法,還是我們應該期待新的革命?
  • 五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(下)|CVPR 2019
    雷鋒網 AI 科技評論按:計算機視覺頂會 CVPR 2019 上舉辦了首屆「Computer Vision After 5 Years - CVPR Workshop」,領域內的多位知名學者受邀演講,和大家分享他們對於 5 年後的計算機視覺領域發展的看法。
  • 從CVPR2019看計算機視覺的最新趨勢
    2019年IEEE計算機視覺與模式識別大會(CVPR)於今年6月16日至20日舉行。CVPR是計算機視覺領域世界三大學術會議之一(與ICCV和ECCV並列)。今年共收到1300篇論文,錄取率達到創紀錄的5165篇(25.2%)。
  • CVPR2019| 05-17更新11篇論文及代碼合集(含一篇oral,視覺跟蹤/實例分割/行人重識別等)
    加入極市專業CV交流群,與6000+來自騰訊,華為,百度,北大,清華,中科院等名企名校視覺開發者互動交流!
  • 還在糾結深度學習算法 計算機視覺CV的關鍵在於數據採集和標註!
    過去五年,計算機視覺CV領域一度成為國內創投圈的「寵兒」。僅2018年,該領域融資額就高達230億。然而,這樣的盛景並沒有持續多久。去年2月,計算機視覺奠基人Alan L. Yuille曾撰文表達他對當下計算機視覺CV技術發展的擔憂。他認為,計算機視覺的發展面臨瓶頸,深度學習在其中起到的作用有限,需要找到新的突破口。
  • 如何評價CVPR 2021的論文接收結果?
    聲明:僅做學術分享,侵刪一年一度的計算機視覺頂會即將放榜前者是VGG類極簡架構,3x3卷積一卷到底,連分支結構都沒有,ImageNet上可達80.5%正確率,跟SOTA架構如RegNet比都有可見的性能提升。代碼和模型全都放出了,Git上已經1100+ star了。
  • 【盤點影響計算機視覺Top100論文】從ResNet到AlexNet
    1新智元編譯來源:github編譯整理: 新智元編輯部 【新智元導讀】計算機視覺近年來獲得了較大的發展,代表了深度學習最前沿的研究方向。本文梳理了2012到2017年計算機視覺領域的大事件:以論文和其他乾貨資源為主,並附上資源地址。
  • 投稿量激增56%,CVPR 2019接收論文的關鍵詞是什麼?
    CVPR 是計算機視覺領域的頂級學術會議,在機器學習領域享有盛名。今年的 CVPR 將於 6 月 16 日-20 日於美國加州的長灘市舉行。本屆 CVPR 大會共收到 5165 篇有效提交論文,比去年增加了 56%。大會接收了其中的 1300 篇,接收率約為 25.1%。
  • 計算機視覺不是智能,只是記憶:CVPR 2019程序主席開炮
    選自Medium作者:Derek Hoiem機器之心編譯參與:路、杜偉計算機視覺頂會 CVPR 2019 剛剛落下帷幕,近日 CVPR 2019 程序主席 Derek Hoiem 發表了一篇文章,認為計算機視覺正處於黃金時代
  • 影響計算機視覺Top100論文,從ResNet到AlexNet
    【原文】github【編譯】新智元(ID:AI_era)計算機視覺近年來獲得了較大的發展
  • 科大訊飛奪冠2019年度計算機視覺頂級會議CVPR和ICDAR多項評測
    CVPR 2019和文檔分析與識別頂級會議ICDAR 2019上的多項評測任務中獲得冠軍: 1. 在計算機視覺與模式識別國際會議(CVPR 2019)舉辦的物體檢測挑戰賽DIW 2019(Detection in the Wild challenge Workshop 2019)上取得Objects365 Tiny Track第一,Objects365 Full Track第三的佳績
  • 歷年 CVPR 最佳論文盤點
    AI 科技評論按:作為計算機視覺領域的頂級學術會議,CVPR 2019 近期公布了最終論文接收結果,引來學界密切關注。據悉,CVPR 2019 今年一共獲得 5165 篇有效提交論文,最終抉出了 1300 篇接收論文,接收率達到 25.2% 。
  • 計算機視覺頂會 ICCV 2019 投稿數量翻倍!
    雷鋒網 AI 科技評論:根據 ICCV 官方 Twitter 消息,ICCV 2019 一共收穫 4328 篇論文,與上一屆 2143 篇相比,數量多出了將近一倍。ICCV 由 IEEE 主辦,與計算機視覺模式識別會議(CVPR)和歐洲計算機視覺會議(ECCV)並稱計算機視覺方向的三大頂級會議。CVPR 每年召開一次,而 ECCV 和 ICCV 在世界範圍內每年間隔召開。
  • 2013-2017:中國 CV(計算機視覺)公司恩仇錄
    這是屬於中國 CV(計算機視覺)公司的五年,這是屬於他們的時代。一、2011-2013:開始時從四方趕來,我們都有光明的前途2011 年 8 月 iOS 平臺第一款體感遊戲《Crow Coming》發布時,市面上最新款蘋果還是巴掌大的 iPhone4 。開發這款遊戲的團隊叫「VisionHacker」,成員只有三個人:印奇、唐文斌和楊沐。
  • CVPR2019無人駕駛相關論文
    點擊文末「閱讀原文」立刻申請入群~CVPR2019 accepted list ID已經放出,極市已將目前收集到的公開論文總結到github上(目前已收集210篇),後續會不斷更新,歡迎關注,也歡迎大家提交自己的論文:https://github.com/extreme-assistant/cvpr2019
  • 【收藏】2019年不容錯過的20大人工智慧/機器學習/計算機視覺等頂會時間表
    本文介紹了2019年值得關注的20個頂會,包括人工智慧、機器學習、計算機視覺、自然語言處理、體系結構等領域。目錄人工智慧/機器學習計算機視覺/模式識別自然語言處理/計算語言學體系結構數據挖掘/信息檢索計算機圖形學1.
  • 「python opencv 計算機視覺零基礎實戰」第一節
    那計算機視覺指的是什麼呢?計算機視覺並不是指計算機可以去查看某些東西,這個說法太過片面,並不嚴謹;計算機視覺其實是研究如何讓計算機去代替人去觀察,並且進行一些目標上的處理。在opencv中,集成了很多方法,可以讓我們開發者很容易的完成某些視覺上的操作,完成某些目標;通過opencv,可以讓我們無需了解太多的算法知識,簡便的進行開發。
  • 騰訊優圖25篇論文入選全球頂級計算機視覺會議CVPR 2019
    全球計算機視覺頂級會議 IEEE CVPR 2019(Computer Vision and Pattern Recognition,即IEEE國際計算機視覺與模式識別會議)即將於6月在美國長灘召開。本屆大會總共錄取來自全球論文1299篇。
  • 微信網友對話極視角CTO黃纓寧,暢談計算機視覺與人工智慧
    曾作為主要成員參與多個計算機視覺領域的國家自然科學基金項目並發表論文,獲得相關專利。曾在百度進行數據挖掘工作並與大數據部共同發布電影票房預測系統,後獲谷歌總部無人駕駛錄取。現為極視角CTO,致力於打造中國第一個計算機視覺的PAAS雲平臺,推動計算機視覺技術在生產環境中的落地。
  • 【CUDA學習筆記】第九篇:基本計算機視覺操作【上】(附實踐源碼下載)
    完美圖像在其所有灰度級中具有等量的像素,因此在整個範圍內直方圖應在較大的動態範圍裡有相同數量的像素,這可以通過直方圖均衡的技術來實現,這是所有計算機視覺應用中非常重要的預處理步驟。        以下代碼描述灰度圖像上直方圖均衡的過程:        將讀取的圖像上載到設備顯存裡,準備進行直方圖均衡。