五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(下)|CVPR 2019

2021-01-07 雷鋒網

雷鋒網 AI 科技評論按:計算機視覺頂會 CVPR 2019 上舉辦了首屆「Computer Vision After 5 Years - CVPR Workshop」,領域內的多位知名學者受邀演講,和大家分享他們對於 5 年後的計算機視覺領域發展的看法。

在上篇中,雷鋒網 AI 科技評論已經介紹了 Cordelia Schmid、Alexei Efros 兩位的演講內容。這篇中我們繼續帶來其他幾位講者的內容。

演講三

Facebook 人工智慧研究院(FAIR)的研究科學家、目標檢測界的領軍人物 Ross Girshick 上午還在教學講座,下午就在這個研討會進行又一個演講。

就在 Ross Girshick 之前演講的 Alexei Efros 說到有四件我們需要改變看法的事情,Ross 一開場也就說,他的演講相當於只針對其中的第四點數據集的一點想法。他的演講主題是「Big Little Data」。

目前在深度學習時代,可以說「大規模、類別均衡的數據集+手工標籤+神經網絡=不錯的表現」,不過這也是我們唯一掌握的模式,所有不符合這個模式的都是還沒解決的問題。

在這個演講裡,Ross 打算討論的是一個和這個模式非常類似,但是還沒被解決的問題。

從命名說起,人類和機器之間交流、機器和機器之間的交流會打開一個很大的新挑戰:實體命名。自然場景中的物體非常多非常細,對它們的命名是一個尚未得到充分研究的挑戰,這也將是未來的重要發展方向。

相比於當前的數據集、當前的對象識別任務中只檢測主要的一些物體,如果要檢測場景中的所有物體,這有一系列不同:首先需要大幅擴充詞彙庫,其次,如果希望能服務更豐富的行為的話也需要更豐富的表徵。實際上,要檢測所有的物體,其實並不僅僅是檢測更多類別而已,它會啟發很多全新的研究課題。

很明顯的,第一個問題:是要如何評價分類結果;第二個問題是,如何應對數據效率、長尾數據的狀況。

長尾數據的狀況其實遠比我們一般印象裡的糟糕,他們統計了 COCO 數據集中的類別分布比例,並同步嘗試了用更少的數據訓練模型。在減少到只有 1k 訓練樣本時,超過 90% 的類別都仍然有至少 20 個樣本,甚至還沒有到小樣本學習的範疇,但模型的準確率已經出現了大幅下降。

而如果統計更大範圍的圖片內的類別分布,總的類別數目越大時,最後出現的罕見類別也就越多、每個類別樣本越少。

Facebook 探究這個問題的努力是設計了 LVIS 數據集。它基於的是 COCO 數據集中的圖像,數據總量很大,但是樣本量很小的數據類別也很多。非常多的實例分割標註,但是包含的長尾數據中也有數量很少的類別,這就是 Big Little 兩個詞的所指。

Ross 說道,構建數據集時就需要重新思考不少東西:過往的數據集構建時,做法都是先選定想要包含的類型(哪一千個類別),再通過關鍵詞搜索對應類別的圖片,然後添加到數據集中。這樣的結果就是模糊的類別少、類別總數目有限、不同類型的樣本分布過於平衡。這其實都是和更廣泛的圖像、生活中的圖像的特性不符的,也達不到檢測所有物體的目標。LVIS 的設計目標和方法都有所不同,所以不再有這些特點(也可以說是缺點)。

Ross 著重說了一下他們對「類別」概念的重新思考。目前的對象識別數據集中都有許許多多類別名,但是「類別名只是一種表達」,並不能真的等同於類別本身的定義。

實際上,類別就是具有靈活性和多義性的,比如玩具鹿可以同時屬於「玩具」類別和「鹿」類別,小汽車和卡車都可以屬於「交通工具」,以及同一個物體可以有不同的稱呼。一種直白的處理方式是把所有類別都列出來,然後每一個對象實例都要分別一一標註出它是否屬於某個類別。但類別和實例稍微多一點以後這種做法就是不行的。

除此之外,真實世界的物體分類很多時候也就是模糊的,比如 hotdog(熱狗)、taco(肉卷)、sandwich(三明治)三者之間的區別就很難說清,cereal(燕麥粥)和 soup(粥)也很類似。對於 toast 的理解就更是令人迷惑了。沒有準確的定義,類別間的區別非常模糊。這都說明了沒法做以往那樣的直白的標註。

Facebook 的解決方案是用聯邦數據集的概念,不做所有圖像中的實例的精細標註,而是把整個數據集看作許多個類別數據集的集合;其中每個類別數據集由出一定數量的正例和負例組成,除此之外的圖像都允許處於未知的狀態,不再逼迫分類器一定要給出某個結果。

這種做法也帶來了一些標註方面的新特性。建立這個數據集他們花了一年多時間,目前還沒完全完成。感興趣的研究者可以訪問 www.lvisdataset.org。

對於數據效率問題,Ross 有一個有趣的說法:我們嘗試持續提升 AP 了這麼多年,是時候把它降下來了——需要讓大家知道這不是一個已經完全解決的問題。

數據中的長尾特性是不可能消除的,檢測不同類別對象的 mAP 有明顯的高低區別,而且 Ross 認為當前的小樣本學習根本就還沒發展到可以解決問題的程度。從小樣本中學習的能力真的是未來五年中的一個非常重要的課題。

Ross 並沒有介紹他們在這方面的新的成果,但是他們將在 ICCV2019 上舉辦比賽,就基於 LVIS 數據集,通過挑戰的過程吸引更多研究者關注長尾小樣本學習問題。

演講四

MIT 電子工程與計算機科學教授 Bill Freeman 的演講主題是「The future of CV told through seven classic rock songs」。

他說這個主題,用搖滾比喻計算機視覺,其實覺得挺貼切的。不過鑑於這些老歌曲國內讀者都不熟悉,這裡暫時把比喻都略去,只關注正題內容。

Bill Freeman 一開頭也諷刺了過去五年的論文發表模式:翻到計算機視覺教科書的隨便哪一頁,在那一頁講的課題前面加上「深度」,收集一個相關的數據集,仿照 AlexNet 的樣子訓練一個 CNN 模型,然後就可以發表在 CVPR 了。

最近幾年的一個新風潮是從人類的視覺感知系統獲得靈感發表論文,也許接下來五年的計算機視覺論文發表模式會變成:翻開 MIT 的《視覺科學》教科書,隨便翻到哪一頁,然後仔細地把這一頁的概念融入到自己設計的網絡中,就可以把論文命名為「一個 xxxx 的架構設計」,然後補充內容以後發表到 CVPR 了。(這當然也是諷刺)

接下來 Bill Freeman 花時間和聽眾一起討論了許多視覺系統概念的辨析,大家交換了一下看法。鳥類能夠飛行,當時有人認為是因為鳥有羽毛,也有人認為是鳥有翅膀。現在當然公認翅膀才是對飛行來說真正重要的,羽毛不一定需要。他希望大家思考一下,後面的這些概念,對視覺系統來講哪些是翅膀、哪些是羽毛。也藉由這些討論,窺探未來計算機視覺研究有待探究的課題。

1 人類視覺系統中獨立的背側和腹側視覺通路,對類別和位置的分別表徵,大多數人認為是羽毛;

2,明確地表徵對象的邊界,應該是翅膀;3,邊界的重建能力,應該是翅膀;

4,Foveation,視野的中央部分最靈敏,Bill 認為這對學術研究來說是羽毛,對商業產品是翅膀(學術研究要研究視覺系統的本質,但商業產品有恰當的功能性就夠);

5,感知分類(認為上圖中是一個條形貫穿了方形和圓形),應該是翅膀;6,三色視覺,有待討論;7,高效率,低發熱,可移動性,對學術研究來說是羽毛,對商業產品是翅膀;

8,反向連接,大多數人認為應該是翅膀

在這些說完之後,Bill Freeman 告誡大家要多看看前人的成果,不要總是重複發明輪子。

演講五

第五位演講的是計算機視覺領域奠基人之一的 UC 伯克利教授 Jitendra Malik。

Malik 開場首先說了像繞口令一樣的一句話:科研的藝術,就是要找重要的、未解決的、但能解決的問題,去解決。

Malik 說,其實許多年前的演講中他就曾討論過未來:在 2004 年他就做過以《The Hilbert Problems of Computer Vision》的演講,提出了一些對於計算機視覺系統的問題,希望未來的研究可以給出答案;然後在 2015 年,他做了《The (new) Hilbert Problems of Computer Vision》的演講,為 2004 年提出的問題給出了一些回答,也提出了新的問題。他說他挺喜歡這個模式的,這個問答過程就是很好的預測和回顧,而且現在我們還可以回過頭看以前對更早的問題的回答,以此作為預測未來的參考。唯一的遺憾是,今天這次演講在 2019 年,距離上一次 2015 年的預測稍微近了點。

2004 年提出的對於早期視覺、靜態視覺、動態視覺三個板塊的問題,可以看作是在深度學習時代來之前對視覺領域的思考。在 2015 年時給出的回答分別是:

早期視覺問題

如何從圖像統計中獲得目前還不了解的信息?在監督學習任務中訓練一個多層神經網絡就可以獲得通用的圖像表徵自底向上的圖像分割能發展到什麼水平?可以產生一小組物體分割候選,然後可以用分類器添上標籤。滑動窗口已經不再需要了。如何根據自然圖像中的陰影、紋理進行推理?相比於對成像過程進行反向建模,我們可以進行學習。如果數據比較稀疏,我們需要給一些參數設定先驗的值;如果有足夠的數據,就可以直接用神經網絡之類的非參數化方法學習。

靜態場景理解

分割和識別之間如何互動?雙向信息流。場景、物體、部件之間如何互動?在感知域內能夠隱式地捕捉到一些聯繫,但還不是普遍的結構識別系統中的設計和學習的角色如何?儘量多地從數據中學習。不要設計特徵。要設計網絡結構。

動態場景理解

在大範圍運動對應關係中,高階知識起到什麼樣的作用?如何找到好的對應關係是可以通過學習得到的如何找到並追蹤明確的結構?重建人體形狀和動作方面已經有了巨大的進步如何表徵動作?這還是個開放性的問題,目前我們還不理解動作和活動之間的層次結構

2015 年提出的新問題和現在給出的回答則是

人、地點和物體

世界上的每一個地點建模已經有了表現優秀的 SLAM、地點分類和視覺導航對每個物體類別建模已經有了表現優秀的實例分割、分類和形狀重建用於社交感知的人類建模以及算法已經有了表現優秀的人類形狀、姿態、動作識別

不過對於社交感知的現狀,Malik 認為並不樂觀:今天的計算機的社交智慧少得可憐;當人類之間互動、人類和外部世界互動時,我們需要能夠理解人類的內部狀態,例子比如情感狀況、身體語言、當前目標

Malik 回憶了圖靈當年在圖靈機論文較為靠後的章節裡對智慧的表述,然後說我們的視覺感知發展之路可以像人類小孩的學習一樣經歷六個方向的發展。

這六個方向是:多模態學習;漸進學習;物理交互學習;探索;社交學習;使用語言。對於體現不同階段的內建過程(以觀察為監督、以互動為監督、以文化為監督),他認為這是挺合適的思考結構。

最終,我們希望達到的效果是,看到這樣一張圖(街邊長凳上坐著一個演奏手風琴的人,邊上經過兩個路人),除了能識別出來圖中的凳子、識別出人的動作之外,還能推測路人是否會給演奏者留下一些錢。

雷鋒網 AI 科技評論總結:在這個研討會的演講中,大家關注的不再是發論文時候需要的非常具體的任務和條件限定(做實驗所必須的),而是關注整個領域裡未解決的問題需要我們如何思考,以及對計算機視覺、甚至就是視覺、自然世界的本質有全面的審視。用全局的、貼近自然世界的視角看過以後,也就更理解了 Ross Girshick 在演講中說到的這個成功的模式是「我們唯一掌握的模式」,現階段能在數據集上比較、能在論文中展示算法表現的只是一部分具體刻畫後的任務,整個計算機視覺領域內尚未得出結論的問題還有很多,我們都需要用更長遠更開放的眼光去看待。到最後,預測五年後會發生什麼,遠不如提醒大家「我們還可以嘗試做什麼」來得重要。

雷鋒網 AI 科技評論現場參會報導。

相關焦點

  • 五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上)|CVPR 2019
    雷鋒網 AI 科技評論按:對於計算機視覺研究者們來說,以當前的技術水平為基礎,尋找突破點做提升改進是科研的主旋律。這幾年來,計算機視覺領域的已有問題在研究者們的努力下普遍得到了越來越好的解決,映入大家視野的新問題也越來越多。
  • 五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR 2019
    這幾年來,計算機視覺領域的已有問題在研究者們的努力下普遍得到了越來越好的解決,映入大家視野的新問題也越來越多。不過到了 CVPR 這個供全球計算機視覺研究者齊聚討論的盛會上,一個可能不那麼直接指導短期研究、不那麼容易形成共識問題也就自然地湧上了大家的心頭:在五到十年後的未來,計算機視覺的研究會是什麼樣子,是深度學習幾乎完全替代了目前還在使用的其他一些方法,還是我們應該期待新的革命?
  • 從CVPR2019看計算機視覺的最新趨勢
    2019年IEEE計算機視覺與模式識別大會(CVPR)於今年6月16日至20日舉行。CVPR是計算機視覺領域世界三大學術會議之一(與ICCV和ECCV並列)。今年共收到1300篇論文,錄取率達到創紀錄的5165篇(25.2%)。
  • 還在糾結深度學習算法 計算機視覺CV的關鍵在於數據採集和標註!
    2012年,AlexNet網絡橫空出世,帶來了前所未有的深度學習革命,這也讓多年來進展緩慢的計算機視覺CV研究,一下被按下了「快進鍵」。人們突然發現,這種模擬人腦抽象和迭代過程的深度學習算法,讓計算機開始「看見」。從物體的邊緣、輪廓到物體的部分,再向更高級層層抽象,深度學習讓計算機終於能夠在一張日常照片中,檢測並識別出圖上有一隻貓,而不是一條狗。
  • CVPR2019| 05-17更新11篇論文及代碼合集(含一篇oral,視覺跟蹤/實例分割/行人重識別等)
    加入極市專業CV交流群,與6000+來自騰訊,華為,百度,北大,清華,中科院等名企名校視覺開發者互動交流!
  • 投稿量激增56%,CVPR 2019接收論文的關鍵詞是什麼?
    CVPR 是計算機視覺領域的頂級學術會議,在機器學習領域享有盛名。今年的 CVPR 將於 6 月 16 日-20 日於美國加州的長灘市舉行。本屆 CVPR 大會共收到 5165 篇有效提交論文,比去年增加了 56%。大會接收了其中的 1300 篇,接收率約為 25.1%。
  • 如何評價CVPR 2021的論文接收結果?
    聲明:僅做學術分享,侵刪一年一度的計算機視覺頂會即將放榜同樣思想的還有ACNet(ICCV-2019)和ResRep(去年搞的一個剪枝方法,Res50無損壓縮超過50%,也就是說從76.15%的標準模型壓到76.15%,真正意義的無損)。最近我也會寫篇文章總結一下重參數化思想及其應用。
  • 【盤點影響計算機視覺Top100論文】從ResNet到AlexNet
    1新智元編譯來源:github編譯整理: 新智元編輯部 【新智元導讀】計算機視覺近年來獲得了較大的發展,代表了深度學習最前沿的研究方向。本文梳理了2012到2017年計算機視覺領域的大事件:以論文和其他乾貨資源為主,並附上資源地址。
  • 計算機視覺不是智能,只是記憶:CVPR 2019程序主席開炮
    選自Medium作者:Derek Hoiem機器之心編譯參與:路、杜偉計算機視覺頂會 CVPR 2019 剛剛落下帷幕,近日 CVPR 2019 程序主席 Derek Hoiem 發表了一篇文章,認為計算機視覺正處於黃金時代
  • 影響計算機視覺Top100論文,從ResNet到AlexNet
    【原文】github【編譯】新智元(ID:AI_era)計算機視覺近年來獲得了較大的發展
  • 科大訊飛奪冠2019年度計算機視覺頂級會議CVPR和ICDAR多項評測
    CVPR 2019和文檔分析與識別頂級會議ICDAR 2019上的多項評測任務中獲得冠軍: 1. 在計算機視覺與模式識別國際會議(CVPR 2019)舉辦的物體檢測挑戰賽DIW 2019(Detection in the Wild challenge Workshop 2019)上取得Objects365 Tiny Track第一,Objects365 Full Track第三的佳績
  • 歷年 CVPR 最佳論文盤點
    AI 科技評論按:作為計算機視覺領域的頂級學術會議,CVPR 2019 近期公布了最終論文接收結果,引來學界密切關注。據悉,CVPR 2019 今年一共獲得 5165 篇有效提交論文,最終抉出了 1300 篇接收論文,接收率達到 25.2% 。
  • 計算機視覺頂會 ICCV 2019 投稿數量翻倍!
    雷鋒網 AI 科技評論:根據 ICCV 官方 Twitter 消息,ICCV 2019 一共收穫 4328 篇論文,與上一屆 2143 篇相比,數量多出了將近一倍。ICCV 由 IEEE 主辦,與計算機視覺模式識別會議(CVPR)和歐洲計算機視覺會議(ECCV)並稱計算機視覺方向的三大頂級會議。CVPR 每年召開一次,而 ECCV 和 ICCV 在世界範圍內每年間隔召開。
  • 2013-2017:中國 CV(計算機視覺)公司恩仇錄
    這是屬於中國 CV(計算機視覺)公司的五年,這是屬於他們的時代。一、2011-2013:開始時從四方趕來,我們都有光明的前途2011 年 8 月 iOS 平臺第一款體感遊戲《Crow Coming》發布時,市面上最新款蘋果還是巴掌大的 iPhone4 。開發這款遊戲的團隊叫「VisionHacker」,成員只有三個人:印奇、唐文斌和楊沐。
  • 微信網友對話極視角CTO黃纓寧,暢談計算機視覺與人工智慧
    曾作為主要成員參與多個計算機視覺領域的國家自然科學基金項目並發表論文,獲得相關專利。曾在百度進行數據挖掘工作並與大數據部共同發布電影票房預測系統,後獲谷歌總部無人駕駛錄取。現為極視角CTO,致力於打造中國第一個計算機視覺的PAAS雲平臺,推動計算機視覺技術在生產環境中的落地。
  • 計算機視覺技術發展的下一個十年
    未來十年,計算機視覺技術將取得巨大的飛躍。本篇文章回顧了在21世紀第一個10年裡計算機技術的趨勢和突破,並暢想在第二個10年,我們可以期待什麼新的趨勢以及突破。我們花在開發和調優這些算法上的時間越少,我們就越能處理日益複雜的任務,使計算機視覺更容易被更多的人使用。隨著我們進入下一個十年,這一趨勢的一個巨大分支將是創造出既適用於視覺又適用於自然語言處理任務的Transformer友好型硬體的機會。
  • 騰訊優圖25篇論文入選全球頂級計算機視覺會議CVPR 2019
    全球計算機視覺頂級會議 IEEE CVPR 2019(Computer Vision and Pattern Recognition,即IEEE國際計算機視覺與模式識別會議)即將於6月在美國長灘召開。本屆大會總共錄取來自全球論文1299篇。
  • 【收藏】2019年不容錯過的20大人工智慧/機器學習/計算機視覺等頂會時間表
    本文介紹了2019年值得關注的20個頂會,包括人工智慧、機器學習、計算機視覺、自然語言處理、體系結構等領域。目錄人工智慧/機器學習計算機視覺/模式識別自然語言處理/計算語言學體系結構數據挖掘/信息檢索計算機圖形學1.
  • 歷年 CVPR 最佳論文盤點(2000 年——2018 年)
    雷鋒網 AI 科技評論按:作為計算機視覺領域的頂級學術會議,CVPR 2019 近期公布了最終論文接收結果,引來學界密切關注。據悉,CVPR 2019 今年一共獲得 5165 篇有效提交論文,最終抉出了 1300 篇接收論文,接收率達到 25.2% 。
  • HCP Lab 12篇論文入選世界頂級計算機視覺會議 CVPR 2019
    全球計算機視覺三大頂會之一 CVPR 2019 (IEEE Conference on Computer Visionand Pattern Recognition) 於 6月 16~20日 在美國洛杉磯如期舉辦。CVPR 作為計算機視覺三大頂級會議之一,一直以來都備受關注。被 CVPR 收錄的論文更是代表了計算機視覺領域的最新發展方向和水平。