港科大教授權龍:計算機視覺下一步將走向三維重建 | CCF-GAIR 2018

2020-12-06 雷鋒網

雷鋒網按:2018 全球人工智慧與機器人峰會(CCF-GAIR)在深圳召開,峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,得到了寶安區政府的大力指導,是國內人工智慧和機器人學術界、工業界及投資界三大領域的頂級交流盛會,旨在打造國內人工智慧領域最具實力的跨界交流合作平臺。

CCF-GAIR 2018 延續前兩屆的「頂尖」陣容,提供1個主會場和11個專場(仿生機器人,機器人行業應用,計算機視覺,智能安全,金融科技,智能駕駛,NLP,AI+,AI晶片,IoT,投資人)的豐富平臺,意欲給三界參會者從產學研多個維度,呈現出更富前瞻性與落地性相結合的會議內容與現場體驗。

大會第二天的計算機視覺專場,香港科技大學教授,ICCV 2011主席,IEEE Fellow權龍教授作為開場嘉賓,發表題為「計算機視覺, 識別與三維重建」的精彩演講,點燃了現場氣氛。

權龍教授主要從三個方面進行闡述,分別是計算機視覺的基礎、計算機視覺的變遷與發展,以及計算機視覺最新的進展。

他談到,當下因為深度學習技術的發展,人工智慧變得非常火熱,計算機視覺作為人工智慧的一個領域,也變得異常火熱。

不過目前計算機視覺的研究和應用主要集中在「識別」,「識別」只是計算機視覺的一部分。如果要去做一些交互和感知,必須先恢復三維,所以在識別的基礎上,下一個層次必須走向「三維重建」。

針對這個領域,權龍教授和他的研究團隊已經做了諸多的工作並取得了一定的成績,在 4 月份,他們拿下了兩個計算機視覺榜單的全球第一。

當然,目前在深度學習推動下的計算機視覺技術還有很多不足和挑戰,需要更多業內研究者不斷去探索,特別是在卷積神經網絡在高維度空間的理論理解與解釋。

以下是權龍教授的演講全文,雷鋒網做了不改變原意的整理與編輯:

感謝大會主辦方的邀請,今天我想跟大家分享計算機視覺中的識別和三維重建問題。

我今天的演講分為三部分:首先講一下計算機視覺的基礎,然後介紹它的變遷與發展,最後再談談它的最新進展。

計算機視覺的源起

什麼是人工智慧和計算機視覺?人工智慧的目的是讓計算機去看、去聽和去讀。圖像、語音和文字的理解,這三大部分基本構成了我們現在的人工智慧。而在人工智慧的這些領域中,視覺又是核心。大家知道,視覺佔人類所有感官輸入的80%,也是最困難的一部分感知。如果說人工智慧是一場革命,那麼它將發軔於計算機視覺,而非別的領域。

2012年是非常重要的一年,我在標題中稱之為「a year of no significance」。這一年看似平凡,卻發生了很多事情。2012年,在一個叫CVPR的計算機視覺頂級會議上發生了一件看似重要,但也不那麼重要的事情。那就是一個叫ImageNet的比賽,它把圖像識別準確率從75%提高到了85%,引發了一系列(人工智慧)熱浪。

再把時間回溯到1998年,當年有了卷積神經網絡,它是今天所有卷積神經網絡的鼻祖模型。它有幾個特點,首先它輸入的圖像比較小,只有32*32pixel;其次它沒有GPU,這正是它計算力比較弱的原因。

2012年,卷積神經網絡復活,我們稱之為AlexNet。和上一階段相比,它的內部結構基本一模一樣,變化非常小,但輸入的尺寸不一樣。1998年的模型,輸入尺寸為32*32pixel,且只有一個通道。新的模型輸入尺寸已經擴大到了224*224pixel,而且有三個通道。最關鍵的是裡面有了GPU,它當時訓練時用了兩塊GPU。

從1998年到2012年,中間經歷了10多年,卷積神經網絡的架構還是一樣的,那麼它內部發生了哪些變化?有兩點非常重要:一、英偉達研發了GPU,GPU最早是為遊戲而不是人工智慧誕生的;二、華人學者、史丹福大學教授李飛飛創建了ImageNet,她把幾百萬張照片發到網絡上並發動群眾做了標註。

6年後的今天又發生了哪些變化呢?2012年訓練AlexNet模型需要使用兩塊GPU,花費6天時間;今天做同樣的事情只需要一塊DGX-2,十幾分鐘就能搞定。

再看看學術會議。CVPR以前是一個一般的學術會議,只有幾百人參與。今年,我們剛從鹽城湖回來,參會群眾規模已經達到了6500人,基本實現了10倍增長。我們有幸將於2022年在紐奧良組織這個會議。相信到時候將有上萬人參加,我們需要擔憂的是哪裡能找到可容納這麼多人的場地。

什麼是計算機視覺?計算機視覺的本質是對圖像進行理解。「理解」這個詞沒有準確的定義,事實上計算機無法做到「理解」,只能做到認知。計算機視覺的終極目的就是達到認知。我們研究計算機視覺的目的是得到視覺特徵,有了視覺特徵才能開展一系列的工作。

為什麼視覺特徵如此重要?在語音識別領域,語音的特徵已經定義得非常清晰——音素。但如果我們拿來一個圖像,問它最重要的視覺特徵是什麼,答案並不明確。大家知道圖像包含像素,但像素並不是真正的特徵。像素只是一個數位化的載體,將圖像進行了數位化的表述。計算機視覺的終極目標就是尋找行之有效的視覺特徵。

計算機視覺包含兩個基本應用——識別和重建。它們的英文單詞都以「re」做前綴,說明這是一個反向的問題。

計算機視覺發展簡史

我們簡單回顧一下計算機視覺的發展歷史。上世紀70/80年代,計算機視覺有了最初的發展。那個年代,基本所有的計算機視覺研究都以Marr的primal sketches為理論依據。它的可計算數學模型都是以edges為主的邊緣提取。有了edge之後,再把它高層化後的線段元做簡單的統計分類或者三維重建。Edge在數學上是很好定義的,我們定義了很多優化準則後,這個研究方向就到頭了。

90年代到2000年,行業內有一些變化,大家從edge回過頭來研究幾何問題。幾何就是三維重建,一維的edges不適合做計算。幾何最本質的元素是點,它是二維的,更內在。這推動了很多研究工作以點為基礎展開,對點做描述,也就是feature descriptors。這對推動計算機視覺發展產生了重要作用。

從識別方面來看,有了feature descriptors就可以把很多東西變成矢量的無序集合,然後再去做統計。當時最成功的是三維重建,所謂成功也只是把一些點從二維變成三維,沒有真正語義上的描述。這是1990-2000年間的發展。

2012年開始,我稱之為CNN時代。這時候視覺領域開始發生變化,從特徵到識別算法基本都被CNN一統。CNN現在已經很強大了,基本所有計算機視覺論文都會提到它。CNN的好處在於,它是端到端的,比較容易實現。

給大家講一個趣聞,90年代計算機視覺如日中天的時候,卷積神經網絡還沉浸在痛苦中無人理睬。機器學習、計算機視覺和語音識別領域的人都忽視它。

2012年,AlexNet在重要會議上只能參加一些邊緣比賽,不能進入主會場。那個年代,如果你的論文中提到CNN,估計會直接被拒;但今天你的論文如果不提CNN,就非常難入圍。

今天計算機視覺中的識別技術基本是端到端的,從1998年的LeNet到2012年的AlexNet,再到2016年ResNet。目前ResNet已經非常成熟,谷歌給出了開源標準ResNet50,只需要把數據丟進去訓練即可。

今天,如果你能清晰地定義問題,做好數據標定,這個問題基本就解決了。哪怕找一個高中生把它輸入Net也能得到非常好的結果。讓計算機學習圖片之後,再給它展示一張它之前沒見過的圖片,一般它也能識別出來,水平基本與人類一致,甚至高於人類。因為人類有時會不小心犯錯,但機器記憶或學會了之後便不會犯錯。這些成果都是基於深度神經網絡取得的。

但也不能忘記,這種東西有很大的局限,它並不是真的很聰明,只是記住了很多樣本。你也可以說它很蠢,因為它根本不知道自己在做什麼。一切取決於你的標準,如果你把一個東西標註成cat,它就認為這是一隻貓,明天你再把它標註成dog,它就認為這是一條狗。所以它並沒有真正理解,只是在做簡單的統計分類。人類可以把狼和狗歸為同類,也可以把薩摩耶和白狼區分,這些都是主觀的,取決於我們如何定義問題。我們如何定義,機器就給出什麼樣的答案,它本質上沒有自己的認知。

卷積神經網絡能夠識別圖像只是表象,我們應該回歸本質——計算機視覺。計算機視覺是對視覺特徵的尋求和探索。CNN本質上是重新學習和定義了我們以前尋找的視覺特徵。以前的視覺特徵是手工定義的,維數不會太高,有幾十、幾百就已經比較高了,畢竟人類能力有限。卷積神經網絡學習的視覺特徵維數更多,動輒上百萬,而且是有結構的。

下一步將走向三維重建

現在每個人都在研究識別,但識別只是計算機視覺的一部分。真正意義上的計算機視覺要超越識別,感知三維環境。我們活在三維空間裡,要做到交互和感知,就必須將世界恢復到三維。所以,在識別的基礎上,計算機視覺下一步必須走向三維重建。

三維重建中包含深度、視差和重建三個概念,它們基本等價。使用哪個詞彙取決你處在哪個群體。

人類有兩隻眼睛,通過兩隻眼睛才能得到有深度的三維信息。當然,通過一隻移動的眼睛,也可以獲得有深度的信息。

獲取深度信息的挑戰很大,它本質上是一個三角測量問題。第一步需要將兩幅圖像或兩隻眼睛感知到的東西進行匹配,也就是識別。這裡的「識別」和前面有所不同,前面提到的是有標註情況下的識別,這裡的「識別」是兩幅圖像之間的識別,沒有資料庫。它不僅要識別物體,還要識別每一個像素,所以對計算量要求非常高。

雙目視覺非常重要,哺乳動物都有雙目視覺,而且智商越高,雙目視線重疊的區域越大。馬的眼睛是往兩邊看的,這並不代表它沒有雙目視覺,只是雙目視線重疊的範圍比較小。魚也是如此。

由此可見,現代三維視覺是由三維重建所定義的。CNN誕生之前,它的主要動力源於幾何,因為它的定義相對清晰。

計算機視覺中的三維重建包含三大問題:一、位置。假如我給出一張照片,計算機視覺要知道這張照片是在什麼位置拍的。二、多目。通過多目的視差獲取三維信息,識別每一個像素並進行匹配,進行三維重建。三、語義識別。完成幾何三維重建後,要對這個三維信息進行語義識別,這是重建的最終目的。

2012年之前,計算機視覺中的三維視覺已經得到了顯著發展,那麼新的深度學習對它有哪些啟發呢?三維視覺本質上也是一個「識別」的問題,深度學習讓它在識別方面得到了強化。視覺中的特徵非常重要,以前的幾何做法一般是用手工特徵。CNN的重要之處不在於它能識別一隻貓或一條狗,而在於它學會了很多視覺特徵,我們可以拿這些特徵做圖像之間的識別和匹配。

識別方面,現在我們面臨比過去更大的挑戰,因為現在的數據量比以前更多。以前是幾十幅、上百幅,現在動輒幾十萬、上百萬幅。這就涉及到計算機規模化的問題,規模化意味著分布式,這也是一個重要課題。

前面提到雙目和多目視覺,這個領域也有很多發展。以前是傳統的方法,現在所有stereo方法都可以重新回到卷積神經網絡的框架下。它的卷積不是簡單的在圖像裡,而是在更高維的視差空間進行的。這個領域發展得非常快。

Altizure三維重建開放雲平臺

下面宣傳下我們做的工作。我在科大的團隊創立了一家公司altizure,我認為我們的三維重建做的最出色。Altizure是一個公共雲平臺,大家可以用手機或無人機拍照然後上傳,就可以自動得到一個三維模型。我們的終極目標是把世界上的所有東西全部三維復現。我們生活在三維的環境裡,所以要把所有東西全部恢復到三維。

今天的世界是數據為王,我們通過這個開放平臺收集了很多數據,並進行標註。有了這樣一個平臺,今後的算法會越來越強大。

我們研究的領域現在每天都在發生變化。我們團隊今年4月份在兩個重要榜單上名列第一,一個是三維點雲,另一個是場景識別。

計算機視覺的機遇與挑戰

深度學習浪潮下,計算機視覺面臨哪些機遇和挑戰?UCLA一位做統計的教授認為,現在的深度學習跟以前差不多,只是模擬了一個曲線或曲面,只是維度更高一些。另外一個學者Piekniewski也提出了質疑。2012年時AlexNet有6000個參數,今天我們已經可以學習比它多1000倍的參數,這是否意味著我們的能力提升了1000倍?其實不是,我們的改進仍然是非常邊緣的。

我的觀點是,毫無疑問,CNN是一個非常強大的工具,但關於它我們還有很多不清楚的地方。CNN處理的是非常高維的數據,以前幾十、幾百個維度就已經高不可攀了,但今天是幾百萬、幾千萬個維度。高處不勝寒,即便研究數學的人也不太清楚中間發生了什麼。這些還需要一段時間去理解。

再來說說「理解」這個詞,其實我們也不很清楚什麼樣才叫做理解。如果要做到真正理解,就要對世界和環境進行有結構、有邏輯的描述,但我們現在沒有任何結構,完全是由數據帶動,只有輸入和輸出。

最後簡單總結一下。早在80年代人工智慧就很火,我研究生第一志願報的就是人工智慧。當時並不理解人工智慧是什麼,後來才慢慢明白,世上本無人工智慧,只有圖像識別、計算機視覺、語音識別、自然語言理解等一個個具體的問題。

我們必須肯定這些年來取得的成績,尤其硬體領域的發展非常可觀。GPU已經在手機、電腦中普及,使得我們擁有非常強大的計算能力。以前相機是攝影師才有的,現在人手一臺手機,隨時隨地可以拍照。甚至還有了無人機,可以從天上拍照。

我們非常榮幸能在計算機視覺領域工作,這個領域發展很快,在中國大地上也很有前景。舉兩個例子:一、曠視在人臉和物的識別方面世界領先,類似的公司在中國還有很多;二、Altizure三維重建視覺平臺在全世界也是獨一無二的。

從廣義的人工智慧來說,我不認為它有多大的發展,但我們也不能否認存在真正的進步。

相關焦點

  • 港科大教授權龍:三維視覺重新定義人工智慧安防
    這是三維重建和安防融合的實際案例:這些景物都是由三維構建,我們把實時視頻投影到三維,用戶在界面上也可以「前、後、左、右」拖動操作。接下來我要講的是當前計算機視覺存在的問題,以及為何三維視覺將重新定義計算機視覺,並且重新定義人工智慧安防。
  • 計算機視覺領域的王者與榮耀丨CCF-GAIR 2018
    在這背後,安防視頻監控與醫療影像,也成為眾多AI從業者尤為青睞的兩大行業。當計算機視覺研究與落地大潮湧動之際,第三屆CCF-GAIR全球人工智慧與機器人峰會「計算機視覺專場」,眾多科技巨頭首席技術官、獨角獸首席科學家、國際學術頂會主席、世界名校AI實驗室主任將會公開分享最前沿的計算機視覺技術研究與商用成果。
  • 一花一樹一城,走進三維重建的絢麗世界|專訪權龍
    計算機視覺是非常寬泛的研究領域,涉及多個學科(如算法、幾何、光學、機器學習等)的交叉。在各個時期,計算機視覺研究也有著非常顯著的不同。2012年後的主要風尚毫無疑問是以卷積神經網絡為代表的深度學習下的識別。但在此之前的相當長時間裡,計算機視覺研究的中心問題是三維重建。
  • CCF 會員,這是屬於您的 CCF-GAIR 2019 優惠門票
    亮點1:前沿之中的前沿中國「工業革命」轟轟隆隆 40 年,以「中國高鐵般」的速度跑贏了資本主義國家早年近 100 年的增速,讓無數人從農業文明時代轉換過來的網際網路土著,唏噓中國經濟發展之快的同時,對這個鋼筋水泥大陸的下一步走向感到惴惴不安,但此時此刻,如果有一個踱步前沿的諾貝爾經濟學獎得主告訴我們,經濟的發展不當盲目,我們應該回歸人類本身
  • CCF-GAIR AI醫療論壇:翻越醫療行業的三座大山丨CCF-GAIR 2019
    2019年7月12-14日,由中國計算機學會主辦,雷鋒網、香港中文大學(深圳)聯合承辦的第四屆CCF-GAIR全球人工智慧與機器人峰會,將開設「AI醫療」專場,以「後深度學習時代的醫療變局」為主題,設立「醫學影像AI」、「醫療大數據」、「醫療機器人」三大環節,分別邀請三大領域的頂尖專家,向海內外業內人傳播未來人工智慧醫療的技術理念、產品邏輯和商業方法論。
  • 美國兩院院士、超級計算機專家陳世卿將出席 CCF-GAIR 2019...
    作為全球著名的超級計算機專家,他研發出了世界上第一部 2-CPU 並行向量式超級計算機,還創造了世界上第一個全新的超級計算機系統架構和應用理念——刀片式超級計算機(Blade Supercomputers),極大推動了全球超級計算領域的發展。在今年的 CCF-GAIR 2019 大會上,我們有幸迎來美國兩院院士陳世卿。
  • 王強:站在人工智慧與金融IT最頂端的人丨CCF-GAIR 2018
    他並沒有選擇語音作為方向,而是學習圖形學用照片重建電腦三維世界。與師兄沈向洋在語音識別大師屋簷下選擇圖形學頗為相似,王強也並沒有中規中矩地追隨瑞迪教授擅長的語音方向,而是朝著自己的興趣計算機視覺領域走去。進入CMU初期,瑞迪教授給了王強幾個思路:做圖像識別,首先需要自己做樣本,然後既可以用機器學習的方式,可以用集合的方式,也可以用算法來實現或用MATLAB仿真。
  • 沈定剛、龔啟勇、謝國彤、鄭冶楓、王東媛,CCF-GAIR「醫療科技專場...
    還有20多天,第五屆CCF-GAIR全球人工智慧與機器人峰會,就將在深圳前海萬豪酒店開幕。這場由中國計算機學會主辦,雷鋒網、香港中文大學(深圳)聯合承辦的峰會已經延續了五年。五年的時間,足以讓一個尚在襁褓中的嬰兒茁壯成長,也足以見證一個新興行業的縱橫捭闔。
  • 眾多AI大咖親臨現場,CCF-GAIR 2020一觸...
    CCF-GAIR 2020峰會官網:https://gair.leiphone.com/gair/gair2020嘉賓簡介高文近年來主要集中在視頻編碼與分析、計算機視覺等。研究領域:計算機視覺,機器學習,5G、視頻物聯網與機器人。
  • 多視圖幾何三維重建技術背後的原理解析與實踐
    「CV研究合輯」,是智東西公開課針對計算機視覺推出的一檔合輯,聚焦於計算機視覺前沿領域研究成果與進展的講解。每一講由主講與答疑兩個環節組成,其中,主講60分鐘,採用視頻直播形式,答疑30分鐘,將在相應交流群進行。
  • 計算機視覺方向簡介 | 多視角立體視覺MVS
    可見性技術包括幾何、準幾何和基於出格點等三種方法:幾何法試圖明確模擬圖像形成過程和場景的形狀,以確定哪些場景結構在哪些圖像中是可見的;準幾何技術使用近似幾何推理來估計可見性關係;出格點法避免顯式幾何推理而是將遮擋視為出格點。下圖是可見性問題示意圖。
  • 共沐後疫情時代百舸「基」流,CCF-GAIR 2020 全球人工智慧與機器人...
    CCF-GAIR 2020 峰會由中國計算機學會(CCF)主辦,香港中文大學(深圳)、雷鋒網(公眾號:雷鋒網)聯合承辦,鵬城實驗室、深圳市人工智慧與機器人研究院協辦。從 2016 年的學產結合,2017 年的產業落地,2018 年的垂直細分,2019 年的人工智慧 40 周年,峰會一直致力於打造國內人工智慧和機器人領域規模最大、規格最高、跨界最廣的學術、工業和投資平臺。
  • 計算機視覺和自然語言理解的下一步是什麼?
    計算機視覺和自然語言理解領域的下一步是什麼?最初出現在Quora上:一個獲取和分享知識的地方,使人們能夠向他人學習,更好地理解世界。Scale執行長兼創始人亞歷山大王(Alexandr Wang)的回答。
  • 奧比中光線上workshop:3D視覺賦能動態三維重建技術革新升級
    來源標題:奧比中光線上workshop:3D視覺賦能動態三維重建技術革新升級 9月22日,由奧比中光主辦,Open CV中國、CSDN開發者平臺支持發起的Workshop系列之動態三維重建專場線上沙龍在奧比中光B站官方平臺舉行
  • CCF-GAIR 2020 重磅來襲,這 15 場主題專場絕...
    8 月 7 日至 8 月 9 日,由中國計算機學會、雷鋒網、香港中文大學(深圳)聯合舉辦的 CCF-GAIR 全球人工智慧與機器人峰會將在深圳正式拉開帷幕。  今年,在新基建機遇下,CCF-GAIR 設立了 15 個主題專場,分別是 AI 前沿專場、機器人前沿專場、AI 晶片專場、智能駕駛專場、AIoT 專場、服務機器人專場、智慧城市新基建「專場」、企業服務專場、工業網際網路專場、AI 金融專場、視覺智能、視覺智能·城市物聯專場、醫療科技專場、AI +藝術專場、AI 源創專場。
  • 3D視覺CV界的終極體現形式,計算機如何「看」這個三維世界
    這些技術的背後涉及了 3D 視覺相關內容,那麼計算機是如何「看」這個三維世界的?隨著信息技術的快速發展,計算機視覺 3D 技術已經應用到了諸多領域,推動了虛擬實境(VR)、增強現實(AR)等技術的不斷進步。3D 視覺問題變得越來越重要,它提供了比 2D 更加豐富的圖像信息。
  • 科大訊飛陶曉東:智能影像技術如何解決臨床問題? | CCF-GAIR 2017
    我們聽了田教授非常有乾貨的演講,下面我給大家的匯報基於我個人在醫學影像方面的研究經歷,以及在科大訊飛智慧醫療事業部的實踐,總共分為三個部分:一是人工智慧的大背景;二是醫學影像解決臨床問題;三是人工智慧時代的醫學影像應該是往哪些方向發展。
  • 中國計算機學會主辦 CCF-GAIR 峰會,凝聚全球前沿科技創新力量 | G...
    為了更好地連接「產、學、研」的技術創新,推動各界人士的交流、溝通與協作,由深圳市政府指導,中國計算機學會(CCF)主辦,雷鋒網(公眾號:雷鋒網)與香港中文大學(深圳)承辦的第二屆「全球人工智慧與機器人峰會(CCF-GAIR)」將於今年 7 月 7 日到 9 日在深圳隆重舉辦。
  • 3D視覺CV界的終極體現形式,計算機如何「看」這個三維世界
    打開手機進行人臉解鎖;VR、AR 技術帶來如此虛擬卻真實的場景……3D 視覺幾乎無所不能,在智能家居、智能安防、汽車電子、工業測量、新零售、智能物流等領域發揮重要作用,堪稱賦能產業創新的最大推力。這些技術的背後涉及了 3D 視覺相關內容,那麼計算機是如何「看」這個三維世界的?
  • 人工智慧與計算機視覺
    計算機視覺是使用計算機及相關設備對生物視覺的一種模擬,是人工智慧領域的一個重要部分,它的研究目標是使計算機具有通過二維圖像認知三維環境信息的能力。計算機視覺是以圖象處理技術、信號處理技術、概率統計分析、計算幾何、神經網絡、機器學習理論和計算機信息處理技術等為基礎,通過計算機分析與處理視覺信息。