港科大教授權龍:三維視覺重新定義人工智慧安防

2020-12-06 雷鋒網

近日,由雷鋒網 & AI掘金志主辦的「第二屆中國人工智慧安防峰會」在杭州召開。

峰會現場,香港科技大學教授,CVPR 2022、ICCV 2011大會主席,Altizure創始人權龍教授發表了題為《三維視覺重新定義人工智慧安防》的演講。

權教授表示,人工智慧的核心是視覺,視覺定義了智能安防,但現在的視覺仍局限在二維識別層面,未來三維視覺重建將會成為最重要的任務, 它也將重新定義智能安防。

權教授也談到,現在計算機視覺本質上是大數據統計意義上的分類與識別。

「我們的終極目標是對圖像的理解,也就是認知,但當前的計算機視覺只處於感知階段,我們並不知如何理解,計算機視覺一直是要探索最基礎的視覺特徵,這一輪視覺卷積神經網絡CNN本質上重新定義了計算機視覺的特徵。但人類是生活在三維環境中的雙目動物,這使得人類生物視覺的識別不只是識別,同時也包括三維感知與環境交互。」

「因此我們要和三維打交道,二維識別所能做的事,在當前眾多複雜場景中,是遠遠不夠的。但三維重建不是最終目的,而且是要把三維重建和識別融為一體。」

以下為權龍教授的現場演講內容,雷鋒網作了不改變原意的編輯及整理:

感謝雷鋒網的邀請,今天我主要分享下現階段計算機視覺的現狀與未來發展方向,以及三維視覺在人工智慧安防中的應用。

我們知道,現在AI安防的核心,本質上是計算機視覺,而計算機視覺分為兩大部分,分別是識別和重建。

「識別」是現在非常熱門的方向,相比而言,大家對「重建」的理解卻並沒有那麼透徹。我們需要知道這一點,計算機視覺不止局限於識別,三維重建在其中扮演的角色甚至更為重要。

這是三維重建和安防融合的實際案例:

這些景物都是由三維構建,我們把實時視頻投影到三維,用戶在界面上也可以「前、後、左、右」拖動操作。

接下來我要講的是當前計算機視覺存在的問題,以及為何三維視覺將重新定義計算機視覺,並且重新定義人工智慧安防。

人工智慧的本質上是讓計算機去聽、看、讀,在所有的信息裡面,視覺信息佔了所有感官的80%,所以視覺基本上是現代人工智慧的核心。

對我們來說,其實並沒有泛泛的人工智慧,人工智慧需要具體根據技術維度和場景維度,區分開來看,人工智慧的發展、革命和應用落地,一定是取決於以及受限於計算機視覺發展、革命和應用。

而人工智慧安防也同樣是伴隨著計算機視覺的發展而崛起。

2012年是非常重要的一年,當時在ImageNet比賽中,有團隊用卷積神經網絡CNN把圖像識別準確率從75%提高到了85%,這件「非常小」的事情帶動了這一輪深度學習之下的人工智慧,所以我們也可把2012年稱作是這輪以深度學習為代表的人工智慧元年。

這件事再回到1998年,那個年代Yann Lecun已經發表了卷積神經網絡LeNet,這個網絡呢,首先它輸入的圖像比較小,只黑白單通道32*32,只能識別出一些字符和字母;因為也沒有GPU,所以當時整個網絡也只有60萬的參數。

到了2012年卷積神經網絡復活出現了AlexNet。AlexNet和1998年LeNet的卷積神經網絡相比,它的內部結構基本不變,但可輸入的圖像尺寸不一樣:1998年的模型,輸入尺寸為32*32,且只有一個通道。新的模型輸入尺寸已經擴大到了224*224,而且有三個通道。最關鍵的是裡面有了GPU,當時的訓練用到了兩塊GPU,參數達到將近6000萬。

這麼多年來計算機視覺的卷積神經網絡,算法和結構,基本的結構變化是很小的。

但1998年到2012年這十五年來發生了兩件特別重要的事:一是英偉達研發了GPU;第二就是李飛飛創建了ImageNet,她把幾百萬張照片發到網絡上並發動群眾做了標註。也正是因為算力和數據,才創造了AlexNet的成就。

到了2015年,機器視覺的識別率基本超越了人類。其實人類在識別方面並沒有那麼強,我們的記憶非常容易犯錯誤。根據統計,人類在分類上的錯誤率達到了5%。而機器,從2015年之後你們看各種ImageNet在公開域數據集上的錯誤率已經遠遠低於5%。

但為什麼ImageNet在兩年前停止了比賽,因為現在比拼的基本上都是靠算力和數據。

2015年隨著卷積神經網絡下的人工智慧技術的成熟,AI也到達了一定的巔峰,計算機視覺或者說更寬泛的安防市場也被重新定義。

也在這一時期,曠視、商湯這幾家做視覺的公司進入了安防市場。

從2012年到2019年的7年間,所有的數據又都翻了一千倍,計算速度比以前快一千倍,模型也比以前大一千倍。2012年訓練AlexNet模型需要使用兩塊GPU,花費兩個星期;今天做同樣的事情只需要一塊DGX-2,十幾分鐘就能完成。

從整個模型的參數來看,2012年的AlexNet已非常可觀,6000萬的參數非常龐大,這個數字我們當時都不敢想像。到今天這個網絡又要放大千倍,達到十億級的參數量。但是從算法、架構來說,現在基本上都是標準的卷積神經網絡,其實並沒有太大的進步。

我們也可以想一下,計算機視覺裡面的識別到底能夠達到什麼程度?其實它並沒有那麼強,它只是在一個大數據統計意義上的識別而已。

大家都聽說過無監督學習,但無監督學習的結果和應用的場景並不是太多。現在可用的、做的好的也就是可監督的,也就是CNN。

我簡要概括下,現在的計算機視覺就是基於卷積神經網絡而來,整個CNN的架構非常簡單,能做的事其實也沒那麼多,它提取了高維的特徵,然後要結合其它方法解決視覺問題。

如果你有足夠的數據並且能夠明確定義你想要的東西,CNN的效果很好,但是它有沒有智能?其實沒有。

你說它蠢,它跟以前一樣蠢。它能識別出貓和狗,但我們要知道貓和狗的分類都是我們人類自己定義的,我們可以把貓和狗分開,也可以把複雜的狗類動物進行聚合和分類,這些東西本質上來說並不是客觀的,而是主觀的。

我們做計算機視覺研究的理想,是讓機器進行理解圖像。如何讓它進行理解?這非常的困難,直到現在也沒有人知道它怎麼去進行理解。現在它能做的,只能做到認知。我們研究計算機視覺的目的是得到視覺特徵,有了視覺特徵後才能開展一系列工作。

為什麼視覺特徵如此重要?在語音識別領域,語音的特徵已經定義得非常清晰——音素。但如果我們拿來一個圖像,問它最重要的視覺特徵是什麼,答案並不明確。大家知道圖像包含像素,但像素並不是真正的特徵。像素只是一個數位化的載體,將圖像進行了數位化的表述。計算機視覺的終極目標就是尋找行之有效的視覺特徵。

在這樣一個擁有視覺特徵前提之下,計算機視覺也只有兩個現實目的,一個是識別,另一個是三維重建。

它們的英文單詞都以「re」做前綴,說明這是一個反向的問題。

計算機視覺不是一個很好定義(ill-posed)的問題,沒有一個完美的答案或方法。

這一輪的卷積神經網絡(CNN)最本質的一件事是重新定義了計算機視覺的特徵。在此之前,所有的特徵都是人工設計的。今天CNN學來的東西,它學到特徵的維度動輒幾百萬,在以前沒有這類網絡的情況下是根本做不到的。

縱使CNN的特徵提取能力極其強,但是我們不要忘記建立在CNN基礎上的計算機視覺是單目識別,而人類是雙目。我們的現實世界是在一個三維空間,我們要和三維打交道。拿著二維圖像去做識別,這遠遠不夠。

在雙目視覺下,要包含深度、視差和重建三個概念,它們基本等價,使用哪個詞彙取決你處在哪個群體。

傳統意義上,三維重建是在識別之前,它是一個最本質的問題,三維視覺裡面也要用到識別,但是它的識別是對同樣物體在不同視角下的識別,所以說它的識別是更好定義(well-posed) 的一個識別,也叫匹配。

雙目視覺對整個生物世界的等級劃分是非常嚴格的。大家知道馬的眼睛往外看,對角的部分才有可能得到一部分三維信息,但它的三維視角非常小,不像人類。魚的眼睛也是往兩邊看的,它的主要視線範圍是單目的,它能看到的雙目視區也是非常狹窄的一部分。

人類有兩隻眼睛,通過兩隻眼睛才能得到有深度的三維信息。當然,通過一隻移動的眼睛,也可以獲得有深度的信息。

獲取深度信息的挑戰很大,它本質上是一個三角測量問題。第一步需要將兩幅圖像或兩隻眼睛感知到的東西進行匹配,也就是識別。這裡的「識別」和前面有所不同,前面提到的是有標註情況下的識別,這裡的「識別」是兩幅圖像之間的識別,沒有資料庫。它不僅要識別物體,還要識別每一個像素,所以對計算量要求非常高。

在生物世界裡,雙目視覺非常重要,哺乳動物都有雙目視覺,而且越兇猛的食肉的動物雙目重疊的區域越大,用雙目獲得的深度信息去主動捕捉獵物。吃草的或被吃的動物視覺單目視覺,視野很寬,只有識別而無深度,目的是被進攻時跑得快!

在這一輪的CNN之前,計算機視覺裡面研究最多的是三維重建這樣的問題,在CNN之前有非常好的人工設計的視覺特徵,這些東西本質上最早都是為三維重建而設計,例如SIFT特徵。而在這之後的「識別」,只是把它放在一個沒有結構的圖像資料庫裡去搜索而已。 由此可見,現代三維視覺是由三維重建所定義。CNN誕生之前,它曾是視覺發展的主要動力源於幾何,因為它的定義相對清晰。

我們再來看一下當今的三維重建技術的現狀和挑戰。

三維視覺既有理論又有算法,一部分是統計,另外一部分則是確定性的,非統計,也就是傳統的應用數學。

計算機視覺中的三維重建包含三大問題:一、定位置。假如我給出一張照片,計算機視覺要知道這張照片是在什麼位置拍的。二、多目。通過多目的視差獲取三維信息,識別每一個像素並進行匹配,進行三維重建。三、語義識別。完成幾何三維重建後,要對這個三維信息進行語義識別,這是重建的最終目的。

這裡我再強調下,我們要把三維場景重新捕捉,但三維重建不是最終的目的,你要把識別加進去,所以說最終的應用肯定要把三維重建和識別融為一體。

現在三維重建的主要挑戰是,算力不夠,而且採集也比較困難。我舉個例子,我們安防場景識別一個攝像頭比較容易,但如果實時重建N個攝像頭的實景,這對算力要求非常高。這些限制也使得當前的單目應用比較多,但我認為,未來雙目一定會成趨勢。

在深度學習的影響下,三維重建已經取得了比較大的成就。CNN在2012年之後的幾年內,對三維重建的影響不是很大。但是從2017年開始,CNN就對三維重建產生了重要的影響。在三維重建領域有一個數據集叫KITTI,從2017年,我們開始用三維卷積神經網絡。

以前是把它作為一個跟識別有關係的二維CNN,更現代的雙目算法都是基於完整的三維卷積神經網絡。現階段三維卷積神經網絡的表現也非常強,給任何兩幅圖像,錯誤率只有百分之2到3。

現在計算機視覺覆蓋的應用場景,被計算機視覺重新定義,但這些應用也受制於計算機視覺的技術瓶頸。

雖然計算機視覺對安防行業的推動作用很大,但基本也不外乎識別人臉、車、物體等應用,如果計算機視覺得到進一步發展,安防行業也將再度被重新定義。

而我認為,三維視覺將對安防產生非常深遠的影響。

三維重建在安防領域的應用,第一個是大規模城市級別的三維重建。

每個大型城市動輒都百萬級的攝像頭,把攝像頭融合在這樣的一個實景三維場景裡,才可達到城市級管控的效果,這是AI安防最理想化的形態。

現在政府都在通過一張實景圖對城市進行治理,這張圖以前是二維的,但今後一定是實景的,是三維的。

我們港科大的三維視覺初創公司Altizure就是一家做城市級別的實景三維重建和平臺企業,大規模重建有兩方面非常有挑戰性:

第一是因為它的數據量非常大,我們現在建模動輒百萬級的高清圖像,要有強大的分布式以及並行算法,幾個星期才能做完。

第二就是可視化,一張實景圖的展示也特別有挑戰性,因為一張實景圖數據量非常大,即便是在任何一個埠的瀏覽實景三維都是非常有挑戰性的。

現時只有Altizure可以應對這個挑戰。

我們做的一個典型案例就是為深圳坪山區布局了時空信息雲平臺,我們對坪山的大片住宅區域進行了三維重建,後臺用戶可在三維實景圖像上進行「上、下放大「以及」前、後、左、右」拖拽移動,來查看區域實景。

後臺用戶也可用滑鼠在三維實景圖像中選取部分區域,然後這一區域的各個重點視頻監控畫面便在大屏幕中一一實時展示。坪山第一期項目的實時監控視頻顯示,與常規的視頻監控後臺呈現效果相似,總體更為傳統一些。

而在二期和三期,我們開始可以把所有的視頻在三維平臺上進行展示。

現在深圳已經有很多區在布局這類實景三維立體時空信息平臺。

有了這樣的平臺,不僅是視頻,其實還有一些別的數據也是可以加進去應用。

這個總控系統,集成了景區的監控攝像,閘機,商店,wifi等公共設施,實時可視化人流、電瓶車位置。三維實景給景區總控和下一步遊客的導覽帶來了便利。

下圖是我們在廣州做第一個案例,對歷史建築進行保護以及城市規劃。

Altizure實景三維視覺平臺現在已經有180個國家的實景三維內容和30萬專業用戶。

我們的香港科技大學計算機視覺實驗室和初創公司Altizure 在全球引領視覺三維重建的研究與應用。我們的目的並不是為刷榜而刷榜,但在一些關鍵的三維榜單,我們從去年四月以來一直穩居榜首!

最後總結一下,計算機視覺中的「識別」定義了智能安防,但現在的「視覺」和「識別」仍局限在二維,三維重建是未來計算機視覺中最為重要的任務,因此三維重建也將重新定義人工智慧以及智能安防。

現在的視覺研究,同質化現象非常明顯。

我們在八十年代就開始做人工智慧了,今天的現狀,有點像是歷史重演,計算機視覺的本質跟以往並沒什麼差別,只是大家用的硬體工具不一樣。

計算機視覺雖然正處於黃金時期 ,但它的發展還是非常有局限性的,我認為,所謂的通用人工智慧和通用計算機視覺還遙遙無期。

謝謝大家!

相關焦點

  • 港科大教授權龍:計算機視覺下一步將走向三維重建 | CCF-GAIR 2018
    他談到,當下因為深度學習技術的發展,人工智慧變得非常火熱,計算機視覺作為人工智慧的一個領域,也變得異常火熱。不過目前計算機視覺的研究和應用主要集中在「識別」,「識別」只是計算機視覺的一部分。如果要去做一些交互和感知,必須先恢復三維,所以在識別的基礎上,下一個層次必須走向「三維重建」。
  • 重新定義行業,「第二屆中國人工智慧安防峰會」萬字長文回顧
    「在安防領域打造城市大腦超級計算引擎,也是我們一直努力的方向。」主題二:世界頂尖算法應用當不少人對AI+安防的認知還停留在人臉和車輛識別時,卻並沒有意識到三維視覺和三維重建技術正一步步成為城市級管控的核心算法,為安防帶來無限新可能。
  • 一花一樹一城,走進三維重建的絢麗世界|專訪權龍
    在最近雷鋒網(公眾號:雷鋒網)舉辦的「第二屆中國人工智慧安防峰會」中,權龍教授發表了「三維視覺重新定義人工智慧安防」的演講。在演講結束後,權龍教授接受了《賽先生》的獨家專訪(Liao tian),聊了聊他眼中的計算機視覺、三維重建以及可能對我們產生的影響。《賽先生》:您剛開始是怎樣走上計算機視覺研究的路?
  • 創造8秒最快大橋通關紀錄,毫秒級準確識別,的盧深視用三維重新定義...
    來源:新芽NewSeed作者 | 劉博報導 | 新芽Newseed「成立於2015年8月的的盧深視,是一家專注三維機器視覺和人工智慧領域的高新技術企業。而在8秒人臉識別紀錄的背後,是一匹來自於AI安防賽道的黑馬——的盧深視。成立於2015年8月的的盧深視,是一家專注三維機器視覺和人工智慧領域的高新技術企業,圍繞 「雲、端、芯」 的產品戰略,提供算法、產品、數據、方案與服務,可應用到安防、安保、邊檢、金融、家居等垂直細分領域。
  • 那些影響「安防新十年」的世界級科學家們
    「中國人工智慧安防峰會 」給出的答案是:城市大腦數字視網膜化、機器視覺三維化、數據建模聯邦學習化。數字視網膜、三維視覺、聯邦學習,對應的世界級領軍科學家,分別是高文、權龍、楊強。第二屆「中國人工智慧安防峰會 」CVPR 大會主席 權龍教授三維視覺重新定義智能安防
  • 三維視覺全棧技術賦能 的盧深視榮獲2020中國安防新基建創新品牌獎
    2020年,受益於5G、物聯網、人工智慧等技術的影響及我國各級政府對智慧城市建設熱度的高漲,智慧城市的市場規模得以進一步擴大。 二維識別無法滿足現有需求的情況下,三維機器視覺技術應運而生。 由於三維比二維多了一個維度的信息,因此在其拓展二維應用範圍的基礎上,又可以完成二維無法做到的「痛點型應用」。最重要的一點,三維機器視覺技術相較於傳統二維視覺,具有極高安全級別的防作偽優勢,可以抵抗照片、面具、頭模等多種攻擊手段。
  • 「十三五」安防領域機器視覺發展回顧與展望
    一、機器視覺技術發展與應用遠超規劃預期 「十三五」規劃在發展目標中提出「深入研究和應用人工智慧、機器視覺等前沿技術並取得若干突破」;在措施與建議中提出要推動「機器視覺、語音識別、生物特徵識別、安保機器人等關鍵技術的突破,提升智能技術在安防各領域的實戰應用和效能」和視頻結構化等智能化應用。
  • 人工智慧與計算機視覺
    ,一個大量人員研究了多年的學科,卻很難給出一個嚴格的定義,模式識別如此,目前火熱的人工智慧如此,計算機視覺亦如此。一則生物自然視覺無法嚴格定義,在加上這種廣義視覺定義又「包羅萬象」,同時也不太符合40多年來計算機視覺的研究狀況,所以這種「廣義計算機視覺定義」,雖無可挑剔,但也缺乏實質性內容,不過是一種「循環式遊戲定義」而已。  實際上,計算機視覺本質上就是研究視覺感知問題。視覺感知,根據維科百基(Wikipedia)的定義, 是指對「環境表達和理解中,對視覺信息的組織、識別和解釋的過程」。
  • 三要素撐起「人工智慧+安防」金字塔
    [導讀]安防是為數不多的可以將人工智慧成熟應用並落地的行業,為此,很多專家認為安防行業正在成為人工智慧的第一著陸場
  • 港科大(廣州)預計2022年開學
    港科大(廣州)預計2022年9月1日正式開學。  兩校學位課程不重疊  港科大校長史維表示,港科大(廣州)未來將著眼於培養跨學科人才。該校首階段將培養4000名研究生,計劃於2022年9月正式開學。其中,功能樞紐學術領域包括:先進材料、地球與海洋大氣科學、微電子、可持續能源與環境;信息樞紐學術領域包括:人工智慧、數據科學與分析、計算媒體與藝術、物聯網;系統樞紐學術領域包括:生命科學與生物醫學工程、智能交通、機器人與自主系統、智能製造;社會樞紐學術領域包括:金融科技、創新創業與公共政策、MBA+、城市治理與設計。
  • 三維視覺將成為機器標配的眼睛
    業界認為,從二維到三維的轉變將成為機器視覺的第四次技術革命。 從黑白到彩色,從低解析度到高解析度,從靜態圖像到電影,二維視覺得到了充分的發展。但是,由於二維視覺無法獲得物體的空間坐標信息,因此很難支持與形狀有關的測量,如物體的平整度、表面角度、體積或區分同一顏色物體的特徵,或具有接觸面的物體位置之間的測量。這些短板,三維視覺卻提供了解決方案。
  • 智能安防不再「安」與「防」 國內機器視覺市場步入洗牌期
    目前在全球機器視覺領域巨頭林立,但在中國市場,更多呈現出公司數量多、規模小、業務壁壘複雜的狀況,很多傳統的安防企業,有端無雲。今年2月,華為智能安防正式更名為「華為HoloSens機器視覺」,並成為國內唯一具有「端、邊、雲」全產業鏈技術的廠家,市場也終於迎來了破局者。
  • 人工智慧---計算機的視覺與語音技術
    技術方向的發展人工智慧---計算機的視覺與語音技術計算機視覺隨著人工智慧的發展,機器也試圖在這項能力上匹敵甚至超越人類。計算機視覺的歷史可以追溯到1966年,人工智慧學家Minsky在給學生布置的作業中,要求學生通過編寫一個程序讓計算機告訴我們它通過攝像頭看到了什麼,這也被認為是計算機視覺最早的任務描述。到了七八十年代,隨著現代電子計算機的出現,計算機視覺技術也初步萌芽。
  • 人工智慧開啟視覺處理新篇章:如何更好的理解這個世界
    人工智慧的第三次浪潮正席捲全球,而在這次計算機視覺功不可沒。視覺處理的終極目標在於使得計算機能像人一樣觀察感知世界,核心任務就是對圖像進行理解,場景分類、目標識別/圖像分類、目標定位、目標檢測、語義分割、三維重建、目標跟蹤都是其研究內容。
  • 科大訊飛未來港啟用
    12月3日,在教育部國家語委的指導下,全球中文學習平臺落戶暨科大訊飛未來港啟幕儀式在青島西海岸新區舉行。科大訊飛是亞太地區知名的智能語音產業上市公司和中國人工智慧的領軍企業,是青島發展人工智慧產業重要的城市合伙人。儀式上,還進行了科大訊飛大企業聯合創新中心項目、高校合作項目籤約儀式。
  • 三維重新定義智能世界 的盧深視亮相智能經濟產業創新科技展
    不僅如此,的盧深視模組方案BU總經理崔哲受邀作為展示企業代表同與會者分享了的盧深視三維視覺全棧技術。崔哲表示,作為三維視覺全棧技術提供商,的盧深視敏銳察覺到,現階段3D視覺行業的核心難點集中在產業鏈匹配不完善,由於三維機器視覺仍屬於較前沿的技術,供應鏈匹配上存在技術難度高、標準不統一等諸多問題,整合產業鏈是3D視覺產業化應用的必要路徑。
  • 皓圖智能:通過3D行為識別技術改變傳統安防監控
    隨著近兩年人工智慧與安防行業的結合日益緊密,與此同時,越來越多的企業提倡「智能安防」的概念,並且以此為中心出現了一系列的產品和解決方案。「用平面的眼光看待立體的世界本身就是一個錯誤。」這句話恰到好處的描述了現有安防監控行業遇到的技術瓶頸。藉助2D圖像技術的傳統監控設備中看到的平面影像無論多麼高清,都無法實現精準的行為識別。
  • 計算機視覺領域的王者與榮耀丨CCF-GAIR 2018
    在這背後,安防視頻監控與醫療影像,也成為眾多AI從業者尤為青睞的兩大行業。當計算機視覺研究與落地大潮湧動之際,第三屆CCF-GAIR全球人工智慧與機器人峰會「計算機視覺專場」,眾多科技巨頭首席技術官、獨角獸首席科學家、國際學術頂會主席、世界名校AI實驗室主任將會公開分享最前沿的計算機視覺技術研究與商用成果。
  • 安防的「江湖」
    現在提出深圳重回安防市場中心似乎為時過早,即使華為宣布戰略進入安防行業,也不能斷言深圳就一定能重新坐上安防市場中心的交椅,除非華為真的做到了全球安防第一,因為現在的第一、第二都在杭州。  即使華為安防現在的增長速度驚人,但也不能斷言將來就一定能超過海康威視,因為這樣的增長速度海康威視當年剛起步時也創造過。
  • 人工智慧與設計(1):人工智慧的發展和定義
    人工智慧目前有兩個定義,分別為強人工智慧和弱人工智慧。普通群眾所遐想的人工智慧屬於強人工智慧,它屬於通用型機器人,也就是60年代AI研究人員提出的理念。它能夠和人類一樣對世界進行感知和交互,通過自我學習的方式對所有領域進行記憶、推理和解決問題。