從學術研究到應用落地,這 6 位計算機視覺大咖在 CV 專場上都講了...

2020-12-15 雷鋒網

雷鋒網(公眾號:雷鋒網)按:2018 全球人工智慧與機器人峰會(CCF-GAIR)在深圳召開,峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,得到了寶安區政府的大力指導,是國內人工智慧和機器人學術界、工業界及投資界三大領域的頂級交流盛會,旨在打造國內人工智慧領域最具實力的跨界交流合作平臺。

雷鋒網 CCF-GAIR 2018 延續前兩屆的「頂尖」陣容,提供 1 個主會場和 11 個專場(仿生機器人專場,機器人行業應用專場,計算機視覺專場,智能安全專場,金融科技專場,智能駕駛專場,NLP 專場,AI+ 專場,AI 晶片專場,IoT 專場,投資人專場)的豐富平臺,意欲給三界參會者從產學研多個維度,呈現出更富前瞻性與落地性相結合的會議內容與現場體驗。

6 月 30 日,CCF-GAIR 大會進行到第 2 天,計算機視覺專場如期舉行。本專場由兩大議題組成,分別是上午場「計算機視覺前沿與智能視頻」以及下午場「計算機視覺與醫療影像分析」。本文為計算機視覺專場上半場的精選內容。

在上午場的主題演講中,港科大電子及計算機工程學系助理教授、RAM-LAB 主任劉明擔綱主持。在他的串聯下,港科大教授權龍、曠視科技首席科學家孫劍、雲從科技聯合創始人姚志強、臻識科技 CEO 任鵬、雲天勵飛首席科學家王孝宇以及商湯聯合創始人林達華這些學術界、工業界的眾多大牛進行了 6 場深度分享,既有計算機視覺技術的前沿研究動態,也有相關技術落地的方向。

首先登場的是港科大教授權龍。

*香港科技大學教授、ICCV 2011 主席、IEEE Fellow 權龍

權龍教授今天分享的主題是「計算機視覺、識別與三維重建」,他主要從三個方面進行闡述,分別是計算機視覺的基礎、計算機視覺的變遷與發展,以及計算機視覺最新的進展。

他談到,當下因為深度學習技術的發展,人工智慧變得非常火熱,計算機視覺作為人工智慧的一個領域,也變得異常火熱。

人工智慧的目的就是讓計算機去看、去聽、去讀,其中一個重要的部分就是圖像。權龍教授認為視覺是人工智慧的核心領域,因為視覺佔據人類感官系統的 80%,也是最難做的一部分。他甚至認為計算機視覺是推動人工智慧「革命」的決定性技術。

接著,權龍教授簡單回顧了一下計算機視覺的變遷和發展。

在上世紀 70、80 年代,計算機視覺有了最初的發展,權龍教授表示他很有幸在 80 年代就參與了相關工作,那時候主要做一些簡單的物體分類工作,通過一些特徵點來做。

在 90 年代至 2000 年這段時間,變化發生了,以前都是提取一些特徵點,這些年大家開始回過頭來看幾何的問題,幾何就是「三維重建」,這就推動了很多工作以點為基礎,對點要做描述。這是推動計算機視覺發展的一個很重要的事情。

到了 2012 年以後,計算機視覺進入到卷積神經網絡(CNN)時代,該領域發生了翻天覆地的變化,基本上是從特徵到各種不同的算法,都被 CNN 一統。CNN 有一個好處,它是端到端的,它的實現是比較容易的。

而在談到計算機視覺的發展問題時,權龍教授表示,現在每個人都在做識別,但是它並不能代表所有計算機視覺,識別只是一部分。如果要去做一些交互和感知,必須先恢復三維,所以在識別的基礎上,下一個層次必須走向「三維重建」。

針對這個領域,權龍教授和他的研究團隊已經做了諸多的工作並取得了一定的成績,在 4 月份,他們拿下了兩個計算機視覺榜單的全球第一。

當然,目前在深度學習推動下的計算機視覺技術還有很多不足和挑戰,需要更多業內研究者不斷去探索,特別是在卷積神經網絡發展走到更高維度的時候。

*曠視科技首席科學家、研究院院長孫劍

緊接著是曠視科技首席科學家孫劍上臺,分享了他眼中的雲、端、芯上的視覺計算。曠視科技成立至今已有 7 年,一直專注在計算機視覺感知領域。

計算機視覺簡單來說就是讓機器能看,如果更進一步,機器能理解一張圖像或者一段視頻,我們能做什麼?針對這個問題,孫劍和曠視給出的答案是「賦能億萬攝像頭」,讓應用在所有領域的攝像頭都具備智能,無論是在雲、端還是晶片上。

孫劍表示,曠視始終在研究計算機視覺的幾個核心問題,包括分類、檢測以及分割,分別對一張圖、一張圖的不同區域和一張圖的每個像素做識別,其中,分類是最為核心的工作。如果輸入的是視頻,則需要利用幀與幀之間的時間關係來做識別。

孫劍簡要談及計算機視覺的歷史,在他看來,計算機視覺的發展就是研究圖像如何 Representation 的歷史。在 80 年代的時候,早期神經網絡成功運用在人臉和文字識別上,但當時僅限在這兩個領域,所以很難去定義什麼是圖像 Representation。

2000年初,在深度學習流行之前,有一類方法比較熱,那就是 Feature-based,在圖片裡抽取 Feature,然後對它進行分析,這是深度學習之前最好的方法。但這個方法最大的問題是它有兩個缺點:其一,它是整體的非線性變換,向量的變換次數是有限的;其二,裡面大多數參數都是人工設計的,包括 Feature。

今天轉到深度神經網絡,這兩個缺陷都被彌補了。其一是整個非線性變換可以做非常多次,所以它有非常強的識別能力;第二是所有的參數都是聯合訓練的,這兩點讓深度神經網絡真正能夠取得非常好的效果。孫劍在微軟時提出的 152 層的 ResNet,第一次在 ImageNet 上超過了人的能力。

從2012年開始,各種各樣的 Net 出現了。孫劍從計算平臺的角度對這些 Net 做了一個簡單的分類,分別是雲、端以及晶片三個不同的計算平臺。GoogleNet、ResNet 就是在雲上;谷歌 MobileNet 以及曠視在去年提出的 ShuffleNet 則屬於端這一類;還有一些 Net 則是在晶片上,比如說 BNN 還有曠視提出的 DorefaNet。

孫劍針對 ShuffleNet 的結構進行了較為詳細的介紹,該神經網絡是專門為手機端設計的。今年他們還設計了第二版的 ShuffleNet,拋棄了分組卷積的思想,而是引入了一個新的方法,用非常簡單的結構來做。

針對目前分平臺分別設計相關網絡的現狀,孫劍相信未來會有一個「MetaNet」出現,能夠統一解決各個平臺上的神經網絡設計和優化問題。

最後,孫劍簡單介紹了曠視在雲、端、芯三個平臺上做的計算機視覺的應用,包括人臉識別、車輛識別、人臉支付、智慧安防、智慧金融等等。

*雲從科技聯合創始人姚志強

雲從科技聯合創始人姚志強隨後上臺分享了作為一家人工智慧視覺方案公司對於行業的理解和公司的進展。他認為人工智慧最大的作用在於充當巨大的計算資源、智力資源與廣泛應用之間的橋梁。2015 年成立至今,雲從科技已將企業的重要定位鎖定在人機互動領域,但對於人工智慧技術、服務和生態的理解經過了很多摸索。 

姚志強認為,一家人工智慧企業需要匯集技術資源、數據資源、平臺、入口和資金,才能得以快速發展,一些成熟的企業會開放一些技術給初創公司,使後者得以在其中的某個場景深耕。數據資源優勢的積累也很重要,另外還有平臺資源,目前雲從的很多人工智慧服務通過雲平臺開放。

目前,雲從在數據領域成立聯合實驗室獲取行業內部數據,並在對應行業的內部提供訓練和服務。雲從還與政府有大數據等合作。在銀行方面,姚志強介紹,雲從銀行已是行業第一大人臉識別供應商,並希望拉動更多生態銀行提供完整的智慧銀行服務。安防行業也有很多挑戰,出於安全性考慮,安防行業涉及到諸如信息獲取、加密、解密等複雜挑戰。

未來,雲從並非定位於一家行業化的公司,而是基於人工智慧、人機互動領域的公司,通過現有資源拓展更多行業,將更多行業和人連接起來。

*臻識科技聯合創始人兼 CEO 任鵬

臻識科技 CEO 任鵬聊了如何打造一款智能相機產品。臻識科技致力於將計算進視覺技術產業化,而智能相機作為載體,已經在諸如智能交通、智慧社區、安防等各個場景中得到應用。任鵬說,一款全智能相機,是要滿足一個場景應用感知需要的相機,而不同領域對場景的感知需求各不相同。

任鵬用「金字塔型」描述完整的感知應用場景,底層是像素,中間是對象,最上層是行為。但問題在於目前大部分應用停留在對象層,有很多還沒有解決像素層的問題,例如智慧城市用雲端識別結果做決策,但前端圖像模糊,識別有誤報,就會影響決策乃至系統運作效率。

總而言之,實現這種智能相機的落地包括三個難點:成像、算法、製造。成像方面,目前智能相機成像評測行業標準缺失,其實除了解決硬體、結構、熱設計、光學等問題,ISP(Image Signal Processing,圖像信號處理)是相機的核心問題,智能相機與普通拍照相機最大的區別在於,智能相機的 ISP 開發核心要基於物體的感知。算法方面,在嵌入式設備上開發智能相機,第一對於數據多樣性、均衡性、場景適應性的把控非常重要,第二晶片方案選型中有巨大挑戰。製造方面,供應鏈是不可規避的問題。

除了看好雙目深度攝像頭,臻識也在嘗試多傳感器融合等更多的感知方案。

*雲天勵飛首席科學家王孝宇

雲天勵飛首席科學家王孝宇博士從其學術界到工業界的經歷分享了有關 AI 應用的重要看法。

王孝宇博士 2012 年便在 NEC 美國研究院進行無人車、人臉識別研究,之後與李佳等人聯合創建了 Snapchat 研究院,專注研究計算機視覺在手機終端上的應用。加入雲天勵飛後,主要聚焦 AI+ 新警務、AI+ 新社區、AI+ 新零售。

王孝宇博士認為,可以和人自由交流的強 AI 可能要到一百年後才能實現,眼下的人工智慧帶來的更多是基礎性能的轉變,擁有更大量的數據,建立更精確的模型,是目前人工智慧的最主要進展。

王孝宇博士以 Snapchat 與 Facebook 的競爭發展為例,講述了一個觀點,即技術發展的時間節點至關重要,技術不需要完全成熟才能落地,關鍵是提供用戶認可的產品;技術應用需要找到正確的角度和平臺;算法不等於技術,數據的重要性更為突出。

*商湯科技聯合創始人、港中文-商湯聯合實驗室主任林達華

香港中文大學資訊工程系助理教授、商湯科技聯合創始人、港中文-商湯聯合實驗室主任林達華教授在計算機視覺專場上發表了演講。

商湯一直深受資本的青睞,大家都很好奇這家創業公司為何能有這麼大的吸引力。林達華在現場表示,商湯能取得如今的成績,離不開其背後的香港中文大學多媒體實驗室 18 年如一日的潛心技術研究。

林達華提及海量數據、運用場景數據的積累,以及 GPU 的發展、計算能力大幅度的躍升,提供了算法進步的基礎,在這個基礎之上帶來了今天人工智慧的成功和計算機視覺技術在眾多的應用場景的落地。

同時林達華回顧了計算機視覺在過去幾年的發展,他認為這項技術還有很多的事情可以做,還有很長的路需要走。他認為可以往提升計算機視覺技術的識別效率、降低數據成本、以及提高識別質量三個方向努力。

現階段,計算機視覺還是以粗放型的方法在發展,依靠堆積數據、堆積計算資源,獲得高性能。但未來還是需要進一步進行優化,他分享了商湯在視頻以及自動駕駛上的案例。此外,目前計算機視覺研究還是高度依靠人力進行標註,因此成本非常高。

林達華認為可以適當換思路,從數據、場景裡面去尋求裡面本身就蘊涵的一些標註信息。而針對計算機視覺識別的質量提升方面,還有更多的技術可能性需要去探索。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 從學術研究到應用落地,這6位計算機視覺大咖在CV專場上都講了什麼?
    6月30日,CCF-GAIR大會進行到第2天,計算機視覺專場如期舉行。本專場由兩大議題組成,分別是上午場「計算機視覺前沿與智能視頻」以及下午場「計算機視覺與醫療影像分析」。本文為計算機視覺專場上半場的精選內容。在上午場的主題演講中,港科大電子及計算機工程學系助理教授、RAM-LAB主任劉明擔綱主持。
  • 15位學界、業界大咖深度解讀仿生機器人及機器人應用丨CCF-GAIR 2018
    6月29日國內最高規格AI盛會CCF-GAIR 2018盛大開幕,來自全球的頂尖學界和業界的大咖在AI前沿專場分享了許多乾貨,6月30日的CCF-GAIR 2018延續了第一天的火爆和精彩,計算機視覺專場、智能安全專場、金融科技專場、仿生機器人專場、機器人應用專場5個平行專場如期舉行,不同領域的50多位學界和業界大咖分享了他們最新的研究成果
  • 計算機視覺領域的王者與榮耀丨CCF-GAIR 2018
    如果說計算機視覺是現階段應用與變現速度最快、受關注度最高的人工智慧技術,相信沒有人會有異議。在這背後,安防視頻監控與醫療影像,也成為眾多AI從業者尤為青睞的兩大行業。當計算機視覺研究與落地大潮湧動之際,第三屆CCF-GAIR全球人工智慧與機器人峰會「計算機視覺專場」,眾多科技巨頭首席技術官、獨角獸首席科學家、國際學術頂會主席、世界名校AI實驗室主任將會公開分享最前沿的計算機視覺技術研究與商用成果。
  • 微信網友對話極視角CTO黃纓寧,暢談計算機視覺與人工智慧
    課後,直播群反響熱烈,網友們紛紛在提問互動環節中向嘉賓砸來了各自感興趣的問題,從CV熱點到AI動態,從學習經驗到學術建議,各種問題腦洞大開,黃總也是使出了洪荒之力,非常給力地一一作出了解答。錯過直播的小夥伴們不用擔心,雷鋒網(公眾號:雷鋒網)貼心地為大家整理了網友提問環節實錄,乾貨滿滿哦~
  • MIT等美國計算機名校有哪些好的計算機視覺/機器學習等公開課?
    同時提供每月大咖直播分享、真實項目需求對接、乾貨資訊匯總,行業技術交流。6.824 Distributed System課程連結:https://pdos.csail.mit.edu/6.824/系統方向非常好的一門課程,每堂課都講一個新的分布式系統模型,沒有教材,每堂課都是直接講論文。
  • ...講上線,兩位大咖詳解面向工業視覺檢測的AI算力系統設計|直播預告
    傳統工業檢測面臨著缺陷種類多、幹擾因素多、產線任務差異大、實現周期長等挑戰,並且沒有統一的標準,所以一直以來工業檢測大多由人工完成。而完全依靠人工來實現,又面臨著效率低下、成本日益增加的問題。隨著工業4.0和人工智慧技術的發展,深度學習方法已廣泛應用於工業視覺檢測領域,大幅提升了質檢效率,降低了人力成本。
  • 2013-2017:中國 CV(計算機視覺)公司恩仇錄
    如今,雲從的初心仍未改變,業務已滲透到四大國有銀行;依圖拿到 3.8 億 C 輪融資,商湯則破天荒融到 4.1 億美元,距上市更進一步。這是屬於中國 CV(計算機視覺)公司的五年,這是屬於他們的時代。為了補上硬體短板而去哥大 CAVE 實驗室進修、學成歸來的印奇發現,站在計算機視覺風口浪尖的人,已經變成在美國呆了十幾年、頂著 Google Glass 核心成員光環回國的趙勇。趙勇比印奇大上十幾歲,是復旦電子工程系 95 級校友。自第一次在 CSDN 與媒體見面,趙勇就被打上成熟穩重的「工程師」標籤。
  • 五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上)|CVPR 2019
    不過到了 CVPR 這個供全球計算機視覺研究者齊聚討論的盛會上,一個可能不那麼直接指導短期研究、不那麼容易形成共識問題也就自然地湧上了大家的心頭:在五到十年後的未來,計算機視覺的研究會是什麼樣子,是深度學習幾乎完全替代了目前還在使用的其他一些方法,還是我們應該期待新的革命?
  • 五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR 2019
    這幾年來,計算機視覺領域的已有問題在研究者們的努力下普遍得到了越來越好的解決,映入大家視野的新問題也越來越多。不過到了 CVPR 這個供全球計算機視覺研究者齊聚討論的盛會上,一個可能不那麼直接指導短期研究、不那麼容易形成共識問題也就自然地湧上了大家的心頭:在五到十年後的未來,計算機視覺的研究會是什麼樣子,是深度學習幾乎完全替代了目前還在使用的其他一些方法,還是我們應該期待新的革命?
  • [計算機視覺論文速遞] ECCV 2018 專場9
    CVer 已經推送了八篇 ECCV 2018論文速遞推文:[計算機視覺論文速遞] ECCV 2018 專場1[計算機視覺論文速遞] ECCV 2018 專場2[計算機視覺論文速遞] ECCV 2018 專場3[計算機視覺論文速遞] ECCV 2018 專場4[計算機視覺論文速遞] ECCV 2018 專場5
  • 騰訊優圖賈佳亞在「騰訊·雲+未來」AI大數據專場分享:計算機視覺...
    雷鋒網了解到,賈佳亞在加入騰訊後鮮少露面,本次在「騰訊雲+未來」AI大數據專場做主題演講,也是為數不多能一窺騰訊優圖實驗室及研究成果的公開場合。以下是賈佳亞在今日「騰訊雲+未來」AI大數據專場所做的主題演講《計算機視覺前沿與應用》,雷鋒網AI科技評論對速記做了不改動原意的編輯和整理。
  • 還在糾結深度學習算法 計算機視覺CV的關鍵在於數據採集和標註!
    2012年,AlexNet網絡橫空出世,帶來了前所未有的深度學習革命,這也讓多年來進展緩慢的計算機視覺CV研究,一下被按下了「快進鍵」。人們突然發現,這種模擬人腦抽象和迭代過程的深度學習算法,讓計算機開始「看見」。從物體的邊緣、輪廓到物體的部分,再向更高級層層抽象,深度學習讓計算機終於能夠在一張日常照片中,檢測並識別出圖上有一隻貓,而不是一條狗。
  • EasyDL實戰營開啟計算機視覺CV專場,講解多種模型效果提升技巧
    EasyDL 面向不同人群提供經典版、專業版、零售版三款產品,已在工業、零售、製造、醫療等二十多個行業領域落地。3月18日、19日(本周星期三和星期四)晚8點,百度大腦 EasyDL 深度學習實戰營「進階課程」第五、六課即將正式開課!本次課程將分別講解「計算機視覺 CV 算法及應用」和「計算機視覺 CV 模型開發及服務部署實戰」。
  • DeeCamp2020大師課落幕,李開復、張亞勤等12位大師都講了什麼?
    崔同學:開復老師憑藉多年的經驗給我們講述了AI創業的難點與發展勢頭,雖然只講了一節課,但是感覺對未來的規劃都有了一些改變。王同學:李開復老師對於AI的產業應用前景有著深入的研究,對於未來的工作和創業都有著很大的指導作用。
  • CV大咖齊聚於此,追憶一代宗師Thomas S. Huang為人、為師、為學|...
    1984年黃教授在上海演講,演講題目是「圖像處理的10大問題」,1998年,14年之後,在芝加哥舉行的圖象處理大會,把這個一打開來看,還有6個沒有解。後來經過很多年,我所知道的2010年左右還有4個沒解。也就是說,他看得很遠,可以看幾十年前做預測,很多人把它作為論文來做,很多是很難解的。這是他的學術上的視野。
  • 今天,人工智慧在 CCF-GAIR 大會上迎來高光時刻 | CCF-GAIR 2018
    根據大會安排,在 6 月 29 日第一天的主會場中,已經成功舉行的是本次大會的盛大開幕式和由多位學界業界大咖閃耀登臨的人工智慧前沿專場——眾多無比重要的時刻和無數思想觀點的碰撞,讓這一天成為絕對值得重點回顧的一天。
  • 2018 年度 AI 熱詞大盤點,來看看大咖怎麼說
    而這一年,無論從圖像生成和機器翻譯,無監督學習技術的突破,在很大程度上彌補了有監督學習的數據不足的缺點,在一些領域甚至已經達到有監督學習的效果,這是非常令人振奮的結果。@顧玖強,精通算法,軟硬兼修,目前主要研究方向是計算機視覺和自然語言處理結合。
  • 【CUDA學習筆記】第九篇:基本計算機視覺操作【上】(附實踐源碼下載)
    對於8位灰度圖像來說,一個點的強度值在0到255範圍內;而對於具有藍色、綠色和紅色三個通道的彩色圖像,每個點都具有三組不同的強度值,每一組的值都在0到255之間。        OpenCV提供一個cv::Mat::at<>方法,可以訪問各個通道圖像裡特定位置的強度值。它需要一個參數,就是要訪問強度值的點位置,這裡使用帶有行列值作為參數的Point類來傳遞該點位置。
  • 科研進階 | 加州大學伯克利分校 | 人工智慧、計算機科學:數據科學與AI深度學習:應用計算機視覺(2021.4.24開課)
    千禧年後,大數據的蓬勃發展和算力的指數級增長賦予了深度學習新的生機。深度學習如破竹之勢將機器輔助功能變為可能,讓人工智慧在各個應用領域實現落地。其中,人工智慧一個重要的研究方面就是計算機視覺。「計算機視覺是一門研究如何使機器『看』的科學,更進一步的說,就是指用攝影機和計算機代替人眼對目標進行識別、跟蹤和測量,其本質是模擬人類的感知與觀察的一個過程。」
  • 自動駕駛落地步驟明朗,18位大咖共話智能交通|CCF-GAIR 2019
    CCF-GAIR 2019 延續前三屆的「頂尖」陣容,提供了 13 個專場(人工智慧前沿專場、中國人工智慧四十年紀念專場、機器人前沿專場、智能交通專場、5G & AIoT 專場、AI 晶片專場、AI 金融專場、類腦計算專場、智慧城市專場、智能商業專場、智慧教育專場、AI 醫療專場、智慧城市·視覺智能專場)的豐富平臺,意欲給三界參會者從產學研多個維度,