計算機視覺進展二十年 (1995~2015)

2021-02-21 圖像處理

計算機視覺的兩大主要板塊是:幾何和識別,這裡我們主要來講述計算機視覺在1995—2015年間的進展。

1.影像特徵點檢測算子(detector)和描述算子(descriptor) SIFT的誕生(1999, 2004)

Scale invariantfeature transform (SIFT) 是在1999年由 UBC 的教授 David Lowe首次提出,並在2004年進一步完善並發表的影像特徵點檢測 (detector) 和描述算子(descriptor)。SIFT的誕生是計算機視覺裡程碑式的進步,它使得 homography estimation, structure frommotion, epipolar geometry 以及 機器人 (robotics) 中的SLAM 有了飛躍式的改進,正是因為SIFT好於在它之前的任何描述子,使得匹配更加準確。SIFT不只是在geometry上有應用, 它後來廣泛應用於目標識別 (Object Recognition)(見後文)。

2. 特徵工程:描述子(descriptor) 的廣泛誕生(1995—2010)

在深度學習 (featurelearning) 流行之前,學者們手工設計 (manually craft) 了很多point, image patch, spatial-temporalvolumetric cube 和 3D mesh的描述子,這些描述子一般都具有抗噪聲,對旋轉、光照、比例、對比度 等等不敏感的特性。除SIFT之外,其它著名的算子有:

(1) shape context, 它由Cornell Tech的 Serge Belongie 教授於2002年提出, 他使用了計算機視覺中常用的binning來描述點周圍的shapecontext, 在角度方向, 使用了均衡的binning, 而在半徑方向, 使用了log-polar binning, 這樣直觀上就是越近的點對shape影響更大。Shape context 是很成功的形狀描述子, 對於2D 的形狀識別, 在當時MNIST手寫字識別上達到了最好的效果。

(2) HOG: 它的全稱是Histogram of Oriented Gradients, 在2005年由 Dalal & Triggs提出來,應用到行人檢測上。HOG不同於SIFT的地方是:HOG用於描述整塊patch, 並不像SIFT一樣有keypoint的概念;HOG沒有rotation-invariant 的特性。HOG 後來廣泛的用於其他目標的識別,最成功的拓展是基於HOG的deformable partsmodel(DPM, 由Felzenszwalb 教授在2010年提出), 它是deep learning 之前最好的object detection& recognition 算法。

(3) spin image:它是一種3D mesh的描述子, 由 Andrew Johnson 博士在1997年提出, 並在1999年完善的。它用來做surface matching,如今雷射掃描儀 (laster scanner) 越來越普遍,價格也越來越便宜,於是點雲數據也是越來越常見, spin image就能直接用於點雲的匹配。因為spin image 描述子是基於局部的坐標系–其XY平面是那點的切平面,Z是點的法向(normal),XY坐標軸的方向不需要確定(不像計算SIFT descriptor時,需要把坐標軸對齊到dorminantdirection)–當兩個來自不同全局坐標系點雲的點都用shape context 描述後, 就能直接歐式距離比較它們的相似度了。

(4)除了這些非常成功的描述子,其它的還有 STIP (Space-Time Interest Points, 2005), HOF (Histogram oforiented optical flow, 2009), MBH (motion boundary histogram, 2013)。

3. 目標識別, objectrecognition(2005—2010)

在2010年前,也就是deeplearning用於目標識別之前, 這個時期還沒有大規模的影像資料庫(ImageNET2009年採集完成),第一個用於目標識別的資料庫是目前斯坦福的Fei-FeiLi教授在caltech讀博期間採集的Caltech101,它有101類目標,每個種類的目標有40~800張影像。雖然相比目前的imageNET,它小得不能再小了,可是它對計算機視覺目標識別有著不可磨滅的貢獻,caltech101開啟了目標識別的先河,這期間誕生了很多有趣的descriptors和objectrecognition algorithms, 其中主流的目標識別算法是(1)bag-of-visual-words (BoW); (2) templatematching。 BoW受到文本領域topic modeling的啟發,主要思想是在影像上隨機的採取一些patches, 這些patches叫做visualwords, 影像就能看作由這些visual words 組成的(正如一篇文章 (document) 由很多 words 組成)。下面我們來說說代表性的目標識別的文章:

(1) LDA: latentDirichlet allocation, 它本來由普林斯頓的David Blei教授在2003年提出,用於文本的unsupervised topicmodeling, 在2005年, 仍在讀博的Fei-Fei Li用LDA做視覺中的場景分類, 這是一篇典型的bag-of-visual-words算法用於目標分類的文章;

(2) SPM (spatialpyramid matching), 它是目前UIUC的教授Lazebnik提出的, 用非常簡單的spatialgrid把image分成幾塊,然後每塊分別統計BoW histogram,最後把這些histogram拼接在一起,這樣形成的影像描述子就有了空間結構信息,再不像以前的BoW描述子一樣缺乏空間信息了,非常簡潔, 但也非常有效;

(3) 基於BoW的一些改進的 imageencoding 方法:2006~2009年,學者們用 sparse coding, Fisher vector 等技巧來改善傳統的BoW影像描述子(image encoding),這樣的描述子更加的discriminative, 取得了一些進步,不過他們仍然屬於BoW體系中的方法;

(4) Pyramid matchingkernel: 它由UT Austin的Grauman 教授提出,雖然第一步也是提取visual words (SIFT), 不過它不同於BoW的是:PMK定義了一種相似度kernel,通過兩張影像上提取的SIFT描述子來直接描述兩張影像的相似度,最後用SVM分類。顯然PMK中每張單獨的影像並沒有自己的描述子 (encoded vectordescriptor)。

(5) DPM:deformableparts model,由Felzenszwalb 教授在2010年提出, 它是一種完全不同餘以前方法的目標識別算法,它的核心思想是模板匹配,定義了roottemplate 和幾個part templates,然後用latent SVM 描繪root和parts之間的幾何關係,最後通過 latentdescriminative training 得到latent svm 參數,便可用於分類。DPM是deeplearning之前最好的目標識別算法,之後有一些DPM 的加速算法,用於快速目標檢測。

4. 自動特徵這學習: deeplearning 在視覺中的流行 (2010—2015)

Deeplearning的再次流行,打破了目標識別算法的格局,使得無論是BoW還是DPM都成為過去式,deeplearning成為目標識別領域的領跑者。首先BoW根本不具有物體的結構信息,再之,DPM可以看成是2層的一種structure (root+part),但與deep learning 的層數(通常10~20層)來比,也算一種淺層結構了(shallow network)。Deeplearning的流行,有4個人功不可沒:Geoffrey Hinton, Yann LeCun, Yoshua Bengio 和 Andrew Ng。

這裡我們重點介紹 deepconvolutional neural network (CNN), 它早在1990年就由YannLeCun用於手寫字的識別,可是一直到2012年,CNN一直沒被重視,兩個原因:(1)SVM 的優美的理論,遙遙領先分類能力,使得其它分類器 (包括CNN)黯然失色;(2)計算機硬體的計算性能的有限, 加上沒有大量的labeled數據,使得CNN一直沒能得到很好的結果。 2012年, Krizhevsky(Geoffrey Hinton在加拿大多倫多大學的學生)在NIPS上present了CNN用於目標識別的結果,它直接把最好的目標識別算法誤差減半,這引起了軒然大波和熱烈的討論,到了今天,CNN已經被整個計算機視覺界所接受,成為目標識別的通用方法。

CNN 的結構是: n * (convolutionlayer + pooling layer) + several fully connected layers, CNN的這種deepstructure受啟發於人的視覺神經元識別目標的層次解構:LGN-V1-V2-V4-IT,簡單的方向信息源往往會使得低層的神經元firing,而更抽象的形狀刺激源往往能激發高層V4區域的神經元。CNN的deepstructure利用了下面的屬性:很多自然信號都是層次結構的,高層的複雜特徵又低層的簡單特徵組成。CNN中的convolutionallayer是distributed representation的一種表徵,而pooling layer使得deepstructure對影像微小的平移(shift)和形變(distortion) 不敏感。CNN使用error backpropagation來訓練參數,具體用一階的隨機梯度下降法 (stochastic gradient descent)來訓練。

相關焦點

  • 計算機視覺方向簡介 | 多視角立體視覺MVS
    推薦閱讀前段時間參加了個線下交流會(附SLAM入門視頻)計算機視覺方向簡介 | 從全景圖恢復三維結構計算機視覺方向簡介 | 陣列相機立體全景拼接計算機視覺方向簡介 |單目微運動生成深度圖計算機視覺方向簡介 | 深度相機室內實時稠密三維重建計算機視覺方向簡介 | 深度圖補全計算機視覺方向簡介 | 人體骨骼關鍵點檢測綜述計算機視覺方向簡介 | 人臉識別中的活體檢測算法綜述計算機視覺方向簡介 | 目標檢測最新進展總結與展望計算機視覺方向簡介 |
  • AlphaGo 早已擊敗圍棋冠軍,計算機視覺還是 3 歲的 「智力」
    20 世紀 50 年代和 60 年代,計算機視覺並沒有被看成重頭戲,人們認為視覺系統很容易複製,而教計算機下棋更加困難。此外,大多數研究人員都是在孤立的小組內工作,缺乏比較有意義的,可以推進該領域科學進展的方式。有一則故事可以反映當時研究人員的美好預期、以及預期落空後他們自身及和外界的失落與嘲諷。
  • 計算機視覺的真實應用範例
    計算機視覺,無論是基於硬體還是軟體算法,大多還停留在「cool」的階段,計算機視覺的真實應用範例,它有什麼用,似乎離我們普通人還比較遠。看完這篇文章,也許你就不會這麼認為。發現雪白桌面上一張同樣雪白的 A4 紙?提前一秒預知你的動作是否存在威脅?出現危險情況時,對著鏡頭做「SOS」的手勢警察就會來幫助你? 這些太像科幻片?
  • 光學預處理與計算機視覺結合,UCR學者用漩渦實現混合計算機視覺系統
    機器之心報導作者:杜偉、小舟在本文中,來自加州大學河濱分校機械工程系的研究者通過應用光學漩渦證明了混合計算機視覺系統的可行性。該研究為光子學在構建通用的小腦混合神經網絡和開發用於大數據分析的實時硬體方面的作用提供了新見解。
  • 計算機視覺華人鼻祖黃煦濤過世
    美國工程院院士、中國科學院外籍院士、計算機視覺華人鼻祖黃煦濤(Thomas S. Huang)於2020年4月25日夜間在美國印第安納小女兒家過世。3個月前,其夫人Margaret也在家人陪伴下過世。
  • 淺談計算機視覺中的圖像標註_易車網
    什麼是計算機視覺?計算機視覺被認為是機器學習和人工智慧發展的重要領域之一。簡而言之,計算機視覺是人工智慧研究領域,致力於賦予計算機看世界和視覺解釋世界的能力。更進一步的說,計算機視覺是一門研究如何使機器「看」的科學,就是是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量等機器視覺,並進一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。計算機視覺的應用非常廣泛,從自動駕駛汽車和無人機到醫療診斷技術和面部識別軟體,計算機視覺的應用是巨大的和革命性的。
  • 除了切入零售與電力行業,極視角還要做計算機視覺PasS雲平臺
    「計算機視覺」毫無疑問是過去兩年人工智慧領域最受關注也是融資筆數與融資金額最多的細分賽道了。在36氪創投助手的資料庫中,輸入計算器視覺這一標籤後共有454條名目,而且這個數字每天都在增加。來自深圳的極視角打算從一家計算機視覺公司轉型成為一家商業智能(BI)公司,以計算機視覺算法為核心,構建PasS雲平臺。極視角成立於2015年6月,是一家專注於視頻智能監控與分析的雲服務提供商。核心團隊大多來自於北京大學。
  • 十張圖了解2020年中國計算機視覺行業市場現狀與競爭格局分析 CV四...
    原標題:十張圖了解2020年中國計算機視覺行業市場現狀與競爭格局分析 CV四小龍競爭激烈   全球
  • 著名計算機應用專家潘雲鶴院士:勇闖無人區
    潘雲鶴:人工智慧的概念是60多年前提出的,當時的目標是讓計算機變得更聰明。這方面我們印象最深的可以說是下棋。現在任何一種棋類,計算機都可以完美地和人類對弈,甚至勝過我們。  2015年我們向中國工程院提出,要進行一項重大的戰略課題研究,叫人工智慧2.0。
  • 麥克阿瑟天才獎得主解碼計算機視覺「原罪」:AI 如何認識人類世界
    Paglen將AI訓練圖像集稱為計算機視覺的「亞當和夏娃」。這些圖像中包括了美軍在上世紀90年代開始收集整理的,面部識別技術(FERET)計劃中的肖像,這是美軍用於教授計算機識別人臉的圖像,並成為此後計算機視覺研發的基礎。
  • 國內計算機視覺行業盈利空間巨大,CV四小龍企業競爭激烈
    國內計算機視覺行業盈利空間巨大,CV四小龍企業競爭激烈 朱茜 發表於 2020-12-22 15:59:26 全球人臉識別系統行業處於蓬勃發展的態勢。
  • 知乎高贊:985計算機視覺畢業後找不到工作怎麼辦?
    計算機視覺畢業後找不到工作怎麼辦? AI專業畢業後是不是找不到工作?近日,有知乎網友提問,獲得了70萬閱讀量。 知友@mileistone說: 現在市場出現了一個看起來很矛盾的現象,招聘公司覺得計算機視覺算法工程師難招;計算機視覺算法工程師應聘者覺得工作難找。 前幾年因為人工智慧大火,非常多人轉行進入計算機視覺領域,供給遠遠大於需求,給應聘者以工作難找的感覺。
  • 36氪首發|計算機視覺算法平臺「極視角」完成B輪融資,高通創投領投
    36氪獲悉,計算機視覺算法平臺「極視角」今日宣布完成了B輪融資,此輪融資由高通創投領投,華潤創新基金、創興前沿、萊瑪跟投。融資資金將主要用於產品研發、產品推廣以及市場拓展。36氪此前曾對極視角進行過報導,該公司成立於2015年6月,此前主要為零售與電力行業提供視頻智能監控與分析的計算機視覺解決方案;2017年開始以計算機視覺算法為核心,構建一個連接企業客戶與算法開發者的PasS雲平臺;2018年初,極視角獲華潤數千萬人民幣A+輪融資,並上線計算機視覺PaaS雲平臺。
  • AWS Panorama是否會為計算機視覺遊戲帶來新的面貌?
    這些服務建立在Avant級機器學習,傳感器分析和計算機視覺功能上。這些服務的主要目標是解決工業客戶遇到的通用技術挑戰,並代表現有的最全面的雲到邊緣工業機器學習服務套件。在這些機器學習AWS服務中,AWS Panorama Appliance和AWS Panorama SDK受到了廣泛關注。
  • 基於英特爾AI計算機視覺的新創中天智能交通路側視頻邊緣計算設備
    AI智能相機一般用於新建的項目,它集視頻採集、通用計算和基於AI推理的計算機視覺等能力於一體,為交通信號控制機提供視頻檢測分析數據。  在這一智能交通管理系統中,基於邊緣計算與AI計算機視覺的路側視頻邊緣計算設備是極為重要的基礎性設備。
  • 斯坦福AI實驗室:如何打造基於計算機視覺的智能醫院
    實際上,很多技術都可以解決這個問題,最簡單也最常用的就是用計算機視覺技術來檢測人們有沒有洗手。很明顯,需要一種沒有RFID技術缺陷的新解決方案。計算機視覺和醫院我們在史丹福大學與Lucile Packard兒童醫院合作,開發了一種全新的先進方案來追蹤手部衛生工作:它使用前沿的計算機視覺技術,不需要臨床醫生來幹預日常工作。雖然計算機視覺已被用到醫學成像領域,但在醫院的物理空間中還沒有太多用武之地。
  • BBC紀錄片 計算機伯爵夫人.Calculating.Ada.The.Countess.of.Computing.2015
    奧古斯塔·阿達·金,勒芙蕾絲伯爵夫人(Augusta Ada King, Countess of Lovelace,1815年12
  • 腦力影像視覺訓練系統簡介
    如同物理治療可以改善運動功能,腦力影像視覺訓練能顯著提高視力、增進視覺技巧、開發視覺潛能、改進視覺功能。是一種行之有效的恢復和重建視覺功能的方法,也是一門治療眼部疾病和提高視覺功能的科學。傳統的視覺訓練包括在醫院進行的治療和在家庭進行的各種訓練,包括:傳針、穿珠子、描圖、增視儀、光刷儀、同視機、離子導入儀、綜合弱視治療儀、直線機等。
  • 為何計算機視覺落地難?別說我沒告訴你AI數據的重要性
    計算機視覺作為人工智慧關鍵技術之一,可廣泛應用於交通、零售、醫療、安防、金融、農業、製造業等領域,具有巨大的應用價值。根據前瞻產業研究院的統計,國內人工智慧企業中,有高達42%的企業應用計算機視覺相關技術,其次是語音和自然語言處理,分別佔比24%、19%,兩者之和才與計算機視覺佔比相當。
  • 【省地方志】 《陝西省志·公安志》(1995-2010年)出版發行
    【省地方志】 《陝西省志·公安志》(1995-2010年)出版發行 來源: 省地方志網站 發布時間: 2021-01-09 09:19