視覺感知-從人類視覺到計算機視覺

2020-12-04 騰訊網

重磅乾貨，第一時間送達

人的視覺皮層由1.4億個神經元組成，是大腦中最神秘的部分之一，負責處理和解釋視覺數據以提供感知力並建立記憶。人們可以從少量信息中獲取相關環境的大量信息。例如給定一幅圖像，我們可以利用上下文和先驗知識得知整個故事。

但是，使計算機感知視覺世界有多困難？截至2019年，我們才取得了一定進展，但依舊還有很長的路要走。計算機視覺是計算機科學的一個相對較新的領域，大約有60年的歷史。

人類視野的演變

5.5億年前生命主要存在於水中，但是5.43億年前地球上的物種急劇增加，牛津大學的動物學家安德魯·帕克（Andrew Parker）在他的著作《In The Blink Of An Eye》中稱其為寒武紀爆發。這是由於視覺的突然進化，引發了動物進化或死亡。也就是視覺激發進化大爆炸的方式。

大腦如何解決視覺問題？

直到1959年，我們對生物視覺的了解還是很少。1959年，哈佛醫學院的兩名神經生物學家David Hubel和Torsten Wiesel進行了一項驚人的實驗，揭示了人類視覺系統的幾個秘密，並獲得了2項諾貝爾獎。

https://www.youtube.com/watchv=NV1uBSSC8jE&feature=youtu.be

他們記錄了貓腦中單個神經元的電活動。他們使用幻燈機向貓展示了特定的圖案，並注意到特定的圖案刺激了大腦特定部位的活動。實驗表明，視覺皮層細胞對邊緣的方向敏感，但對邊緣的位置不敏感。他們得出結論，視覺皮層中有3種類型的細胞：簡單，複雜和超複雜。視覺處理從簡單的單元格開始，這意味著它從學習簡單的事物（即邊和角）開始。這為現代計算機視覺奠定了基礎。

從生物視覺到計算機視覺

上世紀70年代，麻省理工學院的神經科學家David Marr借鑑了Hubel和Wiesel關於大腦視覺處理系統的實驗的想法，開始制定計算機視覺來模仿人類的視覺能力。他說，為了理解視覺信息，在視覺皮層中對其進行處理時需要分幾步進行處理。他提出了這樣的假設：存在少量形成原始視覺對象的幾何組成形狀。他把他的大部分發現都放在了《視覺》一書中。

多年來，受視覺皮層中分層處理的啟發，通用對象識別的分層方法變得越來越流行。人們開始思考人類視覺已經解決的問題，例如人臉識別，物體識別和分割。

1966年，麻省理工學院夏季視覺項目（MIT Summer Vision Project）在麻省理工學院開始了首次正式的計算機視覺工作，旨在在1966年夏季解決計算機視覺問題。

古典計算機視覺

在現代深度學習啟發計算機視覺之前，在70年代，人們開始使用模板匹配方法和滑動窗口方法來解決對象識別和檢測問題，以進行對象檢測和分類。

在給定對象模板的情況下，我們可以在數百個可能的窗口中查找模板對象。但是在現實世界中，由於視點，比例尺和照明變化，遮擋而無法使用。同樣，我們不可能擁有所有可能的模板來為類內或類間變異建模。

因此人們開始使用基於功能的方法。特徵點是圖像中特殊的點，其對於上述變化保持不變。

在另一個場景中匹配對象。-大衛·勞（David Lowe），1999年

在1999年，David Lowe 在ICCV會議上發表了SIFT -Scale不變特徵變換。SIFT的想法是-將圖像內容轉換為對平移，旋轉，縮放和其他成像參數不變的局部特徵坐標。現在將其描述為經典計算機視覺的AlexNet時刻。由於使用SIFT，人們無需考慮比例尺，照明變化和遮擋物，因此為對象識別研究提供了動力。

機器學習啟發了計算機視覺

到2000年，統計機器學習已在人們眼中飛速發展。保羅·維奧拉（Paul Viola）和麥可·瓊斯（Michael Jones）在2001年使用機器學習開發了最好的人臉檢測算法之一，目前它仍然是最快的人臉檢測方法之一。

Apple Face ID

2006年，Fujifilm製造了第一臺內置人臉檢測的相機。支持向量機在90年代後期的成功使計算機視覺更容易進行對象分類任務。仍然缺乏進行研究的數據集。為了創建一個標準的，面向研究的數據集，牛津大學視覺幾何小組的安德魯·齊瑟曼和馬克·埃弗林漢姆共同創建了PASCAL視覺對象類數據集為視覺和機器學習社區提供了圖像和注釋的標準數據集，以及標準的評估程序。它導致了分類算法和檢測算法的發展，但由於現代機器學習算法的模型容量較高，並且PASCAL數據集的大小相對較小，因此模型很容易過擬合，並且在看不見的圖像上無法給出良好的結果。

深度學習的寒武紀大爆炸

研究人員一直在努力設計越來越複雜的算法，以對多媒體數據進行索引，檢索，組織和注釋。但是好的研究需要好的資源。要大規模解決這些問題，如果存在大規模圖像資料庫，將對研究人員有極大幫助。這是斯坦福視覺實驗室的李飛飛教授的ImageNet，超過15萬張圖片的數據集。李飛飛的博士之一 Pietro Perona是Jitendra Malik的學生。2011年，Jitendra致電Geoffrey Hinton並建議他使用ImageNet，在第二年的2012年NIPS大會欣頓（Hinton）與亞歷克斯·克裡熱夫斯基（Alex Krizhevsky）共同發布了AlexNet，在2018年GTC峰會上，這被NVIDIA執行長黃仁勳稱為寒武紀深度學習爆炸

幻燈片，黃仁勳（Jensen Huang），NVIDIA GTC，2018年

結果是非常驚人，甚至讓李飛飛教授也感到驚訝，並認為數據集有問題。從那時起，現代計算機視覺便一直受到深度學習的影響。

為什麼計算機視覺很難？

視覺理解遠遠超出了對象識別範圍。瞥一眼圖像，我們可以毫不費力地想像超出像素範圍的世界：例如，我們可以推斷人們的行為，目標和精神狀態。儘管這項任務對人類來說很容易，但對於當今的視覺系統而言卻是極為困難的，需要對世界的高階認知和常識推理。

該項目始於1966年的MIT夏季視覺項目，旨在於當年夏季解決計算機問題，即使經過這些巨大的努力，它也仍無法解決問題，它僅在少數特定的受限環境中有效。

交流群

相關焦點

計算機視覺已橫跨感知與認知智能

一、計算機視覺技術概述　　計算機視覺橫跨感知與認知智能，現階段應用以感知為主　　視覺使人類得以感知和理解周邊的世界，人的大腦皮層大約有70%的活動在處理視覺相關信息。計算機視覺即通過電子化的方式來感知和理解影像，以達到甚至超越人類視覺智能的效果。
張鈸院士:視覺智能距離人類的視覺感知還差得很遠

，但也要看到，深度學習只是為圖像識別等視覺提供一個性能良好的機械分類器，距離人類的視覺感知還差得很遠，因此它的應用場景有著很大的限制。新加坡Advance.AI公司計算機視覺負責人王芳林博士認為，在實際應用人工智慧技術時，理解用戶的痛點比理解算法更為重要。他介紹了該公司基於計算機視覺的反欺詐技術在東南亞國家的應用實踐。
人工智慧與計算機視覺

一則生物自然視覺無法嚴格定義，在加上這種廣義視覺定義又「包羅萬象」，同時也不太符合40多年來計算機視覺的研究狀況，所以這種「廣義計算機視覺定義」，雖無可挑剔，但也缺乏實質性內容，不過是一種「循環式遊戲定義」而已。　　實際上，計算機視覺本質上就是研究視覺感知問題。視覺感知，根據維科百基(Wikipedia)的定義, 是指對「環境表達和理解中，對視覺信息的組織、識別和解釋的過程」。
計算機視覺 vs 機器視覺

計算機視覺和機器視覺通常被認為是同一個行業，其實它們是重疊技術的不同術語。計算機視覺廣義上是指圖像分析的捕獲和自動化，並著重於在廣泛的理論和實際應用中的圖像分析功能。傳統上，機器視覺是借鑑參考了計算機視覺技術，在某些工業或實際應用中根據視覺系統完成圖像分析的某些功能或結果。視覺系統使用軟體來識別預編程的功能，該系統可根據發現結果觸發各種設定的「動作」。例如，在食品和飲料行業的裝瓶廠中，視覺系統可用於識別多個物體。它可以驗證空瓶本身沒有損壞和異物。
計算機通過監測人腦信號來模擬視覺感知

美國醫療服務機構和生元國際了解到，赫爾辛基大學的研究人員開發了一種技術，通過監測人類大腦信號，計算機模擬視覺感知。在某種程度上，這就好像計算機試圖想像人類在想什麼。這種想像的結果是，計算機能夠產生全新的信息，比如以前從未見過的虛構圖像。這項技術基於一種新型的腦-機接口。
攝影的獨特視覺感知

實際上，與視軸中心偏移10°傾角，視覺影像質量就會下降到中心區域的1/5。正因為如此，我們的眼睛必須積極地掃視場景，探究場景中的對象，從中獲取我們需要的信息。這種視覺感知過程具有主觀選擇性，其驅動力可能是來自我們大腦「高級」和「低級」的中心區。
我國科學家揭示「視覺感知」新機制

視覺科學的中心問題是探索從局部到整體的跨腦區視覺信息整合的腦機制。該研究通過在非人靈長類獼猴大腦視皮層V1，V2，和V4三個腦區進行群體神經元和單細胞神經元記錄，探索了靈長類腹側視覺通路中高級腦區是否存在編碼精細視覺的神經基礎以及它與局部和整體視覺感知的相關性。
計算機視覺在智能交通領域五大應用方向

計算機視覺在交通領域主要有如下幾個方面的應用：第一個是感知，既車輛的檢測，第二個是車輛身份的識別，第三是車輛身份的比對，第四個是車輛的行為分析，第五個是駕控，也就是現在非常火的汽車輔助駕駛與
盤點中國十大計算機視覺公司

計算機視覺也可以看作是研究如何使人工系統從圖像或多維數據中「感知」的科學。它的最終研究目標就是使計算機能象人那樣通過視覺觀察和理解世界，具有自主適應環境的能力。　　從學科分類上，二者都被認為是ArtificialIntelligence下屬科目，不過計算機視覺偏軟體，通過算法對圖像進行識別分析，而機器視覺軟硬體都包括(採集設備，光源，鏡頭，控制，機構，算法等)，指的是系統，更偏實際應用。簡單的說，我們可以認為計算機視覺是研究「讓機器怎麼看」的科學，而機器視覺是研究「看了之後怎麼用」的科學。
國內外優秀的計算機視覺團隊匯總|最新版

），陳熙霖，山世光，黃慶明，常虹，許倩倩，闞美娜，王瑞平，王樹徽，蔣樹強中科院自動化所：譚鐵牛(智能感知與計算研究中心)，李子青（生物識別與安全技術研究中心），模式識別重點實驗室，王亮，赫然，程健，董未名，胡衛明，機器視覺課題組：吳毅紅，申抒含，興軍亮，黃凱奇，胡包鋼，雷震，張兆翔中科院信工所
從金字塔模型的角度認識視覺感知

視覺感知指利用視覺來適應環境，並將視覺信息整合到大腦神經系統中，用來解釋和整合視覺信息與大腦其他部分信息的過程。
計算機視覺下一個技術拐點?前端成像或將開啟「視覺2.0時代」

2018將是AI落地第一年，視覺市場規模潛力巨大近幾年，人工智慧的火熱是毋庸置疑的，上到國家兩次將其寫入政府工作報告，下到雨後春筍般出現的各種AI公司，所有這些都在昭示著一個嶄新的人工智慧時代即將到來。同樣的，在眾多的AI技術和應用中，計算機視覺是最大的切入點和最具潛力的領域。
計算機視覺及智能影像行業深度研究報告

計算機視覺領跑 AI 產業，應用場景廣闊 1.1 什麼是計算機視覺?讓機器「看懂」影像的 AI技術計算機視覺是 AI 核心研究領域，目的在於讓機器具備人類的「眼力」。計算機視覺是人工智慧的分支之一，目的在於通過電子化的方式來感知和理解影像，讓計算機具備和人一樣的"眼力"，能夠識別、理解周圍的世界。
人工智慧---計算機的視覺與語音技術

隨著人工智慧的發展，機器也試圖在這項能力上匹敵甚至超越人類。計算機視覺的歷史可以追溯到1966年，人工智慧學家Minsky在給學生布置的作業中，要求學生通過編寫一個程序讓計算機告訴我們它通過攝像頭看到了什麼，這也被認為是計算機視覺最早的任務描述。到了七八十年代，隨著現代電子計算機的出現，計算機視覺技術也初步萌芽。
計算機視覺方向簡介 | 多視角立體視覺MVS

圖像一致性度量分為場景空間和圖像空間兩種，前者將幾何點、面或體投影到圖像並評估投影之間的相互協調度，後者基於場景幾何估計變換（warp）來自一個視點的圖像預測不同視點的圖像然後計算預測圖像和測量圖像之間的預測誤差
紐勱科技詳解視覺感知:視覺模型上線是一個閉環迭代過程

馬斯克也希望特斯拉能夠創造出比人類眼睛更敏銳的「攝像頭眼睛」，以保證安全性和智能性。雷鋒網旗下會員組織「AI投研邦」「大咖Live」第50講，紐勱科技計算機視覺研發總監成二康帶來關於《自動駕駛系統研發：詳解視覺感知模塊》的主題分享，圍繞自動駕駛的視覺感知、基於深度學習的目標檢測和圖像分割任務、紐勱科技如何以數據助力自動駕駛感知模塊研發三方面進行了介紹。
3D雙目立體視覺在機器人視覺的應用

米爾發布VECP邊緣視覺套件「人們常說眼睛是心靈的窗戶，帶著你我看清現實世界。」在工業發展中，工業智能化替代了人類的手腳，而機器視覺就是智能化的眼睛，讓其更精準的解決工業場景需求。同時智能化物聯網時代不斷發展的今天對機器視覺產生了更高的要求。
回聲定位:人類可能不需視覺幫助感知到障礙物

中國網1月6日訊據法國《費加羅報》網站1月2日報導，就如同蝙蝠一般，人類也有可能在沒有經過任何訓練的情況下，不需要視覺幫助就能預先感知到障礙物的存在。加拿大安大略大學與蘇格蘭愛丁堡大學在《心理科學（Psychological Science）》雜誌上發表了一篇聯合研究的報告。
OPPO斬獲全球計算機視覺頂級會議CVPR 2020兩項第一

在今年的全球計算機視覺頂級會議CVPR（Conference on Computer Vision and Pattern Recognition國際計算機視覺與模式識別會議）上，OPPO獲得兩項第一名、兩項第三名。
INDEMIND雙目視覺慣性模組助力立體視覺應用升級

近年來，機器人、深度學習、姿態檢測、自動駕駛等前沿領域的高速發展為計算機視覺領域拓展了巨大增量，創造了新的千億級市場，與此同時，這些不斷高速發展的「推手」也對計算機視覺提出了新的需求，開始倒逼計算機視覺技術升級進步。

視覺感知-從人類視覺到計算機視覺

相關焦點

計算機視覺已橫跨感知與認知智能

張鈸院士:視覺智能距離人類的視覺感知還差得很遠

人工智慧與計算機視覺

計算機視覺 vs 機器視覺

計算機通過監測人腦信號來模擬視覺感知

攝影的獨特視覺感知

我國科學家揭示「視覺感知」新機制

計算機視覺在智能交通領域五大應用方向

盤點中國十大計算機視覺公司

國內外優秀的計算機視覺團隊匯總|最新版

從金字塔模型的角度認識視覺感知

計算機視覺下一個技術拐點?前端成像或將開啟「視覺2.0時代」

計算機視覺及智能影像行業深度研究報告

人工智慧---計算機的視覺與語音技術

計算機視覺方向簡介 | 多視角立體視覺MVS

紐勱科技詳解視覺感知:視覺模型上線是一個閉環迭代過程

3D雙目立體視覺在機器人視覺的應用

回聲定位:人類可能不需視覺幫助 感知到障礙物

OPPO斬獲全球計算機視覺頂級會議CVPR 2020兩項第一

INDEMIND雙目視覺慣性模組助力立體視覺應用升級

回聲定位:人類可能不需視覺幫助感知到障礙物