重磅乾貨,第一時間送達
人的視覺皮層由1.4億個神經元組成,是大腦中最神秘的部分之一,負責處理和解釋視覺數據以提供感知力並建立記憶。人們可以從少量信息中獲取相關環境的大量信息。例如給定一幅圖像,我們可以利用上下文和先驗知識得知整個故事。
但是,使計算機感知視覺世界有多困難?截至2019年,我們才取得了一定進展,但依舊還有很長的路要走。計算機視覺是計算機科學的一個相對較新的領域,大約有60年的歷史。
人類視野的演變
5.5億年前生命主要存在於水中,但是5.43億年前地球上的物種急劇增加,牛津大學的動物學家安德魯·帕克(Andrew Parker)在他的著作《In The Blink Of An Eye》中稱其為寒武紀爆發。這是由於視覺的突然進化,引發了動物進化或死亡。也就是視覺激發進化大爆炸的方式。
大腦如何解決視覺問題?
直到1959年,我們對生物視覺的了解還是很少。1959年,哈佛醫學院的兩名神經生物學家David Hubel和Torsten Wiesel進行了一項驚人的實驗,揭示了人類視覺系統的幾個秘密,並獲得了2項諾貝爾獎。
https://www.youtube.com/watchv=NV1uBSSC8jE&feature=youtu.be
他們記錄了貓腦中單個神經元的電活動。他們使用幻燈機向貓展示了特定的圖案,並注意到特定的圖案刺激了大腦特定部位的活動。實驗表明,視覺皮層細胞對邊緣的方向敏感,但對邊緣的位置不敏感。他們得出結論,視覺皮層中有3種類型的細胞:簡單,複雜和超複雜。視覺處理從簡單的單元格開始,這意味著它從學習簡單的事物(即邊和角)開始。這為現代計算機視覺奠定了基礎。
從生物視覺到計算機視覺
上世紀70年代,麻省理工學院的神經科學家David Marr借鑑了Hubel和Wiesel關於大腦視覺處理系統的實驗的想法,開始制定計算機視覺來模仿人類的視覺能力。他說,為了理解視覺信息,在視覺皮層中對其進行處理時需要分幾步進行處理。他提出了這樣的假設:存在少量形成原始視覺對象的幾何組成形狀。他把他的大部分發現都放在了《視覺》一書中。
多年來,受視覺皮層中分層處理的啟發,通用對象識別的分層方法變得越來越流行。人們開始思考人類視覺已經解決的問題,例如人臉識別,物體識別和分割。
1966年,麻省理工學院夏季視覺項目(MIT Summer Vision Project)在麻省理工學院開始了首次正式的計算機視覺工作,旨在在1966年夏季解決計算機視覺問題。
古典計算機視覺
在現代深度學習啟發計算機視覺之前,在70年代,人們開始使用模板匹配方法和滑動窗口方法來解決對象識別和檢測問題,以進行對象檢測和分類。
在給定對象模板的情況下,我們可以在數百個可能的窗口中查找模板對象。但是在現實世界中,由於視點,比例尺和照明變化,遮擋而無法使用。同樣,我們不可能擁有所有可能的模板來為類內或類間變異建模。
因此人們開始使用基於功能的方法。特徵點是圖像中特殊的點,其對於上述變化保持不變。
在另一個場景中匹配對象。-大衛·勞(David Lowe),1999年
在1999年,David Lowe 在ICCV會議上發表了SIFT -Scale不變特徵變換。SIFT的想法是-將圖像內容轉換為對平移,旋轉,縮放和其他成像參數不變的局部特徵坐標。現在將其描述為經典計算機視覺的AlexNet時刻。由於使用SIFT,人們無需考慮比例尺,照明變化和遮擋物,因此為對象識別研究提供了動力。
機器學習啟發了計算機視覺
到2000年,統計機器學習已在人們眼中飛速發展。保羅·維奧拉(Paul Viola)和麥可·瓊斯(Michael Jones)在2001年使用機器學習開發了最好的人臉檢測算法之一,目前它仍然是最快的人臉檢測方法之一。
Apple Face ID
2006年,Fujifilm製造了第一臺內置人臉檢測的相機。支持向量機在90年代後期的成功使計算機視覺更容易進行對象分類任務。仍然缺乏進行研究的數據集。為了創建一個標準的,面向研究的數據集,牛津大學視覺幾何小組的安德魯·齊瑟曼和馬克·埃弗林漢姆共同創建了PASCAL視覺對象類數據集為視覺和機器學習社區提供了圖像和注釋的標準數據集,以及標準的評估程序。它導致了分類算法和檢測算法的發展,但由於現代機器學習算法的模型容量較高,並且PASCAL數據集的大小相對較小,因此模型很容易過擬合,並且在看不見的圖像上無法給出良好的結果。
深度學習的寒武紀大爆炸
研究人員一直在努力設計越來越複雜的算法,以對多媒體數據進行索引,檢索,組織和注釋。但是好的研究需要好的資源。要大規模解決這些問題,如果存在大規模圖像資料庫,將對研究人員有極大幫助。這是斯坦福視覺實驗室的李飛飛教授的ImageNet,超過15萬張圖片的數據集。李飛飛的博士之一 Pietro Perona是Jitendra Malik的學生。2011年,Jitendra致電Geoffrey Hinton並建議他使用ImageNet,在第二年的2012年NIPS大會欣頓(Hinton)與亞歷克斯·克裡熱夫斯基(Alex Krizhevsky)共同發布了AlexNet,在2018年GTC峰會上,這被NVIDIA執行長黃仁勳稱為寒武紀深度學習爆炸
幻燈片,黃仁勳(Jensen Huang),NVIDIA GTC,2018年
結果是非常驚人,甚至讓李飛飛教授也感到驚訝,並認為數據集有問題。從那時起,現代計算機視覺便一直受到深度學習的影響。
為什麼計算機視覺很難?
視覺理解遠遠超出了對象識別範圍。瞥一眼圖像,我們可以毫不費力地想像超出像素範圍的世界:例如,我們可以推斷人們的行為,目標和精神狀態。儘管這項任務對人類來說很容易,但對於當今的視覺系統而言卻是極為困難的,需要對世界的高階認知和常識推理。
該項目始於1966年的MIT夏季視覺項目,旨在於當年夏季解決計算機問題,即使經過這些巨大的努力,它也仍無法解決問題,它僅在少數特定的受限環境中有效。
交流群