「計算機視覺是通過採集、處理、分析和理解真實世界中的圖像去得到數字或符號信息的一個領域。」打開維基百科,輸入「計算機視覺」,按下回車鍵,你將看到以上的一段文字。是的,雖然對於我們大部分普通人來說,計算機視覺還是一個略顯遙遠的詞彙,但事實上,它在今天的這個時代已經成為了遍布我們生活的一項科學技術。自從上世紀五十年代被提出之後,計算機視覺經歷了半個多世紀的發展,終於在最近這幾年實現了技術上的飛躍,逐漸走入了我們的實際生活中,成為了目前最炙手可熱的研究領域之一。
然而將時間往回撥,在二十年前,雖然人們已經意識到了計算機視覺的重要性,但那時,它還遠未達到一個成熟的發展階段。「1998 年微軟亞洲研究院建院的時候我們第一個成立的組就是視覺計算組,那時候計算機視覺應用非常少,很冷門」,微軟亞洲研究院常務副院長郭百寧博士對極客公園說道,他同時也是計算機視覺領域的頂尖科學家,「當時圖形學火了很多年,現在輪到計算機視覺火了。」
的確,隨著進入 21 世紀以來更多的對於圖像識別和大規模圖像與視頻資料庫的研究,計算機視覺實現了一個突飛猛進式的發展,現在,僅在中國的科技創新領域,你就能見到許多以計算機視覺為核心技術的創新企業。
在郭百寧博士看來,2011 年是一個計算機視覺領域發展中的一個比較大的轉折點,那一年人們真正覺得計算機視覺可以變成一個大的產業。以微軟 Kinect 為代表,大家發現計算機可以理解動作,並實時地做出反應。緊接著在 2012 年,另外一個很重要的技術開始興起——基於深度學習的圖像識別。以前圖像識別的準確率不是特別高,但有了深度學習之後,識別率逐年上漲,基本是直線上升。由於識別的精確度提高了,以前人們想像的計算機視覺可能實現的應用真的就能用了。
在這兩年全世界計算機視覺領域的發展中,世界上的幾個科技巨頭可以說是引領這股潮流的一支主要力量,其中微軟就是典型代表。在去年舉行的 ImageNet 2015 的比賽中,微軟亞洲研究院視覺計算組的研究員們就憑藉深層神經網絡技術的最新突破,以絕對優勢獲得圖像分類、圖像定位以及圖像檢測全部三個主要項目的冠軍。其中他們的獨門秘訣就叫「深層殘差網絡(deep residual networks)」技術。
何謂「殘差網絡」技術?這是郭百寧博士給出的解釋:數據放進去後,計算機要學習一個函數,再在函數裡面加一個值的變化。現在我們不要直接學習函數,而是有一個粗略的值,這個粗略的值可能不是最精確的,但是學習的是它和真的函數之間的殘差。殘差學習最重要的突破在於重構了學習的過程,並重新定向了深層神經網絡中的信息流。
如果你看不懂上面所說的專業術語也沒有關係,其實這個技術的突破背後體現的是微軟在這個領域積澱已久的爆發,看了下面的幾個例子,大家也許能夠更清晰地了解計算機視覺所能帶來的改變。
上面這組圖片是微軟開發的一個圖片處理的小技術,它看起來似乎不太起眼,但卻充滿了技術含量。其中它用到了微軟亞洲研究院研究的基於暗原色先驗的圖像去霧技術實現了這一點。而這篇論文最終也獲得了 CVPR(國際計算機視覺與模式識別會議)最佳論文獎,而這也是首次由中國人獲得最佳論文獎。這篇論文研究的問題就是圖像的去霧技術,它可以還原圖像的顏色和能見度,同時也能利用霧的濃度來估計物體的距離,這些在計算機視覺上都有重要應用(例如三維重建,物體識別)。
Windows Hello 可能是很多 Surface 設備的用戶已經使用過的一項技術,它也是微軟在計算機視覺方面的代表作。事實上,在幾年前,微軟就在 Xbox 上推行了這項技術,但很多用戶都抱怨不穩定。但最終微軟解決了這個問題:
「後來我們發現一個方法——假如用紅外線的話,永遠是準的。為什麼呢?之所以不準不是因為算法的問題,而是視覺算法對光的敏感度很高,會受到光強弱的影響。紅外線的光就很穩定,不受這些光的影響。於是我們通過大量的實驗推出了 Windows Hello,它與 password 有一致的安全率。因為它的錯誤率低於 10 萬分之一,連雙胞胎都可以分辨出來。」
(能分清雙胞胎的 Windows Hello)
此外,在很多人都喜歡的存儲應用 OneDrive 中,計算機視覺也體現了很重要的價值,其中具體的表現就是「圖片識別」功能。該功能會自動為用戶上傳的照片創建標籤,比如人、狗、沙灘、落日等等,使用戶藉助標籤能夠更輕鬆地尋找到自己想要的圖片。輸入關鍵詞或標籤,就能搜索出心儀照片。
根據郭百寧博士的介紹,這個技術是利用微軟亞洲研究院實現的一種名為「空間金字塔聚合」(Spatial Pyramid Pooling,SPP)的新算法——通過內部特徵識別,而不是每個區域從頭檢測,對整個圖片只做一次計算,在不損失準確度的前提下,物體檢測速度有了上百倍的提升。
上面這些都是計算機視覺在具體應用中的一些表現。而如何才能將這些技術更廣泛地應用到我們的生活當中呢?微軟給出的方案就是微軟認知服務(Microsoft Cognitive Services)。
微軟認知服務集合了多種來自 Bing、「微軟牛津計劃」等項目的智能 API。應用了這些 API 的系統能看、能聽、能說話,並且能理解和解讀我們通過自然交流所傳達的需求。同時,服務中所包含的知識 API 可以通過強大的網際網路來助力廣大開發者。藉助微軟認知服務,開發者們就算沒有人工智慧的知識背景也能輕鬆開發出屬於自己的智能應用。目前這套認知服務包括視覺、語音、語言、知識和搜索五大類共二十一項 API。有了那些 API 之後,開發者就不需要自己再花很多時間去開發這個技術了,直接用幾行 Code 就可以調用並生成 App。下面這些應用都是基於視覺類 API 生成的。
(微軟牛津計劃的代表作之一:情緒識別)
在談到未來的計劃時,作為微軟亞洲研究院的常務副院長,郭百寧博士向我們透露了未來微軟亞洲研究院在計算機視覺領域的兩大的發力方向:人臉和視頻。
「我們認為一張圖的重點就是人,人最重要的就是臉。現在人臉做得已經很好了,但還要繼續做好。」對於人臉方面的研究,郭百寧博士如此說道。
而對於視頻方面,他則認為現在遍布各處的視頻攝像頭就已經顯示了這個領域的重要性,在未來,機器將要負責越來越多攝像頭,其中在社會安全領域就有很多的商機存在,也有很多應用問題值得研究。
但話到最後,究竟計算機視覺能給人類帶來多大的改變,恐怕沒有比下面這個視頻更好的範例了。讓看得見的人看得更清楚、更明白,讓看不見的人能看見,這或許就是計算機視覺能給人類帶來的改變吧。