你一定還記得《流浪地球》中,
以冷靜理智賺足了觀眾眼球的人工智慧MOSS吧?
MOSS的一句「劉培強中校,請回到休眠倉休眠」開啟了整部影片人與人工智慧對抗的緊張氣氛。
雖然MOSS看起來很強大,擁有自主意識,但其實,MOSS這個強人工智慧也是首先基於人臉識別技術來進行決策的。
OSS在電影中的鏡頭
(圖片來源於網絡)
那人臉識別技術現在只出現在科幻當中嗎?當然不是。
歌神張學友的演唱會上,警方利用人臉識別技術抓逃犯共計55人。
歌神:「我為人臉識別技術代言,為自己鼓掌。」
唱會人臉識別安檢系統
(圖片來源於網絡)
這不禁激起了小編對人臉識別技術的崇拜,也讓小編不禁產生了想要了解人臉識別的好奇心。
於是,小編特意採訪了人工智慧方面的有關專家,寫下這篇科普文。
故事還要從人的大腦是如何進行人臉識別開始說起……
人的視覺系統工作原理
在了解人臉識別技術之前,首先我們需要知道人腦是如何進行人臉識別的。
眼睛的視網膜上密密麻麻的排列著大量視覺細胞,從瞳孔進來的光線被投射到這些細胞上,引起它們的興奮,這就是感受野(receptive filed)。感受野興奮值越大,表明感受到的光越亮。單個細胞的感知範圍是很小的,也就是說,它只能看到一丁點大的地方。但是所有細胞集合起來,就能感知到很大的範圍。下圖是人眼剖面圖:
人眼剖面圖
(圖片翻譯自Simple Anatomy of the Retina,2019 Webvision)
那麼視覺細胞產生的神經興奮是如何被傳到大腦中進行處理的呢?
拓展閱讀:視覺神經科學(Visual Neuroscience)對於視覺機理的研究驗證了動物大腦的視覺皮層具有分層結構。目前也已經證明,視覺皮層具有層次結構。從視網膜傳來的信號首先到達初級視覺皮層(primary visual cortex),即V1皮層。V1皮層簡單神經元對一些細節、特定方向的圖像信號敏感。V1皮層處理之後,將信號傳導到V2皮層。V2皮層將邊緣和輪廓信息表示成簡單形狀,然後由V4皮層中的神經元進行處理,它對顏色信息敏感。複雜物體最終在IT皮層(inferior temporal cortex)被表示出來。
神經網絡示意簡圖
(圖片翻譯自Principles of Neural Science)
通過上述拓展閱讀和圖片,我們可以發現大腦也是層級森嚴的。以行政體系來類比,一個「縣長」神經元負責從一批視覺細胞收集信號,然後若干個「縣長」神經元把自己的輸入進行總結,匯報給上級的「市長」神經元,再匯報給「省長」神經元。從「縣長」到「省長」,他們拿到的關於光的信息有著越來越大的範圍,一個「省長」神經元能看到更大的區域,因此可以做一些簡單抽象概念的判斷,比如是否發現了圓、線條等。信息就這麼逐級匯報到最終的高級皮層區域,裡面的神經元可以判斷眼睛是否看到了人臉,而這個人臉又有著什麼特徵。
人臉識別的工作原理
(一)在AI的眼中,表情包長什麼樣?
AI的眼睛其實是攝像頭。電子圖片是按照一個像素一個像素來存儲的。比如下面的圖片,大致是一個32x32的解析度。每一個小方格,都對應著3個數字,分別表示RGB(紅綠藍)三個顏色通道的亮度,數值範圍通常在0-255之間。當然如果是黑白圖片,就不需要三個顏色通道,而只用一個通道了。AI在做人臉識別的時候,第一眼看到的其實就是如下圖所示的「數字矩陣」。所以,在AI的眼中,表情包就是一串數字。
AI識別的表情包的數字矩陣
(圖片來源於網絡)
(二)AI怎麼模擬人類的神經元?
人類的神經元大體上長這樣:
人類神經元(樹突與軸突)
(圖片來源於維基百科)
神經元有兩個關鍵部位:
l 樹突(左邊):很多很多短的小樹杈,用於接收信號。
l 軸突(右邊):一根長長的樹杈,用於輸出信號。
通常,「市長」的樹突連著很多「縣長」的軸突,從它們那收集信號。而自己的軸突,連著自己匯報的「省長」的樹突,把處理過的信號傳遞上去。
整個過程從機理上看並不複雜,用一個簡單的數學模型就可以模擬,這個數學模型叫MP神經元,長的如下圖。
MP神經元數學模型
(圖片來源於學術論文,Warren McCulloch和Walter Pitts,1943)
我們試著解釋一下:左邊的每個「縣長」神經元報上來一個數字,乘以它對應的權重,加起來得到一個總數。當然,「市長」神經元要對這個總數進行某種處理,再匯報給「省長」。不過在一些學者的建模裡也允許把這個總數直接匯報給上級。所以,AI是用數學模型MP神經元來模擬人類神經元的。下表是生物神經元和MP神經元的對照。
生物神經元和MP神經元對照表
(三)人工神經元有什麼用?
有了一個模擬出來的人工神經元,會有什麼用呢?當然是複製很多很多份,然後按照一定的層次結構連起來,變成一個人工神經網絡。當我們連上幾千萬的神經元之後,就已經可以模擬人腦了。看下面的這個圖,只要神經元有特定的連接方式,就可以很好的模擬視覺皮層的人臉識別功能(小編偷偷告訴你:實際上,人工智慧領域每年發表的數以萬計的paper大部分是在提出新的連接結構,並絞盡腦汁用實驗證明自己的結構有用。)
人工神經網絡與人腦神經網絡的比對
(圖片翻譯自學術論文,Yamins D L K , Dicarlo J J .2016)
(四)人工神經網絡長得和機器人一樣嗎?
想知道一個簡單的神經網絡長什麼樣嗎?下圖就給大家展示一個。在這張圖中,每一個小圓圈是一個人工神經元,一層一層連起來。最後一層有輸出,也是一些數字。我們根據這些數字就可以判斷是不是人臉了(比如,輸出大於0,就認為檢測到了人臉)。如果想知道具體是誰的臉,就要更多的輸出神經元和一些特定的檢索技術,這裡就不展開了。
人工神經網絡
(圖片來源於學術論文,Shaker A, Ali A H, Hamed M, et al.2015)
其實上述就是當前被人們熟知和熱炒的人工智慧真正的長相。人工智慧並不是一個機器人,而是一種人工神經元連接方式,再用大量的計算機做數學計算,就能完成一個智能任務(人臉識別)。
其實小編和大家一樣,想通過了解這些技術細節來判斷現在有和MOSS一樣厲害的人工智慧出現嗎?其實MOSS基本可以判定為強人工智慧的範疇,現在的人工智慧還都只是弱人工智慧階段。強人工智慧涉及到哲學、生理學、機械學等多學科的開放問題,至今還沒有令人滿意的實質進展。所以看到這,你可以長長的舒口氣了。
此時小編突然想起MOSS在電影中的最後一句話:「讓人類永遠保持理智,確實是一種奢求」。
顫抖吧,人類……
參考文獻:
[1] Kandel, Eric R., James H. Schwartz, and Thomas M. Jessell. "25." Principles of Neural Science. 5th ed. New York: McGraw-Hill, Health Professions Division, 2013. 556-76. Print.
[2] Kandel, Eric R., James H. Schwartz, and Thomas M. Jessell. "27." Principles of Neural Science. 5th ed. New York: McGraw-Hill, Health Professions Division, 2013. 602-20. Print.
[3] Kolb H. Simple Anatomy of the Retina. 2005 May 1 [Updated 2012 Jan 31]. In: Kolb H, Fernandez E, Nelson R, editors. Webvision: The Organization of the Retina and Visual System [Internet]. Salt Lake City (UT): University of Utah Health Sciences Center; 1995
[4] 拓展閱讀來源於知乎文章:《卷積神經網絡為什麼能稱霸計算機視覺領域? 》
[5] Shaker A, Ali A H, Hamed M, et al. ASSESSMENT OF ARTIFICIAL NEURAL NETWORK FOR BATHYMETRY ESTIMATION USING HIGH RESOLUTION SATELLITE IMAGERY IN SHALLOW LAKES: CASE STUDY EL BURULLUS LAKE[J]. 2015.
中國科學技術館展覽教育中心辛尤隆供稿