在今日大數據熱潮中,重新煥發青春的神經網絡、模式識別、機器學習和人工智慧都始於20世紀50年代。1957年美國海軍研究室弗蘭克·羅森布拉特(Frank Rosenblatt)提出了一種模擬神經元感知、有識別智能的數學模型:感知器(Perceptron)。這個能夠在線學習、具有圖像識別功能的原型在計算機模擬試驗後,有了硬體實現—「 Mark 1 Perceptron」(包括400個光學傳感器,用變阻器作為電導的權重,被隨機連接到一組「神經元」)。每個神經元電路對應於一個視覺的判斷,神經元匯合傳感來的電流,以是否超過域值輸出來進行邏輯判斷。該感知器可以通過樣本來學習,在訓練中根據誤差的反饋,用馬達調節變阻器來改變神經元中聯接的權重。這是一個只有輸入輸出、無隱含層的人工神經元網絡。該網絡有n個傳感器的輸入,每個神經元都是通過在數學上實現一個n維空間的超平面來區分樣本點的模型。其學習的過程是用迭代的算法調節這個超平面的參數,使得它對樣本區分的誤差最小。這實際上也是一種統計分類,其收斂的算法成為模式識別中線性分類法的基礎。這也是認知、心理和智能研究上聯結主義的開端。
1958年,在由美國海軍組織的發布會上,羅森布拉特公布了此項研究成果。這個在當時還是雛形的人工智慧社區引發了人們的熱烈討論和廣泛聯想。《紐約時報》報導說:「感知器將會是能夠行走、會交談、有視覺、能寫作、自我繁殖、感知自身存在的電腦胚胎。」這種智能基於感知和聯想,可以對輸入的數據進行學習分類和類比判斷,是一種模擬動物本能和應用經驗的方式。
在隨後的年代裡,人們很快發現了它的局限性。對於許多模式,感知器並不能通過訓練來分辨。比如,在二維平面裡的一、三象限上同屬一類的點與二、四象限上屬另一類的點無法用一條直線劃分,這意味著感知器不能識別異或邏輯(XOR)的模式。研究的熱情在失望中逐漸消退。1969年,當時人工智慧界的領軍人物馬文·明斯基(Marvin Minsky)和西蒙·派珀特(Seymour Papert)在《感知器》(Perceptrons)一書中總結道:感知器神經網絡只能區分線性可分的模式,它甚至不能學習簡單的異或邏輯。儘管這對於多層網絡來說並非如此,其後也有人發表了關於多層網絡的異或邏輯實現的研究,但由於人們已被新的人工智慧研究方向所吸引,使得感知器已成昨日黃花,因此大家都認為明斯基權威的論斷終結了人工神經元網絡的前途。這一方向的研究不幸停滯了十幾年,人工智慧研究由此轉入用邏輯的方法來搜索推理知識的軌道。
正當人們對感知器失望之時,費根鮑姆(Feigenbaum)的DENDRAL專家系統和指導性論文出現了,對智能的模擬採用了種與以往完全不同的思路。它根據給定的有機化合物分子式和質譜圖數據,在保存了化學和質譜儀知識的資料庫中,利用邏輯推理的方法,從幾千種可能的組合中挑選出正確的分子結構。這是一個能產生高端實用價值的計算機新用法。人們憬然有悟,為什麼我們不參考人類理性思考的方式,直接從成熟的知識系統中用邏輯來猜測搜索求解?經過幾百年發展而來的科學知識是一個巨大的寶藏,科學利用因果關係構造出一個可以理解的世界模型,以此發現許多規律。作為站在智慧高端的人類,我們不必再模仿生物的低級智能,僅需模仿人類的理性,以謂詞邏輯進行運算和啟發式搜尋,就可擁有高級的智慧。如同機械放大了人力,我們可以用計算機來提高推理能力。這個基於科學推理和知識系統的計算主義智能研究路線使得專家系統在二十世紀七八十年代成為人工智慧的代名詞。人們相信,實現具有人類智慧的機器只是一個工程問題。1981年,日本投入大量資金,雄心勃勃地開始了第五代計算機的研究。然而在長達十幾年的專家系統探索中,人們認識到有兩個根本問題無法繞過。一是交互問題,專家系統只能模擬人類深思熟慮的理性。對於機器人來說最需要的是感知、互動,而不是人類最無趣的抽象思維技能。二是規模擴展問題,想像中無限美好的前景,只限於較窄一類問題的專家諮詢,或小規模遊戲問題的演示;將證明過的原理應用於實踐中時,各種複雜因素的組合需要巨大的計算量,對比人類瞬間都能按直覺做出的判斷(例如識別人臉,穿過有家具的房間)等,這些對計算機來講則十分困難。80年代,人工智慧的主流研究雖然有一些商業應用,但思想上沉悶乏味,最終進入冬天。
科學研究的激情猶如新穎時裝的熱潮,各種不同的思路總要等到主流新奇窮盡、精彩衰竭之後才會引人注目。1982年,美國加州理工學院物理學家霍普菲爾德(J. J. Hopfield),在帶有隱含層的神經網絡上,用反向傳播(Back Propagation,BP)算法完成了異或邏輯的學習。他對學習算法收斂性的物理解釋直觀易懂,再次掀起了聯結主義智能的熱潮。其實多層神經網絡能夠實現異或邏輯,早在70年代就有研究論文。1974年保羅·韋伯司(Paul Werbos)給出了如何訓練一般網絡的BP學習算法,當時卻無人重視。直到80年代,BP算法才被戴維·魯姆哈特(David Rumelhart)、傑弗裡·欣頓(Geoffrey Hinton)、羅納德·威廉士(Ronald Williams)、戴維·帕克(David Parker)和雅恩·樂昆(Yann LeCun)重新發現。
單層的感知器只能辨識線性可分的模式。而具有隱含層(多層)的神經網絡能夠識別所有的邏輯模式,具有簡單鏈式法則的BP算法,為其奠定了學習算法的基礎。經此突破後,由於語音和手寫體字識別的市場需求以及硬體技術的成熟,到了90年代,對人類智能模仿的研究再次回到以模式識別為主的道路上。雖然BP算法在理論上適用於任意多層的神經網絡,但其誤差傳播的梯度會隨著層數的增加而擴散,易使非凸目標函數陷入局部穩定平衡點而無法提高效益,或「死記硬背」只記住樣本而不會類推的局面。所以,單純的BP算法只對淺層的網絡起到作用。為此,有許多研究集中在對多層神經網絡學習算法的改進上,出現了各種算法,如統計熱力學的模擬退火技術,用波爾茲曼模型說明趨於全局穩定的學習算法,模擬進化過程能迅速收斂的遺傳算法等。但是自80年代起的20年間,各種效率較高的模式識別模型(如向量機、Boosting等)也不過是與淺層神經網絡相似的數學模型。
淺層的神經網絡僅僅是具有簡單分類能力的低階智能。模式識別在技術上是利用特徵進行分類的,通常依賴於人工選擇辨識的特徵。這對於模糊特徵等複雜的情況具有極大的局限性。而人類的大腦甚至動物的大腦都具有深層的網絡結構,底層對感知信號進行特徵的抽象,高層對這些特徵進行歸納,並做進一步抽象,逐層辨識抽象,從而能夠分析複雜情況。學習的關鍵是如何將深層的潛力變成功能。在2006年欣頓(Hinton)等人發表深度習文章之前,對深層神經網絡的學習都未能在理論上有所突破。
如果把每層神經元的映射看成對輸入屬性的抽象,那麼採用某種反饋獎勵機制進行預先學習,就有可能在樣本中自動地聚合出一些屬性的抽象,而合適的抽象又能在後續樣本訓練中被強化,作為下一層模式識別所需要的特徵。這種預先學習是無監督學習,類似於人的智商悟性;有目標訓練的學習稱為監督學習,類似於上課學習。欣頓的創意是基於深信度網(Deep Belief Networks,DBN)的深度學習,在深層網絡中逐層採用無監督的預先學習和隨後的監督學習,從而提高學習效率。該方法在語音識別上獲得了很大的成功。另一方面,動物大腦在出生之始並非是同質通用的構造,其底層如視神經、聽覺神經都是由遺傳而得的分化結構。早在20世紀60年代休布爾(Hubel)和威賽爾(Wiesel)就發現貓腦皮層中獨特的網絡結構可以有效降低學習的複雜性,於是人們提出了卷積神經網絡(Convolutional Neural Networks,CNN)。具有局部連接和參數共享的卷積數學模型含有較少的參數和位移以及縮放扭曲等不變性,作為神經網絡的底層部分可以很容易地學習二維圖像特徵提取,用於直接輸入原始圖像的監督訓練。這種具有「先天」視覺底層結構的人工大腦很快就在圖像識別領域大放異彩。