1984年,Breiman和Friedman提出決策樹算法,作為一個預測模型,代表的是對象屬性與對象值之間的一種映射關係。1995年,Vapnik和Cortes提出支持向量機(SVM),用一個分類超平面將樣本分開從而達到分類效果。這種監督式學習的方法,可廣泛地應用於統計分類以及回歸分析。鑑於SVM強大的理論地位和實證結果,機器學習研究也自此分為神經網絡和SVM兩派。1997年,Freund和Schapire提出了另一個堅實的ML模型AdaBoost,該算法最大的特點在於組合弱分類器形成強分類器,在臉部識別和檢測方面應用很廣。2001年,Breiman提出可以將多個決策樹組合成為隨機森林,它可以處理大量輸入變量,學習過程快,準確度高。隨著該方法的提出,SVM在許多之前由神經網絡佔據的任務中獲得了更好的效果,神經網絡已無力和SVM競爭。之後雖然深度學習的興起給神經網絡帶來了第二春,使其在圖像、語音、NLP等領域都取得了領先成果,但這並不意味著其他機器學習流派的終結。深度神經網絡所需的訓練成本、調參複雜度等問題仍備受詬病,SVM則因其簡單性佔據了一席之地,在文本處理、圖像處理、網頁搜索、金融徵信等領域仍有著廣泛應用。
另一個重要領域是強化學習,這個因AlphaGo而為人所熟知的概念,從60年代誕生以來,一直不溫不火地發展著,直到在AlphaGo中與深度學習的創造性結合讓它重獲新生。
1967年,Samuel發明的下棋程序是強化學習的最早應用雛形。但在六七十年代,人們對強化學習的研究與監督學習、模式識別等問題混淆在一起,導致進展緩慢。進入80年代後,隨著對神經網絡的研究取得進展以及基礎設施的完善,強化學習的研究再現高潮。1983年,Barto通過強化學習使倒立擺維持了較長時間。另一位強化學習大牛Sutton也提出了強化學習的幾個主要算法,包括1984年提出的AHC算法,之後又在1988年提出TD方法。1989年,Watkins提出著名的Q-learning算法。隨著幾個重要算法被提出,到了90年代,強化學習已逐漸發展成為機器學習領域的一個重要組成部分。
最新也是最大的一個裡程碑事件出現在2016年,谷歌旗下DeepMind公司的David Silver創新性地將深度學習和強化學習結合在了一起,打造出圍棋軟體AlphaGo,接連戰勝李世石、柯潔等一眾世界圍棋冠軍,展現了強化學習的巨大威力。
技術方向的發展

計算機視覺
「看」是人類與生俱來的能力。剛出生的嬰兒只需要幾天的時間就能學會模仿父母的表情,人們能從複雜結構的圖片中找到關注重點、在昏暗的環境下認出熟人。隨著人工智慧的發展,機器也試圖在這項能力上匹敵甚至超越人類。
計算機視覺的歷史可以追溯到1966年,人工智慧學家Minsky在給學生布置的作業中,要求學生通過編寫一個程序讓計算機告訴我們它通過攝像頭看到了什麼,這也被認為是計算機視覺最早的任務描述。到了七八十年代,隨著現代電子計算機的出現,計算機視覺技術也初步萌芽。人們開始嘗試讓計算機回答出它看到了什麼東西,於是首先想到的是從人類看東西的方法中獲得借鑑。借鑑之一是當時人們普遍認為,人類能看到並理解事物,是因為人類通過兩隻眼睛可以立體地觀察事物。因此要想讓計算機理解它所看到的圖像,必須先將事物的三維結構從二維的圖像中恢復出來,這就是所謂的「三維重構」的方法。借鑑之二是人們認為人之所以能識別出一個蘋果,是因為人們已經知道了蘋果的先驗知識,比如蘋果是紅色的、圓的、表面光滑的,如果給機器也建立一個這樣的知識庫,讓機器將看到的圖像與庫裡的儲備知識進行匹配,是否可以讓機器識別乃至理解它所看到的東西呢,這是所謂的「先驗知識庫」的方法。這一階段的應用主要是一些光學字符識別、工件識別、顯微/航空圖片的識別等等。
到了90年代,計算機視覺技術取得了更大的發展,也開始廣泛應用於工業領域。一方面是由於GPU、DSP等圖像處理硬體技術有了飛速進步;另一方面是人們也開始嘗試不同的算法,包括統計方法和局部特徵描述符的引入。在「先驗知識庫」的方法中,事物的形狀、顏色、表面紋理等特徵受到視角和觀察環境的影響,在不同角度、不同光線、不同遮擋的情況下會產生變化。因此,人們找到了一種方法,通過局部特徵的識別來判斷事物,通過對事物建立一個局部特徵索引,即使視角或觀察環境發生變化,也能比較準確地匹配上。

進入21世紀,得益於網際網路興起和數位相機出現帶來的海量數據,加之機器學習方法的廣泛應用,計算機視覺發展迅速。以往許多基於規則的處理方式,都被機器學習所替代,自動從海量數據中總結歸納物體的特徵,然後進行識別和判斷。這一階段湧現出了非常多的應用,包括典型的相機人臉檢測、安防人臉識別、車牌識別等等。數據的積累還誕生了許多評測數據集,比如權威的人臉識別和人臉比對識別的平臺——FDDB和LFW等,其中最有影響力的是ImageNet,包含1400萬張已標註的圖片,劃分在上萬個類別裡。
到了2010年以後,藉助於深度學習的力量,計算機視覺技術得到了爆發增長,實現了產業化。通過深度神經網絡,各類視覺相關任務的識別精度都得到了大幅提升。在全球最權威的計算機視覺競賽ILSVR(ImageNet Large Scale Visual Recognition Competition)上,千類物體識別Top-5錯誤率在2010年和2011年時分別為28.2%和25.8%,從2012年引入深度學習之後,後續4年分別為16.4%、11.7%、6.7%、3.7%,出現了顯著突破。由於效果的提升,計算機視覺技術的應用場景也快速擴展,除了在比較成熟的安防領域應用外,也應用於金融領域的人臉識別身份驗證、電商領域的商品拍照搜索、醫療領域的智能影像診斷、機器人/無人車上作為視覺輸入系統等,包括許多有意思的場景:照片自動分類(圖像識別+分類)、圖像描述生成(圖像識別+理解)等等。
語音技術

語言交流是人類最直接最簡潔的交流方式。長久以來,讓機器學會「聽」和「說」,實現與人類的無障礙交流一直是人工智慧、人機互動領域的一大夢想。
早在電子計算機出現之前,人們就有了讓機器識別語音的夢想。1920年生產的「Radio Rex」玩具狗可能是世界上最早的語音識別器,當有人喊「Rex」的時候,這隻狗能夠從底座上彈出來。但實際上它所用到的技術並不是真正的語音識別,而是通過一個彈簧,這個彈簧在接收到500赫茲的聲音時會自動釋放,而500赫茲恰好是人們喊出「Rex」中元音的第一個共振峰。第一個真正基於電子計算機的語音識別系統出現在1952年,AT&T貝爾實驗室開發了一款名為Audrey的語音識別系統,能夠識別10個英文數字,正確率高達98%。70年代開始出現了大規模的語音識別研究,但當時的技術還處於萌芽階段,停留在對孤立詞、小詞彙量句子的識別上。