編者按:本月初,在剛剛結束的NIPS 2017大會上Google的DeepMind團隊介紹了其最新的泛化強化學習算法AlphaZero。這種算法不僅會從零開始學會下圍棋、西洋棋和將棋等,而且只需學習不到一天的時間就能擊敗擊敗了李世石的AlphaGo,擊敗頂尖西洋棋程序Stockfish以及頂水平的級將棋程序 Elmo。西洋棋大師尼爾森說:「我一直在猜想如果一個比我們出色的物種登陸地球,然後向我們展示他們是如何下西洋棋的話會是什麼樣的。我感覺現在我知道了。」但在《Deep LearningPlaybook》作者Carlos E. Perez看來,這是他提出的複雜的邏輯思維可以通過直覺機器來完成的直接證據。AlphaZero的橫空出世,跨越了實現通用人工智慧的一道巨大鴻溝——「語義鴻溝」。Perez認為,這是AGI的一個極其難以實現的裡程碑事件,而且它到來之快已經遠遠超出了專家的估計。
現代文明以及披上技術的外衣導致了我們自身直覺的衰退。我們當中有很多人已經意識不到它的價值甚至完全忽略了它的存在。作為負責計算的基礎,直覺很容易會被視為離經叛道的做法而被摒棄。這種不合常規導致了許多研究人員忽視了它的潛能。
直覺思維是一種神聖的天賦,而理性思維是忠實的僕人。我們建立的社會卻尊崇僕人,把天賦涼到了一邊。
——阿爾伯特·愛因斯坦
我所從事的人工智慧研究是圍繞著一個想法進行的,即先進的認知機器會利用直覺作為其智能的基礎(參見:「人工直覺」)。我們自己人類的思想為通用智能提供了充足的證據。從根本上來說,人是直覺機器,我們的理性(以及意識)本身只是一種構建在基於直覺的機器基礎之上的模擬(參見「認知堆棧」)的層疊模擬。這與笛卡爾著名的「我思故我在」形成了鮮明對比,笛卡爾的說法意味著我們的理性思維是我們跟其他生物不同之所在。我們因此產生了需要(由邏輯機器推動的)邏輯和方法論的認識偏見。這確實是懷舊範的AI(GOFAI)試圖以形式邏輯為出發點解決智能問題失敗了幾十年的原因。
對於基於直覺的機器,其中一個反直覺的預言是「邏輯思維怎麼能從直覺機器裡冒出來呢?」自2012年以來,我們已經看到了深度學習技術取得了令人難以置信的進展。深度學習網絡就是直覺機器。這些系統學習通過利用歸納來進行推理(或做出預測)。深度學習系統已經能夠執行通常是給生物大腦準備的任務。大家所熟知的對於傳統計算來說難以執行的任務,比如面部和語音識別,就可以由這些機器來執行,而且做得比人還要好。
然而,深度學習網絡無法執行長除法等邏輯任務。人們不應該指望能夠教動物(比如說你的狗)學會加減法,更不用說乘法了。然而,人類的大腦卻能夠解決各種邏輯問題。那麼我們就不得不問,穴居人會乘法嗎?我們先進的邏輯認知能力是天生嗎?還是說這是由於我們先進文明的結果而學會這種能力的?
要實現更普遍的人工智慧需要跨越一道巨大的鴻溝,這道鴻溝就是所謂的「語義鴻溝」。我們如何才能把深度學習(近乎符號)系統與邏輯(符號)系統的能力融為一體呢?
人類思維能夠進行邏輯推理這樣的壯舉。如果我們的機制都是基於直覺的話,那我們的思維是怎麼做到的呢?在此我打算做個假設,假設我們沒有任何天生的邏輯機制。智人在我們存在於地球的短時間內演進出這種機制是不大可能的。因此,為了消除語義鴻溝,我們需要僅僅使用直覺的機制來加以彌合。這意味著我們不需要將邏輯要素跟直覺要素進行融合。我們只需要直覺組件即可。
因此,我們需要提供複雜的邏輯思維可以通過直覺機器來完成的充分證據。
AlphaZero帶給人的革命性啟示就在於此。AlphaZero是DeepMinds Go圍棋程序的最新版本。我之前寫過有關AlphaGo Zero(不是AlphaZero)的文章,裡面談到了它是如何從零開始學會掌握圍棋遊戲的(無需人類知識的情況下)。西方人從來都沒有下過圍棋,根本就不能理解它。所以DeepMind的AlphaGo Zero所取得的成就被埋沒了。我們不明白這項成就的重要性。然而,圍棋已經被認為是一種直覺遊戲。所以,一臺直覺機器(基於深度學習)能夠掌握這個遊戲多少算是不足為奇的。
不過令人吃驚的是DeepMind的新化身(AlphaZero)還會下西洋棋。這對於許多人來說當然不會感到太吃驚,因為從1996年IBM的DeepBlue擊敗了卡斯帕羅夫以來,西洋棋遊戲就已經被計算機「搞定」了。對於外行來說,AlphaZero只用了幾個小時就能從零開始掌握西洋棋未必算什麼特別。AlphaZero只下了100盤就擊敗了最好的西洋棋程序(Stockfish)也不算什麼。
真正值得注意的是AlphaZero在幹掉其更邏輯化的對手中是怎麼下棋的。為了讓你有所了解,下面我引用一下來自西洋棋圈的人對此的一些印象。
它用「類型B」,也就是類似人的方式而不是暴力破解手段來實現香農和圖靈所夢想的那種機器象棋。
——加裡·卡斯帕羅夫
我一直在猜想如果一個比我們出色的物種登陸地球,然後向我們展示他們是如何下西洋棋的話會是什麼樣的。我感覺現在我知道了。
——Peter Heine Nielsen(尼爾森)
它的下法不像人,也不像程序。而是用第三種方式,幾乎是外星人的下法。
——Demis Hassabis(DeepMind創始人,他西洋棋也玩得很好)
對於那些知道西洋棋怎麼下的人來說,最好是看看AlphaZero和Stockfish的比賽。你將會看到一個基於直覺的系統是如何幹掉一個用邏輯來思考的對手的(也就是不會拒絕能取得優勢的開局棋法的玩家)。
AlphaZero玩的是一種非常不同的西洋棋遊戲。為了獲得對對手的位置優勢,它願意犧牲一些棋子。 它玩的是一種西洋棋柔道,利用對手渴望取得立竿見影來實現自己的意圖。它讓對手陷入了西洋棋裡面的「強制被動(zugzwang)」 局面,也就是不管你怎麼下都會導致更糟糕的結果。它玩西洋棋似乎擁有更全局的視野,所有棋子都在以高度協調的方式進行移動。 AlphaGo zero玩的是,最大限度發揮了自身創造力的遊戲,而邏輯性思維的對手的眼光卻無法超越短期的利益。它下的西洋棋不僅是無法想像的,這在過去是要被放到顯著位置供眾人景仰的。
那篇關於AlphaZero的論文在最近結束的NIPS 2017大會上進行了介紹。這篇論文非常短,主體只有7頁的篇幅。這篇論文為AlphaZero確定下法而對棋局位置評估的內容範圍之大提供了有趣的詳細描述。
AlphaZero在下棋時每秒鐘只搜索8萬個位置,相比之下Stockfish的搜索量是7千萬個。
直覺機器評估所花費的時間比邏輯思維的對手少了1000倍。
你在這裡所見證的AlphaZero的一切驗證了我有關直覺機器及其進行邏輯推理的一個原創觀點。語義鴻溝就是這麼被填平的。這是一個極其困難的AGI裡程碑,卻被以創紀錄的速度實現了。我懷疑AI界的任何人都都沒有想到這樣的進展能夠如此迅速就實現了。但現在就發生了這樣的事情,整個版圖已經被徹底改變。
原文連結:https://medium.com/intuitionmachine/alphazero-how-intuition-demolished-logic-66a4841e6810
編譯組出品。編輯:郝鵬程。