棋類大師 AlphaZero 無師自通,「通用人工智慧」加速到來?

2020-12-05 36氪

編者按:本月初,在剛剛結束的NIPS 2017大會上Google的DeepMind團隊介紹了其最新的泛化強化學習算法AlphaZero。這種算法不僅會從零開始學會下圍棋、西洋棋和將棋等,而且只需學習不到一天的時間就能擊敗擊敗了李世石的AlphaGo,擊敗頂尖西洋棋程序Stockfish以及頂水平的級將棋程序 Elmo。西洋棋大師尼爾森說:「我一直在猜想如果一個比我們出色的物種登陸地球,然後向我們展示他們是如何下西洋棋的話會是什麼樣的。我感覺現在我知道了。」但在《Deep LearningPlaybook》作者Carlos E. Perez看來,這是他提出的複雜的邏輯思維可以通過直覺機器來完成的直接證據。AlphaZero的橫空出世,跨越了實現通用人工智慧的一道巨大鴻溝——「語義鴻溝」。Perez認為,這是AGI的一個極其難以實現的裡程碑事件,而且它到來之快已經遠遠超出了專家的估計。

現代文明以及披上技術的外衣導致了我們自身直覺的衰退。我們當中有很多人已經意識不到它的價值甚至完全忽略了它的存在。作為負責計算的基礎,直覺很容易會被視為離經叛道的做法而被摒棄。這種不合常規導致了許多研究人員忽視了它的潛能。

直覺思維是一種神聖的天賦,而理性思維是忠實的僕人。我們建立的社會卻尊崇僕人,把天賦涼到了一邊。

——阿爾伯特·愛因斯坦

我所從事的人工智慧研究是圍繞著一個想法進行的,即先進的認知機器會利用直覺作為其智能的基礎(參見:「人工直覺」)。我們自己人類的思想為通用智能提供了充足的證據。從根本上來說,人是直覺機器,我們的理性(以及意識)本身只是一種構建在基於直覺的機器基礎之上的模擬(參見「認知堆棧」)的層疊模擬。這與笛卡爾著名的「我思故我在」形成了鮮明對比,笛卡爾的說法意味著我們的理性思維是我們跟其他生物不同之所在。我們因此產生了需要(由邏輯機器推動的)邏輯和方法論的認識偏見。這確實是懷舊範的AI(GOFAI)試圖以形式邏輯為出發點解決智能問題失敗了幾十年的原因。

對於基於直覺的機器,其中一個反直覺的預言是「邏輯思維怎麼能從直覺機器裡冒出來呢?」自2012年以來,我們已經看到了深度學習技術取得了令人難以置信的進展。深度學習網絡就是直覺機器。這些系統學習通過利用歸納來進行推理(或做出預測)。深度學習系統已經能夠執行通常是給生物大腦準備的任務。大家所熟知的對於傳統計算來說難以執行的任務,比如面部和語音識別,就可以由這些機器來執行,而且做得比人還要好。

然而,深度學習網絡無法執行長除法等邏輯任務。人們不應該指望能夠教動物(比如說你的狗)學會加減法,更不用說乘法了。然而,人類的大腦卻能夠解決各種邏輯問題。那麼我們就不得不問,穴居人會乘法嗎?我們先進的邏輯認知能力是天生嗎?還是說這是由於我們先進文明的結果而學會這種能力的?

要實現更普遍的人工智慧需要跨越一道巨大的鴻溝,這道鴻溝就是所謂的「語義鴻溝」。我們如何才能把深度學習(近乎符號)系統與邏輯(符號)系統的能力融為一體呢?

人類思維能夠進行邏輯推理這樣的壯舉。如果我們的機制都是基於直覺的話,那我們的思維是怎麼做到的呢?在此我打算做個假設,假設我們沒有任何天生的邏輯機制。智人在我們存在於地球的短時間內演進出這種機制是不大可能的。因此,為了消除語義鴻溝,我們需要僅僅使用直覺的機制來加以彌合。這意味著我們不需要將邏輯要素跟直覺要素進行融合。我們只需要直覺組件即可。

因此,我們需要提供複雜的邏輯思維可以通過直覺機器來完成的充分證據。

AlphaZero帶給人的革命性啟示就在於此。AlphaZero是DeepMinds Go圍棋程序的最新版本。我之前寫過有關AlphaGo Zero(不是AlphaZero)的文章,裡面談到了它是如何從零開始學會掌握圍棋遊戲的(無需人類知識的情況下)。西方人從來都沒有下過圍棋,根本就不能理解它。所以DeepMind的AlphaGo Zero所取得的成就被埋沒了。我們不明白這項成就的重要性。然而,圍棋已經被認為是一種直覺遊戲。所以,一臺直覺機器(基於深度學習)能夠掌握這個遊戲多少算是不足為奇的。

不過令人吃驚的是DeepMind的新化身(AlphaZero)還會下西洋棋。這對於許多人來說當然不會感到太吃驚,因為從1996年IBM的DeepBlue擊敗了卡斯帕羅夫以來,西洋棋遊戲就已經被計算機「搞定」了。對於外行來說,AlphaZero只用了幾個小時就能從零開始掌握西洋棋未必算什麼特別。AlphaZero只下了100盤就擊敗了最好的西洋棋程序(Stockfish)也不算什麼。

真正值得注意的是AlphaZero在幹掉其更邏輯化的對手中是怎麼下棋的。為了讓你有所了解,下面我引用一下來自西洋棋圈的人對此的一些印象。

它用「類型B」,也就是類似人的方式而不是暴力破解手段來實現香農和圖靈所夢想的那種機器象棋。

——加裡·卡斯帕羅夫

我一直在猜想如果一個比我們出色的物種登陸地球,然後向我們展示他們是如何下西洋棋的話會是什麼樣的。我感覺現在我知道了。

——Peter Heine Nielsen(尼爾森)

它的下法不像人,也不像程序。而是用第三種方式,幾乎是外星人的下法。

——Demis Hassabis(DeepMind創始人,他西洋棋也玩得很好)

對於那些知道西洋棋怎麼下的人來說,最好是看看AlphaZero和Stockfish的比賽。你將會看到一個基於直覺的系統是如何幹掉一個用邏輯來思考的對手的(也就是不會拒絕能取得優勢的開局棋法的玩家)。

AlphaZero玩的是一種非常不同的西洋棋遊戲。為了獲得對對手的位置優勢,它願意犧牲一些棋子。 它玩的是一種西洋棋柔道,利用對手渴望取得立竿見影來實現自己的意圖。它讓對手陷入了西洋棋裡面的「強制被動(zugzwang)」 局面,也就是不管你怎麼下都會導致更糟糕的結果。它玩西洋棋似乎擁有更全局的視野,所有棋子都在以高度協調的方式進行移動。 AlphaGo zero玩的是,最大限度發揮了自身創造力的遊戲,而邏輯性思維的對手的眼光卻無法超越短期的利益。它下的西洋棋不僅是無法想像的,這在過去是要被放到顯著位置供眾人景仰的。

那篇關於AlphaZero的論文在最近結束的NIPS 2017大會上進行了介紹。這篇論文非常短,主體只有7頁的篇幅。這篇論文為AlphaZero確定下法而對棋局位置評估的內容範圍之大提供了有趣的詳細描述。

AlphaZero在下棋時每秒鐘只搜索8萬個位置,相比之下Stockfish的搜索量是7千萬個。

直覺機器評估所花費的時間比邏輯思維的對手少了1000倍。

你在這裡所見證的AlphaZero的一切驗證了我有關直覺機器及其進行邏輯推理的一個原創觀點。語義鴻溝就是這麼被填平的。這是一個極其困難的AGI裡程碑,卻被以創紀錄的速度實現了。我懷疑AI界的任何人都都沒有想到這樣的進展能夠如此迅速就實現了。但現在就發生了這樣的事情,整個版圖已經被徹底改變。

原文連結:https://medium.com/intuitionmachine/alphazero-how-intuition-demolished-logic-66a4841e6810

編譯組出品。編輯:郝鵬程。

相關焦點

  • Science封面:AlphaZero達成終極進化體,史上最強棋類AI降臨!
    David Sliver、哈薩比斯等人親自撰文解讀這一棋類終極算法,以及實現通用學習系統的重要一步。史上最強棋類AI降臨!今天,DeepMind的通用棋類算法,也是迄今最強的棋類AI——AlphaZero,經過同行評議,被頂級期刊 Science 以封面論文的形式,正式引入學界和公眾的視野。
  • AlphaZero:從小白開始制霸多個遊戲
    西洋棋大師 Matthew Sadler 和 Natasha Reg 在他們即將出版的新書《Game Changer》(關於西洋棋的新書,將於 2019 年 1 月出版)中分析了數千場 AlphaZero 的西洋棋比賽。他們認為 AlphaZero 的棋風與任何傳統的棋類程序都不相同。
  • 通用棋類AI AlphaZero 8小時完勝象棋、將棋頂級程序
    在谷歌發起「尋找圍棋小先鋒」全國青少年圍棋推廣活動的2天之後,谷歌母公司旗下DeepMind團隊再次取得突破性成果,人類在棋類遊戲上或許已經無法挑戰人工智慧。繼今年10月在《自然》雜誌上發表論文正式推出人工智慧圍棋程序AlphaGo Zero後,Alphabet旗下機器學習子公司DeepMind團隊近日又發表論文稱,最新版本的 AlphaZero 在經過不到一天的訓練後,「令人信服地」打敗了西洋棋和日本將棋頂尖的電腦程式 。
  • 「重磅」AlphaZero煉成最強通用棋類AI,DeepMind強化學習算法8小時...
    新智元報導 由於是通用棋類AI,因此去掉了代表圍棋的英文「Go」,沒有使用人類知識,從零開始訓練,所以用Zero,兩相結合得到「AlphaZero」,這個新AI強在哪裡?新智元帶來全面解讀。其中,DeepMind團隊描述了一個通用棋類AI「AlphaZero」,在不同棋類遊戲中,戰勝了所有對手,而這些對手都是各自領域的頂級AI:戰勝最強西洋棋AI Stockfish:28勝,0負,72平;戰勝最強將棋AI Elmo:90勝,2平,8負;戰勝最強圍棋AI AlphaGo Zero:60勝,40
  • 史上最強棋類AI!AlphaZero「通殺」三大棋類世界冠軍 朝通用AI之路...
    大約一年前,DeepMind--谷歌母公司Alphabet旗下英國人工智慧部門--發布的預印本研究(《自學掌握象棋和將棋的通用強化學習算法但對我們來說,這實際上是建立一個通用學習系統的開始,這個系統可以自己學習,玩很多不同的遊戲,達到超人類的水平。AphaZero是這段旅程的下一步。它從零開始,打敗了Gi、西洋棋和將棋的世界冠軍項目。一開始,除了遊戲規則,它什麼都不知道。」Silver解釋說,之所以選擇這些遊戲,不僅是因為它們的複雜性,還因為之前關於它們的人工智慧研究有著豐富的歷史。
  • AlphaZero登上《科學》封面:一個算法通吃三大棋類
    12月7日,谷歌旗下的人工智慧實驗室DeepMind研究團隊在《科學》雜誌上發表封面論文,公布了通用算法AlphaZero和測試數據。《科學》雜誌評價稱,通過單一算法就能夠解決多個複雜問題,是創建通用的機器學習系統、解決實際問題的重要一步。
  • 揭秘谷歌 AlphaZero:從 AlphaGo 進化,如何通殺棋類遊戲
    導語:美國《紐約客》雜誌(The New Yorker)近日發表的文章揭秘谷歌旗下DeepMind最新公布的人工智慧AlphaZero。這個AI程序起源於在2016年名聲大噪的圍棋AI AlphaGo,而AlphaZero被應用於更多棋類遊戲中,取得了令人可喜的成就。
  • 解讀AlphaZero:一種人類從未見過的智慧
    這一成果震驚了西洋棋世界,幾個小時內,AlphaGo Zero就成為了世界上最好的棋類玩家。眾所周知,在西洋棋方面,IBM的深藍在20年前就打敗了西洋棋大師,而後續的Stockfish和Komodo這些西洋棋程序也早已獨霸西洋棋世界。在AlphaGo Zero發布之後,很多人質疑了其在西洋棋領域的價值。
  • AlphaZero學會控制量子計算機
    許多人知道,量子計算機是一種基於量子物理使用量子邏輯進行通用計算的設備。不同於電子計算機,量子計算用來存儲數據的對象是量子比特,它使用量子算法來進行數據操作。一個系統一次可以存在多個狀態。當翻譯成計算機語言時,這意味著量子計算機可以一次執行多個計算,這大大提高了計算速度。
  • AlphaZero登上《科學》封面:一個算法「通殺」三大棋,完整論文首次...
    論文描述了AlphaZero如何快速學習每個遊戲,如何從隨機對弈開始訓練,在沒有先驗知識、只知道基本規則的情況下,成為史上最強大的棋類人工智慧。《科學》雜誌評價稱,能夠解決多個複雜問題的單一算法,是創建通用機器學習系統,解決實際問題的重要一步。
  • AlphaZero問世:8小時完爆圍棋、西洋棋、日本將棋
    【網易智能訊12月7日消息】日前,DeepMind團隊發表了最新論文,提出了全新的強化學習算法AlphaZero,它是一種可以從零開始,通過自我對弈強化學習在多種任務上達到超越人類水平的新算法,堪稱「通用棋類AI」。
  • AlphaZero誕生一周年:登上Science封面,完整論文首次公開
    具體來說,DeepMind公開了完整評估後的AlphaZero,不僅回顧、驗證了之前的結果,還補充了新的提升:除了圍棋,AlphaZero自學了另外兩種複雜棋類遊戲——西洋棋和日本將棋。論文連結:http://science.sciencemag.org/content/362/6419/1140《Science》雜誌評價稱,能夠解決多個複雜問題的單一算法,是創建通用機器學習系統
  • 最強通用棋類AI,AlphaZero強化學習算法解讀
    https://carlos-aguayo.github.io/alphazero/有關AlphaZero的原理,你可以閱讀這篇由Silver,David等人撰寫的論文:「Mastering the game of Go without human knowledge」 nature 550.7676
  • 谷歌AlphaZero堪稱遊戲大師,但與人類頭腦比起來孰高孰低?
    谷歌的全新人工智慧程序AlphaZero通過自我學習在短時間內掌握了西洋棋、將棋與圍棋,並順利擊敗各個領域的頂尖AI棋手對於人類而言,西洋棋可能是那種需要投入終身才有可能精通的技藝。然而,谷歌DeepMind的全新人工智慧程序AlphaZero能夠在短時間內通過自我學習快速將其掌握。
  • AlphaZero降臨:8小時內拿下圍棋、西洋棋、日本將棋!
    但自那以後,這家Google旗下的人工智慧公司並沒有停止前進的腳步,又推出了實力更強的AlphaGo Zero,而他們的遠期目標是打造出通用的人工智慧機器。雖然這一目標尚顯遙遠,但根據本周DeepMind科學家發表的最新的論文來看,他們已經走在了正確的道路上。
  • 超越AlphaGo的AlphaZero出世
    據韓媒報導,超越圍棋人工智慧「AlphaGo」的「AlphaZero」已面世,「AlphaZero」圍棋的特點是在沒有教科書或棋譜的情況下,只要知道遊戲法則,就具備掌握所有棋類遊戲的能力。特別是以圍棋為對象,與「AlphaGo」不同的是一個算法可以適用於西洋棋、昭和(日本象棋)等其他棋類遊戲,是AI廣泛應用的重要裡程碑,因此備受期待。
  • 谷歌論文詳解AlphaZero:為西洋棋、將棋與圍棋帶來新曙光
    上周末,DeepMind 在《科學(Science)》期刊上發表了一篇通用強化學習算法論文(預印本PDF),得到了評審編輯的初步確認與更新。論文描述了 AlphaZero 如何快速學習三種棋類遊戲成為史上最強的棋手,儘管它僅了解遊戲基本規則而沒有其它該領域的知識、且無需任何內置指導。
  • AlphaZero制勝解讀,通用強化學習算法自我對弈 | 2分鐘論文
    本期論文:用通用強化學習算法自我對弈,掌握西洋棋和將棋Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm觀看論文解讀大概需要 6 分鐘回顧AlphaZero
  • 通用算法AlphaZero再攻克幾種棋又有何難!
    可定睛一看,這次的 AlphaZero 不是以前那個只會下圍棋的人工智慧了,它是通用的,西洋棋、日本象棋也會下,所以去掉了名字裡表示圍棋的「Go」;不僅如此,圍棋還下得比上次的 AlphaGo Zero 還要好——柯潔在得知 AlphaGo Zero 之後已經感嘆道人類是多餘的了,這次一眾圍棋選手可以牽著西洋棋選手們再痛哭一次了。