李開復、馬少平、周志華、田淵棟都是怎麼看AlphaGo Zero的?

2020-12-05 雷鋒網

雷鋒網 AI科技評論消息,北京時間10月19日凌晨,Deepmind在Nature上發布論文《Mastering the game of Go without human knowledge》(不使用人類知識掌握圍棋),在這篇論文中,Deepmind展示了他們更強大的新版本圍棋程序「AlphaGo Zero」,驗證了即使在像圍棋這樣最具挑戰性的領域,也可以通過純強化學習的方法自我完善達到目的。據介紹,AlphaGo Zero僅經過三天訓練,就能以100:0擊敗此前擊敗李世石的AlphaGo Lee,經過21天訓練,就能達到擊敗柯潔的AlphaGo Master的水平。

毫無疑問,這又一次引起了學界大牛的大討論,李開復、馬少平、田淵棟、周志華也紛紛發表言論。雷鋒網 AI科技評論將他們的觀點整合如下:

李開復:不要低估AI發展速度,正視中美學術差距

創新工場董事長李開復老師看到AlphaGo Zero的消息之後,短短兩句話總結了他的觀點:

一是AI前進的速度比想像中更快,即便是行業內的人士都被AlphaGo Zero跌破眼鏡;

二是要正視中國在人工智慧學術方面和英美的差距。

隨後,他又發表文章補充分享了對AlphaGo Zero的觀點。他表示,雖然AlphaGo Zero的技術革新並非適用於所有人工智慧領域,並且此次沒有新的巨大的理論突破,但這次它帶來的影響力也是巨大的。原文如下:

一方面,AlphaGo Zero的自主學習帶來的技術革新並非適用於所有人工智慧領域。圍棋是一種對弈遊戲,是信息透明,有明確結構,而且可用規則窮舉的。對弈之外,AlphaGo Zero的技術可能在其他領域應用,比如新材料開發,新藥的化學結構探索等,但這也需要時間驗證。而且語音識別、圖像識別、自然語音理解、無人駕駛等領域,數據是無法窮舉,也很難完全無中生有。AlphaGo Zero的技術可以降低數據需求(比如說WayMo的數據模擬),但是依然需要大量的數據。

另一方面,AlphaGo Zero裡面並沒有新的巨大的理論突破。它使用的Tabula Rosa learning(白板學習,不用人類知識),是以前的圍棋系統Crazy Stone最先使用的。AlphaGo Zero裡面最核心使用的技術ResNet,是微軟亞洲研究院的孫劍發明的。孫劍現任曠視科技Face++首席科學家。

雖然如此,這篇論文的影響力也是巨大的。AlphaGo Zero 能夠完美集成這些技術,本身就具有裡程碑意義。DeepMind的這一成果具有指向標意義,證明這個方向的可行性。

在科研工程領域,探索前所未知的方向是困難重重的,一旦有了可行性證明,跟隨者的風險就會巨幅下降。我相信從昨天開始,所有做圍棋對弈的研究人員都在開始學習或複製AlphaGo Zero。材料、醫療領域的很多研究員也開始探索。

AlphaGo Zero的工程和算法確實非常厲害。但千萬不要對此產生誤解,認為人工智慧是萬能的,所有人工智慧都可以無需人類經驗從零學習,得出人工智慧威脅論。AlphaGo Zero證明了AI 在快速發展,也驗證了英美的科研能力,讓我們看到在有些領域可以不用人類知識、人類數據、人類引導就做出頂級的突破。

但是,AlphaGo Zero只能在單一簡單領域應用,更不具有自主思考、設定目標、創意、自我意識。即便聰明如 AlphaGo Zero,也是在人類給下目標,做好數字優化而已。

馬少平:AlphaGo Zero已經將計算機圍棋做到極致,但也有其局限性

清華大學計算機系教授馬少平也在博客上評價了AlphaGo Zero,他表示AlphaGo Zero把計算機圍棋做到了極致,隨後將其與之前的版本進行了充分對比,另外,他也表示AlphaGo Zero有其應用局限性:

從早上開始,就被AlphaGo Zero的消息刷屏了,DeepMind公司最新的論文顯示,最新版本的AlphaGo,完全拋棄了人類棋譜,實現了從零開始學習。

對於棋類問題來說,在蒙特卡洛樹搜索的框架下,實現從零開始學習,我一直認為是可行的,也多次與別人討論這個問題,當今年初Master推出時,就曾預測這個新系統可能實現了從零開始學習,可惜根據DeepMind後來透露的消息,Master並沒有完全拋棄人類棋譜,而是在以前系統的基礎上,通過強化學習提高系統的水平,雖然人類棋譜的作用越來越弱,但是啟動還是學習了人類棋譜,並沒有實現「冷」啟動。

根據DeepMind透露的消息,AlphaGo Zero不但拋棄了人類棋譜,實現了從零開始學習,連以前使用的人類設計的特徵也拋棄了,直接用棋盤上的黑白棋作為輸入,可以說是把人類拋棄的徹徹底底,除了圍棋規則外,不使用人類的任何數據和知識了。僅通過3天訓練,就可以戰勝和李世石下棋時的AlphaGo,而經過40天的訓練後,則可以打敗與柯潔下棋時的AlphaGo了。

真是佩服DeepMind的這種「把革命進行到底」的作風,可以說是把計算機圍棋做到了極致。

那麼AlphaGo Zero與AlphaGo(用AlphaGo表示以前的版本)都有哪些主要的差別呢?

1、在訓練中不再依靠人類棋譜。AlphaGo在訓練中,先用人類棋譜進行訓練,然後再通過自我互博的方法自我提高。而AlphaGo Zero直接就採用自我互博的方式進行學習,在蒙特卡洛樹搜索的框架下,一點點提高自己的水平。

2、不再使用人工設計的特徵作為輸入。在AlphaGo中,輸入的是經過人工設計的特徵,每個落子位置,根據該點及其周圍的棋的類型(黑棋、白棋、空白等)組成不同的輸入模式。而AlphaGo Zero則直接把棋盤上的黑白棋作為輸入。這一點得益於後邊介紹的神經網絡結構的變化,使得神經網絡層數更深,提取特徵的能力更強。

3、將策略網絡和價值網絡合二為一。在AlphaGo中,使用的策略網絡和價值網絡是分開訓練的,但是兩個網絡的大部分結構是一樣的,只是輸出不同。在AlphaGo Zero中將這兩個網絡合併為一個,從輸入到中間幾層是共用的,只是後邊幾層到輸出層是分開的。並在損失函數中同時考慮了策略和價值兩個部分。這樣訓練起來應該會更快吧?

4、網絡結構採用殘差網絡,網絡深度更深。AlphaGo Zero在特徵提取層採用了多個殘差模塊,每個模塊包含2個卷積層,比之前用了12個卷積層的AlphaGo深度明顯增加,從而可以實現更好的特徵提取。

5、不再使用隨機模擬。在AlphaGo中,在蒙特卡洛樹搜索的過程中,要採用隨機模擬的方法計算棋局的勝率,而在AlphaGo Zero中不再使用隨機模擬的方法,完全依靠神經網絡的結果代替隨機模擬。這應該完全得益於價值網絡估值的準確性,也有效加快了搜索速度。

6、只用了4塊TPU訓練72小時就可以戰勝與李世石交手的AlphaGo。訓練40天後可以戰勝與柯潔交手的AlphaGo。

對於計算機圍棋來說,以上改進無疑是個重要的突破,但也要正確認識這些突破。比如,之所以可以實現從零開始學習,是因為棋類問題的特點所決定的,是個水到渠成的結果。因為棋類問題一個重要的特性就是可以讓機器自動判別最終結果的勝負,這樣才可以不用人類數據,自己實現產生數據,自我訓練,自我提高下棋水平。但是這種方式很難推廣到其他領域,不能認為人工智慧的數據問題就解決了。

周志華:啟發式搜索可能因此發生巨變

南京大學計算機系教授周志華在微博上也第一時間發表了他的觀點,從多個方面對Alphago Zero進行了評價。

花半小時看了下文章,說點個人淺見,未必正確僅供批評:

1、別幻想什麼無監督學習,監督信息來自精準規則,非常強的監督信息。

2、不再把圍棋當作從數據中學習的問題,回歸到啟發式搜索這個傳統棋類解決思路。這裡機器學習實質在解決搜索樹啟發式評分函數問題。

3、如果說深度學習能在模式識別應用中取代人工設計特徵,那麼這裡顯示出強化學習能在啟發式搜索中取代人工設計評分函數。這個意義重大。啟發式搜索這個人工智慧傳統領域可能因此巨變,或許不亞於模式識別計算機視覺領域因深度學習而產生的巨變。機器學習進一步蠶食其他人工智慧技術領域。

4、類似想法以往有,但常見於小規模問題。沒想到圍棋這種狀態空間巨大的問題其假設空間竟有強烈的結構,存在統一適用於任意多子局面的評價函數。巨大的狀態空間誘使我們自然放棄此等假設,所以這個嘗試相當大膽。

5、工程實現能力超級強,別人即便跳出盲點,以啟發式搜索界的工程能力也多半做不出來。

6、目前並非普適,只適用於狀態空間探索幾乎零成本且探索過程不影響假設空間的任務。

田淵棟:AlphaGo Zero 證明了從理論上理解深度學習算法的重要性

Facebook 人工智慧組研究員田淵棟也在知乎上發文闡述了他的觀點。他表示,這一方法將成為經典。在文中,他也闡述了此次有哪些震驚到他的地方,以及一些推論。

他的原文如下:

老實說這篇Nature要比上一篇好很多,方法非常乾淨標準,結果非常好,以後肯定是經典文章了。

Policy network和value network放在一起共享參數不是什麼新鮮事了,基本上現在的強化學習算法都這樣做了,包括我們這邊拿了去年第一名的Doom Bot,還有ELF裡面為了訓練微縮版星際而使用的網絡設計。另外我記得之前他們已經反覆提到用Value network對局面進行估值會更加穩定,所以最後用完全不用人工設計的default policy rollout也在情理之中。

讓我非常吃驚的是僅僅用了四百九十萬的自我對局,每步僅用1600的MCTS rollout,Zero就超過了去年三月份的水平。並且這些自我對局裡有很大一部分是完全瞎走的。這個數字相當有意思。想一想圍棋所有合法狀態的數量級是10^170(見Counting Legal Positions in Go:https://tromp.github.io/go/legal.html),五百萬局棋所能覆蓋的狀態數目也就是10^9這個數量級,這兩個數之間的比例比宇宙中所有原子的總數還要多得多。僅僅用這些樣本就能學得非常好,只能說明卷積神經網絡(CNN)的結構非常順應圍棋的走法,說句形象的話,這就相當於看了大英百科全書的第一個字母就能猜出其所有的內容。用ML的語言來說,CNN的inductive bias(模型的適用範圍)極其適合圍棋漂亮精緻的規則,所以稍微給點樣本水平就上去了。反觀人類棋譜有很多不自然的地方,CNN學得反而不快了。我們經常看見跑KGS或者GoGoD的時候,最後一兩個百分點費老大的勁,也許最後那點時間完全是花費在過擬合奇怪的招法上。

如果這個推理是對的話,那麼就有幾點推斷。

一是對這個結果不能過分樂觀。我們假設換一個問題(比如說protein folding),神經網絡不能很好擬合它而只能採用死記硬背的方法,那泛化能力就很弱,Self-play就不會有效果。事實上這也正是以前圍棋即使用Self-play都沒有太大進展的原因,大家用手調特徵加上線性分類器,模型不對路,就學不到太好的東西。一句話,重點不在左右互搏,重點在模型對路。

二是或許卷積神經網絡(CNN)系列算法在圍棋上的成功,不是因為它達到了圍棋之神的水平,而是因為人類棋手也是用CNN的方式去學棋去下棋,於是在同樣的道路上,或者說同樣的inductive bias下,計算機跑得比人類全體都快得多。假設有某種外星生物用RNN的方式學棋,換一種inductive bias,那它可能找到另一種(可能更強的)下棋方式。Zero用CNN及ResNet的框架在自學習過程中和人類世界中圍棋的演化有大量的相似點,在側面上印證了這個思路。在這點上來說,說窮盡了圍棋肯定是還早。

三就是更證明了在理論上理解深度學習算法的重要性。對於人類直覺能觸及到的問題,機器通過採用有相同或者相似的inductive bias結構的模型,可以去解決。但是人不知道它是如何做到的,所以除了反覆嘗試之外,人並不知道如何針對新問題的關鍵特性去改進它。如果能在理論上定量地理解深度學習在不同的數據分布上如何工作,那麼我相信到那時我們回頭看來,針對什麼問題,什麼數據,用什麼結構的模型會是很容易的事情。我堅信數據的結構是解開深度學習神奇效果的鑰匙。

另外推測一下為什麼要用MCTS而不用強化學習的其它方法(我不是DM的人,所以肯定只能推測了)。MCTS其實是在線規劃(online planning)的一種,從當前局面出發,以非參數方式估計局部Q函數,然後用局部Q函數估計去決定下一次rollout要怎麼走。既然是規劃,MCTS的限制就是得要知道環境的全部信息,及有完美的前向模型(forward model),這樣才能知道走完一步後是什麼狀態。圍棋因為規則固定,狀態清晰,有完美快速的前向模型,所以MCTS是個好的選擇。但要是用在Atari上的話,就得要在訓練算法中內置一個Atari模擬器,或者去學習一個前向模型(forward model),相比actor-critic或者policy gradient可以用當前狀態路徑就地取材,要麻煩得多。但如果能放進去那一定是好的,像Atari這樣的遊戲,要是大家用MCTS我覺得可能不用學policy直接當場planning就會有很好的效果。很多文章都沒比,因為比了就不好玩了。

另外,這篇文章看起來實現的難度和所需要的計算資源都比上一篇少很多,我相信過不了多久就會有人重複出來,到時候應該會有更多的insight。大家期待一下吧。

幾位大牛從各個方面,全方位對AlphaGo Zero進行了分析。看完這些分析的你,想必對AlphaGo Zero有了更深層次的理解。更多資訊敬請關注雷鋒網 AI科技評論。

相關焦點

  • 獨家| 專訪田淵棟:AlphaGo之後,研究智能圍棋還有什麼意義?
    近日,田淵棟受地平線曾經在Facebook的同事邀請,赴中國做了一期大牛講堂,分享了關於遊戲和增強學習等的話題。分享會後,AI科技評論採訪了田淵棟,就他為什麼離開Google無人駕駛團隊去Facebook人工智慧研究院,現在正在做的工作,如何平衡工作中理論和應用的比率,怎麼看待絕藝和AlphaGo的棋藝水平,怎麼看待智能圍棋的實用價值,接受了AI科技評論的採訪。以下是採訪正文。
  • 谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了
    谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了(圖片來自於推特)在這款軟體發出之後,柯潔也對這款軟體發表了自己的看法,他認為:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」之所以柯潔會這樣說,主要是因為AlphaGo Zero的練習主要是通過自我對弈在三十天之內發展起來的。
  • 獨家|專訪田淵棟:AlphaGo之後,研究智能圍棋還有什麼意義?
    近日,田淵棟受地平線曾經在Facebook的同事邀請,赴中國做了一期大牛講堂,分享了關於遊戲和增強學習等的話題。分享會後,AI科技評論採訪了田淵棟,就他為什麼離開Google無人駕駛團隊去Facebook人工智慧研究院,現在正在做的工作,如何平衡工作中理論和應用的比率,怎麼看待絕藝和AlphaGo的棋藝水平,怎麼看待智能圍棋的實用價值,接受了AI科技評論的採訪。以下是採訪正文。
  • 李開復:AlphaGo對決世界冠軍勝率僅1.1%
    不過,對於AlphaGo能夠在對決中勝出,李開復並不看好,他預測「AlphaGo這次的比賽打敗李世乭比較懸,但是1-2年之內必然完勝人類」。在李開復看來,AlphaGo之所以無法在9日的對決中戰勝李世乭,主要有三個原因。    首先,AlphaGo去年年底的Elo(圍棋等級分)是3168,而李世乭的Elo大約是3532,相差較大。李世乭每盤的勝算可以達到89%,AlphaGo只有1.1%。
  • DeeCamp2020大師課落幕,李開復、張亞勤等12位大師都講了什麼?
    過去六周,李開復、張亞勤、吳恩達、張宏江、俞敏洪、周志華等12位來自AI領域學術界、產業界的重量級嘉賓,為200餘名國內外頂尖高校的大學生,高密度分享了AI前沿理論、產業創新、行業發展、創業趨勢等領域的最新洞察。來自聯合國開發計劃署的官員則著眼全球,探討了科技在可持續發展中應扮演的重要角色。
  • 柯潔對戰AlphaGo李開復預測勝率幾乎為零
    對於這件事,創新工場李開複評價道,此次對決人類勝率幾乎為零。李開復指出,AlphaGo和柯潔的比賽並非沒有意義,而是在科學價值層面已經失去看點。(網體) (原標題:柯潔對戰AlphaGo李開復預測勝率幾乎為零)
  • 李開復預測AlphaGo對戰柯潔:人類勝率幾乎為零
    對於這件事,創新工場李開複評價道,此次對決人類勝率幾乎為零。李開復談AlphaGo對戰柯潔:人類勝率0%李開復說,AlphaGo和李世石的人機大戰是第一次,可能還有懸念,但是現在進化的AlphaGo和柯潔的人機大戰,不再擁有任何其他的可能。
  • AlphaGo Zero用40天成為世界最強圍棋AI
    棋士柯潔:一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了
  • zero 絕藝解說alphago - CSDN
    「過去所有版本的AlphaGo都從利用人類數據進行培訓開始,它們被告知人類高手在這個地方怎麼下,在另一個地方又怎麼下。」 DeepMind阿爾法狗項目負責人David Silver博士在一段採訪中介紹,「而阿爾法元不使用任何人類數據,完全是自我學習,從自我對弈中實踐。」
  • 周志華推薦國內首部人工智慧專業教育培養體系,網友:有點難
    雷鋒網(公眾號:雷鋒網) AI 科技評論按:昨日,南據介紹,該書籍是「基於南京大學人工智慧學院的主要學術帶頭人在人工智慧人才培養方面的教學改革項目,對人工智慧本科人才培養體系進行了梳理,匯集了以南京大學人工智慧學院院長周志華教授和書記武港山教授為代表的一批知名教授和專家對創辦一流大學人工智慧教育的深入思考,是國內外第一部公開出版和發表的人工智慧本科專業教育培養體系」,適合「全國高校人工智慧和智能科學與技術專業教師以及工業界關心人工智慧人才培養和教育的專業人士
  • AlphaGo Zero完全自學吊打老狗,人類數據沒用了?
    在阿爾法元之前,阿爾法狗家族幾次戰勝人類圍棋冠軍,都是從利用人類經驗開始的。他們的勝利建立在計算機海量學習人類棋譜的基礎之上,阿爾法狗再通過強化學習的監督學習進行幾個月的自我訓練。而阿爾法元則完全擺脫人類先驗經驗,除規則外,完全不藉助人類數據,從第一場遊戲開始,自我學習。
  • 謎之Zero自戰17-序章:AlphaGo Zero自戰上演精彩粘接收後
    眾所周知,zero的自戰譜,分為20block與40block兩塊,而當40block神功大成後,即可穩勝之前人類無法撼動的Master。因此在40block20局自戰中的第17局按此推算,應當是水準頗高。
  • 李開復:此次柯潔迎戰AlphaGo,人類勝率幾乎為零
    與保千裡展開深度合作的創新工場李開複評價道,「此次對決人類勝率幾乎為零。」  李開復指出,AlphaGo和柯潔的比賽並非沒有意義,而是在科學價值層面已經失去看點。  而作為當今棋壇的第一人,柯潔則更像人類獲勝的最後一絲希望,有料在「人工智慧又一裡程碑 人類勝算的概率可能超乎你的想像」中說過:面對人工智慧,已經節節敗退的人類,無疑更期待這場人機大戰,因為或許這將會是人機在圍棋領域的最後一戰,目前唯一的懸念只在人類到底能否贏一次AI?
  • 李開復:執行力比創造力更重要
    李開復:O2O領域,尤其是房地產、教育、汽車、招聘等都花了很多工夫;智能硬體;數字內容。   新京報:你們在數字內容最近有很多投資,為什麼看好這個市場?   李開復:我們認為這是國內發展的大趨勢,好的內容創業者,包括動漫、視頻、笑話漫畫等,會有一個獨特的價值鏈,中國會比國外更能快速推動網上數字內容。
  • 大前研一與李開復
    幾乎是同一時間,大前研一和李開復都來到臺北。  大前研一被英國「金融時報」譽為「亞洲唯一」的企管大師,李開復是Google全球副總裁兼中國區總裁,兩個人在各自專業領域都有著全球舉足輕重的地位,兩人都選擇了最傳統也最有效的方式—演講,來和讀者溝通。
  • Facebook 田淵棟:第四局AlphaGo 敗招的分析 ( 附前3場比賽勝率...
    按:本文作者田淵棟DarkForest沒有用到估值網絡,在L11的挖之後正確地返回了L12和L10這兩個應手,據李喆六段說,都是正確的應手,這間接支持了這個推斷。AlphaGo在87手之後才意識到自己已經大大落後,可能也是由於同樣的問題,比如說把右邊的黑大龍看成活的。那為什麼估值網絡會出問題呢?可能是用於訓練估值網絡的自學習(Self-Play)的樣本分布有盲點。
  • Facebook 田淵棟:第四局AlphaGo 敗招的分析 ( 附前3場比賽勝率分析)
    按:本文作者田淵棟,已獲授權。第四局李世石的78手L11挖被大家譽為「神之一手」,在DarkForest的策略網絡輸出裡排第31位,而J11靠排第10位。因此我覺得可能是AlphaGo沒有算到這一步。
  • AlphaGo Zero你也來造一隻,PyTorch實現五臟俱全| 附代碼
    節點 (Node)樹上的每一個節點,都代表一種不同的局勢,有不同的統計數據:每個節點被經過的次數n,總動作值w,經過這一點的先驗概率p,平均動作值q (q=w/n) ,還有從別處來到這個節點走的那一步,以及從這個節點出發、所有可能的下一步。
  • 【NIPS2017】你也可以成為遊戲高手,Facebook FAIR實驗室田淵棟研究員PPT詳解(附下載)
    凡是有C++操作接口的遊戲,都可以接入到這個框架中,用個人開發的人工智慧算法來操縱競技.為了方便研究,項目中還有一個Mini-RTS的遊戲,其實是一個迷你版的星際爭霸,地圖和兵種都進行了簡化,是很好的平臺和起點。另外,ELF 還有一個純淨的 Python 用戶界面,提供了一批可供訓練的遊戲狀態。
  • AlphaGo 圍棋教學工具已發布
    在Deepmind所謂的「教學工具」發布之前,小編曾在腦海出現萬千猜想……但今天揭底才知道,原來只是一個平平淡淡的網頁……(建議複製到電腦上打開,因為據有的棋友反映手機打不開,小編這裡實測手機能打開,只是讀取了較長時間)https://alphagoteach.deepmind.com