zero 絕藝解說alphago - CSDN

2020-11-22 CSDN技術社區

 Alphago家族又添新成員

  來源:環球科學ScientificAmerican公眾號

  策劃 | 吳非    繪製 | 鐵蛋公主

  專家評Alphago Zero 成績令人欣喜但AI還在路上

  Alphago進步速度示意圖

  作者:葛熔金

  在金庸的小說《射鵰英雄傳》裡,周伯通「左手畫圓,右手畫方」,左手攻擊右手,右手及時反搏,自娛自樂,終無敵於天下。

  現實世界中,亦有這麼一個「幼童」,他沒見過一個棋譜,也沒有得到一個人指點,從零開始,自娛自樂,自己參悟,用了僅僅40天,便稱霸圍棋武林。

  這個「幼童」,叫阿爾法元(AlphaGo Zero),就是今年5月在烏鎮圍棋峰會上打敗了人類第一高手柯潔的阿爾法狗強化版AlphaGo Master的同門「師弟」。不過,這個遍讀人類幾乎所有棋譜、以3比0打敗人類第一高手的師兄,在「師弟」阿爾法元從零自學第21天後,便被其擊敗。

  10月19日,一手創造了AlphaGo神話的谷歌DeepMind團隊在Nature雜誌上發表重磅論文Mastering the game of Go without human knowledge,介紹了團隊最新研究成果——阿爾法元的出世,引起業內轟動。

  雖師出同門,但是師兄弟的看家本領卻有本質的差別。

  「過去所有版本的AlphaGo都從利用人類數據進行培訓開始,它們被告知人類高手在這個地方怎麼下,在另一個地方又怎麼下。」 DeepMind阿爾法狗項目負責人David Silver博士在一段採訪中介紹,「而阿爾法元不使用任何人類數據,完全是自我學習,從自我對弈中實踐。」

  David Silver博士介紹,在他們所設計的算法中,阿爾法元的對手,或者叫陪練,總是被調成與其水平一致。「所以它是從最基礎的水平起步,從零開始,從隨機招式開始,但在學習過程中的每一步,它的對手都會正好被校準為匹配器當前水平,一開始,這些對手都非常弱,但是之後漸漸變得越來越強大。」

  這種學習方式正是當今人工智慧最熱門的研究領域之一——強化學習(Reinforcement learning)。

  崑山杜克大學和美國杜克大學電子與計算機工程學教授李昕博士向澎湃新聞(www.thepaper.cn)介紹,DeepMind團隊此次所利用的一種新的強化學習方式,是從一個對圍棋沒有任何知識的神經網絡開始,然後與一種強大的搜索算法相結合,「簡單地解釋就是,它開始不知道該怎麼做,就去嘗試,嘗試之後,看到了結果,若是正面結果,就知道做對了,反之,就知道做錯了,這就是它自我學習的方法。」

  這一過程中,阿爾法元成為自己的「老師」,神經網絡不斷被調整更新,以評估預測下一個落子位置以及輸贏,更新後的神經網絡又與搜索算法重新組合,進而創建一個新的、更強大的版本,然而再次重複這個過程,系統性能經過每一次迭代得到提高,使得神經網絡預測越來越準確,阿爾法元也越來越強大。

  其中值得一提的是,以前版本的阿爾法狗通常使用預測下一步的「策略網絡(policy network)」和評估棋局輸贏的「價值網絡(value network)」兩個神經網絡。而更為強大的阿爾法元只使用了一個神經網絡,也就是兩個網絡的整合版本。

  這個意義上而言,「AlphaGo Zero」譯成「阿爾法元」,而不是字面上的「阿爾法零」,「內涵更加豐富,代表了人類認知的起點——神經元。」李昕教授說。

  上述研究更新了人們對於機器學習的認知。「人們一般認為,機器學習就是關於大數據和海量計算,但是通過阿爾法元,我們發現,其實算法比所謂計算或數據可用性更重要。」DavidSilver博士說。

  李昕教授長期專注於製造業大數據研究,他認為,這個研究最有意義的一點在於,證明了人工智慧在某些領域,也許可以擺脫對人類經驗和輔助的依賴。「人工智慧的一大難點就是,需要大量人力對數據樣本進行標註,而阿爾法元則證明,人工智慧可以通過『無監督數據(unsupervised data)』,也就是人類未標註的數據,來解決問題。」

  有人暢想,類似的深度強化學習算法,或許能更容易地被廣泛應用到其他人類缺乏了解或是缺乏大量標註數據的領域。

  不過,究竟有多大實際意義,能應用到哪些現實領域,李昕教授表示「還前途未卜」,「下圍棋本身是一個比較局限的應用,人類覺得下圍棋很複雜,但是對於機器來說並不難。而且,下圍棋只是一種娛樂方式,不算作人們在生活中遇到的實際問題。」

  那麼,谷歌的AI為什麼會選擇圍棋?

  據《第一財經》報導,歷史上,電腦最早掌握的第一款經典遊戲是井字遊戲,這是1952年一位博士在讀生的研究項目;隨後是1994年電腦程式Chinook成功挑戰西洋跳棋遊戲;3年後,IBM深藍超級計算機在西洋棋比賽中戰勝世界冠軍加裡•卡斯帕羅夫。

  除了棋盤遊戲外,IBM的Watson系統在2011年成功挑戰老牌智力競賽節目Jeopardy遊戲一戰成名;2014年,Google自己編寫的算法,學會了僅需輸入初始像素信息就能玩幾十種Atari遊戲。

  但有一項遊戲仍然是人類代表著頂尖水平,那就是圍棋。

  谷歌DeepMind創始人兼CEO Demis Hassabis博士曾在2016年AlphaGo對陣李世石時就做過說明,有著3000多年歷史的圍棋是人類有史以來發明出來的最複雜的遊戲,對於人工智慧來說,這是一次最尖端的大挑戰,需要直覺和計算,要想熟練玩圍棋需要將模式識別和運籌帷幄結合。

  「圍棋的搜索空間是漫無邊際的——比圍棋棋盤要大1個古戈爾(數量級單位,10的100次方,甚至比宇宙中的原子數量還要多)。」因此,傳統的人工智慧方法也就是「為所有可能的步數建立搜索樹」,在圍棋遊戲中幾乎無法實現。

  而打敗了人類的AlphaGo系統的關鍵則是,將圍棋巨大無比的搜索空間壓縮到可控的範圍之內。David Silver博士此前曾介紹,策略網絡的作用是預測下一步,並用來將搜索範圍縮小至最有可能的那些步驟。另一個神經網絡「價值網絡(valuenetwork)」則是用來減少搜索樹的深度,每走一步估算一次遊戲的贏家,而不是搜索所有結束棋局的途徑。

  李昕教授對阿爾法元帶來的突破表示欣喜,但同時他也提到,「阿爾法元證明的只是在下圍棋這個遊戲中,無監督學習(unsupervised learning)比有監督學習(supervised learning)『更優』,但並未證明這就是『最優』方法,也許兩者結合的semi-supervised learning,也就是在不同時間和階段,結合有監督或無監督學習各自的優點,可以得到更優的結果。」

  李昕教授說,人工智慧的技術還遠沒有達到人們所想像的程度,「比如,網際網路登錄時用的reCAPTCHA驗證碼(圖像或者文字),就無法通過機器學習算法自動識別」,他說,在某些方面,機器人確實比人做得更好,但目前並不能完全替換人。「只有當科研證明,一項人工智慧技術能夠解決一些實際問題和人工痛點時,才真正算作是一個重大突破。」

  崑山杜克大學常務副校長、中美科技政策和關係專家丹尼斯·西蒙(Denis Simon)博士在接受澎湃新聞採訪時表示,阿爾法元在圍棋領域的成功說明它確實有極大的潛力。阿爾法元通過與自身對弈實現了自身能力的提升,每一次它都變得更聰明,每一次棋局也更有挑戰性。這種重複性的、充分參與的學習增強了阿爾法元處理更高層次的、戰略複雜問題的能力。但缺點是這是一個封閉的系統。「阿爾法元如何能夠超過自身的局限獲得進一步的成長?換句話說,它能跳出框框思考嗎?」

  AI科學家詳解AlphaGo Zero的偉大與局限

  AlphaGo Zero

  (文章來源:量子位 報導 | 公眾號 QbitAI 作者:夏乙 李根 發自 凹非寺 )

  「人類太多餘了。」

  面對無師自通碾壓一切前輩的AlphaGo Zero,柯潔說出了這樣一句話。

  如果你無法理解柯潔的絕望,請先跟著量子位回顧上一集:

  今年5月,20歲生日還未到的世界圍棋第一人柯潔,在烏鎮0:3敗給了DeepMind的人工智慧程序AlphaGo,當時的版本叫做Master,就是今年年初在網上60:0挑落中日韓高手的那個神秘AI。

  AlphaGo Zero驟然出現,可以說是在柯潔快要被人類對手和迷妹們治癒的傷口上,撒了一大把胡椒粉。

  被震動的不止柯潔,在DeepMind的Nature論文公布之後,悲觀、甚至恐慌的情緒,在大眾之間蔓延著,甚至有媒體一本正經地探討「未來是終結者還是黑客帝國」。

  於是,不少認真讀了論文的人工智慧「圈內人」紛紛站出來,為這次技術進展「去魅」。

  無師自通?

  首當其衝的問題就是:在AlphaGo Zero下棋的過程中,人類知識和經驗真的一點用都沒有嗎?

  在這一版本的AlphaGo中,雖說人類的知識和經驗沒多大作用,但也不至於「多餘」。

  在Zero下棋的過程中,並沒有從人類的對局經驗和數據中進行學習,但這個算法依然需要人類向它灌輸圍棋的規則:哪些地方可以落子、怎樣才算獲勝等等。

  剩下的,就由AI自己來搞定了。

  對於這個話題,鮮有人比曠視科技首席科學家孫劍更有發言權了,因為AlphaGo Zero裡面最核心使用的技術ResNet,正是孫劍在微軟亞洲研究院時期的發明。

  孫劍

  孫劍也在接受量子位等媒體採訪的過程中,對AlphaGo Zero的「無師自通」作出了評價,他認為這個說法「對,也不對」,並且表示「偉大與局限並存」。

  究竟對不對,還是取決於怎樣定義無師自通,從哪個角度來看。

  和之前三版AlphaGo相比,這一版去掉了人類教授棋譜的過程,在訓練過程最開始的時候,AI落子完全是隨機的,AlphaGo團隊的負責人David Silver透露,它一開始甚至會把開局第一手下在1-1。在和自己對弈的過程中,算法才逐漸掌握了勝利的秘訣。

  從這個角度來看,Zero的確可以說是第一次做到了無師自通,也正是出於這個原因,DeepMind這篇Nature論文才能引起這麼多圈內人關注。

  但要說它是「無監督學習」,就有點「不對」。孫劍說:「如果仔細看這個系統,它還是有監督的。」它的監督不是來自棋譜,而是圍棋規則所決定的最後誰輸誰贏這個信號。

  「從這個意義上說,它不是百分之百絕對的無師自通,而是通過這個規則所帶來的監督信號,它是一種非常弱監督的增強學習,它不是完全的無師自通。」

  孫劍還進一步強調:「但是同時這種無師自通在很多AI落地上也存在一些局限,因為嚴格意義上講,圍棋規則和判定棋局輸贏也是一種監督信號,所以有人說人類無用、或者說機器可以自己產生認知,都是對AlphaGo Zero錯誤理解。」

  離全面碾壓人類有多遠?

  Zero發布之後,媒體關切地詢問「這個算法以後會用在哪些其他領域」,網友認真地擔心「這個AI會不會在各個領域全面碾壓人類」。

  對於Zero算法的未來發展,DeepMind聯合創始人哈薩比斯介紹說,AlphaGo團隊的成員都已經轉移到其他團隊中,正在嘗試將這項技術用到其他領域,「最終,我們想用這樣的算法突破,來解決真實世界中各種各樣緊迫的問題。」

  DeepMind期待Zero解決的,是「其他結構性問題」,他們在博客中特別列舉出幾項:蛋白質摺疊、降低能耗、尋找革命性的新材料。

  哈薩比斯說AlphaGo可以看做一個在複雜數據中進行搜索的機器,除了博客中提到幾項,新藥發現、量子化學、粒子物理學也是AlphaGo可能大展拳腳的領域。

  不過,究竟哪些領域可以擴展、哪些領域不行呢?

  孫劍說要解釋AlphaGo算法能擴展到哪些領域,需要先了解它現在所解決的問題——圍棋——具有哪些特性。

  首先,它沒有噪聲,是能夠完美重現的算法;

  其次,圍棋中的信息是完全可觀測的,不像在麻將、撲克裡,對手的信息觀測不到;

  最後也是最重要的一點,是圍棋對局可以用計算機迅速模擬,很快地輸出輸贏信號。

  基於對圍棋這個領域特性的理解,提到用AlphaGo算法來發現新藥,孫劍是持懷疑態度的。

  他說,發現新藥和下圍棋之間有一個非常顯著的區別,就是「輸贏信號」能不能很快輸出:「新藥品很多內部的結構需要通過搜索,搜索完以後製成藥,再到真正怎麼去檢驗這個藥有效,這個閉環非常代價昂貴,非常慢,你很難像下圍棋這麼簡單做出來。」

  不過,如果找到快速驗證新藥是否有效的方法,這項技術就能很好地用在新藥開發上了。

  而用AlphaGo算法用來幫數據中心節能,孫劍就認為非常說得通,因為它和圍棋的特性很一致,能快速輸出結果反饋,也就是AlphaGo算法依賴的弱監督信號。

  當然,從AlphaGo算法的這些限制,我們也不難推想,它在某些小領域內可以做得非常好,但其實並沒有「全面碾壓人類」的潛力。

  去魅歸去魅,對於AlphaGo Zero的算法,科研人員紛紛讚不絕口。

  大道至簡的算法

  在評價Zero的算法時,創新工場AI工程院副院長王詠剛用了「大道至簡」四個字。

  簡單,是不少人工智慧「圈內人」讀完論文後對Zero的評價。剛剛宣布將要跳槽伯克利的前微軟亞洲研究院首席研究員馬毅教授就發微博評論說,這篇論文「沒有提出任何新的方法和模型」,但是徹底地實現了一個簡單有效的想法。

  為什麼「簡單」這件事如此被學術圈津津樂道?孫劍的解釋是「我們做研究追求極簡,去除複雜」,而Zero的算法基本就是在前代基礎上從各方面去簡化。

  他說,這種簡化,一方面體現在把原來的策略網絡和價值網絡合併成一個網絡,簡化了搜索過程;另一方面體現在用深度殘差網絡(ResNet)來對輸入進行簡化,以前需要人工設計棋盤的輸入,體現「這個子下過幾次、周圍有幾個黑子幾個白子」這樣的信息,而現在是「把黑白子二值的圖直接送進來,相當於可以理解成對著棋盤拍照片,把照片送給神經網絡,讓神經網絡看著棋盤照片做決策」。

  孫劍認為,擬合搜索和ResNet,正是Zero算法中的兩個核心技術。

  其中擬合搜索所解決的問題,主要是定製化,它可以對棋盤上的每一次落子都進行量化,比如會對最終獲勝機率做多大貢獻,但是這其實並不是近期才產生的一種理論,而是在很早之前就存在的一種基礎算法理論。

  而另一核心技術是最深可達80層的ResNet。總的來說,神經網絡越深,函數映射能力就越強、越有效率,越有可能有效預測一個複雜的映射。

  下圍棋時要用到的,就是一個非常複雜的映射,神經網絡需要輸出每個可能位置落子時贏的概率,也就是最高要輸出一個361維的向量。這是一個非常複雜的輸出,需要很深的網絡來解決。

  人類棋手下棋,落子很多時候靠直覺,而這背後實際上有一個非常複雜的函數,Zero就用深層ResNet,擬合出了這樣的函數。

  ResNet特點就是利用殘差學習,讓非常深的網絡可以很好地學習,2015年,孫劍帶領的團隊就用ResNet把深度神經網絡的層數從十幾二十層,推到了152層。

  也正是憑藉這樣的創新,孫劍團隊拿下了ImageNet和MSCOCO圖像識別大賽各項目的冠軍。到2016年,他們又推出了第一個上千層的網絡,獲得了CVPR最佳論文獎。

  而令孫劍更加意料之外的是,ResNet還被AlphaGo團隊看中,成為AlphaGo Zero算法中的核心組件之一。

  這位Face++首席科學家表示很開心為推動整個AI進步「做了一點微小的貢獻」,同時也很欽佩DeepMind團隊追求極致的精神。

  任劍還說,在曠視研究院的工作中,還會不斷分享、開放研究成果,更注重技術在產業中的實用性,進一步推動整個AI產業的進步。

  另外,還有不少AI大咖和知名科研、棋手對AlphaGo Zero發表了評價,量子位匯集如下:

  大咖評說AlphaGo Zero

  李開復:AI進化超人類想像,但與「奇點」無關

  昨天AlphaGo Zero橫空出世,碾壓圍棋界。AlphaGo Zero完全不用人類過去的棋譜和知識,就再次打破人類認知。很多媒體問我對AlphaGo Zero的看法,我的觀點是:一是AI前進的速度比想像中更快,即便是行業內的人士都被AlphaGo Zero跌破眼鏡;二是要正視中國在人工智慧學術方面和英美的差距。

  一方面,AlphaGo Zero的自主學習帶來的技術革新並非適用於所有人工智慧領域。圍棋是一種對弈遊戲,是信息透明,有明確結構,而且可用規則窮舉的。對弈之外,AlphaGo Zero的技術可能在其他領域應用,比如新材料開發,新藥的化學結構探索等,但這也需要時間驗證。而且語音識別、圖像識別、自然語音理解、無人駕駛等領域,數據是無法窮舉,也很難完全無中生有。AlphaGo Zero的技術可以降低數據需求(比如說WayMo的數據模擬),但是依然需要大量的數據。

  另一方面,AlphaGo Zero裡面並沒有新的巨大的理論突破。它使用的Tabula Rosa learning(白板學習,不用人類知識),是以前的圍棋系統Crazy Stone最先使用的。AlphaGo Zero裡面最核心使用的技術ResNet,是微軟亞洲研究院的孫劍發明的。孫劍現任曠視科技Face++首席科學家。

  雖然如此,這篇論文的影響力也是巨大的。AlphaGo Zero 能夠完美集成這些技術,本身就具有裡程碑意義。DeepMind的這一成果具有指向標意義,證明這個方向的可行性。在科研工程領域,探索前所未知的方向是困難重重的,一旦有了可行性證明,跟隨者的風險就會巨幅下降。我相信從昨天開始,所有做圍棋對弈的研究人員都在開始學習或複製AlphaGo Zero。材料、醫療領域的很多研究員也開始探索。

  AlphaGo Zero的工程和算法確實非常厲害。但千萬不要對此產生誤解,認為人工智慧是萬能的,所有人工智慧都可以無需人類經驗從零學習,得出人工智慧威脅論。AlphaGo Zero證明了AI 在快速發展,也驗證了英美的科研能力,讓我們看到在有些領域可以不用人類知識、人類數據、人類引導就做出頂級的突破。但是,AlphaGo Zero只能在單一簡單領域應用,更不具有自主思考、設定目標、創意、自我意識。即便聰明如AlphaGo Zero,也是在人類給下目標,做好數字優化而已。這項結果並沒有推進所謂「奇點」理論。

  南大周志華:與「無監督學習」無關

  花半小時看了下文章,說點個人淺見,未必正確僅供批評:

  別幻想什麼無監督學習,監督信息來自精準規則,非常強的監督信息。

  不再把圍棋當作從數據中學習的問題,回歸到啟發式搜索這個傳統棋類解決思路。這裡機器學習實質在解決搜索樹啟發式評分函數問題。

  如果說深度學習能在模式識別應用中取代人工設計特徵,那麼這裡顯示出強化學習能在啟發式搜索中取代人工設計評分函數。這個意義重大。啟發式搜索這個人工智慧傳統領域可能因此巨變,或許不亞於模式識別計算機視覺領域因深度學習而產生的巨變。機器學習進一步蠶食其他人工智慧技術領域。

  類似想法以往有,但常見於小規模問題。沒想到圍棋這種狀態空間巨大的問題其假設空間竟有強烈的結構,存在統一適用於任意多子局面的評價函數。巨大的狀態空間誘使我們自然放棄此等假設,所以這個嘗試相當大膽。

  工程實現能力超級強,別人即便跳出盲點,以啟發式搜索界的工程能力也多半做不出來。

  目前並非普適,只適用於狀態空間探索幾乎零成本且探索過程不影響假設空間的任務。

  Facebook田淵棟:AI窮盡圍棋還早

  老實說這篇Nature要比上一篇好很多,方法非常乾淨標準,結果非常好,以後肯定是經典文章了。

  Policy network和value network放在一起共享參數不是什麼新鮮事了,基本上現在的強化學習算法都這樣做了,包括我們這邊拿了去年第一名的Doom Bot,還有ELF裡面為了訓練微縮版星際而使用的網絡設計。另外我記得之前他們已經反覆提到用Value network對局面進行估值會更加穩定,所以最後用完全不用人工設計的defaultpolicy rollout也在情理之中。

  讓我非常吃驚的是僅僅用了四百九十萬的自我對局,每步僅用1600的MCTS rollout,Zero就超過了去年三月份的水平。並且這些自我對局裡有很大一部分是完全瞎走的。這個數字相當有意思。想一想圍棋所有合法狀態的數量級是10^170(見Counting Legal Positions in Go),五百萬局棋所能覆蓋的狀態數目也就是10^9這個數量級,這兩個數之間的比例比宇宙中所有原子的總數還要多得多。僅僅用這些樣本就能學得非常好,只能說明卷積神經網絡(CNN)的結構非常順應圍棋的走法,說句形象的話,這就相當於看了大英百科全書的第一個字母就能猜出其所有的內容。用ML的語言來說,CNN的inductivebias(模型的適用範圍)極其適合圍棋漂亮精緻的規則,所以稍微給點樣本水平就上去了。反觀人類棋譜有很多不自然的地方,CNN學得反而不快了。我們經常看見跑KGS或者GoGoD的時候,最後一兩個百分點費老大的勁,也許最後那點時間完全是花費在過擬合奇怪的招法上。

  如果這個推理是對的話,那麼就有幾點推斷。一是對這個結果不能過分樂觀。我們假設換一個問題(比如說protein folding),神經網絡不能很好擬合它而只能採用死記硬背的方法,那泛化能力就很弱,Self-play就不會有效果。事實上這也正是以前圍棋即使用Self-play都沒有太大進展的原因,大家用手調特徵加上線性分類器,模型不對路,就學不到太好的東西。一句話,重點不在左右互搏,重點在模型對路。

  二是或許卷積神經網絡(CNN)系列算法在圍棋上的成功,不是因為它達到了圍棋之神的水平,而是因為人類棋手也是用CNN的方式去學棋去下棋,於是在同樣的道路上,或者說同樣的inductive bias下,計算機跑得比人類全體都快得多。假設有某種外星生物用RNN的方式學棋,換一種inductive bias,那它可能找到另一種(可能更強的)下棋方式。Zero用CNN及ResNet的框架在自學習過程中和人類世界中圍棋的演化有大量的相似點,在側面上印證了這個思路。在這點上來說,說窮盡了圍棋肯定是還早。

  三就是更證明了在理論上理解深度學習算法的重要性。對於人類直覺能觸及到的問題,機器通過採用有相同或者相似的inductive bias結構的模型,可以去解決。但是人不知道它是如何做到的,所以除了反覆嘗試之外,人並不知道如何針對新問題的關鍵特性去改進它。如果能在理論上定量地理解深度學習在不同的數據分布上如何工作,那麼我相信到那時我們回頭看來,針對什麼問題,什麼數據,用什麼結構的模型會是很容易的事情。我堅信數據的結構是解開深度學習神奇效果的鑰匙。

  另外推測一下為什麼要用MCTS而不用強化學習的其它方法(我不是DM的人,所以肯定只能推測了)。MCTS其實是在線規劃(online planning)的一種,從當前局面出發,以非參數方式估計局部Q函數,然後用局部Q函數估計去決定下一次rollout要怎麼走。既然是規劃,MCTS的限制就是得要知道環境的全部信息,及有完美的前向模型(forward model),這樣才能知道走完一步後是什麼狀態。圍棋因為規則固定,狀態清晰,有完美快速的前向模型,所以MCTS是個好的選擇。但要是用在Atari上的話,就得要在訓練算法中內置一個Atari模擬器,或者去學習一個前向模型(forward model),相比actor-critic或者policy gradient可以用當前狀態路徑就地取材,要麻煩得多。但如果能放進去那一定是好的,像Atari這樣的遊戲,要是大家用MCTS我覺得可能不用學policy直接當場planning就會有很好的效果。很多文章都沒比,因為比了就不好玩了。

  另外,這篇文章看起來實現的難度和所需要的計算資源都比上一篇少很多,我相信過不了多久就會有人重複出來,到時候應該會有更多的insight。大家期待一下吧。

  清華大學馬少平教授:不能認為AI數據問題解決了

  從早上開始,就被AlphaGo Zero的消息刷屏了,DeepMind公司最新的論文顯示,最新版本的AlphaGo,完全拋棄了人類棋譜,實現了從零開始學習。

  對於棋類問題來說,在蒙特卡洛樹搜索的框架下,實現從零開始學習,我一直認為是可行的,也多次與別人討論這個問題,當今年初Master推出時,就曾預測這個新系統可能實現了從零開始學習,可惜根據DeepMind後來透露的消息,Master並沒有完全拋棄人類棋譜,而是在以前系統的基礎上,通過強化學習提高系統的水平,雖然人類棋譜的作用越來越弱,但是啟動還是學習了人類棋譜,並沒有實現「冷」啟動。

  根據DeepMind透露的消息,AlphaGo Zero不但拋棄了人類棋譜,實現了從零開始學習,連以前使用的人類設計的特徵也拋棄了,直接用棋盤上的黑白棋作為輸入,可以說是把人類拋棄的徹徹底底,除了圍棋規則外,不使用人類的任何數據和知識了。僅通過3天訓練,就可以戰勝和李世石下棋時的AlphaGo,而經過40天的訓練後,則可以打敗與柯潔下棋時的AlphaGo了。

  真是佩服DeepMind的這種「把革命進行到底」的作風,可以說是把計算機圍棋做到了極致。

  那麼AlphaGo Zero與AlphaGo(用AlphaGo表示以前的版本)都有哪些主要的差別呢?

  1。在訓練中不再依靠人類棋譜。AlphaGo在訓練中,先用人類棋譜進行訓練,然後再通過自我互博的方法自我提高。而AlphaGo Zero直接就採用自我互博的方式進行學習,在蒙特卡洛樹搜索的框架下,一點點提高自己的水平。

  2。不再使用人工設計的特徵作為輸入。在AlphaGo中,輸入的是經過人工設計的特徵,每個落子位置,根據該點及其周圍的棋的類型(黑棋、白棋、空白等)組成不同的輸入模式。而AlphaGo Zero則直接把棋盤上的黑白棋作為輸入。這一點得益於後邊介紹的神經網絡結構的變化,使得神經網絡層數更深,提取特徵的能力更強。

  3。將策略網絡和價值網絡合二為一。在AlphaGo中,使用的策略網絡和價值網絡是分開訓練的,但是兩個網絡的大部分結構是一樣的,只是輸出不同。在AlphaGo Zero中將這兩個網絡合併為一個,從輸入到中間幾層是共用的,只是後邊幾層到輸出層是分開的。並在損失函數中同時考慮了策略和價值兩個部分。這樣訓練起來應該 會更快吧?

  4。網絡結構採用殘差網絡,網絡深度更深。AlphaGo Zero在特徵提取層採用了多個殘差模塊,每個模塊包含2個卷積層,比之前用了12個卷積層的AlphaGo深度明顯增加,從而可以實現更好的特徵提取。

  5。不再使用隨機模擬。在AlphaGo中,在蒙特卡洛樹搜索的過程中,要採用隨機模擬的方法計算棋局的勝率,而在AlphaGo Zero中不再使用隨機模擬的方法,完全依靠神經網絡的結果代替隨機模擬。這應該完全得益於價值網絡估值的準確性,也有效加快了搜索速度。

  6。只用了4塊TPU訓練72小時就可以戰勝與李世石交手的AlphaGo。訓練40天後可以戰勝與柯潔交手的AlphaGo。

  對於計算機圍棋來說,以上改進無疑是個重要的突破,但也要正確認識這些突破。比如,之所以可以實現從零開始學習,是因為棋類問題的特點所決定的,是個水到渠成的結果。因為棋類問題一個重要的特性就是可以讓機器自動判別最終結果的勝負,這樣才可以不用人類數據,自己實現產生數據,自我訓練,自我提高下棋水平。但是這種方式很難推廣到其他領域,不能認為人工智慧的數據問題就解決了。

  對於計算機圍棋來說,以上改進無疑是個重要的突破,但也要正確認識這些突破。比如,之所以可以實現從零開始學習,是因為棋類問題的特點所決定的,是個水到渠成的結果。因為棋類問題一個重要的特性就是可以讓機器自動判別最終結果的勝負,這樣才可以不用人類數據,自己實現產生數據,自我訓練,自我提高下棋水平。但是這種方式很難推廣到其他領域,不能認為人工智慧的數據問題就解決了。

  Rokid祝銘明:數據學習到評分方法學習的切換

  Alpha Zero的文章有多少人認真看過,就在傳無監督學習,這次有意思的是方法其實有點回歸傳統規則指導的思考模式。如果這個算是無監督學習,那幾十年前就有了。只是這次是超大空間下的基於規則的決策樹裁決評分,文章最有價值的是把之前數據學習變成了評分方法學習,這個其實有點意思,對於規則清晰問題可以大大減少數據依賴。

  簡單說這個就是如何通過學習,避免對超大規模搜索樹的遍歷,同時保證決策打分的合理性。其實有點白盒子的味道。這方法的確在很多規則簡單清晰,但空間規模大的問題上有啟發意義,而且從理論上來說肯定比之前的基於數據學習的要優秀很多,因為過去的方法仍然對經驗數據依賴。不過和大家說的無監督學習是兩碼事。這麼說大家都能理解了吧。

  即將加入加州伯克利的馬毅教授

  熬夜讀完AlphaGo zero的Nature論文,深有感觸:我們一生與多少簡單而又有效的想法失之交臂,是因為我們或者過早認為這些想法不值得去做或者沒有能力或毅力正確而徹底地實現它們?這篇論文可以說沒有提出任何新的方法和模型——方法可以說比以前的更簡單「粗暴」。但是認真正確徹底的驗證了這個看似簡單的想法到底work不work。在做研究上,這往往才是拉開人與人之間差距的關鍵。

  柯潔九段

  一個純淨、純粹自我學習的AlphaGo是最強的…對於AlphaGo的自我進步來講…人類太多餘了。

  還有一些零散討論:

  微軟全球資深副總裁、美國計算機協會(ACM)院士Peter Lee認為這是一個激動人心的成果,如果應用到其他領域會有很多前景。其中的理論與康奈爾大學計算機系教授、1986年圖靈獎獲得者John Hopcroft之前下西洋棋的工作相似,而且Deepmind之前做的德州撲克比圍棋搜索空間更大、更難。不過受限規則下的圍棋跟現實世界的應用場景有天壤之別,現在的自動駕駛、商業決策比遊戲複雜很多。

  John Hopcroft提到了他常說的監督學習和非監督學習,因為給大量數據標標籤是一件非常難的事情。他還說,現在AI還在工程階段,我們先是把飛機飛向天,此後才理解了空氣動力學。AI現在能告訴你是誰,未來能告訴你在想什麼,再之後會有理論解釋為什麼這能工作。

  美國人工智慧學會(AAAI)院士Lise Getoor認為,在監督學習和非監督學習之上還有結構化學習,如何讓機器發現可能是遞歸的ontological commitment。我們現在的深度學習模型可能存在structure bias。

  楊強教授沒有說話,不過AlphaGo Zero論文剛一發布,他擔任理事會主席的國際人工智慧大會(IJCAI)就為這支團隊頒發了第一枚馬文·明斯基獎章,可謂最高讚許。

  AlphaGo從零開始自學圍棋為什麼能成功

  不要片面強調說人類知識沒用,還不如零知識。Master與AlphaGo Zero從算法層面看,差距很小。

  陳經

  2017年10月19日

  (本文原發於觀察者網:AlphaGo從零開始自學圍棋為什麼能成功)

  一。AlphaGo從零開始自學習新版本算法框架與等級分表現

  2017年10月18日,業界非常期待的AlphagGo新論文終於在《自然》上發表了。Deepmind開發了一個名為AlphaGo Zero的新版本,它只用一個策略與價值合體的神經網絡下棋,從隨機走子開始自我對弈學習,完全不需要人類棋譜。新的強化學習策略極為高效,只用3天,AlphaGo Zero就以100:0完全擊敗了2016年3月轟動世界的AlphaGo Lee。經過21天的學習,它達到了Master的實力(而Master在2017年5月3:0勝人類第一柯潔)。

  40天後,它能以90%的勝率戰勝Master,成為目前最強的圍棋程序。而且AlphaGo Zero的計算過程中直接由神經網絡給出葉子節點勝率,不需要快速走子至終局,計算資源大大節省,只需要4個TPU就行(AlphaGo Lee要48個)。

  從Goratings棋力等級分上看,AlphaGo Zero其實和Master還能比較,只多個300多分。這相當於論文發表當天,人類第一柯潔九段的3667分與第38名的人氣主播孟泰齡六段3425分的分差,兩人肯定實力有差距,但也還有得下。論文公布了AlphaGo Zero的83局棋譜,其中與Master下的有20局,Master在第11局還勝了一局。

  AlphaGo新版本從零開始訓練成功,這個結果大大出乎了我的預料,相信也讓業界不少人感到震驚。我本來是預期看到Master的算法解密,為什麼它能碾壓人類高手。AlphaGo退役讓人以為Deepmind不研究圍棋了,剩下任務是把Master版本的算法細節在《自然》公布出來,騰訊的絕藝等AI就可以找到開發方向突破目前的實力瓶頸了。

  本來5月的烏鎮圍棋大會上說,6月新論文就能出來了,開發者們可以參考了。至於從零知識開始學習,是個有趣的想法,2016年3月人機大戰勝李世石後就有這樣的風聲,人們期待這個「山洞中左右互搏」的版本出來,與人類的下法是不是很不相同,如開局是不是會佔天元?但是後來一直好像沒進展,烏鎮也沒有提。

  好幾個月了,新論文一直沒出來。絕藝明顯進入發展瓶頸,總是偶而會輸給人,還輸給了DeepZenGo與CGI。各個借鑑AlphaGo的AI都迫切需要Deepmind介紹新的思路與細節。到8月跑出來一篇AlphaGo打星際爭霸的論文,從零知識開始學,學人類錄像打,兩種辦法都不太行。

  這時我認為讓AlphaGo從零知識開始學可能不太成功,會陷入局部陷阱,人類棋譜能提供一個「高起點」,高水平AI還是需要人類的「第一推動」。

  實際是Deepmind團隊認為,僅僅寫Master對於《自然》級別的文章不夠震憾。新的論文標題是 「Mastering the Game of Go without Human Knowledge」,這個主題升華就足夠了。而Master用人類棋譜訓練了初始的策略網絡,人類知識還是有影響,雖然後來自學習提升後人類影響很小了。對於不懂圍棋或者對算法細節不關心的人,Master相比AlphaGo Lee無非是棋力更強一些,戰勝的柯潔與李世石都是頂級高手沒本質區別,Master的創新性也需要懂圍棋才能明白。

  AlphaGo Zero是真正的從零開始訓練,整個學習過程與人類完全沒有關係,全是自己學,這個哲學意義還是很大的。過程中與人或者其它版本下,只是驗證棋力不是學招。

  二。真正的算法突破是Master版本實現的

  可以認為,在技術上從AlphaGo Lee進步到Master是比較難的,需要真正的變革,神經網絡架構需要大變,強化學習過程也要取得突破。絕藝、DeepZenGo等AI開發就一直卡在這個階段,突破不了AlphaGo Lee的水平,總是出bug偶爾輸給人,離Master差距很大。

  但如果Master的開發成功了,再去試AlphaGo Zero就是順理成章的事。如果它能訓練成功,應該是比較快的事,實際不到半年頂級論文就出來了,回頭看是個自然的進展。Deepmind團隊在五月後應該是看到了成功的希望,於是繼續開發出了AlphaGo Zero,新論文雖然推遲了,但再次震驚了業界。

  也可以看出,2016年Deepmind《自然》論文描述的強化學習過程,整個訓練流水線比較複雜,要訓練好幾種神經網絡的係數,進化出一個新版本需要幾個星期。用這個訓練流水線,從零開始強化學習,應該是意義不大,所以一直沒有進展。

  但是Master的自學習過程取得了重大突破,之前從人類棋譜開始訓練2個月的水平,改進後只要一星期就行了,學習效率,以及能夠達到的實力上限都有了很大進展。以此為基礎,再把從零開始引進來,就能取得重大突破。所以Deepmind真正的技術突破,應該是開發Master時取得的。AlphaGo Zero是Master技術成果的延續,但看上去哲學與社會意義更重大。

  Master與AlphaGo Zero的成功,是機器強化學習算法取得巨大發展的成果與證明。訓練需要的局數少了,490萬局就實現了AlphaGo Lee的水平。而絕藝到2017年3月就已經自我對弈了30億局,實力一直卡著沒有重大進步,主要應該是強化學習技術上有差距。

  我在2017年1月9日寫的《AlphaGo升級成Master後的算法框架分析》文中進行了猜測:

  從實戰表現反推,Master的價值網絡質量肯定已經突破了臨界點,帶來了極大的好處,思考時間大幅減少,搜索深度廣度增加,戰鬥力上升。AlphaGo團隊新的prototype,架構上可能更簡單了,需要的CPU數目也減少了,更接近西洋棋的搜索框架,而不是以MCTS為基礎的複雜框架。比起西洋棋AI複雜的人工精心編寫的局面評估函數,AlphaGo的價值網絡完全由機器學習生成,編碼任務更為簡單。

  理論上來說,如果價值網絡的估值足夠精確,可以將葉子節點價值網絡的權重上升為1.0,就等於在搜索框架中完全去除了MCTS模塊,和傳統搜索算法完全一樣了。這時的圍棋AI將從理論上完全戰勝人,因為人能做的機器都能做,而且還做得更好更快。而圍棋AI的發展過程可以簡略為兩個階段。第一階段局面估值函數能力極弱,被逼引入MCTS以及它的天生弱點。第二階段價值網絡取得突破,再次將MCTS從搜索框架逐漸去除返樸歸真,回歸傳統搜索算法。

  從新論文的介紹來看, 這個猜測完全得到了證實。Master和AlphaGo Zero的架構確實更簡單了,只需要4個TPU。AlphaGo Zero到葉子節點就完全不用rollout下完數子了,直接用價值網絡(已經與策略網絡合併)給出勝率,就等於是「價值網絡的權重上升為1.0」。Master有沒有rollout沒有明確說,從實戰表現看應該是取消了。

  當然新論文中還是將搜索框架稱為「MCTS」,因為有隨機試各分支,但這不是新東西,和傳統搜索差異不算大。對圍棋來說,2006年引入MCTS算法真正的獨特之處是從葉子節點走完數子,代替難以實現的評估函數。

  這種瘋狂的海量終局模擬更像是絕望之下的權宜之計,也把機器弄得很疲憊。但是Master與AlphaGo Zero都成功訓練出了極為犀利的價值網絡,從而又再次將rollout取消。價值網絡的高效剪枝,讓Master與AlphaGo Zero的判斷極為精確,從而算得更為深遠戰鬥力極為強大。這個價值網絡怎麼訓練出來,就是現在Deepmind的獨門絕技。可以說,新論文最有價值的就是這個部分。

  從Master開始,AlphaGo的網絡結構應該就有大變了。到AlphaGo Zero,將價值與策略網絡合為一個,這並不奇怪。因為第一篇論文中,就明確說價值與策略網絡的架構是完全一樣的,只是係數不同。那麼二者共用一個網絡也不奇怪,前面盤面特徵表述應該是一樣的,等需要不同的輸出時再分出不同的係數。Master網絡結構大變之後,也許Deepmind發現,許多盤面特徵都可以訓練出來,所以就簡單將盤面輸入簡化成黑白。

  AlphaGo Zero的強化學習過程,應該與Master差不多,都是成功地跳出了陷阱,不斷提升到超乎人類想像的程度。Master從研發上來說,像一個探路先鋒,證明了這條路是可以跑通的,能把等級分增加1000分。而AlphaGo Zero,像是一個更為精減的過程,本質是與Master類似的。

  新論文中的AlphaGo Zero確實顯得架構優美。只需要一個網絡,既告訴機器可以下哪,也能給出局面的勝率。盤面輸入就是黑白,也不需要任何人類知識。強化學習就是兩招,搜索的結果好於神經網絡直覺想下的點,可以用於策略選點的訓練,一盤下完的結果回頭用於修正勝率,都很自然。但是為了實現這個優美結果,需要勇敢的探索。一開始的AlphaGo並沒有這麼優美,路跑通了,才想到原來可以做得更簡單。

  本文再提出一個猜測:現在的絕藝、DeepZenGo等AI實力接近AlphaGo Lee了,但都經常出現死活bug,會怎麼出和人類對手的實力關係不大,並不是對手等級分高的它就容易出bug,基本是自己莫明其妙送死。這個bug的原因是rollout模塊帶來的,因為rollout策略是人類棋譜訓練出來的,也可能有人工加代碼打補丁。

  它的目的是快速下完終局,但如果牽涉到死活,這種快速下完就不太可靠了,活的下死,死的殺活。但是,怎麼實現不出錯的rollout,這非常困難,應該是不可能完成的任務。Master和AlphaGo Zero的辦法,是取消這個不可靠的rollout,直接讓神經網絡給出結果。如果神經網絡給出的勝率結果有問題,那就靠訓練來解決。這樣糾錯,強過程式設計師去排查rollout代碼裡出了什麼錯。

  三。機器與人類對圍棋的適應能力差異很大

  Master和AlphaGo Zero的突破說明,在極高的水平上,需要考慮出現瓶頸的原因。人類棋譜能夠提供一個「高起點」,但是機器從零開始訓練一兩天也就追上了,帶來的「先發優勢」沒多少。而人類棋譜中顯然有一些「有害成分」,這可能將AI的學習過程帶歪。如果AI不能找到消除這些「人類病毒」的辦法,那訓練就會陷入瓶頸。如下圖,零知識強化學習的版本實力迅速追上有人類棋譜幫忙的。

  從圍棋本身看,它的規則幾乎是所有遊戲中最優美最簡單的。規則就是兩句話可以了,氣盡提子,禁全同(打劫的由來)。甚至貼目這樣的勝負規則都是人類強加的,圍棋遊戲不需要勝負規則就可以成為一個定義明確的遊戲。打磚塊這樣的Atari遊戲就是這樣,目標就是打到更高的分。圍棋遊戲的目標可以是佔更多的地,結果可能是黑183、184、185子這樣,不需要明確說出黑勝黑負。黑白博弈,會有一個上帝知道的「均衡」結果,猜測可能是黑184子白177子,或者黑184.5白176.5(有眼雙活)。

  這是一個優美的博弈問題,是掌握了強化學習方法的AI最喜歡的遊戲,規則這麼簡單,太容易了。最終強大的圍棋AI,應該是自然的,開發只依靠原始規則,不需要其它的信息了。AlphaGo Zero應該已經接近了這個目標,除了中國規則強加的7.5目的貼目。也許以後可以讓AlphaGo不考慮貼目了,黑白都直接優化佔地的多少,不再以勝率為目標,說不定能訓練出一個更優秀的AI。如優勢時不會退讓了,劣勢時也不自殺。這次Master與AlphaGo Zero一些局終局輸定時就表現得很搞笑,有時搖頭劫死棋打個沒完。

  AlphaGo Zero的棋力提升過程非常流暢,說明圍棋精緻的規則形成的數學空間很優美,神經網絡很快就能抓住圍棋空間的特徵,表現得非常適應。而這種神經網絡與圍棋空間的適應性,是之前人們沒有想到的,因為人自己感覺很困難,沒料到神經網絡學習起來美滋滋。

  AlphaGo Zero能從零開始訓練成功,也是因為圍棋的絕對客觀性。圍棋規則如此自洽,不需要人類幹預,就能很容易地自我對弈出結果,直接解決了「學習樣本」這個大問題。人工智慧機器學習碰上的很大問題就是需要海量樣本,而實際生活中有時只有少量樣本,有時需要人工標註很麻煩。

  圍棋的對局天然在那了,AlphaGo Zero的任務就是找到合適的學習方法,沒有樣本的問題。而人類既無法自我產生海量對局,也無法像AI那樣目標明確地快速改進自己的腦神經,單位時間學習效率被AI完全碾壓。所以圍棋是更適合AI去學習的遊戲。人類的學習方法也許還是適合人的,但AI學習方法更強。

  對於圍棋這麼自然而且絕對客觀的遊戲,消除人類的影響應該從哲學上來說是有深度的想法。從圍棋規則來看,日韓規則對AI簡直是不可理解,甚至無法定義,未來肯定會消亡。而人類的棋譜是客觀的,但對棋譜的解讀是主觀的。主觀的東西就可能出錯,這要非常小心。

  對於人類的知識體系也是如此。客觀世界的運行是與人無關的,人對客觀世界的解讀就是主觀的,很可能帶入了錯誤的東西。所以,有時需要返回到客觀世界進行本原觀察,而不是在錯誤的知識體系上進入所謂的「推理與搜索」。客觀上不成立,什麼都完了。經濟學道理寫得再雄辯,實踐中失敗了就不行。

  另一方面,也不要片面強調說人類知識沒用,還不如零知識。實際上Master與AlphaGo Zero的差距從算法層面看,並不太大。二者300分的等級差距,也許不是Master開始學了人類棋譜帶來的,也許是更精細的網絡架構、訓練過程的小細節之類的影響。Master其實找到辦法跳出了人類知識的陷阱。

  因此,可以說人類知識可能存在問題,但不要說學了人類知識就沒法到高境界。意識到舊知識體系的問題,作出突破就可以了。而且人類沒法和機器比,不可能真從零知識開始瘋狂自己下,沒那個體力。現實的選擇只有學習前輩的經驗。也許AlphaGo的意義是說,要有一個知識體系,這個知識體系可以是自己學出來並檢驗的,也可以是Master那樣借鑑了別人的,但要接受實踐檢驗,也要敢於懷疑突破成見。

  四。AlphaGo Zero的實戰表現

  雖然AlphaGo Zero完全與人類棋譜無關了,但是也許會讓棋手們欣慰的是,它下得其實很像人。訓練沒幾個小時就下得非常像人了,也是從角上開始,這方面的判斷和人是一致的。

  而且它甚至比Master還要像人類棋手,顯得比較正義。Master不知道為什麼喜歡出怪異的手段,棋譜極為難懂,對人類而言更為痛苦,打又打不過,看也看不懂。AlphaGo Zero對Master的棋譜結果是19:1,感覺上AlphaGo Zero戰勝Master的招數不是以怪制怪,而是用正招去應付,然後Master的強招碰上正義的力量就失敗了。而人類對Master應錯了,就輸了。也許是因為,Master訓練到後來,為了提高勝率走上了劍走偏鋒的路線,出怪招打敗之前的版本,而同一版本的黑白是同等實力,以怪對怪正好實力相當,維持了半目勝負。碰上AlphaGo Zero就失去了這種平衡,被正義的招數鎮壓。

  圖為AlphaGo Zero執黑對Master。Master氣勢洶洶54位飛,要吃掉黑三子。在Master與人類棋手的計算中,以及解說的這盤棋的絕藝看來(騰訊圍棋經常有絕藝配合人類棋手解說棋局的節目),黑這三子應該是被吃了,要考慮棄子。但是AlphaGo Zero不這麼認為。

  黑棋AlphaGo Zero在左下角將白棋做成了打劫殺。遭此打擊,Master就此陷入被動。這說明Master的計算也不一定毫無破綻,只是碰上算得更深的才被抓住。這個計算手數很長,出現錯誤也可以理解。這也說明Master以及AlphaGo Zero從算法原理看,都可能會被抓住計算錯誤,仍然有進步空間。一度我被Master的極限對局嚇住了,以為圍棋的終極奧義可能就是這種看不懂的死掐。

  AlphaGo Zero執白對Master。這是雙方對局的常見局面,白AlphaGo Zero撈足了實地,Master的中央模樣像紙糊的一樣被打破,敗下陣來。

  AlphaGo Zero自戰。勝率落後的黑用129的手筋撐住了局勢,但最後還是勝率越來越低失敗了。

  應該說AlphaGo Zero的棋譜還是較為自然的,雖然中盤顯然很複雜,但不像Master那樣完全看不懂心生恐懼。對於人類棋手來說,AlphaGo Zero會更為親切,它就像一個最高水平的人類棋手,下得是意圖可以說清楚的棋,只是永遠正確,不像人類低手這錯那錯。而Master的自戰譜就顯得不可理解,蠻不講理,動不動就搞事,撐得很滿步步驚心搞極限對局,人類看得很暈。

  圍棋AI應該還是在發展過程中,自我對弈容易顯得較死勁,實力有差距就會顯得一方瀟灑自然。圍棋的狀態空間還很大,應該還能有更厲害的版本一級級發展出來,就像西洋棋AI仍然在不斷進步。

  當然對Master以及AlphaGo Zero的棋譜,需要人類高手們配合AI的後臺數據來解讀。AlphaGo Zero這個不需要人類知識的AI棋手,再次給人類提供了不同風格的棋譜,讓棋壇越來越精彩。而且Deepmind的這篇論文提供了優美簡潔的開發方法,更容易模仿成功,會有越來越多高水平的AI取得突破。

  [本文來自微信公眾號「棋道經緯」]

相關焦點

  • 柯潔被讓兩子戰勝絕藝:差距不會超過三子
    昨晚,繼1月17日挑戰AI絕藝僅對弈了77手就認輸後,柯潔再次與絕藝進行了一盤較量。這一次在對方讓兩子的情況下,終於贏了一盤。之後柯潔在微博上發文《職業棋手與人工智慧的差距?》,對自己為何還要屢敗屢戰進行了解讀。
  • 柯潔終結AI「符合預期」41連勝:若當初第一個與alphago對弈的是我
    【文/觀察者網 周遠方】昨夜,「半狗」柯潔贏了一隻41連勝的「小狗」,輾轉難眠…… 他在今天(18日)凌晨0時23分發微博感嘆: 一個AI滿地走的時代...除了alphago以外,這個暱稱為「符合預期」的AI尤其強,實力應該已經遠超當時與李世石對弈的alphago了吧?...
  • 絕藝也認慫了!李世石真正的神之一手獲絕藝認可
    絕藝也認慫了!李世石真正的神之一手獲絕藝認可 李世石退役賽首局,絕殺韓豆的第78手當時並不在絕藝參考圖內。經過兩日的"深思熟慮",李世石VS韓豆首局的絕藝精解終於出爐。
  • 陳經:即使AlphaGo不出來下棋,我們還有絕藝
    2016年11月1日,絕藝下了第一盤棋。到11月19日,絕藝戰勝了柯潔一次,11月28日,絕藝連勝樸廷桓五盤。之後,絕藝(以及不同的版本刑天、驪龍)對陣的棋手幾乎都是等級分靠前的世界冠軍或者全國冠軍,一直互有勝負,殺得難解難分。從這個意義上來說,絕藝幾乎一出來,就完成了對DeepZenGo的超越。
  • 騰訊世界人工智慧圍棋大賽林建超:絕藝倒逼阿爾法狗
    記者謝銳北京報導 7月31日下午17點,2018騰訊世界人工智慧圍棋大賽頒獎儀式在中國棋院舉行,絕藝、星陣圍棋分別獲得冠亞軍,各獲40萬元、20萬元獎金。在七番棋決賽中,絕藝7比0勝星陣,半決賽五番棋和決賽七番棋不失一局。
  • 圍棋AI大賽騰訊「絕藝」奪冠!AlphaGo未參賽
    【PConline 資訊】在3月19日,研發的「絕藝」圍棋AI贏得了第10屆UEC杯世界計算機圍棋賽冠軍。第10屆UEC杯世界計算機圍棋賽決賽中,AI Lab(騰訊人工智慧實驗室)研發的圍棋人工智慧程序「絕藝」(Fine Art)擊敗了日本開發的「DeepZenGo」(天頂)奪冠,戰績為11戰全勝。騰訊騰訊今年共有30支軟體參加此次大賽。繼18日的循環積分賽中,「絕藝「以七局全勝戰績進入16強後,在今天決賽又以四連勝戰績奪得本屆UEC杯冠軍,日本「DeepZenGo」獲亞軍。
  • 絕藝橫掃中美日韓對手,稱霸圍棋AI世界大戰
    最終,絕藝橫掃星陣圍棋,奪得首屆世界人工智慧圍棋大賽冠軍。觀戰解說的棋聖聶衛平感嘆:絕老師厲害。而羅洗河九段也曾直言:「完全看不懂它們在下什麼」。群雄鏖戰這場圍棋AI大戰,戰火於6月23日點燃。先勝一盤的絕藝,突然遭遇徵子bug,這也被稱為「Zero算法下困擾廣大AI的頑疾」。隨後絕藝表現近乎「崩潰」,雙方只交戰78手,星陣就取得了一場速勝。整個複賽期間,預賽排名第四的星陣強勢崛起。戰績與絕藝不分上下。最終,絕藝、星陣、AQ、光之精靈進入四強。接著絕藝3-0戰勝AQ,星陣3-2翻盤戰勝光之精靈。兩個中國圍棋AI會師決賽。
  • 谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了
    谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了(圖片來自於推特)在這款軟體發出之後,柯潔也對這款軟體發表了自己的看法,他認為:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」之所以柯潔會這樣說,主要是因為AlphaGo Zero的練習主要是通過自我對弈在三十天之內發展起來的。
  • 中國絕藝要「逼出」阿爾法狗
    最近,在一場世界級的圍棋大賽中,「絕藝」以7∶0戰勝「星陣」獲得冠軍,倆選手都不是人。絕藝來自馬博所在的騰訊AI團隊,星陣的前身是清華大學開發的「神算子」。參加本屆世界人工智慧圍棋大賽前,絕藝曾對陣柯潔豪取13連勝,還以11連勝的戰績奪得第10屆UEC杯計算機圍棋大賽冠軍,成為這項承載「攻克圍棋」使命的AI賽事裡最後一個冠軍。
  • 兩戰告捷 騰訊的圍棋AI「絕藝」是如何煉成的?
    國是直通車記者採訪騰訊AI Lab(人工智慧實驗室),了解到「絕藝」的「成長過程」。比賽現場  「絕藝」出師告捷  3月18日,在日本舉辦的UEC杯世界計算機圍棋大賽上,首次亮相的騰訊「絕藝」以11戰全勝戰績奪得冠軍。
  • 「絕藝」晉升十段,騰訊圍棋AI會成為下一個AlphaGo嗎?
    近日,野狐圍棋平臺誕生了一位新的「十段」高手,ID名為「絕藝」。據悉,「絕藝」自2016年11 月上線以來便先後戰勝了諸如尹畯相、範蘊若、古力、黨毅飛、陳耀燁、連笑、樸廷桓等多位國內外高手。
  • 央視頻聯手絕藝 強勢打造圍棋視頻直播新形態
    11月2日和3日,央視頻《多角度看賽場》聯手「絕藝」對第25屆三星車險杯世界圍棋大師賽決賽「柯申巔峰對決」進行了全程直播。中央廣播電視總臺將本次央視頻直播間設在了野狐公司總部,王祥雲、王磊,賈罡璐、檀嘯,於之瑩、胡耀宇,仇丹雲、江維傑等多組明星嘉賓輪番上場,使用野狐直播平臺和絕藝人工智慧分析,從第一手棋開始直播,實現了真正意義上的全程解說視頻直播。這一直播形態開創了圍棋視頻直播的先河,為全國棋迷帶來了一場難得的圍棋盛宴。
  • 柯潔再談被AlphaGo打哭:我代表不了全人類
    柯潔與華學明解說絕藝挑戰賽撰文/王怡薇2017年12月16日,TWT騰訊圍棋錦標賽冠亞軍絕藝挑戰賽在海南三亞落幕,剛剛分別獲得騰訊圍棋錦標賽冠亞軍的童夢成六段與連笑九段向圍棋AI「絕藝」發起挑戰。「被AI虐還是挺難受的……」 TWT騰訊圍棋錦標賽挑戰AI絕藝的比賽,通過解說間大屏幕看著場上的髮小童夢成六段落敗,作為比賽解說的柯潔若有所思。這樣的感覺他曾經深刻的感受過。今年5月,世界排名第一的柯潔在烏鎮對陣人工智慧AlphaGo。
  • 微信團隊開源圍棋AI技術PhoenixGo,復現AlphaGo Zero論文
    參賽隊伍包括絕藝,LeelaZero、TSGo、石子旋風、Golois,HEROZ Kishi、Baduki 等來自中、日、韓、歐美等國家和地區的人工智慧圍棋高手。構建分布式 worker:bazel build //dist:dist_zero_model_server在分布式 worker 上運行 dist_zero_model_server,每個 worker 對應一個 GPU:CUDA_VISIBLE_DEVICES
  • 騰訊絕藝AI已經解決了勝負問題,但基於「打贏人類」的目的還遠不夠...
    棋手 童夢成、連笑「感覺自己問題特別多,覺得哪裡不太對,跟絕藝相比差距特別大。」棋手童夢成在12月16日下午,2017TWT騰訊圍棋錦標賽特別挑戰賽結束後接受採訪時連聲說。正如外界預測中的那般,棋手童夢成、連笑在騰訊圍棋絕藝挑戰賽中雙雙落敗。
  • 微信AI圍棋絕殺同門師兄「絕藝」,國產AI圍棋崛起
    在昨天結束的世界人工智慧圍棋大賽上,騰訊AI Lab開發的「絕藝」意外輸給了Phoenix Go,屈居第二。Phoenix Go是微信翻譯團隊開發的人工智慧圍棋,算是「絕藝」的小弟,它們兩個都出自騰訊,可謂「同根生」。
  • AlphaGo Zero用40天成為世界最強圍棋AI
    棋士柯潔:一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了
  • 絕藝,無人能敵!
    來自中、日、韓和歐美的11款AI參加了預賽,其中包括來自中國的絕藝、章魚、星陣、北極光,來自日本的AQ、AYa、Raynz,來自韓國的Dolbaram、Baduki,來自比利時的Leela Zero,來自美國的ELF OpenGo......7輪預賽結束以後,前8名的座次出來了。第一名,當然是「絕藝」軟體了。
  • (參考譜揭秘)絕藝老師的招法讓人自愧弗如
    杜牧有詩《重送絕句》:絕藝如君天下少,閒人似我世間無。別後竹窗風雪夜,一燈明暗覆吳圖。騰訊公司推出的絕藝圍棋AI的名字就是取自杜牧的詩句。絕藝老師的招法則讓人自愧弗如。王銘琬(白)與上野愛咲美(黑)實戰譜(1—34手),弈於2020年3月26日。參考圖一:絕藝老師對白6夾擊不贊成。這是絕藝老師給出的參考圖。參考圖二:白8絕藝老師建議爭先掛右下角。
  • 最終一戰柯潔再負AlphaGo,此後再無圍棋人機大戰
    上午11點30分,來到現場解說的聶衛平說:黑棋已經贏了,可以收子了。此時雙方剛交鋒至39手。AlphaGo用時15分鐘,柯潔用時45分鐘。聶衛平隨後開始解說柯潔前兩局出現的問題手,並且評價AlphaGo下棋的次序、時機掌握的最佳,「我看的是如痴如醉」。AlphaGo點出第41手後,柯潔陷入不斷抓頭髮的長考,耗時近13分鐘。此後雙方一致圍繞棋盤的下半部分展開爭奪。行至78手,白棋脫先;緊接著79手黑棋的一點讓聶衛平大呼:「說什麼也不能理解」。