陳經技術分析:谷歌圍棋算法存在巨大缺陷,達不到人類最高水平

2020-12-05 觀察者網

2016年1月28日,谷歌圍棋程序AlphaGo以5:0戰勝職業棋手的消息,震動了圍棋圈。這兩天有很多的討論,主要是新聞性的。我也在第一時間進行了常識性的介紹。

本文進一步從圍棋和人工智慧技術的角度,深入分析AlphaGo棋藝特點,評估其算法框架的潛能,預測與人類最高水平棋手的勝負。下文中出現的策略網絡、價值網絡、蒙特卡洛法請參考前文,理解具體圍棋局面也需要一定的棋力,但是與算法推理相關的內容理解起來並不難。

AlphaGo是如何下棋的

所有人,包括職業棋手,看了AlphaGo戰勝樊麾二段的五盤棋,都說這程序下得像人了,和以前的程序完全不同。柯潔九段(公認目前最強棋手,一年獲得三個世界冠軍,對李世石6:2,古力7:0)的看法是:

「完全看不出來。這五盤棋我也仔細地看了一眼,但我沒看名字,不知道誰執黑誰執白,完全看不出誰是AI。感覺就像是一個真正的人類下的棋一樣。該棄的地方也會棄,該退出的地方也會退出,非常均衡的一個棋風,真是看不出來出自程序之手。因為之前的ZEN那樣的程序,經常會莫名其妙的抽風,突然跑到一個無關緊要的地方下棋。它這個不會。它知道哪個地方重要,會在重要的地方下棋,不會突然短路。這一點是非常厲害的。」

連笑七段讓四子對DolBaram。棋譜可參考附錄的sgf文件,看看電腦是如何搞笑的。

先來看我上一篇文章中提到的DolBaram被連環劫搞昏的局面。右下角白是連環劫淨活,電腦卻不知道,耗費了很多劫材來回打。這是因為電腦是用蒙特卡洛樹形搜索(MCTS)下的,一直模擬下到終局,看各個選擇的獲勝概率。人一眼就知道打劫是沒用的,你提這個我必然提回那個。電腦模擬時的選點卻不會只有那一招,就會發現,如果對手不提另一個劫走了別的,那電腦就能吃角了,所以就去提劫。直到劫材損光,電腦才會恍然大悟,吃不掉,但這已經過去幾十手,超過電腦的搜索能力了。

看到電腦被連環劫搞昏,樂開花的連笑

2014年日本UEC杯軟體決賽,Zen執黑對CrazyStone。完整棋譜可看附錄的文件。

再來看Zen和CrazyStone兩個過去最強的程序間的一個局面。黑61威脅白右上角和中上,白卻不應,在下面62切斷,黑繼續63吃掉右上角。最後白在上面損失慘重,為了救中上幾個白子,下面又被黑先動手,沒有收益。為什麼CrazyStone不應上面?因為程序沒有價值的概念。白不應上面,黑要把白右上吃掉,還需要很多手,中上的白子活不活更不好說,這已經超出了電腦蒙特卡洛模擬的能力。因為電腦不知道要對著上面猛算,它不知道上面是焦點,可能花了很多計算在下面或者其它地方,認為62手下面切斷勝算更大,上面的損失它模擬得不對。這個局面能說明蒙特卡洛樹形搜索法(MCTS)的局限性,這個弱點很要命。

那麼AlphaGo會如何解決這兩個問題?連環劫問題,DolBaram可能得打個補丁。AlphaGo也是基於MCTS的,但是它的策略網絡是深度學習高手對局的招法訓練出來的,更為準確,有可能提劫這手就不會給多大概率,因為高手們面對這個局面不會去提劫。另一種可能是,AlphaGo有一個價值網絡,不用來回打一堆劫就能直接判斷下一招後,獲勝機會如何。由於價值網絡是訓練出來的,包含了3000萬局的最終結果,對於右下那塊白棋的死活是有判斷的。當然也可能AlphaGo針對連環劫有補丁。

CrazyStone犯錯這個圖,假設AlphaGo執白,在考慮第62手。61、62、63這些著手顯然都會在AlphaGo的策略網絡的選點中。你要讓它用MCTS模擬出右上和中上白棋幾個子是怎麼回事,估計也是不行的,手數和分支太多。因為這不是一個簡單的死活問題,白可以不要一部分甚至都不要,只要在其它地方有足夠的補償。但是AlphaGo有價值網絡,它會在模擬到63手時,用價值網絡快速評估一下,發覺白必敗,於是迅速否定62這手棋,在上面下棋。因為價值網絡的3000萬個樣本中,上面這種白棋類似棋形導致失敗的棋局會有一些。

這裡我們看出來,AlphaGo相比前一代軟體的革命性進步,是有了一個價值網絡。實際上,AlphaGo可以不用搜索,直接用策略網絡給出一些選點,用價值網絡判斷這些選點的價值,選一個最好的作為著手,就可以做出一個非常厲害的程序。這個簡單程序就可以打敗其它軟體,達到KGS(一個圍棋網,人工智慧程序一般在上面打級) 7D,這是非常驚人的。Facebook的Darkforest也可以不搜索,用策略網絡給出一些選點,選其中概率最大的點(最像是高手下的那招棋),這樣可以達到KGS 3D。在此基礎上再加上MCTS,把Darkforest提升到了5D。這說明AlphaGo的價值網絡對棋力提升的價值,可能比MCTS還要大。

有了高效的價值網絡,AlphaGo就容易知道局面的焦點在哪,不會在非關鍵的地方走。可以預期,其它軟體開發者要跟上AlphaGo,就得把價值網絡搞出來。但是這非常難,需要模擬海量的對局,對局水平還不能低,需要的投入很大。

AlphaGo想要戰勝業餘高手,策略網絡、價值網絡就夠了。但要戰勝業餘頂尖,就還得加上MCTS。這相當於對策略網絡、價值網絡的選擇,進行驗算。策略網絡有兩個,一個是給出當前局面的選點,一個是在MCTS模擬中快速給出一些選點。價值網絡給出判斷,有價值的搜得深。整個決策過程非常象人類高手的思維過程了:面對局面,給出一些選點;然後對各個選點推演下去,有的推幾步就判斷不行終止,有的會推得很遠;有時算不清,就根據感覺下;有時沒時間,直接感覺,都不推理了。

所以AlphaGo的算法框架很強大,和人類高手很像。而且它沒有情緒波動,每一步都會穩定地用MCTS進行驗算,人類不一定做得到。樊麾二段就是敗在這上面,不少著都沒有仔細驗算,衝動地下了被AlphaGo反擊吃大虧。

相關焦點

  • 谷歌AlphaGo對決李世石在即,9位世界冠軍、圍棋九段賭誰贏?-虎嗅網
    如AlphaGo獲勝,谷歌表示會將所得獎金全部捐贈給聯合國兒童基金會(unicef)、STEM(科學、技術、工程、數學)教育及圍棋等相關慈善團體。李世石九段表示:能夠參加此次意義深遠的比賽十分榮幸,無論結果如何都是歷史上非常有意義的對決。谷歌人工智慧頗具實力,並仍在持續提高中,但本次比賽我有信心。
  • 別了,人類對手!中國圍棋人工智慧要「逼出」阿爾法狗
    人類世界的圍棋高手只是觀眾2016年3月以來,在騰訊程式設計師馬博的工作計算機裡,絕藝幾乎24小時都在跟自己下棋,每天對弈成千上萬盤。這樣的對局數,是人類棋手一生幾萬盤棋難以企及的。而在19×19的方格世界中,存在著10171種有效對局盤,數量超過宇宙原子的總和。
  • 人工智慧和算法已在象棋和圍棋等領域上擊敗人類
    人工智慧和算法已在象棋和圍棋等領域上擊敗人類 讀芯術微信公眾號 發表於 2020-11-16 14:16:34 世界西洋棋冠軍賽始於1886年。
  • 谷歌發布的這款AI會玩57款雅達利遊戲 水平比AlphaZero...
    2016年,谷歌開發的AlphaGo成為了首個擊敗圍棋世界冠軍的人工智慧,向人類有力地證明了這一點。此後,谷歌2017年又開發了「升級版」AlphaZero,它是一種可以從零開始,通過自我對弈強化學習在多種任務上達到超越人類水平的新算法,堪稱「通用棋類AI」。
  • 阿爾法狗又逆天,谷歌推教人類下圍棋工具!
    今天下午13時,「尋找圍棋小先鋒」的活動,在上海世博園萬國體育館舉行。聶衛平道場創始人、圍棋九段聶衛平先生、谷歌CEO桑達爾·皮查伊先生和谷歌大中華區總裁石博盟先生參加了此次發布會。如此規格的嘉賓陣容,足以見得谷歌方面和聶衛平對此次圍棋青少年大賽極高的重視程度。
  • 李世石VS谷歌阿爾法圍棋人機大戰第三場完整棋譜步驟分析(圖)
    3月12日,人機大戰第三場已經結束,世界圍棋冠軍李世石遭遇三連敗,五番棋比賽中谷歌AlphaGo已贏得勝利,剩下的比賽中李世石只能寄希望「贏一局」了。  在第三場比賽中,李世石的黑棋布局初期重點在局部。圍棋九段古力認為,黑棋初期布局肯定不成功,李世石的布局是分散的,而白棋一個整體宏觀的局面已經構成。
  • 人工智慧圍棋大戰!中國絕藝要「逼出」阿爾法狗
    世界人工智慧圍棋大賽,「絕藝」大戰「星陣」。人類世界的圍棋高手只是觀眾2016年3月以來,在騰訊程式設計師馬博的工作計算機裡,絕藝幾乎24小時都在跟自己下棋,每天對弈成千上萬盤。這樣的對局數,是人類棋手一生幾萬盤棋難以企及的。而在19×19的方格世界中,存在著10171種有效對局盤,數量超過宇宙原子的總和。
  • 谷歌推出阿法狗圍棋工具:讓機器教人類下棋
    12月4日下午消息,今天下午13時,由聶衛平圍棋道場和谷歌聯合推出的「尋找圍棋小先鋒」活動,在上海世博園萬國體育館舉行。聶衛平道場創始人、圍棋9段聶衛平先生、谷歌CEO桑達爾·皮查伊先生和谷歌大中華區總裁石博盟先生參加了此次發布會。
  • 技術、文化與社會 ——谷歌品牌在中國是這樣講故事的
    早在2016年,AlphaGo與李世石的比賽前,科技記者一面倒地認為AlphaGo的勝利是毋庸置疑的,而圍棋記者則對李世石充滿信心,畢竟圍棋是「人類智慧的最後一座堡壘」。  不過,圍棋理論比象棋更為抽象,而且圍棋裡的每一個子都是同樣功能,並不像象棋裡分為「後」等功能不同。這意味著兩個難題:往哪裡下以及判斷局面。1997年當年,一位名叫Darren Cook的工程師就提出了一個問題:什麼時候圍棋程序能達到業餘初段水平?
  • 阿爾法狗的完勝,機器人通過學習,智商能超過人類?
    據了解,阿爾法圍棋(AlphaGo)是第一個擊敗人類職業圍棋選手、第一個戰勝圍棋世界冠軍的人工智慧機器人,由谷歌(Google)旗下DeepMind公司戴密斯·哈薩比斯領銜的團隊開發。其主要工作原理是「深度學習」。機器人通過學習,可以獲取更多的知識,不斷構造龐大的知識體系,久而久之就把人類戰勝了。
  • AlphaGo是如何學會下圍棋的
    本月早些時候,谷歌以外的人工智慧專家質疑其是否能在短時間內實現突破,而就在去年,許多人認為機器在圍棋項目上打敗頂尖人類還需要再過十年。 但谷歌AlphaGo已經做到了這一點。 「這一切發生的比我想像中快太多。」法國研究員雷米·庫倫說。
  • 圍棋擊敗AlphaZero!各類遊戲測試碾壓前輩,谷歌DeepMind AI再添新員
    MuZero使用了可自我學習的高性能機器學習模型,目前在西洋棋、圍棋、將棋、Atari遊戲等領域取得了領先的成績。據DeepMind研究人員稱,MuZero使用了基於模型的強化學習算法,目前在圍棋領域的性能已經略超AlphaZero。在75場Atari遊戲中的得分高於先前各類算法,且所需訓練時間極大減少。以下是Venturebeat報導的原文編譯。
  • 當年圍棋界那場著名人機大戰,李世石的取勝究竟有多大的意義?
    說起當年韓國圍棋九段選手李世石與谷歌人工智慧AlphaGo的那場圍棋大戰,雖然最後的結局是李世石投子認輸,AlphaGo取得競賽的成功,但我們除了替人類輸給AI汗顏之外,更佩服李世石超強的頑強毅力,不到比賽結束最後一刻,絕不認輸的戰鬥精神,被韓國圍棋天才李世石在那次比賽中得到了完美詮釋!
  • 谷歌推出終極版AlphaGo:MuZero,能自學掌握規則,能否超越人類
    作為引發AI人工智慧熱潮的,谷歌的AlphaGo早已為人所熟知。特別是AlphaGo在幾乎橫掃人類圍棋選手後,卻宣布收手隱退江湖。不過所有人的心裡都清楚,圍棋項目上人類是已經不可能戰勝AI了。但是對於谷歌旗下的DeepMind來說,戰勝人類,顯然還不是他們開發AlphaGo的終極目的。因此在經過多次技術迭代,算法優化之後。近日,谷歌推出了終極版的AlphaGo:MuZero。那麼這次的MuZero又和之前的AlphaGo有何區別呢。目前DeepMind公開推出的AlphaGo一共有三個大版本。
  • 阿爾法狗「弟弟」C位出道,機器人會取代人類嗎?
    繼轟動一時的阿爾法狗之後,它的弟弟阿爾法星際近日C位出道,根據各方媒體報導,谷歌旗下AI團隊帶領AlphaStar,同電競職業選手,對戰《星際爭霸2》。要知道,這個遊戲需要的不是相對複雜的操作,而是戰略的部署,因此相對於圍棋、西洋棋來講,《星際爭霸2》需要人工智慧運行更複雜的算法。在這次對決中,兩位電競職業選手分別以0:5的比分慘敗,阿爾法狗的「弟弟」以10:0完勝,而且AlphaStar的apm被控制在300以內。
  • 谷歌AlphaZero堪稱遊戲大師,但與人類頭腦比起來孰高孰低?
    基於AlphaGo套件(包括一系列用於攻克圍棋這一傳統技藝的程序)以往取得的成功,谷歌宣稱其全一代AlphaZero不僅在這款棋盤遊戲當中實現了「超越人類的表現」,甚至一舉破解了三種棋類的秘密:圍棋、西洋棋與將棋(類似於日本版的西洋棋)。
  • 在AlphaGo 輸掉前,它的弱點已經被人類發現?
    本文原文作者陳經,香港科技大學計算機科學碩士,中國科學技術大學科技與戰略風雲學會研究員,新浪圍棋 6D。本文首發於 「觀察者 」,原標題為 「陳經:在 AlphaGo 完勝後繼續分析其算法巨大優勢與可能的缺陷 」,已獲得作者同意轉載。
  • 李世石VS谷歌阿爾法圍棋人機大戰第五場完整棋譜步驟分析(圖)
    這也很正常,此前,當人類認為谷歌(微博)AlphaGo不可能這麼快就戰勝人類頂尖棋手時,結局是3:0;當人類認為AlphaGo高維打低維,輕鬆碾壓人類時,李世石扳回一局1:3。  這場比賽無法再製造足夠的意外,也無關最終勝負,而在經歷前面四場考驗後,李世石逐漸也摸索出應對AlphaGo的一套思路,心裡壓力降低很多,能相對自如冷靜的應對比賽。
  • AlphaGo在世界圍棋界戰無不勝,人工智慧真這麼厲害?我看不是!
    阿爾法圍棋(AlphaGo)是一個人工智慧圍棋機器人,是由谷歌旗下的公司團隊開發的,其工作原理是「深度學習」。因兩次戰敗世界圍棋冠軍而成名,目前在圍棋界「獨孤求敗」,風頭一時無人能及。2016年3月,AlphaGo與圍棋世界冠軍李世石進行人機大戰,以4:1獲勝;2017年5月,阿爾法狗與排名世界第一的圍棋冠軍柯潔對戰,以3:0獲勝;從此,圍棋界公認AlphaGo的祺力已經超過人類職業圍棋頂尖水平。當前世界排名第一的圍棋冠軍柯潔表示,」在他看來阿爾法圍棋就是圍棋上帝,能夠打敗一切「。
  • 百度正用谷歌AlphaGo,解決一個比圍棋更難的問題
    發自 凹非寺 量子位 報導 | 公眾號 QbitAI 9102年,人類依然不斷回想起圍棋技藝被 百度矽谷AI實驗室的同學們,就在用這個出自谷歌DeepMind的圍棋算法,解決一個比圍棋複雜得多的數學問題。 為了重新訓練這個算法,百度用了300張1080Ti和2080Ti顯卡。 他們解決的問題,叫做「圖著色問題」,又叫著色問題,屬於前些天讓中國奧數隊全軍覆沒的圖論。