AlphaGo是如何學會下圍棋的

2020-12-24 騰訊網

原題:In a Huge Breakthrough, Google's AI Beats a Top Player at the Game of Go

原載:Wired連線 2016.01.27

標籤:人工智慧(AI),算法,圍棋。

翻譯:芒芒 原文有刪減

譯註:該文章刊載於人工智慧AlphaGo與李世石對戰前夕,當時大眾對比賽的預測還有很大分歧。圍棋界的風雨欲來時,亦是AI界的重要突破日,本文將為你重現人工智慧來臨時代的重要進步時刻。

第一縷星火

人工智慧領域取得了一項重要突破----一在圍棋項目中,一個由谷歌研究團隊開發的計算機系統AlphaGo擊敗了歐洲的頂尖職業棋手。在此之前,這個關於戰略性和直觀判斷的古老東方競技遊戲,已經困擾了人工智慧專家們數十年之久。

在大多數公認的智力遊戲中,機器已經戰勝了最優秀的人類,包括西洋棋、拼字遊戲、黑白棋等等。但是圍棋----這個有著2500年的歷史,比象棋複雜得多的遊戲,即使是面對最先進的計算機系統,頂尖棋手們也能保持優勢。

本月早些時候,谷歌以外的人工智慧專家質疑其是否能在短時間內實現突破,而就在去年,許多人認為機器在圍棋項目上打敗頂尖人類還需要再過十年。

但谷歌AlphaGo已經做到了這一點。

「這一切發生的比我想像中快太多。」法國研究員雷米·庫倫說。他的背後,是曾經的世界最佳圍棋AI,Crazystone。

AlphaGo系統

DeepMind計劃自稱為「人工智慧界的阿波羅」,於2014年被谷歌收購。在10月倫敦舉辦的這場人機比賽上,DeepMind的系統----一個更廣為人知的名字「AlphaGo」,在與歐洲圍棋冠軍樊麾的對弈中發揮出色,五局比賽未嘗一敗。比賽結果在《自然》雜誌的編輯和英國圍棋聯盟代表的監督和見證下產生,事後《自然》雜誌的編輯評價:這是我職業生涯中最激動人心的時刻之一,無論是作為一名學者還是作為一名編輯。

關於AlphaGo的論文發表在自然雜誌,並登上封面

今天早上,《自然》雜誌發表了一篇論文,描述了AlphaGo的系統,它巧妙地利用了一種越來越重要的人工智慧技術,即深度學習。

通過輸入收集到的大量人類棋譜,DeepMind的研究人員開始訓練這個系統自己下圍棋。但這僅僅是第一步。從理論上講,這樣的訓練只會產生一個和頂尖人類一樣優秀的系統(但這不能保證對人類的絕對優勢)。為了打敗最頂尖的人類,研究人員讓這個系統進行自我間對弈。這使得系統自身又可以產生一系列新的棋譜,基於新棋譜訓練出的新人工智慧,有著超越人類大師的能力。

「這其中最重要的方面……是AlphaGo不僅僅是一個手動規則構建下的專門系統,」負責DeepMind監督的戴密斯·哈薩比斯說,「相反,它還使用通用的機器學習技術來贏得勝利。

窮舉與剪枝

早在2014年初,庫倫的圍棋程序Crazystone就挑戰了日本的職業棋手依田紀基並獲得了勝利,但有一點需要聲明----這是AI在受讓四子的情況下。在圍棋中,這代表著開局的巨大優勢。當時,庫倫預測,機器還需要10年的發展,才能在分先的情況下贏得頂尖棋手。

這項研究的難度在於圍棋規則本身。

即使是功能再強大的超級計算機,處理能力也有極限,無法在給定任意的合理的時間內分析出棋盤中可行的每步棋著的變化。當深藍在1997年戰勝西洋棋冠軍卡斯帕羅夫時,就是以這樣的「暴力」做到的。從本質上講,IBM的超級計算機分析了當前可行的每一步棋的結果,這樣的預測視野超越了人類棋手的極限。但在圍棋中,這是不可能做到的。在西洋棋中,任意給定的回合平均約有35種可行的變化;而圍棋--這種兩個玩家在19×19的網格上以拋光的棋子互相對抗的遊戲,有著約250種變化,並且每種都能生出另外的250種,依此類推,無法窮盡。就像哈薩比斯指出的一樣:橫盤上存在的變化比宇宙中的原子還要多。

在使用一種被稱為蒙特卡羅樹搜索的技術後,像Crazystone這樣的系統能夠脫穎而出,結合其他技術,系統可以縮小必須分析的步數的範圍,最終他們可以戰勝一些圍棋高手----但不能戰勝最頂尖的棋手。

局面形式判斷

在頂尖棋手中,每一手棋更具直觀性。棋手可能會告訴你,要基於盤中的棋形和局勢來決定下一步棋著(棋手思維),而不是仔細分析盤上每個點可能的後續變化(系統思維)。「好的選點看上就覺得很棒,就像遵循著某種美學一般。」同時也是一名棋手的哈薩比斯說,「歷經數千年依然是一個迷人的遊戲,或許這就是它的魅力所在。」

但是,隨著2014年讓步至2015年,包括愛丁堡大學團隊,Facebook團隊以及DeepMind團隊在內的研究者們,開始將深度學習應用於圍棋研究。這個想法是利用技術來模仿下棋時所需要的「人類直覺」。「圍棋是隱式的,且都是模式匹配(一種算法)」哈薩比斯說:「但這正是深度學習的優勢所在。」

自我增強

深度學習依賴於所謂的神經網絡----一種硬體和軟體網絡,類似於人腦中的神經元。這些神經網絡並非依靠暴力計算或手動制定的規則來運作,他們分析大量數據以「學習」特定的任務。將足夠多的袋熊照片送入神經網絡,它可以學習識別袋熊;給它「投餵」足夠多的口語,它可以學會辨認你說的話;「投餵」足夠的圍棋走法,它就可以學會下圍棋。

在DeepMind,研究人員希望神經網絡可以通過「看」盤中的選點來掌握圍棋,就像人類在下棋時一樣。這項技術反饋良好,通過將深度學習與「蒙特卡洛樹」方法結合,Facebook旗下的系統已經擊敗了一些人類玩家。

但DeepMind團隊更加深入的執行了這個理念。當接受了3千萬步人類棋著的訓練後,DeepMind神經網絡能以57%的概率預測下一手人類棋著,這是一個令人印象深刻的數字(此前的記錄是44%)。在這之後,研究員們讓該神經網絡和與其自身略有不同的版本進行相互對弈,這被稱之為強化學習。本質上來說,通過神經網絡進行自我對弈,系統會追蹤哪一手棋能夠帶來最大利益----在圍棋中體現在獲得最多的地盤。隨著時間的增加,系統在識別「哪些棋能帶來利益,哪些不能」方面變得越來越完善。

AlphaGo通過其神經網絡之間的數百萬次相互對弈,日漸提高,最終學會了自己發現新的戰略。」DeepMind的研究員西爾弗說。

據團隊成員西爾弗的說法,這使得AlphaGo能夠超越包括Crazystone在內的所有圍棋AI系統。在這之後,研究員們將研究結果輸入第二個神經網絡,收集它通過自我對弈給出的建議棋著,神經系統便可以預見這之後的每一步的變化。這類似於較舊的系統(如深藍)在西洋棋領域所表現出的一樣,只不過AlphaGo系統在分析更多數據時,會不斷進行自我學習並最終做到這一點,而非通過暴力的手段探索棋盤上所有的可能性。這樣一來,AlphaGo不僅學會了擊敗現有AI程序,也能學會擊敗頂尖的人類棋手。

風雨欲來

在非公開場合打敗了歐洲的圍棋大師之後,哈薩比斯和他的團隊旨在在公開論壇上擊敗世界頂尖棋手之一的李世石。

不久之後的三月,AlphaGo將在韓國挑戰圍棋世界冠軍李世石。李世石是至今為止世界冠軍數第二位的棋手,並在過去的十年裡獲得了最多的世界冠軍。哈薩比斯將他視為「圍棋世界的費德勒」。

根據庫倫等人的說法,戰勝世界冠軍將比戰勝歐洲冠軍樊麾更具挑戰性。但是這次,庫倫將賭注押在了一直以來的競爭對手----AlphaGo上。在過去的十年中,他一直嘗試開發出能夠擊敗世界最頂尖棋手的AI系統,現在,他相信這個系統就在眼前。

------完-------

PS:庫倫和他背後的crazystone,感覺也是一個被後起之秀超越而壯志未酬的故事呢,冥冥中太像棋界人生~

相關焦點

  • 三千年圍棋只用三天走過 最簡潔的AlphaGo最美
    3.1、 快速走子策略也需要輸入大量人類已知的圍棋知識,比如如何點死大眼(Nakade, 如點死直三、丁四、刀把五等棋型的唯一招法)。省去快速走子,也就省去了輸入這些知識的麻煩。  4、改卷積網絡為殘差網絡,提高訓練效率。  留下的,是一個從零開始訓練的神經網絡,以及用簡單到不能再簡單的MCTS算法行棋的AlphaGo Zero。
  • 一劍西來天外飛仙:AlphaGo與圍棋變革
    【】前不久在浙江,圍棋目前ELO等級分第一、多次世界冠軍柯潔與Deepmind的人工智慧圍棋程序AlphaGo的三番棋落下了帷幕。第三盤上我們看到了柯潔的淚水。第二次人機大戰讓全人類見識到了今天的AI在卓越算法和深度神經網絡的雙重合力之下,如何徵服了人類幾千年來積累的圍棋的理解與經驗。最遺憾的是,DeepMind宣布AlphaGo收山了,世間只留下一段傳奇。
  • AlphaGo在世界圍棋界戰無不勝,人工智慧真這麼厲害?我看不是!
    阿爾法圍棋(AlphaGo)是一個人工智慧圍棋機器人,是由谷歌旗下的公司團隊開發的,其工作原理是「深度學習」。因兩次戰敗世界圍棋冠軍而成名,目前在圍棋界「獨孤求敗」,風頭一時無人能及。2016年3月,AlphaGo與圍棋世界冠軍李世石進行人機大戰,以4:1獲勝;2017年5月,阿爾法狗與排名世界第一的圍棋冠軍柯潔對戰,以3:0獲勝;從此,圍棋界公認AlphaGo的祺力已經超過人類職業圍棋頂尖水平。
  • 多了三五根白髮學會自黑 柯潔:替未來人類感知威脅
    本年度TWT騰訊圍棋錦標賽的預選賽柯潔也參加了,後因日程衝突而放棄,否則他也有可能出現在與絕藝的公開對弈中。他還將在明年4月的第一屆「吳清源杯」世界女子圍棋賽暨2018世界人工智慧圍棋大賽上再戰圍棋AI。「我覺得他有勇氣去接受這個東西,說我願意去下,其實這才是一個真正的職業棋手。」華學明說,「他現在很勇敢。」
  • 滴滴章文嵩將派單問題與 AlphaGo 相比較,被懟「不懂圍棋」
    他的原文如下:「所以說,我們這個問題的複雜度,比下圍棋要複雜一百倍以上,就比 AlphaGo 面臨的問題複雜一百倍,因為我們知道一天有 86400 秒,如果除以兩秒鐘撮合一次,我們的步數我們要考慮 43200 步,我們知道下圍棋,格子裡面只有 19 乘 19,最多 361 步,而且都有確定性的解,是贏,還是輸,還是平局。那我們實際上最優解是怎麼樣?
  • 深挖圍棋AI技術:alphaGo在下一盤什麼棋?
    CNN和Move Prediction之前我們說了MCTS迴避了局面估值的問題,但是人類下圍棋顯然不是這樣的,所以真正要下好圍棋,如此從模仿人類的角度來說,這個問題是繞不過去的。人類是怎麼學習出不同局面的細微區別的呢?當然不能由人來提取特徵或者需要人來編寫估值函數,否則還是回到之前的老路上了。
  • 極簡中國圍棋史,這幾個三國人物竟然也喜歡下圍棋,還有這些作用
    前段時間,通過日本漫畫改變的電視劇《棋魂》持續熱播,引發了一陣圍棋熱潮,中國老祖宗的東西竟然是通過日本動畫率先發揚光大,不禁令人汗顏,所以身為一個中國人,我們需要了解中國圍棋的歷史。據說圍棋最早出現在大約2500年前的歷史上,大約在周朝滅亡前300年左右,甚至可以追溯到三皇五帝時期的堯統治時期,遊戲的目的是訓練他的兒子,以便他學會沉著冷靜的判斷力。這個遊戲本身就是任何有學問的人學習平衡和策略的,是琴棋書畫四藝之一,這是所有知識分子和君子都必須學會的。
  • 打敗柯潔的AlphaGo有了繼任者AlphaZero 西洋棋/圍棋/將棋通殺
    AlphaZero 是一款能夠從頭學習圍棋、象棋等棋子遊戲的新型人工智慧平臺。實測西洋棋需要 9 小時、將棋 12 小時、圍棋 13 天,涉及 5000 個張量處理單元(TPU)。  這麼說可能不太能量化理解,可以參考一下一套 TPU 每天可以處理超過 Google Photos 中的 1 億+照片,所以 AlphaZero 對硬體的性能的要求還是相當高的。
  • AlphaGo是什麼如何運行?人機大戰比賽規則+交手記錄資料
    AlphaGo是什麼如何運行?人機大戰比賽規則+交手記錄資料。人腦VS電腦,大戰在即,作為人類的你,必須知道以下幾件事。  曾經,「深藍」與卡斯帕羅夫的西洋棋人機大戰令全球關注,人類在西洋棋領域被AI擊敗。
  • 比AlphaGo 更複雜,最強日本麻將 AI 如何煉成
    ▲(圍棋、德州撲克、橋牌和麻將的信息集數目和信息集平均大小對比) 圍棋和德州撲克的信息集平均大小遠遠小於橋牌和麻將。AI 在圍棋和德州撲克上的成功很大程度依賴於搜索算法,因為搜索可以最大程度地發揮計算機的計算優勢。
  • 下圍棋啊!
    由此可見南朝帝王對圍棋的重視及提倡。梁武帝更是根據圍棋的規則編寫了《圍棋賦》(「五賦三論」之一),關於梁武帝下棋有一個流傳甚廣的錯殺高僧的故事,有興趣的小夥伴可以查閱。南朝設立了棋品制度和圍棋周邑制度,將專業圍棋手分為九品,現在日本圍棋中的「九段」即源於此。而在文化交流上,當時的圍棋已經傳入朝鮮半島。
  • 韓國國會通過《圍棋振興法》,中國圍棋該如何應對
    3月30日,韓國國會召開第358屆本會會議,會上通過了《圍棋振興法》制訂案。為運動專門制定一部法律,這樣的事情在韓國發生了。據媒體「體壇+」、圍棋九段江鑄久透露,日前,韓國國會通過了《圍棋振興法》制訂案,這項法律將旨在打造圍棋基礎,形成韓國政府層面對圍棋的支持。
  • 圍棋賽事下了一盤很大的棋
    同期舉行的還有第十四屆廣西圍棋聯賽和春江優鮮杯·三英聯棋邀請賽。在疫情防控常態化情況下,該賽事的成功舉辦,充分展現了城圍聯在創新賽制、凝聚人氣上的努力,也讓圍棋這項傳統智力運動顯現了別樣光輝。「棋」心協力 創造「棋」跡受新冠肺炎疫情影響,城市圍棋聯賽2020年賽季比賽取消,為此,城市圍棋聯賽各個俱樂部的棋手、教練,因地制宜,或為醫護人員發起捐助,或發起網上公益課堂,舉辦網絡比賽,身體力行參與到抗擊疫情的行動當中。
  • 繼AlphaGo圍棋戰勝柯潔,AlphaStar大勝人類星際玩家
    谷歌DeepMind的AlphaGo繼谷歌DeepMind的AlphaGo戰勝人類的世界圍棋冠軍柯潔、李世石之後,時隔兩年,DeepMind人工智慧再升級,推出最新AI程序AlphaStar人工智慧AlphaGo VS 圍棋冠軍柯雖然DeepMind開發的人工智慧AlphaGo已經在圍棋比賽中擊敗了人類,但策略類遊戲《星際爭霸2》(Starcraft II)要比圍棋複雜的多得多
  • 韓國圍棋現代史3:圍棋的英雄文化正逐步瓦解
    中國是圍棋和道家神仙思想結合到一起,日本是佛家的僧侶們專門研究圍棋。結果圍棋的認知有了這樣的一種傾向,其空間和時間是與世間相隔絕的。韓國的圍棋,相當一部分是受中國的影響,但六十年代以後,來自日本的影響佔了上風。來自日本的影響體現在這一點,圍棋提供了與社會相隔離的,惟圍棋的空間。
  • 中日圍棋擂臺賽30年︱1980年代圍棋為什麼那樣紅
    1960年,日本圍棋代表團首次訪華,中日雙方共三十五盤,中國僅勝兩盤,和一盤,餘皆敗北。1961年,日本圍棋代表團再度訪華,五十四歲的日本女棋手伊藤友惠五段八戰皆勝。郝克強回憶說,與名手過惕生並稱「南劉北過」的老將劉棣懷對弈伊藤時,劉每一手都下得很慢,常常苦思冥想,伊藤則作悠閒自得狀,下完一手棋,便起身賞花觀魚。
  • 他是一國元首大權在握,不愛錢不愛色,最愛下圍棋,贏得起輸不起
    段祺瑞在中華民國的歷史上,有一個人曾四任總理,四任陸軍總長,一任參謀總長,一任國家元首,權傾一時,風雲無二,但他卻不愛錢不愛色,最愛下圍棋,但卻和我等一樣具有贏得起輸不起的秉性,甚至有過之而無不及讓我們來看看幾個真實的故事,到底段祺瑞的圍棋水平如何?是不是真的贏得起輸不起?一切讓事實說話。
  • 圍棋地理,發現之旅——讀《世界圍棋通史》
    該書考察了中國圍棋的起源、發展以及在世界各地的傳播,並將中國、日本、韓國、歐洲等主要國家的圍棋歷史與文化進行比較,以探尋圍棋在人類歷史進程中的社會與文化意義,填補了世界圍棋史書寫的空白,是一部學術價值和現實意義兼備的「匠心之作」。
  • 圍棋代表的博大精深,你要不要讓自己的孩子去學圍棋呢?
    其次是孩子的邏輯推理能力,圍棋做死活題跟普通我們一般的算術、語文稍有不同的是,下圍棋還要有邏輯推理和換位思考能力,從對方的角度看問題,走的每一步都要想到對方。另外孩子的抗挫力,下棋就會面對挫折,如果你把它叫做挫折的話。面對輸贏,孩子會很快學會我怎麼樣面對這個失敗,把失敗變成不是失敗,而是自己的一部分收益。
  • 影響時代的發明,靈感來源於下圍棋?
    不止是傳統物流信息行業,對當今移動網際網路時代產生巨大影響的二維碼,靈感其實來源於圍棋。日本NHK電視臺圍棋欄目的主持人稻葉初段在6月拜訪了二維碼的發明人原昌宏先生,下面小編就帶大家去看看他與圍棋的靈感的故事。