DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來啦?

2020-12-15 雷鋒網

雷鋒網 AI 科技評論消息,北京時間 12 月 11 日晚,DeepMind 在 twitter 上宣布推出圍棋教學工具 AlphaGo Teach。

上圖中,標有白圈的黑子表示上一手,虛線圓圈表示 AlphaGo 下一步可能的走法,實線圓圈表示人類選手下一步可能的走法,圓圈中的數字表示 AlphaGo 評估的黑子勝率。

從官網上可以看到,該工具通過利用 231000 盤人類棋手對局、75 盤 AlphaGo 與人類棋手對局的數據,能對圍棋近代史上 6000 種比較常見的開局給出分析。通過這個工具,大家可以探索圍棋奧妙,比較 AlphaGo 的下棋路數與專業選手、業餘選手的不同點,從中學習。

官網上對於工具的使用也有相關說明:

如何使用這一工具?

點擊棋盤上的彩色圓圈,或使用棋盤下方的導航工具,即可探索不同的開局變化,以及 AlphaGo 對於每一步棋的黑棋勝率預測。

圓圈中的數字代表了該步棋的黑棋勝率。當輪到黑棋落子時,數值越接近 100 表示黑棋優勢越大;當輪到白棋落子時,數值越接近 0 表示白棋優勢越大。50 則表示均勢。

了解 AlphaGo 的勝率預測

AlphaGo 的下法不一定總是具有最高的勝率,這是因為每一個下法的勝率都是得自於單獨的一個 1000 萬次模擬的搜索。AlphaGo 的搜索有隨機性,因此 AlphaGo 在不同的搜索可能會選擇勝率接近的另一種下法。

除了官網上的簡單介紹,作為 DeepMind 圍棋大使、AlphaGo 的「教練」,樊麾也在其個人微博上宣布「AlphaGo 教學工具終於上線。」

他表示,

教學工具共有兩萬多個變化,三十七萬多步棋組成,通過 AlphaGo 的視角,分析並建議圍棋開局的諸多下法。同時每步棋 AlphaGo 都會給出自己的勝率分析,希望 AlphaGo 對圍棋的獨特理解可以給我們一些啟發。本教學工具使用的版本是 AlphaGo Master。具體信息可以在主頁上看到,工具設有包括中文簡體在內的多個語言。

同時,樊麾也從 AlphaGo 的教學中舉了幾個有意思的例子,並進行了幽默地解說。「下邊的幾個圖是我從萬千變化圖中發現比較有衝擊力的幾個,類似的變化圖有很多很多,大家可以自己找找。」

原來二路虎不見得好!

對付迷你中國流的新辦法!

小林流也不是只有大飛掛!

原來這裡還可以飛!

妖刀定式!

而在看到樊麾老師的微博之後,大家也開始了各色各樣的調侃。

@ 樓天,「有 21 天從入門到精通系列課程嗎?」@ 我就是那一片浮雲,「完了,十段棋手猛烈增加。」@ 自動高速公路,「做成 app 就可以成為圍棋比賽作弊器了。」@ 於縛風,「圍棋輔導班的老師沒法講課了。」(圍棋老師表示哭暈在廁所)

看完了大家的調侃,來看看專業棋手們怎麼說。

世界圍棋冠軍、職業九段棋手常昊表示,教學工具不一定是標準答案,更多的是給予了我們無限的思考空間。

首屆百靈愛透杯世界圍棋公開賽冠軍周睿羊說到,「定式什麼的還是不要隨便學了,看到工具一些高級下法之後,感覺到又可以起飛了。」

第 3 屆鑽石杯龍星戰冠軍,圍棋國手李喆也對這一教學工具發表中肯評價:很多人會擔心今後布局的標準化,其實不必擔心。教學工具並不是告訴大家「只能這麼下」,而是告訴大家「有些下法不太好」以及「可以這麼下」。有些圖中沒有的下法只是因為模擬的隨機性而未被收錄,它們之中包含很多高勝率的選點,仍可以大膽嘗試。

此外,今年五月份被 AlphaGo Master 打敗的柯潔第一時間轉發微博表示「重新學圍棋。」(還用了一個賤賤的 doge 表情)

而這個工具到底好不好用,大家可以去自行體驗。

官網英文地址如下:https://alphagoteach.deepmind.com/

中文地址如下:https://alphagoteach.deepmind.com/zh-hans

附 David Silver 介紹 AlphaGo Master 的研發關鍵:

AlphaGo Master 為何如此厲害呢?

我們讓 AlphaGo 跟自己對弈。這是基於強化學習的,我們已經不再拿人類的棋局給它學習了。AlphaGo 自己訓練自己,自己從自己身上學習。通過強化學習的形式,它學到如何提高。

在棋局的每一回合,AlphaGo 運行火力全開(full power)的搜索以生成對落子的建議,即計劃。當它選擇這一步落子、實施、併到一個新回合時,會再一次運行搜索,仍然是基於策略網絡和價值網絡、火力全開的搜索,來生成下一步落子的計劃,如此循環,直到一局棋結束。它會無數次重複這一過程,來產生海量訓練數據。隨後,我們用這些數據來訓練新的神經網絡。

首先,當 AlphaGo 和它自己下棋時,用這些訓練數據來訓練一個新策略網絡。事實上,在 AlphaGo 運行搜索、選擇一個落子的方案之前,這些是我們能獲取的最高質量的數據。

下一步,讓策略網絡只用它自己、不用任何搜索,來看它是否能產生同樣的落子的方案。這裡的思路是:讓策略網絡只靠它自己,試圖計算出和整個 AlphaGo 的火力全開搜索結果一樣的落子方案。這樣一來,這樣的策略網絡就比之前版本的 AlphaGo 要厲害得多。

我們還用類似的方式訓練價值網絡。它用最好的策略數據來訓練,而這些數據,是出於完全版本的 AlphaGo 自己和自己下棋時的贏家數據。你可以想像,AlphaGo 自己和自己下了非常多盤棋。其中最有代表性的棋局被選取出來提取贏家數據。因此,這些贏家數據是棋局早期回合步法的非常高質量的評估。

最後,我們重複這一過程許多遍,最終得到全新的策略和價值網絡。比起舊版本,它們要強大得多。然後再把新版本的策略、價值網絡整合到 AlphaGo 裡面,得到新版本的、比之前更強大的 AlphaGo。這導致樹搜索中更好的決策、更高質量的結果和數據,再循環得到新的、更強大的策略、價值網絡,再次導致更強大的 AlphaGo,如此不斷提升。

更多詳細信息,可以參見雷鋒網 AI科技評論此前發文:現場|David Silver原文演講:揭秘新版AlphaGo算法和訓練細節

雷鋒網 AI科技評論後續也會帶來持續報導。

相關焦點

  • AlphaGo推出圍棋教學工具 棋館要被踢館了?
    在血洗了整個棋壇之後,AlphaGo並沒有「深藏功與名」,而是推出了一套AlphaGo教學工具,作用就是教人下圍棋。Deepmind公司在昨天夜間上線了AlphaGo教學工具,分享AlphaGo的數據,旨在幫助公眾用新的、啟發性的方式下圍棋。
  • Deepmind改寫圍棋定式開玩星際2!
    然後,Deepmind宣布與暴雪聯合弄出了機器學習打星際的API,連遊戲也要淪陷了……需要點圍棋基礎知識在理解本文之前,我們需要鋪墊一些基礎知識。關於圍棋基本規則的,大家可以通過網上的幾分鐘教學視頻大致了解一下,簡單來說,就是無氣要被提子,兩個眼才是活期。那麼什麼是定式呢?定式的落子位置、方向、次序不能錯定式這個詞起源於中國古代。
  • 阿爾法狗教學工具上線,柯潔:重新學圍棋
    北京時間12月11日晚間,Deepmind公司在自己官網上線了AlphaGo教學工具,旨在幫助公眾用新的、啟發性的方式下圍棋。這樣的舉措,也進一步兌現了Deepmind在烏鎮人機大戰結束時的承諾:與全世界圍棋愛好者共同分享AlphaGo的數據。AlphaGo的啟蒙老師、歐洲圍棋冠軍樊麾在微博上透露:「AlphaGo教學工具共有兩萬多個變化,三十七萬多步棋組成,通過AlphaGo的視角,分析並建議圍棋開局的諸多下法。
  • 阿爾法狗教你下棋 谷歌上線AlphaGo圍棋教學工具
    【PConline 資訊】看起來AlphaGo在圍棋界真的是無敵了,如果這麼強大聰明的AI變成了圍棋老師,對於人類來說是不是又是另一種體驗呢?12月13號,谷歌旗下的DeepMind上線了這款在線AlphaGo圍棋教學工具(點擊此訪問)。
  • AI戰勝歐洲圍棋冠軍 圍棋界怎麼說
    像桌球一般,與亞洲一線的職業高手相比,自然會有些差距,但一般業餘圍棋高手也遠非其對手。「alphago」的勝利書寫了圍棋AI第一次戰勝職業圍棋選手的記錄,正如《科學》雜誌所評價,這是圍棋AI一次巨大的飛躍。對其實力,百度圍棋吧棋友生動比喻:「nba普通球員,跑去cba,在cba當了兩年主力。」「其實可以拿羽毛球、桌球之類的來說。
  • 圍棋下不過,DeepMind發布新工具幫助人類開啟「上帝視角」!
    (《麻省理工科技評論》中英文版APP現已上線,年度訂閱用戶每周直播科技英語講堂,還有科技英語學習社區哦~)DeepMind 發布了一個名為 AlphaGo Teach 的工具,旨在幫助人們學習 AlphaGo 的下圍棋策略。
  • 胡耀宇:AlphaGo圍棋教學工具能帶來什麼?
    12月11日,樊輝在微博宣布「AlphaGo教學工具」上線,大家都可以在網頁上打開並使用。
  • 陳經:根據AlphaGo弈城圍棋網的疑似測試對局預測谷李大戰比分
    弈城圍棋網有一個帳號叫deepmind。2016年1月28號谷歌Deepmind小組開發的圍棋程序AlphaGo戰勝職業選手的勁爆消息出來之後,這個帳號名引發了棋迷的關注。之後AlphaGo的共同第一作者Aja Huang發貼說,這個帳號是他本人的,但否認是AlphaGo。對此我們根據deepmind的歷史戰績進行一些推測。
  • AlphaGo之後,DeepMind重磅推出AlphaFold:基因序列預測蛋白質結構
    如今,該公司已將人工智慧技術應用到最具挑戰性的科學研究問題中,其剛剛推出的 AlphaFold 可以僅根據基因「代碼」預測生成蛋白質的 3D 形狀。DeepMind 表示,AlphaFold 是「該公司首個證明人工智慧研究可以驅動和加速科學新發現的重要裡程碑」。
  • AlphaGo對圍棋研究謝幕 留下輔助學棋的軟體
    這再次在圍棋培訓市場掀起軒然大波。日前,谷歌全球總裁桑達·皮查伊突然造訪聶衛平上海道場,宣布贊助該道場的青少年圍棋普及比賽。皮查伊在現場向聶衛平展示了一款可以安裝在手機上的圍棋教學軟體。12月11日晚,DeepMind團隊成員、職業棋手樊麾宣布「AlphaGo教學工具」上線。作為第一個體驗谷歌圍棋教學軟體的中國棋手,聶衛平告訴記者,他當時看了半天也沒看明白。
  • AlphaGo 是如何被訓練成圍棋之神的?
    隨後以「新布局」開創棋壇新紀元。難道阿爾法狗會再造一個「新新布局」?作為一個關心人工智慧和人類命運的理科生,近些天刷了好些報導,記者們說「阿爾法狗是個『價值神經網絡』和『策略神經網』絡綜合蒙特卡洛搜索樹的程序」,但我覺得光知道這些概念是不夠的。我想看看「阿爾法狗」的廬山真面目。準備好棋盤和腦容量,一起來探索吧?
  • 阿爾法狗又逆天,谷歌推教人類下圍棋工具!
    今天下午13時,「尋找圍棋小先鋒」的活動,在上海世博園萬國體育館舉行。聶衛平道場創始人、圍棋九段聶衛平先生、谷歌CEO桑達爾·皮查伊先生和谷歌大中華區總裁石博盟先生參加了此次發布會。如此規格的嘉賓陣容,足以見得谷歌方面和聶衛平對此次圍棋青少年大賽極高的重視程度。
  • 《孟子》故事:教學工具:圍棋、象棋
    有兩個人慕名而來拜他為師學習下棋,其中一個專心致志,心無旁騖,另一個看起來是認真學習,但心裡卻琢磨著用弓箭將大雁射下來烤肉吃。慢慢的這兩個人的棋藝差距越來越大。說起下棋,中國的棋類有很多,流傳最廣的是圍棋和象棋,古人把下棋稱為對弈,弈就是指圍棋。據說圍棋是堯為了教育兒子朱丹而發明的,象棋則是周公為了教育侄子周成王發明的。如此看來圍棋、象棋最初的定位是教學工具,而不是消遣時光的遊戲。
  • 圍棋技術教學原理
    我的專業是教小朋友下圍棋,下面這些教學原理全是針對面向小朋友的教學,主要是針對從零基礎到1段的教學。
  • 半目圍棋對弈教學平臺
    半目圍棋對弈教學平臺:是一款網絡在線實時、遠程、多媒體對弈、教學平臺,是為圍棋教學的整個過程精心打造的專業化輔助平臺
  • 清華大學柯潔選修圍棋課,央視稱老師hold得住,網友:老師是誰?
    不少網友也加入了聲討一族,認為柯潔選擇圍棋課是「混學分」,稱其為「鐵分奴」,直言「太過分了」「讓老師難堪」。一些耿直的網友更是打趣:「大家好,我是圍棋選修課老師,我叫alphago!」那麼,柯潔選修圍棋課,真就是混學分嗎?老師不是alphago就真教不了柯潔嗎?
  • 谷歌阿爾法圍棋AlphaGo背景資料照片 兩個大腦介紹(圖)
    接下來,就讓我們了解一下,這個逆天的谷歌人工智慧AlphaGo【背後團隊Deepmind有多牛】到底是為何物?  1936年,艾倫·圖靈提出了一種可以輔助數學研究的機器(後來被稱為「圖靈機」),80年過去了,人類在人工智慧領域已經取得突飛猛進的發展。
  • 學習圍棋對孩子的影響
    圍棋是腦力的體操,它複雜、益智、有趣、容易激發孩子濃厚的學習興趣。在學習圍棋的同時傳統教育的精華德育教育與習慣性教育貫穿在整個教學過程中,逐步培養孩子良好的行為規範和健全人格,樹立正確的人生觀和道德觀,使孩子變的更懂事,更有禮貌,更能尊重他人。
  • DeepMind 第四代:不學規則就能下棋玩遊戲
    谷歌稱 MuZero 可以未知環境中計劃獲勝策略,無需學習規則,便能掌握 Go(圍棋), chess(西洋棋), shogi(日本將棋)和 Atari(電子遊戲)。這和 MuZero 的前幾代——AlphaGo,AlphaGo Zero,AlphaZero 有很大的區別。
  • 阿老師威武,圍棋協會為AlphaGo授予職業九段證書
    網易科技訊 5月27日消息,烏鎮圍棋峰會最後一天,也是萬眾矚目的柯潔AlphaGo最後一場,面對「圍棋上帝」AlphaGo,柯潔使出全身解數仍無濟於事最終投子認負,本次人機大戰最終以柯潔三連敗告終。賽後閉幕式上,所有參賽棋手和Deepmind創始人哈薩比斯和谷歌大中華區總裁石博盟出席。中國圍棋協會為AlphaGo授予職業九段證書。中國棋院院長王汝南稱:「AlphaGo對圍棋的深度探索,給棋界帶來寶貴財富,並幫助圍棋傳播,中國圍棋協會特授予AlphaGo職業九段證書。 」不過九段似乎已經不能說明AlphaGo的實力,聶衛平曾說要「二十段」。