AlphaGo是如何戰勝圍棋高手的?深度學習告訴你

2020-12-05 電子發燒友

AlphaGo是如何戰勝圍棋高手的?深度學習告訴你

工程師黃明星 發表於 2018-07-15 07:28:00

AlphaGo(阿爾法狗)戰勝了柯潔,人工智慧贏了,贏家仍然是人類!

深度強化學習DRL,其中一個最最經典的應用就是谷歌DeepMind團隊研發的圍棋程序AlphaGo(阿爾法狗)。AlphaGo的勝利將深度強化學習推上新的熱點和高度,成為AI人工智慧歷史上一個新的裡程碑。

有必要跟大家一起探討一下AlphaGo(阿爾法狗),了解一下AlphaGo背後神奇的AI力量。

圍棋的程序設計:

圍棋是一個完美的、有趣的數學問題。

圍棋棋盤是19x19路,所以一共是361個交叉點,每個交叉點有三種狀態,可以用1表示黑子,-1表示白字,0表示無子,考慮到每個位置還可能有落子的時間、這個位置的氣等其他信息,可以用一個361 * n維的向量來表示一個棋盤的狀態。則把一個棋盤狀態向量記為s。

當狀態s下,暫時不考慮無法落子的地方,可供下一步落子的空間也是361個。把下一步的落子的行動也用361維的向量來表示記為a。

於是,設計一個圍棋人工智慧的程序,就轉變為:任意給定一個s狀態,尋找最好的應對策略a,讓程序按照這個策略走,最後獲得棋盤上最大的地盤。

谷歌DeepMind的圍棋程序AlphaGo(阿爾法狗)就是基於這樣思想設計的。

AlphaGo概述:

AlphaGo(阿爾法狗)創新性地將深度強化學習DRL和蒙特卡羅樹搜索MCTS相結合, 通過價值網絡(value network)評估局面以減小搜索深度, 利用策略網絡(policy network)降低搜索寬度, 使搜索效率得到大幅提升, 勝率估算也更加精確。

MCTS必要性:

AlphaGo(阿爾法狗)系統中除了深度強化學習DRL外,為什麼還需要蒙特卡羅樹搜索?

圍棋棋面總共有19 * 19 = 361個落子位置。假如計算機有足夠的計算能力,理論上來說,可以窮舉黑白雙方所有可能的落子位置,找到最優或次優落子策略。如果窮舉黑白雙方所有可能的落子位置,各種組合的總數,大約是 250^150 數量級,即圍棋的計算複雜度約為250的150次方。假如採用傳統的暴力搜索方式(遍歷搜索方式),用當今世界最強大雲計算系統,算幾十年也算不完。按照現有的計算能力是遠遠無法解決圍棋問題的。早期計算機圍棋軟體通過專家系統和模糊匹配縮小搜索空間, 減輕計算強度, 但受限於計算資源和硬體能力, 實際效果並不理想。

但是到了2006年,蒙特卡羅樹搜索的應用標誌著計算機圍棋進入了嶄新階段。

AlphaGo系統組成:

AlphaGo(阿爾法狗)系統主要由幾個部分組成:

1.策略網絡(Policy Network):給定當前圍棋局面,預測/採樣下一步的走棋。

2.快速走子(Fast rollout):目標和策略網絡一樣,只不過圍棋有時間限制,需要在規定時間內適當犧牲走棋質量情況下,快速落子,速度要比策略網絡要快1000倍。

3.價值網絡(Value Network):給定當前圍棋局面,估計是白勝還是黑勝。

4.蒙特卡羅樹搜索(Monte Carlo Tree Search):不窮舉所有組合,找到最優或次優位置。

把以上這四個部分結合起來,形成一個完整的AlphaGo(阿爾法狗)系統。

蒙特卡洛樹搜索 (MCTS) 是一個大框架,許多博弈AI都會採用這個框架。強化學習(RL)是學習方法,用來提升AI的實力。深度學習(DL)採用了深度神經網絡 (DNN),它是工具,用來擬合圍棋局面評估函數和策略函數的。蒙特卡洛樹搜索 (MCTS) 和強化學習RL讓具有自學能力、並行的圍棋博弈算法成為可能。深度學習(DL)讓量化地評估圍棋局面成為了可能。

小結:

可以說 AlphaGo 最大優勢就是它應用了通用算法,而不是僅局限於圍棋領域的算法。AlphaGo勝利證明了像圍棋這樣複雜的問題,都可以通過先進的AI人工智慧技術來解決。

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 什麼是深度學習?竟能讓Alphago戰勝頂級的職業圍棋選手!
    這個算法便是深度學習Deep Learning。藉助於 Deep Learning 算法,人類終於找到了如何處理「抽象概念」這個艱難問題的方法。而深度學習是指學習樣本數據的內在規律和表達層次,這些在學習過程中獲得的信息對諸如文字,圖像和聲音等數據的解釋有很大的幫助。它的最終目的是讓機器能夠像人一樣具有分析學習能力,像人一樣能夠別文字、圖像和聲音等數據。
  • 深度解讀AlphaGo Zero 教你訓練一個「圍棋高手」
    深度解讀AlphaGo Zero 教你訓練一個「圍棋高手」 在2017年,深度學習和人工智慧都取得了驚人的進步
  • AlphaGo是如何學會下圍棋的
    在使用一種被稱為蒙特卡羅樹搜索的技術後,像Crazystone這樣的系統能夠脫穎而出,結合其他技術,系統可以縮小必須分析的步數的範圍,最終他們可以戰勝一些圍棋高手
  • AlphaGo 圍棋教學工具已發布
    在Deepmind所謂的「教學工具」發布之前,小編曾在腦海出現萬千猜想……但今天揭底才知道,原來只是一個平平淡淡的網頁……(建議複製到電腦上打開,因為據有的棋友反映手機打不開,小編這裡實測手機能打開,只是讀取了較長時間)https://alphagoteach.deepmind.com
  • DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來啦?
    從官網上可以看到,該工具通過利用 231000 盤人類棋手對局、75 盤 AlphaGo 與人類棋手對局的數據,能對圍棋近代史上 6000 種比較常見的開局給出分析。通過這個工具,大家可以探索圍棋奧妙,比較 AlphaGo 的下棋路數與專業選手、業餘選手的不同點,從中學習。官網上對於工具的使用也有相關說明:如何使用這一工具?
  • 深度解讀AlphaGo Zero,教你訓練一個「圍棋高手」
    1.第一個神經網絡(隨機初始化)從大量真實對弈的棋譜中學習,模擬人類高手。這個問題是深層神經網絡擅長解決的,看似困難,卻是很直接的模式識別問題; 事實上,一旦接受了訓練,這個網絡確實學會了一些人類高手的最佳著法。
  • 柯潔終結41連勝圍棋AI:稱其實力遠超初代AlphaGo
    人類AI圍棋之爭,還在繼續。今年5月底,人機圍棋大戰終極對決,最終世界排名第一的柯潔九段和AlphaGo的圍棋終極人機大戰以0:3完敗。賽後,柯潔在接受採訪時直言,AlphaGo太完美,看不到任何勝利的希望。
  • 新版Alphago棋風更穩健
    柯潔與Alphago的人機大戰第一場結束,Alphago執白戰勝了柯潔,勝四分之一子。柯潔經過一天的苦戰在失利已成定局的情況下,依舊堅持下完比賽;經過改進的Alphago則依靠穩健的棋風拿下了對手。新版Alphago採用了增強學習的策略,下棋技巧上遠勝初代依靠監督學習戰勝李世石的初代Alphago,它曾化名Master拿下所有高手,加之谷歌在人工智慧底層架構TensorFlow的提升,讓Alphago速度更快。柯潔身為現圍棋世界冠軍,此次也是有備而來,並宣稱用所有的熱情與Alphago進行了對決。
  • 1:4輸給谷歌AlphaGo圍棋AI 李世石:人工智慧不可戰勝
    1997年IBM的深藍計算機戰勝了西洋棋冠軍,20年後的2016年穀歌的圍棋AI程序「AlphaGo」戰勝了圍棋九段高手李世石,五局比賽人類只贏得了一局,沒想到這就是人類的巔峰了。本月19日,韓國傳奇選手李世石正式向韓國圍棋協會提交辭呈,結束了自己的職業生涯,12歲進入圍棋界,36歲的李世石在24年的徵戰中戰勝了多位人類頂級棋手,先後拿下了韓國國內32個冠軍、18個國際冠軍。
  • 深度學習筆記:深度學習——AlphaGo阿爾法狗
    阿爾法狗(AlphaGo)是第一個擊敗人類職業圍棋選手、第一個戰勝圍棋世界冠軍的人工智慧程序。它主要的原理就是深度學習。2016年3月,AlphaGo與圍棋世界冠軍、職業九段棋手李世石進行圍棋人機大戰,以4比1的總比分獲勝;2016年末2017年初,AlphaGo在中國棋類網站上以「大師」(Master)為註冊帳號與中日韓數十位圍棋高手進行快棋對決,連續60局無一敗績;2017年5月,在中國烏鎮圍棋峰會上,AlphaGo與排名世界第一的世界圍棋冠軍柯潔對戰,以3比0的總比分獲勝
  • 自學高手AlphaGo Zero 100:0戰勝李世石
    AlphaGo Zero 從一張白紙開始,零基礎學習,在短短3天內,成為頂級高手。AlphaGo之父、DeepMind聯合創始人兼CEO 戴密斯·哈薩比斯(Demis Hassabis)說:「AlphaGo在兩年內達到的成績令人震驚。現在,AlphaGo Zero是我們最強版本,它提升了很多。Zero提高了計算效率,並且沒有使用到任何人類圍棋數據。」
  • 圍棋人機大戰一周年:被AlphaGo改變的世界
    王詠剛:AlphaGo用的是AI領域應用非常普遍的算法:深度學習、蒙特卡洛算法、增強學習等。從概念上可以說,機器視覺相關的深度學習技術,包含環境-決策-反饋的智能系統,裡面都有AlphaGo的影子。當然,直接的代碼實現層面,肯定沒有複製、粘貼這樣直接借用的關係,因為AlphaGo的深度學習模型畢竟是圍繞圍棋的特徵建立的。
  • AlphaGo在世界圍棋界戰無不勝,人工智慧真這麼厲害?我看不是!
    阿爾法圍棋(AlphaGo)是一個人工智慧圍棋機器人,是由谷歌旗下的公司團隊開發的,其工作原理是「深度學習」。因兩次戰敗世界圍棋冠軍而成名,目前在圍棋界「獨孤求敗」,風頭一時無人能及。AlphaGo作為人工智慧領域的一個分支,其主要工作原理是通過深度學習技術學習大量已有的圍棋對局,然後應用強化學習通過與自己對弈獲得更多棋局,然後用深度學習技術評估每一個格局的輸贏率,最後通過蒙特卡洛樹搜索決定最優落子。說白了就是AlphaGo背後的一群人工智慧領域專家將圍棋高手的比賽記錄輸入給它,然後它根據深度學習程序進行3000萬步的自學習訓練,這樣就能輕鬆判定棋手的下一步走法。
  • 柯潔終結AI「符合預期」41連勝:若當初第一個與alphago對弈的是我
    【文/觀察者網 周遠方】昨夜,「半狗」柯潔贏了一隻41連勝的「小狗」,輾轉難眠…… 他在今天(18日)凌晨0時23分發微博感嘆: 一個AI滿地走的時代...除了alphago以外,這個暱稱為「符合預期」的AI尤其強,實力應該已經遠超當時與李世石對弈的alphago了吧?...
  • 不敵韓國圍棋人工智慧,戰勝過AlphaGo的人退役了
    最後一戰,他還是選擇了 AI11 月 19 日,李世石向韓國棋院正式遞交辭呈,宣告了自己 24 年職業圍棋生涯的結束。在接受韓聯社採訪時,他表示自己之所以選擇退役,是因為「AI 不可戰勝」:「在圍棋 AI 出現以後,我發覺即使自己成為第一名,也永遠需要面對一個不可戰勝的實體。」
  • AlphaGo已能體會圍棋之美
    「當你覺得它足夠厲害時,即使它真的下了一招爛棋,你也會覺得它有別的什麼意圖,只是自己沒有看出來。然後你會越來越懷疑自己。」在回顧0比5輸給AlphaGo的心理變化時,樊麾這麼告訴騰訊科技。    在賽後接受採訪時,作為裁判的他對AlphaGo的這一步棋讚不絕口。
  • 棋盤上的湧現:圍棋、AlphaGo與遊戲|張江
    這就是圍棋——迄今為止人類發明的最偉大遊戲(沒有之一,至少在我心目中)。據傳圍棋的發明可以追溯到堯的時代,經過4000多年的演化,圍棋的基本規則從來沒有變過,然而在這個小小19*19的棋盤上卻湧現出了何止成千上萬的玩法,凝聚了多少高手的注意力!圍棋之所以好玩就在於它的湧現性——在這組簡單規則之上展現出來的複雜特性。首先,圍棋並不是簡單地碼子,而是在較量圍空的能力。
  • 你以為人類只有圍棋下不過阿爾法狗嗎?DOTA也玩不過它!
    前段時間,阿爾法狗戰勝圍棋天才李世石的消息在網上迅速走紅,當即很多網友稱,在以後,人類再也不能在圍棋界稱霸了,但是幸運的是,阿爾法狗研發公司稱,以後阿爾法狗不會在和人類進行圍棋比賽。可是,你真的以為只有圍棋你們下不過人工智慧機器人嗎?現在就連DOTA你也玩不過它!
  • AlphaGo 為什麼能戰勝人類?
    在與李世石對弈前,AlphaGo 於去年 10 月與歐洲圍棋冠軍樊麾進行了對弈,以 5:0 戰勝了樊麾,而在非正式對局當中, 樊麾則 2 次中盤戰勝了 AlphaGo。 這也被外界認為 AlphaGo 很難戰勝李世石的原因。樊麾的等級為職業棋手二段,李世石為職業九段。
  • AlphaGo Zero戰勝AlphaGo告訴我們什麼?
    AlphaGo通過記住所有圍棋大師的棋術,戰勝了人類;而AlphaGo Zero,只是在最初被輸入基礎算法,它自己按照這個算法迭代成長,最終戰勝了AlphaGo。這是個讓人震驚的結果,意義非凡。由此我們必須深入思考,它告訴了我們什麼?