新民晚報數字報-阿爾法狗:下一盤比圍棋更大的棋(上)

2020-11-24 新民晚報
  ◆ 李斑子

  自從2016年12月29日在圍棋網絡對戰平臺現身之後,截至2017年1月4日晚,一個名為「Master」的神秘帳號在與人類圍棋高手的車輪戰中取得了60勝O負1和的戰績,手下敗將不乏柯潔、樸廷桓、古力等世界頂尖名將,甚至在對局中看不到這些頂尖名將有一點點能和Master扳手腕的可能(Master戰績中唯一的和棋還是因為對手陳耀燁在對戰時掉線)。在和古力最後一戰前,Master承認自己就是升級版的「阿爾法狗」(AlphaGo,谷歌旗下DeepMind公司的一款圍棋人工智慧)。

  人算不如「狗」算

  1月3日晚,在接連贏下樸廷桓和元晟溱之後,Master在圍棋網絡對戰平臺的連勝紀錄達到49場。當晚第50場的對手是「潛伏」,該帳號的持有者被一致認為是世界頭號選手柯潔。根據最新的世界圍棋排名,柯潔是如今世界棋壇積分排名第一的選手,也是榜單上唯一一名排在「阿爾法狗」之前的棋手。

  這場對局在Master的快速攻擊面前,「潛伏」漸漸有些捉襟見肘,最終投子認負。「抬走,下一個。」這是觀戰的網友們為贏棋後的Master設計的對白。

  而在去年「阿爾法狗」對陣李世石的「圍棋人機大戰1.0"之際,柯潔曾表示:「就算它戰勝了李世石,但它贏不了我。」此後他還在微博上放出豪言,「管你是阿法狗還是阿法貓!我柯潔在棋上什麼大風大浪沒見過?讓風暴再來得猛烈點吧……」

  與之形成鮮明對比的是,2016年的最後一天,正當Master大殺四方之時,柯潔在微博中寫道:「新的風暴即將來襲。我從3月份到現在研究了大半年的棋軟,無數次的理論、實踐,就是想知道計算機到底強在哪裡?昨夜輾轉反側,不想竟一夜難眠,人類數千年的實戰演練進化,計算機卻告訴我們人類全是錯的。我覺得,甚至沒有一個人沾到圍棋真理的邊……」

  那麼問題來了,這隻「阿爾法狗」是怎麼下棋的?為什麼這麼強?到底強在哪裡?

  還記得1997年IBM公司的「深藍」計算機戰勝西洋棋世界冠軍卡斯帕羅夫那次劃時代的「人機大戰」嗎?「深藍」贏得比賽用的就是人類最不屑的辦法——窮舉——把棋盤裡可能出現的所有情況都模擬出來,然後對手下的每一步棋都「瞭然於胸」,再選擇最能贏的走法。就像拿著幾個億去買彩票,所有有可能的組合全部下注,最後中了個500萬。

  人工智慧能在西洋棋領域這麼做,完全是因為西洋棋的所有可能性是10^47,以電腦的「腦力」要列舉這麼多種可能性還是夠用的。但要想用一模一樣的辦法稱霸圍棋棋壇,面對圍棋的十九路棋盤,「阿爾法狗」要應付的可能性是2x10^170,換成自然數的形式就是2後邊跟著170個0……要窮舉這麼多的棋譜,電腦的「腦力」顯然是不夠用的。要知道,全宇宙的所有原子總數也不過是10^80個。

  但是,窮舉還是要有的,不過要用一種聰明點的辦法縮小窮舉的範圍。人類不是下了幾千年的圍棋嗎?那就先拿3000萬份棋譜來學習一下人類下棋的基本套路。「阿爾法狗」剛開始通過自身的「人工神經網絡」來「深度學習」圍棋時,就是從網絡圍棋對戰平臺KGS拿來的3000萬份棋譜開始的。不過這顯然是不夠的,所以在繼續找更多的棋譜的同時「阿爾法狗」還開始了和自己下棋玩——通過學習得來的人類下棋套路來模擬博弈,儘可能地得到更加多的棋譜來學習。

  這樣一來,孜孜不倦地學習了數以千萬計的棋譜「阿爾法狗」就對如何合理地下棋這件事有了自己的豐富經驗,這就形成了自己「價值網絡」——估算每一張棋譜裡的每一步棋對最後贏棋有多大幫助,並找出其中的一些規律——這大概就是人類常說的「棋感」。而再看看人類,一輩子也下不了一萬盤棋,還要記要分析要總結規律?想想就心累。

  「阿爾法狗」學習了海量棋譜得來的「棋感」用來模仿和預測人類下棋已經有很高的把握了,據「阿爾法狗」團隊2016年的說法,「阿爾法狗」下圍棋時的落子選擇能正確符合57%的人類高手。就是說有57%的人類高手在面對同樣的棋局時會選擇和「阿爾法狗」一樣的下一步,而不符合人類高手想法的那部分並不意味著「阿爾法狗」是錯的,也更有可能是人類自己犯錯而已。

  有了深厚的內力加持還是不夠的,「阿爾法狗」還需要在對戰時把自己的積澱用到實處。先前說過,「阿爾法狗」和「深藍」在迎戰人類的方法並沒有什麼本質上的差別,都是窮舉。雖然現在「阿爾法狗」已經懂得有規律地窮舉了,但是它的運算能力還是不足以窮舉規律之中的棋局的所有可能走勢,畢竟這個運算量對於計算機來說依然是個天文數字。

  所以,「阿爾法狗」引進了另一個大殺器,蒙特卡洛樹搜索算法。蒙特卡洛算法,是由美國數學家烏拉姆最早提出再經數學天才馮·諾伊曼發展和完善,以賭城蒙特卡洛命名的一種算法。在過於複雜的局面中,人工智慧由於硬體缺陷,無法實現窮舉級別的採樣,而蒙特卡洛算法正是在採樣不足的情況下,通過儘可能多次的隨機採樣,一步一步接近最優解。舉個簡單例子,有一堆鑽石,每次隨機選一枚,選中更大的就留下。那麼經過越來越多次隨機選擇,最終留下的那枚鑽石,就必然越來越接近這堆鑽石中最大的。

  具體到「阿爾法狗」下圍棋這件事上,蒙特卡洛樹搜索算法就是把「阿爾法狗」的「棋感」認為有可能的接下來的棋局都先過一遍(有時是走幾十步之後,有時是走到對局結束),把對自己不利的都刪除掉,剩下的便是勝率最高的走法,而且是每下一步棋時這麼過一遍。

  簡而言之,「阿爾法狗」的工作原理就是利用深度神經網絡的學習能力,建立自己的「價值網絡」來分析每一步的收益,並以此來簡化蒙特卡洛搜索樹算法的搜索空間,達到落子合理性和時間消耗的平衡。雖然我們可以簡單地用一句話來概括「阿爾法狗」的精髓,但是實際上,為了實現這一句話,「阿爾法狗」用了170個GPU(圖形處理器)和1200個標準CPU(中央處理器)——在這種配置下,人一生能見識的棋譜還不如「阿爾法狗」一個小時記住的多。

相關焦點

  • 「阿爾法圍棋」終於輸了一局
    但李世石下白78,80,82的妙手後,『阿爾法圍棋』應得不太好,下了很多『問題手』,從83手至101手,李世石掌握了局面的主導權。其中,『阿爾法圍棋』下黑101是最不可思議的一手。之後,李世石雖然進入讀秒,但頑強應戰,並將優勢保持到最後,至180手時,『阿爾法圍棋』宣告認輸。」
  • 柯潔:對阿爾法圍棋不能模仿 我要下自己的棋
    柯潔騰訊體育5月11日訊(文/車莉)首屆新奧杯世界圍棋公開賽半決賽三番棋第二局比賽從比賽的情況來看,柯潔對新奧杯的冠軍相當渴望,他說:「一個人真想贏棋的時候,狀態是不一樣的。贏棋不在多,在於精,我想在大賽上贏棋。」未來,柯潔將與周睿羊和彭立堯之間的勝者爭奪冠軍,在他看來最重要的對手是自己,「要超越的是自己,無論對手是誰,自己發揮很不好的話,誰也贏不了,這是真話。」5月的賽事密集,如何調整狀態?
  • 阿爾法狗圍棋世界登頂 柯潔與阿爾法終將一戰
    阿爾法狗圍棋世界登頂,柯潔與阿爾法終將一戰。AlphaGo在中國被戲稱為阿爾法狗,在前些年擊敗了韓國名手李世石成為世界第二大圍棋高手,並且今年6月終於與柯潔進行約戰!雖然上不明確確切的缺戰時間,但是應為最近柯潔敗局連連,在分數上已經超越柯潔成為世界第一!
  • 神之一手實現終極逆襲 人類首次戰勝"阿法狗"
    法制晚報訊(記者 張驁)李世石的一招妙手,光芒萬丈。它捍衛了圍棋之美和人類智慧,足以讓觀者熱淚盈眶。  昨天,備受矚目的阿爾法人工智慧圍棋與韓國棋手李世石的第四番較量如期而至。經歷了前三次的失敗,李世石終於扳回一局,捍衛了人類的榮譽,而他在第78手的一招妙棋更是被看做打亂「阿法狗」節奏的神之一手。
  • 第三盤再輸給阿爾法圍棋 柯潔哭了:因為覺得機器下得太完美
    下完白126貼之後,柯潔起身離席,隨後在現場的宣傳板後激動灑淚。良久之後,擔任裁判的陳一鳴去查看情況,隨後柯潔哭出聲來,坐在十幾米之外的觀戰席上的記者能夠聽見他隱忍但清晰的哭聲。就這樣約20分鐘後,柯潔才平復心情重返棋局,堅持下完了比賽。柯潔賽後透露,他在比賽中的失態是因為覺得機器下得太完美了。他說:「我知道自己前面形勢不好,之後它的每一步棋,我只能猜到它一半的棋。
  • 解讀:「阿爾法圍棋」究竟什麼樣
    人工智慧「阿爾法圍棋」(AlphaGo)究竟是何方神聖? 姓名 AlphaGo由兩部分組成,Alpha對應希臘語的首字母,也就是常說的「阿爾法」,Go是日語中對圍棋的稱呼。因此,許多人稱之為「阿爾法圍棋」,還有人根據發音親暱地叫它「阿爾法狗」或「阿狗」。 籍貫 它出生在英國。
  • 柯潔:阿爾法狗太出色,我輸的沒脾氣,它已接近圍棋上帝了
    人類對手中是不可能下的,因為是後手,但事後分析我覺得是好棋,是一石二鳥的棋。」「(阿爾法狗)實在下得太出色了,我輸的也沒什麼脾氣,真的是很厲害。」以下為發布會實錄:問:賽後你苦笑了一下,請問比賽結束時你想的是什麼?李世石比賽時你是點評嘉賓,現在你會怎麼點評自己的比賽?之後比賽有信心獲勝嗎?
  • 焦點科普:人工智慧「阿爾法圍棋」究竟什麼樣
    2010年,德米什·哈薩比斯等人在倫敦創建了「深度思維」公司,該公司開發出了「阿爾法圍棋」軟體。2014年,美國谷歌公司收購了「深度思維」,因此它現在也許可以算是美國籍。  它的成名是在今年1月。哈薩比斯等人在英國《自然》雜誌上發文說,在英國圍棋協會見證下,「阿爾法圍棋」以5:0戰勝歐洲圍棋冠軍、前中國職業棋手樊麾,成為第一個擊敗人類職業棋手的電腦程式。
  • 下圍棋是阿爾法厲害打星際它贏不了人
    原標題:下圍棋是阿爾法厲害打星際它贏不了人《最強大腦》的「人機大戰」中,中國「腦王」王峰惜敗機器人「小度」。很多網友也擔心,機器人再這麼聰明下去,人怎麼和它在友誼的小船上相處?記者專訪了浙江大學人工智慧研究所所長、教授吳飛和浙江大學求是高等研究院系統神經與認知科學研究所的副教授奚望,他們從各自的角度,解答了網友的兩大疑問:第一,在下棋這件事上,人到底能不能戰勝機器;第二,機器人最後會不會取代人。
  • 「人機大戰」收官:「阿爾法圍棋」4勝李世石
    但擁有開局優勢的李世石在賽程中逐漸變得被動,最終被「阿爾法圍棋」逆轉,以執黑280手投子認負。  「這盤棋,『阿爾法』展現出了卓越的大局觀,牢牢控制著全局。」韓國職業棋手金成龍九段評價道,李世石表現地很頑強,數次放出勝負手,堅持以自己的棋風應對。  經過五輪較量,人機對弈終以李世石1勝4負的總成績收尾。
  • AlphaGo贏棋之後要教棋,聯手聶衛平道場培養圍棋人才
    AlphaGo贏棋之後要教棋  在活動現場,一名兒童提問:「AlphaGo能教我下棋嗎?」谷歌CEO皮查伊回答道:「它能教你打敗柯潔。」在人機大戰中擊敗了柯潔之後,AlphaGo圍棋AI(人工智慧)要證明,它也能教下圍棋。
  • 劉知青解讀「阿爾法圍棋」原理:棋感+搜索
    ­  人民網北京3月14日電(張帆)自圍棋「人機大戰」開賽以來,在關注勝負之外,公眾都很感興趣的是「阿爾法圍棋」到底是怎麼運算的?今天,北京郵電大學教授、計算機圍棋研究所所長劉知青做客人民網《體育+》訪談,為網友進行了專業解讀。
  • 谷歌阿爾法圍棋AlphaGo背景資料照片 兩個大腦介紹(圖)
    更重要的是,站在計算機的角度來看,與象棋相比,圍棋的難度要大很多,每個步數的潛在組合非常複雜,曾有專家說AI十年內都無法掌握圍棋。  阿爾法圍棋(AlphaGo)是一款圍棋人工智慧程序,由位於英國倫敦的谷歌(Google)旗下DeepMind公司的戴維·西爾弗、艾佳·黃和戴密斯·哈薩比斯與他們的團隊開發,這個程序利用「價值網絡」去計算局面,用「策略網絡」去選擇下子。
  • 阿爾法狗輸過才能有排名 張怡寧也曾沒有排名
    阿爾法狗輸過才能有排名 張怡寧也曾沒有排名 2016-03-15 10:10:25  對於人類圍棋來說,李世石九段憑藉神之一手拿下的勝局,可謂歷史性的一步,好歹為人類智慧挽回尊嚴。而對於阿爾法圍棋來說,這場失利同樣具有歷史意義,憑藉這場失利,阿爾法圍棋終於有了世界排名——8勝1負的阿爾法圍棋以3533分排名世界第四,李世石以3521分排名第五。目前,領先阿爾法圍棋的只有中國選手柯潔、韓國選手樸廷桓以及日本選手井山裕太。
  • 新版「阿爾法圍棋」從零開始40天稱王
    自己與自己對弈英國「深度思維」公司開發出「阿爾法圍棋」,該公司團隊在新一期英國《自然》雜誌上發表題為《在沒有人類知識條件下掌握圍棋遊戲》的論文,介紹了最新版的「阿爾法圍棋-零」。該公司將「阿爾法圍棋」的發展分為四個階段:第一個版本是「阿爾法圍棋-樊」,它在2015年戰勝歐洲圍棋冠軍樊麾,標誌著人工智慧首次戰勝人類職業棋手;第二個版本是「阿爾法圍棋-李」,它在2016年戰勝曾多次奪得世界冠軍的韓國棋手李世石,標誌著人工智慧戰勝人類頂級棋手;第三個版本是「阿爾法圍棋-大師」,在今年戰勝現在世界排名第一的柯潔,並在與多位有世界冠軍頭銜的人類棋手「群戰」中完勝。
  • 圍棋人機大戰第二季4月烏鎮開打,中國柯潔將挑戰阿爾法狗
    人機大戰第二季,也將是人、機最後一戰,柯潔與阿爾法狗三番棋大戰之後,人類還將組團「群毆」阿爾法狗,看一看,人類到底能不能贏機器人一次。據悉,組隊賽可能採用兩日制用時,即,一盤棋對弈一方用時累積可達9小時,通俗地理解,就是說一盤棋要下兩天。人類將背水一戰人機大戰第二季,無論是柯潔與阿爾法狗的一對一「單挑」,還是針對阿爾法狗的車輪大戰,都延長了行棋的時間。
  • 李世石VS阿爾法圍棋人機大戰第一場完整棋譜步驟分析
    ,在韓國首爾四季酒店,阿爾法圍棋執白中盤勝李世石,在這場五盤大戰中暫時以1-0領先。,如果對手是人,李世石肯定毫不猶豫選白棋,因為在中國規則貼7.5目的情況下,執白更從容已經是職業棋手的共識。但是李世石選擇了黑棋,可能是想借先行主導布局。布局是公認的李世石的技術薄弱環節,多年來改觀不大,所以他給阿爾法圍棋準備了職業比賽幾乎沒出現過的下法:黑7反方向構成「迷你中國流」。  雖然白10、12託退的招法不太職業,但之後走到22位的鎮,白方布局還可以。古力認為黑23可以單跳,接下來封鎖白18和中腹出頭二者必得其一。
  • 阿爾法圍棋ALPHAGO 紀錄片
    阿爾法圍棋 Chapter 1   什麼是圍棋?那就像是把你的手放到宇宙的禁區上。如果你認真地下圍棋,那麼你就可能獲得在地球上獨一無二的那種體驗。要攻克圍棋需要人類的直覺,若能攻下圍棋,那就非同凡響了。圍棋是世界上最古老、最持久的棋盤遊戲。某種程度上講,它也是最簡單的,最為抽象的遊戲之一。他只有一種棋子,一種移動,只需要把棋子落到棋盤上,你的目標就是要用自己的棋子連結圈起一片空的領域。當你圍住對手的棋子後,你就能俘虜它們,把它們撤下棋盤。
  • 比不過阿爾法狗, 為什麼還要學圍棋?
    閱讀提示:在不斷廝殺的圍棋賽場上,人工智慧的加入帶來了鯰魚效應,攪動棋手尋找更新、更奇的黑白布局。聚光燈下,意料之中,柯潔零比三輸掉了這場人機對弈。   可曾記得二十二年前,還是人機對戰,同樣地,人類輸。1997年,棋王加裡·卡斯帕羅夫與電腦程式「深藍」對弈西洋棋,最終棋王以2.5:3.5(1勝2負3平)的戰績輸掉了比賽。
  • 深挖圍棋AI技術:alphaGo在下一盤什麼棋?
    我們有大量人類圍棋高手的對局(海量中等水平的對局),每一個局面下「好」的走法直接就能夠從高手對局庫裡得到,認為他們的對局都是「好」的走法。但是要得到一個局面的「絕對」得分卻很難,因為我們只知道一盤對局最終的結果。