AI的棋局,其實也是一部熱血成長史

2021-01-08 網易

  不知你有沒有看過最近的兩部影視劇:《后翼棄兵》與《棋魂》,或者是出版更久遠些的《棋魂》原作動漫呢?方正的盤格上,一招一式中暗藏玄機,沉穩縝密的執棋者共同營造著奧妙無窮的哲學空間,而棋局背後,最讓人觸動的或許更是棋手們那股在勝敗之間全力堅守的勁頭。

  那麼,你想了解一下AI的棋局嗎?拋開新聞裡充斥的「戰勝人類」威脅論,試試以一種只把AI看作一個棋手的方式。你或許會發現,它其實也一樣,在長久的光陰裡,一步步成長,與對手戰鬥,也挑戰自己。還有點不同的是,它的成長不止屬於自己,而是更像一個象徵,凝結著近百年間人類科學家探索人工智慧技術的智慧與成績,講述著人類挑戰智能技術更高峰的熱血堅持。

  第一階段 初露頭角

  挑戰任務:西洋跳棋

  西洋跳棋是一種在8x8格的兩色相間的棋盤上進行的技巧遊戲,以吃掉或堵住對方所有棋子去路為勝利,棋子每次只能向斜對角方向移動,但如果斜對角有敵方棋子並且可以跳過去,那麼就把敵方這個棋子吃掉。

  大戰回顧:


  成功秘訣:自我對弈

  在和羅伯特·雷尼的比賽之後,尼雷表示,計算機走得極其出色,甚至沒有一步失誤。這是他自1954年以來8年中遇到的第一個擊敗他的「對手」。那麼,這次跳棋盤上的勝利,秘訣在哪裡呢?

  通過自我對弈學習評價函數是西洋跳棋AI程序的核心技術,自我對弈學習評價函數的基本原理是利用兩個副本進行對弈,學習線性評價函數每個特徵的權重,其中一個副本使用固定的評價函數來學習特徵的權重,另一個副本則是通過與使用極小極大(minimax search)算法作對比來學習特徵的權重。事實上,後來的AlphaGo圍棋AI程序以及深度學習領域的生成式對抗網絡(GAN)都採用了類似的思想。

  第二階段

  一場持續半世紀的挑戰

  挑戰任務:西洋棋


  西洋棋起源於亞洲,後由阿拉伯人傳入歐洲,成為國際通行棋種,也是一項受到廣泛喜愛的智力競技運動。

  西洋棋棋盤由橫、縱各8格、顏色一深一淺交錯排列的64個小方格組成,棋子共32個,分為黑、白兩方,每方各16個。和8x8的西洋跳棋相比,西洋棋的狀態複雜度(指從初始局面出發,產生的所有合法局面的總和)從1021上升到1046,博弈樹複雜度(指從初始局面開始,其最小搜索樹的所有葉子節點的總和)也從1031上升到10123。人工智慧研究者對西洋棋的挑戰持續了半個世紀。

  大戰回顧:


  成功秘訣:

  成功秘訣之一:西洋棋加速晶片

  「深藍」計算機在硬體上將通過計算機處理器與象棋加速晶片相結合,採用混合決策的方法,即在自動處理器上執行運算分解任務,交給西洋棋加速晶片並行處理複雜的棋步自動推理,然後將推理得到的可能行棋方案結果返回通用處理器,最後由通用處理器決策出最終的行棋方案。97型「深藍」與96型相比,運算速度差不多提高了兩倍,西洋棋加速晶片的升級功不可沒。升級後的西洋棋加速晶片能夠從棋局中抽取更多的特徵,並在有限的時間內計算出當前盤面往後12步甚至20步的行棋方案,從而讓「深藍」更準確地評估盤面整體趨勢。

  成功秘訣之二:知識規則引擎

  「深藍」在軟體設計上採用了超大規模知識庫結合優化搜索的方法。一方面,「深藍」儲存了西洋棋100多年來70萬份國際特級大師的棋譜,能利用知識庫在開局和殘局階段節省處理實踐並得出更合理的行棋方案;另一方面,「深藍」採用Alpha-Beta剪枝搜索算法和基於規則的方法對棋局進行評價,通過縮小搜索空間的上界和下界提高搜索效率,同時可根據棋子的重要程度、旗子的位置、棋子對的關係等特徵對棋局進行更有效的評價。

  規則引擎是一種嵌入在應用程式中的組件,能夠實現將業務決策從應用程式代碼中分離出來,其核心是獲取knowledge(知識)。此外,規則引擎使用產生式規則「IFTHENRULE」表達邏輯將知識應用到特定的數據上。

  第三階段 觸摸「棋魂」?

  挑戰任務:圍棋


  8x8格西洋棋的狀態複雜度為1046,博弈樹複雜度為10123。到了19x19格的圍棋,其狀態複雜度已上升到10172,博弈樹複雜度則達到驚人的10360,因此被視為人類在棋類人機對抗中最後的堡壘。

  破局出現在2016年,Deep Mind公司開發出的AlphaGo在沒有任何讓子的情況下,以5:0完勝歐洲圍棋冠軍、職業二段選手樊麾。並在接下來的一系列博弈中勢如破竹。而後,AlphaGo Zero作了更進一步的升級和改進,將策略網絡和價值網絡整合在一起,使用純粹的深度強化學習方法進行端到端的自我對弈學習。

  大戰回顧:


  成功秘訣:

  成功秘訣之一:蒙特卡羅樹搜索

  在機器博弈中,每步行棋方案的運算時間、堆棧空間都是有限的,只能給出局部最優解,因此,2006年提出的蒙特卡羅樹搜索就成為隨機搜索算法的首選。蒙特卡羅樹搜索是一種用於某些決策過程的啟發式搜索算法,它被廣泛用於科學和工程研究的算法仿真中,是現行圍棋程序的核心組件。有專家曾通俗地解釋什麼是蒙特卡羅樹搜索:假如籃子裡有1000個蘋果,讓你每次閉著眼睛找一個最大的,不限制挑選次數。於是,你可以閉著眼隨機拿一個,然後下一次再隨機拿一個與第一個比,留下大的,循環往復,拿的次數越多,挑出最大蘋果的可能性也就越大,但除非你把1000個蘋果都挑一遍,否則你無法讓肯定最終挑出來的就是最大的一個。這就是蒙特卡羅樹搜索。它給予了智能體推理的能力,智能體不僅可以根據過去的經驗採取更好的策略,也可以根據對未來的推測幫助自己選擇合適的方案。

  成功秘訣之二:策略網絡與價值網絡

  策略網絡是一個模型,它使用深度學習、監督學習、增強學習等方法來預測下一步棋「大概」該走哪裡。策略網絡的輸入是當前的棋局,輸出的是棋子最可能的步法,棋盤上的每一個空位都對應一個概率。AlphaGo面對一個局面時下一步大概怎麼走已經瞭然於胸,這是因為它已經從KGS圍棋伺服器上向職業選手學習了3000萬個局面的下一步,而且學習成果非常驚人;不僅記住了某個局面的下一步怎麼走,還記住了相似局面的下一步步法,所以當AlphaGo學習的局面足夠多時,就掌握了所有不同局面的下法。這種學習叫做「監督學習(supervised learning)」對於AlphaGo而言,它所學習的職業棋手的棋譜就是它的老師。

  價值網絡也是一個監督的強化學習的模型,多次線下自我對弈學習的結果為價值網絡提供監督信息。它的模型結構與策略網絡類似,但學習目標不同,策略網絡的目標是當前局面的下一步棋如何走,而價值網絡學習的目標是走這一步後贏的概率,主要用於在線下下棋時得到平均的形勢判斷。

  成功秘訣之三:強化學習

  強化學習是機器學習的一個重要分支。有監督學習的目標是從一個已經標記的訓練集中進行學習,無監督學習的目標是從一堆未標記樣本中發現隱藏的結構,而強化學習的目標則是在當前行動和未來狀態中獲得最大回報。在邊獲得樣例邊學習的過程中,不斷迭代「在當前模型的情況下,如何選擇下一步的行動才對完善當前的模型最有利」的過程直到模型收斂。

  總體來說,AlphaGo在以下四個方面取得重要突破:

  01

  自學習能力

  AlphaGo的對弈知識是通過深度學習方法自己掌握的,而不是像「深藍」那樣編在程序裡,它是通過大量棋譜和自我對弈完成的。這種深度學習能力,使得AlphaGo能不斷學習進化,產生了很強的適應性,而適應性造就了複雜性,複雜自適應性又是智能演化最普遍的途徑。

  02

  捕捉經驗能力

  找到了一種捕捉圍棋高手的經驗,即「棋感直覺」的方法。所謂棋感,就是通過訓練得到的直覺,「只可意會,不可言傳」。AlphaGo通過深度學習產生的策略網絡(走棋網絡),在對抗過程中可以實現局部步法的優化;通過增強學習方法生成的估值網絡,實現對全局不間斷的評估,用於判定每一步棋對全局棋勝負的影響。此外,還可以通過快速走子算法和蒙特卡羅樹搜索機制,加快走棋速度,實現對弈質量和速度保證的合理折中。這些技術使得計算機初步具備了既可以考慮局部得失,又可以考慮全局整體勝負的能力。而這種全局性的「直覺」平衡能力,正是過去人們認為人類獨有、計算機難以做到的。

  03

  發現創新能力

  發現了人類沒有的圍棋步法,初步展示了機器發現「新事物」的「創造性」。從觀戰的超一流棋手討論和反應可以看出,AlphaGo的下發有些超出了他們的預料,但事後評估又認為是好棋。這意味著AlphaGo的增強學習算法,甚至可以從大數據中發現人類千百年來還未發現的規律和知識,為人類擴展自己的知識體系開闢了新的認知通道。也難怪會有人感嘆AlphaGo難道是《棋魂》中的SAI轉世?

  04

  方法具有通用性

  這與很多其他博弈程序非常不同,通用性意味著對解決其他問題極具參考價值,AlphaGo運用的方法,實際上是一種解決複雜決策問題的通用框架,而不僅是圍棋領域的獨門秘籍。自學習的能力,使得計算機有了進化的可能,通用性則使其不再局限於圍棋領域。

  //////////

  從國際跳棋到堪稱是世界上最複雜棋盤遊戲的圍棋,AI棋手不斷突破著技術的上限。棋盤競賽的喧囂背後,是機器博弈技術的進步和發展歷程。

  最後,和你分享我們在2001年的《棋魂》動畫版中,發現的這樣一段對話:


  ——「神之一手會從這裡面(電腦)誕生」

  ——「據說電腦下圍棋要超過人類還要花一百年吶」

  來源:中國科學院自動化研究所

  編輯:C&C

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關焦點

  • 《圍棋少年》與《棋魂》:意識流與寫實派,少年的成長與熱血
    而在幾乎是同時期的來自於中國了另一部關於圍棋的作品,同樣也成為了許多孩子們童年的回憶,也接著對圍棋產生了濃厚的興趣。這部作品就是由馬風清導演的動畫作品《圍棋少年》。
  • 小兵追著大王懟 《逍遙情緣》歡樂棋局揭秘英雄法則
    《逍遙情緣》中的熱血戰鬥雖然刺激,但總歸會有膩煩的時候,如果你最近升級累了,不妨試試輕鬆愉快的歡樂棋局吧!歡樂棋局活動雖然只在每周一、周五的晚上才會開放,不過平時也能去玩的,只不過拿不到獎勵而已...那麼,你能不能成為棋盤上的常勝將軍呢? 【以大吃小 循環克制】
  • 一部被忽略的神作熱血動漫《第一神拳》細節堪比龍珠,火影,海賊
    整個端午沉溺於補番,熱血漫畫一直是心頭愛。如果要我推薦,肯定是神作龍珠以及民工的死火海,為主流。這些其實我已經基本都是三四刷過了,其實還有家教,銀魂,灌籃,排球,妖尾,小英雄,四葉草,鋼煉,jojo……啥的,其實熱度有5以上的,新番舊番我基本都看過。
  • 熱血街區:一部讓人振奮不已的青春電影!
    熱血街區:一部讓人振奮不已的青春電影!一樣的熱血高校套路 各大聯合聚集在一起衝擊共同的敵人 首先幹部們都先刷小怪 中途還互相幫助一下 然後幹部刷幹部 最後大將對大將 然後用充滿愛意的拳頭打醒對方 所有人拖著疲憊的身軀回到自己的老窩 結束!
  • 你有記錄過你家狗狗的成長史嗎?沒有的話看看別家狗狗的成長史!
    你有記錄過你家狗狗的成長史嗎?沒有的話看看別家狗狗的成長史!你有記錄過你家狗狗的成長史嗎?沒有的話看看別家狗狗的成長史。現在的人們的經濟條件也是越來越好了,很多人們都養起了各種各樣的寵物,其中,貓貓狗狗還有豬是比較常見的,這些寵物在生活中也是增添了許多的樂趣,為生活增添了一筆色彩。那麼它們長大的時候你有給它們記錄過它們的成長史嗎?這隻小金毛在被領會沒多久的時候,網友就給它拍了一張照片,小時候的樣子很是呆萌,腦袋還抬得那麼高。
  • 科技創新史,也是一部人類生活的時間「減」史——2019科技生活盤點
    全球首例無人駕駛貨運卡車,今年開始在瑞典的公共道路上運送貨物,無駕駛艙,徹底擺脫人工操作;麻省理工學院開發出一種磁控線型機器人,可在腦血管等通道中穿行自如,這意味著我們距離遠程機器人腦部手術更近了一步;廣州開通了一條常規公交5G運營線路,路途上乘客可以隨時觀看或下載一部4K高畫質電視……2019年也是5G技術的商用元,在5G的加持下,醫療、融、地產
  • 一部英雄主義電影《熱血警探》
    一部英雄主義電影《熱血警探》。每個人心中都有那麼一個英雄情結,幻想著自己能夠飛簷走壁、拯救人類、成為每個人追捧的對象。又或者是成為學校裡叱吒風雲的大哥大,專門幫助受欺負的同學打抱不平。《熱血警探》這部電影就能幫你找回當年的激情。
  • 《絕境鑄劍》還原熱血年代 英雄兒女傳承古田精神
    革命題材電視劇《絕境鑄劍》正在央視一套黃金檔熱播,作為國內首部聚焦「人民軍隊建設成長」的影視作品,《絕境鑄劍》以閩西獨立營「涅槃淬變,浴火重生」的成長曆程,引發觀眾對往昔紅色歲月的追憶
  • 我家的流浪貓,小可愛的成長史
    這裡給大家放出一點小可愛的成長史,她小時候真的超可愛的。小可愛的媽媽是第批開始過來吃飯的貓貓之一。小可愛是媽媽的獨生女哦,超級呵護的,她媽媽也是一個標準的彩狸。(導致那段時間我家都沒什麼別的流浪貓光顧,要來也是她們母女不在的時候,而且也是那種悄悄地、做賊似的來。)媽媽帶著小可愛過來大概1個多月吧,就不管小可愛了。
  • 分享一些事業線較多的職場美文行業小說,青春熱血的成長文
    今天給大家推薦的是一些主角們專心發展事業帶你體驗各行各業魅力的優質小說,有從職場小透明一路成長為大神的熱血故事,也有昔日一代大神從人生跌入谷底到重回榮耀的競技小說,有夥伴們一起經歷重重困境走上修仙路的仙俠小說,還有本來就是精英中的精英小姐姐們的職場風雲。。。
  • 《哈利波特》角色大回顧 圖解三人組成長史
    據悉,《哈7》是迄今為止系列電影中最黑暗的一部,離別、死亡、誤解、無奈,這一切都讓故事平添了幾分沉重的基調。老校長鄧布利多死後,霍格沃茨乃至整個魔法界逐漸被伏地魔的勢力所籠罩。哈裡、羅恩、赫敏三人也決定離開學校,去執行鄧布利多交給他們的秘密任務。
  • 機靈可愛《熱血江湖》萌寵龍貓成長記
    在著名3D武俠網遊《熱血江湖》中,龍貓也是最萌最有人氣的靈寵。只要你充滿愛心、耐心和關心,那麼可愛的小龍貓就會很忠實的伴隨在你的身邊啦。   熱血江湖   在《熱血江湖》的眾多寵物中,要說可愛,龍貓稱第二沒人敢稱第一,龍貓外形與兔和松鼠十分相似
  • 佐助被插刀,《進擊的巨人》高分回歸,年輕的熱血何處安放?
    好融藝:分享影視資訊,感受影視文化17日晚,《博人傳》登上社交平臺熱搜,內容無外乎都是在罵岸本齊史,為什麼罵人還能登上熱搜?那還要給不知情的朋友們解釋一下。原本心愛的作品出了續作,心愛的人物還能繼續衍生出作品,按理說應該是受到許多歡迎,但是《博人傳》不僅沒有收到肯定,甚至還被許多觀眾擯棄,甚至還出了許多例如「我奶奶刷牙都比博人傳熱血」的網絡熱梗。
  • 《熱血合唱團》青春蘊含著無限可能,試錯了是青春,試對了是成長
    《熱血合唱團》講述一位國際知名合唱團指揮家嚴梓朗(劉德華飾),為幫助昔日恩師(盧冠廷飾)返回香港,教導一群人們眼中的「差生/廢柴」學生們組合而成的合唱團,實行9月速成班的「熱血合唱團試驗計劃」。眾人一起經歷了9個月生活,從互相看不對眼到團結一起面對生活的挫折與挑戰。
  • 《熱血警探》:一部讓人捧腹不已的搞笑影片,卻折射現實富有深意
    有這麼一部影片,剛開頭的時候你以為是一部不折不扣的搞笑電影;但你看到一半的時候發現搞笑的外殼之下,包含著淡淡的溫情,荒誕的搞笑情節背後卻充滿了辛辣的諷刺,這部電影就是《熱血警探》。一部披著搞笑外衣的現實批判作品。他是天生的警察,卻被安排到了農村由演員西蒙·佩吉飾演的尼古拉斯·阿吉爾是一名十分優秀的警察。身為警察,他的發展可以說是十分的全能。
  • 畫江湖之軌夜行:我其實是一部喜劇片
    《畫江湖之軌夜行》的故事主要講述的是一個關乎成長、友情與熱血的故事。通過對賽車技巧的不斷提升,通過對賽車理念的深入理解,通過對人生意義、朋友情誼的領悟,原本胸無大志的飆車少年東野稷,逐漸成長為最可信賴的夥伴、最可依靠的街坊,並逐步成長為最為強大的賽車手……簡介很正義,也很正直。就像老婆餅裡沒有老婆一樣,故事簡介其實也不太能信。
  • 熱血賣肉番推薦,看過最後一部絕對堪稱大神!
    5、《惡魔高中D×D》不知道大家有沒有聽過這樣一句話「燃片中最能賣肉的,賣肉片中最燃的動漫」,沒錯這句話說的正是《惡魔高中DxD》,這部動漫完全的詮釋了這句話,賣肉賣到最大尺度,戰鬥部分也是熱血到不行。
  • [特別推薦][女王的棋局.后翼棄兵.The Queen's Gambit][2020] 揭露天才背後的殘酷代價!
    女王的棋局 后翼棄兵 The Queen’s Gambit (2020)導演: 斯科特·弗蘭克編劇: 艾倫·
  • 《熱血三國3》武將特長對屬性數值的影響 鬥將成長計算公式
    導 讀 《熱血三國3》武將特長對屬性數值的影響全面研究指南,鬥將成長數值計算公式。
  • 阿七憑實力告訴你,這是一部不容錯過的熱血動漫
    在伍六七第二季結束後,曾經一度有人評價他是一部優秀的國漫,但是重點集中於它是一部音樂番、搞笑番,雖然得承認在伍六七這兩季的動畫裡面,無論是音樂還是搞笑都給大家留下了深刻的印象,但是伍六七憑實力告訴你,這是一部熱血動漫。