AI的棋局,其實也是一部熱血成長史

2021-01-09 中科院物理所

不知你有沒有看過最近的兩部影視劇:《后翼棄兵》與《棋魂》,或者是出版更久遠些的《棋魂》原作動漫呢?方正的盤格上,一招一式中暗藏玄機,沉穩縝密的執棋者共同營造著奧妙無窮的哲學空間,而棋局背後,最讓人觸動的或許更是棋手們那股在勝敗之間全力堅守的勁頭。

那麼,你想了解一下AI的棋局嗎?拋開新聞裡充斥的「戰勝人類」威脅論,試試以一種只把AI看作一個棋手的方式。你或許會發現,它其實也一樣,在長久的光陰裡,一步步成長,與對手戰鬥,也挑戰自己。還有點不同的是,它的成長不止屬於自己,而是更像一個象徵,凝結著近百年間人類科學家探索人工智慧技術的智慧與成績,講述著人類挑戰智能技術更高峰的熱血堅持。

第一階段 初露頭角

挑戰任務:西洋跳棋

西洋跳棋是一種在8x8格的兩色相間的棋盤上進行的技巧遊戲,以吃掉或堵住對方所有棋子去路為勝利,棋子每次只能向斜對角方向移動,但如果斜對角有敵方棋子並且可以跳過去,那麼就把敵方這個棋子吃掉。

大戰回顧:

成功秘訣:自我對弈

在和羅伯特·雷尼的比賽之後,尼雷表示,計算機走得極其出色,甚至沒有一步失誤。這是他自1954年以來8年中遇到的第一個擊敗他的「對手」。那麼,這次跳棋盤上的勝利,秘訣在哪裡呢?

通過自我對弈學習評價函數是西洋跳棋AI程序的核心技術,自我對弈學習評價函數的基本原理是利用兩個副本進行對弈,學習線性評價函數每個特徵的權重,其中一個副本使用固定的評價函數來學習特徵的權重,另一個副本則是通過與使用極小極大(minimax search)算法作對比來學習特徵的權重。事實上,後來的AlphaGo圍棋AI程序以及深度學習領域的生成式對抗網絡(GAN)都採用了類似的思想。

第二階段

一場持續半世紀的挑戰

挑戰任務:西洋棋

西洋棋起源於亞洲,後由阿拉伯人傳入歐洲,成為國際通行棋種,也是一項受到廣泛喜愛的智力競技運動。

西洋棋棋盤由橫、縱各8格、顏色一深一淺交錯排列的64個小方格組成,棋子共32個,分為黑、白兩方,每方各16個。和8x8的西洋跳棋相比,西洋棋的狀態複雜度(指從初始局面出發,產生的所有合法局面的總和)從1021上升到1046,博弈樹複雜度(指從初始局面開始,其最小搜索樹的所有葉子節點的總和)也從1031上升到10123。人工智慧研究者對西洋棋的挑戰持續了半個世紀。

大戰回顧:

成功秘訣:

● 成功秘訣之一:西洋棋加速晶片

「深藍」計算機在硬體上將通過計算機處理器與象棋加速晶片相結合,採用混合決策的方法,即在自動處理器上執行運算分解任務,交給西洋棋加速晶片並行處理複雜的棋步自動推理,然後將推理得到的可能行棋方案結果返回通用處理器,最後由通用處理器決策出最終的行棋方案。97型「深藍」與96型相比,運算速度差不多提高了兩倍,西洋棋加速晶片的升級功不可沒。升級後的西洋棋加速晶片能夠從棋局中抽取更多的特徵,並在有限的時間內計算出當前盤面往後12步甚至20步的行棋方案,從而讓「深藍」更準確地評估盤面整體趨勢。

● 成功秘訣之二:知識規則引擎

「深藍」在軟體設計上採用了超大規模知識庫結合優化搜索的方法。一方面,「深藍」儲存了西洋棋100多年來70萬份國際特級大師的棋譜,能利用知識庫在開局和殘局階段節省處理實踐並得出更合理的行棋方案;另一方面,「深藍」採用Alpha-Beta剪枝搜索算法和基於規則的方法對棋局進行評價,通過縮小搜索空間的上界和下界提高搜索效率,同時可根據旗子的重要程度、旗子的位置、棋子對的關係等特徵對棋局進行更有效的評價。

規則引擎是一種遷入在應用程式中的組件,能夠實現將業務決策從應用程式代碼中分離出來,其核心是獲取knowledge(知識)。此外,規則引擎使用產生式規則「IF<conditions>THEN<actions>RULE」表達邏輯將知識應用到特定的數據上。

第三階段 觸摸「棋魂」?

挑戰任務:圍棋

8x8格西洋棋的狀態複雜度為1046,博弈樹複雜度為10123。到了19x19格的圍棋,其狀態複雜度已上升到10172,博弈樹複雜度則達到驚人的10360,因此被視為人類在棋類人機對抗中最後的堡壘。

破局出現在2016年,Deep Mind公司開發出的AlphaGo在沒有任何讓子的情況下,以5:0完勝歐洲圍棋冠軍、職業二段選手樊麾。並在接下來的一系列博弈中勢如破竹。而後,AlphaGo Zero作了更進一步的升級和改進,將策略網絡和價值網絡整合在一起,使用純粹的深度強化學習方法進行端到端的自我對弈學習。

大戰回顧:

成功秘訣:

● 成功秘訣之一:蒙特卡羅樹搜索

在機器博弈中,每步行棋方案的運算時間、堆棧空間都是有限的,只能給出局部最優解,因此,2006年提出的蒙特卡羅樹搜索就成為隨機搜索算法的首選。蒙特卡羅樹搜索是一種用於某些決策過程的啟發式搜索算法,它被廣泛用於科學和工程研究的算法仿真中,是現行圍棋程序的核心組件。有專家曾通俗地解釋什麼是蒙特卡羅樹搜索:假如籃子裡有1000個蘋果,讓你每次閉著眼睛找一個最大的,不限制挑選次數。於是,你可以閉著眼隨機拿一個,然後下一次再隨機拿一個與第一個比,留下大的,循環往復,拿的次數越多,挑出最大蘋果的可能性也就越大,但除非你把1000個蘋果都挑一遍,否則你無法讓肯定最終挑出來的就是最大的一個。這就是蒙特卡羅樹搜索。它給予了智能體推理的能力,智能體不僅可以根據過去的經驗採取更好的策略,也可以根據對未來的推測幫助自己選擇合適的方案。

● 成功秘訣之二:策略網絡與價值網絡

策略網絡是一個模型,它使用深度學習、監督學習、增強學習等方法來預測下一步棋「大概」該走哪裡。策略網絡的輸入是當前的棋局,輸出的是棋子最可能的步法,棋盤上的每一個空位都對應一個概率。AlphaGo面對一個局面時下一步大概怎麼走已經瞭然於胸,這是因為它已經從KGS圍棋伺服器上向職業選手學習了3000萬個局面的下一步,而且學習成果非常驚人;不僅記住了某個局面的下一步怎麼走,還記住了相似局面的下一步步法,所以當AlphaGo學習的局面足夠多時,就掌握了所有不同局面的下法。這種學習叫做「監督學習(supervised learning)」對於AlphaGo而言,它所學習的職業棋手的棋譜就是它的老師。

價值網絡也是一個監督的強化學習的模型,多次線下自我對弈學習的結果為價值網絡提供監督信息。它的模型結構與策略網絡類似,但學習目標不同,策略網絡的目標是當前局面的下一步棋如何走,而價值網絡學習的目標是走這一步後贏的概率,主要用於在線下下棋時得到平均的形勢判斷。

● 成功秘訣之三:強化學習

強化學習是機器學習的一個重要分支。有監督學習的目標是從一個已經標記的訓練集中進行學習,無監督學習的目標是從一堆未標記樣本中發現隱藏的結構,而強化學習的目標則是在當前行動和未來狀態中獲得最大回報。在邊獲得樣例邊學習的過程中,不斷迭代「在當前模型的情況下,如何選擇下一步的行動才對完善當前的模型最有利」的過程直到模型收斂。

總體來說,AlphaGo在以下四個方面取得重要突破:

01 自學習能力

AlphaGo的對弈知識是通過深度學習方法自己掌握的,而不是像「深藍」那樣編在程序裡,它是通過大量棋譜和自我對弈完成的。這種深度學習能力,使得AlphaGo能不斷學習進化,產生了很強的適應性,而適應性造就了複雜性,複雜自適應性又是智能演化最普遍的途徑。

02 捕捉經驗能力

找到了一種捕捉圍棋高手的經驗,即「棋感直覺」的方法。所謂棋感,就是通過訓練得到的直覺,「只可意會,不可言傳」。AlphaGo通過深度學習產生的策略網絡(走棋網絡),在對抗過程中可以實現局部步法的優化;通過增強學習方法生成的估值網絡,實現對全局不間斷的評估,用於判定每一步棋對全局棋勝負的影響。此外,還可以通過快速走子算法和蒙特卡羅樹搜索機制,加快走棋速度,實現對弈質量和速度保證的合理折中。這些技術使得計算機初步具備了既可以考慮局部得失,又可以考慮全局整體勝負的能力。而這種全局性的「直覺」平衡能力,正是過去人們認為人類獨有、計算機難以做到的。

03 發現創新能力

發現了人類沒有的圍棋步法,初步展示了機器發現「新事物」的「創造性」。從觀戰的超一流棋手討論和反應可以看出,AlphaGo的下發有些超出了他們的預料,但事後評估又認為是好棋。這意味著AlphaGo的增強學習算法,甚至可以從大數據中發現人類千百年來還未發現的規律和知識,為人類擴展自己的知識體系開闢了新的認知通道。也難怪會有人感嘆AlphaGo難道是《棋魂》中的SAI轉世?

04 方法具有通用性

這與很多其他博弈程序非常不同,通用性意味著對解決其他問題極具參考價值,AlphaGo運用的方法,實際上是一種解決複雜決策問題的通用框架,而不僅是圍棋領域的獨門秘籍。自學習的能力,使得計算機有了進化的可能,通用性則使其不再局限於圍棋領域。

//////////

從國際跳棋到堪稱是世界上最複雜棋盤遊戲的圍棋,AI棋手不斷突破著技術的上限。棋盤競賽的喧囂背後,是機器博弈技術的進步和發展歷程。

最後,和你分享我們在2001年的《棋魂》動畫版中,發現的這樣一段對話:

——「神之一手會從這裡面(電腦)誕生」

——「據說電腦下圍棋要超過人類還要花一百年吶」

來源:中國科學院自動化研究所

編輯:C&C

相關焦點

  • 講述熱血青年成長史 《黑狐之風影》再造青春偶像戰爭力作
    劇中人在殘酷的戰火硝煙和嚴峻的敵對環境考驗下,上演了一場關於戰火青春的熱血故事。原班人馬打造「《黑狐》番外」   再造戰爭青春偶像力作電視劇《黑狐之風影》由西安夢舟影視文化傳播有限責任公司出品。該公司此前曾出品過《雪豹》、《黑狐》、《風影》等一系列成功作品,創下不俗收視。
  • 人類進化史,也是一部物種馴化史
    在《馴化》一書中,她橫跨歷史學、考古學、人類學,結合前沿基因科學,重新講述了一部物種馴化史。英國媒體稱之為與《人類簡史》《槍炮、病菌與玫瑰》比肩的人類史著作。再回到剛剛人類與狼和狗的故事。1959 年,科學家德米特裡· 貝爾耶夫決定試驗選擇性繁育是如何改變動物的。研究的重點集中在特定行為上。他相信,在犬的馴化中,有一些關鍵性的基本特點。
  • 一部英雄主義電影《熱血警探》
    一部英雄主義電影《熱血警探》。每個人心中都有那麼一個英雄情結,幻想著自己能夠飛簷走壁、拯救人類、成為每個人追捧的對象。又或者是成為學校裡叱吒風雲的大哥大,專門幫助受欺負的同學打抱不平。《熱血警探》這部電影就能幫你找回當年的激情。
  • 一粒米的成長史
    待播種後,調查員帶著PDA走入樣本田間進行實地面積調查,春季的早稻面積調查和夏季的夏播面積調查。每一粒米的成長過程,都經歷了農民伯伯無數次撫摸。「天育物有時,地生財有限」,我的生長不是一蹴而就,別等到找不到我的時候,才想起來我的好。
  • 中芯國際「宮鬥」背後,也是一部半導體成長史|知料
    其實,梁孟松辭職或許並非臨時起意。中芯國際提供的一份文件顯示,在委任蔣尚義議案的董事會上,梁孟松做了無理由棄權投票,這一表決並未影響全局。在辭呈中,梁孟松文筆懇切道盡委屈——空降消息直到12月9日才被告知,「感到十分錯愕與不解」、「公司應該對我這三年多的貢獻給予全面公正的評價,而我應有接受和申訴的權利」。
  • 《熱血警探》:一部讓人捧腹不已的搞笑影片,卻折射現實富有深意
    有這麼一部影片,剛開頭的時候你以為是一部不折不扣的搞笑電影;但你看到一半的時候發現搞笑的外殼之下,包含著淡淡的溫情,荒誕的搞笑情節背後卻充滿了辛辣的諷刺,這部電影就是《熱血警探》。一部披著搞笑外衣的現實批判作品。他是天生的警察,卻被安排到了農村由演員西蒙·佩吉飾演的尼古拉斯·阿吉爾是一名十分優秀的警察。身為警察,他的發展可以說是十分的全能。
  • 其實《火星救援》是一部青春片
    一部科幻題材電影比一部青春電影的票房業績高,在院線電影市場上並不多見。不過在我看,《火星救援》其實就是一部青春片。在二十世紀福斯的小放映室裡帶著3D眼鏡,眼前被一片紅色的荒漠和藍黑色的太空包圍的時候,我感覺不到一點在觀看《星際穿越》時的絕望、沉淪和緊張,反倒是被一股歡樂、溫暖的氣息和滾滾而來的荷爾蒙味兒弄得挺亢奮,一會兒大笑,一會兒擦眼角。
  • 《熱血合唱團》青春蘊含著無限可能,試錯了是青春,試對了是成長
    《熱血合唱團》講述一位國際知名合唱團指揮家嚴梓朗(劉德華飾),為幫助昔日恩師(盧冠廷飾)返回香港,教導一群人們眼中的「差生/廢柴」學生們組合而成的合唱團,實行9月速成班的「熱血合唱團試驗計劃」。眾人一起經歷了9個月生活,從互相看不對眼到團結一起面對生活的挫折與挑戰。
  • 憲法成長史你了解多少?
    憲法成長史你了解多少?你知道憲法是一部什麼法嗎?你知道憲法的成長曆程嗎?來自憲法日的靈魂三問!今天我們帶您一起走近憲法!五四憲法是一部較為完善的憲法。這是中華人民共和國的第一部憲法,是在對建國前夕由全國政協制定的起臨時憲法作用的《共同綱領》進行修改的基礎上制定的。七五憲法
  • 鯨動漫:炎炎消防隊,一部讓你重燃青春的熱血番
    他們的使命就是不斷的打到作亂的火焰人,並找到該現象的原因並解開這個謎團的一系列的過程,不斷追尋著真相的他們,一段被籠罩的黑暗也將不斷地靠近著他們……說實話,這樣的一部王道熱血動漫,比其異界魔法那類的龍傲天爽文或者主打萌系的動漫來說更加值得青睞,就像先行的1-2話中所見,男主每次在危難關頭,總會危險越是能感受到男主發自內心的喜悅,再搭配上他那獨一無二,絕地反擊的爆棚自信感和主角BGM的響起
  • 《熱血三國3》武將特長對屬性數值的影響 鬥將成長計算公式
    導 讀 《熱血三國3》武將特長對屬性數值的影響全面研究指南,鬥將成長數值計算公式。
  • 草根評《熱血合唱團》:劉德華風採依舊歌聲治癒
    最後,再次感謝@新浪觀影團,《熱血合唱團》2020.11.13用歌聲治癒人生,上線哦!推薦可以去看看哦!真的很治癒!@Cotton姜小布 8分首先感謝下班路上收穫了這部溫暖的片子,之前也期待,覺得會是中國版的放牛班春天。電影其實中規中矩,也是那種看預告大概知道劇情起承轉折,但難得的師生感情刻畫還是會打動人。
  • 這是一部關於星雲的成長史!
    我們觀測太陽系、觀測系外星系、觀測一切神秘的光年之外物體,然而我們收到的往往是殘破的片段,不過最近來自美國國家航空航天局的索菲亞空中望遠鏡為我們揭開了一部星系的成長史!這是美國國家航空航天局的索菲亞空中望遠鏡拍攝到的天鵝星雲的新圖像。
  • 《猩球3》曝新混剪視頻 追憶猿族領袖凱撒成長史
    《猩球3》曝新混剪視頻 追憶猿族領袖凱撒成長史 《猩球崛起3》新混剪視頻追憶凱撒成長史 時長:03:32 來源:電影網
  • ai在真實的精確度上其實還有待檢驗
    舉幾個例子吧用ai的照片來冒充黃曉明用ai的圖片來冒充歐巴馬用ai的圖片來冒充美國總統用ai的圖片來冒充黑人金星的圖片是我用人工智慧做的中國新華社的一條新聞,人工智慧可以模仿熊貓的腮紅。deepfakeai可以明顯看出真實的綠幕效果,據我所知這種技術甚至可以在3d電影中用,而現在只是用在遊戲上,所以在ai真實的精確度上,還有待檢驗。你可以叫唐軍或者白彥彪冒充大師?
  • 《女王的棋局》講述了什麼故事 一共多少集在哪裡可以看全集
    《女王的棋局》是Netfilx新劇,這部劇很多人看了以後覺得非常爽,劇情十分緊湊精彩,口碑也非常不錯,那麼,《女王的棋局》講述了什麼故事?在哪裡可以看全集?  《女王的棋局》講述了什麼故事  該劇根據沃爾特·特維斯同名小說改編,講述在西洋棋上具有驚人天賦的天才少女一路過關斬將、在成名之路上也收穫成長的故事,探討了天才背後真正的代價。  女主貝絲對鎮靜劑上癮,還被自己心中的惡魔所困擾,在藥物和痴迷的雙重作用下,她變成了一個令人印象深刻、技藝高超且富有魅力的棄兒,並決心打破男性主導的西洋棋界建立的傳統界限。
  • 10大最經典好看的熱血王朝爭霸類小說
    10、《紫川》:這部小說是老豬寫作的一部網絡玄幻小說。故事發生的西川大陸是一個神話一樣的地方,在這個地方上流傳著一代代的熱血傳奇故事。這部小說只要是圍繞著一個帝國的百年傳奇,展示了他們悲壯又傳奇的家族歷史。
  • 《車諾比:一部悲劇史》出版
    近日,《大國的崩潰:蘇聯解體的臺前幕後》作者,東歐史頂尖學者、哈佛大學教授沙希利浦洛基新作《車諾比:一部悲劇史》由廣東人民出版社出版。諾貝爾文學獎得主S.A.阿列克謝耶維奇推薦。一場核災難,史上最可怕的人為意外事故。27萬人患癌,9.3萬人死亡,至今仍有因放射影響而出生的畸形胎兒。
  • 《熱血合唱團》:劉德華首演音樂老師,用歌聲治癒人生
    《熱血合唱團》,通過熱血勵志的逆襲故事探討了青春成長中校園、家庭以及社會的種種問題,展現了充滿青春熱血的感人主題,是一部相當溫情的作品。
  • 一部現代穿越小說豆瓣評分7.1:和自己和解是最好的成長
    伊說說,女性成長聚集地,願你不用身披盔甲,也能抵擋萬千生活不易,歡迎關注。這部小說在本質上,也是一部類似於穿越的現代小說,但是卻能夠讓我們從當中看到自己的生活、人生,從中體會到生活的不易。小說主人公在剛開始穿越到自己17歲的時候,看到17歲的自己時,發誓一定要改變,要讓17歲的自己不再重蹈覆轍,不再從事自己不喜歡的工作,不再被別人看不起,不再受家庭的約束。