AlphaGo會下圍棋,中國兵棋AI「先知」能指揮戰鬥!幕後團隊詳解 | 科學加

2021-02-15 科學加

日前,中國兵棋AI「先知」大勝人類。AlphaGo會下圍棋,但「先知」真正能在戰鬥謀劃及災害應等領域發揮作用。幕後團隊詳解。

文/記者 趙天宇 通訊員/劉勇進

編輯/吉菁菁 新媒體編輯/房永珍

「既然西洋棋領域能夠誕生深藍,圍棋領域能夠誕生AlphaGo,那麼更複雜更靈活更加不透明的不完全信息博弈對抗,也一定會產生出超越人類最高水平的人工智慧體!我們的先知系統,就是在挑戰AlphaGO尚不能完成的工作!」在中科院自動化研究所自動化大廈辦公樓裡,中科院自動化所研究員、「CASIA-先知V1.0」(以下簡稱「先知系統」)研發團隊成員劉禹博士告訴記者,在不完全信息博弈對抗領域,運用人工智慧最新成果開發的數據與知識混合驅動的先知系統,已經邁出了堅實的第一步。

今年9月,在石家莊舉行的2017全國首屆兵棋推演大賽上,由中科院自動化所研製的人工智慧程序「CASIA-先知V1.0」在「賽諸葛」兵棋推演人機大戰中與全國決賽階段軍隊個人賽4強和地方個人賽4強的8名選手激烈交鋒,並最終以7:1的戰績大勝人類選手,展了人工智慧技術在博弈對抗領域的強大實力。

▲先知研發團隊成員,中國科學院自動化研究所研究員劉禹博士

什麼是兵棋?博弈對抗領域包括哪些內容?運用人工智慧的博弈對抗領域,可以為我們的生產生活帶來哪些質的改變?近日,北京科技報記者來到了中科院自動化研究所,採訪了先知研發團隊劉禹研究員,深入了解了兵棋博弈和先知系統研發背後的故事。

1兵棋是真實戰爭的推演和預算



子墨子解帶為城,以牒為械,公輸盤九設攻城之機變,子墨子九距之。公輸盤之攻械盡,子墨子之守圉有餘。

這是《墨子·公輸》中的選段,講的正是墨子和魯班之間進行了一次「模擬攻防戰」——墨子解下腰帶,圍作一座城的樣子,用小木片作為守備的器械。魯班多次陳設攻城用的機巧多變的器械,墨子多次抵拒了他的進攻。魯班攻戰用的器械用盡了,但墨子的守御戰術還綽綽有餘,最終墨子贏得了這場「戰爭」的勝利,也迫使楚懷王放棄了攻打宋國的計劃。

所謂兵棋,指的是模擬戰爭攻防的一種競技博弈。墨子和魯班的模擬攻防戰,就是一場十分完備的兵棋比賽。現代的兵棋最早起源於歐洲普魯士,發明最初是為宮廷貴族打發無聊時間而設計的「宮廷遊戲」,但經過百年的發展,特別是兩次世界大戰的推動,兵棋逐漸從模擬真實戰爭、戰略部署逐漸轉向論證設計武器系統和分析軍事戰略。

▲兵棋推演

由於能夠最真實的模擬戰場環境,為部隊戰爭進行科學決策,兵棋推演在現代戰爭中正發揮著越來越大的作用。據了解,美國發動的阿富汗和伊拉克戰爭,此前都通過兵棋進行了多次推演,推演的目的是設想足夠的情況和預案,以期最大限度減少傷亡。而推演的結果與實戰結果無限接近。

▲由於能夠最真實的模擬戰場環境,為部隊戰爭進行科學決策,兵棋推演在現代戰爭中正發揮著越來越大的作用

「愛玩遊戲的人對兵棋一定不會陌生,它和《星際爭霸》《文明》《鋼鐵雄心》甚至早年的《三國志》都屬於博弈對抗類型的遊戲。」劉禹告訴記者,與回合制的圍棋、象棋不同,兵棋最大的特點在於它存在著一套開放的、可以學習和研討的規則——看不清對方的位置,不可知對方的戰術,甚至用六邊形棋盤可以鋪滿整個地球。「前20分鐘連敵人的影子都沒見到,最後5分鐘被『神兵天降』淘汰」的例子在兵棋中並不少見。

劉禹表示,自動化所研製的先知系統,正是基於兵棋這種挑戰性更高的博弈對抗而設計開發的,「和人類相比,這套運用人工智慧的系統,能夠更加快速準確的進行態勢判斷和戰略決策,並最大程度的減少錯誤的發生。」

2用人工智慧方案輔助決策


劉禹告訴記者,一套完整的兵棋推演比賽,一般分為四個步驟,即態勢分析、(作戰)方案生成、仿真推演和賽後復盤四個部分。正所謂「內行看門道,外行看熱鬧」,雖然普通觀眾更關注「硝煙瀰漫」的戰爭階段,但資深玩家更看重的卻是戰前的態勢分析以及生成作戰方案的過程,甚至在大型的兵棋推演中,前兩個步驟就會佔到整個比賽時間的50%以上。

▲現代兵棋推演19世紀中期就出現了,德國的Kriegsspiele(就是戰爭遊戲的意思)是在地圖上進行推演的,這種簡單的方式現在還很流行。一本手冊,一張地圖,若干算子,就可以開始了。不過規則往往很複雜,比如移動時就要考慮各種地形、部隊本身屬性(步行單位、車輛單位)、天氣等。很多現代兵棋推演的計算更為複雜,因此往往通過計算機完成。(圖片來自網絡)

因此,人工智慧在兵棋推演中,主要可以發揮三個方面作用:一是戰前分析態勢,科學的分析敵我雙方的真實實力;二是方案籌劃,綜合考慮多維度信息科學化制定作戰方案,減少我軍傷亡,加大對敵軍打擊效果;三是提高作戰過程中的實時決策能力,面對突發情況迅速給出合理的方案。

▲臺灣當局每年都利用兵棋推演平臺進行所謂的「漢光兵棋推演」,模擬解放軍入臺作戰的過程,用以「提升防衛作戰效能」,圖為漢光兵棋推演沙盤圖(兵棋臺)。(圖片來自網絡)

在人機博弈這個領域,近20年來已經產生了3個裡程碑式的事件:1997年IBM公司的「深藍」擊敗西洋棋大師卡斯帕羅夫,這是基於知識規則引擎和強大計算機硬體的人工智慧系統的勝利;2011年同樣是IBM公司的問答機器人「沃森」在美國智力問答競賽節目中大勝人類冠軍,這是基於自然語言理解和知識圖譜的人工智慧系統的勝利;第三次就是2016年的AlphaGo與李世石的圍棋大戰,AlphaGo最終以4:1的戰績戰勝李世石,這是基於蒙特卡洛樹搜索和深度學習的人工智慧系統的勝利。

劉禹認為,人工智慧成功攻克了西洋棋和圍棋,下一個人機大戰的挑戰,就是不完全信息下的動態博弈和實時對抗。記者了解到,所謂不完全信息,就是指參與人並不完全清楚有關博弈對手的信息情報。如果在一場博弈中,參與者同時行動且至少有一個參與者不完全知道其他參與者收益,這種博弈就稱之為不完全信息動態博弈。象棋、圍棋屬於完全信息博弈,而兵棋、橋牌等就屬於不完全信息博弈。

3從興趣小組到多實驗室合作研發


今年的政府工作報告和十九大報告中都提到了人工智慧,國務院《新一代人工智慧發展規劃》明確了我國人工智慧的戰略發展部署。當前,人工智慧愈發火熱。「AI」對於許多人來說或許還相對陌生,但自動化所在這個領域已經與「人工智慧」同步歷經了60多年的發展。在AlphaGo之後,自動化所的一批年輕人開始自發組織興趣群討論,尋找人工智慧在博弈領域的新的突破口,挑戰不完全信息動態博弈難題。

萬事開頭難,先知系統研發團隊的發展,也經歷了一個從小到大,從無到有的過程。剛開始的時候,大家只是對最新技術進展進行交流和點評,也存在著一些不同的觀點。去年12月,「人機協同環境下不完全信息對抗博弈」命題吸引了大家共同的目光,也引發出大家共同研發AI系統的夢想。

▲今年9月舉行的賽諸葛全國兵棋推演大賽上,人工智慧在兵棋領域首次戰勝人類,圖為先知研發團隊部分人員合影 

劉禹說,現在自動化所「智能人機對抗團隊」由模式識別國家重點實驗室、複雜系統管理與控制國家重點實驗室、綜合信息系統研究中心相關成員組成,整個團隊年輕而富有活力,平均年齡約35歲。在他們中,範國梁研究員來自綜合信息系統研究中心,帶領小分隊主攻兵棋AI系統;來自模式識別國家重點實驗室的興軍亮副研究員則帶領另一路小分隊,重點突擊星際爭霸AI系統。

團隊成立以後,僅用半年時間,就在態勢感知和作戰決策模塊上採用知識規則+不確定推理的方式實現了先知1.0程序開發。劉禹告訴記者,除了賽諸葛全國兵棋推演大賽上取得佳績,在今年9月舉行的2017星際爭霸AI大賽上,來自自動化所的人工智慧團隊也獲得了第四名的成績,而來自美國的「重磅」參賽選手Facebook在此次比賽中名列第六。牛刀小試就取得了不錯的成績,讓團隊成員們倍感鼓舞。

自動化所楊一平副所長在兵棋大賽結束時對團隊成員叮囑,「今天的成績並不是結束,而是一個新的起點。人工智慧系統所展現出的巨大應用潛力,以及兵棋推演背後的方法學和思維方式,才是我們不斷追求的目標!」劉禹表示,先知系統的最終發展目標是決策與學習能力更強、更快的通用人工智慧技術,而這或許將是一個持續數年的中長期任務。

4博弈問題在現實中廣泛存在

實際上,棋類競技中的博弈對抗問題,現實生活中其實廣泛的存在於我們生活中,尤其是博弈問題,廣泛存在於軍事、商業、安防、災害應急等領域,大到影響國家戰略,小到決定有限資源下的個人競爭。博弈對抗技術已經成為許多領域的標準分析工具之一,在證券學、生物學、國際關係、政治學和其他很多學科都有廣泛的應用。

「比如說在防災減災領域,某個地區發生了大面積的洪澇災害,救災的時候,我們應該把食品帳篷先運送到哪個地方去,把部隊和醫生先往哪裡派,這裡面都涉及有限資源和不完全信息下的博弈問題。而如果再考慮氣象因素、交通因素、實際效果等諸多參數的話,就會變成一個非常複雜的決策問題。隨著人工智慧的應用與成熟,這些問題將得到極大的改善。」

▲在計算機上顯示的兵棋推演比賽示意圖

劉禹解釋說,人機協同環境下不完全信息博弈對抗這個命題可以拆分出三個關鍵詞,第一是人機協同,第二是不完全信息,第三是博弈對抗。這三個詞的背後都有大量的關鍵技術問題需要突破,也有著非常大的應用前景。比如人機協同,強調的是不同角色的參與者如何得到AI的輔助;不完全信息,需要在動態過程中估計和決策,數據中大量存在的噪音使得很難訓練深度網絡。因此,先知系統只是邁出了第一步,還不能稱之為「研發成功」。這一步也只是證明了我們的技術路線是正確的,還有大量的理論研究和技術開發挑戰。「這次兵棋推演大賽,唯一戰勝先知系統的是一位地方建築院校的學生,他用以守代攻、小火慢熬的戰術從始至終一直佔據上風,這說明我們的系統還有進一步提升的空間。」

▲兵棋推演現在也已經推廣到了其他領域。美國應用物理實驗室(APL)有專門設施進行大規模兵棋推演。2009年,美國國防部曾在APL就金融戰爭進行了推演,而美國醫學界也在APL就流感控制問題進行了推演。(圖片來自網絡)

「今年的比賽是一對一人機挑戰,如果能夠在多人協同博弈對抗中引入AI,挑戰難度則會更大。」劉禹表示,如果說組織「人機對抗」是為了分析人的經驗,那麼組織「機機對抗」則可以自我學習生成海量數據,為下一步知識和數據混合驅動的博弈推理學習訓練奠定實驗基礎,並最終為人機協同提供決策依據,實現「人工智慧服務於人」的最終目標。

相關焦點

  • 【深度】AlphaGo會下圍棋,中國兵棋AI「先知」能指揮戰鬥!幕後團隊詳解
    前不久,中國兵棋AI「先知」大勝人類。AlphaGo會下圍棋,但「先知」真正能在戰鬥謀劃及災害應等領域發揮作用。幕後團隊詳解。
  • 神秘AI圍棋41連勝被中國棋手終結:人類又看到希望了?
    今年5月底,人機圍棋大戰終極對決,最終世界排名第一的柯潔九段和AlphaGo的圍棋終極人機大戰以0:3完敗。賽後,柯潔在接受採訪時直言,AlphaGo太完美,看不到任何勝利的希望。前不久,《自然》雜誌刊登了谷歌DeepMind團隊的新成果,名為AlphaZero的人工智慧程序完全靠自我對弈學習下棋,不依賴人類圍棋經驗,僅訓練3天就戰勝了AlphaGo Lee,比分100:0,後者就是戰敗李世石的那套。
  • AlphaGo Zero用40天成為世界最強圍棋AI
    棋士柯潔:一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了Nature微博原文:【可以自學成才的AlphaGo Zero】本周Deepmind在《自然》發表的一篇論文Mastering the game of Go without human knowledge,一款新版的AlphaGo電腦程式能夠從空白狀態起,在不需要任何人類輸入的條件下,迅速自學圍棋。
  • 自動化所「廟算·智勝」戰術兵棋即時策略人機對抗平臺開放訪問
    「廟算·智勝」戰術兵棋即時策略人機對抗平臺曾用於「先知·兵聖」智能博弈對抗系列賽事,具有平臺開放、在線對抗、技術共享的特點。平臺提供基於即時制合同戰鬥兵棋規則的人機對抗智能推演功能,呈現具有「戰爭迷霧」的複雜戰場態勢,可掛載符合平臺編程接口的兵棋博弈AI,進行機機、人機以及人機混合模式的在線對抗,並可接收AI開發團隊提交的自研兵棋博弈AI。
  • AlphaGo若打敗世界冠軍,意味著什麼?
    (來自:http://www.geekwire.com/2016/alphago-lee-sedol-whos-underdog-in-google-ai-million-go-match/)。這點確實有可能。
  • alphago 50盤自戰棋譜的簡單解讀
    認真的說,如果把alphago的名字去掉,不講出處,只把結局的圖發給一個圍棋高手(假設沒經歷過alphago洗禮過),一定認為這盤棋是兩個純業餘的棋手下出來的。圍棋畢竟是兩個人下出來的,之所以出現這樣的情況,只能說是因為雙方彼此的克制太強了。以前有所謂爭棋無名局一說,往往競爭激烈的棋局,彼此遏制的厲害,棋形和招法都很難瀟灑如意。
  • 柯潔與alphago的三局,棋盤上到底都發生了什麼
    但這種差距,有alphago精心控制的因素。也就是說收尾階段,優勢方的人類棋手,傾向於「贏得最多的下法,才能贏得最穩健。」而alphago,採用了「贏得最穩健的下法,而非贏得最多。」在此前提下,柯潔做出了盡力的收束,將差距拉至極限最低。曾寫過吳清源與連勝六十棋手時的alphago:清楚地標明了「強者」與「天才」之間的鴻溝。
  • 比AlphaGo 更複雜,最強日本麻將 AI 是怎麼煉成的?
    「這個 AI 的牌效不是一般鳳凰(有一定實力的玩家)能摸清的,人名字就是 super phoenix(超級鳳凰)。」「感覺 ai 的打法都不太能被推理完全,這種基於訓練的對某種特徵做出的反應對於人類來說就是迷啊…」這些評論來自於 B 站上一個系列的視頻,視頻主角是一個名為 Suphx(意為 Super Phoenix)的麻將 AI。
  • 中國象棋和圍棋的最大區別是什麼?
    所謂的中局複雜、收官複雜,那是「主觀複雜度」,因為開局你算不清楚也無所謂,你的對手也算不清楚,所以最複雜的開局反而不需要下很精準,隨著棋局的進行,複雜度下降,逐漸能算清楚了,如果複雜度下降到你的對手算的清楚,但你還算不清楚的程度,那他就可以下得比你精準,你就殺不過他了。對於人類來說難度並沒有本質上的區別,因為都突破了人類智力的極限,圍棋人打不過AI,象棋人也打不過AI。
  • 柯潔與Alphago的三局人機大戰,棋盤上到底都發生了什麼?
    而alphago,採用了「贏得最穩健的下法,而非贏得最多。」在此前提下,柯潔做出了盡力的收束,將差距拉至極限最低。曾寫過吳清源與連勝六十棋手時的alphago:清楚地標明了「強者」與「天才」之間的鴻溝。他們的恐怖之處在於,拓寬了這件事的想像邊界。是典型地「學霸考一百分,是因為滿分只有一百分。」
  • 從AlphaGo到遊戲科學
    「科學遊戲」讀書會(第2期)回顧時間:2016年3月27日(周日 )14:30-17:00地點:北京市石景山區玉泉路地鐵南200米瑞達大廈10樓中國集智俱樂部「三思堂」主講人:袁行遠、羅淼、張江我們已經共同見證了人類歷史上的精彩一幕:AlphaGo以4:1的比分大勝人類圍棋冠軍李世石
  • AlphaGo是如何學會下圍棋的
    通過輸入收集到的大量人類棋譜,DeepMind的研究人員開始訓練這個系統自己下圍棋。但這僅僅是第一步。從理論上講,這樣的訓練只會產生一個和頂尖人類一樣優秀的系統(但這不能保證對人類的絕對優勢)。為了打敗最頂尖的人類,研究人員讓這個系統進行自我間對弈。
  • AlphaGo已下線,AlphaGo Zero從0-1不帶人類尬棋了!
    今天凌晨,谷歌旗下Deepmind團隊在《自然》雜誌發表人工智慧界期待已久的論文《無須人類知識掌握圍棋》(Mastering the game of go without human knowledge),印證了一個人們已經猜到的事實
  • 專訪騰訊AI Lab圍棋絕藝團隊:AI是帶動人類認識圍棋的新力量
    通俗的說,「策略」指每一步博弈時,各種選擇的取捨,選好棋棄差棋,這是偏微觀評估;而「價值」則指能看懂棋局,判斷給定棋局是不是能贏,這是偏宏觀的評估。「『絕藝』背後『精準決策』的AI能力,應用前景非常廣闊,如無人駕駛、量化金融、輔助醫療等。如果AI從圍棋AI進化到不完美對稱博弈系統,也就是能處理現實中更常見的不確定性問題時,想像空間非常巨大。」
  • 兵棋推演進入3D時代,美國投入巨資研發,預演海陸空一體化作戰
    一、電子兵棋推演兵棋推演的歷史悠久,從遠古時代人類出現戰爭活動開始就已經存在,最簡單的方式是利用砂石粗略地模擬雙方交戰地形,以交戰策略發展為主軸,衍生出了很多方式。我們現在的象棋、圍棋、西洋棋等都可視為簡單的兵棋推演方式。
  • AlphaGo教學工具上線!人人可用,柯潔稱要重新學圍棋
    希望大家享受AlphaGo教學工具中的創新下法,也能從中有所收穫。——黃士傑△ 黃士傑博士的朋友圈也就是說,曾經擊敗過世界頂級圍棋選手李世石和柯潔的AlphaGo重出江湖,化身圍棋老師,開始教人類下圍棋了。
  • 英國國防科技實驗室成立兵棋推演中心,主持開展「鷹勇士19」推演活動
    2019年12月,英國皇家空軍參加了「鷹勇士19」指揮控制兵棋推演演練活動。這次推演活動讓皇家空軍成為首個利用英國國防科技實驗室(Dstl)新兵棋推演中心的客戶。而新推演中心在之後一個月才宣布正式成立。
  • 【話題】AlphaGo Zero!圍棋之神真來了……
    在對陣曾贏下韓國棋手李世石那版的AlphaGo時,AlphaGo Zero取得了100比0的壓倒性戰績,這真是棋藝高超啊……圍棋之神真來了文|體壇周報記者 謝銳比Alpha Go還要厲害得多的人工智慧誕生了,它便是阿爾法元Alpha Go Zero。
  • AlphaGo已能體會圍棋之美
    而在3月9日第一場的賽後發布會後,位於舞臺右側角度裡的DeepMind團隊被長槍短炮團團圍住,閃光燈閃個不停。到了3月10日第二場比賽之後,你會看到這些穿著統一黑T恤的外國人時常會被韓國記者攔下,用不太流利的英語問著關於AlphaGo,關於Google的一些問題。    李世石不再是鏡頭的全部。
  • AI會顛覆圍棋嗎?韓國棋手利用AI作弊,網友:變了味的高科技
    接二連三的作弊事件曝光後,"韓國棋手ai作弊事件層出不窮"今天看到韓國棋手ai作弊事件層出不窮這個熱搜,不由得感嘆。我看到最多的言論是,這是醜聞,沒有體育競技精神,我覺得說的非常好,我們探索的路是漫長的,人類用工具戰勝了自己,也就應該用正確的態度來對待自己。