日前,中國兵棋AI「先知」大勝人類。AlphaGo會下圍棋,但「先知」真正能在戰鬥謀劃及災害應等領域發揮作用。幕後團隊詳解。
文/記者 趙天宇 通訊員/劉勇進
編輯/吉菁菁 新媒體編輯/房永珍
「既然西洋棋領域能夠誕生深藍,圍棋領域能夠誕生AlphaGo,那麼更複雜更靈活更加不透明的不完全信息博弈對抗,也一定會產生出超越人類最高水平的人工智慧體!我們的先知系統,就是在挑戰AlphaGO尚不能完成的工作!」在中科院自動化研究所自動化大廈辦公樓裡,中科院自動化所研究員、「CASIA-先知V1.0」(以下簡稱「先知系統」)研發團隊成員劉禹博士告訴記者,在不完全信息博弈對抗領域,運用人工智慧最新成果開發的數據與知識混合驅動的先知系統,已經邁出了堅實的第一步。
今年9月,在石家莊舉行的2017全國首屆兵棋推演大賽上,由中科院自動化所研製的人工智慧程序「CASIA-先知V1.0」在「賽諸葛」兵棋推演人機大戰中與全國決賽階段軍隊個人賽4強和地方個人賽4強的8名選手激烈交鋒,並最終以7:1的戰績大勝人類選手,展了人工智慧技術在博弈對抗領域的強大實力。
▲先知研發團隊成員,中國科學院自動化研究所研究員劉禹博士
什麼是兵棋?博弈對抗領域包括哪些內容?運用人工智慧的博弈對抗領域,可以為我們的生產生活帶來哪些質的改變?近日,北京科技報記者來到了中科院自動化研究所,採訪了先知研發團隊劉禹研究員,深入了解了兵棋博弈和先知系統研發背後的故事。
1兵棋是真實戰爭的推演和預算子墨子解帶為城,以牒為械,公輸盤九設攻城之機變,子墨子九距之。公輸盤之攻械盡,子墨子之守圉有餘。
這是《墨子·公輸》中的選段,講的正是墨子和魯班之間進行了一次「模擬攻防戰」——墨子解下腰帶,圍作一座城的樣子,用小木片作為守備的器械。魯班多次陳設攻城用的機巧多變的器械,墨子多次抵拒了他的進攻。魯班攻戰用的器械用盡了,但墨子的守御戰術還綽綽有餘,最終墨子贏得了這場「戰爭」的勝利,也迫使楚懷王放棄了攻打宋國的計劃。
所謂兵棋,指的是模擬戰爭攻防的一種競技博弈。墨子和魯班的模擬攻防戰,就是一場十分完備的兵棋比賽。現代的兵棋最早起源於歐洲普魯士,發明最初是為宮廷貴族打發無聊時間而設計的「宮廷遊戲」,但經過百年的發展,特別是兩次世界大戰的推動,兵棋逐漸從模擬真實戰爭、戰略部署逐漸轉向論證設計武器系統和分析軍事戰略。
▲兵棋推演
由於能夠最真實的模擬戰場環境,為部隊戰爭進行科學決策,兵棋推演在現代戰爭中正發揮著越來越大的作用。據了解,美國發動的阿富汗和伊拉克戰爭,此前都通過兵棋進行了多次推演,推演的目的是設想足夠的情況和預案,以期最大限度減少傷亡。而推演的結果與實戰結果無限接近。
▲由於能夠最真實的模擬戰場環境,為部隊戰爭進行科學決策,兵棋推演在現代戰爭中正發揮著越來越大的作用
「愛玩遊戲的人對兵棋一定不會陌生,它和《星際爭霸》《文明》《鋼鐵雄心》甚至早年的《三國志》都屬於博弈對抗類型的遊戲。」劉禹告訴記者,與回合制的圍棋、象棋不同,兵棋最大的特點在於它存在著一套開放的、可以學習和研討的規則——看不清對方的位置,不可知對方的戰術,甚至用六邊形棋盤可以鋪滿整個地球。「前20分鐘連敵人的影子都沒見到,最後5分鐘被『神兵天降』淘汰」的例子在兵棋中並不少見。
劉禹表示,自動化所研製的先知系統,正是基於兵棋這種挑戰性更高的博弈對抗而設計開發的,「和人類相比,這套運用人工智慧的系統,能夠更加快速準確的進行態勢判斷和戰略決策,並最大程度的減少錯誤的發生。」
2用人工智慧方案輔助決策劉禹告訴記者,一套完整的兵棋推演比賽,一般分為四個步驟,即態勢分析、(作戰)方案生成、仿真推演和賽後復盤四個部分。正所謂「內行看門道,外行看熱鬧」,雖然普通觀眾更關注「硝煙瀰漫」的戰爭階段,但資深玩家更看重的卻是戰前的態勢分析以及生成作戰方案的過程,甚至在大型的兵棋推演中,前兩個步驟就會佔到整個比賽時間的50%以上。
▲現代兵棋推演19世紀中期就出現了,德國的Kriegsspiele(就是戰爭遊戲的意思)是在地圖上進行推演的,這種簡單的方式現在還很流行。一本手冊,一張地圖,若干算子,就可以開始了。不過規則往往很複雜,比如移動時就要考慮各種地形、部隊本身屬性(步行單位、車輛單位)、天氣等。很多現代兵棋推演的計算更為複雜,因此往往通過計算機完成。(圖片來自網絡)
因此,人工智慧在兵棋推演中,主要可以發揮三個方面作用:一是戰前分析態勢,科學的分析敵我雙方的真實實力;二是方案籌劃,綜合考慮多維度信息科學化制定作戰方案,減少我軍傷亡,加大對敵軍打擊效果;三是提高作戰過程中的實時決策能力,面對突發情況迅速給出合理的方案。
▲臺灣當局每年都利用兵棋推演平臺進行所謂的「漢光兵棋推演」,模擬解放軍入臺作戰的過程,用以「提升防衛作戰效能」,圖為漢光兵棋推演沙盤圖(兵棋臺)。(圖片來自網絡)
在人機博弈這個領域,近20年來已經產生了3個裡程碑式的事件:1997年IBM公司的「深藍」擊敗西洋棋大師卡斯帕羅夫,這是基於知識規則引擎和強大計算機硬體的人工智慧系統的勝利;2011年同樣是IBM公司的問答機器人「沃森」在美國智力問答競賽節目中大勝人類冠軍,這是基於自然語言理解和知識圖譜的人工智慧系統的勝利;第三次就是2016年的AlphaGo與李世石的圍棋大戰,AlphaGo最終以4:1的戰績戰勝李世石,這是基於蒙特卡洛樹搜索和深度學習的人工智慧系統的勝利。
劉禹認為,人工智慧成功攻克了西洋棋和圍棋,下一個人機大戰的挑戰,就是不完全信息下的動態博弈和實時對抗。記者了解到,所謂不完全信息,就是指參與人並不完全清楚有關博弈對手的信息情報。如果在一場博弈中,參與者同時行動且至少有一個參與者不完全知道其他參與者收益,這種博弈就稱之為不完全信息動態博弈。象棋、圍棋屬於完全信息博弈,而兵棋、橋牌等就屬於不完全信息博弈。
3從興趣小組到多實驗室合作研發今年的政府工作報告和十九大報告中都提到了人工智慧,國務院《新一代人工智慧發展規劃》明確了我國人工智慧的戰略發展部署。當前,人工智慧愈發火熱。「AI」對於許多人來說或許還相對陌生,但自動化所在這個領域已經與「人工智慧」同步歷經了60多年的發展。在AlphaGo之後,自動化所的一批年輕人開始自發組織興趣群討論,尋找人工智慧在博弈領域的新的突破口,挑戰不完全信息動態博弈難題。
萬事開頭難,先知系統研發團隊的發展,也經歷了一個從小到大,從無到有的過程。剛開始的時候,大家只是對最新技術進展進行交流和點評,也存在著一些不同的觀點。去年12月,「人機協同環境下不完全信息對抗博弈」命題吸引了大家共同的目光,也引發出大家共同研發AI系統的夢想。
▲今年9月舉行的賽諸葛全國兵棋推演大賽上,人工智慧在兵棋領域首次戰勝人類,圖為先知研發團隊部分人員合影
劉禹說,現在自動化所「智能人機對抗團隊」由模式識別國家重點實驗室、複雜系統管理與控制國家重點實驗室、綜合信息系統研究中心相關成員組成,整個團隊年輕而富有活力,平均年齡約35歲。在他們中,範國梁研究員來自綜合信息系統研究中心,帶領小分隊主攻兵棋AI系統;來自模式識別國家重點實驗室的興軍亮副研究員則帶領另一路小分隊,重點突擊星際爭霸AI系統。
團隊成立以後,僅用半年時間,就在態勢感知和作戰決策模塊上採用知識規則+不確定推理的方式實現了先知1.0程序開發。劉禹告訴記者,除了賽諸葛全國兵棋推演大賽上取得佳績,在今年9月舉行的2017星際爭霸AI大賽上,來自自動化所的人工智慧團隊也獲得了第四名的成績,而來自美國的「重磅」參賽選手Facebook在此次比賽中名列第六。牛刀小試就取得了不錯的成績,讓團隊成員們倍感鼓舞。
自動化所楊一平副所長在兵棋大賽結束時對團隊成員叮囑,「今天的成績並不是結束,而是一個新的起點。人工智慧系統所展現出的巨大應用潛力,以及兵棋推演背後的方法學和思維方式,才是我們不斷追求的目標!」劉禹表示,先知系統的最終發展目標是決策與學習能力更強、更快的通用人工智慧技術,而這或許將是一個持續數年的中長期任務。
4博弈問題在現實中廣泛存在實際上,棋類競技中的博弈對抗問題,現實生活中其實廣泛的存在於我們生活中,尤其是博弈問題,廣泛存在於軍事、商業、安防、災害應急等領域,大到影響國家戰略,小到決定有限資源下的個人競爭。博弈對抗技術已經成為許多領域的標準分析工具之一,在證券學、生物學、國際關係、政治學和其他很多學科都有廣泛的應用。
「比如說在防災減災領域,某個地區發生了大面積的洪澇災害,救災的時候,我們應該把食品帳篷先運送到哪個地方去,把部隊和醫生先往哪裡派,這裡面都涉及有限資源和不完全信息下的博弈問題。而如果再考慮氣象因素、交通因素、實際效果等諸多參數的話,就會變成一個非常複雜的決策問題。隨著人工智慧的應用與成熟,這些問題將得到極大的改善。」
▲在計算機上顯示的兵棋推演比賽示意圖
劉禹解釋說,人機協同環境下不完全信息博弈對抗這個命題可以拆分出三個關鍵詞,第一是人機協同,第二是不完全信息,第三是博弈對抗。這三個詞的背後都有大量的關鍵技術問題需要突破,也有著非常大的應用前景。比如人機協同,強調的是不同角色的參與者如何得到AI的輔助;不完全信息,需要在動態過程中估計和決策,數據中大量存在的噪音使得很難訓練深度網絡。因此,先知系統只是邁出了第一步,還不能稱之為「研發成功」。這一步也只是證明了我們的技術路線是正確的,還有大量的理論研究和技術開發挑戰。「這次兵棋推演大賽,唯一戰勝先知系統的是一位地方建築院校的學生,他用以守代攻、小火慢熬的戰術從始至終一直佔據上風,這說明我們的系統還有進一步提升的空間。」
▲兵棋推演現在也已經推廣到了其他領域。美國應用物理實驗室(APL)有專門設施進行大規模兵棋推演。2009年,美國國防部曾在APL就金融戰爭進行了推演,而美國醫學界也在APL就流感控制問題進行了推演。(圖片來自網絡)
「今年的比賽是一對一人機挑戰,如果能夠在多人協同博弈對抗中引入AI,挑戰難度則會更大。」劉禹表示,如果說組織「人機對抗」是為了分析人的經驗,那麼組織「機機對抗」則可以自我學習生成海量數據,為下一步知識和數據混合驅動的博弈推理學習訓練奠定實驗基礎,並最終為人機協同提供決策依據,實現「人工智慧服務於人」的最終目標。