【國防】AlphaWar兵棋推演:虛擬硝煙中的AI指揮藝術與決勝智慧

2021-02-16 DataExa淵亭科技

淵亭科技

兵棋推演作為一種模擬戰場環境進行戰略、戰術仿真演練的學習範式，提供了在非真實戰場環境下研究作戰策略、發掘戰術漏洞並進行戰鬥經驗總結的能力。這其中大量運用到了策略推演規則，而如何將機器學習技術與知識圖譜結合，實現在兵棋推演環境下的智能體輔助作戰將是本篇文章討論的重點。四、AlphaWar：一個同時具備常識、指揮藝術和實時智能的兵棋推演/作戰指揮平臺人工智慧經歷了幾番沉浮，迎來了第三次發展浪潮，當前取得的進展突出體現在：以知識圖譜為代表的知識工程和以深度學習為代表的機器學習等相關領域的發展。深度學習作為一種結合了統計機器學習與人工神經網絡的新學習方法，其與傳統模式識別方法的最大不同在於，它能夠利用深度神經網絡從海量數據中自動學習有效的層次化特徵表示。得益於大規模標註數據，目前深度學習在語音識別、圖像識別等領域取得了優異效果，然而在某些方面仍存在著局限性，主要表現在：深度學習需要大量標註數據來訓練才能達到較好的泛化能力，數據量的大小直接影響深度學習模型的推理效果。但在很多實際應用場景中，我們難以找到充足的高質量訓練數據。另一方面，用於訓練深度學習模型的數據需要耗費大量的人力進行收集和標註，且手動標註的信息具有一定的局限性。人工智慧的知識表示包括專業知識與常識知識。常識是指人類在生活中總結出來的科學知識，當人類遇到新情況時，能夠通過既有的常識來推測和判斷。而神經網絡學習的本質是對相關性的挖掘和記憶，缺乏推理能力和抽象能力。這一缺陷使其在面對新情況時無法像人類一樣擁有「舉一反三」的能力。深度學習模型是一種端到端的學習，輸入的是原始數據（始端），輸出的直接是最終目標（末端），中間的學習和預測過程不可知。類似一個黑箱(Black Box)系統，其推理效果很好，卻不知道為何好，這也大大制約了深度學習的應用推廣。比如在投資領域，不可解釋的投資相當於投機。知識圖譜本質上是一種語義網絡，表達了各類實體、概念及其之間的語義關係。相對於傳統知識表示形式，知識圖譜具有實體/概念覆蓋率高、語義關係多樣、結構友好以及質量較高等優勢，日益成為人工智慧時代最為主要的知識表示方式。然而，目前的知識圖譜應用還處在初期的階段，其落地難點主要有以下幾方面：知識圖譜的構建是整個應用鏈條的第一步，圖譜構建的質量直接決定了上層應用的效果。由於各種原因，數據大部分以非結構化形式存儲，而面向非結構化數據的知識抽取在準確度、完整度等方面面臨技術挑戰。知識圖譜本質是一種知識的組織形式，本身不具備學習能力，圖譜的構建涉及到了大量的人工設計和人力勞動，特別是行業知識圖譜尤其依賴領域從業人員對業務邏輯的精準梳理。因此，知識的爆炸式增長對知識圖譜構建的可移植性、可擴展性均提出更高要求。知識圖譜構建的目的不僅在於數據的可視化，還需要賦予業務信息在實際應用場景中的可計算能力，但當前知識圖譜普遍存在覆蓋率低、數據稀疏和更新緩慢等問題，限制了知識圖譜分析挖掘優勢的發揮和落地效果。綜合來看，深度學習與知識圖譜在技術本身與應用落地方面均存在一定缺陷，許多結合二者優勢的新方法隨之而生。中臺的核心價值在於對資源整合運用效率的最大化。構建中臺來支撐業務銜接，不僅能夠幫助實現AI技術的可落地方案，更能夠實現能力的復用，取得規模化效應。在策略推演領域，以分布式圖存儲為基礎，集成圖計算與可視化分析引擎的認知中臺，能夠幫助挖掘、發現、推演出相關隱藏知識或跨領域新知識，促進決策推薦的準確性和及時性，提升對策略推演過程及結果的可解釋性。在金融營銷與風控、金融量化投資、軍事兵棋推演等領域有廣闊的應用前景。（在本系列後續的文章中會一一展開討論）眾所周知，金融行業兩大核心業務是：營銷和風控，兩者的核心都是基於數據對客戶行為進行分析和對未來場景變化進行預判。傳統的數據分析技術建立在關係型資料庫基礎上，難以發現數據間的多層級的「隱性關係」。利用知識圖譜可以將金融領域內所有實體（包括：公司、人物、地名、產品、資訊、研報、事件等）和關係（股權關係、競爭關係、對外投資等）用圖的形式進行表達，形成一個「金融多關係圖」，從而幫助金融從業人員從事件、空間等多維度更好的分析客戶交易行為，有助於建立客戶畫像，進行精準營銷。其次，圖資料庫、圖挖掘、圖計算模型等技術特別適用於複雜關係網絡下的帳戶關聯關係挖掘及資金交易流轉追蹤，能夠幫助發現傳統風控場景下無法發現的包括信用卡套現、團夥騙貸、跨境洗錢等複雜多變的欺詐風險行為。近年來，以追求絕對收益為目標的量化對衝投資策略以其風險低、收益穩定的特性，成為機構投資者的主要投資策略之一。簡單來說，量化投資就是用機器構建一個框架，在這個框架下做交易。運用機器學習技術可以有效地找到數據之間的關係，並使用它來預測或分類新數據，成為量化投資框架構建的新的有效策略。其次，利用知識圖譜對影響投資的事件進行實體和關係抽取，比如公司與公司相關的股票信息等實體，比如可能影響股票交易價格行為（管理層變動、新品發布等）的事件，構建金融量化投資知識圖譜，再通過大量表示學習方法，將知識圖譜中的實體和關係轉化為高維連續向量，輸入到深度學習模型中，使其學習每個事件在發生後給市場帶來的影響，能夠進一步提升金融量化投資策略的實戰效果。隨著信息化技術在現代戰爭中的應用，一體化聯合作戰已經成為現代戰爭的主要作戰樣式，戰場要素不斷增多，戰場範圍呈現出全球化的趨勢。這一背景下的兵棋推演系統面臨著推演要素不斷增多、推演範圍不斷擴大的挑戰。兵棋推演的核心是在人機協同環境中的不完全信息下的動態博弈和實時對抗，鑑於兵棋推演中規則和計算等方面的複雜性，運用人工智慧系統，能夠更加快速準確的進行態勢分析和戰略決策，並最大程度的減少錯誤的發生。在推演時，兵棋推演系統自動搜集戰場態勢數據，記錄每個作戰單位的屬性，作戰半徑、攻擊力、前進速度、掩護的使用情況、從屬關係等，並通過收集到的戰場態勢信息，在模擬對抗中學習戰術規則、獲取作戰經驗並優化策略，進而進行戰前態勢分析、科學化制定作戰方案以及提升作戰過程中的實時決策能力和突發情況應急能力。

如果你清楚你的問題，你不需要兵棋推演；當你不知道如何應對不確定複雜局勢時，你可能需要兵棋推演。

——《海灣打擊》兵棋設計者，馬克．赫爾曼

兵馬未動，兵棋先行。利用戰爭模擬系統來推演戰爭，就是兵棋推演。從軍事遊戲到沙盤模擬，再到錯綜複雜的電腦程式，兵棋推演在模擬真實戰爭、輔助指揮決策方面的作用日益突出，已經發展成為現代戰爭的關鍵環節。據悉，美軍在伊拉克戰爭中的作戰經過與戰前的兵棋推演結果高度相似；擊斃賓·拉登的過程也已在五角大樓的兵棋推演系統上演習過無數遍；以日本為藍軍進行了數百次兵棋推演，也為美軍扭轉珍珠港事件後的不利局面奠定了基礎。

隨著現代戰爭的規模逐漸擴大，陸、海、空、天、電磁等不同戰場相互混合交織，各軍兵種協同配合日益複雜，兵棋推演的重要性也越來越受到重視。美國陸軍指揮總參學院、Lemay中心、美國國防大學、美國研究生院、美國海軍軍事學院的章程中都或多或少明確了兵棋推演的這一用途。

另一方面，計算機技術的興起，將傳統沙盤上的兵棋推演進一步轉化為嚴謹的二進位計算並在屏幕上直觀呈現。結合科學技術的大型兵棋推演系統將在信息化戰爭模擬對抗中發揮著更加重要的作用。

（AlphaWar，是一個同時具備常識、指揮藝術和實時智能的兵棋推演/作戰指揮平臺）
作戰指揮是一個集裝備體系、作戰環境、指揮藝術和智能研判等多學科多任務的綜合策略型活動，兵棋推演則是對戰爭全過程進行仿真、模擬與推演，是一次微型版的作戰指揮過程。許多大型即時策略遊戲也具備類似的特性。以暴雪的《星際爭霸II》為例，其複雜度介於兵棋推演、實際戰場作戰指揮中間，具體比較如下：雖然複雜度有所差異，但兵棋推演、實際戰場、星際爭霸II三者的核心本質都是即時策略推演類型，都是先驗知識和即時智能的綜合應用。淵亭科技多年來一直致力於知識圖譜和自學習體系平臺的研究和應用，特別是近幾年在國防、金融、安全等領域的多個大型實戰項目中抽象出多個通用認知智能引擎和組件。戰略推演平臺是淵亭科技關於常識、行業先驗圖譜、態勢感知、即時研判等綜合智能應用自動化的探索思考，應用場景包括國防作戰指揮、反恐怖、經濟犯罪偵查、投資交易等。我們以複雜度中等的《星際爭霸II》作為研究目標，利用知識圖譜和強化學習等技術，設計一個可以設計擊敗對手策略AI的自動化平臺——AlphaWar。今天，我們一起來揭開這個淵亭科技神秘在研產品的面紗。AlphaWar以行業先驗圖譜為基礎、策略編輯器作為主體、多智能體策略網絡為核心思想，包含以下核心組件：包含一些跨領域通用的決策控制組件，例如最優路徑搜索、目標識別等。可以是人類經驗驗證過的戰術（類似指揮藝術），也可以是AI訓練得到的模式（例如世界頂尖星際玩家的對戰訓練結果）。戰術體系是一個完整的操作序列，涉及遊戲中所有的單位及其行為，戰術體系對外只暴露戰術核心參數。在本系統中，智能體的定義是：某個單位（可以是作戰單位、建築等）在某個場景（也可以是所有場景）下面向特定目標的最優解。例如，星靈機械哨兵的力場時機和位置。這個是可以大量應用強化學習訓練的地方。先驗圖譜是站在巨人肩膀上的關鍵，由於目前深度學習相關技術的局限性，完全零先驗比較天方夜譚。對於《星際爭霸II》或軍事實戰指揮來說，先驗圖譜包括戰場環境（基本信息）、敵我雙方裝備體系（不完備信息）、戰術體系等。當然，除了這些核心組件還有各種態勢感知、作戰控制（單兵、群體協作等）等組件，所有的組件都可以以知識表示、專家系統、AI模型的方式生成。在AlphaWar中，指標控制中心有兩種實現，第一種是策略編輯器，例如我方（蟲族）探測到對方（星靈）裸開雙礦，對於態勢感知來說可以得出一個可快速壓制的策略，這個時候只需要一個態勢分類器和一個快速壓制的智能體就足以完成整個指揮控制過程；第二種則比較複雜，也是實際戰爭中的常規情況，態勢瞬息萬變，這個時候需要一個基於LSTM的深度指控網絡。（這個是個很大的話題，後續有機會單獨展開）以上是AlphaWar的基本組成，接下來我們用例子來說明它是怎麼工作，一個一行代碼都不用寫實現一個擊敗《星際爭霸II》全種族最難級別的戰術機器人！光影沐浴者，俗稱速隱刀戰術。利用星際爭霸II的反隱單位或建築通常需要前置的科技建築才能生產，星靈在早期以最快速度（並欺騙對手）出黑暗聖堂武士，經常可以起到一舉定輸贏的效果。

小知識：黑暗聖堂武士的第一句臺詞是：光影沐浴著我！

如圖所示，大多組件都是策略性的實現，可以理解為指揮控制中的常規開局操作。跟知識圖譜、深度學習比較相關，需要訓練模型或知識推理的四個組件：

小知識：暴雪公司會開放一些AI或人類對戰的replay，可以用來訓練智能體。

偷水晶和機械臺的主要目的是加快進攻的時間，進攻越晚對手出反隱裝置的可能性越高。水晶和機械臺的需要用replay來訓練最佳隱蔽位置，躲過對方農民探路路線以及蟲族房子可能路線等。這是一個典型的知識圖譜+AI的智能體。首先，要從知識圖譜中查詢出對方種族反隱的實現裝置，並採用對應的反制戰術。這個過程中有大量的可能性，需要用AI得到一個最優解。例如，對方是人族，在這個時候一般已經有偵測掃描了，如果所有黑暗聖堂武士一起空投有可能被一波吃掉。需要分批（一批1個）消耗對方的掃描次數，等對方掃描次數（知識圖譜獲取）用完了再大規模折躍黑暗聖堂武士，這個訓練只需幾十個樣本就可以完美實現。這是一個態勢感知網絡和兵種相剋圖譜相融合的策略。例如對方（蟲族）開始變眼蟲反隱，這個時候就要折躍追獵者來清除障礙。微操是勝敗的關鍵要素，著名的AlphaStar中有大量作戰單位微操智能體，同等條件下可以以最小損失殲滅對方主力部隊。（關於如何訓練戰術和智能體，後續有機會再單獨深入講解）結果直接上圖：在對方（藍方）經濟和部隊都有優勢的情況下擊垮它！未來的戰爭勝利將取決於認知速度，即讓機器正確理解作戰態勢並做出決策。而認知速度的快慢，極大程度上取決於智能技術的運用。因此，智能體輔助是兵棋系統升級換代的關鍵。淵亭科技一直致力於基於多智能體的戰略推演平臺的研究，希望用人工智慧技術賦能信息化時代的新型作戰指揮系統，為我軍提升戰略能力和安全環境貢獻力量。DataExa淵亭科技成立於2014年，是領先的一站式認知智能平臺與服務廠商，在認知計算、知識圖譜、機器學習、數據挖掘等領域擁有核心技術優勢與領先的工程化能力。淵亭聚焦金融、政務、國防、工業網際網路四大行業，為客戶提供認知中臺、AI中臺、數據中臺三大中臺產品與全棧AI+行業解決方案。以「連接萬物、全景計算、認知推理、深度賦能」為企業使命。目前已服務了中國人民銀行、建設銀行、廣發證券、軍委科技委、戰略支援部隊等知名企業與政府機關。

【國防】AlphaWar兵棋推演:虛擬硝煙中的AI指揮藝術與決勝智慧

相關焦點

兵棋推演在美軍作戰中的運用

【 AI & War Game Deduction 】美陸軍在兵棋推演中模擬人工智慧

兵棋推演講座之一:兵棋推演的藝術與科學

兵棋推演:撥開戰爭迷霧的一招好棋

指上談兵——兵棋推演讓你走在戰爭前面

英國國防科技實驗室成立兵棋推演中心,主持開展「鷹勇士19」推演活動

戰爭與兵棋:1991伊拉克戰爭中的美軍兵棋推演

兵棋講座之六:兵棋推演職業經歷分享!

兵棋推演:推進學科融合發展!

兵棋推演戰報應該怎麼寫?

瞄準未來,走進現實:2020年兵棋推演綜述!

小白看兵棋推演實例

海戰兵棋推演簡史

在兵棋的世界裡,他戰無不勝!

美陸軍大型兵棋推演中美方力量損失慘重

孫浩智:「兵棋」戰場一驕子

戰爭先行者-兵棋推演!

陸軍戰術兵棋推演規則

「陸軍戰術兵棋推演系統」參加第三屆河北軍民融合成果展

兵推歷史:冷戰時期的兵棋推演