8月20日,美國蒼鷺系統公司的人工智慧空戰系統,與一名坐在模擬器中、戴著虛擬實境頭盔的人類戰鬥機飛行員進行空戰格鬥對抗,最後以5:0的絕對優勢獲勝。這場世界首次人工智慧和人類的空戰大賽,表明在空戰近距格鬥領域,人工智慧可以超越人類。那麼,人工智慧是否會在空軍作戰中獲得巨大發展呢?
2019年8月,國防高級研究開發局DARPA選擇了八個團隊,包括洛克希德·馬丁公司這樣的大型傳統國防承包商到蒼鷺系統公司(Heron Systems)這樣的小公司,在11月和2020年1月的一系列試驗中展開一系列競爭,最后蒼鷺系統公司在與其他七支球隊的較量中脫穎而出獲得冠軍,亞軍洛克希德·馬丁公司獲得亞軍。而20日人工智慧對人類的勝利,再次證明深度強化學習路線的正確性。即人工智慧算法可以在虛擬戰爭環境中一遍又一遍地訓練一項空戰任務,最終發展「理解」空戰的層次。
來自洛克希德·馬丁公司的人工智慧副總裁馬特·塔拉西奧和人工智慧總監兼首席架構師李·裡索爾茨表示,試圖讓算法在空戰中表現良好,與簡單地教軟體「飛」或保持特定的方向、高度和速度有很大的不同。人工智慧軟體一開始甚至對非常基本的飛行任務都完全缺乏理解,這使得它一開始十分「菜」。一個最普通的人也知道飛機它不應該撞到地面,但是算法不知道。在訓練一開始,人工智慧經常把飛機開到地面自殺,就像嬰兒一樣。
克服這種無知的「人工智慧」,需要算法訓練,每個錯誤都有代價,但這些代價並不相等。當算法基於仿真後的分析,能夠為每個動作分配權重,然後隨著經驗的不斷更新,能夠重新分配這些權重,就能夠逐漸加固人工智慧的「戰鬥意識」。但是程式設計師在如何構建模擬方面的,存在有意識和無意識巨大爭論。是基於人類知識編寫軟體規則來約束人工智慧,還是讓人工智慧通過試錯自我學習?這是一場激烈的辯論。最後美方選擇第二種,因為人類的經驗有可能限制了它的性能。
儘管已開始是菜鳥,但人工智慧可以學習的速度有多快是令人震驚的,因為它可以在多臺機器上一遍又一遍地重複訓練。洛克希德公司和其他幾個團隊一樣,有一名戰鬥機飛行員提供建議,還能夠一次在多達25臺伺服器上訓練人工智慧。而蒼鷺系統公司的人工智慧算法,竟然經歷了40億次模擬,等於在1年的時間中獲得了至少「12年資深戰鬥機飛行員的經驗」。美國目標是最終生產的人工智慧產品可以運行在一塊GPU晶片上。
這不是人工智慧第一次在比賽中擊敗人類戰鬥機飛行員。2016年的一次演示顯示,一名為阿爾法的人工智慧特工可以擊敗一名經驗豐富的人類戰鬥飛行教官。但8月20日的模擬對抗意義更大,因為它讓各種人工智慧在高度結構化的框架中相互對抗,然後具備與人類對抗的能力。
而且人工智慧廠商還認為,即便是5:0的結果,但實際上對他們來說並不公平,因為規則不允許在實際對抗中,人工智慧來學習對手的經驗。實際的比賽確實證實了這一點。在了第五輪也是最後一輪比賽時,匿名的人類飛行員已經能夠顯著改變他的戰術,儘管最後失敗了但持續的時間要長得多。顯然人類戰鬥機飛行員也在學習,但是他學的不夠快,還是失敗了。而人工智慧公司認為,如果AI也能在戰鬥中學習人類對手,那麼人類敗得會更快更慘。
這一比賽,將促使美國軍方將不得不對未來做出的重大選擇。企業界建議,美國軍方應該允許人工智慧在實戰中學習更多,而不是簡單計算機模擬,這樣從而在人類的直接監督下,人工智慧學習速度可能更快,並幫助無人駕駛戰鬥機更好地與人類飛行員或其他形態人工智慧競爭。但這需要軍方的決定,特別是在這一關鍵時刻做出決定。至少現在,美軍應該訓練算法,部署人工智慧戰機,然後把數據帶回來,加強學習,然後再次重新部署,不斷循環這一過程。
DARPA戰略技術辦公室主任蒂莫西·格雷森認為,這場試驗並不簡單是人工智慧的勝利,更準確的描述是更好的人機合作的勝利,格雷森說:「我認為我們今天看到的是一種我將稱之為人機共生時代的開始。讓我們想像一下,坐在駕駛艙裡的人類,被這些人工智慧算法看做武器系統飛行的一部分。人工智慧正在做人工智慧最擅長的戰鬥。人類專注於人類最擅長的事情,比如更高層次的戰略思維。」