《經濟學人》日前撰文稱,人工智慧專家之所以喜歡用視頻遊戲來訓練算法,是因為它可以模擬現實生活中的各種場景,降低訓練成本,而且可以幫助他們更好地理解人工智慧甚至自然智能的底層原理。
以下為編譯整理的原文內容:
去年,普林斯頓大學計算機學家阿瑟·菲力珀維茨(Artur Filipowicz)在處理停止標誌時碰到了一個問題。菲力珀維茨博士當時正在教汽車如何識別和解讀周圍的世界,使之可以在沒有人類幫助的情況下自動駕駛。
要實現這一目標,就必須能夠識別停止標誌。所以,他希望訓練一套合適的算法。這種訓練需要向算法(或者運行算法的電腦)展示許多停止標誌的圖片,而且要涵蓋多種不同的環境:新標誌、舊標誌;乾淨的標誌、弄髒的標誌;被卡車或建築物部分遮擋的標誌;陽光明媚、陰雨綿綿、霧氣蒙蒙的環境裡的標誌;白天、傍晚和夜間的標誌。
要從圖庫中獲取所有圖片並非易事,而要親自跑出去逐一拍攝更是非常困難。於是,菲力珀維茨決定向《俠盜獵車手5》求助——這是該系列遊戲的最新力作。
由於真實地刻畫了犯罪和暴力行為,使得《俠盜獵車手5》成為了一款頗具爭議的作品——但在菲力珀維茨看來,這卻是個理想的訓練場,因為裡面也包含很多真實的停止標誌。通過對這款遊戲軟體進行調整,他得以從中分離出成千上萬的停止標誌圖片,而且涵蓋各種各樣的環境,使得他開發的算法可以充分吸收這些信息。
像菲力珀維茨這樣的例子並不少見,很多人工智慧專業的學生都對視頻遊戲頗為鍾愛。之所以出現這種情況,有很多原因。菲力珀維茨這樣的人把遊戲當成現實世界的預備訓練場。還有的人則是看中了不同的遊戲所需的不同認知技能,因而認為遊戲可以幫助他們理解如何把智能問題分解成一個個易於掌控的模塊。但也有一些人融合了這兩種模式,認為遊戲可以幫助他們開發適當的人工智慧理論,甚至可以用來解釋自然智能。
模擬現實
但要實現這些目標,首先要對遊戲進行調整,才能直接讓其他電腦程式直接運行,而不是同時讓人關注屏幕上的各種動作。例如,通過在其中植入一個名為「Deep Drive」的軟體,便可將《俠盜獵車手5》從一個採集道路標誌的圖片庫,變成無人駕駛汽車模擬器。
這樣一來,便可讓這些汽車的駕駛和導航系統獲得控制權——與直接上路測試相比,這種測試方式成本更低,也更為安全。
遊戲公司也開始意識到這一點。例如,微軟2015年6月啟動了Project Malmo,這是一個以微軟最近收購的熱門遊戲《我的世界》為基礎打造的人工智慧開發平臺。2016年11月,作為策略遊戲《星際爭霸2》的開發商,動視暴雪也宣布與谷歌(微博)旗下DeepMind展開合作。
第二個月,在版權所有者的允許下,獲得私人資助的舊金山研究機構OpenAI推出了Universe。這款軟體可以免費使用,裡面包含了數百款可以直接使用適當的程序運行的遊戲。Universe裡包含很多暢銷遊戲,既有《傳送門2》這樣的大製作,也有《Bubble Hit Pony Parade》和《Hames the Space Zebra》這種物美價廉的遊戲。
微軟啟動Project Malmo的目的是教給人工智慧軟體如何與人進行配合。為了達到這個目的,該項目負責人凱特加·霍夫曼(Katja Hofman)試圖使用《我的世界》開發一個高級個人助手。她的目標是開發一款能夠預測人類意圖的軟體,從而幫助其達成目的。
《我的世界》不像現實世界那麼複雜,但其複雜程度已經足夠吸引人工智慧專家的注意,因而成為了一個完美的測試場。例如,霍夫曼博士和她的同事就在使用這款遊戲訓練電腦,使之與人類選手配合抓住虛擬豬。由於機器無法理解手寫指令,所以只能通過觀察人類的遊戲方式來學習。
然而,視頻遊戲在人工智慧領域的作用可不只是訓練無人駕駛技術。事實上,由於不同的遊戲需要不同的技能,因此研究人員便可藉此加深對智能的理解。2015年,DeepMind發表了一篇論文,闡述了該公司的研究人員如何訓練人工神經網絡(這是一種大致模擬生物大腦的程序)運行雅達利上世紀七八十年代發布的幾十款不同的遊戲。
對神經網絡來說,有的遊戲較難掌握,有的相對容易。《Breakout》有點像單人版網球,玩起來相對容易。目標是用彈球擊中漂浮的磚塊。玩家可以做兩件事情:向左或向右移動球拍。如果失敗,就會立刻受到懲罰(丟球就會少一條命)。類似地,如果成功也會立刻得到獎勵(每打中一個磚塊都可以加分)。
由於規則簡單,而且可以立刻獲得反饋,所以很適合DeepMind的神經網絡。它玩《Breakout》的水平很高,甚至達到專業人類遊戲測試員的10倍。
其他遊戲沒有那麼簡單。在《Montezuma’s Revenge》遊戲中,目標是找到藏在危險金字塔深處的寶藏。為了完成任務,玩家必須首先達成很多目標,例如找到鑰匙打開門。這種遊戲的反饋不像《Breakout》那麼快——鑰匙可能在一個地方,但要打開門卻要跑到更遠的另外一個地方。不僅如此,還需要完成數以千計的動作後才能獲得最終的獎勵——找到寶藏。
這就意味著神經網絡很難建立因果關係。與《Breakout》的優異表現相比,人工智慧在《Montezuma’s Revenge》遊戲中幾乎沒有取得進步。
自那之後,DeepMind研究人員便調整了算法,加強系統對事物的好奇心,通過更大的獎勵鼓勵其展開探索和實驗。這樣一來,它就更有可能發現那些無法立刻顯現出效果的一流策略。
這種方式不僅限於掌握虛擬世界的各種技巧,還可以應用到現實世界。例如,DeepMind的算法已經應用到谷歌的數據中心,並且成功將能耗降低了40%。事實上,完全可以將這樣的任務當做遊戲看待。要降低數據中心的能耗,神經網絡可以對冷卻液泵和和負載分布等設置進行調整,同時密切關注能源使用狀況。「得分」越低,表明效果越好。
遷移學習
在現階段,通過調整遊戲程序來降低數據中心的能源預算,就像從頭教給人工智慧如何玩一款新遊戲一樣。這是因為DeepMind的原始神經網絡一次只能運行一款遊戲。例如,為了理解《Breakout》,它必須忘記自己掌握的《Space Invaders》遊戲的內容。
這種健忘症是人工神經網絡的特性——也是它區別於人類大腦的關鍵。這種神經網絡由虛擬神經組成,它們通過系統性調整這些虛擬神經之間的連接強度進行學習。如果改變需要學習的任務,之前的連接網絡就會逐漸被替換。
但現在,正如他們在今年3月發表的一篇論文中所說,DeepMind的程式設計師已經克服了這個問題,使得神經網絡可以像人腦一樣同時掌握多款遊戲。這便向著「遷移學習」邁出了一步——遷移學習指的是把一種背景下學會的行為模式應用到另外一個背景中,這是當今人工智慧研究領域的熱門話題。
就像展示好奇心和延後獎勵一樣,遷移學習對人類來說毫無難度,但機器卻很難掌握。於是,遊戲又一次在研究中扮演了重要角色。
例如,紐約大學的朱利安·託格流斯(Julian Togelius)組織了一場名為「普通視頻遊戲人工智慧競賽」的挑戰賽:參加者必須開發一款會玩10款不同視頻遊戲的程序,而且要具備一定的能力。值得一提的是,無論是程序本身還是負責開發的程式設計師,之前都不能接觸過這些遊戲。這就要求軟體掌握許多技能,包括規劃、探索、決策等,而且還要懂得使用這些能力來解決之前沒有遇到的問題。
但即便是掌握了遷移學習能力,構建有用的人工智慧仍然是一項繁瑣的任務。研究人員希望掌握一套基礎理論,以便能夠系統性地實現這一目標。其中一種候選理論名為「體驗認知」,該理論認為,不應該從一開始就給程序設計智能,而是應該完全通過體驗來學習。
霍夫曼特別支持這種方法。她認為,視頻遊戲是探索這種想法的完美平臺。之前關於體驗認知的研究是在1980年代進行的,當時是在機器人身上配置傳感器,讓其通過四處跑動和偶然碰到各種事情來了解現實世界的運作方式。當時的研究人員在這方面的確取得了一定的成功,但在擴大試驗規模時卻遇到問題。
DeepMind的大衛·西爾沃(David Silver)表示:「機器人有齒輪、轉輪和發動機,以及各種高精度零件,所以需要花費很多時間來維護。」
簡化過程
視頻遊戲可以簡化這一過程。虛擬世界的虛擬機器人沒有重量,也沒有傳動部件,所以無需維護。如果要對規格進行調整,也不需要把它拆開,只需要敲擊幾下鍵盤即可完成。
環境也可以輕易調整。改變迷宮路徑不再需要大動幹戈,一臺電腦便可同時運行數千個模擬程序,使得虛擬機器人一遍一遍地嘗試任務,不斷學習。這種大規模測試也讓研究人員得以監督和理解學習過程。如果使用的是真正的機器,根本無法達到這種效果。
DeepMind創始人戴密斯·哈薩比斯(Demis Hassabit)認為,關鍵是確保虛擬機器人不能作弊。一定要讓它完全根據虛擬傳感器所能收集的信息來採取行動。不能在模擬場景上開後門。如果這些機器人想要適應《Montezuma’s Revenge》裡的金字塔或者《俠盜獵車手》裡的虛擬城市,就必須搞清楚自己所處的位置和周圍的狀況,而不能向電腦詢問相關信息。DeepMind在教程序玩遊戲時就採取了這種方法。
通過這種方法研究體驗認知是對人工智慧遊戲方式的合理總結。這似乎也是比較恰當的一種方式。無論是狗還是人,任何一種智能生物年輕的時候都會通過玩來構建類似於「體驗認知」的東西。進化過程並沒有計算機作為輔助,但無論是在人工世界還是自然世界中,這種活動的出發點都是為了讓「玩家」學會應對最大的遊戲——那就是現實。
如何通過遊戲AI設計與實施加深遊戲體驗
責任編輯:黑色幽默