為什麼人工智慧專家喜歡用遊戲訓練AI?

2021-01-09 07073遊戲網

  《經濟學人》日前撰文稱,人工智慧專家之所以喜歡用視頻遊戲來訓練算法,是因為它可以模擬現實生活中的各種場景,降低訓練成本,而且可以幫助他們更好地理解人工智慧甚至自然智能的底層原理。

  以下為編譯整理的原文內容:

  去年,普林斯頓大學計算機學家阿瑟·菲力珀維茨(Artur Filipowicz)在處理停止標誌時碰到了一個問題。菲力珀維茨博士當時正在教汽車如何識別和解讀周圍的世界,使之可以在沒有人類幫助的情況下自動駕駛。

  要實現這一目標,就必須能夠識別停止標誌。所以,他希望訓練一套合適的算法。這種訓練需要向算法(或者運行算法的電腦)展示許多停止標誌的圖片,而且要涵蓋多種不同的環境:新標誌、舊標誌;乾淨的標誌、弄髒的標誌;被卡車或建築物部分遮擋的標誌;陽光明媚、陰雨綿綿、霧氣蒙蒙的環境裡的標誌;白天、傍晚和夜間的標誌。

  要從圖庫中獲取所有圖片並非易事,而要親自跑出去逐一拍攝更是非常困難。於是,菲力珀維茨決定向《俠盜獵車手5》求助——這是該系列遊戲的最新力作。

  由於真實地刻畫了犯罪和暴力行為,使得《俠盜獵車手5》成為了一款頗具爭議的作品——但在菲力珀維茨看來,這卻是個理想的訓練場,因為裡面也包含很多真實的停止標誌。通過對這款遊戲軟體進行調整,他得以從中分離出成千上萬的停止標誌圖片,而且涵蓋各種各樣的環境,使得他開發的算法可以充分吸收這些信息。

  像菲力珀維茨這樣的例子並不少見,很多人工智慧專業的學生都對視頻遊戲頗為鍾愛。之所以出現這種情況,有很多原因。菲力珀維茨這樣的人把遊戲當成現實世界的預備訓練場。還有的人則是看中了不同的遊戲所需的不同認知技能,因而認為遊戲可以幫助他們理解如何把智能問題分解成一個個易於掌控的模塊。但也有一些人融合了這兩種模式,認為遊戲可以幫助他們開發適當的人工智慧理論,甚至可以用來解釋自然智能。

  模擬現實

  但要實現這些目標,首先要對遊戲進行調整,才能直接讓其他電腦程式直接運行,而不是同時讓人關注屏幕上的各種動作。例如,通過在其中植入一個名為「Deep Drive」的軟體,便可將《俠盜獵車手5》從一個採集道路標誌的圖片庫,變成無人駕駛汽車模擬器。

  這樣一來,便可讓這些汽車的駕駛和導航系統獲得控制權——與直接上路測試相比,這種測試方式成本更低,也更為安全。

  遊戲公司也開始意識到這一點。例如,微軟2015年6月啟動了Project Malmo,這是一個以微軟最近收購的熱門遊戲《我的世界》為基礎打造的人工智慧開發平臺。2016年11月,作為策略遊戲《星際爭霸2》的開發商,動視暴雪也宣布與谷歌(微博)旗下DeepMind展開合作。

  第二個月,在版權所有者的允許下,獲得私人資助的舊金山研究機構OpenAI推出了Universe。這款軟體可以免費使用,裡面包含了數百款可以直接使用適當的程序運行的遊戲。Universe裡包含很多暢銷遊戲,既有《傳送門2》這樣的大製作,也有《Bubble Hit Pony Parade》和《Hames the Space Zebra》這種物美價廉的遊戲。

  微軟啟動Project Malmo的目的是教給人工智慧軟體如何與人進行配合。為了達到這個目的,該項目負責人凱特加·霍夫曼(Katja Hofman)試圖使用《我的世界》開發一個高級個人助手。她的目標是開發一款能夠預測人類意圖的軟體,從而幫助其達成目的。

  《我的世界》不像現實世界那麼複雜,但其複雜程度已經足夠吸引人工智慧專家的注意,因而成為了一個完美的測試場。例如,霍夫曼博士和她的同事就在使用這款遊戲訓練電腦,使之與人類選手配合抓住虛擬豬。由於機器無法理解手寫指令,所以只能通過觀察人類的遊戲方式來學習。

  然而,視頻遊戲在人工智慧領域的作用可不只是訓練無人駕駛技術。事實上,由於不同的遊戲需要不同的技能,因此研究人員便可藉此加深對智能的理解。2015年,DeepMind發表了一篇論文,闡述了該公司的研究人員如何訓練人工神經網絡(這是一種大致模擬生物大腦的程序)運行雅達利上世紀七八十年代發布的幾十款不同的遊戲。

  對神經網絡來說,有的遊戲較難掌握,有的相對容易。《Breakout》有點像單人版網球,玩起來相對容易。目標是用彈球擊中漂浮的磚塊。玩家可以做兩件事情:向左或向右移動球拍。如果失敗,就會立刻受到懲罰(丟球就會少一條命)。類似地,如果成功也會立刻得到獎勵(每打中一個磚塊都可以加分)。

  由於規則簡單,而且可以立刻獲得反饋,所以很適合DeepMind的神經網絡。它玩《Breakout》的水平很高,甚至達到專業人類遊戲測試員的10倍。

  其他遊戲沒有那麼簡單。在《Montezuma’s Revenge》遊戲中,目標是找到藏在危險金字塔深處的寶藏。為了完成任務,玩家必須首先達成很多目標,例如找到鑰匙打開門。這種遊戲的反饋不像《Breakout》那麼快——鑰匙可能在一個地方,但要打開門卻要跑到更遠的另外一個地方。不僅如此,還需要完成數以千計的動作後才能獲得最終的獎勵——找到寶藏。

  這就意味著神經網絡很難建立因果關係。與《Breakout》的優異表現相比,人工智慧在《Montezuma’s Revenge》遊戲中幾乎沒有取得進步。

  自那之後,DeepMind研究人員便調整了算法,加強系統對事物的好奇心,通過更大的獎勵鼓勵其展開探索和實驗。這樣一來,它就更有可能發現那些無法立刻顯現出效果的一流策略。

  這種方式不僅限於掌握虛擬世界的各種技巧,還可以應用到現實世界。例如,DeepMind的算法已經應用到谷歌的數據中心,並且成功將能耗降低了40%。事實上,完全可以將這樣的任務當做遊戲看待。要降低數據中心的能耗,神經網絡可以對冷卻液泵和和負載分布等設置進行調整,同時密切關注能源使用狀況。「得分」越低,表明效果越好。

  遷移學習

  在現階段,通過調整遊戲程序來降低數據中心的能源預算,就像從頭教給人工智慧如何玩一款新遊戲一樣。這是因為DeepMind的原始神經網絡一次只能運行一款遊戲。例如,為了理解《Breakout》,它必須忘記自己掌握的《Space Invaders》遊戲的內容。

  這種健忘症是人工神經網絡的特性——也是它區別於人類大腦的關鍵。這種神經網絡由虛擬神經組成,它們通過系統性調整這些虛擬神經之間的連接強度進行學習。如果改變需要學習的任務,之前的連接網絡就會逐漸被替換。

  但現在,正如他們在今年3月發表的一篇論文中所說,DeepMind的程式設計師已經克服了這個問題,使得神經網絡可以像人腦一樣同時掌握多款遊戲。這便向著「遷移學習」邁出了一步——遷移學習指的是把一種背景下學會的行為模式應用到另外一個背景中,這是當今人工智慧研究領域的熱門話題。

  就像展示好奇心和延後獎勵一樣,遷移學習對人類來說毫無難度,但機器卻很難掌握。於是,遊戲又一次在研究中扮演了重要角色。

  例如,紐約大學的朱利安·託格流斯(Julian Togelius)組織了一場名為「普通視頻遊戲人工智慧競賽」的挑戰賽:參加者必須開發一款會玩10款不同視頻遊戲的程序,而且要具備一定的能力。值得一提的是,無論是程序本身還是負責開發的程式設計師,之前都不能接觸過這些遊戲。這就要求軟體掌握許多技能,包括規劃、探索、決策等,而且還要懂得使用這些能力來解決之前沒有遇到的問題。

  但即便是掌握了遷移學習能力,構建有用的人工智慧仍然是一項繁瑣的任務。研究人員希望掌握一套基礎理論,以便能夠系統性地實現這一目標。其中一種候選理論名為「體驗認知」,該理論認為,不應該從一開始就給程序設計智能,而是應該完全通過體驗來學習。

  霍夫曼特別支持這種方法。她認為,視頻遊戲是探索這種想法的完美平臺。之前關於體驗認知的研究是在1980年代進行的,當時是在機器人身上配置傳感器,讓其通過四處跑動和偶然碰到各種事情來了解現實世界的運作方式。當時的研究人員在這方面的確取得了一定的成功,但在擴大試驗規模時卻遇到問題。

  DeepMind的大衛·西爾沃(David Silver)表示:「機器人有齒輪、轉輪和發動機,以及各種高精度零件,所以需要花費很多時間來維護。」

  簡化過程

  視頻遊戲可以簡化這一過程。虛擬世界的虛擬機器人沒有重量,也沒有傳動部件,所以無需維護。如果要對規格進行調整,也不需要把它拆開,只需要敲擊幾下鍵盤即可完成。

  環境也可以輕易調整。改變迷宮路徑不再需要大動幹戈,一臺電腦便可同時運行數千個模擬程序,使得虛擬機器人一遍一遍地嘗試任務,不斷學習。這種大規模測試也讓研究人員得以監督和理解學習過程。如果使用的是真正的機器,根本無法達到這種效果。

  DeepMind創始人戴密斯·哈薩比斯(Demis Hassabit)認為,關鍵是確保虛擬機器人不能作弊。一定要讓它完全根據虛擬傳感器所能收集的信息來採取行動。不能在模擬場景上開後門。如果這些機器人想要適應《Montezuma’s Revenge》裡的金字塔或者《俠盜獵車手》裡的虛擬城市,就必須搞清楚自己所處的位置和周圍的狀況,而不能向電腦詢問相關信息。DeepMind在教程序玩遊戲時就採取了這種方法。

  通過這種方法研究體驗認知是對人工智慧遊戲方式的合理總結。這似乎也是比較恰當的一種方式。無論是狗還是人,任何一種智能生物年輕的時候都會通過玩來構建類似於「體驗認知」的東西。進化過程並沒有計算機作為輔助,但無論是在人工世界還是自然世界中,這種活動的出發點都是為了讓「玩家」學會應對最大的遊戲——那就是現實。

  如何通過遊戲AI設計與實施加深遊戲體驗

責任編輯:黑色幽默

相關焦點

  • 人工智慧擊敗世界圍棋冠軍 "阿爾法狗"為什麼厲害
    本版近期推出「關注『人機大戰』」系列報導上下篇,嘗試揭開谷歌圍棋人工智慧程序贏得比賽的秘密,並分享相關專家對人工智慧未來前景的預測。 ——編者 從3月9日開始,一場人與機器的圍棋大戰吸引了全世界的目光。這場大戰在韓國首爾上演,一直持續到15日,共5輪。大戰之所以舉世矚目,是因為對戰的雙方是世界圍棋冠軍李世石與圍棋人工智慧程序AlphaGo。
  • 如何用人工智慧算法檢測皮膚病變的方式訓練醫生?
    ILLUSTRATION: ARIEL DAVIS十幾年來,維也納醫科大學教授的皮膚科醫生哈拉爾德·基特勒一直用醫學經驗教授學生如何診斷皮膚病變,今年下學期開始,他將加入利用人工智慧算法診斷皮膚病變的課程。這一算法系統來源於基特勒幫助組織過的一場比賽,在比賽中,圖像分析算法在診斷某些皮膚瑕疵方面的表現可以超過人類專家。
  • 其實,ai不止是一項科技,更是一種文化,一種觀念
    其實,ai不止是一項科技,更是一種文化,一種觀念。自2016年alphago在圍棋系列賽中戰勝職業棋手以來,ai已經開始在某些領域中取得進展,並且在某些問題上實現了突破。在最近的新聞中,谷歌發布的兩張miranda照片不僅僅是事實,還再次為我們揭開了ai正在開始各領域進行科學研究的新面貌。
  • 第三期《服務專家的全維度能力鍛造:人工智慧訓練師 》訓練營成功...
    11月27日-28日,由才博(中國)客戶管理機構、科大訊飛聯合開展的《服務專家的全維度能力鍛造:人工智慧訓練師》訓練營在科大訊飛合肥總部成功舉辦。智能語音技術的快速發展,讓客服行業成為人工智慧應用落地的主要領域之一,也催生了許多新興職業,AI訓練師就是其中之一。
  • 人工智慧「阿爾法狗」瞄準醫療領域
    巴比倫正在開發醫生或患者說出症狀後,在網際網路上搜索醫療信息、尋找診斷和處方的人工智慧APP(應用程式)。如果Alpha Go和巴比倫結合,診斷的準確度將得到劃時代性提高。巴比倫以年底實現商業化為目標,在英國艾賽克斯的兩家醫院進行示範服務。谷歌在最近幾年間,還收購了15家機器人初創公司。如果將Alpha Go搭載於機器人身上,就能製造出觀察人類感情的家庭用機器人。
  • 松鼠AI慄浩洋:人工智慧將在創造力上超越人類
    我們在中國算是比較早從事人工智慧的,4、5年前(人工智慧)還沒有火,也沒有風投願意投資人工智慧。當時我們就有幸接觸了全球AI頂級的專家和各個行業的企業,也看到了人工智慧在創造力方面的發展。我自己作為一個教育人,覺得不能只教孩子提分,還是要想未來、孩子要有創造力。那麼機器AI老師、虛擬的老師能不能教孩子創造力?
  • 美國領跑AI創新?福布斯全球AI 創企Top 50
    36.CROWDFLOWER這是一個對數據科學團隊很重要的人類幹預訓練平臺,幫助客戶生成高質量的自定義訓練數據。36.RAPIDMINERRapidminer是業界第一大開源數據科學平臺。通過授權所有組織提供數據來修整行業科學背後的決定。
  • 只需1 分鐘,這個網站用 AI 分離歌曲的人聲、伴奏和樂器聲
    整理 | Just疫情期間,在家待著閒來無事,一些技術人員就喜歡以技術的方式找點樂子,順帶賺錢最好了。將歌曲中的人聲和樂器聲分離是一件讓想使用音樂伴奏的人頭疼的事情,傳統的音樂製作軟體使用門檻較高,處理起來不光費時而且效果不一定好。
  • 自動化是當前與深度學習及人工智慧等的不可分割的關係
    自動化是當前與深度學習及人工智慧等的不可分割的關係,也同樣是當前的熱門主題。自動化機器學習在自動化,人工智慧,無人機等科技領域有廣泛的應用。自動化機器學習可以模擬生物學過程,比如分類,和識別。分類。分類就是識別。
  • 為什麼人工智慧各種完爆人類,但依舊聽不懂你在說什麼?
    然而就在當年10月,谷歌推出了一種新語言訓練模型,綽號為BERT,僅用六個月的時間就把測試成績從D-提升到了B-。隨後,微軟和阿里巴巴不斷地修正BERT模型、相互超越,在GLUE排行榜上輪換頭名。現在,在GLUE閱讀能力測試中,人類已經無法與AI抗衡。
  • AI也能有嗅覺!谷歌正訓練人工智慧預測分子氣味
    來源:獵雲網編譯:葉展盛一批人工智慧、生命科學和化學方面的專家正在通過圖神經網絡來識別分子、預測氣味。這批專家建立的模型性能已經超越了目前的所有方法,該模型誕生於DREAM嗅覺預測挑戰賽。這些研究員主要來自於谷歌、加拿大高等研究所、多倫多矢量人工智慧研究所、多倫多大學和亞利桑那州立大學。這些研究人員相信,隨著機器學習在分子識別領域應用水平的提高,機器智能將可以進行氣味識別,就像讓人工智慧模擬視覺、聽覺等其他感知能力。另外,研究人員還在嘗試讓機械臂獲得觸覺。
  • Facebook訓練人工智慧用文字創造電子遊戲的世界
    這就是Facebook、洛林大學和倫敦大學學院的研究人員在一份預印本論文中研究用AI方法創建遊戲世界的原因。」讓我們回顧一下,LIGHT是由同一組科學家在今年3月份發表的一篇論文中提出的,它是一個基於文本的遊戲形式的研究環境,在這個遊戲中,人工智慧和人類作為玩家角色進行交互
  • 人工智慧開始用於太空實驗,發現56萬個「星系」?
    天文學家將ai人工智慧使用於斯巴魯望遠鏡拍攝的遙遠宇宙超寬視場圖像,而且在這些圖像中實現了特別高的發現及分類螺旋星系的精度,這項技術和公民科學相結合,有希望在未來產生許多的發現,一個重要由來自日本國立天文臺NAOJ天文學家組成的研究小組,日本國立天文臺的科學家利用人工智慧ai技術對於遙遠宇宙的近56萬個星系進行了細緻分解,根據是昴星團望遠鏡查看過的超廣角圖像。
  • AI專家們推薦的13篇「必讀」論文
    Andriy推薦了2017年的這篇論文,因為用他自己的話說,"它將NLP與BERT等預訓練的Transformer模型帶到了一個全新的高度"。論文提出了一種新的簡單網絡架構--Transformer,完全基於注意力機制,完全免除了遞歸和卷積。在兩個機器翻譯任務上的實驗表明,這些模型在質量上更勝一籌,同時更可並行化,所需的訓練時間也大大減少。你可以在這裡閱讀這篇論文。
  • 谷歌深度學習實驗室:讓人工智慧在虛擬接觸中訓練感知
    孩子能通過遊戲學習,為什麼機器不可以呢?對於人類來說,了解一個物件屬性最簡單的方法(它是冷是熱,是輕是重,是尖是鈍)是把它撿起來,用手把玩一下。現在,谷歌深度學習實驗室的人工智慧工程師正在用相同的方法訓練機器——通過比較虛擬積木的物理屬性探索它們。
  • 經濟學人科技 || 人工智慧
    GPT-3為什麼懟起了前老闆?這個模型叫做預訓練語言模型-3,人們常稱之為GPT-3。它的開發者是由馬斯克協助創辦位於舊金山的人工智慧(AI)實驗室OpenAI。GPT-3代表了人工智慧研究極其火熱的一個領域內的最新成就——讓計算機能夠生成複雜的,類似人類表達方式的文本。註:蘇斯博士(Dr.Seuss),二十世紀最卓越的兒童文學家、教育學家。
  • 什麼是對話式AI(Conversational AI)? - 文章精選 - CTI論壇-中國...
    對話式AI的定義  人工智慧作為一個領域已經存在了數十年。可以這麼說,這是因為處理和存儲的價格已大大降低,而有用的數據已變得更加廣泛和深入。機器學習(ML)是AI的一個子集,在過去的十年中醒來,以實現豐富的數據客戶體驗。簡而言之,機器學習科學家建立了數學模型,  預測結果,然後將數據輸入該模型,從而提高整體預測準確性。
  • FB嵌入式人工智慧平臺發布,單目3D姿態估計新方法
    此外,該模型可以在沒有配對3D監督的情況下進行訓練,仍然可以產生有競爭力的結果。我認為這個新模型是人工智慧研究社區願意深入研究的東西,能夠幫助推動3D姿態估計的進步。新方法基於一個概念:即,使用專家演示和環境動態增強訓練數據集,這些數據集預先提供給人形人工智慧,並且只能通過交互進行觀察。狀態-動作對使得人形人工智慧能夠有效地模仿專家,並通過糾正行為和減少錯誤進行訓練。通過這種方式,該方法使得人形人工智慧可以僅使用少數專家演示和與周圍環境的自監督交互來學習魯棒性的策略。
  • 未來科技的發展,人工智慧還是熱點嗎?AI的意義是什麼呢?
    當然人工智慧榜上有名,ai的意義個人認為是人類在已有知識用計算機智能算法去重複演練的的一個過程。無論是簡單還是複雜的事情,人類選擇讓ai去做的事情都是人類已經反覆實驗反覆測試過的,能讓人類去做更有意義的事情,人類的文明也將進入一個新時代。
  • AI看圖說話首超人類!微軟認知AI團隊提出視覺詞表預訓練超越...
    帶標籤的圖片可以針對性訓練,那如果出現了從未標註的新物體,系統是不是就失效了?這個問題困擾了人們很久,即描述清楚一個新出現的東西。人工智慧領域驗證一個模型的好壞,通常會用一個基準測試。比如NLP方向會用GLUE、SuperGLUE等,圖像識別會用ImageNet等。