嗯?DeepMind開了個心理學實驗室

2020-12-25 量子位

夏乙 允中 編譯整理量子位 出品 |

最近,DeepMind開了個心理學實驗室,名叫Psychlab,地點就在DeepMind Lab裡。

當然,不是為人類開的。

Psychlab所處的DeepMind Lab是個第一人稱視角3D遊戲世界,這個心理學實驗室當然也是個模擬環境,研究對象是其中的深度強化學習智能體(Agents)。Psychlab能夠實現傳統實驗室中的經典心理學實驗,讓這些本來用來研究人類心理的實驗,也可以用在AI智能體上。

關於這個實驗室,DeepMind剛剛公開了一篇論文:Psychlab: A Psychology Laboratory for Deep Reinforcement Learning Agents,在裡邊詳細介紹了Psychlab的環境、API,還展示了一些示例任務。

他們在論文裡說,有了Psychlab,就可以直接用認知心理學和視覺心理物理學的任務來測試,將深度強化學習智能體與人類做比較,這種比較可以豐富我們對智能體的理解,有助於優化智能體的設計

那麼,

Psychlab究竟什麼樣?

在Psychlab中,智能體站在一個平臺上,面前擺著一個大屏幕,上面顯示著刺激。這個智能體可以注視著屏幕,也可以環顧周圍,看看地面看看天,都沒有問題。

Agent在Psychlab中完成視覺搜索任務

就像上圖所示,智能體的注視方向決定了畫面顯示的場景。①的智能體注視著屏幕中心,②和③的智能體都在搜索目標,④顯示的是智能體找到了它的目標:洋紅色的T。隨著智能體注視方向的變化,屏幕上顯示出它的不同視野。和你玩《使命召喚》時的視野變化差不多。

除了盯著屏幕找目標,智能體在這個實驗室裡還能幹什麼呢?DeepMind自己在論文中展示了8種任務

Psychlab中的各種任務

為了與常見的行為測試方法保持一致,所有Psychlab的任務都被分割成離散的測試。這些測試也是基本的分析單位。在DM-Lab環節可以進行任意數量的測試,試驗次數、時間等都可以自行配置。所有的測試都是通過注視屏幕中心的紅十字來啟動的。

下面,我們來看看Psychlab中這些測試任務的實例。

1. 持續識別,判斷面前的物品是否曾經出現過,新的就往左看,舊的就往右看。

2. 任意的視覺映射,面前出現一個物體和四個標籤,標籤中只有一個是綠色。下次這個物體再出現的時候,要判斷出對應的綠色標籤在哪個位置。

3. 變化檢測,判斷前後出現的兩組圖,是否發生了變化。

4. 視力和對比敏感度測試(Landolt C)。畫面中間有一個C型環,被測試者需要指出缺口的方向,C型環會不斷的變小,對比度也會不斷降低。

5. 玻璃圖案測試,要判斷兩個圖案中,哪一個是同心的玻璃圖案。

6. 視覺搜索,在一堆物體中發現要尋找的目標。

7. 隨機點運動方向判斷,畫面中間的圓形區域,會出現大量的隨機點,你需要指出主要的運動方向。隨機點運動速度特別快的時候,真是一個挑戰。

8. 多對象追蹤。畫面中有一組兩種顏色的小球,隨後全部變成統一顏色並開始移動,最後指定一個小球,你要判斷原來這個球的顏色是什麼。

其實看完這些任務,量子位很想說:

這……會不會有點為難AI了?

不過DeepMind在論文中說,既然深度強化學習智能體連「去找藍色氣球」這種自然語言指令都能聽懂了,可見智商還不錯,是時候把這些心理物理學、認知心理學領域實驗方案拿出來讓它們領教一下了。

為了讓更多同行創造更多任務來給AI領教,DeepMind開放了一個Psychlab API。這個API是在lua中編寫的一個簡單的GUI框架,把部件(widget)放在Psychlab中的虛擬屏幕上,就可以創建任務。

這些小部件可以是任意的視覺形象,在事件發生時,比如當智能體的注視中心進入或離開小部件區域,小部件會調用回調。這個框架還支持在完成時使用定時器來調用回調。

在實驗中,智能體也會獲得獎勵。當正確完成實驗,智能體獲得的獎勵為1,其他步驟為0。

DeepMind建立這個「實驗室」,是為了在心理學和現代人工智慧之間建立一個聯繫點,這樣,心理學找到了一種驗證認知理論的新模式,而AI研究獲得了更多能分離出認知核心方面的任務。

我們前面也說過,這樣的研究有助於優化智能體的設計。空口無憑你大概不信,於是DeepMind又舉出了一個慄子:一個Jaderberg等人2016年提出的非常厲害的智能體UNREAL,就可以用這些心理學測試來改進。

為了測試UNREAL智能體的視覺敏感度,DeepMind用上了上文列舉的第4、5、6項測試:Landolt C。

UNREAL和人類視覺敏感度的比較

在玻璃圖案測試中,UNREAL和人類的心理測量曲線

在指向目標任務中,UNREAL對目標和誘餌的大小非常敏感,目標大時學習速度要快得多,誘餌大時最終性能不太理想

種種實驗表明,UNREAL會更快地學習大的目標刺激,這種發現也帶來了對一個簡單的中央凹視覺模型的具體改進,顯著提高了UNREAL在Psychlab任務和標準DeepMind Lab任務上的表現。

Psychlab這篇論文作者也不少,包括Joel Z. Leibo, Cyprien de Masson d』Autume, Daniel Zoran, David Amos, Charles Beattie, Keith Anderson, Antonio García Castaeda, Manuel Sanchez, Simon Green, Audrunas Gruslys, Shane Legg, Demis Hassabis, Matthew M. Botvinick,全部來自DeepMind。

如果你也想用一下這個Psychlab……論文裡的確提到了是在DM-Lab裡開源了的,不知更新出來沒有,找到的同學吱一聲兒~https://github.com/deepmind/lab

論文地址:https://arxiv.org/abs/1801.08116

BTW,看PDF有點累,量子位現在比較喜歡用arxiv vanity來讀論文,良心推薦。地址:https://www.arxiv-vanity.com/papers/1801.08116/

活動報名

加入社群

量子位AI社群13群開始招募啦,歡迎對AI感興趣的同學,加小助手入群;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進群請加小助手,並務必備註相應群的關鍵詞~通過審核後我們將邀請進群。(專業群審核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位對話界面,回復「招聘」兩個字。

量子位 QbitAI · 頭條號籤約作者

'' 追蹤AI技術和產品新動態

相關焦點

  • 【DeepMind重大突破】DNN具有人類行為,認知心理學破解黑箱
  • 微軟籌謀已久的AI實驗室終於公布, 將成為對標谷歌Deepmind的利器
    在7月12日,中不僅包括了對人工智慧領域的期待與願景,更是帶來了一個重磅消息——微軟將在華盛頓州Redmond的總部建立一個AI實驗室。,這個實驗室將成為微軟旗下的「Deepmind」。微軟的聲明據TechCrunch分析據微軟表示,該實驗室中將會有100名以上的研究人員,研究領域包括自然語言處理、計算機學習與認知模型等。
  • 微軟組建通用人工智慧實驗室:挑戰谷歌 DeepMind
    北京時間7月13日早間消息,微軟將建立新的人工智慧實驗室,專門開發更加通用的機器學習系統。這個新的實驗室名為微軟研究院AI,位於微軟雷蒙德總部。
  • DeepMind成功使用認識心理學解釋深度神經網絡黑盒!
    來源:全球人工智慧導讀:最近通過認識心理學研究深度神經網絡案例:我們從發展心理學中選擇了一個完善的分析,解釋了兒童如何學習對象的單詞標籤,並將該分析應用於DNN。使用由原始認知心理學實驗啟發的刺激數據集,我們發現在ImageNet上訓練的最先進的一次學習模型顯示出與人類觀察到的相似的偏好:他們更喜歡根據形狀而不是顏色對對象進行分類。
  • 谷歌DeepMind 的可微分神經計算機 DNC 怎麼樣?看 Facebook AI...
    賈揚清,擁有加州大學伯克利分校計算機科學博士學位、清華大學碩士學位和學士學位,曾於新加坡國立大學、微軟亞洲研究院、NEC美國實驗室、Google Brain工作,現任 Facebook 研究科學家,主要負責前沿AI 平臺的開發以及前沿的深度學習研究
  • DeepMind悄咪咪開源三大新框架,深度強化學習落地希望再現
    OpenSpielGitHub:https://github.com/deepmind/open_spiel遊戲在 DRL agent的 訓練中發揮著重要作用。與其他數據集一樣,遊戲本質上基於試驗和獎勵機制,可用於訓練 DRL agent。但是,正如我們所想,遊戲環境的複雜度還遠遠不夠。
  • DeepMind詳解新WaveNet:比原來快千倍,語音更自然 | 附論文
    DeepMind說,WaveNet在去年論文發布的時候還只是個研究用的原型,對於消費類產品來說,它消耗的計算力太多了。於是,DeepMind用一年時間為這個語音合成算法打造了升級版:並行WaveNet(parallel WaveNet),運行速度比原版快1000倍,語音質量也有所提升。
  • DeepMind將在加拿大建立首個AI實驗室,與阿爾伯特大學合作
    雷鋒網(公眾號:雷鋒網)消息,今天DeepMind在官方博客上宣布,將成立第一個位於英國以外地區的人工智慧研究實驗室,而這個實驗室的位置正是在人工智慧研究領域非常突出的國家——加拿大。左一為 Rich Sutton 根據網站上的消息,這一實驗室將與阿爾伯特大學建立深度合作,並由強化學習的領袖人物 Rich Sutton 擔任負責人。
  • DeepMind 綜述深度強化學習:智能體和人類相似度竟然如此高!
    正如人工智慧和心理學的廣泛討論所得,在該形式下的學習過程,所做的調整必須很小,才能最大限度地泛化並避免覆蓋早期的學習成果(這種影響有時會被引用『災難性幹擾』)。第二個原因是弱歸納偏倚。任何學習過程都必然需要在偏倚和多樣性之間作出取捨。學習過程對學習模式的初始假設越強(即學習過程的初始歸納偏倚越強),學習完成所需的數據就越少(假設初始歸納偏差與數據中的相符)。
  • DeepMind開源薛丁格方程求解程序:從量子力學原理出發,TensorFlow...
    近日,DeepMind開源了一個「費米網絡」(FermiNet),用來求解分子的電子行為,在30個電子的有機分子上也達到了很高的精度。文章結果發表在期刊Physical Review Research上。為什麼叫費米網絡在量子力學中,電子沒有精確的位置,我們只能從波函數預測電子在空間中出現的概率,也就是電子云。
  • DeepMind哈佛驚人發現!大腦中竟存在分布強化學習,靠多巴胺驅動
    他還舉了個例子:「例如,當有人玩彩票時,他們期望贏或輸,但是他們並不會期望中間結果。」當未來不確定時,可能的結果可以用概率分布來表示:有的是正的,有的是負的。使用分布強化學習算法的AI能夠預測可能的獎勵的全部範圍。
  • DeepMind 第四代:不學規則就能下棋玩遊戲
    發布詳情:https://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-without-rules
  • Alphabet旗下DeepMind開源開發AI項目的元件函式庫
    TRFL(讀作「truffle」),訪問:https://github.com/deepmind/trfl/
  • DeepMind可微分神經計算機-論文中文解讀
    又是一篇deepmind發表在nature上的文章,還記得前面2篇嗎?一篇是DQN,一篇講AlphaGo。
  • 「燒錢機器」DeepMind持續多年虧損後,仍無商業...
    DeepMind聯合創始人胡馬延謝赫(Humayun Sheikh)曾表示,「如果不是谷歌以6億美元的價格收購, DeepMind人工智慧實驗室可能已經破產。」自2014年被收購以來,DeepMind的巨額研發資金和虧損全部由Google來買單。不過在長期虧損之下,今年的DeepMind在財務方面似乎也有了一些好消息。
  • DeepMind開源薛丁格方程求解程序:從量子力學原理出發,TensorFlow實現
    近日,DeepMind開源了一個「費米網絡」(FermiNet),用來求解分子的電子行為,在30個電子的有機分子上也達到了很高的精度。文章結果發表在期刊Physical Review Research上。
  • 人工智慧預測蛋白結構能力堪比實驗室水平
    Alphafold的表現超過了大約100個其他團隊,準確性達到了與實驗室方法不分伯仲的水平[1],一舉解決了困擾學界長達五十年之久的蛋白質摺疊問題。 「它將改變醫學。
  • DeepMind綜述深度強化學習中的快與慢,智能體應該像人一樣學習
    這些計算技術的出現使得深度 RL 成為人類學習的候選模型,以及心理學和神經科學的見解來源。本文中,DeepMind 研究人員認為有兩個關鍵的深度 RL 方法緩解了其樣本效率問題:episodic deep RL 和元強化學習。他們探索了這兩種方法是如何加快深度 RL 的,並考慮了深度 RL 對於心理學和神經科學的潛在影響。
  • DeepMind抗疫:預測新冠病毒相關蛋白結構
    在2018年的「蛋白質結構預測奧運會」CASP比賽中,力壓其他97個參賽者,是第二名成績的8倍還要多。所以在華盛頓大學利用蛋白質遊戲Foldit,集眾智對抗新冠病毒之後,不少人紛紛發問:為什麼AlphaFold沒有出現?現在,它來了。
  • 淺談神經網絡訓練方法 Deepmind更青睞正向傳播
    深度學習的神經網絡訓練方法有除了典型的反向傳播,也有被Deepmind青睞的正向傳播,以及以BAM網絡背後的雙向傳播,本文將對這些訓練方法進行簡單的探討,如果你有興趣,歡迎留言。1. 典型的BAM網絡深度學習目前非常火爆,追蹤溯源,深度學習源於神經網絡。BP神經是反向誤差訓練的典例。