來源:openai.com
譯者:王楠、劉小芹、胡祥傑
新智元啟動新一輪大招聘:COO、執行總編、主編、高級編譯、主筆、運營總監、客戶經理、諮詢總監、行政助理等 9 大崗位全面開放。
簡歷投遞:jobs@aiera.com.cn
HR 微信:13552313024
新智元為COO和執行總編提供最高超百萬的年薪激勵;為骨幹員工提供最完整的培訓體系、高於業界平均水平的工資和獎金。
加盟新智元,與人工智慧業界領袖攜手改變世界。
【新智元導讀】OpenAI 昨天發布 OpenAI Universe, 根據其官方博客的介紹,這是一個能在幾乎所有環境中衡量和訓練 AI 通用智能水平的開源平臺,當下的目標是讓 AI 智能體能像人一樣使用計算機。目前,Universe 已經有1000種訓練環境,由微軟、英偉達等公司參與建設。研究人員介紹說,Universe 從李飛飛等人創立的 ImageNet 上獲得啟發,希望把 ImageNet 在降低圖像識別錯誤率上的成功經驗引入到通用人工智慧的研究上來,取得實質進展。
繼今年 4 月發布 OpenAI Gym 之後,OpenAI 昨天又推出了新平臺—— Universe: 一個用於訓練解決通用問題 AI 的基礎架構。
根據官博介紹,Universe 是一個能在世界上所有的遊戲、網站和其他應用中,衡量和訓練 AI 通用智能的軟體平臺。
Universe 要讓 AI 智能體能像人一樣使用計算機:通過看顯示屏,操作虛擬鍵盤和滑鼠。我們必須全方位地訓練 AI 系統,解決我們想要它們解決的問題,而 Universe 則讓我們能夠訓練單一的智能體,執行任何人類能使用計算機來完成的任務。
今年 4 月,OpenAI 發布了 OpenAI Gym,後者是一套用於開發和比較強化學習算法的工具。有了 Universe,任何程序都能被接入(be turned into)到 OpenAI Gym 的環境中。Universe 通過在 VNC 遠程桌面後自動啟動程序來運作,不需要任何特殊的程序接口、原始碼或 bot API。
OpenAI 當前發布的版本含有 1000 個環境,包括 Flash 遊戲、瀏覽器任務(browser tasks),以及像 slither.io 和 GTA V 這樣的遊戲。還有更多這類環境可供訓練強化學習,幾乎所有都能在 Universe 運行,使用 universe Phython 庫運行
以上樣本代碼將讓你的 AI 開始玩 Flash 遊戲《Dusk Drive》。當然,你得安裝 Docker 和 universe才行。
我們的目標是開發單一的一個 AI 智能體,使其能夠靈活運用過去在 Universe 中的經驗,快速在陌生和困難的環境中取得掌控權,這也是通往通用智能的重要一步。
你可以以很多種方式參與 OpenAI Universe:授權 OpenAI 使用你的遊戲、在 Universe 不同任務中訓練智能體,以及接下來即將推出的整合新遊戲,以及讓智能體玩這些新的遊戲。
Universe 部分參與單位,完整列表見文末
人工智慧領域在過去幾年中取得了快速進展。計算機現在可以以前所未有的精度查看、聽取和翻譯語言。計算機也在學習生成圖像、聲音和文本。強化學習系統 AlphaGo 擊敗了人類世界圍棋冠軍。然而,儘管取得了所有這些進步,目前的 AI 系統仍然屬於「狹義AI」——可以在特定領域實現超人的表現,但缺乏在該領域外合理執行任務的能力。例如,AlphaGo可以輕鬆地在圍棋上擊敗你,但你不能期望讓它陪你一起玩其他遊戲。
具有一般問題解決能力的系統——類似於擁有人類常識,讓智能體能夠快速解決新的困難任務——目前仍然是不存在的。一個顯而易見的挑戰是,現在的智能體還不能將其經驗攜帶到新的任務中。在標準訓練制度下,智能體從零開始初始化,隨機抽取數千萬試驗中的一個,經過不斷試錯、學會重複行為,最終得到有益的結果。如果要向通用 AI 智能體取得進展,我們必須讓智能體經歷一系列不同的任務,以便它們能夠發展出關於世界的知識和解決問題的策略,以便在新任務中有效地重複使用這些東西。
Universe 通過一個通用的接口適用於各種場景:智能體通過捕捉屏幕的像素生成對鍵盤和滑鼠的命令來操作遠程桌面。場景需要 VNC 伺服器,universe 庫將智能體轉換為 VNC 客戶端。
Universe 的設計目標是支持單個的 Python 進程,以每秒60幀的速度並行驅動20個場景。每個屏幕的緩衝區是 1024×768,因此用外部進程直接讀取每一幀需要3GB/s的內存帶寬。我們用 Go 寫了一個面向批處理的VNC伺服器,它可以作為Python共享庫加載,並且逐步更新每個場景的一對緩衝區。在嘗試了許多 VNC 伺服器、編碼器和無證書協議選項的組合之後,現在的組合能以60幀/秒的速度驅動幾十個場景,延遲是100毫秒——這些延遲幾乎都是伺服器端編碼引起的。
以下是我們當前實現的一些重要特性:
通用性。智能體可以使用這個接口(最初是為人類設計的)與現有的任何電腦程式交互,而不需要仿真器或接入程序內部。例如,智能體可以玩任何一款計算機遊戲,與終端交互,瀏覽網頁,使用 CAD 軟體製圖,使用圖片編輯軟體或者編輯電子表格,等等。
熟悉性。由於人們已經非常熟悉這些像素/鍵盤/滑鼠的界面,人們可以輕鬆操作universe的任何場景。我們可以使用人類表現作為有意義的基準,只需簡單地保存 VNC 流量記錄跟蹤人類的演示。我們發現,在轉換到增強學習為給定的激勵函數進行優化前,這些演示在對使用行為克隆(即使用監督學習模擬人類行為)的合理策略的智能體進行初始化時非常有用。
以 VNC 作為標準。VNC 的許多實現都可以在線使用,而且包括 OSX 在內的一些實現已經默認封裝到常見的作業系統中。在 JavaScript 中甚至有允許用戶提供演示而無需安裝任何新軟體的 VNC 實現——這對 Amazon Mechanical Turk 之類的服務非常重要。
易於調試。我們可以在智能體正在訓練或評估時進行調試,只需將 VNC 客戶端附加到共享環境的 VNC 桌面。還可以保存 VNC 流量供以後分析。
我們都很驚訝 VNC 的作用如此強大。隨著我們的遊戲更大型,我們將開始使用額外的後端技術。但初步的跡象表明,現有的實現能夠更好:設置正確的話,用戶能夠以每秒20幀的速率在公共網際網路上運行 GTA V。
我們已經在Universe中加入了大量的運行環境,並且,我們認為這僅僅是一個開始。每一個環境都被打包成一個Docker圖像,包含了兩個伺服器,來與外部的環境進行溝通:VNC伺服器會向顯示器發出信號,並接收鍵盤或者滑鼠發出的指令;WebSocket 伺服器會發出強化學習任務所反饋的信號(以及所有的輔助信息,比如文本或者診斷),此外,還會接收控制信息(比如要運行的具體環境ID)。
Atari 遊戲
Universe 包含Arcade 學習環境中的2600種Atari遊戲。這些環境現在在quay.io/openai/universe.gym-core 的Docker 圖像上異步運行,並允許智能體在網絡之上進行連接,這意味著智能體必須要處理延時和低幀率。通過在雲上的局部網絡上運行,我們通常可以達到60幀每秒,觀察滯後20毫秒,行動滯後10毫秒。在整個公共的網際網路上,能降到20幀每秒,觀察滯後80毫秒,行動滯後30毫秒。
Flash 遊戲
在 Universe 的擴展上,我們把Flash 遊戲作為一個起始點,這些遊戲在網際網路上幾乎是無處不在dd ,總體上特徵比Atari 要豐富得多,但是個體上依然非常簡單。我們已經篩選了超過3萬個遊戲,並預計,還有一個數量級的遊戲沒有收錄。
最初發布的 Universe 包含了1000個Flash 遊戲(其中有100個有回饋函數),在獲得所有權持有者的同意之後,我們把它們發布在了 quay.io/openai/universe.flashgames Doker image上。此圖像開啟TigerVNC伺服器並啟動Python控制伺服器,該控制伺服器使用Selenium將所需遊戲的Chrome瀏覽器打開到容器內頁面,並自動點擊啟動遊戲所需的任何菜單。
提取回饋
雖然沒有回饋函數的環境可用於無監督學習,或者用於生成類人的展示,但是,強化學習(RL)需要回饋函數。與Atari遊戲不同,我們不能簡單地從對內存的處理中讀取成功的標準,並且,關於每一個遊戲如何儲存這些信息,其中還有很多的變量。
幸運的是,許多遊戲都會有顯示在屏幕上的得分情況,這可以當成是一個回饋函數,只要我們能合理地解釋這些分數。雖然現成的OCR(例如Tesseract)在具有乾淨背景的標準字體上表現很好,但它在許多遊戲中常常遇到多樣字體,移動背景,動畫或遮擋物體等難題。
我們開發了一個基於卷積神經網絡的OCR模型,該模型在Docker容器的Python控制器中運行,解析得分(通過VNC自循環維護的屏幕緩衝區),並通過WebSocket通道將其傳遞給智能體。 我們的得分OCR模型發揮了作用。人類積分等級員提供了分數的上下界限。 OCR模型以每秒60幀的速度解析分數。
瀏覽器任務
在人類集體的努力下,現在網際網路已經被建設成一個關於信息的巨大寶藏,用於人類的視覺消費。Universe 包含了給予瀏覽的環境,這些環境要求AI 智能體能讀、導航,像人類一樣使用網站、顯示器、鍵盤和滑鼠。
目前,我們的智能體主要學習與常見的用戶交互元素(如按鈕,列表和滑塊)進行交互,但是將來他們可以完成更複雜的任務,例如在網際網路上查找他們不知道的事情,管理電子郵件或日曆,完成Khan Academy課程,或者完成亞馬遜 Mechanical Turk 和CrowdFlower 等任務。
Mini World of Bits
我們首先計劃創建一個新的基準,能在一個簡單的設定下,捕捉瀏覽器交互中的一個的一個顯要難題。我們把這個基準稱為 Mini World of Bits.
我們認為這可以跟MNIST類比,並且認為,能夠掌握這些環境為模型和訓練技術提供了有價值的信息,這些技術將在整個網站和更複雜的任務上有良好的表現。我們最初的Mini World of Bits 基準包括80個環境,從簡單(例如,點擊特定按鈕)到困難(例如,在模擬電子郵件客戶端中回復聯繫人)都有。
現實世界中的瀏覽任務。我們已經開始在更加具有現實意義的瀏覽任務上進行研究。智能體在獲得一份說明書後,開始在網頁上執行一系列任務。一個這樣的環境交給智能體一個具體的任務:預定航班。要求其操縱用戶界面以搜索航班。 (我們使用這些網站的緩存記錄,以避免發送垃圾郵件,或預訂大量真實的航班)。
未來的融合
這種基礎設施是通用的:我們可以集成任何可以在Docker容器(最方便)或Windows虛擬機(不太方便)中運行的遊戲,網站或應用程式。我們希望獲得整個研究社區的幫助,繼續延伸Universe環境的廣度,包括完成合作夥伴的遊戲、Android應用程式(模擬器可以在Docker內部運行)、fold.it、Unity遊戲、HTML5遊戲、在線教育遊戲等等,以及別人能想到的任何事。 微軟的Malmo團隊將與Universe集成,我們也期待著支持其他AI框架。
OpenAI 研究員還在文章中表示,研究進步要求對其水平進行有實際意義的衡量。在接下來的幾周內,他們將發布一個遷移學習基準,允許研究人員確定他們是否在機器的通用問題解決能力研究方面取得進展。
「Universe 從計算機視覺 ImageNet 數據集的發展中獲得靈感。李飛飛和她的合作者故意把 ImageNet 的基準設計為幾乎不可能做到的,但圖像識別的錯誤率從2010年的28%迅速下降到2016年的3%,達到(在某些情況下甚至超過)人類的水平。如果AI社區在Universe 上也一樣發展的話,那麼我們在研究普適性的、通用的人工智慧系統上,將會取得真正的進展。」
負責人及鳴謝
Acquisition & partnerships: Erin Pettigrew, Jack Clark
Core infrastructure: Greg Brockman, Catherine Olsson, Alex Ray
Demonstrations: Tom Brown, Jeremy Schlatter, Marie La, Catherine Olsson
Distributed training infrastructure: Vicki Cheung, Greg Brockman, Jonas Schneider
Documentation & communications: Jack Clark, Andrej Karpathy, Catherine Olsson
Environment integrations: Alec Radford, Jonathan Gray, Tom Brown, Greg Brockman, Alex Ray, Catherine Olsson, Trevor Blackwell, Tambet Matiisen, Craig Quiter
Initial agent results: Rafal Jozefowicz, Dario Amodei, Ilya Sutskever, Jonathan Ho, Trevor Blackwell, Yaroslav Bulatov
Remote environment management: Vicki Cheung, Greg Brockman, Catherine Olsson, Jie Tang
RL baselines: Dario Amodei, Harri Edwards
Website: Ludwig Petterson, Jie Tang, Tom Brown, Alec Radford, Jonas Schneider, Szymon Sidor
World of Bits: Andrej Karpathy, Tianlin (Tim) Shi, Linxi (Jim) Fan, Jonathan Hernandez, Percy Liang
以下單位是 Universe 關鍵合作夥伴:EA, Valve, Microsoft, NVIDIA, Kongregate, Newgrounds, Yacht Club Games, Zachtronics, Ludeon Studios, Monomi Park, 2D Boy, Adam Reagle, Alvin Team, Rockspro, Anubhav Sharma, Arkadium, Beast Games, Char Studio, Droqen, Percy Pea, deeperbeige, Denny Menato, Dig Your Own Grave, Free World Group, Gamesheep, Hamumu Software, Hemisphere Games, Icy Lime, Insane Hero, inRegular Games, JackSmack, Nocanwin, Joe Willmott, Johnny Two Shoes, The Gamest Studio, László Cziglédszky, Madalin Games, Martian Games, Mateusz Skutnik, Mikalay Radchuk, Neutronized, Nitrome, ooPixel, PacoGames, Pixelante, Plemsoft, Rob Donkin, robotJam, Rumble Sushi 3D, SFB Games, Simian Logic, Smiley Gamer, Sosker, tequibo, kometbomb, ThePodge, Vasco Freitas, Vitality Games, Wolve Games, Xform Games, XGen Studios
關於如何操作使用 OpenAI Universe 的介紹以及其他具體內容,可以訪問官方博客介紹網頁:https://openai.com/blog/universe/
【OpenAI Universe】https://universe.openai.com/
(責編:WF)
新智元招聘
職位 運營總監
職位年薪:36- 50萬(工資+獎金)
工作地點:北京-海澱區
所屬部門:運營部
匯報對象:COO
下屬人數:2人
年齡要求:25 歲 至 35 歲
性別要求:不限
工作年限:3 年以上
語 言:英語6級(海外留學背景優先)
職位描述
負責大型會展贊助商及參展商拓展、挖掘潛在客戶等工作,人工智慧及機器人產業方向
擅長開拓市場,並與潛在客戶建立良好的人際關係
深度了解人工智慧及機器人產業及相關市場狀況,隨時掌握市場動態
主動協調部門之間項目合作,組織好跨部門間的合作,具備良好的影響力
帶領團隊完成營業額目標,並監控管理項目狀況
負責公司平臺運營方面的戰略計劃、合作計劃的制定與實施
崗位要求
大學本科以上學歷,碩士優先,要求有較高英語溝通能力
3年以上商務拓展經驗,有團隊管理經驗,熟悉商務部門整體管理工作
對傳統全案公關、傳統整合傳播整體方案、策略性整體方案有深邃見解
具有敏銳的市場洞察力和精確的客戶分析能力、較強的團隊統籌管理能力
具備優秀的時間管理、抗壓能力和多任務規劃統籌執行能力
有廣泛的TMT領域人脈資源、有甲方市場部工作經驗優先考慮
有媒體廣告部、市場部,top20公關公司市場拓展部經驗者優先
新智元歡迎有志之士前來面試,更多招聘崗位請訪問新智元公眾號。