AlphaGo之父對話《連線》,曾被導師勸阻研究強化學習

2021-01-09 新浪科技

來源:創事記

David Silver

歡迎關注「創事記」的微信訂閱號:sinachuangshiji 

文/曉查 編譯整理

來源:量子位(ID:QbitAI)

本周,DeepMind的MuZero通過了同行評審,發表在了最新一期的Nature雜誌上。

MuZero是一個通用的遊戲AI,它在圍棋、象棋、將棋和57款Atari遊戲上都超過了人類的表現。而且這個AI事先不需要事先知道規則。

近日,DeepMind的首席科學家、AlphaGo首席研究員David Silver接受了《連線》雜誌的採訪,討論了MuZero、強化學習以及對未來通用人工智慧的看法。

David Silver畢業於劍橋大學,在那裡與DeepMind創始人Demis Hassabis成為朋友。

Silver曾領導DeepMind的強化學習研究小組,由於在計算機遊戲領域的突破性進展,他獲得了2019年ACM計算獎。

為何MuZero很重要

連線:MuZero發表在Nature雜誌上。對於不了解此事人,告訴我們為什麼它很重要。

David Silver:MuZero向前邁出的重要一步是,我們沒有告訴它環境的動態。它必須自己想辦法,讓自己提前計劃,想出最有效的策略。

我們希望擁有在現實世界中可以運行的算法,而現實世界卻是複雜、混亂且未知的。所以你不能只向前看,就像下棋一樣。你必須學會這個世界是如何運轉的。

一些觀察人士指出,MuZero、AlphaGo和AlphaZero並非真正零開始。它們使用聰明人設計的算法來學習如何執行特定任務。這是不是錯過了重點?

我認為確實如此。從來沒有真正的一片空白。機器學習中甚至有一個定理——沒有自由午餐定理,就是說你必須從某件事開始,否則將一事無成。

但是在這種情況下,它是空白的。我們為它提供了一個神經網絡,而神經網絡必須從遊戲的輸贏或或分數的反饋中學會如何理解世界。

人們注意到的一件事是,我們告訴MuZero在每種情況下的合法舉動。但是,如果你進行解決未知問題的強化學習,通常會告知智能體可以做什麼。您必須告訴智能體它有哪些選擇,然後讓它再選擇其中之一。

您可能會批評到目前為止我們已經做了什麼。現實世界非常複雜,我們還沒有建立像人類大腦那樣可以適應所有這些事物的東西。所以這是一個公平的批評。

但是我認為MuZero確實自己找到了如何建立模型,並且從第一性原理去理解它。

MuZero有何實際用途

DeepMind最近宣布,已利用AlphaZero背後的技術解決了一個重要的實際問題:預測蛋白質摺疊的形狀。你認為MuZero將在哪方面產生首個重大影響?

當然,我們正在尋找將MuZero應用到現實世界中的方法,並且有一些令人鼓舞的初步結果。

舉一個具體的例子,網際網路上的流量主要是視頻,而一個開放的大問題是如何儘可能有效地壓縮這些視頻。您可以將其視為強化學習問題,因為有許多非常複雜的程序可以壓縮視頻,但是你接下來看到的是未知的。

但是當你把像MuZero之類的東西應用於其中時,我們的初步結果顯示,在節省大量數據方面它看起來很有希望,可能是壓縮視頻所用比特的5%左右。

從長遠來看,您認為強化學習對哪些方面影響最大?

我認為有一個系統,可以幫助用戶儘可能有效地實現目標。一個真正強大的系統,可以看到你看到的所有事物,具有與你相同的感官,能夠幫助你實現人生目標。我認為那是非常重要的。

從長遠來看,另一個變革性的東西可以提供個性化的醫療保健解決方案。有一些隱私和道德問題需要解決,但是它將具有巨大的變革價值;它將改變醫學的面貌和人們的生活質量。

你認為機器在你的有生之年能學會做什麼嗎?

我不想給它設定一個時間表,但我想說,人類能做到的一切,我最終認為機器都能做到。大腦是一個計算過程,我認為那裡沒有任何魔法。

我們能達到像人腦一樣理解和實現算法有效和強大的地步嗎?嗯,我不知道時間表會是怎樣。但是我認為這個旅程是令人興奮的。

我們應該致力於實現這一目標。踏上這段旅程的第一步是試圖理解獲得智慧意味著什麼?解決智力問題,我們在努力解決什麼問題?

強化學習能否通向人工智慧

你是否有信心可以從象棋和Atari等遊戲到真正的智能?是什麼讓你認為強化學習會產生有常識理解的機器?

有一個假設,我們稱其為「獎勵足夠」假設。這個假設說,智能的基本過程可以像一個尋求最大化其獎勵的系統一樣簡單,而試圖實現目標並試圖最大化獎勵的過程,足以產生我們在自然智能中看到的所有智能屬性。

這是一個假設,我們不知道它是否正確,但這為研究提供了方向。

如果我們具體地理解常識,那麼「獎勵足夠」的假設就很好地說明了這一點,如果常識對系統有用,則意味著它實際上應該幫助它更好地實現其目標。

聽起來您認為您的專長領域強化學習,在某種意義上是理解或「解決」智力的基礎。是這樣嗎?

我真的認為這非常必要。我認為最大的問題是,這是真的嗎?

因為這顯然違背了許多人對人工智慧的看法,即智能中涉及到非常複雜的機制集合,每個機制都有自己要解決的問題或自己特殊的工作方式,或者甚至沒有任何明確的問題定義,比如常識。

這個理論說,不,實際上可能有一個非常清晰和簡單的方法來思考所有的智能,那就是它是一個目標優化系統。如果我們找到了真正優化目標的方法,那麼所有這些其他的東西將會從這個過程中出現。

強化學習已經存在了數十年,但有一段時間似乎是死胡同。實際上,你的一位導師告訴我,她試圖勸阻你不要從事這項工作。你為什麼不理她繼續往前走?

許多人認為,強化學習是可以用來解決在AI中許多問題的工具之一。我不這樣認為,我把強化學習視為整體。如果我們想嘗試並儘可能地描述智能,我認為強化學習本質上是我們真正意義上的智能的特徵。

當您開始以這種方式看它時,我為何不能這樣處理呢?如果這確實是最接近我們所說的智能的東西,那麼如果我們解決它,我們就將破解它。

你看看我所做的工作,我將一直致力於解決這個問題。解決諸如圍棋之類的問題時,在解決它的過程中,我們了解了智能在此過程中意味著什麼。

你可以認為強化學習是一種能力,它使一個智能體能夠獲得所有需要的其他能力。

你可以在類似AlphaGo的東西中看到一點點,在那裡我們要求它做的只是贏得遊戲,然而它學到了人類過去曾專有的知識——比賽的結束和開局。

算力是否會限制AI發展

DeepMind是否有壓力再做一次大型展示,例如AlphaGo?

這是個好問題。這個問題問得好。我覺得我們處於一個非常有利的位置,因為我們的位置和資金都很安全,所有這些都非常非常安全。

嘗試進行一個新的大規模的展示,唯一的壓力是推動通用智能的進步。這是一種真正的特權,當你在創業公司試圖獲得資金時,或者在學術界試圖獲得資助時,你就沒有這種特權。

強大的AI系統現在需要大量的計算機能力才能工作。你是否擔心這會阻礙進展?

讓我們回到MuZero,這是一個算法的例子,它可以很好地隨著計算而伸縮。我們在Atari進行了一項實驗,結果表明即使使用非常少量的計算(大約相當於一個GPU運行幾周),它的效果也非常好,並且獲得了遠遠超過人類的性能。

有一些數字表明,如果把現在能利用的所有計算能力加起來,就能達到與人腦相當的水平。所以可能更多的是我們需要想出更聰明的算法。

而MuZero的美妙之處在於,它正在建立自己的模型,開始了解世界是如何運轉的。這種想像力是利用計算開始展望未來,想像接下來會發生什麼的一種方式。

人工智慧倫理

一些軍火商正在利用強化學習來建造更強的武器系統。你對此有何感想?你有沒有想過你的一些作品不應該公開發表?

我反對在任何致命武器中使用AI,並希望我們在禁止致命自動武器方面取得更多進展。DeepMind及其聯合創始人是《致命自動武器承諾》的籤署方,攻擊性技術應始終處於適當的人類控制之下。

然而,我們仍然相信,適當發布我們的方法是科學的基石,通用AI算法的發展將在眾多積極應用中帶來更大的整體社會效益。

相關焦點

  • 專題| 深度強化學習綜述:從AlphaGo背後的力量到學習資源分享(附...
    在這之後,我會討論注意和記憶(attention and memory)機制、非監督學習及學習去學習。隨後,會討論強化學習的各種應用,包括在遊戲(特別是 AlphaGo)、機器人、口語對話系統(聊天機器人)、機器翻譯、文本序列預測、神經架構設計、個性化網絡服務、醫療、金融及音樂生成等方面的應用。我們會提到一些未覆蓋到的主題/論文。在列舉強化學習相關資源之後,我們將會以討論結束論文。
  • ...深度強化學習綜述:從AlphaGo背後的力量到學習資源分享(附論文)
    在這之後,我會討論注意和記憶(attention and memory)機制、非監督學習及學習去學習。隨後,會討論強化學習的各種應用,包括在遊戲(特別是 AlphaGo)、機器人、口語對話系統(聊天機器人)、機器翻譯、文本序列預測、神經架構設計、個性化網絡服務、醫療、金融及音樂生成等方面的應用。我們會提到一些未覆蓋到的主題/論文。在列舉強化學習相關資源之後,我們將會以討論結束論文。
  • 能贏AlphaGo的只有它自己 柯潔回應新版問世:人類太多餘了
    谷歌人工智慧團隊DeepMind團隊在國際學術期刊《自然》(Nature)上發表論文,宣布新版AlphaGo——AlphaGo Zero可以在沒有人類指導的情況下學習,其水平超過此前所有AlphaGo(阿爾法狗)。
  • 強化學習的10個現實應用
    史丹福大學、俄亥俄州立大學和微軟研究所的研究人員提出Deep-RL,可用於對話生成任務。點此連結查看更多RL在NLP中的應用。通過本文,您可以深入研究RL在醫療保健中的應用。強化學習在工程中的應用在工程領域,Facebook提出了開源強化學習平臺 —— Horizon,該平臺利用強化學習來優化大規模生產系統。
  • 【話題】AlphaGo Zero!圍棋之神真來了……
    在對陣曾贏下韓國棋手李世石那版的AlphaGo時,AlphaGo Zero取得了100比0的壓倒性戰績,這真是棋藝高超啊……圍棋之神真來了文|體壇周報記者 謝銳比Alpha Go還要厲害得多的人工智慧誕生了,它便是阿爾法元Alpha Go Zero。
  • DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來啦?
    通過這個工具,大家可以探索圍棋奧妙,比較 AlphaGo 的下棋路數與專業選手、業餘選手的不同點,從中學習。官網上對於工具的使用也有相關說明:如何使用這一工具?點擊棋盤上的彩色圓圈,或使用棋盤下方的導航工具,即可探索不同的開局變化,以及 AlphaGo 對於每一步棋的黑棋勝率預測。圓圈中的數字代表了該步棋的黑棋勝率。
  • 新版Alphago棋風更穩健
    新版Alphago採用了增強學習的策略,下棋技巧上遠勝初代依靠監督學習戰勝李世石的初代Alphago,它曾化名Master拿下所有高手,加之谷歌在人工智慧底層架構TensorFlow的提升,讓Alphago速度更快。柯潔身為現圍棋世界冠軍,此次也是有備而來,並宣稱用所有的熱情與Alphago進行了對決。
  • AlphaGo Zero用40天成為世界最強圍棋AI
    棋士柯潔:一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了人工智慧的最大挑戰是研發一種能從零開始、以超人類的水平學習複雜概念的算法。為了打敗人類圍棋世界冠軍,科學家在訓練上一款AlphaGo時,同時用到了監督式學習(基於上百萬種人類專業選手的下棋步驟)和基於自我對弈的強化學習。那款AlphaGo的訓練過程長達幾個月,用到多臺機器和48個TPU(神經網絡訓練所需的專業晶片)。
  • 深度強化學習:阿里巴巴「AI 智能體」認知
    阿里巴巴認知計算實驗室資深總監袁泉在接受新智元專訪時表示,當下,人工智慧的每一個進步,幾乎都受到了神經科學的啟發,尤其是新一輪通用智能發展的中堅力量——基於神經網絡的深度強化學習。本文轉自「新智元」,作者:胡祥傑;經億歐編輯,供業內人士閱讀。
  • 機器人互相對話,人類卻聽不懂? 揭Facebook關停「失控」AI項目真相
    編者按:近日,關於 Facebook關停「失控」 AI 項目的新聞滿天飛,更有媒體爆出機器人開始使用自己的語言進行對話,人們開始恐慌機器人失控之後會主宰世界,《連線》雜誌發表文章明確表示,這是一場鬧劇,有些媒體曲解了原義,Facebook 的聊天機器人不會主宰世界。
  • 深度學習與強化學習
    隨著 DeepMind 公司的崛起,深度學習和強化學習已經成為了人工智慧領域的熱門研究方向。
  • 失敗是成功之母,誰是成功之父?
    電 報 之 父 塞繆爾·莫爾斯 ) 電報實現了遠距離的文字傳播 但人們渴望對話 因此,遠距離傳播語音信息的電話出現了 ...
  • AlphaGo原來是這樣運行的,一文詳解多智能體強化學習的基礎和應用
    原創 Synced 機器之心機器之心分析師網絡作者:楊旭韻編輯:Joni在這篇綜述性文章中,作者詳盡地介紹了多智能強化學習的理論基礎,並闡述了解決各類多智能問題的經典算法。
  • 今日頭條上線科普視頻《科學家請回答2020》 連線對話諾獎得主
    今日頭條上線科普視頻《科學家請回答2020》 連線對話諾獎得主 站長之家(ChinaZ.com) 11月9日 消息:近日,今日頭條上線了科普視頻系列
  • 柯潔回應新版本AlphaGo問世:人類太多餘了
    對此,柯潔回應稱:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」哈薩比斯與學習大量人類棋譜起步的前代AlphaGo不同,AlphaGo Zero是從「嬰兒般的白紙」開始,通過3天數百萬盤自我對弈,走完了人類千年的圍棋歷史,並探索出了不少橫空出世的招法。
  • 資料| Python強化學習實戰:應用OpenAI Gym和TensorFlow精通強化...
    《Python強化學習實戰:應用OpenAI Gym和TensorFlow精通強化學習和深度強化學習》共13章,主要包括強化學習的各種要素,即智能體、環境、策略和模型以及相應平臺和庫;Anaconda、Docker、OpenAIGym、Universe和TensorFlow等安裝配置;馬爾可夫鏈和馬爾可夫過程及其與強化學習問題建模之間的關係,動態規劃的基本概念;蒙特卡羅方法以及不同類型的蒙特卡羅預測和控制方法
  • 推薦算法系統/人臉識別/深度學習對話機器人高級實戰課
    3、深度學習對話機器人實戰對話機器人是一個用來模擬人類對話或聊天的電腦程式,本質上是通過機器學習和人工智慧等技術讓機器理解人的語言。它包含了諸多學科方法的融合使用,是人工智慧領域的一個技術集中演練營。在未來幾十年,人機互動方式將發生變革。
  • 《相對論》再對話郭傑瑞丨連線當天,美國發布微信「禁令」
    《相對論》再對話郭傑瑞丨連線當天,美國發布微信「禁令」 2020-08-09 21:55:58   來源:央視網
  • AlphaGo原來是這樣運行的,一文詳解多智能體強化學習基礎和應用
    機器之心分析師網絡作者:楊旭韻編輯:Joni在這篇綜述性文章中,作者詳盡地介紹了多智能強化學習的理論基礎,並闡述了解決各類多智能問題的經典算法。此外,作者還以 AlphaGo、AlphaStar為例,概述了多智能體強化學習的實際應用。
  • 探測「外星人.文明」,我國不改初心,矢志不渝,曾有霍金勸阻
    而霍金極力勸中國阻建設「天眼」,明顯與其探索地球之外文明的理念有些矛盾,他勸阻的理由是什麼?難道他看到了未來的東西,不被我們凡人覺察到?科學家利用它可採集捕獲到天文相關數據,再進行數據研究,分析和挖掘出新的天文新發現。