Deepmind AMA:關於最強ALphaGo如何煉成的真心話,都在這裡了!

2021-01-21 雷鋒網

雷鋒網消息:剛剛,Deepmind在Reddit的Machine Learning板塊舉辦了在線答疑活動AMA,Deepmind強化學習組負責人David Silver和其同事熱情地回答了網友們提出的各種問題。由於在AMA前一天Deepmind剛剛發表了《Mastering the game of Go without human knowledge》(不使用人類知識掌握圍棋)的論文,相關的提問和討論也異常熱烈。

什麼是AMA?

AMA(Ask Me Anything)是由Reddit的特色欄目,你也可以將其理解為在線的「真心話大冒險」。AMA一般會約定一個時間,並提前若干天在Reddit上收集問題,回答者統一解答。

本次Deepmind AMA的回答人是:

David Silver:Deepmind強化學習組負責人,AlphaGo首席研究員。David Silver1997年畢業於劍橋大學,獲得艾迪生威斯利獎。David於2004年在阿爾伯塔大學獲得計算機博士學位,2013年加盟DeepMind,是AlphaGo項目的主要技術負責人。

Julian Schrittwieser:Deepmind高級軟體工程師。

此前有多位機器學習界的大牛/公司在Reddit Machine Learning版塊開設AMA,包括:Google Brain Team、OpenAI Research Team 、Andrew Ng and Adam Coates、Jürgen Schmidhuber、Geoffrey Hinton、Michael Jordan 、Yann LeCun、Yoshua Bengio等。

雷鋒網(公眾號:雷鋒網)從今天Deepmind的AMA中選取了一些代表性的問題,整理如下:

關於論文與技術細節

Q: Deepmind Zero的訓練為什麼如此穩定?深層次的增強學習是不穩定和容易遺忘的,自我對局也是不穩定和容易遺忘的,如果沒有一個好的基於模仿的初始化狀態和歷史檢查點,二者結合在一起應該是一個災難...但Zero從零開始,我沒有看到論文中有這部分的內容,你們是怎麼做到的呢?

David Silver:在深層增強學習上,AlphaGo Zero與典型的無模式算法(如策略梯度或者Q學習)採用的是完全不同的算法。通過使用AlphaGo搜索,我們可以極大改進策略和自我對局的結果,然後我們會用簡單的、基於梯度的更新來訓練下一個策略及價值網絡。比起基於簡便的基於梯度的策略改進,這樣的做法會更加穩定。


Q:我注意到ELO等級分增長的數據只與到第40天,是否是因為論文截稿的原因?或者說之後AlphaGo的數據不再顯著改善?

David Silver:AlphaGo已經退役了!這意味著我們將人員和硬體資源轉移到其他AI問題中,我們還有很長的路要走吶。


Q:關於論文的兩個問題:

Q1:您能解釋為什麼AlphaGo的殘差塊輸入尺寸為19x19x17嗎?我不知道為什麼每個對局者需要用8個堆疊的二進位特徵層來描述?我覺得1、2個層就夠了啊。雖然我不是100%理解圍棋的規則,但8個層看起來也多了點吧?

Q2:由於整個通道使用自我對局與最近的/最好的模型進行比較,你們覺得這對於採用參數空間的特定SGD驅動軌跡對否會有過擬合的風險?

David Silver:說起來使用表徵可能比現在用的8層堆疊的做法更好!但我們使用堆疊的方式觀察歷史數據有三個原因:1)它與其他領域的常見輸入一致;2)我們需要一些歷史狀態來表示被KO;3)如果有一些歷史數據,我們可以更好地猜測對手最近下的位置,這可以作為一種關注機制(雷鋒網註:在圍棋中,這叫「敵之要點即我之要點」),而第17層用於標註我們現在究竟是執黑子還是白子,因為要考慮貼目的關係。


Q:有了強大的棋類引擎,我們可以給玩家一個評級——例如Elo圍棋等級分就是通過棋手對局的分析逐步得出的,那麼AlphaGo是否可以對過去有等級分前的棋手的實力進行分析?這可能為研究人類的認知提供一個平臺。

Julian Schrittwieser:感謝分享,這個主意很棒!

我認為在圍棋中這完全可以做到,或許可以用最佳應對和實際應對的價值差異或者政策網絡給每一手位置評估得到的概率來進行?我有空的時候試一下。


Q: 既然AlphaGo已經退役了,是否有將其開源的計劃?這將對圍棋社區和機器學習研究產生巨大的影響。還有,Hassabis在烏鎮宣稱的圍棋工具將會什麼時候發布?

David Silver:現在這個工具正在準備中。不久後你就能看到新的消息。


Q:AlphaGo開發過程中,在系統架構上遇到的最大障礙是什麼?

David Silver:我們遇到的一個重大挑戰是在和李世石比賽的時候,當時我們意識到AlphaGo偶爾會受到我們所謂的「妄想」的影響,也就是說,程序可能會錯誤理解當前盤面局勢,並在錯誤的方向上持續許多步。我們嘗試了許多方案,包括引入更多的圍棋知識或人類元知識來解決這個問題。但最終我們取得了成功,從AlphaGo本身解決了這個問題,更多地依靠強化學習的力量來獲得更高質量的解決方案。


圍棋愛好者的問題

Q:1846年,在十四世本因坊跡目秀策與十一世井上幻庵因碩的一盤對局中,秀策下的第127手讓幻庵因碩一時驚急兩耳發赤,該手成為扭轉敗局的「耳赤一手」。如果是AlphaGo,是否也會下出相同的一首棋?

Julian Schrittwieser:我問了樊麾,他的回答是這樣的:

當時的圍棋不貼目,而AlphaGo的對局中,黑棋需貼7.5目。貼目情況不同造成了古今棋局的差異,如果讓AlphaGo穿越到當年下那一手,很有可能下的是不同的另一個地方。


Q:從已發布的AlphaGo相互對局看,執白子的時間更為充裕,因而不少人猜測,7.5目的貼目太高了(雷鋒網註:現代圍棋的貼目數也在不斷變化,如在30年前,當時通行的是黑子貼白子5.5目)。

如果分析更大的數據集,是否可以對圍棋的規則得出一些有趣的結論?(例如,執黑或者執白誰更有優勢,貼目應該更高還是更低)

Julian Schrittwieser:從我的經驗和運行的結果看,7.5目的貼目對雙方來說是均勢的,黑子的勝率略高一些(55%左右)。


Q:你能給我們講一下第一手的選擇嗎?ALphaGo是否會下出我們前所未見的開局方式?比如說,第一手下在天元或者目外,甚至更奇怪的地方?如果不是,這是否是一種「習慣」,或者說AlphaGo有強烈的「信念」認為星位、小目、三三是更好的選擇?

David Silver:在訓練中我們看到ALphaGo嘗試過不同方式的開局——甚至剛開始訓練的時候有過第一手下在一一!

即便在訓練後期,我們仍然能看到四、六位超高目的開局,但很快就恢復到小目等正常的開局了。


Q:作為AlphaGo的超級粉絲,有一個問題一直在我心中:AlphaGo可以讓職業棋手多少子?從論文中我們知道AlphaGo可以下讓子棋,我也知道AlphaGo恐怕讓不了柯潔兩子,但我想你們一定很好奇,你們是否有做內部測試?

David Silver:我們沒有和人類棋手下讓子棋。當然,我們在測試不同版本的時候下過讓子棋,在AlphaGo Master>AlphaGo Lee>ALphaGo Fan這三個版本中,後一個版本均可讓三子擊敗前一個版本。但是,因為AlphaGo是自我訓練的,所以尤其擅長打敗自己的較弱的前一版本,因此我們不認為這些訓練方式可以推廣到和人類選手的讓子棋中。


Q:你們有沒有想過使用生成對抗網絡(GAN)?

David Sliver:從某種意義來講,自我對弈就是對抗的過程。每一次結果的迭代都是在試圖找到之前版本的「反向策略」。


傳言終結者

Q:我聽說AlphaGo在開發初期被引導在某一個具體的方向訓練以解決對弈中展現出的弱點。現在它的能力已經超過了人類,是否需要另外的機制來進一步突破?你們有做了什麼樣的工作?

David Silver:實際上,我們從未引導過AlphaGo來解決具體的弱點。我們始終專注於基礎的機器學習算法,讓AlphaGo可以學習修復自己的弱點。

當然你不可能達到100%的完美,所以缺點總會存在。 在實踐中,我們需要通過正確的方法來確保訓練不會落入局部最優的陷阱,但是我們從未使用過人為的推動。


關於DeepMind公司

Q:我這裡有幾個問題:在DeepMind工作是什麼感受?AlphaGo團隊成員都有誰?你能介紹一下AlphaGo團隊工作分配的情況嗎?下一個重大挑戰是什麼?

David Silver:在DeepMind工作感覺好極了:)——這不是一個招聘廣告,但我感覺每天可以在這裡做我喜歡的事實在是太幸運了。有很多(多到忙不過來!:))很酷的項目去參與。

我們很幸運有許多大牛在AlphaGo工作。您可以通過查看相應的作者列表來獲取更詳細的信息。


Q: 你覺得本科生是否可以在人工智慧領域取得成功?

Julian Schrittwiese:當然。我本人就只有計算機科學學士學位,這一領域變化迅速,我認為您可以從閱讀最新的論文和試驗中來進行自學。另外,去那些做過機器學習項目的公司實習也是很有幫助的。


關於算法的擴展和其他項目

Q:Hassabis今年三月份在劍橋的一個演講中表示,AlphaGo項目未來目標之一是對神經網絡進行解釋。我的問題是:ALphaGo在神經網絡結構上取得了什麼樣的進展,或者說,對AlphaGo,神經網絡仍然是神秘的黑盒子?

David Silver:不僅僅是ALphaGo,可解釋性是我們所有項目的一個非常有意思的課題。Deepmind內部有多個團隊從不同方式來探索我們的系統,最近有團隊發表了基於認知心理學技術去嘗試破譯匹配網絡內部發生了什麼,效果非常不錯!


Q: 很高興看到AlphaGo Zero的好成績。我們的一篇NIPS論文中也提到了對於深度學習和搜索樹之間效率的相似問題,因此我對於在更長的訓練過程中的行為尤其感興趣。

AlphaGo的訓練過程中,創建學習目標的蒙特卡洛樹搜索的貪心算法、策略網絡的貪心算法、以及在訓練過程中價值功能變化的貪心算法之間的相對表現如何?這種自我對局學習的方法是否可以應用在最近的星際爭霸 II API中?

David Silver:感謝介紹您的論文!真不敢相信這篇論文在我們4月7日投稿的時候已經發布了。事實上,它與我們的學習算法的策略組件非常相似(儘管我們也有一個值組件),您可以參考我們的方法和強化學習中的討論,也很高興看到在其他遊戲中使用類似方法。


Q:為什麼早期版本的AlphaGo沒有嘗試自我對弈?或者說,AlphaGo之前也嘗試過自我對弈但效果不好?

我對這個領域的發展和進步程度感到好奇。相比起今天,在兩年前在設計一個自主訓練的AlphaGo的瓶頸在哪裡?今天我們見到的「機器學習直覺」又是經歷了什麼樣的系統迭代過程?

David Silver:創建一個可以完全從自我學習的系統一直是加強學習的一個開放性問題。 我們最初的嘗試包括你能查到的許多類似的算法,是相當不穩定的。 我們做了很多嘗試,最終AlphaGo Zero算法是最有效的,而且似乎已經破解了這個特定的問題。


Q:你認為機器人什麼時候能夠有效解決現實世界關於高度、尺寸方面的問題(例如,自己學習如何抓取任何形狀、尺寸、位置垃圾的設備)?策略梯度方法是否是實現這一目標的關鍵點?

Julian Schrittwieser:這主要是由於價值/政策網絡上的雙重改進,包括更好的訓練和更好的架構。具體參見論文圖4對不同網絡架構的比較。


Q:據說擊敗柯潔的ALphaGo Master的功耗只是擊敗李世石的AlphaGo Lee的1/10。你們做了什麼樣的優化呢?

Julian Schrittwieser:這主要是由於價值/政策網絡上的雙重改進,包括更好的訓練和更好的架構。具體參見論文圖4對不同網絡架構的比較。(雷鋒網按:你確認不是copy上一個問題的答案嗎)


Q:看起來在增強學習中使用或模擬Agent的長期記憶是一個很大的障礙。 展望未來,您覺得我們是否能以一種新的思維方式解決這一點? 還是說需要等待我們技術可以實現一個超級網絡?

Julian Schrittwieser:是的,長期記憶可能是一個重要的因子,例如在「星際爭霸」遊戲中,你可能已經做出了上千個動作,但你還要記住你派出的偵察兵。

我認為現在已經有了令人振奮的組件(神經圖靈機!),但是我認為我們在這方面仍有很大的改進空間。


Q:David,我看過你的演講視頻,你提到增強學習可以用於金融交易, 你有沒有真實世界的例子? 你會如何處理黑天鵝事件(過去沒有遇到過的情況)?

David Silver:已經發表增強學習用於現實世界的財務算法的論文非常少見,但有一些經典論文值得一看,例如Nevmyvaka、Kearns在2006寫的那篇和Moody、Safell在2001年寫的那篇。


Q:你們和Facebook幾乎同時研究圍棋問題,你們能更快獲得大師級表現的優勢是什麼?

對於那些無法獲得像AlphaGo如此多的訓練數據的領域如何開展機器學習或者增強學習?

David_Silver:Facebook更側重於監督學習,我們選擇更多地關注強化學習,因為我們認為AlphaGo最終將超越人類的知識。 我們最近的結果實際上表明,監督學習方法可以讓人大吃一驚,但強化學習絕對是遠遠超出人類水平的關鍵之處。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來啦?
    官網上對於工具的使用也有相關說明:如何使用這一工具?點擊棋盤上的彩色圓圈,或使用棋盤下方的導航工具,即可探索不同的開局變化,以及 AlphaGo 對於每一步棋的黑棋勝率預測。圓圈中的數字代表了該步棋的黑棋勝率。當輪到黑棋落子時,數值越接近 100 表示黑棋優勢越大;當輪到白棋落子時,數值越接近 0 表示白棋優勢越大。50 則表示均勢。
  • 最強AlphaGo怎樣煉成?DeepMind團隊進行全面解讀
    剛剛,這個史上最強圍棋AI的兩位主要開發者,David Silver和Julian Schrittwieser,做客知名網站reddit,展開一場超級問答AMA(Ask Me Anything)。他們是誰?
  • AlphaGo 圍棋教學工具已發布
    在Deepmind所謂的「教學工具」發布之前,小編曾在腦海出現萬千猜想……但今天揭底才知道,原來只是一個平平淡淡的網頁……(建議複製到電腦上打開,因為據有的棋友反映手機打不開,小編這裡實測手機能打開,只是讀取了較長時間)
  • 如何打造史上最強AlphaGo?DeepMind團隊是這樣回答的-虎嗅網
    昨天關於AlphaGo的報導再次震驚所有人。而就在前不久,這個史上最強圍棋AI的兩位主要開發者——David Silver和Julian Schrittwieser,做客知名網站reddit,展開一場超級問答AMA(Ask Me Anything)。
  • 深度學習之Google Deepmind的Alphago人工智慧算法技術演變歷程
    ,我覺得更多的是要考慮該算法在該類問題上如何去刻畫出人類的直覺、經驗判斷、邏輯推理等。最近大家比較關心的圍棋人機大戰(Alphago vs 李世石)中,deep mind基於Nature2016文章的Alphago在5局制的比賽中已經取得了4-1的獲勝。
  • 從AlphaGo到蛋白質摺疊,Deepmind在不斷捅破AI領域的天花板!
    直到今年7月接受紐約時報採訪,馬斯克依然認為Deepmind是他最為關注(Top Concern)的AI公司,他依然深信AI可以超越甚至毀滅人類。雖然嘴上說不要,但身體卻很誠實,他除了是Deepmind的天使投資人,還是他引薦給谷歌投資的。
  • 不只是AlphaGo,谷歌DeepMind到底是何方神聖?
    所有這些發展都為不同的公司提供了發揮作用和證明其價值的舞臺。正是這樣,像DeepMind這樣的公司才得以大展身手。沒錯,就是那個開發出戰勝柯潔李世石的AlphaGo的公司,比起下棋,它值得我們了解的還有很多。
  • Deepmind Nature論文揭示最強AlphaGo Zero
    AlphaGo「退役」了,但Deepmind在圍棋上的探索並沒有停止。今年5月的烏鎮大會的「人機對局」中,中國棋手、世界冠軍柯潔9段以0:3不敵AlphaGo。隨後Deepmind創始人Hassabis宣布,AlphaGo將永久退出競技舞臺,不再進行比賽。
  • 關於AlphaGo 論文的閱讀筆記
    2016 年 1 月 28 日,Deepmind 公司在 Nature 雜誌發表論文 Mastering the game of Go with deep neural networks and tree search,介紹了 AlphaGo 程序的細節。本文是對這篇論文的閱讀筆記,以及關於人工智慧和圍棋進一步的一些想法。
  • Deepmind新一代AlphaGo Zero自學3天打敗AlphaGo
    今天凌晨,谷歌旗下Deepmind人工智慧團隊發布了一篇轟動AI界的論文,《Mastering the game of Go without human knowledge》(在沒有人類知識的情況下掌握圍棋),一句話總結這篇論文,他們研發的AlphaGo大表哥AlphaGo Zero能夠在沒有人類圍棋對弈數據的情況下
  • DeepMind開源AlphaFold,蛋白質預測模型登上《Nature》
    1月15日,DeepMind關於AlphaFold模型與代碼通過了同行評審發布在了雜誌《nature》上面。並且模型和代碼已經開源。代碼:https://github.com/deepmind/deepmind-research/tree/master/alphafold_casp13模型:https://www.biorxiv.org/content/10.1101/846279v1.full.pdf根據DeepMind的介紹,在預測蛋白質結構的物理性質方面使用了兩種不同的方法來構建預測模型
  • AlphaGo Zero用40天成為世界最強圍棋AI
    AlphaGo的論文發布早就有預告,有預兆,並非突如其來,石破天驚……但當它就這樣出現,糊在小編臉上,還是顯得那麼讓人震撼……論文摘要在另一篇置頂文已經有了,這裡只是略微補全一些周邊信息。棋士柯潔:一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了
  • AlphaGo之後,DeepMind重磅推出AlphaFold:基因序列預測蛋白質結構
    「對於我們來說,這真的是一個關鍵時刻,」DeepMind 聯合創始人兼 CEO Demis Hassabis 表示,「這個項目就像燈塔,這是我們關於人和資源的首次重大投資,用於解決一個根本性的、現實世界的重要問題。」
  • 柯潔回應新版本AlphaGo問世:人類太多餘了
    對此,柯潔回應稱:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」DeepMind聯合創始人兼CEO 、AlphaGo之父戴密斯·哈薩比斯(Demis Hassabis)和AlphaGo團隊負責人大衛·席爾瓦(Dave Sliver) 等人同時在官方博客上發表文章,詳解最強版本阿爾法狗是如何煉成的,與前代有何不同。
  • 生物版AlphaGo發威!DeepMind抗疫:預測新冠病毒相關蛋白結構
    AlphaFold如何實現加速度?與傳統預測蛋白質3D結構的方法不同,AlphaFold僅僅基於蛋白質的基因序列,就能預測蛋白質的3D結構。這是一個非常複雜任務。基因序列中只包含蛋白質組成部分胺基酸殘基的序列信息,這些胺基酸殘基會形成長鏈。
  • 真心話的問題 100個的真心話問題
    喜歡玩真心話大冒險遊戲的常常不知道該提問別人什麼問題,尤其是前面想問的問題都問完了的時候,我們給大家收集整合過來一些你常用到的問題,大家可以從裡面選擇自己需要的,那麼我們就一起來看看真心話的問題,100個的真心話問題吧。
  • AlphaGo背後團隊Deepmind有多牛 核心團隊成員資料介紹
    Deepmind官方網站也報導了今天的人機大戰  鑑於此次AlphaGo戰勝的是圍棋界一等一的高手,更重要的是這背後延伸出來的意義——機器已經擁有類人般的學習能力,並且能夠據此戰勝人類。雖然結果未必會以電影《終結者》當中那樣,以人機之間的暴力衝突收場。
  • 能贏AlphaGo的只有它自己 柯潔回應新版問世:人類太多餘了
    對此,柯潔回應稱:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」2016 年在 AlphaGo 和李世石的對戰後,人工智慧進入大眾的視野,今年5月27日,中國棋手柯潔與人工智慧「阿爾法圍棋」(AlphaGo)展開三番棋比賽的終局對決。
  • DeepMind新GNN模型,將谷歌地圖預估到達準確率提升50%!
    全世界都有類似的煩惱。預估到達時間(ETA)準確率低,就是上述煩惱的原因。ETA為什麼低?谷歌地圖也有一套預測算法。但畢竟世界是動態的,每天的狀況都有可能不同,特別是疫情期間。例如,儘管上下班尖峰時間都會發生在早上、晚上,但具體的確切時間可能每天、每月都有很大差異;一條小巷的擁堵,就會蔓延到下一個大路——這一點,地圖往往無法實時監控;另外,道路質量、限速、事故和封路等因素,都會給預測模型帶來麻煩。
  • 谷歌DeepMind 的可微分神經計算機 DNC 怎麼樣?看 Facebook AI...
    那麼我們究竟該如何看待谷歌 Deepmind 團隊最新發布的可微分神經計算機 DNC 呢?果然,已經有人在知乎上提出這個問題。編者註:該知乎提問中「谷歌deeplearning團隊」實際上應該指的是「谷歌Deepmind團隊」。