最強AlphaGo怎樣煉成?DeepMind團隊進行全面解讀

2021-01-15 弈客圍棋

安妮 李林 發自 凹非寺量子位 出品 | 公眾號 QbitAI

昨天AlphaGo再次震驚所有人。

剛剛,這個史上最強圍棋AI的兩位主要開發者,David Silver和Julian Schrittwieser,做客知名網站reddit,展開一場超級問答AMA(Ask Me Anything)。

他們是誰?

△ 左:Julian Schrittwieser 右:David Silver

比較關注AlphaGo的朋友對其中一位應該不會陌生,David Silver是AlphaGo團隊負責人,也是上一代AlphaGo的主要作者。從首爾到烏鎮,都有他的身影。關於David Silver我們在之前報導黃士傑的文章裡也有提及。

名字更長的Julian Schrittwieser,是這次新一代AlphaGo的三位並列主要作者之一,而且非常年輕。2013年,Schrittwieser本科畢業於奧地利的維也納技術大學;同年9月,Schrittwieser加入DeepMind。

此前DeepMind關於AlphaGo和星際2的研究論文中,Schrittwieser也都有參與。

OK,背景交代到這裡。

乾貨時間開始。

以下問答經過量子位(QbitAI)編輯整理。

最強AlphaGo是怎麼煉成的

提問:深度強化學習本來就是出了名的不穩、容易遺忘,請問你們是如何讓Zero的訓練如此穩定的?

下圖顯示了在自我對弈強化學習期間,AlphaGo Zero的表現。整個訓練過程中,沒有出現震蕩或者災難性遺忘的困擾。

△ 引自AlphaGo Zero論文

David Silver:AlphaGo Zero所用的算法,與策略梯度、Q-learning之類的傳統(無模型)算法完全不同。通過使用AlphaGo搜索,我們大大改進了策略和自我對弈結果,然後用簡單的基於梯度的更新來訓練下一個策略和價值網絡。

這似乎比漸進的、基於梯度的策略改進要穩定得多,梯度策略可能會忘記之前的優化。

提問:為什麼這次AlphaGo Zero就訓練了40天?訓練3個月會怎麼樣?

David Silver:我想這是一個人力和資源優先級的問題。如果我們訓練了3個月,我想你還會好奇訓練6個月會發生什麼 :)

提問:看完論文我有個疑問,輸入維度那麼高好像完全沒必要,AlphaGo的residual block輸入維度為什麼是19×19×17?我不太理解為什麼每個玩家要用8個二值特徵plane。

David Silver:實際上,不是只有8 planes這一種選擇,用其他形式的表示可能也沒問題,但我們用了觀察值的堆疊歷史,有三個原因:

這和其他領域,比如說玩雅達利遊戲時的常見輸入表示一致;

我們需要一些歷史記錄來呈現ko;

歷史可以用來記錄對手最近在哪落過子,這些信息可以當作一種注意力機制來用,比如說集中在對手認為重要的位置上,第17個plane記錄的是我自己在用什麼顏色,因為有貼目規則,這個信息也很重要。

提問:你們發了AlphaGo論文之後,網友們說裡邊的算法實現起來不難,但很難達到你們那個訓練量;在計算機下象棋的圈子裡,開發者們也沒少複製其他程序的算法。你認為算法和數據哪個更重要?

Julian Schrittwieser:我認為還是算法更重要,比較一下新AlphaGo Zero和之前論文中的版本,新版效率有多高就知道了。另外,我認為我們在數據效率方面還能有更多提升。

提問:據說和柯潔對戰的AlphaGo,計算力的消耗只有對戰李世乭版本的十分之一。這中間做了怎樣的優化,能簡單說是AlphaGo的算法比之前提高了10倍嗎?

(量子位註:和柯潔對戰的AlphaGo Master,用了和Zero版一樣的算法和架構,不同之處在於引入了人類對局數據和特徵。)

Julian Schrittwieser:主要是因為改進了價值/策略網絡,訓練和架構都變得更好了,不同的網絡架構之間的對比如下圖所示:

提問:你們為什麼一開始選擇用人類對局數據來訓練AlphaGo,而不是通過自我對弈來從0開始?還是當時也嘗試了但效果不好呢?為什麼會這樣?我想知道,兩年前設計一個完全自學的AlphaGo瓶頸在哪?

David Silver:創造一個完全自學成才的系統,一直是強化學習中的一個開放式問題。我們一開始嘗試的方法,以及在文獻綜述部分提到的很多其他方法,都非常不穩定。我們做了很多實驗,最終發現,AlphaGo Zero的算法是最有效率的,好像攻克了這個特定的問題。

提問:為什麼在剛開始訓練的時候也要每局下1600步?這時候應該都是隨機的噪聲吧……先快速下很多盤隨機局,然後在網絡訓練得更好的時候,再進行更深的搜索不是更好嗎?

Julian Schrittwieser:一開始少下幾步可能也行,但在整個試驗中保持統一是一種比較簡明的做法。

提問:在輸入特徵上,用delta featurization可行嗎?

Julian Schrittwieser:神經網絡實在是很擅長用不同方式來表示同樣的信息,所以,是的,我認為用delta featurization應該也行。

提問:你們有沒有想過用生成對抗網絡(GAN)?

David Silver:在某種意義上,AlphaGo的自我對弈訓練已經有了對抗:每次迭代都試圖找到上一代版本的「反策略」。

△ 左:Julian Schrittwieser 右:David Silver

為何成功者不是Facebook

提問:我聽說在AlphaGo開發初期,你們在訓練中人為向特定方向引導,來解決它在棋局中表現出來的弱點。現在它的能力已經超越人類認知了,會不會還需要人工調整,避免它落入局部最大化?你們有這個打算嗎?

David Silver:實際上,我們從來沒有為特定的弱點而人為引導過AlphaGo,而是一直專注於原則化的機器學習算法,讓算法自己學會糾正自己的錯誤。

想找到圍棋的最優解當然是不現實的,所以,弱點總是存在。在實踐中,用正確的探索方法來保證訓練沒有卡在局部最優解中非常重要,但我們沒有用上人為的引導。

提問:AlphaGo的研究中,最困難的是什麼?

David Silver:我們遇到的第一個大挑戰,是在跟李世乭比賽的時候。當時我們意識到,AlphaGo偶爾會產生「妄想」,也就是會系統地誤判盤面情況,並且持續數手。我們嘗試了很多想法來解決這個弱點。而引入更多圍棋知識,或者人類元知識一直是種誘惑。

但最終我們取得了巨大的成功,徹底解決了AlphaGo的問題。我們用的方法是,更多的依賴強化學習的力量,讓它自己找到更好的解決方案。

提問:AlphaGo在行棋時間安排上是怎麼考慮的?

David Silver:我們實際上用了一個相當直接的時間控制策略,基於自我博弈中勝率的簡單優化。當然可以應用更複雜的策略,性能也應該可以再提升一點點。

提問:NIPS論文Thinking Fast and Slow with Deep Learning and Tree Search也提出了和AlphaGo Zero類似的方法。

論文地址:https://arxiv.org/abs/1705.08439

David Silver:這的確和AlphaGo的策略算法很相似,不過我們還有個價值模塊。以及要澄清一下,在AlphaGo Zero論文4月7日提交給Nature的時候,那篇NIPS論文還沒公開。

提問:DeepMind和Facebook研究這個問題大概是在同一時間誒,是什麼讓AlphaGo這麼拿到了圍棋最高段位?

David Silver:Facebook更專注於監督學習,這是當時最厲害的項目之一。我們選擇更多地關注強化學習,是因為相信它最終會超越人類的知識。最近的研究結果顯示,只用監督學習的方法的表現力驚人,但強化學習絕對是超出人類水平的關鍵。

AlphaGo不開源,星際2還早

提問:你們有開源AlphaGo的計劃嗎?

David Silver:我們過去開源了不少代碼,但是開源這個過程總是很複雜。在AlphaGo這個問題上,非常不好意思,它的代碼庫實在是過於複雜了。

提問:烏鎮時說過的圍棋工具什麼時候發布?

David Silver:這項工作一直在推進,敬請期待 :)

提問:AlphaGo Zero還在訓練麼?未來還會有突破麼?

David Silver:AlphaGo已經退役了!我們的人力和硬體資源,已經動身前往其他道阻且長的AI項目上了。

提問:AlphaGo Zero是最終版本的AlphaGo麼?

David Silver:我們已經不再主動研究如何讓AlphaGo變得更強,但它仍然是所有DeepMind同仁的研究測試平臺,用於嘗試新的想法和算法。

提問:與圍棋相比,《星際2》有多難?AI打星際什時候能有新進展?

David Silver:前不久我們剛發布了《星際2》的環境,現在相關研究還在相當早期的階段。《星際2》的行為空間顯然比圍棋大得多,需要監控的數據量也更大。從技術上來講,圍棋是一個完美信息博弈,而戰爭迷霧讓星際變成不完美信息博弈。

量子位插播一個延伸閱讀:

AI打星際2是怎麼回事?快看看這段6分鐘的視頻講解

關於AI研究

提問:AlphaGo在神經網絡的可解釋性方面有什麼進展?

David Silver:可解釋性對我們所有的系統來說都是有趣的問題,而不僅僅是AlphaGo。DeepMind內部正努力研究詢問系統的新方式。最近,他們的研究已經發表出來,主要是從認知心理學出發,來嘗試破譯神經網絡內部的情況。這項研究非常棒。

量子位插播一個延伸閱讀:

DeepMind新論文:用認知心理學方法打開深度學習的黑箱

提問:似乎使用或模擬強化學習智能體的長期記憶是一個很大瓶頸。展望未來,你是否相信我們即將以一種新的思維方式「解決」這個問題?

Julian Schrittwieser:你說的沒錯,長期記憶確實是個重要因素。例如,在星際爭霸的一場比賽中可能有上萬個動作,另外還得記住你偵察到的東西。

我認為目前已經有了很一顆賽艇的組件,比如神經圖靈機,但在這個領域,我們還將看到一些更令人印象深刻的進步。

提問:有沒有強化學習(RL)用在金融領域的案例?

David Silver:很難在公開發表的論文中找到真實世界的金融算法!但是有一些經典論文非常值得一讀,例如Nevmyvaka和Kearns在2006年發布的研究、Moody和Safell在2001發布的研究。

提問:不讀研也能在人工智慧領域大有作為嗎?

Julian Schrittwieser:當然可以,我也只有計算機科學學士學位。這個領域發展很快,所以我認為你可以從閱讀論文和運行實驗中學習很多東西。在已經有過機器學習經驗的公司實習是對你的成長應該很有幫助。

提問:怎樣進入AI行業?我覺得「讀個PhD然後找工作」好像是個挺明顯的途徑,但是最常見的路徑不見得就是最好的吧……

Julian Schrittwieser:還有一種方法效果也不錯:挑一個有意思的問題,訓練很多神經網絡,探索它們的結構,然後你會發現一些效果很好的部分,去發表一篇論文,或者去參加會議展示你的成果。

不斷地重複這個過程。

這個圈子很好,會願意給你反饋,你也可以通過arXiv了解最近的研究。

關於圍棋

提問:現在西洋棋程序能給選手評分:通過棋步的分析,來推算Elo等級分。AlphaGo能在圍棋上搞這個嗎?

相關論文:https://www.cse.buffalo.edu/~regan/papers/pdf/ReHa11c.pdf

Julian Schrittwieser:這個想法很酷啊,感謝分享這篇論文!

我認為在圍棋上也能做這樣的事情,可能會通過計算最佳下法和實際下法之間的價值差異來實現,或者計算策略網絡下出實際下法的概率。等我有時間試試這個。

提問:關於對局中的第一手棋,我想問,AlphaGo會有一些你從未見過的開局嗎,比如10-10或5-3,或者走很奇怪的一步?如果沒有這種情況,那是出於「習慣」,還是有強烈的信念,3-3、3-4和4-4是優越的?

David Silver:在訓練中,我們看到AlphaGo探索了各種不同的動作——甚至在訓練開始時下出過1-1!即使在經過一段訓練後,Zero也嘗試過下6-4,但很快又回到了熟悉的3-4。

Julian Schrittwieser:實際上,在剛開始訓練AlphaGo Zero時,它完全是隨機的,例如在圖5的b部分中,你可以看到它實際上是在1-1點下出第一手!逐漸適應網絡後,隨著它變得更強大,它開始青睞4-4、3-4和3-3。

提問:現在AlphaGo能讓頂級圍棋選手几子?能讓柯潔兩子麼?

David Silver:我們還沒跟人類選手下過讓子棋,我們想專注在整場的圍棋比賽中。然而,在讓子條件下測試不同版本的AlphaGo很有用。在Zero的論文中我們提到了各個版本的棋力:AlphaGo Master > AlphaGo Lee > AlphaGo Fan,每個版本都讓三子擊敗了它的前一代。

值得注意的是,因為這些神經網絡沒有專門為讓子棋訓練過。此外,由於AlphaGo是自我對弈訓練的,特別擅長打敗自身較弱的版本。因此,我認為我們不能以任何有意義的方式將這些結果推廣到人類的讓子棋中。

提問:AlphaGo Zero會處理徵子之類的問題嗎?你們是怎樣解決這類問題的?

David Silver:AlphaGo Zero並沒有特殊的特徵來處理徵子,或者任何其他圍棋中的特定問題。在訓練早期,Zero偶爾會因為徵子下滿棋盤,就算它對全局有很複雜的理解也沒用。但在我們分析的棋局中,經過完全訓練的Zero能正確識別所有無意義的徵子。

提問:已經發布的少量AlphaGo自我對弈棋局中,白棋勝率太高。是不是貼目應該降低?

Julian Schrittwieser:從我的經驗和實驗來看,貼7.5目非常平衡。我們只觀察到白棋的勝率略高一點(55%)。

提問:你們認為AlphaGo能解《發陽論》第120題嗎?(傳說中的「死活題最高傑作」)

David Silver:我們剛才去問了樊麾,他說AlphaGo能解這個問題,但更有意思的是,它會不會找到跟書裡一樣的答案?還是能給出一個之前誰也沒想到的解法?在AlphaGo的很多對局中,我們都看到了以人類經驗無法想像的下法。

提問:邁克·雷蒙(Michael Redmond,首位非東亞裔圍棋九段)認為AlphaGo會下出人類棋手不會有的惡手,而且學不會圍棋定式(深度程序知識)。

David Silver:我相信AlphaGo的「惡手」只有在影響全局勝利時才是問題。如果結局仍然是穩贏,真的是很差的一招麼?

AlphaGo已經學會很多人類的定式,也下出了自己的定式。現在職業棋手有時就在使用AlphaGo的定式 :)

提問:1846年,桑原秀策四段對弈幻庵因碩八段,其中著名的是第127手。AlphaGo怎麼看這手棋?AlphaGo會怎麼下?

Julian Schrittwieser:我不是圍棋專家,但是我們問了樊麾,他說:

當年比賽的時候,還沒有貼目這一說。現在,AlphaGo採用的都是貼7.5目的規則。貼目讓對弈過程完全改變。至於第127手,AlphaGo很有可能會選擇不同的下法。

提問:還會再和職業棋手下棋嗎?

Julian Schrittwieser:我們五月份說過,烏鎮那場就是AlphaGo的最後一次比賽了。

—完—

弈客圍棋整理髮布!

更多精彩賽事直播,棋文弈事,盡在弈客圍棋,下載弈客APP,和熱愛圍棋的棋友對弈手談!

相關焦點

  • 最強AlphaGo怎樣煉成?剛剛,DeepMind團隊進行了全面解讀
    剛剛,這個史上最強圍棋AI的兩位主要開發者,David Silver和Julian Schrittwieser,做客知名網站reddit,展開一場超級問答AMA(Ask Me Anything)。 他們是誰?
  • 再創新高:DeepMind一年燒掉6.5億美元,谷歌卻揮手免除15億債務
    DeepMind 以在圍棋領域戰勝最強人類的 AlphaGo 開始廣為人們所知,2017 年 5 月,當時的世界第一選手柯潔在人機大戰中 0 比 3 落敗。然而,DeepMind 同樣被人記住的還有「燒錢」。
  • AlphaFold抗疫,DeepMind公布六種新冠病毒蛋白質結構預測結果
    DeepMind 開放的新冠病毒蛋白質結構預測結果下載連結:https://storage.googleapis.com/deepmind-com-v3-datasets/alphafold-covid19/structures_4_3_2020.zip為什麼要用深度學習預測新冠病毒蛋白結構?
  • 業界 | DeepMind遊戲AI又有新突破,與智能體、人類合作都不在話下
    這些遊戲代表了電子遊戲最流行的類型,並因其沉浸式遊戲體驗和策略、戰術、手眼協調、團隊合作的挑戰性吸引了數百萬遊戲玩家。DeepMind 智能體的挑戰在於直接從原始像素進行學習,並生成動作。其複雜度使得第一人稱視角多人遊戲成為 AI 社區一個碩果纍纍的活躍研究領域。
  • 終極版AlphaGo,DeepMind新算法MuZero作者解讀
    模擬沿著樹向下進行,直到尚未擴展的葉子。此時,應用神經網絡評估節點,並將評估結果(優先級和值估計)存儲在節點中。擴展:一旦節點達到估計量值後,將其標記為「擴展」,意味著可以將子級添加到節點,以便進行更深入的搜索。在MuZero中,擴展閾值為1,即每個節點在首次評估後都會立即擴展。在進行更深入的搜索之前,較高的擴展閾值可用於收集更可靠的統計信息。
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    △圖源:Deepmind兩年前,上一版本的AlphaFold便已經取得了裡程碑的突破,但是,仍然沒有完全解決蛋白質摺疊問題。而這次AlphaFold 2,則更進一步。這一巨大的突破,直接引爆了全網,Nature、Science紛紛報導,生物屆和AI大牛們也紛紛祝賀。
  • DeepMind 的 AI 會玩多人遊戲雷神之錘 3 了!
    現在 DeepMind 的 AI 能像人類一樣,通過戰略、戰術和團隊協作玩畫面定製版的雷神之錘 3 了。該團隊選擇了奪旗模式(Capture The Flag,CTF)進行訓練。在該模式下,每一場遊戲地圖都會變化。
  • DeepMind如何助谷歌成為最強AI公司?
    AlphaGo究竟是怎樣誕生的?Google與Google DeepMind又究竟是什麼關係?作為人工智慧代表的AlphaGo目前還有哪些問題?人工智慧真的來了嗎?牛頓被蘋果「砸」出了萬有引力,哈薩比斯在棋盤裡中「玩」出了DeepMind AlphaGo的創造者並非谷歌,而是和一個名叫傑米斯·哈薩比斯(Demis Hassabis)的人有著千絲萬縷的聯繫。
  • 比AlphaGo 更複雜,最強日本麻將 AI 是怎麼煉成的?
    在多數評論裡,Suphx 被稱為「最強日麻人工智慧」。事實上,不止是國內的 B 站,當時 Suphx 的聲名已經傳遍了日本麻將界。神秘的最強日麻 AI2019 年 3 月起,Suphx 獲批進入專業麻將平臺「天鳳」。短短四個月內,Suphx 在該平臺瘋狂對戰 5760 次,成功達到十段,從而在日本麻將界聲名大噪。
  • 俄羅斯,如何對待《鋼鐵是怎樣煉成的》作者奧斯特洛夫斯基?
    本文為歷史領域文章,描述的是今天俄羅斯,如何對待《鋼鐵是怎樣煉成的》的作者,蘇聯作家奧斯特洛夫斯基的歷史往事。>蘇聯作家尼古拉·阿列克謝耶維奇·奧斯特洛夫斯基,創作了著名小說《鋼鐵是怎樣煉成的》。二、《鋼鐵是怎樣煉成的》的愛好者,參觀該博物館今天,蘇聯小說《鋼鐵是怎樣煉成的》的愛好者,在參觀尼古拉·阿列克謝維奇·奧斯特洛夫斯基故居博物館時,除了關於該作家的展覽之外,還可以參觀一個文學展覽,被稱為「文學索契」。
  • 《鋼鐵是怎樣煉成的》讀後感及鋼鐵是怎樣煉成的好詞好句
    鋼鐵是怎樣煉成的是蘇聯作家奧斯特洛夫斯基根據自身經歷寫的人物形象,下面電百科就來介紹下《鋼鐵是怎樣煉成的》讀後感及鋼鐵是怎樣煉成的好詞好句。一、《鋼鐵是怎樣煉成的》簡介尼古拉·奧斯特洛夫斯基(1904—1936)出生於烏克蘭一個普通工人家庭,他的經歷和他的小說《鋼鐵是怎樣煉成的》中的主人公保爾·柯察金,童年因家庭貧困而輟學,小時候飽受欺凌和羞辱。十月革命後,他參加了紅軍,參加了保衛蘇聯政權的鬥爭。
  • DeepMind開源薛丁格方程求解程序:從量子力學原理出發,TensorFlow...
    參考連結:https://journals.aps.org/prresearch/abstract/10.1103/PhysRevResearch.2.033429https://github.com/deepmind/ferminethttps://deepmind.com/blog/article
  • 陳經:Deepmind這次搞定西洋棋,只用了四個小時
    個小時就勝過了西洋棋和日本將棋的最強程序。 這篇文章正在被審核,按Deepmind過去的風格有可能還是投到《自然》去。但這回Deepmind不保密了,直接在arxiv.org公布了全文。前兩篇圍棋AI的文章由於投出來之後有人機大戰,是需要保密。
  • 「絕不打折」的畫啦啦全職教師團隊是怎樣煉成的?
    首頁 > 傳媒 > 關鍵詞 > 畫啦啦最新資訊 > 正文 「絕不打折」的畫啦啦全職教師團隊是怎樣煉成的?
  • DeepMind 星際爭霸AI登刊Nature!RTS遊戲已被AI攻克?
    網絡結構。[2]  朱圓恆,唐振韜,李偉凡,趙冬斌,中科院自動化所深度解析:Deepmind AlphaStar 如何戰勝人類職業玩家,德先生,2019年1月26日,https://mp.weixin.qq.com/s/I_dOxZqFnUf4lrfVOf3W-Q。
  • AlphaFold 2發布背後,DeepMind AI去年巨虧6.49億美元
    今年花錢這麼多,但DeepMind的一位發言人在接受採訪時表示:「在產生這些支出的同時,DeepMind也取得了很多開創性的進展,比如蛋白質結構預測,解決了生物學50年的難題,還和谷歌的團隊合作,以將技術投入大規模現實應用。」
  • DeepMind破解蛋白質摺疊難題
    最新的技術進步已使使用低溫電子顯微鏡生成接近原子解析度的電子密度圖成為可能這些方法依賴於進行大量試驗和改進錯誤,可能需要花費數年的工作時間來完成每個蛋白質結構,並需要使用數百萬美元的專門設備來進行試驗和驗證。
  • DeepMind創始人自述:我們的算法可以橫掃一切棋類博弈
    Alphago的研發團隊是谷歌新近收購的英國人工智慧公司Deepmind,關於Deepmind,國內人工智慧圈人士都有所耳聞,但熟悉者恐怕不多。這究竟是一家什麼樣的公司?Nature 雜誌的記者進入Deep Mind位於英國倫敦的公司內部進行了採訪,視頻來自Nature、後期由黑匣整理:    2011年,傑米斯•哈薩比斯在埃隆•馬斯克等人的投資下,成立了一家人工智慧初創公司DeepMind,現在,這家公司已經變成了世界上最有價值的公司之一。
  • DeepMind 首席科學家獲2019 年 ACM 計算獎,智能體Agent57在所有經典Atari 遊戲中吊打人類
    來源:venturebeat等編輯:夢佳、白峰【新智元導讀】最近,DeepMind發布地表最強遊戲智能體
  • 快來看看,監獄戒毒警察是怎樣煉成的?
    快來看看,監獄戒毒警察是怎樣煉成的? 以黨建促隊建:成立學員隊隊委臨時黨支部,加強新民警隊伍黨的建設,全面提升新民警隊伍的政治素養和黨性修養,把牢隊伍政治方向。 嚴管理展風貌:以鄔勇雷廳長「讓走出去的學員是一個有紀律、守規範的學員」為指導,嚴格執行各項紀律條令,收緊隊伍管理外延,落實保密規定;開展勤儉節約、光碟行動、愛國主義教育等精神文明建設活動,展現新民警優良精神風貌。