AlphaGo Zero幕後開發心路歷程大公開!DeepMind資深研究員黃士傑最新演講解密

2021-01-20 專知

【導讀】11月10日，黃士傑應臺灣人工智慧年會之邀來臺演講，演講主題是「AlphaGo——深度學習與強化學習的勝利」，也是他首次公開演講。不久前，在DeepMind發表了《Mastering the game of Go without humanknowledge》的最新論文後，黃士傑曾在Facebook寫下：AlphaGo Zero是完全脫離人類知識的AlphaGo版本。在演講上，他強調，DeepMind的目標是要做出一個通用人工智慧，也就是強人工智慧，但他也認為，對DeepMind來說，強人工智慧還是很遙遠，現在最強的學習技能仍然在人類大腦內，有人說強人工智慧要到2045年，有人說至少還要100年，黃世傑的回答是：大家不要太擔心，電影還是電影。

黃士傑：Research Scientist / Google DeepMind

AlphaGo首席工程師。畢業於國立臺灣師範大學信息工程研究所，現在是Google DeepMind的資深研究員。

2016年，Google旗下DeepMind公司開發的AlphaGo擊敗了韓國職業九段棋士李世石。

今年5月，AlphaGo以三戰全勝的紀錄贏了名列世界第一的棋王柯潔。隔了五個月後，DeepMind公布了AlphaGo Zero，它再度讓人類感到震撼。

「我沒有想過一個名詞能獲得所有人的認同，從政治人物、科學家、企業家、到學生甚至是小孩，都覺得這件事明天會發生，這場完美風暴的引爆點是AlphaGo，黃士傑可能自己都沒想過，他那隻幫機器下棋的手，改變這個世界：讓大家相信或者憂慮機器會超越人類」，Google臺灣董事總經理簡立峰說。

人工智慧，是簡立峰口中的完美風暴，AlphaGo則是這一波AI風潮的最佳代言人，那麼，黃士傑呢？

相信DeepTech的讀者們已經對這個名字並不陌生，他是DeepMind資深研究員，是與人類頂尖棋手對弈時代AlphaGo執棋的「人肉臂」，更重要的是，他還是開發這個神秘大腦的關鍵人物之一。

11月10日，黃士傑應臺灣人工智慧年會之邀來臺演講，演講主題是「AlphaGo——深度學習與強化學習的勝利」，也是他首次公開演講。

不久前，在DeepMind發表了《Mastering the game of Go without humanknowledge》的最新論文後，黃士傑曾在Facebook寫下：AlphaGo Zero是完全脫離人類知識的AlphaGo版本。這也就是取名為AlphaGo Zero的原因——AlphaGo從零開始。

在今天的演講上，他強調，DeepMind的目標是要做出一個通用人工智慧，也就是強人工智慧，但他也認為，對DeepMind來說，強人工智慧還是很遙遠，現在最強的學習技能仍然在人類大腦內，有人說強人工智慧要到2045年，有人說至少還要100年，黃世傑的回答是：「大家不要太擔心，電影還是電影。」

從DeepMind為什麼開始做圍棋一直到最新的AlphaGo Zero，見證了這一切的他稱「這幾年好像在做夢」。

以下為演講內容整理（原文略有刪改）：

AlphaGo－深度學習與強化學習的勝利

▌人因夢想而偉大

【人因夢想而偉大】，是我加入（DeepMind）五年之後最大的體會，這段經歷對我個人最大的影響就是整個人對AI的認識不斷加深。

DeepMind團隊臥虎藏龍，精神非常強，當AlphaGo結束時，我的老闆過來跟我說：【Aja（黃士傑英文名），AlphaGo已經完成所有一切我們希望它該完成的任務，所以我們要再往前邁進】。這群高手都有一個清楚的遠大目標，就是做出通用人工智慧——解決A I，把世界變得更好。

我從小就喜歡下棋，棋藝業餘六段，再往上就是職業等級。回顧加入DeepMind這五年及AlphaGo的發展歷史，有四件事對我意義非常大，第一件是在韓國贏了李世石，那天Demis Hassabis（DeepMind的CEO）在推特上寫著：贏了，AlphaGo登上月球。

我們最初沒想過會做出這麼強的AlphaGo，當初是抱持著「探索」的心理開始的。開發過程很辛苦，連過聖誕節時，AlphaGo都還在自我對弈，同事也都還在工作。所以對我們來說，AlphaGo贏了就像阿姆斯特朗登上月球一樣：「這是我的一小步，卻是人類的一大步。

第二件是操作AlphaGo Master在網絡取得60連勝，第三是在中國烏鎮比賽打贏柯潔。我參加了兩次人機大戰，兩次的氣氛都非常不一樣。

在韓國時，我們都可以深深感受到李世石的巨大壓力，感覺他是為人類而戰，第二次在烏鎮的氣氛倒是滿愉快，大家是一種建設性而不是對抗性的氣氛。

第四件事就是AlphaGo Zero誕生，DeepMind把所有人類圍棋知識拋棄掉，只給規則讓它從頭開始學。

我回想起我在師大念博士班開發Erica圍棋電腦程式，每天寫程序、解Bug、做測試到半夜的日子，但AlphaGo Zero把我之前做的這些事全部取代，完全不需要我的協助。

於是有同事問我，AlphaGo Zero把你過去十幾年在計算機上做的研究一點一點的拿掉，還遠遠超越你，你有什麼感覺？一開始我心情有點複雜，但後來想想這是「趨勢」。

如果我讓AlphaGo有所阻礙的話，那我確實應該被拿掉，AlphaGo 99%的知識經我之手，它到達這一步其實是我從事計算機圍棋研究的非常好的收尾，我已經非常滿足了。

▌開發Erica，獲邀加入DeepMind

AlphaGo怎麼開始的？其實是三組人馬走在一起、串起來的結晶，第一條線是DemisHassabis和DeepMind AlphaGo項目負責人David Silver，第二條線是我，第三條線是Google Brain的兩位人員Chris Maddison和Ilya Sutskever。

Demis Hassabis和David Silver是在劍橋大學的同學，他們一起創業。他們為什麼想做圍棋呢？當年IBM深藍贏了西洋棋世界冠軍卡斯巴羅夫，就只剩下圍棋是人工智慧最大的挑戰。因此他們一直就希望做出很強的圍棋程序，這是他們的夢想。一開始，研究人員是將西洋棋的技術放進圍棋，但這失敗了，2006年蒙特卡洛樹出來之後，圍棋程序提升到業餘三段，但離職業水平還是有極大的差距。

當我開發出的Erica在2010年的計算機奧林匹亞獲得19路圍棋的冠軍時，我使用的硬體是8 cores，Zen用了6臺PC，美國的Many Faces of GO是用12 cores，其他對手都是用大機器，但小蝦米卻贏了大鯨魚。不久，DemisHassabis就寫了一封信問我要不要加入，面試時他們告訴我，他們的夢想就是強人工智慧。隔年我就加入DeepMind。當我們開始做GO Project時，大家都有一個共識——不複製Erica，因為沒有意義，我們決定要把深度學習應用進來。

▌AlphaGo的成功是深度學習與強化學習的勝利

我們怎麼判斷深度學習可能可以用在圍棋呢？如果說，人看一個棋盤，幾秒內大概可以知道下這裡、下那裡會是好棋，這種任務神經網絡就辦得到，但如果要想好幾分鐘後怎麼走，那神經網絡就可能辦不到。當初我們就有這麼一個直覺：要以深度學習建構策略網絡。

AlphaGo的主要突破是價值網絡，有一天，David Silver跟我說他有這樣一個想法，當時我還有點質疑。我們把策略網絡做出來後，勝率就提高到70～80%，後來加入了David Silver提出的價值網絡，要讓機器進行不斷左右互搏的自我學習，一開始不太成功，過了一個月我們克服over fitting的問題後，AlphaGo的勝率大大提升到95%，而這也是後面AlphaGo Zero的主要核心。

後來老闆就說，要跟人類面對面下棋，就得跟樊麾老師比賽。我記得，當樊麾第二盤棋輸了之後，他就說：我要出去走走，因為現場只有我和他說中文，我就說：我陪你，他回答：不用，我自己透透氣。樊麾回來後，他變得很正面，他不覺得這東西很可怕，而是很正面也很值得期待，因此他後來也變成DeepMind團隊的一員。再後來，我們選擇公開發表這個研究的論文，因為科學的精神就是互相分享，希望推動整個研究領域進步。之後，加入Google也為我們帶來很大幫助，特別是硬體上，從GPU到TPU都沒有後顧之憂。但TPU對我們有極大幫助，把勝率提高了很多。

另外，大家不要忘記，AlphaGo在跟李世石比賽時，第四盤棋輸的很慘，我當時想說，我自己來下都比較好。儘管最後我們贏了，但回去後就一定要解決這個弱點，不是只解決當初第四盤的弱點，必須全面性地解決，否則以後還是沒有人敢用AI系統。進化後的版本就是AlphaGo Master。

我們到底怎麼解決呢？還是用深度學習跟強化學習的方法，而不是用人類知識方法。

1.我們把AlphaGo的學習能力變強，從神經網絡加深：從13層變成了40層，並改成ResNet。

2.把2個網絡（決策網絡、價值網絡）結合成1個網絡，讓AlphaGo的直覺和判斷同時得到訓練，更有一致性。

3.改進訓練的pipeline。

4.解決了模仿期、循環期等特別情況。

▌超越以往的AlphaGo Zero

AlphaGo Zero是連我們自己都很驚訝的版本，因為它第一步就是把所有人類知識的部分都拋掉，它是脫離「人類知識」，不是脫離「規則知識，我們一樣是給要它19X19的盤面訓練。

從零開始的AlphaGo還真的是全部亂下、徹底亂下，所以最初我們預期AlphaGo Zero應該是贏不了AlphaGo Master，後來我們用了一些方法把卡住的地方解決了，細節可以參考論文，沒想到AlphaGoMaster進一步超越原先的版本，3天就走完人類幾千年圍棋研究的歷程。深度學習跟強化學習的威力真是太大。

AlphaGo Zero用了2000個TPU、訓練了40天。第40天還沒有到達其極限，但因為我們機器要做其他事情就停下了，所以它還有很大的潛質。AlphaGo Zero論文的目的不是要做出很強的程序，也沒有想要跟人類知識比較、或是討論人類知識有沒有用這些問題，而是想證明程序不需要人類知識也可以擁有很強的能力。

我觀察到，計算機圍棋AI的價值在於幫助人類或棋手擴展圍棋的理論和思路，未來AI是人類的工具，跟人類合作，而非跟人類對抗。強人工智慧還是Far Away，現在最強的學習技能仍在人類的腦袋裡。

以上就是黃士傑的演講內容。

總結

David Silver曾指出：」AlphaGo已經退役了。這意味著我們將人員和硬體資源轉移到其他AI問題中，我們還有很長的路要走」。大家都在關注未來DeepMind下一個鎖定的領域，而在會議上，黃士傑沒有透露太多，但強調「讓世界變得更好」，就是DeepMind的終極目標。

至於是否可能將AlphaGo Zero開源？黃士傑的回答是目前公司沒有這種想法，論文其實寫得很清楚，之後大家也可以進一步優化算法。

和此前的AlphaGo版本相比，AlphaGo Zero的主要成果如下：

1.AlphaGo Zero從零開始自我學習下圍棋。

2.僅僅36小時後，AlphaGo Zero靠著自我學習，就摸索出所有基本且重要的圍棋知識，達到了與李世石九段對戰的AlphaGo v18（也就是AlphaGo Lee）的相同水平。

3.3天後，AlphaGo Zero對戰AlphaGo v18達到100%的勝率。

4.不斷進步的AlphaGo Zero達到了Master的水平。Master即年初在網路上達成60連勝的AlphaGo版本。

5.40天後，AlphaGo Zero對戰Master達到近90%勝率，成為有史以來AlphaGo棋力最強的版本。

過去，DeepMind在訓練AlphaGo時，先讓機器看20~30萬個棋譜，累積一定的人類知識後開始進行自我對弈，自我對弈到達一定程度後機器就有機會贏過人類，因為機器可以在數個禮拜內就下幾百萬盤，它的經驗比人多得多。黃士傑指出：「AlphaGo成功的背後是結合了深度學習（Deep Learning）、強化學習（Reinforcement learning）與搜索樹算法（Tree Search）三大技術。」

簡單來說，當時的AlphaGo有兩個核心：策略網絡（Policy Network）、評價網絡（Value Network），這兩個核心都是由卷積神經網絡所構成。具體而言，首先是大量的棋譜被輸入到「策略網絡」中，機器會進行監督式學習，然後使用部分樣本訓練出一個基礎版的策略網絡，以及使用完整樣本訓練出進階版的策略網絡，讓這兩個網絡對弈，機器通過不斷新增的環境數據調整策略，也就是所謂的強化學習。而「策略網絡」的作用是選擇落子的位置，再由「評價網絡」來判斷盤面，分析每個步數的權重，預測遊戲的輸贏結果。當這兩個網絡把落子的可能性縮小到一個範圍內時，機器計算需要龐大運算資源的負擔減少了，再利用蒙特卡洛搜索樹於有限的組合中算出最佳解。

不過，到了AlphaGo Zero，DeepMind則是讓它「腦袋空空」——沒有輸入任何棋譜，讓機器自己亂玩。

也就是說，從一個不知道圍棋遊戲規則的神經網絡開始，沒有任何人類指導或人類智能的參與，僅僅通過全新的強化學習算法，讓程序自我對弈，自己成為自己的老師，在這過程中神經網絡不斷被更新和調整。

沒想到的是，機器訓練的時間更短，但卻更聰明，例如，AlphaGo Zero在3天內進行過490萬次自我對弈，就達到了先前擊敗李世石的程度，但之前他們訓練與李世石對戰的AlphaGo卻花費了長達數個月的時間。

另外，AlphaGo Zero 21天就達到了在烏鎮圍棋峰會打敗柯潔的AlphaGo Master的水平。

關於臺灣人工智慧年會——

現今人工智慧系統的關鍵技術為深度學習，而深度學習和所有的機器學習技術一樣，都必須依賴訓練數據才能建構出好的深度／機器學習模型。也因此，人工智慧和數據科學唇齒相依－沒有數據科學，就沒有人工智慧；但同時人工智慧可說是數據科學最重要的應用之一。

因此，由2017年開始，臺灣數據科學協會由臺灣數據科學年會衍生獨立出臺灣人工智慧年會，著重在推廣人工智慧的認知、技術及應用。人工智慧年會的議題包含實現人工智慧的方法以及面對人工智慧技術所帶來的問題，例如深度學習、自然語音處理、電腦視覺等技術以及人工智慧在製造、金融、醫療、農業、零售等所有領域的應用議題。我們期待能透過演講、課程、心得分享、經驗交流等各種形式，將對於人工智慧的正確認知傳達給大眾，讓人工智慧不只是一個流行術語，而是能真實幫助臺灣產業升級，生活素質提升，並且讓社會永續的重要科技。我們鼓勵本土的技術深耕，而不是跟上潮流的安慰，因此將把人工智慧年會打造臺灣所有人工智慧技術專家的舞臺及交流場域，讓臺灣在全球人工智慧技術的快速發展洪流中不落人後，能佔有一席之地。

網址：http://datasci.tw/

請關注專知公眾號（掃一掃最下面專知二維碼，或者點擊上方藍色專知），

歡迎轉發到你的微信群和朋友圈，分享專業AI知識！

請登錄專知，獲取更多AI知識資料，請PC登錄www.zhuanzhi.ai或者點擊閱讀原文，註冊登錄，頂端搜索主題，查看獲得對應主題專知薈萃全集知識等資料！如下圖所示~

專知薈萃知識資料全集獲取（關注本公眾號-專知，獲取下載連結），請查看：

【專知薈萃01】深度學習知識資料大全集（入門/進階/論文/代碼/數據/綜述/領域專家等）（附pdf下載）

【專知薈萃02】自然語言處理NLP知識資料大全集（入門/進階/論文/Toolkit/數據/綜述/專家等）（附pdf下載）

【專知薈萃03】知識圖譜KG知識資料全集（入門/進階/論文/代碼/數據/綜述/專家等）（附pdf下載）

【專知薈萃04】自動問答QA知識資料全集（入門/進階/論文/代碼/數據/綜述/專家等）（附pdf下載）

【專知薈萃05】聊天機器人Chatbot知識資料全集（入門/進階/論文/軟體/數據/專家等）(附pdf下載)

【專知薈萃06】計算機視覺CV知識資料大全集（入門/進階/論文/課程/會議/專家等）(附pdf下載)

【專知薈萃07】自動文摘AS知識資料全集（入門/進階/代碼/數據/專家等）(附pdf下載)

【專知薈萃08】圖像描述生成Image Caption知識資料全集（入門/進階/論文/綜述/視頻/專家等）

【專知薈萃09】目標檢測知識資料全集（入門/進階/論文/綜述/視頻/代碼等）

【專知薈萃10】推薦系統RS知識資料全集（入門/進階/論文/綜述/視頻/代碼等）

【專知薈萃11】GAN生成式對抗網絡知識資料全集（理論/報告/教程/綜述/代碼等）

【專知薈萃12】信息檢索 Information Retrieval 知識資料全集（入門/進階/綜述/代碼/專家，附PDF下載）

【專知薈萃13】工業學術界用戶畫像 User Profile 實用知識資料全集（入門/進階/競賽/論文/PPT，附PDF下載）

【專知薈萃14】機器翻譯 Machine Translation知識資料全集（入門/進階/綜述/視頻/代碼/專家，附PDF下載）

請掃描小助手，加入專知人工智慧群，交流分享~

-END-

歡迎使用專知

專知，一個新的認知方式! 專注在人工智慧領域為AI從業者提供專業可信的知識分發服務, 包括主題定製、主題鏈路、搜索發現等服務，幫你又好又快找到所需知識。

使用方法>>訪問www.zhuanzhi.ai, 或點擊文章下方「閱讀原文」即可訪問專知

中國科學院自動化研究所專知團隊

@2017 專知

AlphaGo Zero幕後開發心路歷程大公開!DeepMind資深研究員黃士傑最新演講解密

相關焦點

AlphaGo人肉臂黃士傑:Zero版阿法狗未達極限

AlphaGo 圍棋教學工具已發布

DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來啦?

別了,AlphaGo之魂——黃士傑

深度學習之Google Deepmind的Alphago人工智慧算法技術演變歷程

演員秋瓷炫最新畫報公開袒露在韓國活動的心路歷程

Deepmind新一代AlphaGo Zero自學3天打敗AlphaGo

從AlphaGo到蛋白質摺疊,Deepmind在不斷捅破AI領域的天花板!

AlphaGo之後,DeepMind重磅推出AlphaFold:基因序列預測蛋白質結構

Deepmind Nature論文揭示最強AlphaGo Zero

獨家專訪「AlphaGo之手」黃士傑:機器是沒有感情的,而我會微笑 : )

谷歌DeepMind首度放出紀錄電影《AlphaGo》預告片

【一文打盡 ICLR 2018】9大演講,DeepMind、谷歌最新乾貨搶鮮看

Deepmind AMA:關於最強ALphaGo如何煉成的真心話,都在這裡了!

生物版AlphaGo發威!DeepMind抗疫:預測新冠病毒相關蛋白結構

不只是AlphaGo,谷歌DeepMind到底是何方神聖?

「人肉臂」黃士傑離開,AlphaGo死了?

谷歌DeepMind 的可微分神經計算機 DNC 怎麼樣?看 Facebook AI...

AlphaFold抗疫,DeepMind公布六種新冠病毒蛋白質結構預測結果

黃士傑博士:我的使命完成阿爾法狗項目結束

AlphaGo Zero幕後開發心路歷程大公開!DeepMind資深研究員黃士傑最新演講解密

相關焦點

AlphaGo人肉臂黃士傑:Zero版阿法狗未達極限

AlphaGo 圍棋教學工具已發布

DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來啦?

別了,AlphaGo之魂——黃士傑

深度學習之Google Deepmind的Alphago人工智慧算法技術演變歷程

演員秋瓷炫最新畫報公開 袒露在韓國活動的心路歷程

Deepmind新一代AlphaGo Zero自學3天打敗AlphaGo

從AlphaGo到蛋白質摺疊,Deepmind在不斷捅破AI領域的天花板!

AlphaGo之後,DeepMind重磅推出AlphaFold:基因序列預測蛋白質結構

Deepmind Nature論文揭示最強AlphaGo Zero

獨家專訪「AlphaGo之手」黃士傑:機器是沒有感情的,而我會微笑 : )

谷歌DeepMind首度放出紀錄電影《AlphaGo》預告片

【一文打盡 ICLR 2018】9大演講,DeepMind、谷歌最新乾貨搶鮮看

Deepmind AMA:關於最強ALphaGo如何煉成的真心話,都在這裡了!

生物版AlphaGo發威!DeepMind抗疫:預測新冠病毒相關蛋白結構

不只是AlphaGo,谷歌DeepMind到底是何方神聖?

「人肉臂」黃士傑離開,AlphaGo死了?

谷歌DeepMind 的可微分神經計算機 DNC 怎麼樣?看 Facebook AI...

AlphaFold抗疫,DeepMind公布六種新冠病毒蛋白質結構預測結果

黃士傑博士:我的使命完成 阿爾法狗項目結束

演員秋瓷炫最新畫報公開袒露在韓國活動的心路歷程

黃士傑博士:我的使命完成阿爾法狗項目結束