Google DeepMind 團隊發布新算法,下一個被 AI 虐哭的是誰?

2021-01-08 CSDN

【CSDN 編者按】2015 年 AlphaGo 出道一年,就戰勝法國二段職業棋手樊麾,2016 年 3 月以 4:1 戰勝韓國國手李世石九段,3 月 14 日,韓國棋院表示 AlphaGo 實力不遜於李世石九段,授予 Alphago 韓國棋院名譽九段證書。AlphaGo 一戰成名,要知道,多少棋手宵衣旰食也到不了九段。同年 12 月,強化版 AlphaGo 化名「Master」,在非正式網絡快棋對戰測試當中取得 60 戰全勝。2017 年 5 月,與中國棋手柯潔九段對戰,全取三分,虐哭柯潔。而且由於此次使用 Google 的 TPU,使得計算資源只有對戰李世石時候的十分之一。要知道,柯潔可不是旁人,是當時世界第一,年紀輕輕,已經手握多項含金量高比賽的冠軍,代表人類最高水平的棋手都無能為力,可見 AlphaGo 真的不是尋常之輩。賽後,中國圍棋協會也授予了 AlphaGo 職業圍棋九段的稱號,棋聖聶衛平更是盛讚 AlphaGo 的水平相當於職業圍棋二十段。賽後,DeepMInd 團隊宣布 AlphaGo 退役,但相關研究不會停止。

作者 | 八寶粥

中國圍棋協會授予 AlphaGo 中國職業圍棋九段稱號

DeepMind 團隊為 AlphaGo 各個版本起了不同名字, 歷數幾代分別稱為 AlphaGo 樊、AlphaGo李、AlphaGo Master,後來還推出了 AlphaGo Zero 和 Alpha Zero 等版本, AlphaGo Zero 及此後版本沒有用到人類數據,通過和自己對戰,訓練三天即可實現極高勝率。在那之後,AlphaGo 團隊獨孤求敗,淡出江湖。此後, DeepMind 在蛋白質摺疊等方面也做出 AlphaFold 等令人矚目的成就。

誰能想到,僅僅淡出了兩年,DeepMInd 團隊帶著 AlphaGo 的後輩——— MuZero 新重出江湖。MuZero 通過自我比賽以及和 AlphaZero 進行比賽,利用多項常規和殘局訓練,實現了算法的升級突破。相關研究成果論文今年 12 月在國際頂級期刊 Nature 上發出(2019年,該文章在預印本平臺發布)。如果此前 AlphaGo 版本是靠著機器學習和算力的一力降十會的話,此次的新算法就是雙手互搏,無師自通,不光如此,MuZero 的 「魔爪」從圍棋伸向了各個領域,包括西洋棋、日本的將棋和 Atari 電子遊戲。你冬練三九夏練三伏,別人一出世就自帶超強自學能力,而且人家全家輸的次數屈指可數,還都是輸給自己人,你說這比賽讓人怎麼打?

平心而論,再早之前 「深藍」就已經深深傷過棋手們的心,各類智力比賽和遊戲當中,圍棋可以說是難度非常高的了,本以為圍棋 324 格棋盤生出千萬般變化能夠守住人類的陣地,結果 AlphaGo 虐哭柯潔, Alpha Zero 還說 「我能自己學」,MuZero 說 「我能自己學,還不需要規則」,就像 AI 世界裡的葉問,一個馬步攤手,豪氣發問:「我要打十個,還有誰?」

如果這次真的有人能上來對陣三招五式的話,可能也只有 AI 本身能對抗 AI了。或者像網友戲謔的那樣,「不讓他聯網」、「拔他電源」。。。。那麼 MuZero 到底是哪路神仙呢?我們一起來看一下:

來自 DeepMind 官網

從上圖可以看出,隨著技術的進化,需要的知識庫(規則)逐漸減少,到 MuZero 直接沒有了,而應用的領域卻逐漸增加, 從圍棋、將棋擴展到 Atari 遊戲。

文章表示,MuZero 和此前的 Alpha Zero 代碼相似,但是 MuZero 無法訪問規則集合,而是將該規則替換成了搜索樹狀態神經網絡,研究人員主要通過以下方法應對 AI 的挑戰,超前搜索和基於模型的計劃。超前搜索已經在西洋棋、撲克等景點遊戲當中取得成功,但是依賴於遊戲規則,這樣的話,對於複雜世界和混亂的現實問題就沒有辦法,因為它們無法提煉成簡化的規則;基於模型的系統旨在學習環境動力學的精確模型, 然後以此進行規劃和學習。不過對於視覺豐富的環境當中依然沒有競爭力。比如遊戲 Atari 當中,最好的結果其實來自於無模型系統。

MuZero 使用另外的方法來克服此前方法的局限性, 它不是對整個環境建模,而是對代理的決策環境或者關鍵方面進行建模。DeepMInd 表示:畢竟,了解雨傘會使您保持乾燥比對空氣中雨滴進行建模更有用。

具體而言, MuZero 對三個元素進行建模,分別是值、策略、獎勵。分別衡量了:當前位置好壞程度、最優策略以及上一步好壞的衡量。通過蒙特卡羅搜索樹,配合動力學函數和預測函數,考慮下一步的動作序列,同時利用了和環境互動時候收集的經驗來訓練神經網絡,在每一步當中保存之前的信息。這個似乎是一種無監督學習內的強化學習。其實它也不能說完全 「無規則」,它唯一的規則其實是我們在下棋當中常說的「走一步、看三步」,不管是什麼遊戲,它都給自己一個這樣的規則。MuZero 就可以反覆發使用學習的模型來改進計劃,而不需要從環境當中重新收集數據。

從項目主要開發者 Julian Schrittwieser 的博客當中,我們還發現了一些有意思的內容。

來自 Julian Schrittwieser 博客

對於作者而言,這些也僅僅都是 「統計」而已,它是從 AlphaGo 和 Alpha Zero 當中集成的策略網絡和價值網絡,每一個網絡都已經非常強大了,考慮策略網絡,就能對於下一步有良好的預判,考慮價值網絡,就能選擇價值最高的行動,結合兩者,當然就更完美了。

ps. 講點你不知道的東西~

為什麼給它取名叫 MuZero 呢?很大程度上來自於日語發音,開發者 Julian 覺得這個和日語夢、以及無的發音相似(為什麼不去學中文啊大哥!);另外他認為這個發音和希臘字母 μ 也很像。Zero 和此前一樣,表示沒有用到人類的數據。所以這個算法可以讀作「木Zero」、"謬Zero"~不過開發者自己的發音是「謬Zero」。

這位小哥也很有意思,來自奧地利,對各種語言都很感興趣,當然也包括一些開發語言。而且努力學日語中~

如果你對 MuZero 感興趣, 不妨可以看看小哥博客裡面推薦的文章 ,教你怎麼利用 Python 搭建自己的 MuZero AI ,說不定也能用 AI 打敗誰(比如街邊下棋的大爺)。

從 AlphaGo 震驚圍棋江湖以來,越來越多的 「唯人能贏」的遊戲開始被 AI 染指,如果此前《星際爭霸II》當中戰勝人類選手還是算力的取勝,MuZero 雙掌互搏就能增長內力、左腳踩右腳就能騰雲這次真的是一次巨大的衝擊。歡迎下方留言,下一個被 AI 虐哭的會是誰呢?

【參考資料】:

1.DeepMind 官方網站:https://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-without-rules

2.論文連結:https://www.nature.com/articles/s41586-020-03051-4.epdf?sharing_token=EA_wFIVEyQh3dl98_9a6-dRgN0jAjWel9jnR3ZoTv0PMSWGj38iNIyNOw_ooNp2BWfDsqz5UnHQ44Ll88UHNBZcs7xTLPmM1RyXHjRA5n5otA0i6Ki3VMiPA4ux0oRPKRbJvg95aN_SHg0rJ4vyRbnX6EO3ELPTQnQmMgeuSmmU%3D

3.2019年預印版論文下載地址:https://arxiv.org/abs/1911.08265

4.開發者 Julian 的個人博客:http://www.furidamu.org/

程式設計師如何避免陷入「內卷」、選擇什麼技術最有前景,中國開發者現狀與技術趨勢究竟是什麼樣?快來參與「2020 中國開發者大調查」,更有豐富獎品送不停!

相關焦點

  • DeepMind新GNN模型,將谷歌地圖預估到達準確率提升50%!
    谷歌地圖也有一套預測算法。但畢竟世界是動態的,每天的狀況都有可能不同,特別是疫情期間。例如,儘管上下班尖峰時間都會發生在早上、晚上,但具體的確切時間可能每天、每月都有很大差異;一條小巷的擁堵,就會蔓延到下一個大路——這一點,地圖往往無法實時監控;另外,道路質量、限速、事故和封路等因素,都會給預測模型帶來麻煩。
  • 深度學習之Google Deepmind的Alphago人工智慧算法技術演變歷程
    最近大家比較關心的圍棋人機大戰(Alphago vs 李世石)中,deep mind基於Nature2016文章的Alphago在5局制的比賽中已經取得了4-1的獲勝。這兩篇文章都是蒙特卡洛搜索樹+DCNN,效果Google的Alphago優於facebook的方法,剛好藉此機會將之前看到的deep mind該領域的文章捋了一下。
  • DeepMind推出蛋白質結構預測算法,大勝人類傳統模型!
    DeepMind團隊使用的方法都以深度神經網絡為基礎,來從基因序列中預測蛋白質的兩種物理性質:胺基酸對之間的距離及連接這些胺基酸的化學鍵之間的角度。首先,研究小組訓練了一個深度神經網絡,來預測蛋白質中每對胺基酸殘基之間距離的分布情況。然後,研究人員將這些數值轉化為評分,來對蛋白質結構的精確程度進行評估。
  • 從AlphaGo到蛋白質摺疊,Deepmind在不斷捅破AI領域的天花板!
    #近日,又一世紀級難題被AI迎刃而解:谷歌旗下子公司Deepmind通過AI建立的算法模型,成功精準預測了蛋白質的摺疊方式,這將對人類了解重要的生物學過程和治療新冠等疾病起到十分關鍵的作用。Deepmind最初由三名科學家聯合創辦,就像其創始人兼CEO哈薩比斯(Demis Hassabis)所說的,它的性質更像一個科技研究院而不是創業公司,因為公司一開始並沒有任何產品,而是一直在通過遊戲來研究人工智慧算法。在被谷歌收購前,Deepmind通過人工智慧的無監督學習算法打爆了57個atari遊戲,即八九十年代國內也很流行的小霸王卡帶遊戲。
  • 向李昌鈺學破案,這是Deepmind預測蛋白質結構的秘密研究方法嗎?
    可能在社會責任感的感召下,人工智慧公司想在人類急需前沿科技的領域創造一些有價值、有意義的事情,比如生命科學。眾所周知,全世界頂級的圍棋選手人工智慧阿法狗之父,Deepmind公司最近又因為在生命科學領域的成就,上了科技界的熱搜榜。這個小成就就是,新的算法AlphaFold 可以僅根據基因預測生成蛋白質的三維形狀。
  • AlphaGo背後團隊Deepmind有多牛 核心團隊成員資料介紹
    在今天賽後的發布會上,AlphaGo的靈魂人物戴密斯·哈薩比斯再度強調,團隊所努力的方向並不是提升硬體能力,而是改進算法。眾所周知,此前也曾與人類對弈的機器人「深藍」靠的是窮舉這種笨方法。可AlphaGo卻代表了一種新的技術方向——讓機器真正地能夠去「學習」。
  • AlphaGo之後,DeepMind重磅推出AlphaFold:基因序列預測蛋白質結構
    「我們的目標從來就不是贏得圍棋或雅達利比賽的勝利,而是開發能夠解決蛋白質摺疊這類問題的算法,」Hassabis 表示。比賽的目的是根據胺基酸列表來預測蛋白質的結構,這些胺基酸列表會在幾個月內每隔幾天發送給參賽團隊。這些蛋白質的結構最近已經通過費力又費錢的傳統方法破解,但還沒有公開。提交最準確預測的團隊將獲勝。
  • 吳恩達悄然發布 AI 維基,另外他的技術崗已經招滿了-虎嗅網
    吳恩達又有新動作。wiki首先來說第一個。這個長假期間,吳恩達團隊在deeplearning.ai上悄然發布了一個新項目:AI維基百科。這個維基百科還向學習者們發出號召:一起來貢獻內容。想要訪問這個維基,可以直接通過網址:http://wiki.deeplearning.aicareers還有另一個變化。長假期間,你是否還曾替人糾結每周工作70+小時值不值?
  • Deepmind新一代AlphaGo Zero自學3天打敗AlphaGo
    今天凌晨,谷歌旗下Deepmind人工智慧團隊發布了一篇轟動AI界的論文,《Mastering the game of Go without human knowledge》(在沒有人類知識的情況下掌握圍棋),一句話總結這篇論文,他們研發的AlphaGo大表哥AlphaGo Zero能夠在沒有人類圍棋對弈數據的情況下
  • DeepMind開源AlphaFold,蛋白質預測模型登上《Nature》
    對於DeepMind的預測方法,由於當時沒有具體論文發布,眾多學者認為是計算能力突出使得AlphaFold獲得冠軍。代碼:https://github.com/deepmind/deepmind-research/tree/master/alphafold_casp13模型:https://www.biorxiv.org/content/10.1101/846279v1.full.pdf根據DeepMind的介紹,在預測蛋白質結構的物理性質方面使用了兩種不同的方法來構建預測模型
  • 谷歌DeepMind 的可微分神經計算機 DNC 怎麼樣?看 Facebook AI...
    那麼我們究竟該如何看待谷歌 Deepmind 團隊最新發布的可微分神經計算機 DNC 呢?果然,已經有人在知乎上提出這個問題。編者註:該知乎提問中「谷歌deeplearning團隊」實際上應該指的是「谷歌Deepmind團隊」。
  • ...DeepMind AI解決生物學50年來重大挑戰,破解蛋白質分子摺疊問題
    本周Google旗下人工智慧企業DeepMind發布了最新 AlphaFold成果,這是全球AI界無比振奮的重大科研突破。蛋白質存在於我們世界中的所有有機物體及奧妙人體中,全新的AlphaFold 算法揭秘了生物學界50年來試圖破解蛋白質分子摺疊的難題,這項AI帶來的重大突破,將幫助科學家弄清某些困擾人們的疾病機制、加速找出新型流行病的具體原因(比如今年的全球新冠大流行),促進新藥設計、幫助農業增產、解析可有效降解廢棄物的嶄新成分、甚至探索為大氣減碳的全新解決方案。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年...
    這意味著AlphaFold預測的平均誤差(RMSD)僅為1.6 埃(1埃等於0.1nm),相當於一個原子的寬度。AlphaFold背後的AI機制摺疊的蛋白質可以看作是一個「空間圖形」,其中殘基是節點和邊緊密連接在一起。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年巨大挑戰
    但一個現實挑戰是,蛋白質的3D結構在形成之前會有數以億計的摺疊方式。美國分子生物學家Cyrus Levinthal指出,如果用蠻力來計算蛋白質所有可能的構型所需要的時間可能比宇宙的時間都要長,一個典型的蛋白質可能有10∧300種可能的構型。因此,從1972年至今,如何準確預測蛋白質的摺疊方式一直是生物學界的一項重大挑戰。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年巨大挑戰
    但一個現實挑戰是,蛋白質的3D結構在形成之前會有數以億計的摺疊方式。美國分子生物學家Cyrus Levinthal指出,如果用蠻力來計算蛋白質所有可能的構型所需要的時間可能比宇宙的時間都要長,一個典型的蛋白質可能有10∧300種可能的構型。因此,從1972年至今,如何準確預測蛋白質的摺疊方式一直是生物學界的一項重大挑戰。
  • Deepmind AMA:關於最強ALphaGo如何煉成的真心話,都在這裡了!
    AMA一般會約定一個時間,並提前若干天在Reddit上收集問題,回答者統一解答。本次Deepmind AMA的回答人是:深層次的增強學習是不穩定和容易遺忘的,自我對局也是不穩定和容易遺忘的,如果沒有一個好的基於模仿的初始化狀態和歷史檢查點,二者結合在一起應該是一個災難...但Zero從零開始,我沒有看到論文中有這部分的內容,你們是怎麼做到的呢?David Silver:在深層增強學習上,AlphaGo Zero與典型的無模式算法(如策略梯度或者Q學習)採用的是完全不同的算法。
  • AI巨頭實力排名新鮮出爐:DeepMind第一,IBM墊底
    結合之前Yann LeCun關於幾家公司誰的AI最強的回答,可以對全球 AI 實力分布有一個比較好的理解。這還不包括 Deepmind 或谷歌其他團隊(搜索團隊、VR、Photos團隊等)的論文。雖然比較被接收的論文數量不是很好的指標,但我想消除那些暗示谷歌大腦不是深度學習研究的好地方的說法。谷歌大腦也是擁有很強協作靈活性的產業研究組織。
  • DeepMind宣布解決蛋白質摺疊問題,獲92.4準確性得分
    原來是結構生物學,迎來了一個「革命性」的突破。△圖源:Deepmind參考連結:https://deepmind.comalphafold-a-solution-to-a-50-year-old-grand-challenge-in-biologyhttps://www.nytimes.com/2020/11/30/technology/deepmind-ai-protein-folding.html
  • DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來啦?
    教學工具並不是告訴大家「只能這麼下」,而是告訴大家「有些下法不太好」以及「可以這麼下」。有些圖中沒有的下法只是因為模擬的隨機性而未被收錄,它們之中包含很多高勝率的選點,仍可以大膽嘗試。此外,今年五月份被 AlphaGo Master 打敗的柯潔第一時間轉發微博表示「重新學圍棋。」(還用了一個賤賤的 doge 表情)而這個工具到底好不好用,大家可以去自行體驗。
  • DeepMind 團隊:我們希望AlphaGo 的故事僅僅只是一個開始!
    【TechWeb報導】5月29日消息,隨著人機圍棋大戰的結束,DeepMind團隊也發布博客,公布了AlphaGo的下一步。在公開的博文中,DeepMind團隊稱,我們始終堅信 A.I. 擁有幫助全社會探索新知識的潛能,並讓我們從中受益。博文中還表示,而 AlphaGo 則讓我們真切的感受到了這一點。