超越AlphaZero,DeepMind新算法MuZero登頂Nature

2021-01-16 IAASET

來源：智源社區

2016年，DeepMind 推出了第一個人工智慧程序 AlphaGo，在圍棋遊戲中擊敗人類。兩年後，它的繼任者AlphaZero從零開始學習圍棋、西洋棋和將棋。

現在，在《自然》雜誌的一篇論文中，DeepMind又帶來了 MuZero，這是在尋求通用人工智慧算法方面邁出的重要一步。

由於它能夠在未知環境中計劃勝利的策略，MuZero 掌握圍棋、西洋棋、shogi 和 Atari ，而不需要被告知遊戲規則。

一直以來，構建具有規劃能力的智能體是人工智慧領域的主要挑戰之一。此前，基於樹的規劃方法在西洋棋與圍棋等領域取得了巨大的成功。然而，在現實世界中，控制環境的動態變化（dynamics）通常是複雜且不可知的。因此，DeepMind團隊提出了MuZero算法，通過將基於樹的搜索與經過學習的模型相結合，可以在一系列具有挑戰性和視覺複雜的領域中，無需了解基本的動態變化即可實現超越人類的出色性能。

MuZero算法學習可迭代模型，該模型能夠產生與規劃相關的預測，包括動作選擇策略、價值函數和獎勵。據報導，在57種不同的Atari遊戲上進行評估時，MuZero算法獲得了最先進的性能。下圖是DeepMind遊戲AI的進化路徑。

AlphaZero 已經應用於化學、量子物理等領域的一系列複雜問題。而 MuZero 強大的學習和規划算法背後的理念，可能為應對機器人技術、工業系統以及其它遊戲規則尚不為人知的混亂現實環境中的新挑戰鋪平了道路。

谷歌AI啟動敏感話題審查，要求研究員在論文中「保持積極態度」

日前，來自路透社的一則報導稱，Google AI部門要求其研究人員在人工智慧的論文中給出「樂觀態度」的基調。這主要來自對包括面孔、性感分析，以及性別、種族、意識形態等在內的敏感話題類的研究論文增加的一道審查，在此之前研究人員還需要先諮詢法律、政策和公司的公關部門。該規定其中有一頁這樣寫道：「技術的進步和外部日益複雜的環境情況，導致看似有冒犯性的研究項目引發道德、聲譽、法律法規等問題。」

路透社稱，現無法確定詳細頒發日期，根據已知的三名現任員工給出的信息來看該規定始於今年6月。此外，員工還被多次要求「不要以消極的態度闡述技術」。比如，負責推薦算法論文的研究人員被告知「要格外小心，表現出積極的語氣」，該推薦算法主要用於YouTube等平臺上的內容進行個性化推薦。最終，該作者採取的措施為「將論文中有關谷歌產品的所有引用全部刪除」。

路透社還寫道，另一篇有關語言理解算法的論文「淡化了對Google Translate這一產品出錯的引用」，進行修改是為了響應審核人員的要求。

著作權歸原作者所有，轉載僅為學術分享，侵權刪。

相關焦點

Google DeepMind 團隊發布新算法,下一個被 AI 虐哭的是誰?

誰能想到，僅僅淡出了兩年，DeepMInd 團隊帶著 AlphaGo 的後輩——— MuZero 新重出江湖。MuZero 通過自我比賽以及和 AlphaZero 進行比賽，利用多項常規和殘局訓練，實現了算法的升級突破。相關研究成果論文今年 12 月在國際頂級期刊 Nature 上發出（2019年，該文章在預印本平臺發布）。
AlphaZero:從小白開始制霸多個遊戲

日本將棋程序也是將棋專用的，使用類似於西洋棋程序的搜尋引擎和算法。而 AlphaZero 採用了一種完全不同的方法，它用深度神經網絡和通用算法取代了這些人工制定的規則，這些網絡和算法的初始狀態只知道基本規則。
DeepMind開源AlphaFold,蛋白質預測模型登上《Nature》

1月15日，DeepMind關於AlphaFold模型與代碼通過了同行評審發布在了雜誌《nature》上面。並且模型和代碼已經開源。代碼：https://github.com/deepmind/deepmind-research/tree/master/alphafold_casp13模型：https://www.biorxiv.org/content/10.1101/846279v1.full.pdf根據DeepMind的介紹，在預測蛋白質結構的物理性質方面使用了兩種不同的方法來構建預測模型
深度學習之Google Deepmind的Alphago人工智慧算法技術演變歷程

最近大家比較關心的圍棋人機大戰（Alphago vs 李世石）中，deep mind基於Nature2016文章的Alphago在5局制的比賽中已經取得了4-1的獲勝。這兩篇文章都是蒙特卡洛搜索樹+DCNN，效果Google的Alphago優於facebook的方法，剛好藉此機會將之前看到的deep mind該領域的文章捋了一下。
AlphaZero誕生一周年:登上Science封面,完整論文首次公開

20年前與深藍對弈的加裡卡斯帕羅夫DeepMind博文連結：https://deepmind.com/blog/alphazero-shedding-new-light-grand-games-chess-shogi-and-go/DeepMind提到，傳統的西洋棋引擎，包括20年前的深藍，多依賴於數千個強大的人類玩家輔助的規則，嘗試解釋遊戲中的所有可能性。
終極版AlphaGo,DeepMind新算法MuZero作者解讀

為慶祝Muzero論文在Nature上的發表，我特意寫了這篇文章對MuZero算法進行詳細介紹，希望本人能讓你對該算法有一個直觀的了解。更多詳細信息請閱讀原文。MuZero是令人振奮的一大步，該算法擺脫了對遊戲規則或環境動力學的知識依賴，可以自行學習環境模型並進行規劃。
從AlphaGo到蛋白質摺疊,Deepmind在不斷捅破AI領域的天花板!

#近日，又一世紀級難題被AI迎刃而解：谷歌旗下子公司Deepmind通過AI建立的算法模型，成功精準預測了蛋白質的摺疊方式，這將對人類了解重要的生物學過程和治療新冠等疾病起到十分關鍵的作用。Deepmind最初由三名科學家聯合創辦，就像其創始人兼CEO哈薩比斯（Demis Hassabis）所說的，它的性質更像一個科技研究院而不是創業公司，因為公司一開始並沒有任何產品，而是一直在通過遊戲來研究人工智慧算法。在被谷歌收購前，Deepmind通過人工智慧的無監督學習算法打爆了57個atari遊戲，即八九十年代國內也很流行的小霸王卡帶遊戲。
Deepmind Nature論文揭示最強AlphaGo Zero

AlphaGo「退役」了，但Deepmind在圍棋上的探索並沒有停止。今年5月的烏鎮大會的「人機對局」中，中國棋手、世界冠軍柯潔9段以0:3不敵AlphaGo。隨後Deepmind創始人Hassabis宣布，AlphaGo將永久退出競技舞臺，不再進行比賽。
DeepMind推出蛋白質結構預測算法,大勝人類傳統模型!

在過去的幾年裡，DeepMind公司開發的人工智慧AlphaGo已經在西洋棋和圍棋比賽中取得了超越人類的表現。而如今，DeepMind又向推動和加速新科學發現上邁出了重要的一步。前幾天，DeepMind宣布推出全新的AlphaFold系統，能夠預測並生成蛋白質的3D結構。
Deepmind新一代AlphaGo Zero自學3天打敗AlphaGo

今天凌晨，谷歌旗下Deepmind人工智慧團隊發布了一篇轟動AI界的論文，《Mastering the game of Go without human knowledge》（在沒有人類知識的情況下掌握圍棋），一句話總結這篇論文，他們研發的AlphaGo大表哥AlphaGo Zero能夠在沒有人類圍棋對弈數據的情況下
依據AlphaZero的混合算法,給量子核算帶來新的生機

依據AlphaZero的混合算法，給量子核算帶來新的生機來歷：nature等AlphaZero儘管在圍棋項目上打敗了人類選手，但所需的許多算力使其很難走進尋常人的日子。最近，丹麥和德國的研究人員運用Deepmind的AlphaZero 開發了一種混合算法，將AlphaZero健壯的查找才能與量子核算有機結合起來，參數查找速度大幅提升。在以前的幾十年裡量子物理技術的探求中，最有目共睹的就是量子核算機。量子核算機的才能，是全部現有的核算機組合加起來都無法對抗。
「重磅」AlphaZero煉成最強通用棋類AI,DeepMind強化學習算法8小時...

新智元報導由於是通用棋類AI，因此去掉了代表圍棋的英文「Go」，沒有使用人類知識，從零開始訓練，所以用Zero，兩相結合得到「AlphaZero」，這個新AI強在哪裡？新智元帶來全面解讀。相比之下，AlphaGo Zero最近在圍棋中取得了超越人類的成績，利用的是自我下棋的「白板」強化學習（譯註：tabula rasa，意為「白板」，指所有知識均由感官和經驗而來，即從零開始的學習）。在這篇論文中，我們將這種方法推廣到一個單一的AlphaZero算法，它可以在多個具有挑戰性的領域實現超越人類的性能，同樣是以「白板」的學習方式。
DeepMind新GNN模型,將谷歌地圖預估到達準確率提升50%!

谷歌地圖也有一套預測算法。但畢竟世界是動態的，每天的狀況都有可能不同，特別是疫情期間。目前，谷歌Maps交通預測系統由以下部分組成：(1)路由分析器，以構建超路段(2)新GNN 模型，利用多個目標函數進行優化，能夠預測每個超級路段的行程時間。
向李昌鈺學破案,這是Deepmind預測蛋白質結構的秘密研究方法嗎?

眾所周知，全世界頂級的圍棋選手人工智慧阿法狗之父，Deepmind公司最近又因為在生命科學領域的成就，上了科技界的熱搜榜。這個小成就就是，新的算法AlphaFold 可以僅根據基因預測生成蛋白質的三維形狀。可惜，公司並沒有公布這個算法的論文。我們就這樣放棄嘛？
DeepMind公布官方教程,開始創建自己的AlphaZero AI吧

2016年3月，Deepmind的AlphaGo以4比1的比分戰勝18屆圍棋世界冠軍李世石，這場比賽吸引到全球超過2億觀眾。機器學會圍棋策略，並擊敗人類頂尖高手，這在以往被視為一種不可能的壯舉——或者至少被認為要到十年後才有可能實現。
下圍棋so easy ,AlphaZero開始玩量子計算

編者按：本文來自微信公眾號「新智元」（ID:AI_era），36氪經授權發布。來源：nature等 AlphaZero雖然在圍棋項目上戰勝了人類選手，但所需的大量算力使其很難走進尋常人的生活。最近，丹麥和德國的研究人員使用Deepmind的AlphaZero 開發了一種混合算法，將AlphaZero強大的搜索能力與量子計算有機結合起來，參數搜索速度大幅提升。在過去的幾十年裡量子物理技術的探索中，最引人注目的就是量子計算機。
DeepMind發表Nature子刊新論文:連接多巴胺與元強化學習的新方法

今天，DeepMind 在 Nature Neuroscience 發表新論文，該研究中他們根據神經科學中的多巴胺學習模型的局限，強調了多巴胺在大腦最重要的智能區域即前額葉皮質發揮的整體作用，並據此提出了一種新型的元強化學習證明。DeepMind 期望該研究能推動神經科學自 AI 研究的啟發。
Science封面:AlphaZero達成終極進化體,史上最強棋類AI降臨!

最強棋類算法AlphaZero今天以Science封面論文形式發表。「AlphaZero以這樣一種強大而有用的方式超越了我們，」卡斯帕羅夫寫道：「只要在虛擬知識（virtual knowledge）能夠生成的領域，這個模型都可能複製到任何其他任務上。」
DeepMind破解蛋白質摺疊難題

去年年底，谷歌DeepMind推出了一種名為AlphaFold（一個用人工智慧加速科學發現的系統，它基於蛋白質的基因序列，就能預測蛋白質的3D結構）的算法。為了了解蛋白質如何摺疊，DeepMind的研究人員在一個包含約170,000個蛋白質序列及其形狀的公共資料庫中對其算法進行了訓練。在相當於100到200個圖形處理單元(按現代標準，計算能力適中)上運行，這種訓練需要數周時間。
DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來啦?

對付迷你中國流的新辦法！小林流也不是只有大飛掛！原來這裡還可以飛！妖刀定式！而在看到樊麾老師的微博之後，大家也開始了各色各樣的調侃。@ 樓天，「有 21 天從入門到精通系列課程嗎？」@ 我就是那一片浮雲，「完了，十段棋手猛烈增加。」

超越AlphaZero,DeepMind新算法MuZero登頂Nature

相關焦點

Google DeepMind 團隊發布新算法,下一個被 AI 虐哭的是誰?

AlphaZero:從小白開始制霸多個遊戲

DeepMind開源AlphaFold,蛋白質預測模型登上《Nature》

深度學習之Google Deepmind的Alphago人工智慧算法技術演變歷程

AlphaZero誕生一周年:登上Science封面,完整論文首次公開

終極版AlphaGo,DeepMind新算法MuZero作者解讀

從AlphaGo到蛋白質摺疊,Deepmind在不斷捅破AI領域的天花板!

Deepmind Nature論文揭示最強AlphaGo Zero

DeepMind推出蛋白質結構預測算法,大勝人類傳統模型!

Deepmind新一代AlphaGo Zero自學3天打敗AlphaGo

依據AlphaZero的混合算法,給量子核算帶來新的生機

「重磅」AlphaZero煉成最強通用棋類AI,DeepMind強化學習算法8小時...

DeepMind新GNN模型,將谷歌地圖預估到達準確率提升50%!

向李昌鈺學破案,這是Deepmind預測蛋白質結構的秘密研究方法嗎?

DeepMind公布官方教程,開始創建自己的AlphaZero AI吧

下圍棋so easy ,AlphaZero開始玩量子計算

DeepMind發表Nature子刊新論文:連接多巴胺與元強化學習的新方法

Science封面:AlphaZero達成終極進化體,史上最強棋類AI降臨!

DeepMind破解蛋白質摺疊難題

DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來啦?