下一代 AlphaGo,裸考也能拿滿分

2021-01-09 極客公園

Google 母公司 Alphabet 旗下的 DeepMind,在這一個月裡大動作頻出。

先是在月初推出了蛋白質結構預測 AI——AlphaFold 2,這個 AI 在 CASP 競賽中拔得頭籌,解決了困擾了學界 50 年的難題:生物學家 Andrei Lupas 本人花了十年時間,用盡各種實驗方法也沒能弄清楚一種蛋白質摺疊後的形狀,但藉助 AlphaFold 2 後,他在半個小時內就得到了答案。

接著,在月底,DeepMind 在《自然》雜誌上發布論文介紹「進階版 AlphaGo」——MuZero。簡單來說,MuZero 更「通用」了,它精通西洋棋、圍棋、將棋,還能在數十款 Atari 遊戲上全面超越過去的 AI 算法和人類。但更具革命意義的是,MuZero 不像它的前輩們,它在下棋和遊戲前完全不知道遊戲規則,完全是通過自己的試驗和摸索,洞悉棋局和遊戲的規則,形成自己的決策。換句話說,AI 會自己「動腦子」了。

MuZero 就像是 Netflix 熱劇《女王的棋局》裡的貝絲·哈蒙,在完全不知西洋棋規則的情況下,憑藉幾次觀察就把棋盤「畫」在自己的心裡,並通過不斷復盤棋局強化自己的直覺,最終所向披靡。

不知道規則,怎麼贏棋?

2016 年,AlphaGo 橫空出世,以 4:1 擊敗韓國頂級棋手李世乭,並在 2017 年的烏鎮圍棋峰會上擊敗了世界第一棋手柯潔。中國圍棋協會甚至當即授予 AlphaGo 職業圍棋九段的稱號。

AlphaGo 依賴的還是 DeepMind 輸入的專家棋法數據集,然後它的繼任者 AlphaGo Zero 開始擺脫對「人類數據」的依賴,開始通過多次自我對弈積累所需數據。2018 年底問世的 AlphaZero 更是在前兩者的基礎上迭代,除了圍棋,它還學會了將棋和西洋棋。讓人嘆為觀止的是,從第一次見到棋盤,到成為世界級棋類大師,AlphaZero 只用了 24 小時。

「但你不能像下棋一樣,只顧著往前看。你必須學習這個世界如何運作。」DeepMind 的首席研究科學家 David Silver 告訴《連線》,按照這個思路,他們決定不提前告訴 AI 該怎麼贏了,「這是我們第一次打造這種系統」。

上面提到的「Alpha」家族,最早需要「人類數據」、「領域知識」和「遊戲規則」,至少也還需依賴「遊戲規則」。而剛面世的 MuZero 則沒有這些知識儲備,就像是下棋被蒙著眼,玩遊戲背著手。

「Alpha」家族至少也還需依賴「遊戲規則」,而剛面世的 MuZero 則沒有任何知識儲備|DeepMind

既然 MuZero 連怎麼贏棋都不知道,那它又是如何學習世界運作原理的呢?先以 AlphaZero 為例,由於它已經知曉棋局的規則,所以它知道一個動作後的下一個棋步是什麼樣的,運用深度學習中的「蒙特卡洛樹搜索」(MCTS)就能評估不同的下棋可能性,並從中選出最優的動作。在這個過程中,AlphaZero 只需要利用「預測網絡」這一神經網絡。

而 MuZero 不知道現有的規則,那麼只能從零開始構建一個內部模型,形成自己對棋局的理解。

首先,MuZero 會利用「表徵網絡」將自己觀察到的棋步收集起來,轉化為專屬於自己的知識;接著,利用「預測網絡」形成策略(即最好的「下一步」是什麼),判斷價值(即當前決策「有多好」);最後,藉助「動態網絡」判斷「上一步有多好」,回收此前做出的最佳棋步,不斷完善自己的內部模型。

也就是說,MuZero 並沒有具體的「行事準則」,它就像是一個小孩,在有了一定思考能力的基礎上,正在不斷完善自己的行事準則。在此之前,「AlphaGo」雖能輕鬆擊敗人類,但也只限於圍棋等專精領域,卻無法「觸類旁通」,每遇到新的遊戲都需要更改框架,重新學習。而掌握了「思考方式」的 MuZero 顯然能做得更多了,也就是,更通用了。

「知道雨傘能讓人不被淋溼,比能對雨滴建模更有用。」DeepMind 用這句話表示,對 AI 來說,它們會的本領看起來越笨,越有實際意義。

在遊戲方面,以研究 AI 打撲克出名的 FAIR 研究科學家 Noam Brown 這樣評價 MuZero:「當前人們對遊戲 AI 的主要批評是模型不能對現實世界中相互作用進行準確建模。MuZero 優雅而令人信服地克服了這個問題(適用於完美信息遊戲)。我認為,這是可以與 AlphaGo 和 AlphaZero 相提並論的重大突破!」

這個會思考的 AI,能做什麼?

DeepMind 研究表示,MuZero 在不具備任何底層動態知識的情況下,通過結合 MCTS 和學得模型,在各種棋類種的精確規劃任務中可以匹敵 AlphaZero,甚至超過了提前得知規則的圍棋版 AlphaZero。

在實驗中,只要為 MuZero 延長每次行為的時間,它的表現就會變得更好。隨著將每次行動的時間從十分之一秒增加到 50 秒,MuZero 的能力會增加 1000 Elo(衡量玩家的相對技能),這基本相當於熟練的業餘玩家和最強的職業玩家之間的區別。

開始自我思考的 MuZero 就像人一樣。現實世界混沌、複雜,人們也沒有具體的行事手冊,只能摸著石頭過河,慢慢形成自己的規劃能力,進而制定下一步該怎麼做的策略。

那麼,MuZero 能做什麼?

《連線》記者提到了在生化界做了件「大實事」的蛋白質結構預測 AI,接著問起了 MuZero 的實用價值。David Silver 表示,MuZero 已經投入實際使用,用於尋找一種新的視頻編碼方式,從而完成視頻壓縮。考慮到大量不同的視頻格式和眾多的壓縮模式,能節省 5% 的比特已經是極具挑戰的任務。「網際網路上的數據大部分是視頻,那麼如果可以更有效地壓縮視頻,則可以節省大量資金。」由於 Google 擁有世界上最大的視頻共享平臺 YouTube,因此他們很可能將 MuZero 其應用到該平臺上。

David Silver 對它的造物有足夠的自信|WIRED

David Silver 想得更遠,「一個真正強大的系統,它能看到所有你看到的東西,它有和你一樣的感官,它能夠幫助你實現目標。另外一個變革性的,從長遠來看,(MuZero 的『強化學習』思路)是可以提供個性化的醫療解決方案的東西。有一些隱私和倫理問題必須解決,但它會有巨大的價值,它會改變醫學的面貌和人們的生活質量。」

目前,「Alpha 家族」這種規划算法也已經在物流、化學合成等諸多現實世界領域中產生影響。然而,這些規划算法都依賴於環境的動態變化,如遊戲規則或精確的模擬器,導致它們在機器人學、工業控制、智能助理等領域中的應用受到限制。

而不再「循規蹈矩」的 MuZero,先摸索規則、建立內部模型再精通的思路,顯然具有更強的可塑性。會自己思考的 AI,離通用 AI 會更近一些。

「我不想給它設定一個時間尺度,但我想說,人類能實現的一切,我最終認為機器都能實現。大腦完成的只是一個計算過程,我不認為那裡有什麼神奇的東西。」David Silver 對它的造物有足夠的自信。

如果說 AlphaGo 確立了 AI 的「圍棋霸權」,那懂得自己思考的 MuZero,可能會在更多領域確立「霸權」。

題圖:Netflix

責編:於本一

本文首發於極客之選,轉載請聯繫極客君微信 geekparker。

相關焦點

  • 考研「裸考」也能讀研?那些拼命備考的人,為何還不如裸考生?
    考研「裸考」也能讀研?那些拼命備考的人,為何還不如裸考生?  2021研究生初試已然結束,但考生若想正式讀研,還得好好應對接下來的研究生複試。不過,考差的同學不得不考慮以後的出路,是就業還是再考一次,這是個難以抉擇的問題。
  • 高考物理選擇題秒殺法 學渣也能拿滿分
    高考物理選擇題秒殺法 學渣也能拿滿分高考是一場沒有硝煙的戰爭,在這場戰役中,是實力的較量也是技巧的博弈。在高考上,要求學生不光要有知識,更有掌握所謂的答題技巧。下面是有途網小編整理的高考物理選擇題秒殺法,希望能對大家有所幫助。
  • 距離英語四級考試還剩下不到一個月,別想著「裸考」了
    今年最後一次英語四級考試是12月12日,還有整整20天,但是很多大學生都抱著「裸考」的態度去考,這樣真的能考過嗎?可以說如果是比較好的大學的大一新生還是有機會的,可以大多數學校不允許大一學生考,或者是有高考的分數限制。等到大二再考的時候,高中知識忘得差不多了,這時候裸考很難過,就是浪費這幾十塊錢。
  • AlphaGo 圍棋教學工具已發布
    在Deepmind所謂的「教學工具」發布之前,小編曾在腦海出現萬千猜想……但今天揭底才知道,原來只是一個平平淡淡的網頁……(建議複製到電腦上打開,因為據有的棋友反映手機打不開,小編這裡實測手機能打開,只是讀取了較長時間)
  • 76歲老人,連續15年英語高考卷拿滿分!​
    76歲老人,連續15年英語高考卷拿滿分!​徐秀德閱讀英語讀物。每年高考卷均能拿滿分每次高考結束後,他都讓他的兒子把全國高考試題卷一、卷二、卷三,和各地方考題都列印下來,自己掐著時間作。答完卷子對照答案直接批改,每次都是滿點的成績。現在,他已經退休16年了,2020年的高考題,徐老師仍然達到滿分。當有人問高考題難不難的時候,徐老師直搖頭,表示這題越來越簡單啦。
  • 大學英語四級裸考的通過率很高?大學生:英語基礎好才行!
    前幾天,學長寫了一篇關於大學英語四級和六級考試技巧的文章,很多同學留言評論:四級裸考一次過了,六級裸考一次過了……借用其他作者的一句話「在網上,全民都是985和211重點大學的高材生!」很多天真的學弟學妹們居然相信了,感覺自己太差了,為什麼別人都能裸考通過考試呢?這篇文章,學長告訴大家,別人是怎麼「裸考」過四級的?記得收藏哦!第一:背常考單詞期末考試和大學英語四級就快來了,有沒有一點沒學習的孩子,舉手我看看有多少?
  • 痴迷英語 連續15年高考卷拿滿分
    退休16年,他連續「參加」了15年的高考「英語考試」,且每次都能拿到滿分。退休後堅持學習英語徐秀德今年76歲,是實驗中學退休的英語教師,曾在高三崗位教學超過30年,是一位經驗豐富,受人愛戴的「學究」型教師。退休後,他除了偶爾登山寫書法外,每天上午會有一小時的時間,對著白牆大聲朗讀英語課文,或者背誦課文。
  • 英語四六級:裸考通過率如何?大四師兄:考了三年還在繼續!
    大學四年的生涯中,要說比較重要的任務,除了專業課學分修滿之外,英語四六級的考試也是相當重要的,每年有兩次考試,分別是六月份和十二月份,再過不到一個月的時間,又迎來了新一輪的四六級考試的開始,在面對四六級的考試,或許足夠自信,或許毫不在意,某部分學生喜歡裸考,何為裸考?
  • 能贏AlphaGo的只有它自己 柯潔回應新版問世:人類太多餘了
    對此,柯潔回應稱:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」2016 年在 AlphaGo 和李世石的對戰後,人工智慧進入大眾的視野,今年5月27日,中國棋手柯潔與人工智慧「阿爾法圍棋」(AlphaGo)展開三番棋比賽的終局對決。
  • 一年級語文生字組詞和造句,孩子學會看圖寫話拿滿分,先收藏了!
    一年級語文生字組詞和造句,孩子學會看圖寫話拿滿分,先收藏了!眾所周知,看圖寫作是低年級一個關鍵項目,是低年級小同學寫話訓練的重要途徑。老師今天這以篇文章為小同學詳細說說看圖寫話那些「小」事兒,分享給更多同學,希望今後能在作文這一塊拿高分!在一年級階段,同學就要開始接觸看圖寫話部分,老師要求小同學在學習的過程中,一定做到這一點「看仔細、想明白、說清楚、寫完整」。在寫看圖寫話的過程中,同學們要慢慢學會安排文章的結構;學會語言的運用。
  • 49家市政府考試,成都這一科拿滿分!
    49家市政府考試,成都這一科拿滿分!中國社會科學院法學研究所發布「中國政府透明度指數報告(2019)」在49家較大的市政府的綜合評估中成都在中西部城市中排名第一全國排名第四位於廈門、廣州、深圳之後在「政務公開平臺建設」指標評估得分一欄成都以100分的滿分成績
  • 柯潔終結AI「符合預期」41連勝:若當初第一個與alphago對弈的是我
    【文/觀察者網 周遠方】昨夜,「半狗」柯潔贏了一隻41連勝的「小狗」,輾轉難眠…… 他在今天(18日)凌晨0時23分發微博感嘆: 一個AI滿地走的時代...除了alphago以外,這個暱稱為「符合預期」的AI尤其強,實力應該已經遠超當時與李世石對弈的alphago了吧?...
  • 他是清華第一位四大力學都拿滿分的學生,「真學霸」終拿下大滿貫
    他是清華第一位四大力學都拿滿分的學生,「真學霸」終拿下大滿貫在我們國家,在我們身邊,從來不缺少人才,不缺少學霸。從小我們就經常聽到別人家的孩子的名字。小編今天要和大家介紹的,他可以說是一個真正的學霸,是清華大學第一個拿下了四大力學滿分的人才,讓人崇拜。這個學霸就是胡耀文,清華大學201年的特等獎學金就是被他給領走的。不過這也是他能夠獲得的,因為他的成績實在是太過於優秀。在大學三年裡面,成績從來沒有讓人失望過。
  • 開學後二年級數學第一單元測試,長度單位的學習檢測,要求拿滿分
    開學後二年級數學第一單元測試,長度單位的學習檢測,要求拿滿分隨著暑假的結束,九月份大部分地區已經開學了,開學後老師希望孩子們能夠收收心,把心思放到學習上,當然我相信很多家長很注重孩子的學習暑假也給孩子安排了學習,接下來老師分享一套年級數學第一單元測試,長度單位的學習檢測,要求拿滿分
  • 中高考化學掌握這三點就能拿滿分!
    題目有「標題黨」之嫌,不過,同學們一旦能領會其中真意,拿滿分是完全可以做得到的!1,深入了解化學學科的特點,形成完整的化學知識體系。如果存在,用我們學過的價鍵理論能解釋嗎?你能給出合理解釋嗎?諸多開放性問題的提出可以不斷把學生的好奇心和探究精神激發出來,讓他們學會查閱資料,積極討論來得出合理解釋,很多同學查到相關資料非常興奮,老師,CH5+居然真的存在啊?孩子頭腦中可能性的思想一下建立起來了,可能性思想的建立是我們要培養孩子應具備的重要思維品質。
  • 大學裡「最難及格」的5門課程,就算是學霸,也很難拿滿分!
    並且有些學科是真的很難,高中的數學、英語和物理和這些學科比起來簡直就是小菜一碟,而這些學科的難點就在於,聽起來,理解是更難,今天我們就來說一說大學裡「最難及格」的5個專業全班都是學霸,也很難拿滿分
  • 谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了
    谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了(圖片來自於推特)在這款軟體發出之後,柯潔也對這款軟體發表了自己的看法,他認為:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」之所以柯潔會這樣說,主要是因為AlphaGo Zero的練習主要是通過自我對弈在三十天之內發展起來的。
  • 想要作文拿滿分?開頭、過渡、結尾這樣寫,準沒錯!
    想要作文拿滿分?開頭、過渡、結尾這樣寫,準沒錯!關於如何寫出一篇優秀的作文,可能用100篇文章,上萬個字都說不清楚。但是要說一篇好的作文具備哪些條件,我相信很多家長朋友都能說出一二,比如一個亮眼的標題,一個好的開端,一個完美的過渡,再來一個概括全文的總結,這樣不說文章有多完美,但是至少文章結構完整,及格分一定不成問題。
  • 讓陳景潤、華羅庚這種級別的數學家去參加高考,數學能答滿分嗎?
    讓陳景潤、華羅庚這種級別的數學家去參加高考,數學能答滿分嗎?我們知道數學不僅有智商,還有各種各樣的要求。陳景潤、華羅庚在數學領域是牛人,但大學入學考試不一定能拿滿分,首先是考試題,也許對他們來說不一定能適應,他們平時研究的數學問題一定比高考的數學難,這其實像大學生一樣考小學的數學試卷,從大家的心裡說,大學生應該對小學的問題沒有問題,但是也經常得不到滿分。
  • 新版Alphago棋風更穩健
    alphago再過一萬年也不可能窮盡所有圍棋的定式。這次比賽其實不是人機大戰,而是人類使用電腦作為工具探索新的東西,就像哈勃望遠鏡讓人類發現新的領域一樣。人工智慧可以幫助專家以更快的速度解決問題。本次比賽的目的也不是alphago還是棋手贏,最終還是人類贏。祝柯潔好運。」來源:網易科技