從零開始,這是可以進行「自我學習」的 AlphaGo,也是邁向通用人工智慧的 AlphaGo。
來源 | 衛報、Quartz
整理 | 不定項 高靜宜
編輯 | 宇多田
10 月 19 日凌晨,谷歌人工智慧團隊 DeepMind 在《自然》雜誌上發表了一篇論文,描述了新一款圍棋程序 AlphaGo Zero 從最開始的「臭棋簍子」到業餘棋手,再成長為一個能夠考量每一步棋戰略意義的圍棋大師的過程,而這樣的飛躍僅花費了幾天的時間。
在最初的 10 個小時裡,AlphaGo Zero 發現了一個定式,不久之後,它又掌握了一些特定的棋法。三天後,在經過數百萬盤的自我對抗之後,它的棋藝可以超越人類積累數千年的水平,並以 100 比 0 的成績擊敗李世石版本的 AlphaGo。
AlphaGo Zero 以 100 比 0 的成績擊敗李世乭版本的 AlphaGo
有趣的是,程序在發現某些簡單的棋步之前就已經掌握了一些更為複雜的走法,例如人類棋手通常在早期就能掌握的戰術「徵」。
就是這樣一款程序,被很多圈內人譽為人工智慧領域的「重大進步」,因為輸入遊戲規則之後,它可以在沒有人幫助的情況下,從零開始掌握這門古老的棋盤遊戲。
舊版 AlphaGo 的訓練需要成千上萬份人類對弈的棋局數據,但 AlphaGo Zero 可以在沒有這些幫助下完成學習。初始階段,它會把棋子隨機地放在棋盤上,但發現獲勝策略後,它能迅速優化下棋的方式。
「它比以前的方法更強大,因為不再需要歷史的棋局數據。可以說,我們已經突破了人類認知的障礙,因為它本身能夠創造知識。」AlphaGo 的首席研究員 David Silver 說。
「AlphaGo Zero 發現了一些非常棒的下棋定式,然後超越這些定式並找到一些更加有力的方法。」DeepMind 的執行長 Demis Hassabis 表示,「你可以發現,它能重新發現人類幾千年來積累的知識。」
因此,沒有意外,這篇發表於 Nature 的論文在今天凌晨一公布,除了照例轟動技術圈,早在 5 月與 AlphaGo 交過手並惜敗的柯潔也發來了「感慨式賀電」:
而關心 AlphaGo Zero 的非技術宅與吃瓜網友們的畫風,基本都是這樣的:
也許現在,在看過機器之心純技術乾貨的解析之後,你會對科學家們對 AlphaGo Zero 的看法,以及 AlphaGo 在圍棋以外可以大展身手的領域與可能性更感興趣。
從零開始,這是可以進行「自我學習」的 「圍棋九段」AlphaGo
AlphaGo Zero 從零起步,在對弈中不斷學習逐漸變強
相比於 AlphaGo Zero,人類千百年前對圍棋的探索經驗,只是一個「局部最優解」。
AlphaGo Zero 程序的核心是一組神經元,這些神經元連接在一起組成了一個人工神經網絡。在棋局的每一回合中,神經網絡都會查看棋盤上棋子所處的位置,然後計算出棋子下一步可能移動的方向以及相應的獲勝概率。每盤棋局結束之後,神經網絡都會進行更新,從而在下一次對弈中具備更強大的實力。
「AlphaGo Zero 遠勝於此前的版本,不過它只是一個簡單地程序,能夠在訓練數據更少、計算力更小的情況下更快地掌控棋局。如果給它更多的時間,AlphaGo Zero 也可以自己學習圍棋規則」,Silver 這樣表示。
David Silver 描述 AlphaGo Zero 是怎樣學習下圍棋的
而謝菲爾德大學神經科學教授 Eleni Vasilaki 表示,這是一項激動人心的壯舉。「這可能意味著,在沒有人類專家參與訓練的情況下,AlphaGo 能夠發現一些絕妙的棋步,在這項比賽中超越人類智能。」不過她也指出,儘管計算機可以在圍棋比賽中擊敗人類,能夠實現複雜、精密的計算,但它們在其他任務中可能還並不具備與人類相匹敵的能力。
「在某些人類很容易就可以完成的任務中,人工智慧經常會失敗。」她說,「就看看那些類人機器人在日常任務中的表現吧,例如行走、跑步和擊球。」
卡內基梅隆大學計算機科學家 Tom Mitchell 把 AlphaGo Zero 形容為一項「傑出的工程成就」。他補充說:「它相當於終止了關於人類是否會在圍棋中戰勝計算機的探討。我猜答案是不會。但同時它也開啟了一個新的篇章,即計算機可以教授人類如何更好地進行對弈。」
這個想法受到美國圍棋協會主席 Andy Okun 的認可:「我不知道人們的士氣是否會受到計算機變強的影響,不過利用神經網絡軟體對圍棋進行探索也將會是一種樂趣。因為它並不是通過表層理解我們而獲得勝利的,而是發現了更加深層、內在的模式。」
讓歷史歸零,這是邁向通用人工智慧的 AlphaGo
AlphaGo Zero 讓人類圍棋的歷史經驗成為了「Zero」,標誌著人類向通用型的人工智慧邁出了重要一步。
「對我們來說,AlphaGo 的意義不僅限於圍棋對弈領域,這也是我們開發通用算法的重大進步。」DeepMind 的執行長 Demis Hassabis 說。
DeepMind 執行長 Demis Hassabis
《Nature 自然科研》評論稱,AlphaGo Zero 最大的突破是實現了白板理論。與嬰兒的學習模式類似,它可以通過不斷訓練、成長獲得知識和智力。這意味著,AlphaGo Zero 的學習模式也可以被應用解決其他現實問題。
從目前來看,大多數 AI 的應用著實「範圍有限」,因為它們只能執行一項特定的任務,比如翻譯語言或識別人臉。但在許多不同的任務中,通用人工智慧都有潛力比人類表現得更好。
不過,它也只能完成那些可以在計算機中完全模擬的問題,而駕駛汽車這類任務就超出了這一範圍。
「要得到能夠與人類能力相媲美的人工智慧,我們還有很長的路要走,」Hassabis 說,「在未來十年中,比較現實的是利用人工智慧幫助人類發現新藥物、材料以及破解粒子物理學中的奧秘。」
而現在,DeepMind 已經開啟了新的嘗試。
在倫敦,AlphaGo Zero 正在幫助科學家認識蛋白質摺疊,這也有可能給藥物研髮帶來新的進展。「藥物研發、量子化學、材料研發…應用在這些領域都是有可能的,或許我們還能研發出常溫的超導體。」Hassabis 說,「當我還是一個孩子的時候,在讀物理書的時候,就曾想像有一天能夠發現超導體,那是一個聖杯。」
不過,DeepMind 表示,新版 AlphaGo 不會像其他項目一樣公布代碼。外部人員可以參考發布在《自然雜誌》上的論文內容。
但是業內人士表示,AlphaGo Zero 的「思路」清晰簡潔,很有可能廣泛適用於其他領域。
OpenAI 的人工智慧研究科學家 Tim Salimans 對媒體表示,簡單的、通用的方法在人工智慧研究中具有很大的價值,因為通過細微的修改,它就可能解決其他問題。
「我認為,把它稱為『突破性進展』一點也不為過。」Salimans 說,「雖然不能直接應用到其他領域,但是,我們可以把它看到是解決其他問題的第一步。」
大公司:微軟、亞馬遜、阿里、百度、騰訊、英偉達、蘇寧、西門子、浪潮
創業公司:商湯科技、依圖科技、思必馳、竹間智能、三角獸、極限元、雲知聲、奇點機智、景馳科技、思嵐科技、追一科技、海知智能、出門問問、鋼鐵俠科技、體素科技、晶泰科技、波士頓動力
人物報導:吳恩達、陸奇、王永東、黃學東、任小楓、初敏、沈威、肖建雄
自動駕駛:傳統變革、Uber、圖森未來、速騰聚創、馭勢科技、全球汽車AI大會
應用場景:金融、醫療、法律、新零售、網絡安全
商業地理:加拿大、匹茲堡、瑞士