而阿爾法元與幾位哥哥的最大區別是,它不再需要人類數據作訓練。因此,我們把AlphaGo Zero稱作「阿爾法元」,天為始,元為初,寓意從零開始。
本文共計2711字,閱讀時間5分鐘 。
記者 | 蔡浩爽
編輯 | 趙力
AlphaGo家族的人工智慧圍棋手進入了華山論劍南帝北丐中神通的境界,比發明出雙手互搏術的周伯通更厲害的是,最新的AlphaGo Zero(以下簡稱「阿爾法元」)連「九陰真經」——人類棋譜,都不需要。
北京時間10月19日凌晨,時隔20餘月,AlphaGo再次登上科學雜誌《nature》。谷歌人工智慧團隊DeepMind 發布了他們的最新論文Mastering the game of Go without human knowledge,向人們介紹了阿爾法狗家族的新成員——阿爾法元。與之前幾個版本的阿爾法狗不同,阿爾法元除了解圍棋規則外,完全不依靠棋譜和人類數據,從零開始「自學成才」,成為全世界最厲害的(人工智慧)圍棋手。
1
完爆對手,阿爾法元有多厲害?
自學三天,自博490萬局棋後,阿爾法元以100:0的壓倒性優勢打敗曾戰勝韓國棋手李世石的AlphaGoLee;
訓練二十一天後,阿爾法元再次戰勝擊敗世界圍棋冠軍柯潔的AlphaGo Master;
四十多天後,經過2900多萬次自玩遊戲,阿爾法元超過此前AlphaGo的所有版本,殺到黑白世界屍橫遍野,成為世界上最厲害的圍棋程序。
對比前幾版阿爾法狗需要48塊TPU(谷歌開發的用於人工智慧的晶片)、進行幾千次博弈、耗時幾個月,阿爾法元戰勝他們只需要4塊TPU,自己左右互博490多萬次,用時三天。可謂做到了「節能減排」。
而阿爾法元與幾位哥哥的最大區別是,它不再需要人類數據作訓練。因此,我們把AlphaGo Zero稱作「阿爾法元」,天為始,元為初,寓意從零開始。
在阿爾法元之前,阿爾法狗家族幾次戰勝人類圍棋冠軍,都是從利用人類經驗開始的。他們的勝利建立在計算機海量學習人類棋譜的基礎之上,阿爾法狗再通過強化學習的監督學習進行幾個月的自我訓練。
而阿爾法元則完全擺脫人類先驗經驗,除規則外,完全不藉助人類數據,從第一場遊戲開始,自我學習。
AlphaGo團隊負責人大衛·席爾瓦介紹,阿爾法元使用新的強化學習方法,讓自己變成了老師。系統一開始甚至並不知道什麼是圍棋,只是從單一神經網絡開始,通過神經網絡強大的搜索算法,進行了自我對弈。
杜克大學博士研究生吳春鵬在接受知社採訪時表示,隨著近幾年深度學習研究和應用的深入,傳統訓練方式的一個缺點日益明顯:訓練過程需要消耗大量人類標註樣本,而這對於小樣本應用領域(比如醫療圖像處理)是不可能辦到的。阿爾法元是在雙方博弈訓練過程中嘗試解決對人類標註樣本的依賴,這是以往沒有的。
更厲害的是,隨著訓練的深入,阿爾法元不僅棋藝大漲,而且「不再受人類知識的限制。」(大衛·席爾瓦在採訪中表示)通過數百萬次的訓練,阿爾法元走出了過往棋局中從未出現的新策略,為圍棋這項古老的遊戲帶來了新玩法。
美國的兩位棋手向Nature這樣評價阿爾法元的這一創舉:它的開局和收官和專業棋手的下法並無區別,人類幾千年的智慧結晶,看起來並非全錯。但是中盤看起來則非常詭異。
2
無師自通,阿爾法元怎麼做到的?
大衛·席爾瓦認為,阿爾法元通過自我學習取得比通過學習人類數據更好的成績,是因為阿爾法元的對手總是能跟它處在同一水平。阿爾法元的第一局,從非常隨機的招式開始。但是在學習過程中的每一步,它的對手,或者說是陪練,都會被校準為匹配其當前水平。
在阿爾法元出現之前,AlphaGo基本採用了傳統增強學習技術再加上深度神經網絡DNN完成搭建。而阿爾法元在DNN網絡結構上吸收了最新進展,採用了ResNet網絡(深度殘差網絡)中的Residual結構作為基礎模塊。之前大量論文表明,ResNet使用的Residual結構比GoogLeNet使用的Inception結構在達到相同預測精度條件下的運行速度更快。
曠視Face++首席科學家孫劍是ResNet的主創人員之一。在接受尋找中國創客採訪時,孫劍表示,阿爾法元的創新性主要體現在以下兩點:
一是自學習增強能力。阿爾法元可以把學習過程極大簡化,不需要歷史對弈信息自學習,擺脫了對人類標註樣本(人類歷史棋局)的依賴,實現0先驗知識的學習;
二是應用了80層的深度殘差網絡(ResNet),極大地提高了對棋局面評估和決策能力。
「阿爾法元把AlphaGo過去的學習算法進行了大幅度改進,將價值網絡和策略網絡整合為一個統一架構,使得在機器學習時,可以同時兼顧價值和策略的最優性。」清華大學電子工程系孫甲松副教授這樣向尋找中國創客(ID:xjbmaker)記者解釋阿爾法元的技術改進。
3
人類數據將在人工智慧領域逐步喪失優勢?
DeepMind聯合創始人和CEO表示,這一新技術能夠用於解決諸如蛋白質摺疊和新材料開發這樣的重要問題。「如果我們通過AlphaGo,可以在這些問題上取得進展,那麼它就有潛力推動人們理解生命,並以積極的方式影響我們的生活。」
「人們一般認為機器學習就是關於大數據和海量運算,阿爾法元的出現表明,算法比所謂計算或數據可用性更重要。」大衛·席爾瓦在採訪中表示。
那這是否意味著,未來人類數據在人工智慧領域的優勢將會逐步喪失?
創新工場創始人兼董事長李開復對此表示了不同意見。李開復對尋找中國創客(ID:xjbmaker)記者表示,阿爾法元的自主學習帶來的技術革新並非適用於所有人工智慧領域。「圍棋是一種對弈遊戲,是適用於規則並可以窮舉的。在相對有結構的領域,比如新材料開發,過去靠的可能是靈感,未來就可以靠自主學習。阿爾法元的新技術確實可能帶來革新。但是,像語音識別,圖像識別,自然語音理解等等領域,缺乏用簡單規則就能判別的樣本,它們依然需要大量的人類數據。」
在整個人工智慧產學研屆為DeepMind19日凌晨發表的這篇論文額手相慶時,也有人當頭澆下一盆冷水。
網際網路進化論作者、計算機博士劉鋒在一篇文章中表示:「關於AlphaGo是否具備創新創造性問題,我們認為它依然是依託人工支持的大數據訓練形成的策略模型,同時在比賽中結合比賽對手的落點數據,根據其內部的運算規則,來不斷形成自己的落點數據,這些落點數據最終形成比賽數據集合。AlphaGo根據圍棋規則與對手的比賽數據集合進行計算和比較,判斷輸贏,整個過程完全在人類設定的規則下運行,無法體現其自身的創造性。」
孫甲松也同樣認為,這一成果在人工智慧角度沒有實現實質性突破,「我認為這只是把AlphaGo過去的學習算法進行了大幅度改進,將價值網絡和策略網絡整合為一個統一架構,使得在機器學習時,可以同時兼顧價值和策略的最優性。不但大幅度提高了機器學習的速度,同時學習結果也使得現在的系統遠超了原來的AlphaGo,因此有了100:0的結果。但我認為這只是對原來算法的優化,雖然使得計算機跟人下圍棋更是天下無敵,但這只能說是一個小小的進步,從人工智慧的角度還是沒有實質性的突破。」
但在李開復看來,論文的成果不可低估。「雖然有些技術並不是DeepMind開創的,比如ResNet。但能夠完美集成這些技術,本身就具有裡程碑意義。」他認為,DeepMind的這一成果具有指向標意義,證明了這個方向的可行性。「哪怕這一成果稱不上諾布爾水平或者圖靈水平,但今夜過後,我相信會有一大半以上的研究人員在這個方向開始嘗試。」
有觀點稱,阿爾法元的工程和算法確實非常厲害。但人們容易對此產生誤解,認為人工智慧是萬能的,所有人工智慧都可以無需人類經驗從零學習。每次關於人工智慧的討論,都會被引導人工智慧威脅論。
但李開復認為,人天生就具備跨領域的能力,比如人可以同時看到、聽到、感受到,但在這方面,人工智慧還差著十萬八千裡;人工智慧也並不像很多人以為的那樣具有自主思考能力。「當下的機器沒有欲望,不會設立目標,也沒有自我意識。」
「在我看來,今天的事件更應該總結為兩點:一是AI前進的速度比想像中更快,即便是我們這些所謂行業內的人士都被阿爾法元跌破眼鏡;二是要正視中美在人工智慧方面的差距。中國還從未有可以引領行業的論文出現。」李開復對尋找中國創客(ID:xjbmaker)記者說。
本文為尋找中國創客原創
未經授權不得轉載