首先,AlphaGo Zero僅用棋盤上的黑白子作為輸入,而前代則包括了小部分人工設計的特徵輸入。
其次,AlphaGo Zero僅用了單一的神經網絡。在此前的版本中,AlphaGo用到了「策略網絡」來選擇下一步棋的走法,以及使用「價值網絡」來預測每一步棋後的贏家。而在新的版本中,這兩個神經網絡合二為一,從而讓它能得到更高效的訓練和評估。
第三,AlphaGo Zero並不使用快速、隨機的走子方法。在此前的版本中,AlphaGo用的是快速走子方法,來預測哪個玩家會從當前的局面中贏得比賽。相反,新版本依靠的是其高質量的神經網絡來評估下棋的局勢。
所有這些差異,都提高了系統的表現,使其更為普適。不過,是算法上的變化使得系統更為強大和高效。
僅僅自我對弈3天後,AlphaGo Zero就以100:0完勝了此前擊敗世界冠軍李世乭的AlphaGo版本。自我對弈40天後,AlphaGo Zero變得更為強大,超過了此前擊敗當今第一人柯潔的「大師」版AlphaGo。
通過數百萬次自我對弈,AlphaGo從零開始掌握了圍棋,在短短幾天內就積累起了人類幾千年才有的知識。AlphaGo Zero也發現了新的知識,發展出打破常規的策略和新招,與它在對戰李世乭和柯潔時創造的那些交相輝映,卻又更勝一籌。
這些創造性的時刻給了我們信心:人工智慧會成為人類智慧的增強器,幫助我們解決人類正在面臨的一些嚴峻挑戰 。
儘管才剛剛發展起來,AlphaGo Zero已經走出了通向上述目標的關鍵一步。如果類似的技術可以應用在其他結構性問題,比如蛋白質摺疊、減少能耗和尋找新材料上,就能創造出有益於社會的突破。
(本文綜合自新浪科技、澎湃新聞)