【新智元導讀】還記得當年柯潔和AlphaGo對戰失利後的失聲痛哭嗎?AlphaGo背後的模型訓練要燃燒多少經費你知道嗎?本文來告訴你答案。
當年,19歲的世界圍棋第一人柯潔九段在和AlphaGo的圍棋終極人機大戰以0:3完敗,這也是人類頂尖高手與這臺機器之間的最後一次較量,AlphaGo從此將退隱江湖。
比賽至中局之時,柯潔再次被AlphaGo的手法驚到了。他先是取下眼鏡捂住自己的臉,繼而在桌子上趴了幾秒鐘,起身搖頭,再次趴下,然後才用手把頭撐起,雙手抹了抹眼睛,又重新戴上眼鏡。
韓國高手李世石也面對過AlphaGo,曾在三連敗的情況下扳回一局,連輸兩場的柯潔自然也希望能在最後一句中挽回顏面,很可惜這次柯潔全面落於下風。
2017年,機器學習領域最令人興奮的事件之一,莫過於 AlphaGo 戰勝李世石成為世界上最好的圍棋選手了。
同年10月份,DeepMind 發表了一篇論文,描述了一個名為 AlphaGo Zero 的新版本。僅僅經過36個小時的訓練,AlphaGo Zero已經比擊敗李世石的阿爾法狗更擅長圍棋了。
不僅如此,AlphaGo Zero 學會下圍棋,卻是在沒有任何先驗的遊戲知識的情況下(換句話說,就是白板)。
而相比之下,之前發布的 AlphaGo 則是在人類圍棋比賽資料庫的幫助下進行訓練的。
這一成就確實非同尋常,因為它表明,我們可以開發一個系統,教會自己從一張白紙上做一些不瑣碎的任務,並最終在完成任務方面比人類做得更好。
它同時也表明了,現在整個世界的可能性是觸手可及的,只要想像計算機可以教自己做任何人類可以做的事情。
但是取得這樣的進步卻並不便宜。
正如人類掌握圍棋需要多年的訓練一樣,計算機掌握圍棋也需要大量的資源,復現 AlphaGo Zero 的論文中報導的實驗需要花費3500萬美元的算力。
AlphaGo Zero 學習下圍棋的方法是通過一種被稱為「self-play」的過程,模擬圍棋對它自己的比賽。該論文報告了以下幾點:
1.在72個小時裡,共進行了490萬場比賽
2. 在自我遊戲過程中,每個動作大約佔用0.4秒的時間
3.在一臺機器上執行自我遊戲,該機器包含4個 TPU
不過,這裡有一個數字沒有被公布出來,就是在三天的過程中使用的進行自我遊戲的機器的數量。按照平均每場圍棋211步的估計值,得到了最終的1595臺自動對戰機器的結果,或者說6380個 TPU。
按照每個TPU每小時6.50美元的報價(截至2018年3月) ,僅僅進行復現就要花費2,986,822美元。
而這只是他們論文中的兩個實驗中的一個小實驗:
「隨後,我們使用一個更大的神經網絡,將我們的強化學習管道應用於 AlphaGo Zero 的第二個實例,並且持續時間更長。訓練再次從完全隨機的行為開始,持續了大約40天」
「在訓練過程中,產生了2900萬場自我比賽」
在為期40天的這項實驗中,使用的神經網絡的層數(大小相同)是為期3天的實驗中使用的網絡的兩倍,因此,假設實驗沒有其他任何改變,一個動作所需的計算機思考時間大約是之前的兩倍。
考慮到這一點,可以大概求出最終花費了35,354,222美元的TPU來復現這個為期40天的實驗。
就 DeepMind 運行這項實驗的實際成本而言,還有其它因素需要考慮,比如研究人員的薪水等。但是對於谷歌以外的人來說,這個數字對於重複這個實驗的成本是一個很好的估計。
另一種看待 AlphaGo Zero 實驗成本的方式是想像需要多少人的大腦來提供同樣數量的能量。
圖:當機器接管後,他們將更有效地使用我們的大腦
一個TPU消耗大約40瓦,人腦大約是20瓦。所以,這個實驗的耗電量相當於12760個人的大腦連續運轉。
這種耗電量和金錢的消耗並不是說AlphaGo Zero不是一個驚人的成就,它向世界展示了建立系統來自學完成複雜任務是可能的,只是開發這種通用技術還沒有提供給大眾而已。
也就是說,許多具有現實價值的問題並不需要超人一般的表現。也許,通過應用領域知識和 AlphaGo Zero 提供的技術,未來這些問題可以用比創建 AlphaGo Zero 便宜得多的成本得到解決。