【新智元導讀】生命遊戲是一種基於網格的自動機。最近,有研究人員發表了一篇論文,指出儘管這款遊戲很簡單,但它對神經網絡來說,仍是個挑戰。他們的論文研究了神經網絡是如何「探索」這款遊戲的,以及為什麼它們會常常錯過正確玩法。
康威生命遊戲是英國數學家約翰·康威在1970年發明的細胞自動機。這個遊戲可以在一個無限大的2D網格上進行。
這款小遊戲在科學、計算和人工智慧中被熱烈討論,因為它代表了即使是簡單的規則,也可以產生非常複雜的結果。
在最近的一篇論文中,斯沃斯莫爾學院和洛斯阿拉莫斯國家實驗室的人工智慧研究人員指出,儘管康威生命遊戲很簡單,但對人工神經網絡來說,這仍是個不小的挑戰。
這篇文章名為「神經網絡很難學會生命遊戲」的文章中 ,通過利用神經網絡如何探索生命遊戲,他們發現電腦經常找不到正確解決方案。
生命遊戲是一個零玩家遊戲。它包括一個二維矩形世界,這個世界中的每個方格居住著一個活著的或死了的細胞。
在生命遊戲中,對於任意細胞,規則如下:
如果一個活細胞的相鄰細胞少於兩個,它就會因數量不足而死亡。
如果一個活細胞有三個以上的鄰居,它就會死於過剩。
如果一個活細胞恰好有兩個或三個活的鄰居,它就能存活。如果一個死去的細胞有三個相鄰的活細胞,它就會復活。
可以把最初的細胞結構定義為種子,當所有在種子中的細胞同時被以上規則處理後,可以得到第一代細胞圖。按規則繼續處理當前的細胞圖,可以得到下一代的細胞圖,周而復始。
基於這些簡單的規則,可以調整網格的初始狀態,來創建穩定,振蕩,滑翔等多種模式。
例如,這就是所謂的滑翔模式。
你也可以使用生命遊戲來創建非常複雜的模式,比如這個,
有趣的是,無論網格變得多麼複雜,你都可以使用相同的規則來預測下一個時間步中每個單元的狀態。
現在,神經網絡的預測能力有目共睹,那麼,深度學習模型能否學到生命遊戲的基本規則?
人工神經網絡與生命遊戲
「我們已經知道了一個解決方案,」 雅各布·施普林格,斯沃斯莫爾學院計算機科學專業的學生說,他同時也是這篇論文的合著者,「我們可以手寫一個實現生命遊戲的神經網絡,因此我們可以將學到的解決方案與手工製作的解決方案進行比較。」
雅各布·施普林格,斯沃斯莫爾學院計算機科學專業的學生
通過修改深度學習模型預測的未來時間步長值,可以很容易地調整遊戲的靈活性。
此外,與計算機視覺或自然語言處理等領域不同,如果神經網絡學會了生命遊戲的規則,它將達到100% 的準確率,不會出現模稜兩可的情況——只要出現一次失敗,那就說明它沒有學會正確的規則。
研究人員首先創建了一個小型卷積神經網絡,並手動調整其參數,以便能夠預測網格細胞中的變化順序。這證明了有一個最小的神經網絡可以代表生命遊戲的規則。
然後,他們嘗試著從零開始訓練,看看同樣的神經網絡在能否達到最佳設置。他們將參數初始化為隨機值,並對神經網絡進行了100萬個隨機生成的生命遊戲實例的訓練。神經網絡達到100%準確率的唯一方法是收斂於手工製作的參數值。這意味著人工智慧模型已經將生命遊戲背後的規則參數化。
但在大多數情況下,經過訓練的神經網絡並沒有找到最優解,並且,隨著步數的增加,網絡性能進一步下降。
果然,訓練樣本集的選取和初始參數對神經網絡的訓練效果有很大影響。
最不幸的是,你永遠不會知道神經網絡的初始權重應該是多少。常見的做法是從正態分布中挑選隨機值。
雅各布·施普林格說:「對於許多問題,你在數據集方面沒有太多的選擇; 你可以收集數據,所以如果你的數據集有問題,你可能很難訓練神經網絡。」
大型神經網絡的性能
左圖: 一個手動調整的卷積神經網絡可以非常準確地預測生命遊戲的結果。右: 實踐中,當從頭開始訓練網絡時,需要一個更大的神經網絡來獲得同樣的結果
在機器學習中,提高表現不佳的模型準確性的流行方法之一就是增其複雜性。這個技巧在生命的遊戲中起到了作用。
隨著研究人員為神經網絡增加了更多的層次和參數,結果得到了改善,訓練過程最終產生了一個近乎完美的精確度的解決方案。
但是,一個更大的神經網絡也意味著訓練和運行深度學習模型的成本增加。
一方面,這表明了大型神經網絡的靈活性。雖然一個巨大的深度學習模型可能不是解決問題的最佳架構,但是它有更大的機會找到一個好的解決方案。但另一方面,它證明了可能存在一種更小的深度學習模型,能夠提供相同或更好的結果ーー如果你能找到它的話。
這些發現與麻省理工學院 CSAIL 的人工智慧研究人員在 ICLR 2019會議上提出的「彩票假說」是一致的。該假設認為,對於每一個大型神經網絡,如果它們的參數已經根據幸運中獎值初始化,就會有較小的子網絡可以收斂到一個解決方案,因此稱為「彩票」命名法。
生命遊戲論文的作者寫道: 「彩票假說認為,當訓練一個卷積神經網絡時,小型幸運子網絡會迅速聚集到一個解決方案上。」。「這表明,梯度下降優化不是通過權值空間廣泛搜索最優解,而是可能依賴於幸運的權值初始化,這些權值恰好將子網定位在接近網絡收斂到的合理局部極小值的位置。」
斯普林格說: 「我認為這些結果肯定會激勵人們研究改進的搜索算法,或者提高大型網絡效率的方法。」