全文共2014字,預計學習時長4分鐘
現實生活中,機器學習模型訓練是數據科學中難度最大和計算成本最高的一種。幾十年以來,在單一公理假設訓練會覆蓋整個模型的影響下,人工智慧領域已經開發出了許多技術來提高機器學習模型的訓練。
最近,來自麻省理工學院的人工智慧研究員發表了一篇名為「Lottery Ticket Hypothesis(彩票假設)」的論文,在人工智慧領域備受關注。該論文關注模型分支,挑戰原先的假說並提出了一種更智能、更簡便的方法來訓練神經網絡。
機器學習模型訓練過程中,數據科學家往往需要在理論和現實解決措施的限制面前作出妥協。那些解決實際問題的神經網絡架構看似為最佳方法,但是由於訓練成本過高而不能充分執行下去。在起初訓練時,神經網絡一般需要大量數據集,同時需要昂貴的計算費用。而在此操作下,得出的是一張巨大的神經網絡結構,其中神經層和隱藏層之間互相連接,從而需要通過技術優化來移除其中一些連接並調整模型的大小。
幾十年來,有個問題一直困擾著人工智慧研究員們,即在開始訓練模型的時候,是否真的需要那些大型神經網絡結構。當然,假使連接架構中每個神經元,也許可以實現完成最初任務的模型,但是其中帶來的成本耗費是無法想像的。難道不能在一開始就組建更小更精簡的神經網絡架構嗎?這正是「彩票假設「討論的核心問題。
彩票假說
機器學習模型訓練就像賭博遊戲,通過購買所有可能中獎的彩票來博得大獎。但是如果我們知道如何中獎,難道就不能在挑選彩票的時候更加聰明一些嗎?
在機器學習模型中,訓練過程會產生與彩票同等大量的神經網絡結構。在第一次訓練後,模型需要進行技術優化,比如剪枝技術,在不損害神經網絡性能的前提下刪除神經網絡中不必要的部分以縮小模型。這就像在彩票袋裡搜尋那張中獎的彩票並且排除其他不會中獎的彩票一樣。
通常情況下,剪枝技術能將神經網絡結構的減少90%。自然而然,人們就會疑惑:如果可以減小神經網絡的大小,為了使得訓練更有效率,為什麼不去訓練更小的神經網絡結構呢?
自相矛盾的是,機器學習方案的實踐表明,修剪後的神經網絡結構起初更難以訓練,且訓練的精度比起原神經網絡更低。
麻省理工學院提出的「彩票假設「核心思想是大神經網絡會包含一些較小的子網絡,如果從起初就開始訓練,子網絡便可達到與原始網絡比肩的準確率。研究報告具體內容概括如下:
彩票假設理論:隨機初始化的密集神經網絡包含一個被初始化的子網絡。當單獨訓練該子網絡時,它可以在訓練之後,以最多相同的迭代次數匹配原始網絡的測試精度。
在本論文中,子網絡往往被指代為中獎彩票。
設定f(t, a, p) 形式的神經網絡,其中t =訓練時間,a =準確度,p =參數。現在考慮s是由修剪過程產生的原始結構的所有可訓練神經網絡的子集。「彩票假設」說明,某種程度上,一個F」(T」,A」,P」)s其中T」 <= T,A」> = a和p」 <= P。 簡單來說,傳統的剪枝訓練技術揭示了比原始網絡結構更小、更簡單的神經網絡結構。
如果「彩票假設「為真,顯而易見接下去需要找到確認中獎彩票的策略了。這個過程包含訓練和修剪的迭代過程,總結為以下五個步驟:
1. 隨機初始化一個神經網絡。
2. 訓練神經網絡直到其形成匯聚。
3. 對神經網絡進行剪枝訓練。
4. 要提取中獎彩票,請將網絡剩餘部分的權重重置為步驟(1)所示 (訓練開始前的初始值)。
5. 為了評估步驟(4)中產生的網絡是否確實是中獎票,訓練剪枝過且未經訓練的網絡並檢查其匯聚行為和準確性。
整個流程可以進行一次或多次。在一次性剪枝訓練中,神經網絡訓練為一次,對p%的神經網絡進行修剪並且重置餘留的權重。儘管一次性剪枝訓練一定有效,但是在n輪中迭代時,「彩票假設「才能出現最好的結果;每輪剪枝訓練在前一輪中餘留p1 / n%的權重。然而,一次性剪枝訓練通常產生非常可靠的結果,訓練也不需要昂貴的計算成本。
麻省理工學院的團隊在一組神經網絡架構中檢測了「彩票假設「理論,結果表明剪枝訓練技術不僅僅可以優化架構本身,還可以找到中獎的彩票。
結果中有兩點值得注意。中獎彩票沒有廣域網的剩餘冗餘,訓練速度更快。事實上,在合理範圍內,架構越小,訓練速度越快。但是,如果現在隨機重新初始化網絡權重(控制),生成的網絡比現在的完整網絡訓練速度更慢。因此,剪枝訓練不僅要找到正確的架構,還應該找到那個特別幸運的初始化神經網絡子組件——中獎彩票。
基於實驗結果,麻省理工學院的團隊對最初假設進行了擴展,提出彩票預測系統,表述如下:
彩票預測:回到最初的問題,將假設擴展為一個未經實證的猜想,即使用隨機梯度下降(SGD)尋找並訓練一個初始狀態良好的權重的自己。因為有更多可能的子網絡可從訓練中找到中獎票,密集、隨機、初始化的網絡比經過剪枝訓練產生的稀疏網絡更容易訓練。
這個猜想在概念上是說得通的,也就是說,經過剪枝訓練後的子網絡越大,找到中獎彩票的機率也就越大。
「彩票假設」理論可能成為近年來機器學習研究最重要的研究論文之一,因為它刷新了傳統神經網絡訓練的觀點。通常情況下,雖然我們採取的是通過訓練原始網絡,刪除連接和進一步微調來進行修剪,但是彩票假設告訴我們可以從一開始就學習最佳神經網絡結構。
留言 點讚 關注
我們一起分享AI學習與發展的乾貨
歡迎關注全平臺AI垂類自媒體 「讀芯術」