選自Psychology Today
作者:Cami Rosso
機器之心編譯
編輯:陳萍、杜偉
在本文中,來自 MIT 的研究者探討了關於深度學習中非常基礎的問題,包括網絡的近似能力、優化的動態規律和強泛化能力等。
人工智慧(AI)的復甦很大程度上歸功於深度學習在模式識別方面的快速發展。深度神經網絡架構的構建一定程度上受到了生物大腦和神經科學的啟發。就像生物大腦的內部運行機制一樣,深度網絡在很大程度上無法得到解釋,沒有一個統一的理論。對此,來自麻省理工學院(MIT)的研究者提出了深度學習網絡如何運行的新見解,有助於人們揭開人工智慧機器學習的黑匣子。
論文地址:https://cbmm.mit.edu/sites/default/files/publications/PNASlast.pdf
論文作者 Tomaso Poggio、Andrzej Banburski 和 Quianli Liao 來自 MIT 大腦、心智和機器中心(Center for Brains, Minds and Machines, CBMM),其中 Tomaso Poggio 是 MIT 計算神經學科「大家」,也是深度學習理論研究的先鋒。他們創建了一種新的理論來解釋深度網絡的運行原因,並於 2020 年 6 月 9 日在 PNAS(美國國家科學院院刊)上發表了他們的研究成果。
Tomaso Poggio
值得強調的是,這篇論文的 editor 是 Stanford 理論大咖 David L. Donoho,他的研究方向主要包括諧波分析、信號處理、深度學習以及壓縮感知。
研究者重點探究了深度網絡對某些類型的多元函數的近似,這些函數避免了維數災難現象,即維數準確率與參數量成指數關係。在應用機器學習中,數據往往是高維的。高維數據的示例包括面部識別、客戶購買歷史、病人健康檔案以及金融市場分析等。
深度網絡的深度是指計算的層數——計算層數越多,網絡越深。為了闡明自己的理論,三位研究者檢驗了深度學習的近似能力、動態優化以及樣本外性能。
深度網絡的近似能力
對於一般的範例如下:為了確定一個網絡的複雜性,使用函數 f (x ) 表示,理論上應當保證一個未知目標函數 g 的近似達到給定的準確率(> 0)。特別地,深度網絡在近似函數方面比淺層網絡具備更好的條件。這兩種類型的網絡都使用相同的操作集——點積、線性組合、單一變量的固定非線性函數、可能的卷積和池化。
如下圖 1 所示,網絡中的每個節點對應於要近似的函數的圖中的節點。結果發現,深度網絡具有比淺層網絡更好的近似能力。
研究者發現通過具有局部層級的深度卷積網絡,指數成本消失,並再次變得更加線性。然後證明了對於特定類型的複合函數,卷積深度網絡可以避免維數災難。這意味著,對於具有局部層級問題,例如圖像分類,淺層網絡與深度網絡之間的差距是指數級的。
「在近似理論中,無論是淺層網絡還是深度網絡,都在以指數代價近似連續函數,然而,我們證明了對於某些類型的組合函數,卷積型的深度網絡(即使沒有權重共享)可以避免維數災難」,研究者表示。
優化的動態規律
之後該團隊解釋了為什麼參數過多的深度網絡在樣本外數據上表現良好。該研究證明對於分類問題,給定一個用梯度下降算法訓練的標準深度網絡,那麼重要的是參數空間的方向,而不是權重的範數或大小。
參考文獻 27 的最新結果說明了在二元分類線性網絡的特殊情況下過擬合的明顯缺失。他們證明了最小化損失函數,如 logistic 函數、交叉熵和指數損失函數等會使線性可分離數據集的最大邊值解漸近收斂,不受初始條件的影響,也不需要顯式正則化。這裡該研究討論了非線性多層深度神經網絡(DNN)在指數型損失下的情況,如下圖 2 所示:
左圖顯示了在數據集(CIFAR-10)相同、初始化不同的網絡上,測試與訓練交叉熵損失的對比,結果顯示在訓練集上產生的分類誤差為零,但測試誤差不同;右圖顯示了在相同的數據、相同的網絡上測試與訓練損失的對比。
研究者這樣描述:「在描述經驗指數損失最小化的特徵時,我們考慮的是權重方向的梯度流,而不是權重本身,因為分類的相關函數對應於歸一化網絡。動態歸一化權值與單位範數約束下最小化損失的約束問題等價。特別地,典型動態梯度下降與約束問題具有相同的臨界點。」
這意味著深度網絡上的動態梯度下降與那些對參數的範數和大小都有明確約束的網絡等價——梯度下降收斂於最大邊值解。研究者發現了線性模型的相似性,在這種模型中,向量機收斂到偽逆解,目的是最小化解的數量。
事實上,研究者假定訓練深度網絡的行為是為了提供隱式正則化和範數控制(norm control)。科學家們把深度網絡的這種能力歸因為泛化,而無需對正則化項或權重範數進行明確的控制,而對於數學計算問題,則表明不管在梯度下降中是否存在強制約束,單位向量(從梯度下降的解中計算)保持不變。換言之,深度網絡選擇最小範數解,因此具有指數型損失的深度網絡的梯度流具有局部最小化期望誤差。
「我們認為,這項研究結果特別有趣,因為它可能解釋了深度學習領域出現的最大謎團之一,即卷積深度網絡在一些感知問題上的不合理有效性」,研究者寫道。
隨著應用數學、統計學、工程學、認知科學以及計算機科學跨學科的交融,研究者開發了一種關於為什麼深度學習有效的理論,它可能會促進新的機器學習技術的發展,並在未來加速人工智慧的突破。