大數據文摘作品
作者:小魚、土豆
《深度學習》(花書)作者Ian Goodfellow今早連發了10條推特,細數了他最喜歡的兩個機器學習「黑魔法」。他在著名的GAN論文中使用這兩個小竅門推導了公式。
最後,他還不忘操心大家的學習,推薦了一本關於凸優化的書。當然,更詳盡的操作還是要去看Goodfellow本人的《深度學習》。文摘菌給大家搭配了斯坦福的一門MOOC,一起學習風味更佳~拉至文末查看喔~
Goodfellow稱,這是關於機器學習,他最喜歡的兩個快速理解理論推導的「黑魔法」。
感興趣的同學在大數據文摘後臺回復「goodfellow」可獲取GAN論文和《凸優化》。
以下是Ian Goodfellow推特內容:
很多時候,我們用代數或微積分來分析神經網絡的最優行為。想實現一些函數的權重衰減或許可以用代數方法實現,但想要用代數方法解決神經網絡中大多數函數的參數優化問題就有些過於複雜。
為了得到一個不太複雜的模型,常見的方法就是使用線性模型,因為線性模型能很好的解決凸優化問題。但線性模型又過於簡單,其模型效果遠不及神經網絡。
黑魔法1:將神經網絡視為一個任意函數,因此可以在同一空間優化所有的函數f,而不是特定的神經網絡結構的參數theta。與使用參數和特定結構模型相比,這種方法非常簡潔。
將神經網絡視為一個函數,保留了線性模型的諸多優點:多種凸函數問題。例如,分類器的交叉熵損失在函數空間中就是一個凸優化問題。
這個假設並不準確,特別是與線性模型相比。但是根據通用逼近定理,神經網絡可以較好地近似任意函數。
黑魔法2:如果你在同一空間優化所有函數時遇到困難,可以將函數想像成一個高維向量的分量。此時,關於R^n中x的評估函數f(x),就變成了在一個向量中查找f_x,其中x是對分量的索引。
通過這種方式,對函數進行優化就變成了一個常規微積分問題。這種方法很直觀,但不是100%準確。有關更多正式版本和關於何時可以使用的限制信息,請參閱:
大數據文摘後臺回復「goodfellow」可獲取GAN論文和《凸優化》喲。