一文讀懂深度學習中的矩陣微積分,fast.ai創始人&ANTLR之父出品

2020-12-04 量子位

魚羊 編譯整理

量子位 報導 | 公眾號 QbitAI

想要真正了解深度神經網絡是如何訓練的,免不了從矩陣微積分說起。

雖然網絡上已經有不少關於多元微積分和線性代數的在線資料,但它們通常都被視作兩門獨立的課程,資料相對孤立,也相對晦澀。

不過,先別打退堂鼓,來自舊金山大學的Terence Parr教授說:矩陣微積分真的沒有那麼難。

這位ANTLR之父和fast.ai創始人Jeremy Howard一起推出了一篇免費教程,旨在幫你快速入門深度學習中的矩陣微積分。簡明,易懂。

DeepMind研究科學家Andrew Trask評價說:

如果你想跳過不相干的內容,一文看盡深度學習中所需的數學知識,那麼就是這份資源沒錯了。

只需一點關於微積分和神經網絡的基礎知識,就能單刀直入,開始以下的學習啦。

深度學習所需的矩陣微積分

先來看一眼這篇教程都涵蓋了哪些內容:

基本概念矩陣微積分神經元激活的梯度神經網絡損失函數的梯度

文章開篇,先介紹了一下人工神經元。

神經網絡中單個計算單元的激活函數,通常使用權重向量w與輸入向量x的點積來計算。神經網絡由許多這樣的單位組成。它們被組織成稱為層的神經元集合。上一層單元的激活成為下一層單元的輸入,最後一層中一個或多個單元的激活稱為網絡輸出。訓練神經元意味著對權重w和偏差b的選擇。我們的目標是逐步調整w和b,使總損失函數在所有輸入x上都保持較小。

導數規則、向量計算、偏導數……複習完需要掌握的先導知識,文章開始進入重要規則的推導,這些規則涉及矢量偏導數的計算,是神經網絡訓練的基礎。

比如在矩陣微積分這一節中,涵蓋:

雅可比式(Jacobian)的推廣向量element-wise二元算子的導數涉及標量展開的導數向量和降維鏈式法則

每一小節中,都有簡潔明了的示例,由淺入深,層層遞進。

如果你在學習的過程中遇到不理解的地方,不要著急,耐心返回上一節閱讀,重新演算一下文中的示例,或許就能理順思路。

如果實在是卡住了無法推進,你還可以在fast.ai論壇(連結見文末)的「Theory」分類下提問,向Parr和Howard本人求解答。

而在文章的末尾,作者附上了所有數學符號的對照表。

以及重點概念的詳細補充信息。

值得注意的是,Parr和Howard也強調了,與其他學術方法不同,他們強烈建議先學會如何訓練和使用神經網絡,然後再深入了解背後的基礎數學。因為有了實踐經驗,數學會變得剛容易理解。

傳送門

網頁版:

https://explained.ai/matrix-calculus/index.html

PDF:

https://arxiv.org/abs/1802.01528

fast.ai論壇:

http://forums.fast.ai/

— 完 —

相關焦點

  • 深度學習自學指南:6個月,從基礎知識到模型構建
    原作:Bargava安妮 編譯自 Medium量子位 出品 | 公眾號 QbitAI給你6個月的時間開始學習深度學習,能夠達到怎樣的程度?在這篇文章中,數據科學培訓老師Bargava就帶你半年入門深度學習。在這份攻略中,我將給大家講講零基礎入門深度學習可行性強的資料和學習方法。
  • 一文帶你讀懂計算機視覺
    -36d53571365e a comparison of r-cnn, fast r-cnn, faster r-cnn and yolo最近深度學習的迅速發展,可以看到許多新架構取得了很大成功。一個卷積層利用圖像的2D結構在神經網絡的下一層中生成有用信息。
  • 理解深度學習中的學習率及多種選擇策略
    本文的大部分內容都是以 fast.ai 研究員寫的內容 [1], [2], [5] 和 [3] 為基礎的。本文是一個更為簡潔的版本,通過本文可以快速獲取這些文章的主要內容。如果您想了解更多詳情,請參閱參考資料。首先,什麼是學習速率?學習速率是指導我們該如何通過損失函數的梯度調整網絡權重的超參數。學習率越低,損失函數的變化速度就越慢。
  • 「AI白身境」入行AI需要什麼數學基礎:左手矩陣論,右手微積分
    2.2 傳統機器學習算法基礎傳統機器學習算法本來不應該放在這裡說,但是因為其中有一部分算法用到了概率論,所以也提一句。有很多人在知乎上問,搞深度學習還需要傳統機器學習基礎嗎?當然要!且不說這個傳統機器學習算法仍然在大量使用,光是因為它經典,就值得學習一下,依舊推薦一本書。
  • 一文弄清深度學習、TensorFlow和張量之間的關係
    原標題:一文弄清深度學習、TensorFlow和張量之間的關係 我們今天所用的許多深度學習系統都是基於張量代數的,比如谷歌的TensorFlow,但是張量代數與深度學習的關係到底如何?
  • 深度學習下的醫學圖像分析(二)
    在《深度學習下的醫學圖像分析》系列的第一篇文章中,我們介紹了一些使用OpenCV和DICOM圖像基礎知識進行圖像處理的過程。本文,我們將從「卷積神經網絡」的角度討論深度學習。雖然這些層的組合排列各異,但是在不同的排列中還是存在一些規律的,給我們提供了不同的深度學習架構。 輸入層:一般情況下,我們輸入至「卷積神經網絡」的通常是一個n維數組。如果是一張圖像,我們有彩色通道的三維輸入——長、寬、高。
  • 一文讀懂圖神經網絡
    小聲:今天老闆說深度學習必須學習python,於是:一、介紹什麼是圖神經網絡圖神經網絡(Graph Neural Networks, GNNs)是基於圖結構的深度學習方法,近期被廣泛應用到各類圖像為單位矩陣;由於鄰接矩陣是沒有進行正則化的,所以論文中通過
  • 用谷歌圖片搜索自製深度學習數據集 | 教程
    用谷歌圖片搜索自製深度學習數據集 | 教程 銅靈 編譯整理 就怕前腳剛立志搞個新研究,後腳就發現沒有合適的數據集可用。AI工程師從入門到放棄,可能就是這麼一會的功夫。 別找了,現在深度學習數據集也能自制了。
  • 一場突如其來的討論:到底什麼是深度學習?SVM其實也是深度學習嗎?
    雷鋒網 AI 科技評論按:2019 年底、2020 年初,許多機器學習界活躍的教授、研究員們投身參與了一場的突如其來的討論:深度學習是什麼?在過去十年洶湧而來的深度學習浪潮中,大家對深度學習在應用中體現出的各種特點已經非常熟悉了,但畢竟深度學習的理論仍未建立完善。
  • 在Netflix 評論中做情感分析的深度學習模型
    評論中人的感情的深度學習模型。現在,均值向量y_mean可以用編碼的方式來表示評論中的特徵。我們需要在模型最後增加一個分類層,使用均指向量y_mean將評論劃分為正向情感類和負向情感類。在最終的分類層中,需要將均值向量y_mean和權重矩陣W相乘。以上描述的情感分析過程已經在我的GitHub repo上一個深度學習模型中實現。歡迎你來嘗試和復現。
  • 一文帶你讀懂深度學習:AI 認識世界的方式如同小孩
    電腦學習分辨貓,或者一個平片假名的過程很難被人理解。但是仔細觀察之後我們會發現,機器學習背後的基礎理論並沒有一開始看上去的那麼難以捉摸。一種解決辦法是我們接收到的光子和空氣振動,到了電腦上就會以數字圖像的像素和錄音的聲音片段呈現出來。然後試著從數據中提取一串圖案用來探測並識別周圍世界的物體。這種自底向上的研究方法在一些哲學家和心理學家的理論中也可以找到,比如約翰·密爾。
  • 回望2017,基於深度學習的NLP研究大盤點
    在過去的幾年裡,深度學習(DL)架構和算法在諸如圖像識別和語音處理等領域取得了世人矚目的進步。然而在最開始的時候,深度學習在自然語言處理(Natural Language Processing, NLP)領域的效果一般,但是現在已經被證實深度學習在自然語言處理領域依然能夠發揮巨大的作用。並且在一些常見的自然語言處理任務中,基於深度學習的方法已經取得了最佳的結果。
  • 把梯度下降算法變成酷炫遊戲,這有一份深度學習通俗講義
    點擊播放 GIF 0.0M以上是fast.ai創始人Jeremy Howard分享的一段視頻,乍看就像就像是在複雜地形中作戰的沙盤推演,其實揭示的是隨機梯度下降上面的熱門視頻就是摘自fast.ai成員Javier Ideami寫的一篇科普文。如果代碼和公式讓你感到枯燥,那麼不妨從這段酷炫的SGD視頻入手,再讀一讀這篇文章,它會幫你更直觀地理解深度學習。梯度下降算法的可視化到底什麼是梯度?深度學習的架構和最新發展,包括CNN、RNN、造出無數假臉的GAN,都離不開梯度下降算法。
  • 還不會使用PyTorch框架進行深度學習的小夥伴,看過來
    選自heartbeat.fritz.ai作者:Derrick Mwiti機器之心編譯參與:Geek AI、王淑婷這是一篇關於使用 PyTorch 框架進行深度學習的教程,讀完以後你可以輕鬆地將該框架應用於深度學習模型。
  • 教程| 基礎入門:深度學習矩陣運算的概念和代碼實現
    本文從向量的概念與運算擴展到矩陣運算的概念與代碼實現,對機器學習或者是深度學習的入門者提供最基礎,也是最實用的教程指導,為以後的機器學習模型開發打下基礎。在我們學習機器學習時,常常遇到需要使用矩陣提高計算效率的時候。如在使用批量梯度下降迭代求最優解時,正規方程會採用更簡潔的矩陣形式提供權重的解析解法。
  • 深度學習與統計力學(I) :深度學習中的基礎理論問題
    這些見解產生了深度學習與各種物理和數學主題之間的聯繫,包括隨機曲面、自旋玻璃、幹擾、動態相變、混沌、黎曼幾何、隨機矩陣理論、自由概率和非平衡統計力學。事實上,統計力學和機器學習領域長期以來都有著豐富的強耦合相互作用的歷史,而統計力學和深度學習交叉點的最新進展表明,這些相互作用只會加深未來的發展。
  • 通過周期性學習率和快照集成來克服在訓練深度學習中的精度限制
    1.原因 W = W + learning rate * dJ/dW 讓我們問一個簡單的問題:什麼時候一個神經網絡停止學習
  • 關於深度學習你必須知道的幾個信息理論概念
    資訊理論是一個重要的領域,它對深度學習和人工智慧作出了重大貢獻,但很多人對它卻並不了解。資訊理論可以看作是微積分、概率論和統計學這些深度學習基本組成部分的複雜融合。香農還引入了「bit」這個詞,這一革命性的想法不僅奠定了資訊理論的基礎,而且為人工智慧等領域的進步開闢了新的途徑。下面將討論深度學習和數據科學中四種流行的,廣泛使用的和必須已知的資訊理論概念:熵也可以稱為信息熵或香農熵。
  • PyTorch官方出品了一本深度學習書,免費提供給開發者
    剛剛,PyTorh在官方Twitter上放出這一消息,並宣布這本書將免費提供給社區。根據出版商Manning出版社的介紹,這本書的核心,是教你如何使用Python 和 PyTorch 實現深度學習算法。