雷鋒網按:本文原作者Aaron Yang,原載於知乎專欄。雷鋒網(公眾號:雷鋒網)已獲得作者授權。
導讀:首先我想在這裡聲明的是,本篇文章針對的是一些已經具備一定神經網絡知識的人。意在幫助大家梳理神經網絡中涉及的數學知識,以及理解其物理含義。希望大家讀過之後,可以使大家對於神經網絡有更多角度的理解,幫助大家推導以及理解其中的數學公式。(本篇文章在敘述方式上多以白話為主,意在讓大多數人有形象的概念,所以在嚴謹性與通俗性上難免會出現失衡問題,希望大家理解。分享的目的即分享,非教授!)
1. 線性代數
矩陣乘法我更喜歡稱作線性轉換。一個矩陣乘以向量中,矩陣相當於一個轉換函數,而向量是一個輸入,已知了輸入和函數,我們就可以知道輸出。這裡需要強調的是,向量共有兩種形式,一種為列向量,一種為行向量。在默認情況下,向量是指列向量。大部分的國內教材中,並沒有特意提到這一點。很多人接觸到編寫代碼時,都是以行向量的形式開始學習,導致後續有很多概念產生混淆。在本文中,若無特殊說明,向量的形式默認為列向量。
首先我們先看以下的 2 道熱身題:
1. 假設讀者並不知道矩陣乘法的運算準則,能否在假想的幾何空間中,快速地反應出答案是多少呢?給大家 30s。(記住,不可以通過運算法則來進行計算)
2. 同樣地,利用假想的幾何空間想像,是否可以立即解答出矩陣是什麼?
如果讀者可以快速解答出上面的問題,那麼恭喜您,您已經了解了線性代數空間轉換的本質;如果沒有解答出,那就是我寫這篇文章的意義。
先拋開上面兩道題,這裡來介紹一下矩陣。
線性代數與空間幾何是存在緊密的聯繫的。基本所有的線性代數都有其對應的幾何表示方法。理解幾何,是理解線性代數的核心所在。以二維空間作為例子,與是二維空間的單位基向量。任何的向量都是由這兩個單位基向量線性組合而成,並表示出來,例如。
現在,我們來看一張動圖:
更多動圖的信息請關注 3Blue1Brown主頁,裡面有大量衝破你數學世界觀的知識。3Blue1Brown 還有視頻集。B 站有做了很贊的漢化,不過更鼓勵大家去看英文原版視頻。
YouTube 視頻集連結
B 站漢化視頻集連結
在這張動圖的開始的階段,綠色向量代表 ,而紅色向量代表 。我們盯住這兩個基向量,觀察到在動圖的末尾,這兩個向量分別落在了 與 ,那麼,這兩個基向量組成的坐標系也隨著這兩個基向量的變換而線性變換,形成了動圖末尾中藍色直線組成的二維坐標。假設經歷了上圖的坐標變換,原來的向量 ,現在到了何處呢?
通過仔細觀察動圖 (一點一點數格子) 我們可以看到,原來的向量 變換為向量 。
我們來繼續看看表示方法:
原來: ,變換後: 。
這其中的區別就是基向量不一樣了,而線性組合的係數 與 保持固定不變。
我們把變換後的基向量放在一起,變為矩陣:
這就是矩陣的由來,其實質就是將坐標整體線性變換。向量 在經過線性變換 變為向量 表示形式為:
(注意:這裡的表示順序為變換矩陣在左,向量為列向量在右側。)
我們在來看另一幅動圖來實踐一下,找到這幅動圖的線性變換矩陣是什麼?
根據上面的方法,鎖定綠色與紅色基向量末尾的位置,這幅動圖的線性變換矩陣為 :
而其原來所有坐標系上的向量都隨之變換發生改變。
現在再回頭看看上面的兩道題?是否能夠通過想像的空間去快速找到答案?
上面我們講的是方陣,那麼如果不是方陣呢?比如一個 的矩陣,或者一個 的矩陣呢? (以下我們只用中括號來代表具體矩陣的形狀,具體數字並不重要。)
我們來以 矩陣形式舉例,如下所示:
的矩陣的物理含義就是把一個向量從二維表示方法轉換到三維表示。而轉換矩陣的每一列就代表:將二維空間對應的基向量轉換到三維的樣子。將這種變換規律映射到其他變換的二維向量;同樣地, 矩陣物理含義就是將一個向量從三維表示轉換成二維表示。轉換矩陣每一列代表:三維空間的基向量映射到二維空間之後的樣子。將這種變換規律映射到其他變換的三維向量。
現在,我們再進行下一步操作。如果我們假設讓一個 4 維向量,先轉化為 3 維向量,在轉化為二維向量,那麼它的形式是什麼樣子的呢?
第一步: 第二步:
將兩步合併到一起為:
通過以上形式,我們可以發現如果將一個列向量經過多次線性轉換,他的順序應該是從右至左的順序。這就是標準的線性代數書中所講到的連續線性變換的形式,從右至左也是線性代數數學家習慣的順序。
但是,在很多神經網絡包括深度學習網絡的課程中我們可以看到,更符合我們閱讀的順序是將一個輸入數據拿進來之後經過一次矩陣轉換,從左至右得到輸出結果。他們之間有什麼聯繫呢?
通過觀察我們可以知道,這其中最大的原因在於數據的形式,也就是上文中提到的每一個樣本表示方法是列向量還是行向量。如果是列向量,變換的順序就是從右至左;如果是行向量,變換順序就是從左至右。而相應的矩陣形狀也發生反轉。
對比
神經網絡中,大家都希望最終的形式為矩陣乘以矩陣,不希望中間有任何向量的存在,這樣顯得更酷,實際上計算也更快。這很簡單,現在我們只差最後一步。當我們把所有數據放在一起,還是如上方有 個 維行向量形式的數據,我們將這些行向量數據堆疊在一起形成 的矩陣,經過多個矩陣的變換之後輸出為一個 的矩陣。這樣,在計算過程中,全部為不同形狀的矩陣。當然,大家也可以想想如果是列向量該是什麼形式。
以上內容想說明的就是,無論是上方哪一種形式,都是正確的。關鍵看輸入的數據是什麼形式,形式決定了數據變換的順序,以及設計矩陣的形狀。
通過以上的形式,其實神經網絡前向傳導和向量在不同維度間的連續線性變換及其相似。唯一不同的一點就在於,在每次線性轉換後,神經網絡可以加一個非線性激活函數,使線性轉換變為非線性轉換。實際上,也就這麼點區別。而非線性激活函數並不會改變數據的形狀,對後續矩陣乘法不造成任何影響。
小結一下上面線性代數部分我們發現了什麼:
線性代數中的向量默認形式是列向量。
矩陣的實質就是將坐標整體線性變換。
矩陣的組合以列向量組合在一起,其代表各自的基向量變換之後的新向量是什麼。
矩陣與向量相乘,矩陣與矩陣相乘,順序很重要,其決定權在於實際問題中樣本的表達形式,是行向量還是列向量。
神經網絡的前向傳導與線性代數中連續對於向量的線性變換過程極其相似,只是在層與層之間多了非線性激活函數。
神經網絡求的是什麼?其實就是上方這麼多矩陣中每一個位置的數字是多少?這就是我們最終的目的。那麼如何求?這就需要微積分中鏈式法則的知識了。
2. 微積分
鏈式反向推導之所以很頭大,很大原因在於它將微積分求導和矩陣知識揉在一起。我儘量用儘量少的公式,記住極少的關鍵點,幫助大家去順利的推導神經網絡中運用到的鏈式推導。這樣對於公司的面試,還是實際科研過程中均不會發蒙。
我們都知道,神經網絡的目的是訓練網絡中的參數,即矩陣中每一個位置的數值。我們通過構建對於這些參數的損失函數,最終找到損失函數 最小值時的參數。最初的想法就是高中學習的求導的思路,只要導數等於 (這裡涉及矩陣求導),就找到了極值,也就找到了答案。但是由於網絡巨大(輸入數據維度大,每層網絡節點多,網絡層數多),計算資源消耗的也巨大(涉及矩陣求逆),以現在的設備,我們並不能一步到位的求出最小值,這也是為什麼我們在神經網絡中使用梯度下降法一步一步逼近最小值的原因。其公式如下:
這就是梯度下降的公式。 就是我們要所求的參數,它是一個轉換矩陣。而 是一個標量,即一個數字(以下用 來表示)。 是通過迭代一步一步優化出來的,在初始的時候隨機賦值。所以我們的目標就是搞清楚 是如何求出來的。
細化在神經網絡每一層,目標就是:
目標明確了,那麼我們是如何牽扯到鏈式求導呢?
先上圖,一個前饋神經網絡如下所示:
這裡展示了一個非常簡單的三層神經網絡,更多的層次大家可以開腦洞。圖中的的公式大家應該已經非常熟悉。 代表神將網絡每層的輸出值,是一個向量(一般是行向量);第一層的輸出值就是輸入值 ; 代表線性輸出; 代表激活函數; 為最終的輸出值;每一個字符的上表代表其層數。
這裡需要特別注意地是對於不同變量的上標層數對應關係一定不要弄混淆。比如 是神經網絡第 層與第 層之間的轉換矩陣,即 為第 層與第 層的轉換矩陣。
接下來,主角登場。我們要想知道神經網絡如何反向推導,只需記住這裡的唯一定義的變量 即可。
定義:
在一些翻譯的變量名中叫做 「殘差」。但是它是什麼名字並不重要,但建議不要根據這個名字去揣測它的物理含義。如果想明白了那當然很好,但是若想不透徹很容易與其他概念弄混淆,最後雲裡霧裡地以為自己懂了,但是自己推的時候仍然會錯。總而言之,只把它當做一個定義就好,背下來了就是了。而且,在鏈式推導中,只需要記住這個,其他的都好推。(注意: 也是向量,其形狀與 一致。)
我們的目標:逐層計算出
將目標展開:
我們看到,我們把目標分為前後兩部分。
第一部分,根據 的定義可得到
第二部分,根據 的定義可以得到
所以,我們的目標 或者
到這裡,我們很輕鬆地導出了我們目標的通項公式,是不是很簡單?就是做了個分解,然後分別求導,再組合在一起,就可以了。在這裡,我們可以得到另外一條很有意思的結論,那就是我們求每一層轉換矩陣的導數(參數的導數)與最終目標函數 的具體形式無關,這點是不是很神奇?
(注意:我們需要驗證分解的兩項是否可以進行矩陣乘法運算,並且最終矩陣的形狀符合規定。這裡又與變量自身的形狀有關。我們觀察發現,在分解的第一部分中,最後一項多出了一個字符 ,這裡代表轉置。這個是矩陣求導的法則,通過最後公式的法則也可以驗證。這部分有些複雜。但是,我們可以完全繞過去這樣複雜的關係。這裡有個小技巧:若記不住這兩項矩陣相乘誰在前,誰在後,誰轉置,誰不動。只要記住 與 的形狀是一致的,在求出 與 之後,根據矩陣乘法的法則,隨便試出最後相乘的形狀符合 的形狀即可,很快就可以試出正確答案。)
所謂反向推導,就是根據後一項的結果去計算前一項。我們 「通項公式」 搞到手了,那麼最後一層的 「殘差」 是多少呢?
我們用 來代表最後一層。根據 的公式,我們可以依然進行如下分解:
從這個公式中我們可以看出我們將最後一層 「殘差」 又分解為兩部分。下面,我們分別看看在一般的回歸問題與二分類問題中 到底長什麼樣子。
1. 回歸問題
損失函數:
求解分解後的第一部分:因為在回歸問題中,最後一層是沒有激活函數的,或者說激活函數為 乘以其輸入值。所以,激活函數的導數就為 。則有:
求解分解後的第二部分:
所以最終,我們求得:
2. 二分類問題
損失函數:
求解分解後的第一部分:二分類問題中,激活函數 ,其導數為 。則有:
求解分解後的第二部分:
所以最終,我們求得:
我們驚奇地發現,在對於回歸問題與二分類問題中,雖然損失函數與最後一層的激活函數均不一樣,但是其結果居然是同一個值。這是否是巧合?也許只有深入了解為何這樣設計損失函數與激活函數之後,我們才會知道答案。大家還可以想想,多分類問題的結果呢?
上述的推導中,我們也可以得到結論:在最後一層 「殘差」 中,是與損失函數 和最後一層的激活函數 兩項有關的。
小結一下神經網絡部分的一些要點:
記住前饋網絡中各個變量上標層數表達方式。各個教科書上表達可能會存在不同,一定要認真觀察清楚。
牢記 的定義,是推導整個鏈式推導中最重要的一環。
在神經網絡 層的鏈式推導中,我們的目標是 ,將其利用帶有 項進行展開;而在最後一層 層中我們主要推導的目標是 ,利用其定義將其展開。
在經典的回歸與二分類問題中,其 結果完全相同,但計算過程卻完全不同。
總結
希望經過上述自己的梳理,大家對於神經網絡中涉及到的數學知識有了更進一步形象化的了解。當然,本文中加入大量自己的理解,若有不同意見,歡迎大家來共享 idea。
雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。