好不容易大學畢業了,終於逃脫了高數老師的魔掌,以為從今以後再也不用管那些什麼極限、微積分、矩陣、共軛、轉置、中值定理、拉格朗日、畢達哥拉斯……了。
然鵝,很不幸,當你企圖進軍機器學習的時候,你發現,當年你不應該在上數學課的時候偷瞄漂亮的女生,暗罵白髮的先生,而是應該好好聽講。
後悔是沒用的,行動起來,補習功課吧!我們從最基礎的求導微分概念開始。
一元函數
先來看最最簡單的一元函數的情況:
【導數】:函數y = f(x) 在點x0的某個鄰域內有定義, 則當自變量x在x0處取得增量 delta_x,函數輸出值也相應取得增量delta_y。
如果delta_y與delta_x的比值在delta_x趨於0時的極限存在,則f(x)在x0處的導數存在,即f(x)在x0處可導。該極限即為f(x)在x0處的導數,記作f』(x0)。
如果函數的自變量和取值都是實數的話,那麼函數在某一點的導數就是該函數所代表的曲線在這一點上的切線斜率。
【導函數】:若函數 f(x) 在其定義域包含的某區間 I 內每一個點都可導,則成f(x)在區間I內可導。
這時對於 I 內每一個確定的 x 值,都對應著 f(x) 的一個確定的導數值,如此一來就構成了一個新的函數 x -> f'(x) 這個函數稱作原來函數f(x) 的導函數,記作f'(x)。
【可導】:有兩種情況:
i) 在某點可導:若某函數在某一點導數存在,則稱其在這一點可導,否則稱為不可導。
ii)在某區間可導:若某函數在其定義域包含的某個區間內,每一個點都可導,那麼就說這個函數在該區間內可導。
【求導】:尋找已知的函數在i) 某點的導數或ii) 其導函數的過程稱為求導。
【導數 vs 導函數】:導數是函數的局部性質,是一個數,指函數f(x)在點 x0處導函數的函數值。導函數則是指在一個值域空間裡面,一個連續函數處處可導。不是所有的函數都有導數,一個函數也不一定在所有的點上都有導數。
在不至於混淆的情況下,通常也可以說導函數為導數。
【可微】:一個函數在其定義域中所有點都存在導數,則它是可微的。若X0是函數f(x)定義域上的一點,且f′(X0)有定義,則稱f(x)在X0點可微。
從圖像的角度分析,就是說f(x)的圖像在(X0, f(X0))點有非垂直切線,且該點不是間斷點、尖點。
若f(x)在X0點可微,則f(x)在該點必連續。逆命題則不成立,一個連續函數未必可微——可微必連續,連續未必可微。
【連續可微】:函數f(x)的導數f』(x)存在且是連續函數,則f(x)連續可微。
【微分】:設函數 y = f(x)在某區間I內有定義,且在其中一點x0處是可微的。
即:如果函數y = f(x)的增量delta_y = f(x0 + delta_x) - f(x0) 可表示為delta_y = Adelta_x + o(delta_x),其中A是不依賴於delta_x的常數,而o(delta_x)是比delta_x高階的無窮小。
其中,Adelta_x稱作函數f(x)在點x0向應用自變量增量delta_x的微分,記作dy,即dy = Adx, dy是delta_y的線性主部,dx = delta_x.
【可微 vs 可導】:對於一元函數,可微與可導完全等價。
可微的函數,其微分等於導數乘以自變量的微分dx,換句話說,函數的微分與自變量的微分之商等於該函數的導數。因此,導數也叫做微商。
於是函數 y = f(x)的微分又可記作 dy = f'(x)dx。
總結一下上面若干概念:
導數/導函數是名詞(一個東西),可導/可微是形容詞(一種屬性),求導/微分是動詞(做一件事)。
多元函數
相對於一元函數,多元函數的情況要更加複雜,多出了一個「偏」的概念。
【偏增量】:設函數z = f(x, y) 在點 (x0, y0)的某鄰域內有定義,則f(x + delta_x,y) – f(x,y)和 f(x, y + delta_y) - f(x, y) 都是它的偏增量。
【全增量】:設函數z = f(x, y) 在點 (x0, y0) 的某鄰域內有定義, (x + delta_x,y + delta_y)為這鄰域內的任意一點,則稱這兩點的函數值之差f(x + delta_x,y + delta_y)- f(x,y)為函數在點(x0, y0)對應自變量delta_x,delta_y的全增量,記作delta_z。
【偏導數】:一個多元函數中,在除了某個變量之外其他變量都保持恆定不變的情況下,關於這個變量的導數,是偏導數。
求偏導數時,除了當前變量之外的變量,被認為與當前變量無關。例如求f(x,y)在(x0,y0)處關於x的偏導數,則此時假定y與x無關。
【全導數】:求全導數中,允許其他變量隨著當前變量變化。也就是說求f(x,y) 在(x0,y0)處的全導數的時候,我們假定y隨 x變化。
【偏微分】:指多元函數z=f(x,y)的分別針對x和y微分。f(x,y)關於x和y的偏微分分別為:fx』(x,y)dx 和 fy』(x,y)dy。
【全微分】:指多元函數z=f(x,y)的全增量delta_z的線性主部,記作dz。
一個多元函數在某點的某鄰域內的各個偏導數都存在,且偏導函數在該點都連續,則在該點該多元函數的全微分存在。
【可微】:一個多元函數在某點的全微分存在,則該函數在該店可微。
換言之,如果一個多元函數的所有偏導數在某點的鄰域內存在且連續,那麼該函數在該點可微。
若多元函數在某點可微,則此函數在該點必連續。逆命題也不成立——可微必連續,連續未必可微。
【偏微分和全微分的關係】:dz= fx』(x,y)dx + fy』(x,y)dy —— 全微分等於偏微分之和。