深度學習和機器學習的線性代數入門

2020-12-11 雷鋒網

譯者:AI研習社(季一帆

雙語原文連結:https://www.yanxishe.com/TextTranslation/2965


本文完整代碼見Github或直接在Google Colab運行測試。

本文目錄

  1. 引言

  2. 機器學習ML和深度學習NN中的線性代數

  3. 矩陣

  4. 向量

  5. 矩陣乘法

  6. 轉置矩陣

  7. 逆矩陣

  8. 正交矩陣

  9. 對角矩陣

  10. 正規方程的轉置矩陣和逆矩陣

  11. 線性方程

  12. 向量範數

  13. L1範數/Manhattan範數

  14. L2範數/Euclidean範數

  15. ML中的正則化

  16. Lasso

  17. 特徵選擇與抽取

  18. 協方差矩陣

  19. 特徵值與特徵向量

  20. 正交性

  21. 正交集

  22. 擴張空間

  23. 主成分分析(PCA)

  24. 矩陣分解

  25. 總結

引言

機器學習和深度學習建立在數學原理和概念之上,因此AI學習者需要了解基本數學原理。在模型構建過程中,我們經常設計各種概念,例如維數災難、正則化、二進位、多分類、有序回歸等。

神經元是深度學習的基本單位,該結構完全基於數學概念,即輸入和權重的乘積和。至於Sigmoid,ReLU等等激活函數也依賴於數學原理。

正確理解機器學習和深度學習的概念,掌握以下這些數學領域至關重要:

機器學習和深度學習中的線性代數

在機器學習中,很多情況下需要向量化處理,為此,掌握線性代數的知識至關重要。對於機器學習中典型的分類或回歸問題,通過最小化實際值與預測值差異進行處理,該過程就用到線性代數。通過線性代數可以處理大量數據,可以這麼說,「線性代數是數據科學的基本數學。」

在機器學習和深度學習中,我們涉及到線性代數的這些知識:

通過線性代數,我們可以實現以下機器學習或深度學習方法:

  • 推導回歸方程

  • 通過線性方程預測目標值

  • 支持向量機SVM

  • 降維

  • 均方差或損失函數

  • 正則化

  • 協方差矩陣

  • 卷積


矢量積

矩陣

矩陣是線性代數的重要概念。一個m*n矩陣包含mn個元素,可用於線性方程組或線性映射的計算,也可將其視為一個由m*n個實值元素組成的元組。


矩陣表示

向量

在線性代數中,向量是大小為n*1的矩陣,即只有一列。


矩陣表示

矩陣乘法

矩陣乘法是行和列的點積,其中一個矩陣的行與另一個矩陣列相乘並求和。


矩陣乘法

矩陣乘法在線性回歸中的應用

通過多種特徵可以預測房屋價格。下表展示了不同房屋的特徵及其價格。


不同房屋的特徵及其價格


特徵變量與目標變量

令:


特徵及其係數


房價預測函數

轉置矩陣

對於矩陣A∈R^m*n,有矩陣B∈R^n*m滿足b_ij = a_ij,稱為A的轉置,即B=A^T。


A的轉置

逆矩陣

對n階矩陣A,有矩陣B∈R^n*n滿足AB =I_n(單位矩陣)= BA的性質,稱B為A的逆,表示為A^-1。


矩陣A和B


A和B相乘


A、B互為逆矩陣(得到單位矩陣)

正交矩陣

若且唯若矩陣列向量組是單位正交向量組時,n階矩陣A∈R^n*n是正交矩陣,有:


正交矩陣


矩陣A及其轉置


矩陣A及其轉置的乘積 

對角矩陣

在n階矩陣A∈R^n*n中,除主對角線上的元素,其他所有元素均為零,稱其為對角矩陣,即:

Aij =0,i != j  


對角矩陣

正規方程的轉置矩陣和逆矩陣

正規方程通過計算theta j的導數,將其設為零來最小化J。無需Gradient Descent就可直接得到θ的值,θ見下圖。


最小化誤差

通過上式實現前文「房價預測」。


以矩陣形式表示特徵x和目標值y

創建特徵x和目標y的矩陣:

import numpy as np Features
x = np.array([[2, 1834, 1],[3, 1534, 2],[2, 962, 3]])# Target or Pricey = [8500, 9600, 258800]

計算x的轉置:

# Transpose of xtranspose_x = x.transpose()transpose_x



特徵x矩陣的轉置

轉置矩陣與原矩陣x的乘積:

multi_transpose_x_to_x = np.dot(transpose_x, x)


轉置矩陣與原矩陣x的乘積 

轉置矩陣與原始矩陣乘積的逆:

inverse_of_multi_transpose_x_to_x = np.linalg.inv(multi_transpose_x_to_x)


逆矩陣

x的轉置與y的乘積:

multiplication_transposed_x_y = np.dot(transpose_x, y)


x的轉置與y的乘積 

theta值計算:

theta = np.dot(inverse_of_multi_transpose_x_to_x, multiplication_transposed_x_y)


theta

線性方程

線性方程是線性代數的核心,通過它可以解決許多問題,下圖是一條直線方程。



線性方程y=4x-5及其圖示

當x=2時:


由上述線性方程式得出的y

線性回歸中的線性方程

回歸就是給出線性方程的過程,該過程試圖找到滿足特定數據集的最優曲線,即:

Y = bX + a

其中,a是Y軸截距,決定直線與Y軸相交的點;b是斜率,決定直線傾斜的方向和程度。

示例

通過線性回歸預測平方英尺和房屋價格的關係。

數據讀取:

import pandas as pd
df = pd.read_csv('house_price.csv')
df.head()


房價表

計算均值:

def get_mean(value):
    total = sum(value)
    length = len(value)
    mean = total/length
    return mean

計算方差:

def get_variance(value):
    mean = get_mean(value)
    mean_difference_square = [pow((item - mean), 2) for item in value]
    variance = sum(mean_difference_square)/float(len(value)-1)
    return variance

計算協方差:

def get_covariance(value1, value2):
    value1_mean = get_mean(value1)
    value2_mean = get_mean(value2)
    values_size = len(value1)
    covariance = 0.0    for i in range(0, values_size):
        covariance += (value1[i] - value1_mean) * (value2[i] - value2_mean)
    return covariance / float(values_size - 1)

線性回歸過程:

def linear_regression(df):
   X = df['square_feet']
   Y = df['price']
   m = len(X)
   square_feet_mean = get_mean(X)
   price_mean = get_mean(Y)
   
   #variance of X
   square_feet_variance = get_variance(X)
   price_variance = get_variance(Y)
   
   covariance_of_price_and_square_feet = get_covariance(X, Y)
   w1 = covariance_of_price_and_square_feet / float(square_feet_variance)    w0 = price_mean - w1 * square_feet_mean
   
   # prediction --> Linear Equation
   prediction = w0 + w1 * X
   
   df['price (prediction)'] = prediction
   return df['price (prediction)']

 以上級線性回歸方法:


預測價格

線性回歸中的線性方程:


向量範數

向量範數可用于衡量向量的大小,也就是說,範數|| x ||表示變量x的大小,範數|| x-y ||表示兩個向量x和y之間的距離。

向量範數計算公式:


常用的向量範數為一階和二階:

  • 一階範數也叫Manhattan範數

  • 二階範數也叫Euclidean範數 

在正則化中會用到一階和二階範數。

一階範數/Manhattan範數

x∈R^n的L1範數定義為:



一階範數示意圖

L2範數/Euclidean範數

x∈R^n的L2範數定義為:



二階範數示意圖

機器學習中的正則化

正則化是指通過修改損失函數以懲罰學習權重的過程,是避免過擬合的有效方式。

正則化在機器學習中的作用:

標準正則化技術包括:

L1正則化(Lasso)

Lasso正則化應用廣泛,其形式為:


L2正則化(Ridge)

Ridge正則化表達式:


其中,通過λ調整懲罰項的權重進行控制。

特徵提取和特徵選擇

特徵提取和特徵選擇的主要目的是選擇一組最佳的低維特徵以提高分類效率,以避免維數災難。在實踐中,通過矩陣操作實現特徵選擇和特徵提取。

特徵提取

在特徵提取中,我們通過映射函數從現有特徵中找到一組新特徵,即:


特徵選擇

特徵選擇是指從原始特徵中選擇部分特徵。


主要特徵抽取方法包括主成分分析PCA和線性判別分析LDA。其中,PCA是一種典型的特徵提取方法,了解協方差矩、特徵值或特徵向量對於理解PCA至關重要。

協方差矩陣

在PCA推導過程中,協方差矩陣起到至關重要的作用。以下兩個概念是計算協方差矩陣的基礎:

方差



方差的局限性在於,無法表示變量之間的關係。

協方差

協方差用于衡量兩個變量之間的關係:


協方差矩陣

協方差矩陣是方陣,其中每個元素表示兩個隨機矢量之間的協方差。


協方差矩陣的計算公式:


特徵值與特徵向量

特徵值:令m為n*n矩陣,如果存在非零向量x∈R^n,使得mx =λx,則標量λ為矩陣m的特徵值。

特徵向量:上式中向量x稱為特徵值λ的特徵向量。

特徵值與特徵向量的計算

若n階矩陣m有特徵值λ和相應特徵向量x,有mx =λx,則mx —λx= 0,得到下式:


求解方程的λ可得到m的所有特徵值

示例:

計算一下矩陣的特徵值和特徵向量。


解:







因此,矩陣m有兩個特徵值2和-1。每個特徵值對應多個特徵向量。

正交性

如果向量v和w的點積為零,稱兩向量正交。

v.w = 0

例如:



正交集

如果某一集合中的所有向量相互正交,且均為單位長度,稱為規範正交集合。其張成的子空間稱為規範正交集。

擴張空間

令V為向量空間,元素v1,v2,…..,vn∈V。

將這些元素與標量相乘加和,所有的線性組合集稱為擴張空間。


示例:


Span (v1, v2, v3) = av1 + bv2 + cv3


向量空間的基是一組向量,通過基向量的線性可以組成向量空間中任意一個元素。

示例:

假設向量空間的一組基為:


基向量元素是相互獨立的,如:



主成分分析PCA

通過PCA能夠對數據進行降維,以處理儘可能多的數據。其原理是:找到方差最大的方向,在該方向上進行投影以減小數據維度。

PCA的計算方法:

設有一個N*1向量,其值為x1,x2,…..,xm。

1.計算樣本均值


2.向量元素減均值


3.計算樣本協方差矩陣


4.計算協方差矩陣的特徵值和特徵向量


5.降維:選擇前k個特徵向量近似x(k <N)

python實現主成分分析

為實現PCA,需要實現以下功能:

  • 獲取協方差矩陣

  • 計算特徵值和特徵向量

  • 通過PCA了解降維

Iris數據導入

import numpy as np
import pylab as pl
import pandas as pd
from sklearn import datasets
import matplotlib.pyplot as pltfrom sklearn.preprocessing import StandardScalerload_iris = datasets.load_iris()iris_df = pd.DataFrame(load_iris.data, columns=[load_iris.feature_names])iris_df.head()


標準化

標準化數據使得所有特徵數據處於同一量級區間,有利於分析特徵。

standardized_x = StandardScaler().fit_transform(load_iris.data)
standardized_x[:2]


計算協方差矩陣

covariance_matrix_x = np.cov(standardized_x.T)
covariance_matrix_x


計算協方差矩陣得特徵值和特徵向量

eigenvalues, eigenvectors = np.linalg.eig(covariance_matrix_x)

eigenvalues



特徵值的方差

total_of_eigenvalues = sum(eigenvalues)
varariance = [(i / total_of_eigenvalues)*100 for i in sorted(eigenvalues, reverse=True)]
varariance


上圖中的方差值分別表示:

  • 1st 成分 = 72.96%

  • 2nd  成分  = 22.85%

  • 3rd  成分  = 3.5%

  • 4th  成分  = 0.5%

可以看到,第三和第四成分具有很小的方差,可以忽略不記,這些組分不會對最終結果產生太大影響。

保留佔比大的第一、第二成分,並進行以下操作:

eigenpairs = [(np.abs(eigenvalues[i]), eigenvectors[:,i]) for i in range(len(eigenvalues))]
# Sorting from Higher values to lower valueeigenpairs.sort(key=lambda x: x[0], reverse=True)eigenpairs


計算Eigenparis的矩陣權重

matrix_weighing = np.hstack((eigenpairs[0][1].reshape(4,1),eigenpairs[1][1].reshape(4,1)))
matrix_weighing


將標準化矩陣乘以矩陣權重


繪圖

plt.figure()target_names = load_iris.target_names
y = load_iris.targetfor c, i, target_name in zip("rgb", [0, 1, 2], target_names):
   plt.scatter(Y[y==i,0], Y[y==i,1], c=c, label=target_name)plt.xlabel('PCA 1')
plt.ylabel('PCA 2')
plt.legend()
plt.title('PCA')
plt.show()


Iris數據的主成分分析示意圖

矩陣分解

矩陣分解在機器學習中也至關重要,該過程本質上是將矩陣分解為矩陣的乘積。

常用的矩陣分解技術有LU分解,奇異值分解(SVD)等。

奇異值分解(SVD)

SVD可用於減小數據維度,奇異值分解如下:

令M為矩陣,其可以分解為三個矩陣的乘積,即正交矩陣(U),對角矩陣(S)和正交矩陣(V)的轉置。


結論

機器學習和深度學習是建立在數學概念之上的,掌握理解數學知識對於算法構建和數據處理有極大幫助。

線性代數的研究包括向量及其操作。在機器學習中,各處可見線性代數的背影,如線性回歸,獨熱編碼,主成分分析PCA,推薦系統中的矩陣分解。

深度學習更甚,其完全基於線性代數和微積分。梯度下降,隨機梯度下降等優化方法也建立在此之上。

矩陣是線性代數中的重要概念,通過矩陣可以緊湊地表示線性方程組、線性映射等。同樣,向量也是重要的概念,將不同向量與標量乘積進行加和可以組成不同的向量空間。

歡迎在評論區回覆你的看法,我會虛心接受並進行改進。

免責聲明:本文中表達的觀點僅為作者個人觀點,不(直接或間接)代表卡耐基梅隆大學或與作者相關的其他組織。我知道,本文不盡完善,僅是本人當前的一些看法與思考,希望對讀者有所幫助。

資源

Google colab implementation.

Github repository

參考

[1] Linear Algebra, Wikipedia, https://en.wikipedia.org/wiki/Linear_algebra

[2] Euclidean Space, Wikipedia, https://en.wikipedia.org/wiki/Euclidean_space

[3] High-dimensional Simplexes for Supermetric Search, Richard Connor, Lucia Vadicamo, Fausto Rabitti, ResearchGate, https://www.researchgate.net/publication/318720793_High-Dimensional_Simplexes_for_Supermetric_Search

[4] ML | Normal Equation in Linear Regression, GeeksforGeeks, https://www.geeksforgeeks.org/ml-normal-equation-in-linear-regression/

[5] Vector Norms by Roger Crawfis, CSE541 — Department of Computer Science, Stony Brook University, https://www.slideserve.com/jaimie/vector-norms

[6] Variance Estimation Simulation, Online Stat Book by Rice University, http://onlinestatbook.com/2/summarizing_distributions/variance_est.html

[7] Lecture 17: Orthogonality, Oliver Knill, Harvard University, http://people.math.harvard.edu/~knill/teaching/math19b_2011/handouts/math19b_2011.pdf

[8] Orthonormality, Wikipedia, https://en.wikipedia.org/wiki/Orthonormality

[9] Linear Algebra/Basis, Wikibooks, https://en.wikibooks.org/wiki/Linear_Algebra/Basis

[10] Linear Algebra, LibreTexts, https://math.libretexts.org/Bookshelves/Linear_Algebra


AI研習社是AI學術青年和AI開發者技術交流的在線社區。我們與高校、學術機構和產業界合作,通過提供學習、實戰和求職服務,為AI學術青年和開發者的交流互助和職業發展打造一站式平臺,致力成為中國最大的科技創新人才聚集地。

如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學習新知,分享成長。

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 入門者的機器學習/深度學習自學指南
    尤其是深度學習的自學指南。包括數學基礎、計算機編程基礎、機器學習和深度學習的相關公開課程(本文最後提供了如何找到這些公開課資源的方式)和經典教材。1. 數學基礎1.1 線性代數Gilbert Strang. 18.06: Linear algebra. MIT, 2011.
  • 機器學習/深度學習入門資料匯總
    經常被同學和朋友詢問機器學習或深度學習入門,有哪些不錯的參考資料。老實講,這個問題在網上隨便一搜就是一大把的答案。
  • AI | 怎樣快速入門機器學習和深度學習?
    編者按:入門機器學習和深度學習並不是一件容易的事情。需要學習大量的知識,初學者常常會迷茫不知所措。現在我們給你帶來一篇純乾貨,幫助你入門機器學習和深度學習。機器學習算法書籍:《統計學習方法》:李航博士的經典教材。用最精煉的語言描述機器學習算法,轉行AI必讀書籍《機器學習》:周志華教授的西瓜書。統計學習方法涵蓋面太窄,配合西瓜書來擴展寬度。《python機器學習及實現》:適合入門,學習曲線平滑,理論書看累了,就跟著這本書打一遍代碼,對kaggle就會大致的了解。
  • 【入門】機器學習中的線性代數
    閱讀這篇文章後,你將會了解到:如何在處理數據時使用線性代數結構,如表格數據集和圖像。數據準備過程中用到的線性代數概念,例如 one-hot 編碼和降維。深度學習、自然語言處理和推薦系統等子領域中線性代數符號和方法的深入使用。讓我們開始吧。
  • 詳細解讀,8000字線性代數知識點長文,帶你入門深度學習/機器學習
    本文目錄:引言機器學習和深度學習建立在數學原理和概念之上,因此AI學習者需要了解基本數學原理。在模型構建過程中,我們經常設計各種概念,例如維數災難、正則化、二進位、多分類、有序回歸等。神經元是深度學習的基本單位,該結構完全基於數學概念,即輸入和權重的乘積和。至於Sigmoid,ReLU等等激活函數也依賴於數學原理。
  • 入門深度學習與機器學習的經驗和學習路徑
    作者:Caliber(清華大學 應用數學博士在讀)連結:https://zhuanlan.zhihu.com/p/150507220最近接觸深度學習與機器學習已經有一段時間了
  • 機器學習的線性代數(Python 版)
    免費線代教程+視頻+電子書線性代數是是機器學習的重要基礎
  • 我的機器學習入門路線圖
  • 資源|用Python和NumPy學習《深度學習》中的線性代數基礎
    本文系巴黎高等師範學院在讀博士 Hadrien Jean 的一篇基礎學習博客,其目的是幫助初學者/高級初學者基於深度學習和機器學習來掌握線性代數的概念。掌握這些技能可以提高你理解和應用各種數據科學算法的能力。
  • 近200篇機器學習&深度學習資料分享
    /StatLearning/Winter2014/aboutBest Machine Learning Resources for Getting Started介紹:機器學習最佳入門學習資料匯總是專為機器學習初學者推薦的優質學習資源,幫助初學者快速入門。
  • 機器學習入門
    機器學習理論主要是設計和分析一些讓計算機可以自動「學習」的算法。機器學習算法是一類從數據中自動分析獲得規律,並利用規律對未知數據進行預測的算法。因為學習算法中涉及了大量的統計學理論,機器學習與統計推斷學聯繫尤為密切,也被稱為統計學習理論。算法設計方面,機器學習理論關注可以實現的,行之有效的學習算法。
  • 機器學習入門教程-第03課:如何學習「機器學習」
    第03課:如何學習「機器學習」學習「機器學習」這件事,我走過很長的一段彎路。有一些心得、體會和方法,在此和大家分享。以模型為驅動,了解「機器學習」的本質本課力圖引導大家以模型為驅動,進行學習。我選擇了幾種經典模型(例如:線性回歸、邏輯回歸、決策樹、支持向量機、條件隨機場、K 均值等),作為入門的進階。初次學習模型,不必貪多。但就這些選定的模型,一定要搞清楚其問題域、模型函數、目標函數、訓練算法……潛入到數學公式推導的層面,對每一步的公式變換和對應的物理意義有所理解,然後再去實踐。
  • 優秀機器學習和AI課程推薦,帶你從入門到精通
    字幕組雙語原文:最棒的免費機器學習和AI課程,讓你從入門到精通英語原文:Awesome Machine Learning and AI Courses翻譯:雷鋒字幕組(明明知道)所有的課程都是最好的人工智慧研究人員和教師製作的高質量視頻講座。除了視頻講座,我還將課程網站與課堂講稿、附加閱讀材料和作業連結起來。介紹性講座在機器學習和人工智慧方面,這些都是很好的入門課程。沒有ML和AI的經驗是必要的。你應該有一些線性代數,微積分入門和概率的知識。一些編程經驗也是值得推薦的。
  • 入門級攻略:機器學習 VS. 深度學習
    ,作者:Faizan Shaikh,譯者:李烽,審校:段志成-海棠摘要: 本文以淺顯易懂的語言介紹了機器學習和深度學習的定義及應用,以及在源數據要求,硬體支持,特徵工程、問題解決方式、執行時間及可解釋性等方面的區別,對於新手入門有很大啟示意義。楔子:機器學習和深度學習現在很火,你會發現突然間很多人都在談論它們。
  • 資源推薦|機器學習與深度學習視頻和書籍資源拿去!
    網絡上有大量視頻課程和教程,其中許多都是免費的。
  • 深度學習全網最全學習資料匯總之入門篇
    需要提前說明的是,無論教程怎樣淺顯易懂,如果要深刻理解深度學習的技術原理,一些基礎的數學知識還是必不可少的,包括微積分、線性代數和概率論等。這些都是各高校的必修課,大家可以輕鬆找到豐富的中文教程。這裡僅列出三個值得參考的免費的英文教程。
  • 深度學習線性代數簡明教程
    深度學習(Deep Learning)是機器學習的子領域。而線性代數(linear algebra)是有關連續值的數學。許多計算機科學家在此方面經驗不足(傳統上計算機科學更偏重離散數學)。想要理解和使用許多機器學習算法,特別是深度學習算法,對線性代數的良好理解是不可或缺的。
  • 機器學習&深度學習經典資料匯總(續)
    是一個大的福利。機器學習周刊目前主要提供中文版,還是面向廣大國內愛好者,內容涉及機器學習、數據挖掘、並行系統、圖像識別、人工智慧、機器人等等。謝謝作者《線性代數》介紹:《線性代數》是《機器學習》的重要數學先導課程。其實《線代》這門課講得淺顯易懂特別不容易,如果一上來就講逆序數及羅列行列式性質,很容易讓學生失去學習的興趣。
  • 入門《線性代數》指南
    首先,「線性代數」這個名詞,在我的印象裡,僅僅是大學本科一年級的一門基礎數學課,至於老師教了什麼,我又學了什麼,忘得一乾二淨。那麼,為什麼又要重新學習線性代數呢?tips:中英文字幕,英文音頻,可以1.25倍速學習,嘻嘻。
  • 【機器學習】人人都可以做深度學習應用:入門篇(中)
    本文承接上篇文章人人都可以做深度學習應用:入門篇(上)(請戳我),在本文會總結深度學習環境的搭建以及一個經典的demo:識別手寫數字(MNIST