特徵值和特徵向量可能看起來是很抽象的概念,但它們在你周圍的世界中扮演著不可或缺的角色。因為一切都是由數據定義的,矩陣是處理數據的最佳工具,而它們又是矩陣中的瑰寶,可以揭示矩陣的性質。理解特徵值和特徵向量是什麼,如何推導它們,以及它們的應用,對于欣賞矩陣之美,以及更廣泛地理解數據和數學在世界中扮演的角色,都是不可或缺的。
首先,讓我們考慮二維向量,它有兩個元素,每個元素對應於二維平面上的一個坐標。它們代表著從一個坐標到另一個坐標的運動。
當一個向量乘以一個矩陣時,就相當於應用了一個線性變換。這就產生了沿著兩個向量拉伸(或擠壓)坐標系的效果。例如,矩陣[[3,1],[1,2]]將x軸沿向量[3,1]和將y軸沿向量[1,2]對齊。視覺上,我們可以看出點(0,1)實際上映射到了(1,2)這可以通過將它乘以矩陣來實現。
假設有一個向量[-1,-1]乘上線性變換矩陣後,落在點[-4,-3]上。
向量長度(模)就是穿過這個向量的直線。當一個向量經過一個線性變換時,通常它會偏離原來的方向。
然而,有些類型的向量不會被矩陣改變方向。這就是這個矩陣的特徵向量。當特徵向量乘以這個矩陣時,特徵向量只是乘以特徵值,使這個向量的長度改變,而方向不會改變。
特徵向量和特徵值很少是整數。由於特徵向量的性質,簡單地在相同或相反的方向縮放一個基向量就會得到另一個特徵向量。
在三維空間中,這個矩陣描述了三個坐標軸——x、y和z的變換——對應於表示每個坐標所經歷的變換的三個坐標。這就是為什麼特徵向量和特徵值只對方陣定義,一個一般的n×n矩陣描述了n個軸的變換,每個軸對應一個有n個元素的坐標。
為了找到一個矩陣的特徵向量,我們首先需要找到它的特徵值。由特徵值的定義,我們可以構造一個等式Ax = λx,其中A表示矩陣,λ表示特徵值。將特徵向量乘以變換矩陣x應該具有與將其乘以特徵值的倍數相同的效果。
根據這個關係式,我們可以把兩項都移到左邊。為了使表達式A -λ有效(A是一個矩陣,而λ是一個數字),我們將λ乘以一個單位矩陣,單位矩陣不會作任何變換。
如上所示,存在無窮多個解。為了解決這個問題,我們使用行列式。行列式只是一個度量因子,在這個因子中,區域被一個變換矩陣拉伸。例如,考慮坐標平面上的一個標準正方形,其面積為一個正方形單元。
當空間被一個變換矩陣拉伸時,新的面積是四個正方形單位。因為面積增加了4倍,矩陣的行列式是4。
當行列式等於0時,正方形的面積被縮小到0,這意味著描述坐標軸位置的兩個向量在同一條直線上。在這種情況下,所有的空間被扭曲成一條線。通過設置行列式必須等於零的要求,可以捨棄很多解,使方程更容易解。
因此,為了使先前設計的等式可解,首先必須滿足矩陣的行列式等於零。
找到特徵值是一個二次方程的任務。對於3維以上的矩陣,必須使用不同形式的行列式公式。
在這種情況下,矩陣[[1,4],[3,2]]的特徵值分別為5和-2。這意味著當矩陣的特徵向量乘以這個矩陣時,它們的向量長度將被拉長5倍和-2倍。通過將發現的特徵值代入我們最初推導的方程,我們可以找到特徵向量。
特徵向量和特徵值是矩陣的瑰寶。它體現了矩陣的本質。只要給定任意矩陣的特徵向量和特徵值,就可以很容易地完全重構原始矩陣。有了這個特殊的性質,特徵向量幾乎可以完全保證出現在任何有矩陣運算的地方。
例如,考慮主成分分析(PCA),一種常見的機器學習技術,它試圖降低數據的維數,同時保留關鍵的統計度量,如方差和均值。例如,考慮一個100維的數據集,PCA將試圖將其縮小為兩個維。首先,算法構建一個協方差矩陣,它評估兩個變量之間的相關性。矩陣作為一個整體定義了數據的形狀。
協方差矩陣的特徵向量用於在x軸和y軸之間沿方差最大的直線重新定向數據。本質上,特徵向量相當於矩陣的「快照」,它告訴算法哪些區域需要放大,哪些區域需要縮小。從機器學習到拓撲,利用特徵向量的關鍵特性提供有用的信息矩陣,壓縮高維圖像、優化搜索算法等。
也許特徵向量和特徵值如此特殊的原因是因為它的定義——向量的方向保持不變,而它們周圍的空間是彎曲的。