我們先來看點直觀性的內容。矩陣的特徵方程式是:
矩陣實際可以看作一個變換,方程左邊就是把向量x變到另一個位置而已;右邊是把向量x作了一個拉伸,拉伸量是lambda。那麼它的意義就很明顯了,表達了矩陣A的一個特性就是這個矩陣可以把向量x拉長(或縮短)lambda倍,僅此而已。
任意給定一個矩陣A,並不是對所有的向量x它都能拉長(縮短)。凡是能被矩陣A拉長(縮短)的向量就稱為矩陣A的特徵向量(Eigenvector);拉長(縮短)的量就是這個特徵向量對應的特徵值(Eigenvalue)。
值得注意的是,我們說的特徵向量是一類向量,因為任意一個特徵向量隨便乘以一個標量結果肯定也滿足上述方程,當然這兩個向量都可以看成是同一特徵向量,並且它們也對應於同一個特徵值。
如果特徵值是負數,則說明矩陣不但把特徵向量拉長(縮短)了,而且使該向量的方向發生了反轉(指向了相反的方向)。一個矩陣可能可以拉長(縮短)多個向量,因此它就可能有多個特徵值。另外,對於實對稱矩陣來說,不同特徵值對應的特徵向量必定正交。
我們也可以說,一個變換矩陣的所有特徵向量組成了這個變換矩陣的一組基。所謂基,可以理解為坐標系的軸。我們平常用到的大多是直角坐標系,在線性代數中可以把這個坐標系扭曲、拉伸、旋轉,稱為基變換。我們可以按需求去設定基,但是基的軸之間必須是線性無關的,也就是保證坐標系的不同軸不要指向同一個方向或可以被別的軸組合而成,否則的話原來的空間就「撐」不起來了。在主成分分析(PCA)中,我們通過在拉伸最大的方向設置基,忽略一些小的量,可以極大的壓縮數據而減小失真。
變換矩陣的所有特徵向量作為空間的基之所以重要,是因為在這些方向上變換矩陣可以拉伸向量而不必扭曲和選擇它,使得計算大為簡單。因此特徵值固然重要,但我們的終極目標卻是特徵向量。
我們先考察一種線性變化,例如x,y坐標系的橢圓方程可以寫為x^2/a^2+y^2/b^2=1,那麼坐標系關於原點做旋轉以後,橢圓方程就要發生變換。我們可以把原坐標系的(x,y)乘以一個矩陣,得到一個新的(x',y')的表示形式,寫為算子的形式就是M*(x,y) =(x',y')。這裡的矩陣M代表一種線性變換:拉伸,平移,旋轉。那麼,有沒有什麼樣的線性變換b(b是一個向量),使得變換後的結果,看起來和讓M*(x,y)像是一個數b乘以了一個(x,y)? 換句話說,有沒有這樣的矢量b,使得矩陣A*b這樣的線性變換相當於A在矢量b上面的投影m*b? 如果有,那麼b就是A的一個特徵向量,m就是對應的一個特徵值。
回過頭思考這句話,一個矩陣可以是一個變換,也可以是一個坐標系,如果這個坐標系或基正交,當我用這個矩陣乘以一個向量時,如果這個向量也恰好在坐標系也就是基的一個向量所指的方向,那麼這個矩陣乘以這個向量不就是把這個向量在那個基上伸縮了λ倍嗎?λ就是這個矩陣的特徵值。
可是,我們數一數上面有多少個如果——這個工作意義就是告訴大家,我們的想法是不是太理想——那我們放到更一般的情況,討論某一個非奇異陣。討論的時候我們換一個思路,上面的思考可能敘述太繁雜了,具體的說,求特徵向量的關係,就是把矩陣A所代表的空間,進行正交分解,使得A的向量集合可以表示為每個向量a在各個特徵向量上面的投影長度。
例如A是m*n的矩陣,n>m,那麼特徵向量就是m個(因為秩最大是m),n個行向量在每個特徵向量E上面有投影,其特徵值v就是權重。那麼每個行向量現在就可以寫為Vn=(E1*v1n,E2*v2n...Em*vmn),矩陣變成了方陣。如果矩陣的秩更小,矩陣的存儲還可以壓縮。再: 由於這些投影的大小代表了A在特徵空間各個分量的投影,那麼我們可以使用最小2乘法,求出投影能量最大的那些分量,而把剩下的分量去掉,這樣最大限度地保存了矩陣代表的信息,同時可以大大降低矩陣需要存儲的維度,這叫主成分分析,或者主元分析,簡稱PCA方法,是一種重要的數學模型。
這樣就非常容易理解不同特徵值的特徵向量相互正交了,因為求特徵向量就是一個正交化的過程,或者說是求某一個矩陣的基。
舉個例子,對於x,y平面上的一個點(x,y),我對它作線性變換,
[1 0 ] [x]
[0 -1 ] [y]
那麼得到的結果就是(x,-y),這個線性變換相當於關於橫軸x做鏡像。我們可以求出矩陣[1,0;0,-1]的特徵向量有兩個,[1,0]和[0,1],也就是x軸和y軸。什麼意思呢? 在x軸上的投影,經過這個線性變換,沒有改變。在y軸上的投影,乘以了幅度係數-1,並沒有發生旋轉。兩個特徵向量說明了這個線性變換矩陣對於x軸和y軸這兩個正交基是線性不變的。對於其他的線性變換矩陣,我們也可以找到類似的,N個對稱軸,變換後的結果,關於這N個對稱軸線性不變。這N個對稱軸就是線性變換A的N個特徵向量。這就是特徵向量的物理含義所在。所以,矩陣A等價於線性變換A。
再舉一個例子:
[0 -1]
[1 0]
大家應該都能看出來,這是一個旋轉矩陣,表示向量(x,y)繞原點逆時針旋轉了pi/2。它的特徵值是多少呢?λ=±i。而特徵向量是這竟然是一個虛數。我們直觀的思考一下,哪一個軸對於這個旋轉變換來說是線性不變的?很明顯是z軸。可這是一個二維空間。那麼就把這個z軸叫做虛軸吧。但是如果我們把矩陣擴展一維,變成
[0 -1 0]
[1 0 0]
[0 0 1]
這時候再求特徵值和特徵向量,就會發現特徵向量就是(0,0,1)也就是z軸。你看,添加了一維,它就不「虛」了。
(虛特徵值不是這篇文章的重點,只是寫的時候突然想到了這裡。說到這裡要提到之前寫的「理解複變函數」,發現復變是個深坑,跳進去就找不到路了,概念過於繁雜,只能半年之後才有時間繼續。)
虛軸的量有時候可以幫我們把一個沒有實際物理形象的量添加到現實空間中。對於電氣的學生,應該是要學交流傳動的。裡面有一個SVPWM電壓空間矢量控制,對於電壓空間矢量為什麼會形成一個軌跡為圓形的磁鏈。我就是用二維的平面(順著繞組方向)加了一個虛軸來證明的。這個可以另外討論。
現在我們繼續把討論範圍擴大。我們又特徵多項式|λE-A|=0求到的特徵值會有重根,這時候求到的這個重根的特徵向量就不正交,甚至會線性相關。如果線性無關的話,那就直接把它正交化,問題就很輕鬆的解決了。即便正交後的結果不一樣也沒有關係,特徵向量本身不是定死的,這就好比坐標系可以旋轉一樣。一旦特徵向量的各個方向確定了,那麼特徵值向量也就確定了。至於為什麼會有些矩陣的特徵值會是重根,而且特徵向量不正交,這個就要談到線性方程組的解空間的問題了,足夠再寫一篇文章,因此不再贅述。
上面說到特徵向量不正交的情況,再把討論範圍擴大,特徵向量線性相關又怎麼辦。一句話就可以解釋,描述這個變換的矩陣有一維或多維是冗餘的,它的剩下的那些變換就足以描述你這個冗餘的變換。這類似於向量組的線性無關性。可以想到,奇異陣是不能相似於對角陣的。
既然這個變換的矩陣有一維或者多維是冗餘的,那麼他就不能相似於一個對角陣。畢竟對n階對角矩陣來說,它的秩是n,也就是說對角陣的變換無冗餘,那你這個有冗餘的矩陣也就不能描述這個對角陣。
線性代數(Linear Algebra),能否用一句話概括那些"線性方程組","線性相關","特徵值和特徵向量","對角化和相似","二次型和正交化",都是幹了什麼樣的一件事情?
看下面幾個矩陣:
[1,0] [2,0] [0,2] [1,-1] [1, 0]
[0,1] , [0,3] , [3,0] , [1, 1] , [1,-1]
我們可以通過計算來看出,上面5個矩陣:第一個矩陣是單位矩陣E,也就是把(x,y)映射到(x',y')保持不變;第二個矩陣映射以後變量的長度(或者叫模,1範數)有變換,向量的角度不變;第3個矩陣對調x/y軸,並且有伸縮;第4個矩陣把x/y逆時針旋轉45度,模變成原來的根號2倍;第5個矩陣是對x軸做對稱,把y變成-y。2維空間上的線性變換可以用複數乘法來替代,但是更高維的變換就只能藉助於矩陣乘法。
矩陣的變換,換一個叫法就是映射。通過三個例子理解線性變換的映射。
(1) 線性方程組AX=B,也就是說,B是x'/y'坐標系一個向量(b1,b2,b3...bn),矩陣A是(x/y)到(x'/y')的映射,能否找到X=(x1,...xn)使得X被映射到B。如果找到了一個,那麼這個映射就是唯一的,當然映射也可能沒有,也可能有無數種可能的情況。
(2) 那麼,什麼情況AX=B的解是唯一的呢? 滿足行列式|A|!=0。為了滿足|A|!=0,必須有a的行向量線性無關,也就是a的每一行都是一個獨立的坐標軸,沒有冗餘的坐標軸。所以坐標系映射的自變量和因變量也就因此一一對應,所以總是有且只有一個解。
(3) 什麼情況下無解呢? A的行向量有冗餘,最大線性無關(無冗餘的坐標系個數),或者秩R(A)=r,但是發現需要通過r個坐標軸的映射,得到s維的映射結果(s>r)。顯然無解(找不到低維到高維的一一映射)。同理,如果s<r,那麼有無數個解(通解,一對多的映射),s=r正好也是一個解。
矩陣的對角化,揭示了矩陣作為一種線性變換的手段的本質。那麼特徵值和特徵向量的意義,也就很明顯了。假設N維坐標系(i1,i2...in)映射到新的坐標系(j1,j2,j3...jn),既然矩陣A代表一種映射關係(變換),那麼這種映射關係可以分解為模的伸縮和角度旋轉。A=P^(-1)*B*P,B是特徵值構成的矩陣,那麼每一個特徵值,相當於坐標ix映射到jx的那一維的坐標,其模的伸縮比例是多少。可逆矩陣P的每一個列向量代表的就是新的坐標系相當於原有的坐標系如何投影過來----Pi的每一個分量就是(i1...in)在ji上面投影的大小。矩陣對角陣的分解式A=P^(-1)*B*P代表了這樣一種信息: 把原坐標系(i1,i2...in)進行旋轉(P矩陣),並且幅度進行伸縮(B矩陣),再做一次鏡像的旋轉P^(-1),因為旋轉本身不具有翻轉的功能,那麼就是原矩陣A的線性變換功能的全部了。
矩陣,就是旋轉+鏡像翻轉+尺度伸縮。這就是一切線性代數和矩陣理論要研究的問題,無出其外。
一個應用的例子就是控制論,系統從狀態A變換到狀態B(A和B都是矢量)其實就是看是否存在轉移矩陣X使得XA=B,或者一些列轉移矩陣{X}已知,看看是否存在初始A使得系統狀態能夠變成要求的狀態B,或者已知A和{X}看是否能經過一系列變換得到B。下面幾幅圖來自<<Visual Complex Analysis>>,畫的是複數域(2x2線性變換空間的)的尺度拉伸,平移,旋轉,直角平面和極坐標圓平面之間的線性變換。
矩陣對角化其實也是初等變換,但是是把矩陣再變回對角陣。這個對角陣也就是單位陣的不同的方向上進行了伸縮得到的。
所謂的特徵矩陣,就是原矩陣如何與一個x維的數量矩陣相似。λ(i)說明了相似投影與一個x維線性空間的第i維坐標軸,λ(i)是放縮比例。λ(i)之間的順序是不重要的,因為坐標軸之間的交換是初等線性變換,不影響代數拓撲的性質。特徵向量xi表明A如何把線性組合投影到一個坐標軸上。所謂的特徵向量,就是一組正交基集合。
正交可以理解為向量的內積為0,也可以理解為向量夾角90度。但是放到線性代數這個大概念,怎麼把正交的定義和線性代數的各種概念形成自洽。那就是在某個線性空間中,基為a1,a2,a3……an,某個向量v在各個ax(1≤x≤n)上面的投影分解,表達式唯一或者表述為,a1-an當中的任意向量,在其他向量上面的投影都是0。
其實正交的概念放到不同的地方內涵完全可以不一樣。例如在傅立葉級數中,為什麼選用cos和sin作為分解的基,正是因為正餘弦函數的正交性。
考慮y=f(x)(周期為T)的傅立葉級數展開形式----它相當於,在一個T內f(x)是無窮維向量 (y1,y2,y3,...,yn...),f(x)的傅立葉級數展開式就是f(x)在無窮維正交基(e^jnw)上面有投影,這個正交基是從低頻到高頻的一些列三角函數組合。每一個投影的係數是一個長度。那麼e^jnw組成的正交基就是的任何f(x)的特徵向量,不同的是,不同f(x)對應不同的特徵值向量。一個N維的向量空間,N個正交矢量不是定死的,而可以是任意的向量值組合,只要保持互相兩兩正交就可以了。例如我想構造3維的正交基,我隨手寫下 (1,0,1),那麼(0,1,2),(0,0,1)就可以是剩下的兩個向量。為什麼?一般的說,向量e1,e2,e3是正交基,那麼 e1+e2,e2+e3,e1+e3這三個向量也可以構成正交基。
也就是因為三角級數本身可以作為投影的基準,可以分解任何函數。所以三角函數就是特徵向量函數,頻率分析的值就是特徵值。說得遠一點,任何數學分析最後都可以用頻譜分析來代替。這也就是"信號與系統","數位訊號處理","通信原理","概率和隨機過程"這些課程,怎麼看起來都是在玩頻率遊戲和功率譜遊戲的原因----學完以後經常會感覺自己什麼都沒有學會。因為在物理層,信息的"意義"並不存在,只有傳輸和設計的電子/數學特性有意義。通信協議都是高層次的東西,和"通信原理"無關。在底層只有物理意義,沒有邏輯意義。
綜上,特徵值只不過反映了特徵向量在變換時的伸縮倍數而已,對一個變換而言,特徵向量指明的方向才是很重要的,特徵值似乎不是那麼重要;但是,當我們引用了Spectral theorem(譜定律)的時候,情況就不一樣了。
Spectral theorem的核心內容如下:一個線性變換(用矩陣乘法表示)可表示為它的所有的特徵向量的一個線性組合,其中的線性係數就是每一個向量對應的特徵值,寫成公式就是:。。。
從這裡我們可以看出,一個變換(矩陣)可由它的所有特徵向量完全表示,而每一個向量所對應的特徵值,就代表了矩陣在這一向量上的貢獻率——說的通俗一點就是能量(power),至此,特徵值翻身做主人,徹底掌握了對特徵向量的主動:你所能夠代表這個矩陣的能量高低掌握在我手中,你還吊什麼吊?
我們知道,一個變換可由一個矩陣乘法表示,那麼一個空間坐標系也可視作一個矩陣,而這個坐標系就可由這個矩陣的所有特徵向量表示,用圖來表示的話,可以想像就是一個空間張開的各個坐標角度,這一組向量可以完全表示一個矩陣表示的空間的「特徵」,而他們的特徵值就表示了各個角度上的能量(可以想像成從各個角度上伸出的長短,越長的軸就越可以代表這個空間,它的「特徵」就越強,或者說顯性,而短軸自然就成了隱性特徵),因此,通過特徵向量/值可以完全描述某一幾何空間這一特點,使得特徵向量與特徵值在幾何(特別是空間幾何)及其應用中得以發揮。
關於特徵向量(特別是特徵值)的應用實在是太多太多,近的比如俺曾經提到過的PCA方法,選取特徵值最高的k個特徵向量來表示一個矩陣,從而達到降維分析+特徵顯示的方法;近的比如Google公司的成名作PageRank,也是通過計算一個用矩陣表示的圖(這個圖代表了整個Web各個網頁「節點」之間的關聯)的特徵向量來對每一個節點打「特徵值」分;再比如很多人臉識別,數據流模式挖掘分析等方面,都有應用,有興趣的兄弟可以參考IBM的Spiros在VLDB『 05,SIGMOD 』06上的幾篇文章。
————
編輯 ∑Pluto
來源:CSDN
更多精彩:
☞泰勒定理的奇聞軼事
☞丘成桐:漫談微分幾何
☞Leibniz 如何想出微積分?(一)
☞線性相關和秩的物理意義
☞數學史上你認為最醜陋的公式是什麼?
☞陶哲軒談什麼是好的數學
☞田淵棟:數學的用處(下篇)
☞你絕對沒想過原來數學家這麼流氓,一言不合就進行暴力證明
☞世界上最牛的五篇博士論文
☞數學中有哪些巧合讓人眼前一亮?
☞算法立功!清華畢業教授美國被搶車,警察無能為力自己用「貪心算法」找回
☞學術史上的奇文:怎樣用數學抓獅子
☞臺大教授的反思:最難的一課 我們卻沒教給學生
☞麻省理工學院(MIT)研究生學習指導—— 怎樣做研究生
☞分享 數學,常識和運氣 ——投資大師詹姆斯·西蒙斯2010年在MIT的講座
算法數學之美微信公眾號歡迎賜稿
稿件涉及數學、物理、算法、計算機、編程等相關領域,經採用我們將奉上稿酬。
投稿郵箱:math_alg@163.com