奇異值的物理意義是什麼?

2021-02-20 算法與數學之美

出自網易

原文地址：http://help.3g.163.com/15/0708/13/AU0MR6QP00964K99.html

矩陣的奇異值是一個數學意義上的概念，一般是由奇異值分解（Singular Value Decomposition，簡稱SVD分解）得到。如果要問奇異值表示什麼物理意義，那麼就必須考慮在不同的實際工程應用中奇異值所對應的含義。下面先儘量避開嚴格的數學符號推導，直觀的從一張圖片出發，讓我們來看看奇異值代表什麼意義。

這是女神上野樹裡（Ueno Juri）的一張照片，像素為高度450*寬度333。暫停舔屏先（痴漢臉

我們都知道，圖片實際上對應著一個矩陣，矩陣的大小就是像素大小，比如這張圖對應的矩陣階數就是450*333，矩陣上每個元素的數值對應著像素值。我們記這個像素矩陣為我們都知道，圖片實際上對應著一個矩陣，矩陣的大小就是像素大小，比如這張圖對應的矩陣階數就是450*333，矩陣上每個元素的數值對應著像素值。我們記這個像素矩陣為

現在我們對矩陣進行奇異值分解。直觀上，奇異值分解將矩陣分解成若干個秩一矩陣之和，用公式表示就是：

其中等式右邊每一項前的係數就是奇異值，

和

分別表示列向量，秩一矩陣的意思是矩陣秩為1。注意到每一項都是秩為1的矩陣。我們假定奇異值滿足（奇異值大於0是個重要的性質，但這裡先別在意），如果不滿足的話重新排列順序即可，這無非是編號順序的問題。

既然奇異值有從大到小排列的順序，我們自然要問，如果只保留大的奇異值，捨去較小的奇異值，這樣(1)式裡的等式自然不再成立，那會得到怎樣的矩陣——也就是圖像？

令，這隻保留(1)中等式右邊第一項，然後作圖：

結果就是完全看不清是啥……我們試著多增加幾項進來：結果就是完全看不清是啥……我們試著多增加幾項進來：，再作圖

隱約可以辨別這是一個妹子的臉，但還是很模糊，畢竟我們只取了5個奇異值而已。下面我們取20個奇異值試試，也就是(1)式等式右邊取前20項構成隱約可以辨別這是一個妹子的臉，但還是很模糊，畢竟我們只取了5個奇異值而已。下面我們取20個奇異值試試，也就是(1)式等式右邊取前20項構成

雖然還有些馬賽克般的模糊，但我們總算能辨別出這是Juri醬的臉。當我們取到(1)式等式右邊前50項時：雖然還有些馬賽克般的模糊，但我們總算能辨別出這是Juri醬的臉。當我們取到(1)式等式右邊前50項時：

我們得到和原圖差別不大的圖像。也就是說當我們得到和原圖差別不大的圖像。也就是說當從1不斷增大時，不斷的逼近。讓我們回到公式

矩陣表示一個450*333的矩陣，需要保存個元素的值。等式右邊

和

分別是450*1和333*1的向量，每一項有個元素。如果我們要存儲很多高清的圖片，而又受限於存儲空間的限制，在儘可能保證圖像可被識別的精度的前提下，我們可以保留奇異值較大的若干項，捨去奇異值較小的項即可。例如在上面的例子中，如果我們只保留奇異值分解的前50項，則需要存儲的元素為，和存儲原始矩陣相比，存儲量僅為後者的26%。

下面可以回答題主的問題：奇異值往往對應著矩陣中隱含的重要信息，且重要性和奇異值大小正相關。每個矩陣都可以表示為一系列秩為1的「小矩陣」之和，而奇異值則衡量了這些「小矩陣」對於的權重。

在圖像處理領域，奇異值不僅可以應用在數據壓縮上，還可以對圖像去噪。如果一副圖像包含噪聲，我們有理由相信那些較小的奇異值就是由於噪聲引起的。當我們強行令這些較小的奇異值為0時，就可以去除圖片中的噪聲。如下是一張25*15的圖像（本例來源於[1]）

但往往我們只能得到如下帶有噪聲的圖像（和無噪聲圖像相比，下圖的部分白格子中帶有灰色）：但往往我們只能得到如下帶有噪聲的圖像（和無噪聲圖像相比，下圖的部分白格子中帶有灰色）：

通過奇異值分解，我們發現矩陣的奇異值從大到小分別為：14.15，4.67，3.00，0.21，……，0.05。除了前3個奇異值較大以外，其餘奇異值相比之下都很小。強行令這些小奇異值為0，然後只用前3個奇異值構造新的矩陣，得到通過奇異值分解，我們發現矩陣的奇異值從大到小分別為：14.15，4.67，3.00，0.21，……，0.05。除了前3個奇異值較大以外，其餘奇異值相比之下都很小。強行令這些小奇異值為0，然後只用前3個奇異值構造新的矩陣，得到

可以明顯看出噪聲減少了（白格子上灰白相間的圖案減少了）。可以明顯看出噪聲減少了（白格子上灰白相間的圖案減少了）。

奇異值分解還廣泛的用於主成分分析（Principle Component Analysis，簡稱PCA）和推薦系統（如Netflex的電影推薦系統）等。在這些應用領域，奇異值也有相應的意義。

考慮題主在問題描述中的敘述：「把m*n矩陣看作從m維空間到n維空間的一個線性映射，是否：各奇異向量就是坐標軸，奇異值就是對應坐標的係數？」我猜測，題主更想知道的是奇異值在數學上的 幾何含義，而非應用中的 物理意義。下面簡單介紹一下奇異值的幾何含義，主要參考文獻是美國數學協會網站上的文章[1]。

下面的討論需要一點點線性代數的知識。線性代數中最讓人印象深刻的一點是，要將矩陣和空間中的 線性變換視為同樣的事物。比如 正對角矩陣作用在任何一個向量上

其幾何意義為在水平

方向上拉伸3倍，方向保持不變的線性變換。換言之 正對角矩陣起到作用是將水平垂直網格作水平拉伸的線性變換。

如果如果不是對角矩陣，而是一個 對稱正定矩陣（注意原文僅假定為對稱矩陣是不夠的，這可能會導致負特徵值的出現）

那麼， 我們也總可以找到一組網格線，使得矩陣作用在該網格上僅僅表現為拉伸變換，而沒有旋轉變換

考慮更一般的考慮更一般的 非對稱矩陣

很遺憾，此時我們再也找不到一組網格，使得矩陣作用在該網格上之後只有拉伸變換（找不到背後的數學原因是對一般非對稱矩陣無法保證在實數域上可對角化，不明白也不要在意）。我們退求其次，找一組網格，使得矩陣作用在該網格上之後允許有 拉伸變換和 旋轉變換，但要保證變換後的網格依舊互相垂直。這是可以做到的

下面我們就可以自然過渡到奇異值分解的引入。下面我們就可以自然過渡到奇異值分解的引入。奇異值分解的幾何含義為：對於任何的一個矩陣，我們要找到一組兩兩正交單位向量序列，使得矩陣作用在此向量序列上後得到新的向量序列保持兩兩正交。下面我們要說明的是， 奇異值的幾何含義為：這組變換後的新的向量序列的長度。

當矩陣當矩陣作用在正交單位向量和上之後，得到和也是正交的。令和分別是和方向上的單位向量，即，，寫在一起就是，整理得：

這樣就得到矩陣的奇異值分解。 奇異值和分別是和 的長度。很容易可以把結論推廣到一般維情形。

下面給出一個 更簡潔更直觀的 奇異值的幾何意義（參見[2]）。先來一段線性代數的推導，不想看也可以略過，直接看黑體字幾何意義部分：

假設矩陣的奇異值分解為

其中是二維平面的向量。根據奇異值分解的性質，線性無關，線性無關。那麼對二維平面上任意的向量

，都可以表示為：。

當作用在

上時，

令，我們可以得出結論：如果

是在單位圓上，那么正好在橢圓上。這表明： 矩陣將二維平面中單位圓變換成橢圓，而兩個奇異值正好是橢圓的兩個半軸長，長軸所在的直線是，短軸所在的直線是.

推廣到一般情形：一般矩陣將單位球變換為超橢球面，那麼矩陣的每個奇異值恰好就是超橢球的每條半軸長度。

參考文獻：
[1] We Recommend a Singular Value Decomposition（Feature Column from the AMS ）
[2] 徐樹方，《矩陣計算的理論與方法》，北京大學出版社。

回復以下關鍵字獲取相關文章：

據說好多人都不知道長按圖片也能關注，你知道嗎？

奇異值的物理意義是什麼?

相關焦點

一文讓你通俗理解奇異值分解

奇異值分解及其應用

強大的矩陣奇異值分解(SVD)及其應用

奇異值分解(SVD)

奇異值分解(SVD) 的幾何意義

奇異值分解(SVD)原理

奇異值分解(SVD) 的幾何意義

奇異值分解SVD

人工智慧的數學(1)奇異值分解

【基礎】奇異值分解的原理與應用

奇異值分解, 這一篇就夠了

一文讀懂機器學習中奇異值分解SVD

線性代數(Gelbert)---奇異值分解

奇異值分解簡介:從原理到基礎機器學習應用

通俗易懂的講解奇異值分解(SVD)和主成分分析(PCA)

幾何角度理解奇異值分解SVD

入門 | 奇異值分解簡介:從原理到基礎機器學習應用

數學推導+純Python實現機器學習算法28:奇異值分解SVD

數據科學中需要知道的5個關於奇異值分解(SVD)的應用

「矩陣接近奇異值,或者縮放錯誤」解決方法

奇異值的物理意義是什麼?

相關焦點

一文讓你通俗理解奇異值分解

奇異值分解及其應用

強大的矩陣奇異值分解(SVD)及其應用

奇異值分解(SVD)

奇異值分解(SVD) 的幾何意義

奇異值分解(SVD)原理

奇異值分解(SVD) 的 幾何意義

奇異值分解SVD

人工智慧的數學(1)奇異值分解

【基礎】奇異值分解的原理與應用

奇異值分解, 這一篇就夠了

一文讀懂機器學習中奇異值分解SVD

線性代數(Gelbert)---奇異值分解

奇異值分解簡介:從原理到基礎機器學習應用

通俗易懂的講解奇異值分解(SVD)和主成分分析(PCA)

幾何角度理解奇異值分解SVD

入門 | 奇異值分解簡介:從原理到基礎機器學習應用

數學推導+純Python實現機器學習算法28:奇異值分解SVD

數據科學中需要知道的5個關於奇異值分解(SVD)的應用

「矩陣接近奇異值,或者縮放錯誤」解決方法

奇異值分解(SVD) 的幾何意義