周末AI課堂:非線性降維方法(理論篇)機器學習你會遇到的「坑」

2021-01-07 讀芯術

全文共2520字,預計學習時長6分鐘

這周大家過得怎麼樣?酷暑來襲,趕緊來上堂課靜靜心,降降火吧。

在上周的課程中,我們提到了降維的兩種分類方式:根據根據目標值(target)的參與與否,分為有監督降維和無監督降維;其二,根據高維空間與低維空間的關係,分為線性降維和非線性降維。並且還詳細地討論了兩種線性降維方法:PCA和LDA。

線性\監督

無監督

監督

線性

PCA

LDA

非線性

ISOMAP

KLDA

在本周的課程中,我們將詳細討論非線性降維。

那麼,什麼是線性,什麼是非線性呢?一般而言,線性函數要滿足兩個條件:

PCA和LDA都是高維空間對低維空間的線性變換,因為在變換前後,高維空間和低維空間的向量都保持了同樣的性質,對於空間的任意一個向量均有:

同時滿足了可加性和齊次性,這個關係也叫做疊加原理。當一個理論用了疊加原理時,其實本質是利用了線性關係。如果我們仔細把疊加原理拆開,會發現它正對應著矩陣的乘法。事實上,矩陣的乘法就是根據線性映射的疊加原理來定義的。

在此基礎上,投影就是典型的線性變換,因為投影變換可以用矩陣來表示,而且它是對稱矩陣,矩陣的某些對角元為零,零對角元對應著相應維度的捨棄。

線性降維默認先進行投影變換,然後在找一個是其目標最大化的低維空間,這就意味著最佳的低維空間必定是高維空間無數個線性變換出的空間中的一個。PCA希望在低維空間中保持樣本的最大方差,LDA則希望類間散度大,類內散度小。如果我們更希望直接尋找一個低維空間,使其保持高維空間的結構,這個尋找最類似結構的過程往往是原始空間的非線性變換。

MDS(多維縮放)和ISOMAP(等度量映射)

數學準備:

1.流形(manifold):局部近似歐氏空間的拓撲空間,流形上的任意一點都有鄰域近似為歐幾裡得空間。(舉個例子,你將一張忽略厚度的紙捲成一個桶狀,那麼這張紙就變成了一個三維空間的二維流形,且這張紙每一點和其鄰域近似平整)

2.內蘊空間(intrinsic space):流形內部結構的空間

3.測地線:黎曼流形上連接兩點的局部最短的線,它於彎曲空間,類似於直線對於平直空間。

4.跡(trace):矩陣對角元的和

MDS(Multiple Dimensional Scaling)的目標是儘可能在低維空間保持高維空間的距離信息。樣本之間的距離可以構成一個距離方陣,它的行數和列數均等於樣本數,它的對角元全部為零,因為它的每一個矩陣元都是相應樣本的距離,即:

根據我們的目標,在低維空間的樣本

有關係:

如果我們定義低維空間的內積矩陣D,每個矩陣元代表著樣本於樣本之間的內積,

,在此基礎上,

。假設低維空間的樣本被中心化:

,就有:

則M矩陣的矩陣元求和就有:

我們就可以消去

,就可以用矩陣M來表示內積矩陣D:

特徵值分解的數學本質,就是把矩陣對角化:

其中E為內積矩陣的對角化,V為對應特徵向量組成的矩陣。將其特徵值排序,取到相應的特徵向量,而它們所張成的低維空間,就是使得投影點方差最大的低維空間,但需要注意,我們是對內積矩陣做對角化,得到的對角矩陣仍然是關於內積,而不是坐標,所以我們最後得到的樣本表示為:

這就是MDS的數學原理,它輸入了一個原始空間距離矩陣,並用原始空間的距離矩陣來表示低維空間的內積矩陣,最後輸出低維空間的樣本表示。但裡面有一點可能並不合理,因為我們若要保持原始空間的距離,原始空間又是一個流形,計算樣本的歐幾裡得距離,相當於並沒有利用流形的內蘊空間。

如圖,樣本

的距離應該是紅線,而不是藍線。

ISOMAP(Isometric mapping)不再使用原始空間的歐氏距離,而是使用兩點的測地線距離。測地線的距離計算是根據流形局部具有歐氏空間的性質,對每一個點通過歐氏距離找到若干個臨近點構成連接圖,除了這幾個臨近點,其餘的點的距離均設為無窮大。通過最短路徑算法來得到兩點距離(Dijkstra算法),由此得到樣本的距離矩陣。

除了距離矩陣的定義不同,ISOMAP與MDS的原理一樣,都是通過原始空間的距離矩陣求得低維空間的內積矩陣,最後通過特徵值分解(奇異值分解)來求得低維空間的樣本表示。

KLDA(核化的線性判別分析)

數學準備:

1.kernel trick:將樣本從低維空間映射到高維空間,可以將一個非線性問題轉化為線性問題,且有核函數:

2.表示定理(Representer theorem):正則化項單調遞增的關於

的優化函數,它的解總可以寫成

3.LDA:線性判別分析

KLDA(Kernelized Linear Discriminant Analysis)就是使用了kernel trick的LDA。我們每一個樣本做高維變換:

左圖為輸入空間,右圖為進行高維變換的空間,可以看到,經過高維變換後,分類會變得非常簡單,一組容易分開的樣本,PCA和LDA都會非常容易。

作為我們處理的對象:還是以二分類問題為例,樣本變成了

,樣本的均值向量變成了

,樣本的協方差矩陣變為了

,與LDA一樣,我們假設存在一個投影矩陣W,這些量會在低維空間變成:

類內散度矩陣

,類間散度矩陣就變為

優化目標就變為:

在計算協方差矩陣進而計算類間散度矩陣時,和計算類內散度矩陣時,都會涉及到樣本高維變換的乘積

,但我們可以用核函數來表達這個乘積,同時因為每個樣本都會做乘積,所以可以寫成矩陣的形式:

這裡的

並不是樣本的標記,我們定義指示變量

,它是一個向量,維數等於樣本數。它可以按類別挑出樣本,因為當樣本屬於

樣本時,它對應位置的元素為1,否則為零。

根據表示定理,我們重新把優化函數項寫成關於核矩陣的形式,就有:

其中,M是重寫之後的類間散度矩陣,形式比較簡單,但N是重寫的類內散度矩陣,定義為:

這樣的我們的優化目標就變成了:

繼續轉化為一個廣義瑞利商問題,進而成為奇異值分解的問題,就可求得投影以後的空間。

讀芯君開扒

課堂TIPS

ISOMAP屬於流形學習,流形重要特點就是局部結構對應於歐幾裡得空間,使得我們可以在低維空間保持流形的結構,而結構的關鍵屬性就是樣本間的距離,也正因為如此,我們對測地線的計算仍然需要對領域的樣本進行收集,實際上往往得不到有效滿足。也就是說,流形學習的好壞很大程度上取決於數據本身。

KLDA之所以是非線性的,原因就在與對高維空間的變換,然後再進行投影,投影是線性的,但變換卻是非線性的。監督學習體現在那個指示變量,它乘以核矩陣,就可以將屬於一類樣本挑出來,因為其他的為零。

其他常見的流形學習方法有,拉普拉斯特徵映射,局部線性嵌入,和局部切空間對齊,t分布的隨機臨近嵌入等。

kerneltrick是非常強大的一種工具,幾乎是機器學習的通用技術,kernel trick 到底是什麼,背後有著怎樣的意義,請關注下一周的專欄課堂。

留言 點讚 發個朋友圈

我們一起探討AI落地的最後一公裡

作者:唐僧不用海飛絲

如需轉載,請後臺留言,遵守轉載規範

相關焦點

  • 線性降維方法(理論篇)| 機器學習你會遇到的「坑」
    在機器學習中,你同樣得了解它。距離是機器學習中的一個很重要的概念。每個樣本可以表示為一個向量,也就是高維空間的一個點,距離可以用來衡量樣本之間的相似度。但是在高維空間,距離的計算會變得非常困難,而我們關心的問題可能在低維空間就會得到很好的解決。
  • 周末AI課堂 理解softmax函數 | 機器學習你會遇到的「坑」
    AI課堂開講,就差你了!很多人說,看了再多的文章,可是沒有人手把手地教授,還是很難真正地入門AI。為了將AI知識體系以最簡單的方式呈現給你,從這個星期開始,芯君邀請AI專業人士開設「周末學習課堂」——每周就AI學習中的一個重點問題進行深度分析,課程會分為理論篇和代碼篇,理論與實操,一個都不能少!
  • 基於貝葉斯推斷的回歸模型(理論篇)| 機器學習你會遇到的「坑」
    全文共3060字,預計學習時長7分鐘本周,我們繼續討論上次在課堂結尾時提出的問題。數學準備 貝葉斯定理:,它的意義是,在B發生的情況下,A發生的概率。但是我們可以用一個概率密度函數來指定屬性的類條件概率的估計,比如我們可以令條件概率為一個高斯分布:高斯分布由兩個參數(均值和標準差)唯一確定,我們在訓練分類器的過程,其實就是對每個屬性的每個類條件概率的參數進行估計,這裡面所用的方法就是極大似然估計。
  • 踏入AI領域,這些數學基礎一定要打好
    但是支撐其發展的基礎——數學理論,卻一直未變。對於初學者來說,它是人工智慧入門的基石。若是學習初期囫圇吞棗,往往會在算法出現accuracy不好、loss很高、模型已經overfitting的時候,才後悔沒有好好掌握基礎的數學理論。
  • 機器人結構工程師薪資_中國機器學習工程師薪資 - CSDN
    來看看你距離成為一名AI工程師還有多遠吧~⭐具體內容:我是因為什麼開始接觸敲代碼人工智慧/機器學習/深度學習自學如何尋找學習資料如何選擇程式語言/框架校招/社招/實習/面試經驗一碗雞湯⭐聲明:本篇內容均屬於個人觀點,建議採納對自己有用的經驗,如有疏漏,歡迎指正,
  • 理解損失函數(代碼篇)機器學習你會遇到的「坑」
    換而言之,異常值會在MSE中佔到更大的比例,這樣並不合理。我們可以畫出簡單的圖像:......從圖中可以看出,同樣是數值為100的點,MSE的Loss會更大,當我們把這些全部加起來得到總體的Loss,數值與真實值偏離越大的比重也會越大。......
  • 百度多篇論文入選NeurIPS 2020,機器學習領先算法、理論「強輸出」
    此次大會中,百度研究院參會並發表了多篇高質量論文,論文聚焦大規模稀疏學習的加速求解、新發現物種數量預測、隨機非凸優化、高維數據判別分析等問題,分別提出了創新算法及理論,突破原有算法在實際應用中泛化效果差、優化效率低等限制,有效提升AI技術在自然生態學、統計學習理論等領域中的應用價值,同時也彰顯出百度在人工智慧與機器學習領域的持續技術創新力。
  • 選機器學習課程怕踩雷?有人幫你選出了top 5優質課
    講師有趣、課堂有趣。在不同網站和論壇上的評分和評價高於平均值。若想儘快全面地學習機器學習,那麼學習者還應該在在線學習之外看一些相關書籍。作者推薦了以下兩本書籍,這兩本書對作者的學習帶來了很大影響。書籍1.
  • 2018.12十大機器學習熱門網文
    articles-for-the-past-month-v-dec-2018-37b229f930a1在過去的幾個月中,我們對接近11400篇機器學習的文章進行了評級,以便選出其中最優秀的10篇來幫助你規劃你的職業生涯(只有0.7%的概率獲選)。
  • 機器學習如何從上遊抑制歧視性行為?斯坦福 AI 實驗室的最新成果給...
    圖 1 學習和最終以控制良好的數據公平表示呈現,能夠抑制下遊機器學習產生歧視性行為在這篇文章中,我們介紹了一種基於理論的機器學習公平表示方法,並且我們還發現一系列現有方法都屬於該方法的特例。此外,我們還注意到所有現有的機器學習公平表示方法,也可以用來平衡有用性和公平性,產生有用性和公平性兩者相平衡的表示。
  • 網際網路上20大免費數據科學、機器學習和人工智慧慕課
    隨著數據滲透到整個行業的每一個角落,擁有數據科學家的技能是大勢所趨,也因此產生了一支會說數據語言的員工隊伍。考慮到這一點,通過在線課程,對於一個完全的初學者來說,開始研究數據科學是可能的。所需要的只是一個結構合理的學習課程、正確的學習方法、堅持不懈的動力和激情以及輔助訓練項目。如何線上學習數據科學?
  • 北京大學王立威教授:機器學習理論的回顧與展望(四)
    *機器學習前沿所作報告《機器學習理論:回顧與展望》編輯整理而來,雷鋒網在未改變原意的基礎上略作了刪減。王立威王立威,在北京大學教授主要研究領域為機器學習。在包括COLT, NIPS,JMLR, PAMI等權威會議期刊發表論文60餘篇。
  • 2018年,機器學習和人工智慧領域最重要的突破是什麼?
    Quora鼎鼎有名的大V認為,AI炒作和AI威脅論在今年都降溫,並且不會有AI寒冬,升溫的是各種開源框架,2019年的AI,你認為會是怎樣? 2018年,機器學習和人工智慧領域最重要的突破是什麼? (這裡給你留出充分思考的時間。)
  • 想入門AI,機器學習你知多少了?
    01 機器學習(Machine Learning)1.什麼是機器學習機器學習與人工智慧的關係:機器學習是實現人工智慧的一種工具;而監督學習、無監督學習、深度學習等只是實現機器學習的一種方法。機器學習與各種學習方法之間的關係:
  • 想要入坑機器學習?這是MIT在讀博士的AI心得
    其內容涵蓋日常生活到 AI 領域中的一些小技巧,希望這可以給你帶來一些啟發。開始找到一個你感覺合適的人詢問「傻問題」最初,我非常害怕自己的同事,羞於向人提問,因為這可能會使我看起來非常缺乏基礎知識。我花了好幾個月才適應了環境,開始向同事提問,但一開始我的問題仍然非常謹慎。不過現在,我已有三四個關係較好的人了,我真希望當時能早點找到他們!
  • AI專家們推薦的13篇「必讀」論文
    Jeff推薦的第二篇論文通過在整個訓練過程中倒鏈導數,計算出所有超參數的交叉驗證性能的精確梯度。這些梯度允許對數千個超參數進行優化,包括步長和動量計劃、權重初始化分布、豐富的參數化正則化方案和神經網絡架構。你可以在這裡閱讀更多關於這篇論文的內容。
  • 資料| 1800頁33章數學方法精要筆記 —深入數學建模, 機器學習和...
    本書凝聚了作者多年數學建模和機器學習研究和實戰經驗。根據應用領域, 本書總結並深入講述傳統方法到前沿的深度學習和強化學習算法,幫助讀者迅速抓住重點,減少彎路。a. 本書的算法和定理證明中常常引用相關的其他章節,循序漸進,有助於讀者建立樹狀知識脈絡,一網打盡相關知識點。b. 本書例子詳實並多伴有示意圖,清晰易懂。
  • 大講堂 | 預測時間敏感的機器學習模型建模與優化
    所以這樣的應用要求機器學習模型能夠同時優化預測精度和時間。本研究提出一個通用的理論框架來實現預測精度和速度的最優權衡。這一權衡可以通過選擇最優的特徵選擇實現,比如我們傾向於選擇能保證高精度卻又帶來較少計算量的特徵。但是特徵計算過程中廣發存在的計算依賴和冗餘,這導致我們對其加以建模並在優化過程中精確的考慮它們。這樣建立的整體模型是一個高度非凸並且離散的問題。
  • 陳陟原:數據降維與可視化| AI 研習社第 53 期猿桌會
    截止到目前,數據降維的方法很多。我們可以從不同的角度入手進行不同的分類,主要分類方法有:根據數據的特性可以劃分為線性降維和非線性降維;根據是否考慮和利用數據的監督信息可以劃分為無監督降維、有監督降維和半監督降維;根據保持數據的結構可以劃分為全局保持降維、局部保持降維和全局與局部保持一致降維等等。
  • 「機器學習」機器學習算法優缺點對比(匯總篇)
    假如你在乎精度(accuracy)的話,最好的方法就是通過交叉驗證(cross-validation)對各個算法一個個地進行測試,進行比較,然後調整參數確保每個算法達到最優解,最後選擇最好的一個。但是如果你只是在尋找一個「足夠好」的算法來解決你的問題,或者這裡有些技巧可以參考,下面來分析下各個算法的優缺點,基於算法的優缺點,更易於我們去選擇它。