淺談局部線性嵌入

2021-01-09 Algorith奈

01-數據降維

數據降維是指通過線性的或非線性的映射關係將高維數據轉換成低維數據的過程。一般情況下,該低維數據代表了原始高維數據的主要成分(圖1),並描述了原始高維數據的空間分布結構。由於經過降維後的數據更易於被分類、識別、可視化以及存儲等,故數據降維技術在諸多科研領域受到了越來越多地關注。

從數據本身的的性質特徵來看,數據降維可以大致分為線性降維和非線性降維兩種技術方法。其中,線性降維技術僅對於數據維數相對較低、且具有全局線性結構的數據有著很好的降維效果。然而,在實際的科學研究中,科研工作者卻需要面對海量的非線性高維數據。因此,能夠有效處理高維非線性數據的方法亟待被提出,本文將介紹一種用於處理高維非線性數據的降維方法。

圖1

02-局部線性嵌入

02-01-全局重建矩陣的求解

局部線性嵌入(Locally linear embedding, LLE)是一種非線性的降維方法,該算法由 Sam T.Roweis等人於2000年提出並發表在《Science》雜誌上。LLE試圖保留原始高維數據的局部性質,通過假設局部原始數據近似位於一張超平面上,從而使得該局部的某一個數據可以由其鄰域數據線性表示,如圖2所示:

圖2

基於上述思想,原始數據集中任意一個數據都可以看作被表示的點,這相當於將局部的線性表示一步一步轉換成了全局的非線性表示。該過程的數學描述為:

其中,xi表示原始數據集中的第i個數據,xik表示數據xi的第k個鄰域數據,wik表示xik對應的權重。當xi已知時,鄰域數據xik可以通過KNN等算法求出。因此,可以將上式轉化成對wik的優化問題,誤差函數如下所示:

其中,wi=[wi1,wi2,...wik]T,表示xi的重建係數。為了方便求解,不妨對wi添加約束條件:

於是有:

進一步化簡得到:

其中有:

應用拉格朗日數乘法求解上述的優化問題,得到:

其中,one=[1,1,...,1]1xk.因此,對拉格朗日函數求wi的偏導數,得到:

為簡便起見,此處進一步化簡為:

由於Ai不一定可逆,所以對Ai添加一定的擾動項,如下所示:

其中,small_num表示一個極小的常數值,trace()表示矩陣求跡,eye(k,k)表示kxk的單位對角矩陣。因此解得xi的重建係數為:

最後再對求得的wi做歸一化即可。

綜上所述,雖然以上分析過程只是針對高維數據xi,但是其他數據xj(j不等於i)也可以按照此方法計算出相應的局部重建矩陣,從而最終得到整個數據集的全局重建矩陣。

02-02-低維數據的求解

在上一節中求得的wi實際為kx1的向量。因此,若原始數據集中共含有n個數據,那麼最終求得的w可以組成一個kxn的矩陣,如下所示:

由於局部線性嵌入會保留原始數據的拓撲結構,故降維得到的低維數據具有同高維數據一樣的局部線性結構,即:

其中,yi表示低維數據集中的第i個數據,yik表示yi的第k個鄰域數據,wik表示與yik對應的重建係數(即上節中求得的重建係數)。故,本節的優化函數為:

將該式化簡為:

其中,mi為nxn的權值矩陣,表示從低緯數據集y中取出用於表示yi的鄰域數據以及從mi中取出相應的權值係數,Ii表示從低維數據集y中取出第i個數據。mi實際上就是由w組成的稀疏矩陣。例如,當w1=[2,5,7,3,9]時,則m1隻在表示第2、5、7、3、9列數據的坐標上不為0,而其他位置均用0表示。進一步化簡得到:

令R=(Ii-mi),於是有:

為了定解,對l(y)添加如下兩個約束條件:

其中Id表示d維的單位矩陣。又因為:

同理可得:

故第一個約束條件可以改為:

其中y=[y1,y2,...,yn].對該優化函數應用拉格朗日數乘法,得到:

對y求偏導數,得:

令該偏導數為0,則有:

因此,yT實際為由矩陣R*RT特徵向量組成的矩陣。

03-實驗再現

根據LLE的算法原理,筆者編寫並執行了LLE程序,得到的實驗結果如圖3、圖4所示。其中,圖3表示3維原始數據,圖4表示降維後的2維數據。

圖3

圖4

04-思考與總結

局部線性嵌入算法以局部線性、全局非線性的策略對待原始高維數據,從而在保持原始數據拓撲結構的基礎上進行數據降維。該算法充分利用了矩陣理論的相關知識,將第一、二次優化問題分別轉換成了二次型、特徵值求解問題,具有較強的啟發性和科學論證的嚴謹性。

求低維數據時添加的兩個約束條件,其一表示低維數據的協方差矩陣之和等於單位矩陣的n倍,其二表示所有低維數據的均值為0。另外,由於該協方差約束可以進行如下展開:

註:假設y1=[y11,y12]T.

因此,y中的行向量均位於半徑為sqrt(n)的n維單位球上,且兩兩正交。

05-參考文獻

[1] Roweis, S. T., & Saul, L. K. (2000). Nonlinear dimensionality reduction by locally linear embed- ding. Science, 290(5500), 2323-6.

[2] WOJCIECHCHOJNACKI, & Brooks, M. J. (2009). A note on the locally linear embedding algorith- m. International Journal of Pattern Recognition & Artificial Intelligence, 23(8), 1739-1752.

[3] Saul, L. K., & Roweis, S. T. (2001). An introduction to locally linear embedding. Journal of Machine Learning Research, 7.

[4] 吳曉婷, 閆德勤. 數據降維方法分析與研究[J]. 計算機應用研究, 2009, 26(8):2832-2835.[5] 王靖. 流形學習的理論與方法研究[D]. 浙江大學, 2006.[6] 馬宇. 基於高維空間的非線性降維的局部線性嵌入LLE方法[D]. 西南交通大學, 2017.

相關焦點

  • 優化 | 淺談約束規範性條件(Constraint Qualification)
    編者按:本文淺談了什麼是約束規範性條件(constraint qualification),並列舉了一些常見的CQ和它們之間的關係。CQ和KKT條件的關係密不可分,正如王源在文章《【學界】關於KKT條件的深入探討》裡所述,CQ完善了KKT條件的嚴謹性,在滿足CQ的條件下,KKT條件才是帶約束的優化問題的局部最優解的必要條件
  • 文本嵌入的經典模型與最新進展
    雷鋒網 AI 科技評論編譯如下。詞嵌入和句子嵌入已成為所有基於深度學習的自然語言處理(NLP)系統的重要組成部分。它們在定長的密集向量中編碼單詞和句子,以大幅度提高文本數據的處理性能。因此,這篇文章簡要介紹了通用詞和句子嵌入的最新技術:我們先從詞嵌入開始。
  • Bioinf | 生物醫學網絡中的圖嵌入:方法、應用與評價
    ,在最近幾年,圖嵌入學習越來越來越受到關注。這三種圖結點的表徵方法,在下面圖嵌入方法中具體概述。圖嵌入方法概述圖嵌入方法可以分為3類:基於MF的方法;基於隨機遊走方法;基於神經網絡的方法。這領域的方法還有Isomap、局部線性嵌入、LE。傳統的MF有很多變體,例如奇異值分解(SVD)和圖因式分解(GF)。而且他們通常專注於分解一階數據矩陣(例如,鄰接矩陣)。
  • ACL2020|基於正交關係轉換與圖上下文建模的知識圖嵌入
    知識圖譜嵌入表示了連續向量空間中的實體和關係,可以用於連結預測等方面,大致可以分為基於距離和語義匹配模型兩類。基於距離的模型又稱加性模型,因為它將頭尾實體投影到相同的嵌入空間中,利用兩個實體嵌入之間的距離評分來衡量給定三元組的相似性,比如TransE(2013),TransR(2015)和RotatE(2019)等。
  • 淺談開關電源和線性電源的區別
    開關電源和線性電源的優點缺點對比及區別,都是直流電源按要求不同使用不同 ,線性直流電源最好 他輸出的是線性直流電,可以用在要求高的場合,開關直流電源次之,他是由很高的開關速度的變壓器和開關管,特點是重量小
  • 線性回歸的幾何與概率視角
    Content線性回歸-幾何視角線性回歸-概率視角Pseudo-inverse偽逆的介紹局部加權線性回歸多個output的線性回歸情況線性回歸的幾何角度這也和現實裡面的情況相符,比方說我們認為某個時刻的股價受周圍幾天的股價影響較大,而更遠的股價對這個時刻的股價影響較小。借用一個知乎上給出一個例子,我們可以看到局部加權回歸相較於OLS線性回歸的強大之處。這是我們要擬合的一個data,顯然如果使用OLS會是一個欠擬合的結果。
  • 使用三重損失網絡學習位置嵌入:讓位置數據也能進行算術運算
    其效果是,在優化過程中,該網絡會嘗試學習一個度量空間,其中錨嵌入和正例嵌入都離負例嵌入儘可能地遠。相對而言,原來的 SoftMax 比值損失僅考慮了錨嵌入和負例嵌入之間的距離。圖 11 展示了這兩者的差異。
  • 線性映射的不變量
    線性空間和線性映射是線性代數的核心,在數學和物理學的各個領域都有極為廣泛的應用。
  • 淺談高速公路波形護欄反光膜的原理與分類
    淺談高速公路波形護欄反光膜的原理與分類 高速護欄反光膜是一種已製成直接應用的反光材料,能夠反射燈的光線,使駕駛員能夠從遠處找到前部物體並採取措施。
  • 線性充電器的基本功能
    在本文中,我將討論線性充電器的不同功能如何幫助解決這些問題。  電源路徑  電源路徑功能可通過在充電器內部增加一個開關,使單獨的輸出為系統供電並為電池充電。這種架構會導致其他一些特性。讓我們先看看圖1,該圖顯示了一個沒有電源路徑的簡單線性充電器。系統輸入和電池電極連接到相同的充電器輸出節點。
  • 當前最好的詞句嵌入技術概覽:從無監督學習轉向監督、多任務學習
    讓我們從詞嵌入開始娓娓道來。最近的詞嵌入研究進展在過去的五年中,人們提出了大量可行的詞嵌入方法。目前最常用的模型是 word2vec 和 GloVe,它們都是基於分布假設(在相同的上下文中出現的單詞往往具有相似的含義)的無監督學習方法。
  • 10分鐘了解圖嵌入
    嵌入可以幫助我們離線分析此數據,並實時使用壓縮後的數據進行嵌入更新。既然我們知道了我們要嵌入的內容,我們就可以理解為什麼它具有特定的結構。什麼是圖嵌入?在詳細介紹如何存儲和計算嵌入之前,讓我們先介紹一下嵌入的結構以及使嵌入對實時分析有用的特徵。
  • 淺談鋰離子電池的原理及其發展趨勢
    淺談鋰離子電池的原理及其發展趨勢  電子資訊時代使對移動電源的需求快速增長。由於鋰離子電池具有高電壓、高容量的重要優點,且循環壽命長、安全性能好,使其在可攜式電子設備、電動汽車、空間技術、國防工業等多方面具有廣闊的應用前景,成為近幾年廣為關注的研究熱點。
  • 淺談「多元線性回歸中的殘差分析」
    從「殘差圖」可以直觀地看出殘差的絕對數值都比較小,所描繪的點都在以0為橫軸的直線上下隨機散布,回歸直線對各個觀測值的擬合情況是良好的。說明變量X與y之間有顯著的線性相關關係。   如果殘差圖中各點的值差別比較大,說明回歸曲線方程與實際值之間差別也比較大。也可以說,殘差圖的波動幅度,反映了回歸方程與實際值之間的差別程度。
  • t值 線性回歸專題及常見問題 - CSDN
    線性回歸 用線性回歸找到最佳擬合直線回歸的目的是預測數值型數據,根據輸入寫出一個目標值的計算公式,這個公式就是回歸方程(regression equation),變量前的係數(比如一元一次方程)稱為回歸係數(regression weights)。
  • 改變線性思維,才是認知升級第一步
    其實,將莊稼「燒死」的原因不是別的,正是農民B的「線性思維」。什麼是線性思維?線性思維是一種直線的、均勻的、不變的、單一的、單維的思維方式,一切都隨著初始條件的給定而給定。比如剛剛講的這個故事,農民B看到農民A每增加一些肥料,莊稼的收成就會等比增加,於是想到自己也可以用這種方法讓收成翻倍。誰知結果卻適得其反,收成不增反減。
  • ACM MM | 中山大學等提出HSE:基於層次語義嵌入模型的精細化物體分類
    機器之心發布作者:Tianshui Chen、Wenxi Wu、Yuefang Gao、Le Dong、Xiaonan Luo、Liang Lin細粒度識別一般需要模型識別非常精細的子類別,它基本上就是同時使用圖像全局信息和局部信息的分類任務
  • 線性表示和線性相關
    >  設兩個向量組A:a1,a2,…,as向量組B: b1,b2,…,bt如果向量組B的每個向量都可由向量組A線性表示,則稱向量組B可由向量組A線性表示;除此之外,如果向量組A也可由向量組B線性表示,則稱向量組A與向量組B等價.
  • 兩種方法 | 用Origin輕鬆完成曲線局部放大圖
    微信公眾號二維碼本文轉載自「Paper繪圖」公眾號本文僅限轉載圖文撰寫 | 超級super棟今天為什麼會講到這個技巧呢?其實也是從前一陣子論文投稿中總結而來的。那麼一般我寫的推文呢,首先考慮到他的應用性,其次我們再去研究圖如何做出來。如下圖,這是一個藥物的累積釋放圖,那麼在前面的一些時間點,他們的數據點比較密集。