引用
Jorgensen, M., & Hauberg, S. (2021). Isometric Gaussian Process Latent Variable Model for Dissimilarity Data. In Proceedings of the 38th International Conference on Machine Learning (Vol. 139). International Machine Learning Society (IMLS). Proceedings of Machine Learning Research Vol. 139
摘要
我們提出了一個概率模型,其中潛在變量考慮了模型數據的距離和拓撲結構。該模型利用生成流形的黎曼幾何賦予潛在空間一個定義明確的隨機距離測度,該測度被局部建模為 Nakagami 分布。通過審查過程,這些隨機距離被尋求儘可能類似於沿著鄰域圖的觀察距離。該模型是通過基於成對距離觀測的變分推理來推斷的。我們演示了新模型如何在學習流形中編碼不變量。
1.介紹
降維是指將數據壓縮到較低的維度表示,同時保留底層信號並抑制噪聲。當代非線性方法大多依賴於統一假設,即觀測數據分布在嵌入觀測空間的低維流形附近。除了這個統一假設之外,方法通常因關注三個關鍵屬性之一而不同(表 1)。
拓撲保持。拓撲空間是一組對連續變形保持連通性不變的點。對於有限的數據,連通性通常被解釋為一種聚類結構,這樣拓撲保持方法就不會形成新的聚類或分解現有的聚類。出於可視化目的,統一流形近似投影(UMAP)似乎是該領域的最新技術。
距離保持。設計用於尋找與觀測數據相似的成對距離低維表示的方法通常可以被視為多維標度(MDS)的變體。通常,這是通過直接最小化壓力來實現的,壓力定義為:
其中 dij 是兩個數據點 xi 與 xj 的差異(或距離),Z = {zi}Ni=1 代表了在 Rq 中的低維表示。
概率模型。上述方法的一個共同特點是,它們在從高維到低維的映射中學習特徵,而不是由低維到高維學習。這使得這些方法對於可視化非常有用。生成模型允許我們在高維空間中製作新樣本。與我們特別相關的是高斯過程潛變量模型(GP-LVM),GP-LVM 學習了一個隨機映射 f: Rq→RD 以及潛在表示 z,這是通過在高斯過程之前將映射邊緣化來實現的。生成手段允許這些方法擴展到可視化之外,例如缺失數據插補、數據擴充和半監督任務。
在本文中,我們使用高斯過程來學習一個黎曼流形,在這個過程中,流形上的距離與黎曼假設所指的局部距離相匹配。假設觀測數據位於具有無限內射半徑的 RD 的黎曼 q-子流形上,那麼我們的方法可以學習到與原始流形等距的 q 維表示。類似的表述只適用於原始流形為平面情況下嵌入到 Rq 的傳統流形學習方法。我們通過生存分析中的通用技術,結合基於高斯過程弧長理論的似然模型,學習全局和局部結構。最後,我們展示了高斯過程方法邊緣化潛在的表示,並產生一個完全貝葉斯非參數模型。
本文處理的數據是實例之間的成對距離。這自然給該方法增添了幾何色彩,因為距離屬於幾何範疇。請注意,這並不排除表格數據——我們只需要點之間的可計算距離。此外,許多現代數據集以成對距離的形式出現:基於進化樹上距離的蛋白質、用於位置識別的簡單全球定位系統數據、來自心理學的感知數據等。
2.背景材料
2.1 高斯過程
高斯過程(GP)是函數上的分布,f: Rq→R 滿足對域 Rq 中任何有限的點集ziNi=1,輸出 f = (f(z1),...,f(zN))具有聯合高斯分布。該高斯分布完全由平均函數 μ:Rq→R 以及一個協方差函數 k: Rq×Rq→R 決定,如此:
其中 μ=(μ(z1),...,μ(zN)),K 是一個 N×N 矩陣,第(i,j)個元素為 k(zi,zj)。
2.2 黎曼幾何
流形是一種拓撲空間,其上的每個點都有一個與歐氏空間同胚的鄰域;也就是說,流形是局部線性空間。這種流形可以嵌入到比相關歐幾裡得空間維數更高維的空間中;流形本身具有與局部歐氏空間相同的維數。因此,q 維流形 M 可以看作是嵌入在 RD 中的曲面。為了沿著流形進行定量陳述,我們要求流形是黎曼的。
定義 1. 一個黎曼流形 M 是一個帶有內積的平滑 q-流形:
,
內積在 x 中是平滑的,其中 TxM 代表在 x 上評估的 M 的切線空間。
曲線長可以從黎曼內積中很容易地定義出。如果 c:[0,1]→M 是一條光滑曲線,它的長由給出。在一個嵌入的流形 f(M)上,變成:
然後,對於 x,y∈M,M 上的度量可以定義為:
2.3 Nakagami分布
我們考慮被高斯過程浸入的隨機流形,這種流形上的曲線(7)的長度也必然是隨機的。幸運的是,由於該流形是高斯場,因此曲線長度與 Nakagami 分布非常接近。Nakagami 有密度函數:
參數 m ≥ 1/2 且 Ω> 0;Γ 代表伽馬函數。這些參數可以用方程來解釋:
3.模型與變分推理
先決條件確定後,我們建立了一個局部距離保持和全局拓撲保持的高斯過程潛在變量模型。注意:我們用 Z 表示數據集 Χ= {xi}Ni=1,xi∈RD 的潛在表示,用 f: z→x 表示生成映射。
3.1距離拓撲保持
我們建立了一個高斯過程潛在變量模型(GP-LVM),為距離和拓撲保持而明確設計。普通的 GP-LVM 採用高斯似然,其中當以高斯過程 f 為條件時,我們假設觀測值為 Χ。相反,我們考慮觀測值之間成對距離的可能性。
鄰域圖。為了對局部性建模,我們將模型限制在嵌入觀測數據 Χ 的圖上,頂點 V=Χ 且邊 E= {eij}的無向圖。相當於,G=(V,E)可以用其帶有條目的鄰接矩陣 AG 來表示:
流形距離。為了得到成對距離的似然度,我們首先回顧潛在空間中的 zi 和 zj 之間的線性插值具有曲線長度:
其中 J 代表 f 的雅可比行列式,是我們的生成流形近似。
由於流形距離 dM 是最短連接曲線的長度,因此根據定義,sij 是一個 dM 上的上限。然而,由於流形與歐氏空間是局部同胚的,那麼我們可以期望 sij 是到鄰近點距離的一個很好的近似,即
審查。為了將這種行為編碼為似然度,我們在目標函數中引入了審查。這種方法通常應用於生存分析中的缺失數據,即已知某個事件的發生晚於某個時間點。我們可以把審查看作是對數據不平等的建模。對於具有密度函數 gθ,服從分布函數 Gθ 的數據 ti,審查似然函數定義為:
其中 θ 是分布 G 的參數,T 這是實驗結束的某個「時間點」。CarreiraPerpian 指出,大多數鄰域嵌入方法都有兩個損失函數:一個吸引近點,一個散射遠點。審查為類似的術語提供了似然度,它可以被視為最大方差展開思想的概率版本。
局部距離似然度。從前面我們知道,如果流形 f(M)是高斯場,那麼距離 sij 近似為 Nakagami 分布。因此,我們把似然度表示為:
其中 Gθ 是帶有參數 θ={m,Ω}的 Nakagami 函數分布,得到的對數似然在圖 2 中的等式 16 中給出。
3.2邊緣化表示
我們有一個損失函數(16),它將 eij 與參數 θij={mij,Ωij}相匹配。我們現在尋求首先擬合這些參數,並將其邊緣化,以獲得完整的貝葉斯方法。首先,我們假設條件為 θ,我們得到獨立的觀測值,即
從方程 3.1 可知,我們通過引入一個潛在的高斯場 J 和一個潛在的表示 z 來推斷 Nakagami 的這些參數。這允許我們定義曲線長度(12),我們假設它也是 Nakagami 分布的。實際上,我們從等式 12 中抽取 m 個 sij 樣本,並估計它們的二階矩的均值和方差,這通過公式 10 給出了 mij 和 Ωij 的估計值。
本質上,我們將流形 J 上的距離與觀察到的距離 ε 相匹配。我們忽略了該流形
此外,我們可以在等式 19 中提出一個先驗並將其邊緣化。我們通過變量推斷一切,並在邊緣化變量上選擇一個變量分布。我們用下列公式近似後驗 p(θ,J,z,u|ε):
其中 u 是一個誘導變量,且有:
其中 μz 是大小為 N 的向量,Az 是 N×N 對角矩陣,q(u)=N(μu,S)是一個全 M 維高斯,這使我們將對數似然度(16)與證據下界(ELBO)綁定在一起:
總之,我們有一個潛在的代表 Z 和一個被浸入為 GPJ 的黎曼流形。這意味著在任意兩點 zi 與 zj 之間,我們可以計算出近似 Nakagami 的值 sij。有了審查,如果 eij<ϵ,我們就可以把 sij 與觀察值 eij 相匹配;否則我們就把 sij 所有值都放在[ϵ,∞)。通過最大化等式 26,用變分推理對其進行優化。
3.3不變性與幾何約束
為什麼值得用無坐標的方法學習流形?通過引入等價類,不變量很容易通過相異對進行編碼,即如果 xi 與 xj 在同一等價類中,那麼 d(xi,xj)=0。這種等價類的流行選擇是旋轉、平移和縮放。人們希望對模型施加的許多約束可以表述為幾何約束,這也適用於基於 GPLVM 的模型。幾何約束也可以用高斯過程編碼,高斯過程直接輸出到黎曼流形上。
3.4. ϵ的拓撲數據分析及其影響
模型自然會受到超參數的影響。我們認為,可以使用拓撲數據分析以幾何基礎的方式選擇它,通過構建一個 Rips 圖可以找到 ϵ,從而 ϵ-NN 圖可以捕獲正確的數據拓撲。要理解 ϵ 從更廣的角度來看意味著什麼,我們可以研究邊界用例。如果 ϵ=∞ 我們會匹配所有觀測到的距離,這類似於 MDS。如果邊緣化的 J 的協方差函數是常數,潛空間也被服從歐幾裡得,因此 Iso-GPLVM 在這種情況下可以被視為概率 MDS。
4.實驗
我們首先在一個經典的玩具數據集 COIL20 和圖像數據集 MNIST 上進行實驗。我們將所提出的模型稱為等距高斯過程潛變量模型。為了進行比較,我們還基於不同的數據評估其他模型。在所有情況下,我們用 IsoMap 初始化 Iso-GPLVM,因為眾所周知,基於 GP 的方法對初始化很敏感。
4.1 Swiss roll
Tenenbaum 等人引入了「Swiss roll」來強調非線性流形學習的困難, 點雲位於嵌入在 R3 中的二維流形上,可以被認為是一張卷在自身周圍的紙(見圖 3A)。我們通過 MDS、t-SNE、IsoMap 和 Iso-GPLVM 四種方法發現了二維潛在嵌入。從圖 3 中,我們觀察到線性 MDS 無法捕捉高度非線性的流形。t-SNE 捕捉到了一些局部結構,但全局狀況並不理想。由於數據集是為 Isomap 的「geodesic」方法構建的,因此它既能捕捉全局結構,又能捕捉局部結構。
4.2 COIL20
COIL20 由 20 個物體的灰度圖像組成,這些圖像是從 72 個不同的角度拍攝的,橫跨一個完整的旋轉(見圖 4 的一些例子)。這意味著總共有 1440 幅圖像——我們使用的版本大小為 128×128 像素,因此原始數據位於 R16384。
首先,我們只關注一個對象——旋轉的橡皮鴨——來突出 geodesic 行為。圖 4 顯示了潛空間中學習流形上的二維嵌入和 geodesic。我們清楚地從旋轉的鴨子上觀察到所期望的的環形結構。除此之外,geodesic 顯示了潛空間的黎曼幾何:它們沿著數據流形移動,避開沒有觀察到數據的空間。背景色是測度,它提供了潛空間的黎曼幾何視圖。IsoMap、t-SNE、UMAP 等也能推斷出循環嵌入,但 Iso-GPLVM 是唯一能推斷潛空間的幾何學的模型。
當同時考慮所有 20 個對象時,分離不同對象的全局元素是推斷拓撲結構的關鍵任務。圖 5 中可以看到 IsoMap 和 IsoGPLVM 的嵌入。由於 IsoMap 隱含了一個連通流形的假設,因此它很難清晰地分離對象。Iso-GPLVM 找到了全局拓撲結構,但在任何情況下都沒有找到局部結構。
4.3 MNIST
指標。我們在來自 MNIST 的 5000 張圖像上評估我們的模型,我們首先希望強調不變量如何用相異數據編碼。我們考慮將我們的模型擬合到三種不同距離度量下的數據。我們考慮經典的歐幾裡得距離度量:
此外,我們考慮在圖像旋轉下不變的度量:
其中 Rθ 對一個圖像旋轉 θ 度。我們注意到總是有 dROT(xi,xj) ≤ d(xi,xj)。最後
我們介紹一個字典指標:
其在審查階段強制攜帶不同標籤的圖像相互排斥。當離散變量可用時,這是一種基於離散變量對拓撲或聚類進行編碼的簡便方法。
結果。圖 6(A-C)顯示了這三個指標的潛在嵌入。面板 A、D 和 E 的潛在嵌入基於歐幾裡得度量。我們觀察到 IsoMap (D)和 Iso-GPLVM (A)在形狀上看起來相似,這並不奇怪,因為我們用 IsoMap 初始化,但 IsoGPLVM 的數字分離更清晰。總的來說,從聚類的角度來看,t-SNE 在視覺上表現更好;但是(A)中簇間距離會大於連接它們的直線。在聚類方面,字典方法比其他度量方法更為突出。這是預料之中的,因為度量使用標籤信息,但是清楚地說明了特定領域的度量是如何從弱信息或部分信息發展而來的。除了圖中間的一個區域外,大多數類都被很好地分開了。潛在空間的黎曼幾何意味著 geodesic (最短路徑)可以在我們的模型中計算。圖 6F 顯示了字典度量下的 geodesic 示例,它們高度非線性的外觀強調了學習流形的曲率。
5.討論
我們引入了一個從相異數據進行非線性降維的模型,它是第一個基於高斯過程的該類模型。該方法的非線性既源於高斯過程,也源於似然性的審查。它統一了來自高斯過程、黎曼幾何和鄰域圖嵌入的思想,與傳統的嵌入到 Rq 中的流形學習方法不同,我們通過學習的度量嵌入到一個 q 維的黎曼流形中。這允許我們學習與真實潛在流形等距的潛在表示。
我們的實驗突出表明,Iso-GPLVM 可以學習數據的幾何形狀,並且通過學習一個流形來進行高斯過程回歸,幾何約束更容易編碼。與高斯過程相關的不確定性量化貫穿始終,並進一步強調了不確定性、幾何和拓撲之間的聯繫。據我們所知,我們的模型是同類模型中的第一個,局部來說它可以通過相關的黎曼測度來評估流形近似的質量。
致謝
本文由南京大學軟體學院 2021 級碩士研究生楊靈權翻譯轉述,博士生肖媛審核。