為了更好地表示一個樣本的分布的情況,訓練一個學習樣本的標籤分布(Label Distribution)的模型,被稱為標籤分布學習(Label Distribution Learning,LDL),讓每一個維度都反映對應標籤程度的一種概率分布。
然而,LDL任務的主要困難之一就是,標籤分布是十分難以獲取的。大多數的分類數據集都不具備這樣的條件,要獲取真實的標籤分布,理論上是需要對同一樣本進行大量的打標,得到其統計分布的,但這背後的人工成本是無法承受的。
論文《Label Enhancement for Label Distribution Learning》提出利用樣本集自身的特徵空間來構造出這樣的標籤分布。這一類的方法被稱為label Enhancement(LE),下面介紹幾種LE的方法:
1. Fuzzy C-Means(FCM)
Fuzzy C-Means 是一個代表性的「軟聚類」算法(soft clustering)。它實際上是對K-Means這種「硬聚類」算法的一種改進。K-means聚類只能將一個點劃分到一個簇裡,而FCM則可以給出一個點歸屬於各個簇的概率分布。
通過FCM算法,如果設置k個簇,樣本的簇概率分布就是這個c維向量。然後,構造一個分類類別(classes)與聚類簇(clusters)之間的一個軟連接矩陣k×c的矩陣A:即A的第j行(代表第j個類別),是由所有屬於該類別的樣本的簇分布累加而得到的。最後,通過矩陣A與點乘,就可以將每個樣本的簇分布(c個簇),轉化為標籤分布(k個標籤)了。上面的過程,可以通過下圖來表達:
2.Label Propagation(LP)
LP的主要思想是通過樣本之間的相似度矩陣,來逐步調整原本的logical label representation。神經網絡的核心,也是鄰居節點之間的互相傳播,跟這裡的相似樣本之間,進行標籤信息的傳播是類似的思想。
3.Mainifold Learning(LM)
除了LP之外,還有一個Mainifold Learning(LM),主要思想就是假設一個樣本點的特徵,可以完全由其相鄰點的特徵線性表示。
文章提出的新方法為Graph Laplacian Label Enhancement。也是一種基於圖的思想的方法,其思想很簡單:在訓練標籤預測模型的同時,也考慮學習標籤間的相似性。
作者對兩種方法的效果進行對比:
由logical label恢復到原本的label distribution的水平由得到的label distribution來訓練LDL模型對於恢復效果,有一個自製三維數據集的可視化:
GLLE和LP效果均接近Ground-Truth。
在其他數據集上,計算相似度和平均排名來衡量各個LE方法的效果: