最近十分火的嵌入,不管是詞嵌入(word embedding),還是圖嵌入(graph embedding),都讓人看得似懂非懂,感覺懂了,又似乎不太確定。下面記錄一下查驗的收穫吧:
數學中的含義Embedding在數學上表示一個映射關係:f(x) --> y從一個空間映射到另外一個空間,保留基本屬性:a. injective (單射的):就是我們所說的單射函數,每個X只有唯一的Y對應b. structure-preserving(結構保存):比如在X所屬的空間上 x1<=x2 ,那麼映射後在Y所屬空間上同理 y1<=y2在word/graph中的應用高維物體在低維空間只會有一個低維的投影,其意義是將高維數據轉換到低維利於算法的處理,同時解決one-hot向量長度隨樣本的變化而變化,以及無法表示兩個實體之間的相關性這一問題。最常見的embeding方法是word2vec,根據語料庫中單詞的共現關係求出每個單詞的embedding,常用的word2vec模型有cbow和skip-gram兩種,cbow根據上下文預測中心詞,skip-gram根據中心詞預測上下文。
Graph Embedding 的中心思想就是找到一種映射函數,該函數將網絡中的每個節點轉換為低維度的潛在表示。利於計算存儲,不用再手動提特徵(自適應性)。