雷鋒網(公眾號:雷鋒網)AI科技評論按:以 Facebook、Twitter、微信和微博為代表的大型社交網絡的快速發展,產生了海量體現網絡結構的數據。如何用合理的方式表示這些數據是網絡挖掘的關鍵問題,本文探討的就是網絡的表示學習問題。
在近期雷鋒網 GAIR 大講堂舉辦的一期關於網絡表示學習的直播中,來自浙江大學本科三年級的馮瑞同學講解了關於網絡表示學習的相關知識,以及他最新入選 AAAI 2018 的一篇論文的主要內容。本文根據馮瑞同學的直播分享整理記錄,有刪減,推薦大家觀看 GAIR 大講堂提供的視頻回放。
馮瑞,浙江大學本科三年級,ZJU DCD 實驗室實習。AAAI 2018 入選論文一作。
分享主題:網絡的學習表示
分享提綱:
網絡的表示學習問題和經典算法介紹
歐式空間中保持無標度特性的可能性
針對無標度網絡表示學習的優化策略
可保持時序信息的網絡表示學習模型
社交網絡中的表示學習
如何用合理的方式表示數據是網絡挖掘的關鍵問題,表示學習的目的是為網絡中的每一個節點分配一個某個線性空間中(比如歐式空間)的向量,使得這些向量能夠保持原來網絡的結構信息。接下來的分享內容討論表示學習的諸多問題,比如在歐式空間中的無標度網絡的表示學習,討論是否保持網絡的無標度特性,並對此優化以提高向量的表示能力。我們同時還討論如何處理網絡時序序列,使得表示向量能夠保持時序信息。
什麼是圖嵌入
圖嵌入是給圖中的點找到一個映射,給每一個點分配一個向量表示。
圖嵌入的應用
網絡挖掘裡經常會用到這項技術進行邊的預測,節點的聚類,節點的分類。
關於社交網絡的表示學習
社交網絡最主要的特性是它是一個動態網絡。社交網絡是一個不斷演進的過程,或者稱為網絡的時間序列。如果只看某一個時間的靜態網絡是不能反映全部的網絡信息的。
接下來介紹這個模型就是解決這個問題,怎麼把持續的信息加入到圖嵌入中。它能反映用戶之間的交互,信息傳遞的過程,用戶之間的關係等特徵。
複雜網絡的另一個特徵是它是一個無標度(scale-free)網絡。關於無標度網絡的介紹可以觀看視頻。
第一個模型是Dynamic Network embedding。下面是A和B的拓撲特徵圖。從圖中,連接A的幾個節點,相互之間也有了連接,可以看出A的影響力比B大。
上圖中的演變過程是閉三角形過程。開三角形演變為閉三角形取決於K的影響力。
同時有多個開三角形演變為閉三角形的概率如何計算。
模型訓練過程
關於應用
分別在行動網路,學術網絡,伺服器網絡上進行了應用。在行動網路上判斷是否電信欺詐,在網貸網絡上判斷用戶是否還錢,在伺服器網路上判斷網絡是否會崩潰。
網絡重建和邊預測
網絡重建是給兩個節點去預測兩個節點間是否有條邊。邊預測是看是否能預測在未來某個時間是否出現一條邊。
實驗同時,使用了四個模型對照,Deepwork,TNE(Temporal Network Embedding) ,Node2vec,Dynamic Triad模型對照。
實驗結果
下面來看無標度網絡的表示學習
無標度網絡的性質
上圖中(a)表示原來網絡的度分布,(b)的算法高估網絡度比較高的點的概率,(c)是我們模型得到優化後的效果。
理論分析(更多詳情請觀看GAIR大講堂視頻回放)
論文中的解決方案
網絡映射方法要保持一度和二度臨近。如果兩個節點有邊就是一度臨近。兩個節點有很多公共鄰節點成為二度臨近。一個節點如果度很高的話,需要懲罰相鄰節點的相似度。
兩個模型,第一個是DP-Spectral(degree penalty based spectral embedding ),基於光譜嵌入的度懲罰。
第二個是DP-Walker,(Degree Penalty based Random Walk)基於隨機遊動的度懲罰。
基於以上,無標度網絡結構重建和邊預測都取得了很好的試驗效果。更多詳情請觀看GAIR大講堂視頻回放。
雷鋒網提醒大家,如果不想在第一時間錯過免費直播課程,歡迎關注【AI科技評論】公眾號。我們將會選出幸運讀者,不定期有重大驚喜和福利等待大家。
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。