網絡重構最新綜述推薦:從宏觀尺度到微觀尺度

2020-12-22 澎湃新聞

原創 陳昊 集智俱樂部 收錄於話題#複雜科學前沿202053個

導語

如何利用部分網絡數據推斷網絡的宏觀屬性?能否進一步推斷出網絡中隱藏的連結模式,乃至補全中的具體節點與連邊?最近arXiv的一篇綜述文章,以統計物理和信息理論的視角,從宏觀、介觀和微觀三個尺度討論了解決網絡重構問題的思路、方法和技術,本文是對綜述整體內容的介紹。

陳昊 | 作者

劉培源 | 審校

鄧一雪 | 編輯

數據缺失是數據分析過程中遇到的普遍問題。即使在大數據時代,由於注釋錯誤、難以採集和隱私保護等問題,數據仍可能是不完整的。而在非結構化的網絡數據中,該問題顯得更加突出。在研究社會、經濟和生物等系統時,解決網絡結構的數據稀缺性的需求導致了網絡重構這一研究領域的誕生。

最近一篇掛上arXiv上的網絡重構領域綜述文章《Reconstructing networks》將網絡重構領域的研究劃分為宏觀、介觀和微觀三部分,對不同尺度的網絡重構問題及研究進展進行了詳盡的介紹。

論文題目:

Reconstructing networks

論文地址:

https://arxiv.org/abs/2012.02677

1. 宏觀尺度的網絡重構

宏觀尺度上的網絡重構側重於推斷網絡的全局特徵,例如同配性和層次結構。在研究該尺度時,通常不考慮任何特定拓撲細節,而是利用網絡的多種宏觀屬性來指導重構。

主流的宏觀尺度網絡重構模型有 2011 年提出的 Directed Weighted Configuration Model[1]和 2018 年提出的 Maximum-Entropy Capital Asset Pricing Model(MECAPM) [2]。在描述網絡性質的眾多參數中,Strengths(節點所有連邊的權重和)發揮了很重要的作用,因為它是很多實際網絡能提供的唯一信息。遺憾的是在僅提供 Strengths 信息的情況下,以上兩種方法都無法很好地重構網絡宏觀結構。2014 年提出的 Enhanced Configuration Model(ECM)[3]則可以很好地解決該問題。下圖為 ECM 在宏觀尺度網絡重構中的表現。

圖1. 已知 srengths 和度的情況下,ECM 模型的表現。每張子圖都展示了針對某些網絡實際節點特定網絡屬性的重構結果(Y軸)與理論值(X軸)左上:最近鄰居平均度(average nearest neighbors degree),右上:集聚係數(clustering coefficient) ,左下:最近鄰居平均強度(average nearest neighbors strength) ,右下:加權聚類係數(weighted clustering coefficient)[3]

為了從另一個方面分析重構方法的優缺點,該綜述還討論了系統風險的量化問題。自金融危機爆發以來,這個問題變得極為重要。金融機構之間複雜的互連模式有可能使整個系統變得極為脆弱,因為這些聯繫構成了財務危機擴散的渠道,這是金融系統風險的主要來源。下圖為 dcGM[4] 和 MECAPM[2] 兩種模型在證券持有(SHS)網絡上的表現。

圖2. 在 SHS 網絡數據集中重構網絡系統性:每個點代表一個具體部門使用dcGM(藍色)或MECAPM(綠色)推斷出的相對系統性,兩種方法的平均值均以水平實線表示。[14]

2. 介觀尺度的網絡重構

介觀尺度的網絡重構側重於發現節點分布模式,如社區結構、核心-邊緣結構和二分結構,並以此指導網絡重構。該主題引起了流行病學、生物學等領域的關注,並最終確定核心問題為發現節點間連接的模式及其衍生功能的相似性。介觀尺度模式的存在對於網絡上的各種動態過程,如信息和流行病的傳播有巨大影響。

2.1 社區結構

如圖 3 所示,滿足社區結構的網絡由多個結構相似的模塊組成。社區發現問題有多方面價值:首先,同一社群的節點具有很多相似的屬性,因而可以用於指導網絡的粗粒化從而簡化數據規模。其次,具有不同屬性的社群有助於揭示在宏觀尺度下被平均化的網絡特徵。此外社區劃分還可以指導對於模塊功能的探索等。

圖3. 網絡的社區結構舉例及其鄰接矩陣表示[5]

社區檢測問題仍然是一個未解決的問題,在過去二十年中有許多算法陸續被提出,主要可以分為兩大類:局部社區檢測和全局社區檢測。局部社區檢測基於社團內部的屬性,例如度、可及性和凝聚性等。當網絡的全局信息需要納入考慮時,則需要使用全局社區檢測方法。十分流行的模塊度方法就屬於全局社區檢測。

2.2 核心-邊緣結構

如圖 4 所示,滿足核心-邊緣結構的網絡由大量緊密連結的核心節點和稀疏連接的外圍節點組成,該類型的網絡在經濟學、社會學、神經科學等領域廣泛出現。

圖4. 核心-邊緣結構網絡示例 左圖為核心-邊緣結構網絡中的節點類型,右圖為嚴格符合核心邊緣結構的網絡的鄰接矩陣[6]

第一個不以網絡一定具有核心-邊緣結構為前提的檢測算法由 Holme 在 2005 年提出[15],該算法主要基於網絡的緊密中心性。2013 年由 Della Rossa 等人提出的基於標準隨機遊走的算法將檢測範圍擴充到了加權網絡[16]。在最近的研究中,van Lidth de Jeude 等人受超幾何分布中的 p 值啟發提出了一種新的核心-邊緣檢測基準模型[17]。

3. 微觀尺度的網絡重構

微觀尺度的網絡重構重點在於預測網絡中缺失的具體連邊,即鏈路預測問題。該問題對於多種具體網絡都有重要價值。以生物領域為例,對於食物網、蛋白質相互作用網和代謝網絡而言,通過實驗來判斷節點間是否存在連接需要付出巨大的經濟成本。與其盲目進行實驗,不如先通過鏈路預測找到那些最有可能存在的連邊,而後有的放矢地進行試驗。

連結預測方法大致可分為兩大類:基於相似度的算法和基於模型的算法。兩種方法的關鍵基本假設均為:如果兩個節點具有更大的相似性,則它們之間更可能存在連結。

3.1 基於相似度的算法

基於相似度的算法為每個待預測的連邊生成一個分數來評價其連接節點間的相似性。該分數取決於節點間屬性的差異性。依照所用節點屬性還可以將算法具體分為基於局部、半局部和全局相似性的算法。

如圖 5(a) 所示,基於局部相似性的算法通常基於社交網絡分析中的共同鄰居觀念,即如果兩個人的共同朋友越多,他們彼此認識的可能性就更大,該原理被稱為三元閉包(Triadic Closure Principle),是網絡中長度為 2 的路徑產生的主要原因。半局部相似性則與網絡中長度為 3 的路徑更為相關,例如在蛋白質相互作用網絡中,兩個結構相似的蛋白質不會相互作用。如圖 5(c) 所示,當蛋白質D與Y被很多長度為3的路徑連接時,二者才更有可能產生一條連邊。

圖5. 社交網絡與蛋白質網絡中的鏈路預測 圖a為社交網絡中連邊產生的示意圖。圖b為在滿足三元閉包原理(Triadic Closure Principle)的網絡模型下不同狀態的節點對間產生連邊的概率。圖c為蛋白質相互作用中連邊產生的示意圖。圖d為在滿足四元閉包原理(Quadrangular Closure Principle)的網絡模型下不同狀態的節點對間產生連邊的概率。[7]

3.2 基於模型的算法

基於模型的方法構建於網絡具有特定組織結構的假設之上,如圖 6 所示,該類算法希望待預測的連邊可以儘可能好地完善網絡所具備的結構。

圖6. 在基於模型的算法上對網絡結構進行採樣 (A)分層結構網絡 (B)塊狀結構網絡 (C)無標度網絡[8-10]

以層次結構模型為例,該類算法基於現實世界中許多網絡是分層組織的,這意味著可以將節點劃分為組,隨後再細分為組的組,以此類推。利用提取出的層次結構輔助鏈路預測。2008 年由 Clauset 等人提出的 Hierarchical Random Graph Model[8] 是具有代表性的基於層次結構的模型。該模型給網絡中的每個節點定義了一個連接概率,兩個節點間是否存在連邊取決於二者共同父節點的連接概率。

4. 小結

在大數據時代,人們對於數據完整性的需求愈發提高,網絡重構技術可以在信息提取質量不高的情況下,從數據本身出發最大程度的恢復數據完整性,具有廣闊的應用場景。

這篇綜述從宏觀、介觀、微觀三個角度介紹了網絡重構領域的研究問題、常見模型及應用場景。到目前為止,網絡重構領域處於快速發展和完善的階段,有向加權圖上的鏈路預測[11]、對於連邊具有信息的網絡的重構[12]以及時序網絡重構[13]等研究方向正在快速發展。

參考資料

[1] Squartini, Tiziano and D. Garlaschelli. 「Analytical maximum-likelihood method to detect patterns in real networks.」 New Journal of Physics 13 (2011): 083001.

[2] Gangi, Domenico Di et al. 「Assessing Systemic Risk Due to Fire Sales Spillover Through Maximum Entropy Network Reconstruction.」 Regulation of Financial Institutions eJournal (2018): n. pag.

[3] Mastrandrea, R. et al. 「Enhanced reconstruction of weighted networks from strengths and degrees.」 New Journal of Physics 16 (2014): 043022.

[4] Cimini, G. et al. 「Systemic Risk Analysis on Reconstructed Economic and Financial Networks.」 Scientific Reports 5 (2015): n. pag.

[5] Faskowitz, J. et al. 「Weighted Stochastic Block Models of the Human Connectome across the Life Span.」 Scientific Reports 8 (2018): n. pag.

[6] Borgatti, S. and M. Everett. 「Models of core/periphery structures.」 Soc. Networks 21 (2000): 375-395.

[7] Kovács, István A. et al. 「Network-based prediction of protein interactions.」 Nature Communications 10 (2019): n. pag.

[8] Clauset, A. et al. 「Hierarchical structure and the prediction of missing links in networks.」 Nature 453 (2008): 98-101.

[9] Larremore, D. et al. 「A Network Approach to Analyzing Highly Recombinant Malaria Parasite Genes.」 PLoS Computational Biology 9 (2013): n. pag.

[10] Oikonomou, Panos and P. Cluzel. 「Effects of topology on network evolution.」 Nature Physics 2 (2006): 532-536.

[11] Alon, U.. 「Network motifs: theory and experimental approaches.」 Nature Reviews Genetics 8 (2007): 450-461.

[12] Leskovec, J. et al. 「Predicting positive and negative links in online social networks.」 WWW '10 (2010).

[13] Tylenda, Tomasz et al. 「Towards time-aware link prediction in evolving social networks.」 SNA-KDD '09 (2009).

[14] Squartini, Tiziano et al. 「Enhanced capital-asset pricing model for the reconstruction of bipartite financial networks.」 Physical review. E 96 3-1 (2017): 032315 .

[15] Holme, P.. 「Core-periphery organization of complex networks.」 Physical review. E, Statistical, nonlinear, and soft matter physics 72 4 Pt 2 (2005): 046111 .

[16] Rossa, F. et al. 「Profiling core-periphery network structure by random walkers.」 Scientific Reports 3 (2013): n. pag.

[17] Jeude, J. V. L. D. et al. 「Detecting Core-Periphery Structures by Surprise.」 ArXiv abs/1810.04717 (2018): n. pag.

課程推薦

複雜科學最新論文

集智斑圖頂刊論文速遞欄目上線以來,持續收錄來自Nature、Science等頂刊的最新論文,追蹤複雜系統、網絡科學、計算社會科學等領域的前沿進展。現在正式推出訂閱功能,每周通過微信服務號「集智斑圖」推送論文信息。掃描下方二維碼即可一鍵訂閱:

原標題:《網絡重構最新綜述推薦:從宏觀尺度到微觀尺度》

閱讀原文

相關焦點

  • 計算專欄#多尺度模型力學實踐中的一般方法
    溝通兩種尺度的橋梁 溝通兩種尺度的橋梁是運動學(kinematics)和均一化(homologation)。運動學決定了微觀尺度的模型如何根據宏觀尺度來變形,均一化決定了宏觀尺度如何使用微觀尺度計算反饋而來的信息。運動學和均一化在不同的多尺度模型中有不同的表現形式,往往需要做一些合理的假設來完成這一步驟。
  • 物質結構的層次和尺度
    在複雜性科學和物質多樣性研究中,尺度效應至關重要。尺度的不同常常引起主要相互作用力的差異,導致物質性能及其運動規律和原理的質的區別。 通常把尺度粗分為宏觀、微觀和介觀(Mesoscopic)。
  • 百年經典電磁理論獲得突破,首次進入微觀納米尺度丨科技早頭條
    · 物理學 ·麥克斯韋電磁理論延伸到納米尺度一百多年前麥克斯韋提出了電磁的基本理論,為今天的科學技術發展奠定了基礎。但這些規則只在宏觀情況下適用;而在納米尺度下,量子效應會對理論產生很大影響。現在,一篇發表於《自然》的論文將電磁理論延伸到了納米尺度。研究者在模型中使用了類似於界面介電常數的新參數,研究者將兩種不同材料的界面結合後,按照新的參數重新計算,即能實現微觀的麥克斯韋理論。其實用性已經經過了納米共振器的實驗驗證。
  • 物理極限:普朗克尺度
    #普朗克#普朗克尺度是我們這個宇宙中存在的最小尺度普朗克長度約等於1.6x10^-35米,是有意義的最小可測長度,這也是當前物理學中的長度最小極限,比普朗克長度更小的尺度在現在的科學理論下沒有意義。普朗克時間約為5.38x10^-44s,這是宇宙中最短的時間,普朗克時間=普朗克長度/光速。
  • 原子及近原子尺度製造 ——製造技術發展趨勢
    以下文章來源於中國機械工程 ,作者房豐洲 中國機械工程反映中國機械工程領域的重大學術進展,報導中國機械工程學會系統的最新學術信息,傳播重大機械科技成果,不斷跟蹤世界機械工程最新動向,注重完善機械科技人員的知識結構。
  • 在納米尺度修正開爾文方程 中國這個重大突破登錄《自然》
    毛細凝聚關聯了宏觀固液界面潤溼和微觀分子間力學作用,是納米限域力學的關鍵科學問題,也是當前介尺度科學的國際前沿熱點。   開爾文方程是一個描述宏觀體系的方程,但是已經被證明可以描述尺寸在10納米左右(約千分之一人類頭髮直徑)的通道內的凝聚現象。   然而,當毛細通道進一步縮小到納米/亞納米尺度時,只有幾個原子那麼大,即「限域系統」。
  • 在納米尺度修正開爾文方程,中國這個重大突破登錄《自然》
    毛細凝聚關聯了宏觀固液界面潤溼和微觀分子間力學作用,是納米限域力學的關鍵科學問題,也是當前介尺度科學的國際前沿熱點。開爾文方程是一個描述宏觀體系的方程,但是已經被證明可以描述尺寸在10納米左右(約千分之一人類頭髮直徑)的通道內的凝聚現象。
  • 多元思維模型之變換尺度
    根據這個原理,我們可以用三個原因進行變換尺度的拆解。1. 宏觀原因在過去物資匱乏的年代,人們重點關注在溫飽上。而如今,雖然重新設計家用電器成本很高,但是新科技帶來的創收也更高,造就了帶戴森的橫空出世。2.
  • 中外學者將經典開爾文方程適用性拓展到亞納米尺度
    毛細凝聚關聯了宏觀固液界面潤溼和微觀分子間力學作用,是納米限域力學的關鍵科學問題,也是當前介尺度科學的國際前沿熱點。開爾文方程從理論上描述了毛細管內彎曲的液氣界面引起的蒸氣壓變化,被認為是固液界面潤溼領域三大經典理論之一。
  • 【經濟日報客戶端】在納米尺度修正開爾文方程,中國這個重大突破...
    毛細凝聚關聯了宏觀固液界面潤溼和微觀分子間力學作用,是納米限域力學的關鍵科學問題,也是當前介尺度科學的國際前沿熱點。開爾文方程是一個描述宏觀體系的方程,但是已經被證明可以描述尺寸在10納米左右(約千分之一人類頭髮直徑)的通道內的凝聚現象。然而,當毛細通道進一步縮小到納米/亞納米尺度時,只有幾個原子那麼大,即「限域系統」。
  • 北大多模態跨尺度生物醫學成像設施啟動儀式召開
    多模態跨尺度生物醫學成像設施主要建設內容生命體是世界上最複雜的物質運動形式,從分子到人,生命體的結構與功能跨越十個量級的時空尺度,不同尺度下的生命功能、結構和過程都緊密聯繫和互相影響。任何宏觀尺度的生物行為和病理現象都有其介觀水平的細胞機制,而介觀現象又由其微觀水平的分子機制所決定。
  • 首次在原子尺度直接實時觀察到裂紋運動
    編輯推薦:微裂紋對材料性能有重要影響,還沒有實驗能夠在原子尺度觀察到固體材料內部正處於運動狀態的裂紋。本文通過先進TEM技術直接觀察到了處於運動的裂紋的裂紋尖端結構,並進行了前所未有的原子級成像,測量了僅由幾個原子組成的裂紋尖端處的原子應變。
  • 再談CNN中的位置和尺度問題
    1.2 CNN網絡的執行過程我記得我幾年前第一次接觸到深度學習的時候,對於全連接和CNN的局部連接形式,都有平移、尺度不變性的說法。對於全連接網絡,由於下一層的每個節點都會與上一層進行連接:我們早期對於其不變性的理解更多是遵循一個宏觀的感受,即由於卷積核的移位濾波,上一層的特徵到下一層的特徵相對位置宏觀不變,直到最後輸出,類似於全連接的效果,從而獲得不變性。
  • 在原子尺度揭開結構材料超高強度與超高韌性的面紗
    眾所周知,材料的微觀結構決定了材料的宏觀物性及其功能;而材料的微觀結構則是由組成原子之間空間排列的晶體結構所決定。如何了解調控原子之間的晶體結構,是材料微觀結構研究的重要課題和科學前沿。  由北京工業大學和浙江大學組成的「材料彈塑性微觀機制研究團隊」經過13年不懈的努力,發明了國際上該領域獨有的「原子尺度材料力學性能實驗系統」和相關技術,為解決這一世界難題提供了新的研究途徑。  該實驗平臺的「力學微驅動器」可以在電子顯微鏡下精準施加外力,驅動微納米結構材料變形,並在原子尺度觀察原子及其團簇的演化規律。
  • 老劉推薦,硬碟的尺度
  • 煦明經濟筆記|經濟學的尺度
    經濟學是有尺度的。在不同的尺度上觀察經濟現象、思考經濟問題,會產生不盡相同的認識,得到不盡相同的結論,從而提出不盡相同的對策建議。例如時間尺度,當分析一個經濟現象時,有經驗的經濟學家通常不會籠統地給出結論,而是會說「在短期,……;在長期,……」。除此之外,微觀與宏觀也是經濟學中常見的劃分尺度的一個標準。
  • GEB綜述丨微生物宏觀生態學-探究微生物地理模式的機制
    ,從小時、日到年的時間尺度,以及從個體、種群、群落、生物圈的生物層級。 2、從生物地理學到宏觀生態學微生物在營養獲取、能量轉導和生長方面有相同的基本生化機制,而空間和時間尺度的變化出現了分化。從群落尺度可觀察出微生物屬性的生物地理格局,如生物量碳和氮、微生物豐度、碳利用效率、功能基因等。計算效率高的生物信息學和統計算法極大地增強測序數據中的生物學意義。
  • 【上觀新聞】在食品製藥業具應用前景,中科大納米尺度下毛細凝聚...
    對一杯水而言,彎曲界面的範圍太小,幾乎不會影響到水的性質。但是當系統變小時,就會有很多有意思的毛細現象發生,浸潤液體會在細管道內自發地向上爬升,比如鋼筆的筆尖利用毛細作用引導墨水;土壤中的孔隙形成天然毛細管道,地下水順著這些管道向上爬,才能被植物根系所吸收;植物體內的導管也是毛細通道,將水逆著重力向上運輸,讓水參與植物的光合作用等。
  • 修正了經典的開爾文方程,中科大描述納米尺度下毛細凝聚現象理論獲...
    如何描述納米/亞納米尺度下的毛細凝聚現象,這既是納米限域力學的關鍵科學問題,也是當前介尺度科學的國際前沿熱點。(製圖:錢建豪)當空氣中的水蒸氣多到超過臨界點,多餘的那部分會凝聚成水,水蒸氣開始凝聚的臨界壓強叫做水的飽和蒸氣壓。受表面張力和彎曲界面的影響,水在小通道內會更容易凝聚,還沒到飽和蒸氣壓的時候,水就凝聚了,這就是毛細凝聚現象。
  • 材料力學行為尺度效應研究進展
    也就是說,微納尺度材料中,材料變形載體的特徵尺度,如位錯線與孿晶缺陷的特徵尺度與作用空間,開始和材料的外部幾何尺寸處於相似量級。比如塊體鈦合金中變形孿晶的尺度一般在0.1~10微米之間。當具有不同尺寸的微元器件中零部件所用材料外形幾何尺寸與其相近時,孿晶是否仍然會發生、其臨界條件和性能是否會隨尺寸而改變等等,都是當前材料科學領域中的前沿課題和令設計工程師們異常感興趣的問題。