粗看長尾,細辨冪律:跨世紀的無標度網絡研究紛爭史

2020-08-28 集智俱樂部


導語

維弗雷多·帕累託(Vilfredo Pareto ,1848—1923),福利經濟學先驅;喬治·金斯利·齊普夫(George Kingsley Zipf,1902-1950),計量語言學先驅;德裡克·普萊斯(Derek John de Solla Price,1922-1983),科學計量學之父;赫伯特·亞歷山大·西蒙(Herbert Alexander Simon,1916-2001),人工智慧先驅;波努瓦·曼德布羅特(Benoit B. Mandelbrot,1924-2010),分形之父;艾伯特-拉斯洛·巴拉巴西(Albert-László Barabási,1967-),當今網絡科學研究代表人物、無標度網絡概念提出者。

如果能夠把這些橫跨三個世紀、來自不同領域的科學先驅組織在一起召開主題論壇的話,他們討論甚至爭論的主題也許只有一個:冪律(Power Law)分布。本文通過圍繞網絡科學中的核心概念——無標度網絡、冪律分布以及偏好連結機制的「多次重複發現」和「多輪爭議」的故事,與讀者分享網絡科學研究的曲折而又動人的歷程。

目錄

一、無標度網絡研究的興起——巴拉巴西的發現

二、生成冪律分布的隨機框架之路

三、生成冪律分布的優化框架之路

四、西蒙與曼德布羅特的七輪大戰

五、偏好連結:隨機還是優化?

六、無標度網絡「危機」

七、結束語

本文首發自集智斑圖

https://pattern.swarma.org/path?id=83?/from=wechat

在科學發展史上,同一個科學發現,以不同的形式、在不同的時間和不同的地點、被不同的科學家重新發現並引起爭議的例子是屢見不鮮的,其中的原因包括:一是由於交流不夠廣泛,使得不少學術成果難以為更多的研究人員所了解。二是由於認識不夠深入,開始以為是不同的東西,逐漸才能揭示出共同的本質。

無標度網絡無疑屬於網絡科學過去二十年發展中最重要的概念之一,甚至不少人覺得可以把「之一」兩字去掉。而無標度網絡及其對應的冪律分布和偏好連結的「多次重複發明」和「多輪爭議」作為體現科學發展歷程的生動例子確實值得一說。

從網絡科學的眼光看,這些研究和爭議本身就串成了一個網絡,本文希望能夠讓更多的讀者體驗到這一網絡的精彩紛呈。需要事先聲明的是,關於無標度網絡研究的文獻眾多,從經驗驗證到建模、從特徵分析到控制等等。即使是關於其定義本身的研究也有包括我國學者史定華教授在內的一些學者的工作。本文遠非無標度網絡研究歷史的完整記錄,而只是圍繞著本文的主題,選取其中我們認為有關聯的少數節點加以闡述。

一、無標度網絡研究的興起——巴拉巴西的發現

1999年9月,當時在美國聖母大學任教的巴拉巴西及其學生和博士後在《Nature》上發表了一篇題為「全球資訊網的直徑(Diameter of the world-wide web)」的一頁紙短文,指出全球資訊網中任意兩個網頁之間的平均距離為19[1]。

但是,讀者稍花時間看一下這篇文章就會發現,文章的核心內容其實是文中唯一的一幅插圖,該圖顯示了全球資訊網的出度和入度分布都服從冪律分布,從而具有無標度(Scale-Free)特徵(圖1)。

圖1:全球資訊網的度分布和平均距離(取自[1])

巴拉巴西自己也承認,取這樣的標題是採用了特洛伊木馬的策略以引起雜誌編輯的興趣,因為「無標度」在當時還並非一個人們覺得有意義的概念[2]。文章的最後一段指出,網絡的無標度特徵需要有超越傳統隨機圖模型的新的建模機制。

這篇文章是巴拉巴西團隊在網絡科學領域打響的第一槍,而且也已經為他們的下一篇更具標誌性的文章埋下了伏筆。

這裡對冪律和無標度概念稍作解釋:

所謂冪律度分布是指網絡中一個節點的度為k的概率P(k)是一個冪函數,即P(k)=Ck^-⍺,其中⍺稱為冪指數,度是指這個節點與其它節點相連的連邊數。假如你的微信中有100個好友,你在微信好友網絡中的度就是100。冪律的典型特徵就是在雙對數坐標系下為一條直線(如圖1所示)。這條直線的斜率就是-⍺。

所謂網絡的無標度特徵是指網絡中大部分節點的度值都相對較小,而少部分節點的度值相對很大,這就導致平均值不再具有典型意義。過去20年,人們發現許多實際的生物網絡、技術網絡和社會網絡等都具有這樣的特徵。典型的例子包括經濟網絡中的少數巨頭企業、航空網絡中的少量樞紐節點、社交網絡中的少量大V節點等等。

在這些年的網絡科學研究中,往往把兩者合二為一,即無標度網絡就是具有冪律度分布的網絡,這也是導致爭議或歧義的一個因素。

一個月後,巴拉巴西和他的博士生阿爾伯特就在《Science》上發表了關於無標度網絡模型的文章[3]。這篇文章被公認為是推動網絡科學興起的兩篇標誌性文章之一(另一篇是瓦茨和斯託加茨於1998年在《Nature》上發表的關於小世界網絡模型的文章[4])。

巴拉巴西和阿爾伯特的這篇文章指出,包括全球資訊網和電影演員合作網絡在內的不同的實際網絡,之所以都具有無標度特徵,是基於兩個很簡單的機制:i)網絡是不斷增長的;ii)增長過程中服從偏好連結(Preferential Attachment),即新加入的節點傾向於與網絡中度大的已有節點相連接。這一簡潔的模型現在一般稱為BA無標度網絡模型,簡稱BA模型。

現在的問題是:在巴拉巴西之前,是否有人發現實際網絡的度分布服從冪律?如果是的話,那麼是否有人已經提出過產生冪律分布的優先連結機制?

近年來,科學文獻引用關係網絡在分析科學發展中的作用受到越來越多的關注[5,6]。2019年11月,《Nature》為紀念誕生150周年發行的特刊的封面就是一副在該雜誌上發表的眾多歷史文章之間的關係網絡圖(圖2)[7]。

圖2:《Nature》出版150周年紀念刊的封面顯示了論文共引關係網絡(取自[7])

相關閱讀:

學科交叉趨勢:跨學科論文被引數量明顯高於主流學科論文

跟隨《自然》探索150年的科學演變 |《自然》周年特刊

因此,對上述兩個問題答案搜尋的一個最直接的方法自然是去查看巴拉巴西團隊的兩篇論文[3][4]的參考文獻。然而,我們從中並沒有找到任何前人關於網絡的冪律度分布和偏好連結機制相關的研究。

看來,巴拉巴西團隊當時並沒有注意到前人的相關工作,在巴拉巴西近年出版的網絡科學著作[2]的一幅圖中例舉了歷史上的一些代表性研究(圖3)。本文關注的是圖4所示的一些歷史性研究節點之間的引用關係網絡(其中A——>B表示B引用了A),以便讀者更好理解冪律分布和無標度網絡的研究歷程,並通過這個例子更好理解科學的演化。

圖3:偏好連結研究簡史(取自[2])

圖4:冪律分布和無標度網絡研究中一些歷史性節點之間的引用關係網絡

二、生成冪律分布的隨機框架之路

A. 20世紀60年代:科學計量學之父普萊斯對冪律網絡的奠基性貢獻

一些讀者也許對於科學計量學和普萊斯(Derek John de Solla Price)都不了解,但是大家應該都知道這些年炒的火熱的期刊影響因子(Impact Factor),其發明人加菲爾德(Eugene Garfield)於1984年獲得了首屆普萊斯紀念獎,該獎是專門為了紀念於1983年去世的科學計量學的奠基人普萊斯而設立的。

在冪律研究徵程上會遇到幾位學術興趣極為廣泛的『雜家』,普萊斯即為其中一位。普萊斯1941年從倫敦大學數學物理系本科畢業那年就發表了一篇關於橫波解釋的物理學論文;1942年即發表了屬於科學學範疇的探討科研未來的文章。他於1946年獲得倫敦大學物理學博士學位,1954年又獲得劍橋大學科學史博士學位,1962年起在耶魯大學任教直至去世。

普萊斯曾於20世紀50年代與英國著名的科學史家李約瑟合作研究過中國的天文鐘[8]。他於20世紀60年代初出版的《巴比倫以來的科學》[9]和《小科學,大科學》[10]兩部著作被公認為是科學計量學的奠基之作。

普萊斯是1978年創辦的《科學計量學》(Scientometrics)期刊的創刊主編之一,他在創刊詞中感慨道:這不僅對科學計量學本身,而且對我本人,都開啟了一個重要的歷史新階段。

圖5:普萊斯和古希臘天文研究裝置模型(圖片來源網絡)

加菲爾德曾在題為《獻給普萊斯》的紀念文章中寫道[11]:「我們的生命是有限的,如果在活著的時候繼續研究這一領域(指科學計量學)的話,就不能不每天都要想起普萊斯給予的影響。因此,我們不必悲痛他的消逝。普萊斯是永生的。

順便劇透一下,在王大順和巴拉巴西即將出版的《科學學》(Science of Science)著作[12]中會專門介紹普萊斯模型,彰顯普萊斯的深遠影響。

接下來我們就介紹一下普萊斯模型。

1965年,普萊斯在《Science》上發表了一篇題為「科學文獻網絡(Networks of Scientific Papers)」的文章[13],明確指出科學文獻之間的引用構成一個有向網絡,其出度和入度分布均服從冪律,並給出了相應的冪指數(圖6)。請注意,當時普萊斯還沒有使用雙對數坐標系。

圖6:科學文獻引用網絡的出度和入度分布(取自[13])

在此發現的基礎上,普萊斯於1976年發表了一篇題為「文獻計量和其它累積優勢過程的通有理論(A General Theory of Bibliometric and Other Cumulative Advantage Processes)」的長文[14],摘要的第一句話就開宗明義的指出:本文提出了一個累積優勢(Cumulative Advantage)分布,以從統計上建模成功孕育成功(success breeds success)的現象。

引言的第一段中也指出這一現象在文獻計量和許多不同的社會現象中普遍存在。例如,被引用較多的文章相比於引用少的更容易獲得新的引用;高產作者相比於低產作者更可能發表新作;常用的單詞會更常使用,而少用的單詞一直少用;富翁相比於乞丐能夠更快更容易地獲得財富等等。

今天看來,巴拉巴西的偏好連結機制與當年普萊斯關於累積優勢的表述如出一轍。遺憾的是,普萊斯的這兩篇文章成為了睡美人,而一直沒有受到關注,直到2010年,紐曼(Mark Newman)在《Networks: An Introduction》這本網絡科學教材裡面才對普萊斯模型做了細緻介紹[15]。

普萊斯對論文引用網絡的增長和累積優勢機制的觀點可敘述如下:

1)增長機制:文章的數量是不斷增長的;新發表的文章會引用早前發表的一些文章作為參考文獻。

2)累積優勢機制:早先發表的一篇文章被一篇新發表的文章引用的概率與它已經被引用的次數成正比。可見,「累積優勢」事實上就是「偏好連結」。

要在上述機制的基礎上生成網絡模型還需要解決如下問題:

1)確定參考文獻數量。在實際的引用網絡中,不同文章的參考文獻的數量一般是會有差異的,而且與該文章所屬的領域、發表的時間等因素都是相關的。例如,在過去幾十年間,在許多領域中,參考文獻的平均數量都有增長趨勢。為簡化起見,假設每一篇文章的參考文獻均為常數m。

2)修正累積優勢機制。除極少數特例外,每一篇文章剛發表時被引用次數都為零。這樣按照上述累積優勢機制所有文章都沒有被引次數了。避免這一問題的簡單辦法就是假設一篇老文章被一篇新文章引用的概率與該篇老文章已經被引用的次數再加上一個正常數a成正比,從而任意一篇文章都有被引用的可能(在普萊斯的原文[14]中假設a取為1)。

3)確定初始網絡狀態。為了要生成網絡模型,還要首先給定初始時刻的網絡,也就是模型一開始有多少節點和邊。我們可以簡單假設初始時有m0篇引用次數為零的文章。當網絡規模趨於無窮大時,網絡性質與初始狀態假設無關。

上述普萊斯模型產生的有向網絡的入度分布服從冪指數為2+a/m的冪律分布。如果把網絡無向化,即每一條邊都視為無向邊,並且取a=m,那麼就得到一個度分布服從冪指數為3的無向網絡,這恰是BA無標度網絡!

然而,普萊斯1965年的文章儘管是發表在頂級期刊《Science》上,並且普萊斯本人又是公認的科學計量學的奠基人,巴拉巴西團隊在1999年的時候並未注意到普萊斯的相關工作。而且瓦茨和斯託加茨於1998年在《Nature》上發表關於小世界網絡模型的文章時也同樣沒有注意到普萊斯的工作,否則他們稍許花點時間檢驗一下手上幾個網絡數據的度分布,也許網絡科學過去二十年的發展又是另外一部歷史了!

瓦茨在其著作《六度》(Six Degrees)中流露了深深的悔意[16]:「……我們犯了一個大的錯誤。我們沒有檢查!我們非常肯定的認為非正態分布是不可能的,因而從未想過要檢查網絡的度分布是否服從正態分布。數據在我們手上躺了近兩年,我們只需花半個小時就能檢查出結果,但我們就是一直沒有做。」

B. 20世紀50年代:人工智慧先驅西蒙登場

那麼,普萊斯是從哪裡得到的啟發呢?從普萊斯的文章[14]中倒是不難發現這一點,在引言的第二段普萊斯就明確提出,在統計中這樣的過程通常稱為非對稱的雙曲函數,而這個函數的刻畫者是赫伯特·亞歷山大·西蒙(Herbert Alexander Simon)。

如果說對於普萊斯有些讀者可能不知道的話,那麼在如今的人工智慧時代,西蒙作為一位人工智慧先驅者無疑是大家都應該知道、並且值得膜拜的「前浪」。

前面提到普萊斯是一位『雜家』,西蒙則更是如此了。西蒙在多個領域方面都取得了令絕大多數科學家望塵莫及的成就。作為一個政治學博士學位的持有者,西蒙在1975年獲得計算機科學領域的最高獎——圖靈獎,1978年獲得諾貝爾經濟學獎,1993年獲美國心理學會的終身成就獎。這些跨界的榮譽「前不見古人,後不見來者」。西蒙還有一個中文名字叫「司馬賀」,據說是他自己取的。

普萊斯的文章[14]引用的是西蒙在1955年發表的一篇題為「關於一類非對稱分布函數(On a class of skew distribution)」的文章[17]。

西蒙在文中開門見山的指出,其目的就是要分析一類在社會、生物和經濟等領域廣泛存在的分布函數。這類分布的主要特徵就是長尾,即尾部近似服從冪指數大於1的冪律分布,f(i)~ i^(p+1),p為一個大於零的常數。該文舉證了五個具體數據:論著中的單詞出現頻次分布;科學家發表的文章數量分布;城市人口分布;收入多少分布;生物屬的物種數量分布。

西蒙以寫書為例給出了產生冪律分布的「偏好連結」假設。設想你正在寫一本書並且已經寫了k個單詞,那麼第k+1個單詞是一個新單詞的概率為a;第k+1個單詞是一個已有單詞的概率為1-a,並且一個已有單詞被選中的概率與該單詞已經出現的次數成正比。

基於西蒙模型,書中恰好出現i次的單詞的數量的分布就會服從冪律分布。當然,西蒙模型中並未出現網絡,因此普萊斯模型可以看作是西蒙模型的網絡形式。

C. 20世紀20年代:統計學家尤爾的早期貢獻

而正如西蒙在文中所指出的,西蒙模型可以追溯到20世紀20年代著名統計學家尤爾(George Udny Yule)的研究[18]。沿用今天的網絡科學術語,尤爾試圖解釋達爾文的生命之樹網絡的無標度結構,即為什麼生命之樹上的某些分支要比其它分支擴張的快得多:大多數屬(genus)只有一個物種,而大多數物種來自單個屬。其解釋即為偏好連結或者富者更富:一個屬的物種越多,它就會產生更多的物種。

由於以上介紹的偏好連結機制是依照某個概率公式選取的機制,因此,增長和偏好連結機制也被稱為產生冪律分布的隨機框架。

上述對於隨機框架中幾個典型的歷史性研究的介紹是不完整的,例如,出生於匈牙利的巴拉巴西就認為最先提出偏好連結的應該是匈牙利數學家波利亞(György Pólya)於1923年提出的URN模型[19]。相信有更多學者的貢獻還沒有被挖掘出來,也許有一天人工智慧算法能夠幫助解決科研工作中的睡美人現象[12]。

現在我們知道的是,其實可以有很多種產生冪律分布的方法[20],接下來要介紹的是其中的一類優化框架。

三、生成冪律分布的優化框架之路

A. 世紀之交的HOT模型

在科學研究進程中,由於知識的積累和技術的進步等演化到了一定的階段,不同的科學家往往在相近的時間開始研究相似的問題。1999年對於冪律分布及其產生機理而言就是這樣一個年份,除了巴拉巴西團隊的研究,至少還有如下兩個值得一提的代表性工作。

在1999年的網絡通信領域國際頂級會議ACM SIGCOMM上,計算機科學家法拉特三兄弟(Michalis Faloutsos、Petros Faloutsos和Christos Faloutsos)發表了一篇題為「關於網際網路拓撲的冪律關係(On Power-Law Relationships of the Internet Topology)」的文章[21],推動了網際網路拓撲發生器從1.0進入2.0時代。該文也獲得了2010年ACM SIGCOMM的「經受時間檢驗獎(test of time award)」。

同樣是在1999年,物理學家卡爾森(J. M. Carlson)和控制學者道爾(John Doyle)在物理學期刊上提出了設計系統中的冪律產生機制——高度優化容忍(Highly Optimized Tolerance),用以表徵一些複雜互連繫統可以有效地容忍某些不確定因素(即魯棒性),也會對其它未被考慮到的不確定因素變得更敏感(即脆弱性)[22]。

2002年,理論計算機科學家克裡斯特斯· 帕帕季米特裡烏(Christos Papadimitriou)團隊在上述兩項研究的基礎上,提出了網際網路中冪律產生的一種優化框架:啟發式優化折衷(Heuristically Optimized Trade-Offs),發表在International Colloquium on Automata, Languages and Programming上[23]。

以計算機網絡為例,假如要把某地的一臺路由器加入網絡中,既希望離中心節點儘可能近,又希望鋪設的線路成本儘可能低,如果我們同時考慮這兩個因素的某種折衷,就會生成無標度特徵的計算機網絡。冪律分布正是來源於複雜的多目標優化。

B. 20世紀50年代:分形之父曼德布羅特登場

冪律產生的優化框架可以追溯到什麼時候?文獻[23]中指出「我們所提出的概念框架也包含了曼德布羅特(Mandlebrot)的經典而漂亮的模型。」

這裡所指的是曼德布羅特於1953年發表的一篇題為「語言統計結構的資訊理論(An informational theory of the statistical structure of language)」的文章[24]。

經典的香農資訊理論問題研究的是對消息構造最小代價編碼,而曼德布羅特指出語言的統計結構問題事實上是這一經典問題的逆問題,即用儘可能少的成本傳遞儘可能多的信息。這種目標優化會導致第j個使用最多的單詞出現的頻率服從冪律分布。

分形之父曼德布羅特與人工智慧先驅西蒙一樣也是一位雜家,他的研究範圍極其廣泛,從物理、天文、地理到經濟學、生理學等。然而,他的前半生的學術生涯卻較為坎坷,得不到學界的認可,直到1975年創建令人嘆為觀止的分形幾何。

暢銷書《黑天鵝》的作者納西姆·尼古拉斯·塔勒布(Nassim Nicholas Taleb)曾與曼德布羅特有過合作研究,他於曼德布羅特去世後在自己的個人網站稱其為「羅馬人中的希臘人(A Greek among Romans)」。了解古希臘科學輝煌的讀者應該知道,這是一個至高評價。

C. 20世紀30-40年代:語言學家齊普夫的最小努力原則

那麼曼德布羅特又是繼承了誰的想法呢?曼德布羅特在文[24]中提到了語言學家齊普夫(George Kingsley Zipf)20世紀30年代的工作。齊普夫發現,如果把英語單詞的出現頻率由大到小排序排列,那麼每個單詞出現的頻率與它的排序位置之間的關係就服從冪指數為1的冪律分布,後人稱之為齊普夫分布。

這一發現表明只有極少數的詞被經常使用,而絕大多數的詞很少被使用。而且多種語言都具有這一特徵,它使得人們可以用儘可能少的單詞表達儘可能多的語義。

齊普夫稱之為「最小努力原則」,並於1949年出版專著《人類行為與最小努力原則:人類生態學引論》(Human Behavior and the Principle of Least Effort: An Introduction to Human Ecology)對齊普夫分布做了更為廣泛的介紹[25]。

此後,齊普夫分布被用於從社會到自然和物理等不同的系統。例如,城市人口按規模的分布服從齊普夫分布:大多數城市的規模相對較小,而少量城市的規模相對很大。這一規律甚至被麥可·巴蒂在《創造未來城市》一書中稱為是城市發展的第一原則[26]。

諾貝爾經濟學獎得主保羅·克魯格曼(Paul R. Krugman)於1996年發表了一篇題為「直面城區層級化的奧秘(Confronting the Mystery of Urban Hierarchy)」文章[27],文中即以城市規模分布這一驚人簡單的經驗規則為例說明: 「人們對於經濟理論的常見抱怨就是覺得我們的模型過於簡單、過份簡潔的看待雜亂的現實……在另一類重要的情形下,事實可能恰恰相反:我們擁有雜亂的模型,而現實卻是驚人的簡潔。」

從齊普夫再往前追溯,就會遇到19世紀末義大利經濟學家帕累託(Pareto)關於個人財富的經典研究[28]。帕累託發現個人收入X不小於某個特定值x的概率是x的冪函數,20%的人口佔據了80%的財富。這一發現被後人稱為帕累託法則(也稱二八法則,80/20法則),而關於這一法則近年來有很多的介紹,這裡就不再展開了。

四、西蒙與曼德布羅特的七輪大戰

上面的介紹中已經提到,20世紀50年代的時候,人工智慧先驅西蒙和分形之父曼德布羅特分別研究了冪律產生的隨機框架和優化框架。這裡我們要介紹的是兩人在當時圍繞冪律產生機理的一番論戰。

1955年,西蒙39歲、曼德布羅特31歲,兩人都是血氣方剛之年,西蒙已在學界頗具名氣而曼德布羅特則初出茅廬、尚未得到學界認可。由於觀察角度、思維方式和處理方法等的不同,科學研究上的爭論也是常見的。不過這兩位極富個性的科學家圍繞冪律的七輪大戰卻是堪稱一絕。

西蒙於1955年發表的關於冪律產生的隨機框架文章[17]引用了曼德布羅特1953年發表的優化框架文章[24],並且指出:「我傾向於給出一個利用平均而不是極大化假設的解釋。」

儘管西蒙在文中的致謝部分對曼德布羅特表示了謝意,然而曼德布羅特並不領情,寫了一篇批評西蒙的評論文章於1959年4月發表在《Information and Control》上,簡稱&34;[29]。文中指出:「西蒙提出的反駁我們的語言學法則理論的兩個論點都站不住腳。」由此開啟爭吵之旅。

西蒙在其自傳中專門有一章的標題即為「論戰」,其中回憶了他和曼德布羅特的爭論[30],而曼德布羅特的自傳卻對此爭議隻字未提[31]。

1960年,西蒙發現了曼德布羅特那篇批評他的註記,但是他說無論是作者還是期刊編輯部都沒有告知他。於是西蒙寫信給曼德布羅特,提議聯合寫篇文章闡明雙方的異同點。兩人起初都同意並交換了一些草稿。但是兩人很快發現他們的爭論在逐步升級,因此互相拉黑放棄了合寫文章的打算。

西蒙單獨寫了一篇針對曼德布羅特的評論的回覆文章,簡稱&34;[32]。該文於1959年7月即投稿到《Information and Control》,並於1960年3月正式發表。文中開宗明義指出曼德布羅特對他的模型的批評是不成立的。

針對西蒙的答覆曼德布羅特又另寫了一篇答覆文章,簡稱&34;[33]。既然是最後的註記,爭論似乎到此就結束了。然而,編輯把這篇回復文章在發表前寄給了西蒙,西蒙顯然也不願意就此打住,於是針對性的又寫了一篇&39;Final Note&34;[34]。這兩篇文章於是就在《Information and Control》的同一期上同時發表出來。

曼德布羅特心想,我已經說是最後的註記了,你還不依不撓,難道怕了你不成,他就又寫了一篇評論&39;Final Note&34;[35],而且,摘要只是一句話:「我的批評從1955年看到西蒙文章的初稿以來一直沒變。」

對曼德布羅特的這個答覆,西蒙也沒忍住,又寫了一篇答覆&34;[36],摘要也很簡單:「曼德布羅特對我1955年提出的模型提出了一組新的反駁理由,然而如同他先前的反駁一樣,這些反駁同樣是無效的。」

至此,兩人的爭論又重新回到原點,夾縫中的編輯中止了這場爭論,而這場持續數年的論戰也總算謝幕。

圖7:西蒙與曼德布羅特之間的七輪大戰

正如西蒙在自傳中所說:「在這樣的交戰中,我能獲得的最佳成果是:讓讀者相信雙方都有些道理。」曼德布羅特模型和西蒙模型確實各有特點。例如,科爾內(Kornai)認為曼德布羅特模型比較適合於語言學[37],而克魯格曼則認為西蒙模型是描繪經濟增長的最優雅模型[38]。

有意思的是 ,這場大戰既有武林高手對決的恢弘氣勢,又有幼兒園小朋友吵架的即視感。

「我的梨比你的蘋果甜」

「事實證明我的蘋果比你的梨甜」

「明明我的梨更甜」

「明明我的蘋果更甜」

「我堅持我的梨更甜」

「我堅持我的蘋果更甜」

編輯:好了好了,你們的梨和蘋果不要在我這裡擺攤了,大家都散了吧。

圍觀群眾:有什麼好吵的呢,梨有梨的好處,解渴生津,蘋果有蘋果的好處,維生素含量高,各來一斤。

如今,我們知道複雜網絡種也存在分形和自相似特徵,而人工智慧算法也在複雜網絡分析中日益重要,不知人工智慧先驅西蒙和分形之父曼德布羅特得知的話會有何感想。

五、偏好連結:隨機還是優化?

目前為止,我們是把冪律產生的隨機框架與偏好連結機制相對應的,即度大(也可以稱為名氣大)的節點獲得新連結的概率也大。2012年,帕帕多普洛斯(Papadopoulos)等人的一篇《Nature》文章則給出了偏好連結機制的一種優化框架[39]。

在社會學中有一條基本的同質性原理:越是相似的人越有可能在一起。帕帕多普洛斯等人指出,如果新節點通過優化名氣和相似性之間的某個折衷函數而選擇添加連結的話,那麼同樣可以產生偏好連結。

巴拉巴西在同期《Nature》上發了一篇題為「運氣還是推理(Luck or reason)」的評論指出[40],當年西蒙和曼德布羅特事圍繞冪律產生的隨機和優化框架而爭論,如今則升華為偏好連結機制形成的隨機和優化框架之爭。巴拉巴西進一步指出,大多數複雜系統中應該二者兼而有之,因此我們沒有必要只能二選一。不管怎樣,起作用的是偏好連結機制

圖 8:偏好連結機制的隨機和優化模型(取自[40])

問題是:冪律和偏好連結機制真的如此普適嗎?

六、無標度網絡「危機」

自從巴拉巴西小組1999年關於無標度網絡的研究以來,過去二十年的複雜網絡研究在某種程度上患上了「冪律崇拜症」:人們拿到一個實際網絡,往往都會首先想到要檢驗一下網絡的度分布是否服從冪律。

今天回過頭去看,確實存在不少不嚴謹的地方。例如,不少文獻中都是簡單的在雙對數坐標圖中直接進行最小二乘直線擬合,而不管手中的數據是否確實相對其它分布而言更為符合冪律。

A. 克洛賽的「魔戒」引發的危機

2009年,當時在美國聖塔菲研究所從事博士後研究的安然·克洛賽(Aaron Clauset)等人花了4年時間寫作的長篇論文「經驗數據中的冪律分布(Power-law distributions in empirical data)」終於在國際應用數學頂級期刊《SIAM Review》上發表[41]。

克洛賽認為他們的這篇文章完整解決了冪律分布的檢驗問題,並在博客文章中把它類比於萬能的「魔戒」。文中給出的檢驗數據是否符合冪律分布的流程如下:

1)使用極大似然方法估計冪律模型參數;

2)計算數據和冪律之間的擬合優度,以判定冪律是否為合理假設;

3)通過似然比檢驗比較冪律假設和其它分布假設 ,以判斷更傾向於哪個假設。

2018年1月,已經到美國科羅拉多大學任教的克洛賽和他的博士生安娜 ·布羅迪(Anna Brodio )在arXiv上貼出了一篇標題為「無標度網絡很少見(Scale-free networks are rare)」的文章[42],文中使用上述冪律檢驗方法,通過對上千個實際網絡數據集的研究發現,其中只有15%的網絡,通過了無標度網絡的強檢驗,而43%的網絡根本就不能算作無標度網絡。

無標度網絡畢竟是網絡科學中的核心概念,這一研究立即引發圈內學者的關注。

2018年2月,著名科普網站《Quanta Magazine》上發表了一篇題為「實際網絡中缺乏冪律證據(Scant Evidence of Power Laws Found in Real-World Networks)」的評論文章[43],介紹了一些圈內學者的看法。

理論危機 | 無標度網絡遭到史上最嚴重質疑

大部分學者覺得這一研究還是有意義的,但是巴拉巴西用一個比喻來反駁克洛賽的工作,「你不能因為現實中一片羽毛和一塊石頭落下的速度不同,就否定萬有引力定律(萬有引力定律告訴你自由落體的速度就應該一樣),在現實中總是會受到其他因素的幹擾,比如空氣阻力。」

克洛賽顯然不同意這種說法,他說,「如果有1000種物體自由落體,你總能在大部分物體中觀察到重力和空氣阻力如何共同作用於物體的普遍規律,所謂的幹擾因素問題就可以迎刃而解。」

2018年3月,巴拉巴西在其實驗室主頁上貼出了一篇反駁文章,題為「你所需要的只是愛——克洛賽對無標度網絡的無效搜索(Love is All You Need——Clauset&39;s post scriptum[J]. Inf. Control., 1961, 4(2-3): 305-308.

[37]Kornai A. Mathematical linguistics[M]. Springer Science & Business Media, 2007.

[38]Krugman P. The Self-Organizing Economy[M]. Blackwell Publishers, Cambridge MA, 1996.

[39]Papadopoulos F, Kitsak M, Serrano M Á, et al. Popularity versus similarity in growing networks[J]. Nature, 2012, 489(7417): 537-540.

[40]Barabási A L. Luck or reason[J]. Nature, 2012, 489(7417): 507-508.

[41]Clauset A, Shalizi C R, Newman M E J. Power-law distributions in empirical data[J]. SIAM review, 2009, 51(4): 661-703.

[42]Broido A D, Clauset A. Scale-free networks are rare[J]. Nature communications, 2019, 10, 1017(1-10). (arXiv preprint arXiv:1801.03400, 2018).

[43]Klarreich E. Scant evidence of power laws found in real-world networks[J]. Quanta Magazine. Feb. 15, 2018.

[44]Barabási A L. Love is All You Need——Clauset's fruitless search for scale-free networks

https://www.barabasilab.com/post/love-is-all-you-need?from=groupmessage&isappinstalled=0.

[45]Voitalov I, van der Hoorn P, van der Hofstad R, Krioukov D. Scale-free networks well done[J]. Physical Review Research, 2019, 1(3): 033034. (arXiv preprint arXiv: 1811.02071, 2018).

[46]Krioukov D. The Proof of Innocence[J]. arXiv preprint arXiv:1204.0162, 2012.

[47]Holme P . Rare and everywhere: Perspectives on scale-free networks[J]. Nature Communications, 2019, 10, 1016(1-3).

[48]Stumpf M P H, Porter M A. Critical truths about power laws[J]. Science, 2012, 335(6069): 665-666.

[49]Amaral L A N, Guimera R. Lies, damned lies and statistics[J]. Nature Physics, 2006, 2(2): 75-76.

[50]Li T Y, Yorke J A. Period three implies chaos[J]. The American Mathematical Monthly, 1975, 82(10): 985-992.

[51]Sharkovskii A N. Coexistence of cycles of a continuous map of the line into itself[J]. Urain. Mat. Zh., 1964, 16(1): 61-71.


作者:汪小帆、張倩

審校:張江、陳清華、黃俊銘、劉培源

編輯:張希妍


汪小帆,上海大學副校長,長江學者特聘教授,國家傑出青年科學基金獲得者。長期從事網絡科學研究,曾出版《網絡科學導論》等著作,獲得國家級教學成果一等獎和國家自然科學二等獎等榮譽。目前擔任中國系統工程學會副理事長、國際自動控制聯合會(IFAC)複雜大系統技術委員會主席、NetSci-China主席等學術職務。

張倩,集智學園聯合創始人兼CEO,集智俱樂部核心志願者,《走近2050》聯合作者,組織編寫《深度學習與PyTorch實戰》,自媒體作者,公眾號:swarmacomplex

搜索公眾號:集智俱樂部

加入「沒有圍牆的研究所」

讓蘋果砸得更猛烈些吧!

相關焦點

  • 粗看長尾,細辨冪律:跨世紀的無標度網絡研究紛爭史
    六、無標度網絡「危機」自從巴拉巴西小組1999年關於無標度網絡的研究以來,過去二十年的複雜網絡研究在某種程度上患上了「冪律崇拜症」:人們拿到一個實際網絡,往往都會首先想到要檢驗一下網絡的度分布是否服從冪律。今天回過頭去看,確實存在不少不嚴謹的地方。
  • 冪律:自然界中的一個普遍規律
    冪律,又稱冪定律、冪法則,英文:Power law,表述兩個量之間的一種函數關係,描述其中一個量的相對變化導致另一個量相對變化的關係,而與這些量的初始大小無關:一個量隨另一個量的冪而冪律變化,例如,正方形的邊長,如果長度加倍,則面積乘以四;如計算機摩爾定律的冪數增長;又如量子計算機的能力隨量子比特數呈冪數增長。
  • 「冪律與臨界」支配神經網絡,深度學習技術要向大腦學習
    最近,研究人員從大腦的視覺神經網絡中發現了令人驚訝的臨界現象和冪律,這一發現對於深度學習系統的設計和穩定性分析都有重要的啟發。近期發表在quantamagazine上的《A Power Law Keeps the Brain’s Perceptions Balanced》上的一篇文章提出了大腦的認知平衡與冪律法則的關係。此文是針對這篇文章的編譯,供讀者參考。
  • Nature揭示人類流動性之謎:層級性與冪律共存
    對智慧型手機、信用卡和其他技術使用情況進行廣泛的地理追蹤,同時學者們利用這些數據集進行分析得到結論:人類旅行是無標度的[1-3]。例如下圖展示的旅行距離/時長和對數化後頻率的關係,呈明顯相關,即無標度的性質。
  • 冪律分布
    前幾天我們聊了正態分布,今天我們來聊另一種重要的分布,這就是冪律分布。而這個二八法則,正是冪律分布最為直觀的表現。冪律分布的曲線圖十分簡單,橫坐標代表隨機變量的取值,縱坐標代表發生的概率,而冪律分布就是一條向下延伸的曲線,就好像拖著一條長長的尾巴,所以它告訴我們的就是,在隨機變量中,越小的數值,出現的概率就越大,越大的數值,出現的概率就越小。
  • 用網絡科學解構,悟空問答輸給知乎背後的邏輯
    矽谷的創投教父彼得蒂爾也在《從0到1》中提到,最大的商業秘密就是冪律分布(power law distribution)。他發現在其所投資的100家公司的收益排名中,排名第一的收益是其他99家所有收益之和,而以此類推,排名第二的收益是其他98家所有收益之和。冪律分布(power law distribution)複雜網絡大牛A.-L.
  • 坤鵬論:讀懂了冪律,就讀懂了成功曲線
    複雜性科學研究表明,所有處於混沌邊緣的系統都存在落入混沌狀態的概率。這一概率的發生遵從一定的分布規律。這個分布規律被稱為「冪律」,又被稱為「可預期的不均衡」。這種分布呈現出來的狀態則被稱為「冪律分布」。一、什麼是冪律和冪律分布?1.通過二八法則理解冪律和冪律分布所謂冪律,其實最好的實例就是二八法則。
  • 從複雜網絡小世界、無標度、高聚類特性看新型冠狀病毒肺炎
    ER隨機圖理論對圖論的影響長達近40年,以至於在隨後的近半個世紀,隨機圖一直是科學家研究真實網絡強有力的武器。但是規則網絡和隨機網絡都無法刻畫實際系統。 圖1:四種類型的網絡。雖然不同網絡中的節點類型和邊的意義可能各不相同,但通過大量實際系統的實證研究,人們發現現實的複雜網絡存在一些普適的規律性,如小世界特性、無標度、高聚類特性和弱連接優勢[7]。這些性質極大的推動了複雜網絡理論及應用研究。小世界、無標度、高聚類特性和弱連接優勢的發現對於人們對疾病傳播的認識具有重大意義[8-14]。
  • 母基金周刊:解密資產配置邏輯——風險投資中的冪律曲線分布規律...
    大多數VC基金的回報處於長尾曲線的尾部—回報率低、基金數量多,LP投資人無法簡單通過投資多個VC基金管理人,就一勞永逸地獲得行業平均水平(或以上)的收益。VC基金的這種冪律曲線分布的特點,會導致整個創投行業的資金和資源嚴重向頭部VC基金管理人和明星創投項目傾斜。
  • ...解密資產配置邏輯——風險投資中的冪律曲線分布規律及其現實意義
    來源:金融界網站作者:母基金周刊STRATEGYVC基金的回報曲線,呈現冪律分布而不是正態分布的特徵。大多數VC基金的回報處於長尾曲線的尾部—回報率低、基金數量多,LP投資人無法簡單通過投資多個VC基金管理人,就一勞永逸地獲得行業平均水平(或以上)的收益。
  • 華語流行歌曲名稱的詞同現網絡研究
    如果網絡的平均路徑長度d≈ drandom,聚合係數C≥Crandom,則該網絡具有小世界效應。3.2無標度特徵無標度特性是指度為k的節點在網絡中出現的的概率,而該節點的頂點數量P(k )滿足冪律分布P(k )~ k  -γ。
  • 冪律分布擬合方法
    根據文獻一,對冪律分布的擬合主要包括:1.    假定原始數據服從冪律分布,常見的方法通過直方圖,利用公式p(x) ∝ x-α,可以得知冪律分布服ln p(x) = αln x + constant, 其在雙對數坐標的圖像上會表現為一條直線,以此來初步觀測數據是否可能服從冪律分布。2.
  • 力學所災變破壞的冪律奇異性前兆及災變預測方法研究獲進展
    這種加速演化通常被刻畫為冪律關係,但冪指數卻表現出極大的分散性,這為理解災變破壞的機理及建立災變破壞預測方法帶來了極大困難。  近期,中國科學院力學研究所非線性力學國家重點實驗室研究員白以龍團隊針對災變破壞冪律奇異性前兆及災變破壞預測方法的研究取得新進展。
  • [PRL]無序顆粒堆積中的非整數冪律
    ., 118,238002 (2017)]上發表了題為「Origin ofNoncubic Scaling in Disordered Granular Packing」的論文,為近來在一系列玻璃體系中發現的非整數冪律提出了新的理解途徑。(點擊閱讀原文可獲取論文連結)這項研究的出發點之一,是理解在很多金屬玻璃體系中發現的非整數冪律的現象。
  • 基礎科普:如何解讀長尾理論
    長尾市場能用更直觀的圖形方式去闡述嗎?答案是可以的。大部分的研究表明,長尾市場是一個冪律曲線,它不會被有限貨架空間或可用資源這樣的供給瓶頸殘忍地截斷。那麼結合冪律曲線,我們可以將長尾理論描述為「我們的文化和經濟重心正在加速轉移,從需求曲線頭部的少數大熱門(主流產品和市場)轉向需求曲線尾部的大量利基產品和市場」。三)長尾理論是否顛覆否定了二八原則?
  • 比特幣價格走廊與冪律法則:走向何方?
    注意:我們得到冪律,它是非線性的,因為我們在對數空間中進行了線性回歸。從視覺上看,效果很適合。它非常好地回溯到交易所最初上市時的價格。令人感興趣的是,reddit上的帖子是發表於一年前,結果至今還很相似。此外,確定係數很高:0.93139763,這給予我們另一個跡象表明,我們有個不錯的模型擬合。我們可以觀察確定係數是如何隨時間推移而演化的。
  • 考拉茲猜想獲得完全證明:冪尾數周期律與質函數迭代律
    一個是洛書定理,即冪尾數周期律,此引理證明費馬猜想時已用到;同時還證明了質函數迭代律,考察了質函數,即本原解相鄰迭代函數,其迭代解集具有相鄰互素性,互異傳遞性,個數有限性的特徵。由兩個引理可直接推出考拉茲猜想成立。這個猜想,自去年引起陶哲軒的注意後,一度在網絡上很火,數學同仁紛紛給出推進,依然沒有善巧的工具可以徹底拿下。
  • 腦區到腦網絡:認知神經科學的系統論轉向
    20世紀90年代,複雜性網絡這一數學模型被引進認知神經科學,腦網絡研究在認知神經科學中興起,腦網絡的研究發現,人腦網絡是一種高效的「小世界」網絡,人類心理不但與腦區的活動有關,還與腦區之間的網絡連接有關。不同於腦區的還原論研究,腦網絡研究具有系統論的特點,這是認知神經科學內部的系統論革命,對認知神經科學的可持續發展具有重大意義。
  • 網絡科學前沿:尋找複雜網絡中人類信息處理的普遍模式
    通過實驗,結合對真實世界的文學、科學、音樂所呈現的網絡特徵進行的研究,6月15日,發表在Nature Physics的論文「複雜網絡中的人類信息處理」,揭示了有效交流需要滿足的兩個特徵。如何用網絡科學研究人類交流在人類社會,不管是交談、寫作還是欣賞音樂,這些交流都有共同點,就是他們都可以抽象為一串離散的字符。由此進一步地將這些字符串分為一個個的組件,而後將這些組件作為網絡節點,並且將連接這些組件的轉折性詞句作為網絡連邊。借鑑這樣的思路,我們就通過網絡科學的工具來研究人類的交流行動。之前的研究中,人們關注的是網絡本身的複雜度和其存在的規律。
  • 費馬猜想真有簡潔證明: 本原解化約律和冪尾數周期律
    編者按:這是一篇關於費馬猜想的簡潔證明,作者證明了兩個引理,一個是洛書定理,即冪尾數周期律,同時還證明了本原解化約律,這是一種回歸本質範疇的優化運算規則,就是把解集歸屬到更大範疇中去,找到解集成立的必要條件是冪尾數周期律。由兩個引理可直接推出費馬猜想成立。