粗看長尾,細辨冪律:跨世紀的無標度網絡研究紛爭史

2020-12-22 澎湃新聞

原創 汪小帆 集智俱樂部

導語

維弗雷多·帕累託(Vilfredo Pareto ,1848—1923),福利經濟學先驅;喬治·金斯利·齊普夫(George Kingsley Zipf,1902-1950),計量語言學先驅;德裡克·普萊斯(Derek John de Solla Price,1922-1983),科學計量學之父;赫伯特·亞歷山大·西蒙(Herbert Alexander Simon,1916-2001),人工智慧先驅;波努瓦·曼德布羅特(Benoit B. Mandelbrot,1924-2010),分形之父;艾伯特-拉斯洛·巴拉巴西(Albert-László Barabási,1967-),當今網絡科學研究代表人物、無標度網絡概念提出者。

如果能夠把這些橫跨三個世紀、來自不同領域的科學先驅組織在一起召開主題論壇的話,他們討論甚至爭論的主題也許只有一個:冪律(Power Law)分布。本文通過圍繞網絡科學中的核心概念——無標度網絡、冪律分布以及偏好連結機制的「多次重複發現」和「多輪爭議」的故事,與讀者分享網絡科學研究的曲折而又動人的歷程。

目錄

一、無標度網絡研究的興起——巴拉巴西的發現

二、生成冪律分布的隨機框架之路

三、生成冪律分布的優化框架之路

四、西蒙與曼德布羅特的七輪大戰

五、偏好連結:隨機還是優化?

六、無標度網絡「危機」

七、結束語

本文首發自集智斑圖

https://pattern.swarma.org/path?id=83?/from=wechat

在科學發展史上,同一個科學發現,以不同的形式、在不同的時間和不同的地點、被不同的科學家重新發現並引起爭議的例子是屢見不鮮的,其中的原因包括:一是由於交流不夠廣泛,使得不少學術成果難以為更多的研究人員所了解。二是由於認識不夠深入,開始以為是不同的東西,逐漸才能揭示出共同的本質。

無標度網絡無疑屬於網絡科學過去二十年發展中最重要的概念之一,甚至不少人覺得可以把「之一」兩字去掉。而無標度網絡及其對應的冪律分布和偏好連結的「多次重複發明」和「多輪爭議」作為體現科學發展歷程的生動例子確實值得一說。

從網絡科學的眼光看,這些研究和爭議本身就串成了一個網絡,本文希望能夠讓更多的讀者體驗到這一網絡的精彩紛呈。需要事先聲明的是,關於無標度網絡研究的文獻眾多,從經驗驗證到建模、從特徵分析到控制等等。即使是關於其定義本身的研究也有包括我國學者史定華教授在內的一些學者的工作。本文遠非無標度網絡研究歷史的完整記錄,而只是圍繞著本文的主題,選取其中我們認為有關聯的少數節點加以闡述。

一、無標度網絡研究的興起

——巴拉巴西的發現

1999年9月,當時在美國聖母大學任教的巴拉巴西及其學生和博士後在《Nature》上發表了一篇題為「全球資訊網的直徑(Diameter of the world-wide web)」的一頁紙短文,指出全球資訊網中任意兩個網頁之間的平均距離為19[1]。

但是,讀者稍花時間看一下這篇文章就會發現,文章的核心內容其實是文中唯一的一幅插圖,該圖顯示了全球資訊網的出度和入度分布都服從冪律分布,從而具有無標度(Scale-Free)特徵(圖1)。

圖1:全球資訊網的度分布和平均距離(取自[1])

巴拉巴西自己也承認,取這樣的標題是採用了特洛伊木馬的策略以引起雜誌編輯的興趣,因為「無標度」在當時還並非一個人們覺得有意義的概念[2]。文章的最後一段指出,網絡的無標度特徵需要有超越傳統隨機圖模型的新的建模機制。

這篇文章是巴拉巴西團隊在網絡科學領域打響的第一槍,而且也已經為他們的下一篇更具標誌性的文章埋下了伏筆。

這裡對冪律和無標度概念稍作解釋:

所謂冪律度分布是指網絡中一個節點的度為k的概率P(k)是一個冪函數,即P(k)=Ck^-⍺,其中⍺稱為冪指數,度是指這個節點與其它節點相連的連邊數。假如你的微信中有100個好友,你在微信好友網絡中的度就是100。冪律的典型特徵就是在雙對數坐標系下為一條直線(如圖1所示)。這條直線的斜率就是-⍺。

所謂網絡的無標度特徵是指網絡中大部分節點的度值都相對較小,而少部分節點的度值相對很大,這就導致平均值不再具有典型意義。過去20年,人們發現許多實際的生物網絡、技術網絡和社會網絡等都具有這樣的特徵。典型的例子包括經濟網絡中的少數巨頭企業、航空網絡中的少量樞紐節點、社交網絡中的少量大V節點等等。

在這些年的網絡科學研究中,往往把兩者合二為一,即無標度網絡就是具有冪律度分布的網絡,這也是導致爭議或歧義的一個因素。

一個月後,巴拉巴西和他的博士生阿爾伯特就在《Science》上發表了關於無標度網絡模型的文章[3]。這篇文章被公認為是推動網絡科學興起的兩篇標誌性文章之一(另一篇是瓦茨和斯託加茨於1998年在《Nature》上發表的關於小世界網絡模型的文章[4])。

巴拉巴西和阿爾伯特的這篇文章指出,包括全球資訊網和電影演員合作網絡在內的不同的實際網絡,之所以都具有無標度特徵,是基於兩個很簡單的機制:i)網絡是不斷增長的;ii)增長過程中服從偏好連結(Preferential Attachment),即新加入的節點傾向於與網絡中度大的已有節點相連接。這一簡潔的模型現在一般稱為BA無標度網絡模型,簡稱BA模型。

現在的問題是:在巴拉巴西之前,是否有人發現實際網絡的度分布服從冪律?如果是的話,那麼是否有人已經提出過產生冪律分布的優先連結機制?

近年來,科學文獻引用關係網絡在分析科學發展中的作用受到越來越多的關注[5,6]。2019年11月,《Nature》為紀念誕生150周年發行的特刊的封面就是一副在該雜誌上發表的眾多歷史文章之間的關係網絡圖(圖2)[7]。

圖2:《Nature》出版150周年紀念刊的封面顯示了論文共引關係網絡(取自[7])

相關閱讀:

因此,對上述兩個問題答案搜尋的一個最直接的方法自然是去查看巴拉巴西團隊的兩篇論文[3][4]的參考文獻。然而,我們從中並沒有找到任何前人關於網絡的冪律度分布和偏好連結機制相關的研究。

看來,巴拉巴西團隊當時並沒有注意到前人的相關工作,在巴拉巴西近年出版的網絡科學著作[2]的一幅圖中例舉了歷史上的一些代表性研究(圖3)。本文關注的是圖4所示的一些歷史性研究節點之間的引用關係網絡(其中A——>B表示B引用了A),以便讀者更好理解冪律分布和無標度網絡的研究歷程,並通過這個例子更好理解科學的演化。

圖3:偏好連結研究簡史(取自[2])

圖4:冪律分布和無標度網絡研究中一些歷史性節點之間的引用關係網絡

二、生成冪律分布的隨機框架之路

A. 20世紀60年代:科學計量學之父普萊斯對冪律網絡的奠基性貢獻

一些讀者也許對於科學計量學和普萊斯(Derek John de Solla Price)都不了解,但是大家應該都知道這些年炒的火熱的期刊影響因子(Impact Factor),其發明人加菲爾德(Eugene Garfield)於1984年獲得了首屆普萊斯紀念獎,該獎是專門為了紀念於1983年去世的科學計量學的奠基人普萊斯而設立的。

在冪律研究徵程上會遇到幾位學術興趣極為廣泛的『雜家』,普萊斯即為其中一位。普萊斯1941年從倫敦大學數學物理系本科畢業那年就發表了一篇關於橫波解釋的物理學論文;1942年即發表了屬於科學學範疇的探討科研未來的文章。他於1946年獲得倫敦大學物理學博士學位,1954年又獲得劍橋大學科學史博士學位,1962年起在耶魯大學任教直至去世。

普萊斯曾於20世紀50年代與英國著名的科學史家李約瑟合作研究過中國的天文鐘[8]。他於20世紀60年代初出版的《巴比倫以來的科學》[9]和《小科學,大科學》[10]兩部著作被公認為是科學計量學的奠基之作。

普萊斯是1978年創辦的《科學計量學》(Scientometrics)期刊的創刊主編之一,他在創刊詞中感慨道:這不僅對科學計量學本身,而且對我本人,都開啟了一個重要的歷史新階段。

圖5:普萊斯和古希臘天文研究裝置模型(圖片來源網絡)

加菲爾德曾在題為《獻給普萊斯》的紀念文章中寫道[11]:「我們的生命是有限的,如果在活著的時候繼續研究這一領域(指科學計量學)的話,就不能不每天都要想起普萊斯給予的影響。因此,我們不必悲痛他的消逝。普萊斯是永生的。」

順便劇透一下,在王大順和巴拉巴西即將出版的《科學學》(Science of Science)著作[12]中會專門介紹普萊斯模型,彰顯普萊斯的深遠影響。

接下來我們就介紹一下普萊斯模型。

1965年,普萊斯在《Science》上發表了一篇題為「科學文獻網絡(Networks of Scientific Papers)」的文章[13],明確指出科學文獻之間的引用構成一個有向網絡,其出度和入度分布均服從冪律,並給出了相應的冪指數(圖6)。請注意,當時普萊斯還沒有使用雙對數坐標系。

圖6:科學文獻引用網絡的出度和入度分布(取自[13])

在此發現的基礎上,普萊斯於1976年發表了一篇題為「文獻計量和其它累積優勢過程的通有理論(A General Theory of Bibliometric and Other Cumulative Advantage Processes)」的長文[14],摘要的第一句話就開宗明義的指出:本文提出了一個累積優勢(Cumulative Advantage)分布,以從統計上建模成功孕育成功(success breeds success)的現象。

引言的第一段中也指出這一現象在文獻計量和許多不同的社會現象中普遍存在。例如,被引用較多的文章相比於引用少的更容易獲得新的引用;高產作者相比於低產作者更可能發表新作;常用的單詞會更常使用,而少用的單詞一直少用;富翁相比於乞丐能夠更快更容易地獲得財富等等。

今天看來,巴拉巴西的偏好連結機制與當年普萊斯關於累積優勢的表述如出一轍。遺憾的是,普萊斯的這兩篇文章成為了睡美人,而一直沒有受到關注,直到2010年,紐曼(Mark Newman)在《Networks: An Introduction》這本網絡科學教材裡面才對普萊斯模型做了細緻介紹[15]。

普萊斯對論文引用網絡的增長和累積優勢機制的觀點可敘述如下:

1)增長機制:文章的數量是不斷增長的;新發表的文章會引用早前發表的一些文章作為參考文獻。

2)累積優勢機制:早先發表的一篇文章被一篇新發表的文章引用的概率與它已經被引用的次數成正比。可見,「累積優勢」事實上就是「偏好連結」。

要在上述機制的基礎上生成網絡模型還需要解決如下問題:

1)確定參考文獻數量。在實際的引用網絡中,不同文章的參考文獻的數量一般是會有差異的,而且與該文章所屬的領域、發表的時間等因素都是相關的。例如,在過去幾十年間,在許多領域中,參考文獻的平均數量都有增長趨勢。為簡化起見,假設每一篇文章的參考文獻均為常數m。

2)修正累積優勢機制。除極少數特例外,每一篇文章剛發表時被引用次數都為零。這樣按照上述累積優勢機制所有文章都沒有被引次數了。避免這一問題的簡單辦法就是假設一篇老文章被一篇新文章引用的概率與該篇老文章已經被引用的次數再加上一個正常數a成正比,從而任意一篇文章都有被引用的可能(在普萊斯的原文[14]中假設a取為1)。

3)確定初始網絡狀態。為了要生成網絡模型,還要首先給定初始時刻的網絡,也就是模型一開始有多少節點和邊。我們可以簡單假設初始時有m0篇引用次數為零的文章。當網絡規模趨於無窮大時,網絡性質與初始狀態假設無關。

上述普萊斯模型產生的有向網絡的入度分布服從冪指數為2+a/m的冪律分布。如果把網絡無向化,即每一條邊都視為無向邊,並且取a=m,那麼就得到一個度分布服從冪指數為3的無向網絡,這恰是BA無標度網絡!

然而,普萊斯1965年的文章儘管是發表在頂級期刊《Science》上,並且普萊斯本人又是公認的科學計量學的奠基人,巴拉巴西團隊在1999年的時候並未注意到普萊斯的相關工作。而且瓦茨和斯託加茨於1998年在《Nature》上發表關於小世界網絡模型的文章時也同樣沒有注意到普萊斯的工作,否則他們稍許花點時間檢驗一下手上幾個網絡數據的度分布,也許網絡科學過去二十年的發展又是另外一部歷史了!

瓦茨在其著作《六度》(Six Degrees)中流露了深深的悔意[16]:「……我們犯了一個大的錯誤。我們沒有檢查!我們非常肯定的認為非正態分布是不可能的,因而從未想過要檢查網絡的度分布是否服從正態分布。數據在我們手上躺了近兩年,我們只需花半個小時就能檢查出結果,但我們就是一直沒有做。」

B. 20世紀50年代:人工智慧先驅西蒙登場

那麼,普萊斯是從哪裡得到的啟發呢?從普萊斯的文章[14]中倒是不難發現這一點,在引言的第二段普萊斯就明確提出,在統計中這樣的過程通常稱為非對稱的雙曲函數,而這個函數的刻畫者是赫伯特·亞歷山大·西蒙(Herbert Alexander Simon)。

如果說對於普萊斯有些讀者可能不知道的話,那麼在如今的人工智慧時代,西蒙作為一位人工智慧先驅者無疑是大家都應該知道、並且值得膜拜的「前浪」。

前面提到普萊斯是一位『雜家』,西蒙則更是如此了。西蒙在多個領域方面都取得了令絕大多數科學家望塵莫及的成就。作為一個政治學博士學位的持有者,西蒙在1975年獲得計算機科學領域的最高獎——圖靈獎,1978年獲得諾貝爾經濟學獎,1993年獲美國心理學會的終身成就獎。這些跨界的榮譽「前不見古人,後不見來者」。西蒙還有一個中文名字叫「司馬賀」,據說是他自己取的。

普萊斯的文章[14]引用的是西蒙在1955年發表的一篇題為「關於一類非對稱分布函數(On a class of skew distribution)」的文章[17]。

西蒙在文中開門見山的指出,其目的就是要分析一類在社會、生物和經濟等領域廣泛存在的分布函數。這類分布的主要特徵就是長尾,即尾部近似服從冪指數大於1的冪律分布,f(i)~ i^(p+1),p為一個大於零的常數。該文舉證了五個具體數據:論著中的單詞出現頻次分布;科學家發表的文章數量分布;城市人口分布;收入多少分布;生物屬的物種數量分布。

西蒙以寫書為例給出了產生冪律分布的「偏好連結」假設。設想你正在寫一本書並且已經寫了k個單詞,那麼第k+1個單詞是一個新單詞的概率為a;第k+1個單詞是一個已有單詞的概率為1-a,並且一個已有單詞被選中的概率與該單詞已經出現的次數成正比。

基於西蒙模型,書中恰好出現i次的單詞的數量的分布就會服從冪律分布。當然,西蒙模型中並未出現網絡,因此普萊斯模型可以看作是西蒙模型的網絡形式。

C. 20世紀20年代:統計學家尤爾的早期貢獻

而正如西蒙在文中所指出的,西蒙模型可以追溯到20世紀20年代著名統計學家尤爾(George Udny Yule)的研究[18]。沿用今天的網絡科學術語,尤爾試圖解釋達爾文的生命之樹網絡的無標度結構,即為什麼生命之樹上的某些分支要比其它分支擴張的快得多:大多數屬(genus)只有一個物種,而大多數物種來自單個屬。其解釋即為偏好連結或者富者更富:一個屬的物種越多,它就會產生更多的物種。

由於以上介紹的偏好連結機制是依照某個概率公式選取的機制,因此,增長和偏好連結機制也被稱為產生冪律分布的隨機框架。

上述對於隨機框架中幾個典型的歷史性研究的介紹是不完整的,例如,出生於匈牙利的巴拉巴西就認為最先提出偏好連結的應該是匈牙利數學家波利亞(György Pólya)於1923年提出的URN模型[19]。相信有更多學者的貢獻還沒有被挖掘出來,也許有一天人工智慧算法能夠幫助解決科研工作中的睡美人現象[12]。

現在我們知道的是,其實可以有很多種產生冪律分布的方法[20],接下來要介紹的是其中的一類優化框架。

三、生成冪律分布的優化框架之路

A. 世紀之交的HOT模型

在科學研究進程中,由於知識的積累和技術的進步等演化到了一定的階段,不同的科學家往往在相近的時間開始研究相似的問題。1999年對於冪律分布及其產生機理而言就是這樣一個年份,除了巴拉巴西團隊的研究,至少還有如下兩個值得一提的代表性工作。

在1999年的網絡通信領域國際頂級會議ACM SIGCOMM上,計算機科學家法拉特三兄弟(Michalis Faloutsos、Petros Faloutsos和Christos Faloutsos)發表了一篇題為「關於網際網路拓撲的冪律關係(On Power-Law Relationships of the Internet Topology)」的文章[21],推動了網際網路拓撲發生器從1.0進入2.0時代。該文也獲得了2010年ACM SIGCOMM的「經受時間檢驗獎(test of time award)」。

同樣是在1999年,物理學家卡爾森(J. M. Carlson)和控制學者道爾(John Doyle)在物理學期刊上提出了設計系統中的冪律產生機制——高度優化容忍(Highly Optimized Tolerance),用以表徵一些複雜互連繫統可以有效地容忍某些不確定因素(即魯棒性),也會對其它未被考慮到的不確定因素變得更敏感(即脆弱性)[22]。

2002年,理論計算機科學家克裡斯特斯· 帕帕季米特裡烏(Christos Papadimitriou)團隊在上述兩項研究的基礎上,提出了網際網路中冪律產生的一種優化框架:啟發式優化折衷(Heuristically Optimized Trade-Offs),發表在International Colloquium on Automata, Languages and Programming上[23]。

以計算機網絡為例,假如要把某地的一臺路由器加入網絡中,既希望離中心節點儘可能近,又希望鋪設的線路成本儘可能低,如果我們同時考慮這兩個因素的某種折衷,就會生成無標度特徵的計算機網絡。冪律分布正是來源於複雜的多目標優化。

B. 20世紀50年代:分形之父曼德布羅特登場

冪律產生的優化框架可以追溯到什麼時候?文獻[23]中指出「我們所提出的概念框架也包含了曼德布羅特(Mandlebrot)的經典而漂亮的模型。」

這裡所指的是曼德布羅特於1953年發表的一篇題為「語言統計結構的資訊理論(An informational theory of the statistical structure of language)」的文章[24]。

經典的香農資訊理論問題研究的是對消息構造最小代價編碼,而曼德布羅特指出語言的統計結構問題事實上是這一經典問題的逆問題,即用儘可能少的成本傳遞儘可能多的信息。這種目標優化會導致第j個使用最多的單詞出現的頻率服從冪律分布。

分形之父曼德布羅特與人工智慧先驅西蒙一樣也是一位雜家,他的研究範圍極其廣泛,從物理、天文、地理到經濟學、生理學等。然而,他的前半生的學術生涯卻較為坎坷,得不到學界的認可,直到1975年創建令人嘆為觀止的分形幾何。

暢銷書《黑天鵝》的作者納西姆·尼古拉斯·塔勒布(Nassim Nicholas Taleb)曾與曼德布羅特有過合作研究,他於曼德布羅特去世後在自己的個人網站稱其為「羅馬人中的希臘人(A Greek among Romans)」。了解古希臘科學輝煌的讀者應該知道,這是一個至高評價。

C. 20世紀30-40年代:語言學家齊普夫的最小努力原則

那麼曼德布羅特又是繼承了誰的想法呢?曼德布羅特在文[24]中提到了語言學家齊普夫(George Kingsley Zipf)20世紀30年代的工作。齊普夫發現,如果把英語單詞的出現頻率由大到小排序排列,那麼每個單詞出現的頻率與它的排序位置之間的關係就服從冪指數為1的冪律分布,後人稱之為齊普夫分布。

這一發現表明只有極少數的詞被經常使用,而絕大多數的詞很少被使用。而且多種語言都具有這一特徵,它使得人們可以用儘可能少的單詞表達儘可能多的語義。

齊普夫稱之為「最小努力原則」,並於1949年出版專著《人類行為與最小努力原則:人類生態學引論》(Human Behavior and the Principle of Least Effort: An Introduction to Human Ecology)對齊普夫分布做了更為廣泛的介紹[25]。

此後,齊普夫分布被用於從社會到自然和物理等不同的系統。例如,城市人口按規模的分布服從齊普夫分布:大多數城市的規模相對較小,而少量城市的規模相對很大。這一規律甚至被麥可·巴蒂在《創造未來城市》一書中稱為是城市發展的第一原則[26]。

諾貝爾經濟學獎得主保羅·克魯格曼(Paul R. Krugman)於1996年發表了一篇題為「直面城區層級化的奧秘(Confronting the Mystery of Urban Hierarchy)」文章[27],文中即以城市規模分布這一驚人簡單的經驗規則為例說明: 「人們對於經濟理論的常見抱怨就是覺得我們的模型過於簡單、過份簡潔的看待雜亂的現實……在另一類重要的情形下,事實可能恰恰相反:我們擁有雜亂的模型,而現實卻是驚人的簡潔。」

從齊普夫再往前追溯,就會遇到19世紀末義大利經濟學家帕累託(Pareto)關於個人財富的經典研究[28]。帕累託發現個人收入X不小於某個特定值x的概率是x的冪函數,20%的人口佔據了80%的財富。這一發現被後人稱為帕累託法則(也稱二八法則,80/20法則),而關於這一法則近年來有很多的介紹,這裡就不再展開了。

四、西蒙與曼德布羅特的七輪大戰

上面的介紹中已經提到,20世紀50年代的時候,人工智慧先驅西蒙和分形之父曼德布羅特分別研究了冪律產生的隨機框架和優化框架。這裡我們要介紹的是兩人在當時圍繞冪律產生機理的一番論戰。

1955年,西蒙39歲、曼德布羅特31歲,兩人都是血氣方剛之年,西蒙已在學界頗具名氣而曼德布羅特則初出茅廬、尚未得到學界認可。由於觀察角度、思維方式和處理方法等的不同,科學研究上的爭論也是常見的。不過這兩位極富個性的科學家圍繞冪律的七輪大戰卻是堪稱一絕。

西蒙於1955年發表的關於冪律產生的隨機框架文章[17]引用了曼德布羅特1953年發表的優化框架文章[24],並且指出:「我傾向於給出一個利用平均而不是極大化假設的解釋。」

儘管西蒙在文中的致謝部分對曼德布羅特表示了謝意,然而曼德布羅特並不領情,寫了一篇批評西蒙的評論文章於1959年4月發表在《Information and Control》上,簡稱"A Note"[29]。文中指出:「西蒙提出的反駁我們的語言學法則理論的兩個論點都站不住腳。」由此開啟爭吵之旅。

西蒙在其自傳中專門有一章的標題即為「論戰」,其中回憶了他和曼德布羅特的爭論[30],而曼德布羅特的自傳卻對此爭議隻字未提[31]。

1960年,西蒙發現了曼德布羅特那篇批評他的註記,但是他說無論是作者還是期刊編輯部都沒有告知他。於是西蒙寫信給曼德布羅特,提議聯合寫篇文章闡明雙方的異同點。兩人起初都同意並交換了一些草稿。但是兩人很快發現他們的爭論在逐步升級,因此互相拉黑放棄了合寫文章的打算。

西蒙單獨寫了一篇針對曼德布羅特的評論的回覆文章,簡稱"Some Further Notes"[32]。該文於1959年7月即投稿到《Information and Control》,並於1960年3月正式發表。文中開宗明義指出曼德布羅特對他的模型的批評是不成立的。

針對西蒙的答覆曼德布羅特又另寫了一篇答覆文章,簡稱"Final Note"[33]。既然是最後的註記,爭論似乎到此就結束了。然而,編輯把這篇回復文章在發表前寄給了西蒙,西蒙顯然也不願意就此打住,於是針對性的又寫了一篇"Reply to 'Final Note'"[34]。這兩篇文章於是就在《Information and Control》的同一期上同時發表出來。

曼德布羅特心想,我已經說是最後的註記了,你還不依不撓,難道怕了你不成,他就又寫了一篇評論"Post Scriptum to 'Final Note'"[35],而且,摘要只是一句話:「我的批評從1955年看到西蒙文章的初稿以來一直沒變。」

對曼德布羅特的這個答覆,西蒙也沒忍住,又寫了一篇答覆"Reply to Post Scriptum"[36],摘要也很簡單:「曼德布羅特對我1955年提出的模型提出了一組新的反駁理由,然而如同他先前的反駁一樣,這些反駁同樣是無效的。」

至此,兩人的爭論又重新回到原點,夾縫中的編輯中止了這場爭論,而這場持續數年的論戰也總算謝幕。

圖7:西蒙與曼德布羅特之間的七輪大戰

正如西蒙在自傳中所說:「在這樣的交戰中,我能獲得的最佳成果是:讓讀者相信雙方都有些道理。」 曼德布羅特模型和西蒙模型確實各有特點。例如,科爾內(Kornai)認為曼德布羅特模型比較適合於語言學[37],而克魯格曼則認為西蒙模型是描繪經濟增長的最優雅模型[38]。

有意思的是 ,這場大戰既有武林高手對決的恢弘氣勢,又有幼兒園小朋友吵架的即視感。

「我的梨比你的蘋果甜」

「事實證明我的蘋果比你的梨甜」

「明明我的梨更甜」

「明明我的蘋果更甜」

「我堅持我的梨更甜」

「我堅持我的蘋果更甜」

編輯:好了好了,你們的梨和蘋果不要在我這裡擺攤了,大家都散了吧。

圍觀群眾:有什麼好吵的呢,梨有梨的好處,解渴生津,蘋果有蘋果的好處,維生素含量高,各來一斤。

如今,我們知道複雜網絡種也存在分形和自相似特徵,而人工智慧算法也在複雜網絡分析中日益重要,不知人工智慧先驅西蒙和分形之父曼德布羅特得知的話會有何感想。

五、偏好連結:隨機還是優化?

目前為止,我們是把冪律產生的隨機框架與偏好連結機制相對應的,即度大(也可以稱為名氣大)的節點獲得新連結的概率也大。2012年,帕帕多普洛斯(Papadopoulos)等人的一篇《Nature》文章則給出了偏好連結機制的一種優化框架[39]。

在社會學中有一條基本的同質性原理:越是相似的人越有可能在一起。帕帕多普洛斯等人指出,如果新節點通過優化名氣和相似性之間的某個折衷函數而選擇添加連結的話,那麼同樣可以產生偏好連結。

巴拉巴西在同期《Nature》上發了一篇題為「運氣還是推理(Luck or reason)」的評論指出[40],當年西蒙和曼德布羅特事圍繞冪律產生的隨機和優化框架而爭論,如今則升華為偏好連結機制形成的隨機和優化框架之爭。巴拉巴西進一步指出,大多數複雜系統中應該二者兼而有之,因此我們沒有必要只能二選一。不管怎樣,起作用的是偏好連結機制。

圖 8:偏好連結機制的隨機和優化模型(取自[40])

問題是:冪律和偏好連結機制真的如此普適嗎?

六、無標度網絡「危機」

自從巴拉巴西小組1999年關於無標度網絡的研究以來,過去二十年的複雜網絡研究在某種程度上患上了「冪律崇拜症」:人們拿到一個實際網絡,往往都會首先想到要檢驗一下網絡的度分布是否服從冪律。

今天回過頭去看,確實存在不少不嚴謹的地方。例如,不少文獻中都是簡單的在雙對數坐標圖中直接進行最小二乘直線擬合,而不管手中的數據是否確實相對其它分布而言更為符合冪律。

A. 克洛賽的「魔戒」引發的危機

2009年,當時在美國聖塔菲研究所從事博士後研究的安然·克洛賽(Aaron Clauset)等人花了4年時間寫作的長篇論文「經驗數據中的冪律分布(Power-law distributions in empirical data)」終於在國際應用數學頂級期刊《SIAM Review》上發表[41]。

克洛賽認為他們的這篇文章完整解決了冪律分布的檢驗問題,並在博客文章中把它類比於萬能的「魔戒」。文中給出的檢驗數據是否符合冪律分布的流程如下:

1)使用極大似然方法估計冪律模型參數;

2)計算數據和冪律之間的擬合優度,以判定冪律是否為合理假設;

3)通過似然比檢驗比較冪律假設和其它分布假設 ,以判斷更傾向於哪個假設。

2018年1月,已經到美國科羅拉多大學任教的克洛賽和他的博士生安娜 ·布羅迪(Anna Brodio )在arXiv上貼出了一篇標題為「無標度網絡很少見(Scale-free networks are rare)」的文章[42],文中使用上述冪律檢驗方法,通過對上千個實際網絡數據集的研究發現,其中只有15%的網絡,通過了無標度網絡的強檢驗,而43%的網絡根本就不能算作無標度網絡。

無標度網絡畢竟是網絡科學中的核心概念,這一研究立即引發圈內學者的關注。

2018年2月,著名科普網站《Quanta Magazine》上發表了一篇題為「實際網絡中缺乏冪律證據(Scant Evidence of Power Laws Found in Real-World Networks)」的評論文章[43],介紹了一些圈內學者的看法。

大部分學者覺得這一研究還是有意義的,但是巴拉巴西用一個比喻來反駁克洛賽的工作,「你不能因為現實中一片羽毛和一塊石頭落下的速度不同,就否定萬有引力定律(萬有引力定律告訴你自由落體的速度就應該一樣),在現實中總是會受到其他因素的幹擾,比如空氣阻力。」

克洛賽顯然不同意這種說法,他說,「如果有1000種物體自由落體,你總能在大部分物體中觀察到重力和空氣阻力如何共同作用於物體的普遍規律,所謂的幹擾因素問題就可以迎刃而解。」

2018年3月,巴拉巴西在其實驗室主頁上貼出了一篇反駁文章,題為「你所需要的只是愛——克洛賽對無標度網絡的無效搜索(Love is All You Need——Clauset's fruitless search for scale-free networks)」[44]。

Love is All You Need | 無標度網絡理論之父Barabási回應史上最嚴重質疑

在克洛賽的研究中,對於一個兩層的有向網絡,是要把它分成兩個單獨的有向網絡,然後對每個有向網絡分別計算出度分布、入度分布和視為無向網絡的度分布。只有6個度分布中的5個都服從冪律,那麼才認為原始的兩層有向網絡是無標度網絡。

巴拉巴西舉例說,這相當於把單詞 Love 拆分為如下元素:

{L, o, v, e, Lo, Lv, Le, ov, oe, ve, Lov, Loe, ove, Love}

克洛賽要求其中每個元素都要包含Love,Love才是Love。

因此,巴拉巴西認為,在克洛賽的眼中,There is no Love in Love,而在我們其他人眼中,Love is all you need。

但是,巴拉巴西的這一指責本身也是值得商榷的,因為在克洛賽的文章中也已經指出了,即使對於187個簡單網絡數據集(每個網絡不再有任何拆分),也只有20%的網絡可以通過無標度網絡的強檢驗,44%的網絡根本不能算作無標度網絡。

值得一提的是,克洛賽團隊建立了至今為止複雜網絡領域的最完整的數據集,包含了好幾千個實際網絡的數據信息,這也是對網絡科學研究的貢獻。當然這一數據集還需要改進。數據和算法一樣重要,正如imagenet改變了人工智慧領域一樣,大規模、高質量的複雜網絡資料庫有助於推動網絡科學更上層樓。

B. 「神人」克裡科夫的辯護

2018年7月,克洛賽在第4屆國際計算社會科學年度會議報告了他們關於無標度網絡很少見的工作。

2018年11月,巴拉巴西領銜的美國東北大學網絡科學研究所的DK-Lab實驗室主任迪米特裡·克裡科夫(Dmitri Krioukov)團隊在arXiv上貼出了一篇題為「無標度網絡沒問題(Scale-free Networks Well Done)」的文章,認為無標度網絡顯然絕非克洛賽他們所指出的那麼少[45]。

克裡科夫也算得上是一位科學界的「神人」。2012年的時候,克裡科夫還在美國加州大學聖地牙哥分校(University of California, San Diego)從事研究工作。一個春日,他駕駛著一輛豐田雅力士在上班途中被警察發現沒有在停車標記Stop sign前停車,因而收到400美元的罰單。但是克裡科夫沒有自認倒黴,而是選擇了上法庭申訴。

克裡科夫的辯護理由是,當時他經過的道路有兩條車道,在他的車身較短的豐田雅力士和警察中間還有另外一輛車身較長的車在通行,兩輛車幾乎同時從停車標記S的地方通過。他以一篇4頁紙的物理論文從理論上向法庭證明,在這種環境下,由於另一輛車的遮擋,完全存在自己停了但警察沒看到,而被誤認為沒有停的可能。

克裡科夫居然成功勝訴了,而且他的這篇題為「無辜的證明(The Proof of Innocence)」的論文至今還放在arXiv網站上[46]。當然,後來也有人指出,克裡科夫的論證中還是存在瑕疵的,感興趣的讀者可以自行驗證。

接下來我們就看看克裡科夫團隊是如何為無標度網絡辯護的,他們做了三件事:

首先,也是最核心的,他們認為要重新給出冪律分布的嚴格定義。克洛賽團隊基於的是冪律分布的理想化的定義,即當k>=kmin時,網絡中一個隨機選取的節點的度為k的概率服從:

P(k)=c k^-r

其中c為歸一化常數,r為冪指數。克裡科夫團隊指出,實際網絡的演化過程多樣且存在各種噪聲和擾動。因此,要求實際網絡的度分布服從這一理想化的冪律,就相當於要求在有摩擦力的地面上的運動要完全符合無摩擦力情形的理想化的牛頓運動定律一樣。為此,他們提出冪律分布的一個更為實際的定義應該是正規變化分布(Regularly Varying Distribution),其對應的概率密度函數為:

P(k)=l(k) k^-r

其中I(k)是一個當k趨於無窮大時緩慢變化的函數(數學上,正規變化分布是通過與上式對應的互補累積分布定義)。正規變化分布包含了理想化的冪律分布,並且當k趨於無窮大時兩者是一致的。但是,在有限k值的情形兩者可以有很大差異。

其次,克裡科夫團隊給出了估計正規變化分布的指數的三種具有相容性的方法。他們還強調了採用多種相容性估計方法的重要性,因為不同的估計方法可能只是揭示分布的不同的部分。

最後,他們對115個實際網絡數據進行了驗證。發現無標度網絡的比例要顯著高於克洛賽團隊的判斷。這一結論其實也是自然的,因為克裡科夫團隊畢竟明顯放鬆了對於冪律分布的要求。

2019年3月,「無標度網絡很少見」這篇文章正式在《自然通訊》(Nature Communications)上發表[42]。該刊同時配發了一篇由網絡科學學者郝培德(Petter Holme) 撰寫的評論「既少見又處處可見:關於無標度網絡的觀點」(Rare and everywhere: Perspectives on scale-free networks)[47]。

評論認為兩種看似截然不同的觀點還是有可能調和的。克洛賽研究的是規模有限的實際網絡,而克裡科夫團隊研究的是當網絡持續增長趨於無限的情形。此外,絕大多數網絡科學學者都認為「知道某個分布是否為長尾要比知道它是否符合冪律重要得多。」

同樣是在2019年3月,克裡科夫團隊成員在國際網絡科學會議 COMPLENET 上介紹了他們關於「無標度網絡沒問題」的工作。

2019年4月,克勞賽的博士生布羅迪以「無標度網絡很少見」作為論文核心內容通過了博士學位論文答辯。

2019年10月,「無標度網絡沒問題」這篇文章在新創辦的開源期刊《Phys. Rev. Research》上發表[45]。至此,這一爭議以雙方成果都正式發表而暫時告一段落。

七、結束語

作為結束語,我們想闡述一下對幾個問題的觀點,與大家一起探討:

1)即然圍繞冪律度分布是否常見及其產生機理存在這麼多的爭議,那麼如何看待無標度網絡的研究?

首先,過去二十年的經驗研究至少形成了如下共識:許多(甚至是絕大多數)大規模實際複雜網絡的度分布都具有長尾特徵,即少量節點的度值相對很大。換句話說,如果無標度網絡定義為度分布具有長尾特徵的網絡,那麼無標度網絡確實是很常見的。

圖9:典型的無標度網絡,只有少量大度節點,節點度分布服從冪律。掃碼可閱讀集智百科「無標度網絡」詞條,了解更多信息

其次,如果把無標度網絡定義為度分布服從冪律的網絡,那麼無標度網絡在實際中是否常見確實值得進一步嚴肅探討。畢竟,過去二十年很多關於實際網絡的無標度特徵的發現確實是不嚴謹的。很多的研究都是不管三七二十一,看到長尾就認為是冪律,在雙對數坐標系下簡單的直線擬合,而不管誤差有多大。更為一般地,許多關於冪律的發現也缺乏統計上的支撐[48]。

第三,如果要求實際網絡度分布服從理想冪律分布確實也不合理。所以問題又歸結為如何刻畫實際網絡度分布是否符合冪律。

進一步地,如果冪律並非實際網絡度分布的通有特徵的話,那麼偏好連結機制是否常見也值得探討,僅僅只是研究冪律的產生機理也顯偏頗。愛因斯坦有句名言:越簡單越好,但不要過於簡單。

綜上,我們建議在實際網絡分析中粗看長尾、細辯冪律。一方面,如果網絡的度分布確實明顯不均勻,存在少量度值相對很大(例如,度值差別在2個數量級以上),那麼可以認為該度分布具有長尾特徵;另一方面,要判斷這一長尾是否符合冪律則需要謹慎。為達成共識,所有關於實際網絡度分布是否服從冪律的檢驗應該要按照統一的標準來做,以有利於網絡科學更為嚴謹、避免歧義和不必要的爭議,也更好應用於實際。

冪律分布是否依然在實際網絡度分布研究中具有統治地位?更進一步,考慮到兩個具有相同度分布的網絡也可以具有非常不同的其它特徵,度分布本身是否依然在網絡科學研究中屬於核心概念?讓我們共同期待下一個二十年。

圖10:兩個具有完全相同度分布的網絡(取自[49])

2)既然冪律度分布和偏好連結機制都並非巴拉巴西最先發現,那麼如何看待巴拉巴西的貢獻?

我們可以看一下關於混沌研究的經典案例。1975年,當時在美國馬裡蘭大學讀博的李天巖和導師約克在《美國數學月刊》上發表了一篇「周期三則意味著混沌」的文章[50],後來發現這篇文章中的主要定理事實上是前蘇聯學者薩可夫斯基(Sharkovsky)於1964年發表在俄文期刊《烏克蘭數學雜誌》上的一個結果的特例[51]。

這樣看來,李-約克的工作似乎毫無意義了,但是至少從如下兩個方面來看,也許李-約克的工作更有價值:首先,李-約克在關於周期三的結果的基礎上首次明確提出了「混沌」的數學概念與定義,揭示了混沌系統關於初始條件的極端敏感性以及由此產生的解的最終性態的不可預測性,從而成為了推動混沌理論研究興起的奠基性工作;其次,也正是由於李-約克的工作才喚醒了人們對薩可夫斯基的工作的注意。

換句話說,如果沒有類似於李-約克的工作,那麼薩可夫斯基的工作也許就會依然冷凍在歷史長河中等著被喚醒。這個歷史上的例子也許有助於我們理解巴拉巴西關於無標度網絡的研究對於網絡科學的意義,而普萊斯和薩可夫斯基則分別是網絡科學和混沌研究中的「睡美人」。

類似的例子其實還可列舉很多,從統計物理中的平均場理論到神經網絡中的反向傳播算法的發明等。諾貝爾獎得主朱棣文在哈佛大學畢業典禮的演講中曾說到:「在科學中,第一個發現者是重要的,但在得到公認前,最後一個將這個發現重複出來的人也許更重要。」

最後,關於前面介紹的那些爭議還想再說幾句。科學研究中存在爭議實在是太正常不過了,質疑精神本身就是科學精神的核心之一。因此,如果爭議的各方都是本著理性求真的精神闡述各自的觀點,那麼這種爭議就有助於科學的發展。理性求真的科學精神在當下更是具有特殊重要的意義。

巴拉巴西的那篇回應文章的標題「你所需要的只是愛」應該對大家都適用,正如同王力宏的一首歌的歌名「愛你就等於愛自己」。

附記:剛剛得知李天巖教授辭世的消息。我至今依然記得20世紀80年代末讀到李天巖教授關於李-約克混沌的故事時的震撼。當時我還是一個對於混沌一無所知的碩士研究生,但是看到導師約克和博士生李天巖之間的對話時卻有種瞬間被點亮的感覺:「I have a good idea for you!」 「Is your idea good enough for the Monthly?」1994年的一個春日,當我在東南大學圖書館裡面偶然翻閱到《Nature》上的一篇關於混沌控制的綜述文章時,頭腦中立刻浮現出李-約克混沌的故事,於是改變了我的博士論文選題,開啟了從混沌控制、到混沌同步和混沌反控制的研究。因此,李天巖老師的混沌故事是我學術道路上的一盞燈,期望這個故事也能夠點亮更多有志於科研的年輕人。

相關閱讀:

作者講座:

從無標度網絡研究歷史看想法傳播

興起於世紀之交的網絡科學在過去二十年間取得了重要進展。其中,無標度網絡的研究處於中心地位,包括無標度網絡的普適性、拓撲模型及其對傳播動力學等的影響等等。本講座將從發現、建模和分析幾個方面梳理無標度網絡的研究歷史,包括對於存在的爭議的分析,最後給出對網絡科學未來發展的一些看法。

講座連結:https://campus.swarma.org/course/661?/from=wechat

參考文獻:

[1]Albert R, Jeong H, Barabási A L. Diameter of the world-wide web[J]. Nature, 1999, 401(6749): 130-131.

[2][美]艾伯特-拉斯洛·巴拉巴西,巴拉巴西網絡科學,河南科學技術出版社,2020

[3]Barabási A-L, Albert R. Emergence of scaling in random networks [J]. Science, 1999, 286(5439): 509-512.

[4]Watts D J, Strogatz S H. Collective dynamics of 『small-world』 networks [J]. Nature, 1998, 393(6684): 440-442.

[5]Fortunato S, Bergstrom C T, Börner K, et al. Science of science[J]. Science, 2018, 359(6379).

[6]Zeng A, Shen Z, Zhou J, et al. The science of science: From the perspective of complex systems[J]. Physics Reports, 2017, 714: 1-73.

[7]Gates A J, Ke Q, Varol O, et al. Nature’s reach: narrow work has broad impact[J]. Nature, 2019, 575: 32-34.

[8]李約瑟, 王鈴, D.J.普拉斯,等. 科學史與科學家介紹——中國的天文鐘[J]. 科學通報, 1956(06): 103-104.

[9]Price D, J de S. Science since Babylon[M]. Yale University Press, 1961.

[10]Price D, J de S. Little Science, Big Science[M]. Columbia University Press, 1963.

[11]Garfield E. In Tribute to Derek John de Solla Price: A Citation analysis of little science, big sicence[J]. Scientometrics, 1985, 7(3-6): 487-503.

[12]Dashun Wang, A-L Barabási. Science of Science[M]. Cambridge University Press, 2020, forthcoming.

[13]Price D J D S. Networks of scientific papers[J]. Science, 1965, 149: 510-515.

[14]Price D S. A general theory of bibliometric and other cumulative advantage processes[J]. Journal of the American society for Information science, 1976, 27(5): 292-306.

[15]Mark Newman. Networks: An Introduction[M]. Oxford University Press, 2010.

[16]Watts D J. Six degrees: The science of a connected age[M]. WW Norton & Company, 2004.

[17]Simon H A. On a class of skew distribution functions[J]. Biometrika, 1955, 42(3/4): 425-440.

[18]Yule G U. A mathematical theory of evolution, based on the conclusions of Dr. J. C. Willis, F.R.S.[J]. Trans. R. Soc. B, 1924, 213: 21–87.

[19]Eggenberger, F, Pólya, G. Über die Statistik verketteter Vorgänge[J]. zamm ‐ journal of applied mathematics & mechanics, 1923, 3(4):279-289.

[20]Mitzenmacher M. A brief history of generative models for power law and lognormal distributions[J]. Internet mathematics, 2004, 1(2): 226-251.

[21]Faloutsos M, Faloutsos P, Faloutsos C. On power-law relationships of the internet topology[J]. ACM SIGCOMM computer communication review, 1999, 29(4): 251-262.

[22]Carlson J M, Doyle J. Highly optimized tolerance: A mechanism for power laws in designed systems[J]. Physical Review E, 1999, 60(2): 1412.

[23]Fabrikant A, Koutsoupias E, Papadimitriou C H. Heuristically optimized trade-offs: A new paradigm for power laws in the Internet[C]//International Colloquium on Automata, Languages, and Programming. Springer, Berlin, 2002: 110-122.

[24]Mandelbrot B. An informational theory of the statistical structure of language[J]. Communication theory, 1953, 84: 486-502.

[25]Zipf G K. Human behavior and the principle of least effort: An introduction to human ecology[M]. Addison-Wesley Press, 1949.

[26][英]麥可·巴蒂,創造未來城市[M],中信出版社,2020

[27]Krugman P. Confronting the mystery of urban hierarchy[J]. Journal of the Japanese & International Economies, 1996, 10(4):399-418.

[28]Pareto V. The new theories of economics[J]. Journal of Political Economy,1897, 5(4): 485-502.

[29]Mandelbrot B. A note on a class of skew distribution functions: Analysis and critique of a paper by HA Simon[J]. Information and Control, 1959, 2(1): 90-99.

[30]Simon H A. Models of my life[M]. MIT press, 1996.

[31]Mandelbrot B. The fractalist: Memoir of a scientific maverick[M]. Vintage, 2012.

[32]Simon H A. Some further notes on a class of skew distribution functions[J]. Information and Control, 1960, 3(1): 80-88.

[33]Mandelbrot B. Final note on a class of skew distribution functions: analysis and critique of a model due to HA Simon[J]. Information and Control, 1961, 4(2-3): 198-216.

[34]Simon H A. Reply to 「final note」 by Benoit Mandelbrot[J]. Information and Control, 1961, 4(2-3): 217-223.

[35]Mandelbrot B. Post scriptum to 「final note」[J]. Information and Control, 1961, 4(2-3): 300-304.

[36]Simon H A. Reply to Dr. Mandelbrot's post scriptum[J]. Inf. Control., 1961, 4(2-3): 305-308.

[37]Kornai A. Mathematical linguistics[M]. Springer Science & Business Media, 2007.

[38]Krugman P. The Self-Organizing Economy[M]. Blackwell Publishers, Cambridge MA, 1996.

[39]Papadopoulos F, Kitsak M, Serrano M Á, et al. Popularity versus similarity in growing networks[J]. Nature, 2012, 489(7417): 537-540.

[40]Barabási A L. Luck or reason[J]. Nature, 2012, 489(7417): 507-508.

[41]Clauset A, Shalizi C R, Newman M E J. Power-law distributions in empirical data[J]. SIAM review, 2009, 51(4): 661-703.

[42]Broido A D, Clauset A. Scale-free networks are rare[J]. Nature communications, 2019, 10, 1017(1-10). (arXiv preprint arXiv:1801.03400, 2018).

[43]Klarreich E. Scant evidence of power laws found in real-world networks[J]. Quanta Magazine. Feb. 15, 2018.

[44]Barabási A L. Love is All You Need——Clauset's fruitless search for scale-free networks

https://www.barabasilab.com/post/love-is-all-you-need?from=groupmessage&isappinstalled=0.

[45]Voitalov I, van der Hoorn P, van der Hofstad R, Krioukov D. Scale-free networks well done[J]. Physical Review Research, 2019, 1(3): 033034. (arXiv preprint arXiv: 1811.02071, 2018).

[46]Krioukov D. The Proof of Innocence[J]. arXiv preprint arXiv:1204.0162, 2012.

[47]Holme P . Rare and everywhere: Perspectives on scale-free networks[J]. Nature Communications, 2019, 10, 1016(1-3).

[48]Stumpf M P H, Porter M A. Critical truths about power laws[J]. Science, 2012, 335(6069): 665-666.

[49]Amaral L A N, Guimera R. Lies, damned lies and statistics[J]. Nature Physics, 2006, 2(2): 75-76.

[50]Li T Y, Yorke J A. Period three implies chaos[J]. The American Mathematical Monthly, 1975, 82(10): 985-992.

[51]Sharkovskii A N. Coexistence of cycles of a continuous map of the line into itself[J]. Urain. Mat. Zh., 1964, 16(1): 61-71.

(參考文獻可上下滑動)

作者:汪小帆、張倩

審校:張江、陳清華、黃俊銘、劉培源

編輯:張希妍

汪小帆,上海大學副校長,長江學者特聘教授,國家傑出青年科學基金獲得者。長期從事網絡科學研究,曾出版《網絡科學導論》等著作,獲得國家級教學成果一等獎和國家自然科學二等獎等榮譽。目前擔任中國系統工程學會副理事長、國際自動控制聯合會(IFAC)複雜大系統技術委員會主席、NetSci-China主席等學術職務。

張倩,集智學園聯合創始人兼CEO,集智俱樂部核心志願者,《走近2050》聯合作者,組織編寫《深度學習與PyTorch實戰》,自媒體作者,公眾號:swarmacomplex

推薦閱讀

集智俱樂部QQ群|877391004

原標題:《粗看長尾,細辨冪律:跨世紀的無標度網絡研究紛爭史》

閱讀原文

相關焦點

  • 冪律:自然界中的一個普遍規律
    冪律,又稱冪定律、冪法則,英文:Power law,表述兩個量之間的一種函數關係,描述其中一個量的相對變化導致另一個量相對變化的關係,而與這些量的初始大小無關:一個量隨另一個量的冪而冪律變化,例如,正方形的邊長,如果長度加倍,則面積乘以四;如計算機摩爾定律的冪數增長;又如量子計算機的能力隨量子比特數呈冪數增長。
  • 從「病從口入」談「冪律分布」及其對生活的啟示
    在這裡,我就要提一個概念,叫作「冪律分布「。「長尾理論」可能很多人聽到過,比如說到某個行業,排名前幾的企業可能知道的人多,這些企業的體量和擁有行業的資源也多,其他大多數的企業卻少有人知且體量小、擁有的資源也少。「馬太福音」也許很多人也聽過,是聖經上的故事,通俗的理解是讓富的人更富讓窮的人更窮。二八法則和長尾理論都有一個中心思想,那就是:大多數的一類東西,會往少數的一個方面聚集。而馬太福音似乎是造成此二者的原因。
  • 力學所災變破壞的冪律奇異性前兆及災變預測方法研究獲進展
    這種加速演化通常被刻畫為冪律關係,但冪指數卻表現出極大的分散性,這為理解災變破壞的機理及建立災變破壞預測方法帶來了極大困難。  近期,中國科學院力學研究所非線性力學國家重點實驗室研究員白以龍團隊針對災變破壞冪律奇異性前兆及災變破壞預測方法的研究取得新進展。通過大量的大理巖、花崗巖試樣的準靜態單軸壓縮實驗,研究人員揭示了災變破壞前響應函數的冪律奇異性指數在-1和-1/2之間分布。
  • 為「成功」建模:冪律分布
    如果身高服從冪律分布,人間將變成美好的童話世界相比之下,冪律分布的曲線就類似於一條躺倒的、開口比較大的c型曲線。我們剛才說人類的身高可以歸為正態分布,大多數人屬於中等身材。冪律分布的公式其實非常簡單,類似於冪指數的樣子。外觀很像2的3次方的這樣一個形式。當然,如果你把它變成計算概率的公式的話,就需要把這個2變成變量x,然後3次方變成負數。因為在冪律分布裡,這個冪指數是一個負數,而且這個指數要小於-1。
  • 考拉茲猜想獲得完全證明:冪尾數周期律與質函數迭代律
    一個是洛書定理,即冪尾數周期律,此引理證明費馬猜想時已用到;同時還證明了質函數迭代律,考察了質函數,即本原解相鄰迭代函數,其迭代解集具有相鄰互素性,互異傳遞性,個數有限性的特徵。由兩個引理可直接推出考拉茲猜想成立。這個猜想,自去年引起陶哲軒的注意後,一度在網絡上很火,數學同仁紛紛給出推進,依然沒有善巧的工具可以徹底拿下。
  • 你努力的結果,是正態分布還是冪律分布?你努力的結果,是正態分布...
    一、正態分布和冪律分布的職業區別 我們看到很多工作,都是有天花板的。比如:送外賣,就算你再努力,單子接得再多,想要突破一個月十萬,幾乎是不可能的。所以送外賣的小哥收入,都在一個區間。這就是:正態分布。
  • 冪的運算小結+測驗(同底數冪的乘法、冪的乘方、積的乘方)
    冪的運算包括同底數冪的乘法、冪的乘方和積的乘方。同底數冪的乘法即相同底數的冪相乘,冪的乘方即乘方再乘方,積的乘方即乘積的乘方。要理解這三個概念,首先要明白什麼是乘方和冪。求幾個相同因數的積的運算叫做乘方,乘方的結果叫做冪。乘方是一種運算,強調過程;冪是結果,強調整體。很多時候二者可以通用,比如2^3可以讀作2的3次方,也可以讀作2的3次冪。
  • 費馬猜想真有簡潔證明: 本原解化約律和冪尾數周期律
    編者按:這是一篇關於費馬猜想的簡潔證明,作者證明了兩個引理,一個是洛書定理,即冪尾數周期律,同時還證明了本原解化約律,這是一種回歸本質範疇的優化運算規則,就是把解集歸屬到更大範疇中去,找到解集成立的必要條件是冪尾數周期律。由兩個引理可直接推出費馬猜想成立。
  • 二十一世紀的「夷夏之辨」?
    近來網絡上有一批人從對滿清的不滿逐漸發展為敵視一切非漢族之朝代、文化等,進而將元、清一代稱之為「亡國」,若僅僅以漢族的角度而言,或者說以宋、明之遺民而言,「亡國」一說,無可非議。但是若將其範圍擴大,視之為整個中國的滅亡,恐怕是不可取了。然而的確不乏其人。
  • 生命起源研究的新裡程碑:Science刊文揭示前生命化學自催化網絡
    9月25日的Science雜誌刊載了一項研究,科學家構建了以水、氮氣、硫化氫、氨氣、氰化氫、甲烷作為起始反應物的自主催化網絡。這為尋找生命誕生伊始的早期化學反應網絡提供了研究線索。生命怎樣起源?從化學網絡中找線索生命起源問題的關鍵挑戰,是追蹤少數幾種原始的基底反應物怎樣構建起重要的生命組件並湧現出自生成主體。
  • 高跟鞋是粗跟高跟鞋好還是細跟好看?
    高跟鞋有許多種不同款式,尤其是在鞋跟的變化上更是非常多,如細跟、粗跟、楔形跟、釘型跟、槌型跟、刀型跟等。粗跟舒適,有個性,則優雅,女人,都各有特色。細跟好看。不過結婚穿的話會很累的。你不經常穿高跟鞋的話建議粗跟的粗跟的高跟鞋比較的舒服,細跟比較的累。因為細跟高跟的接觸面少且高跟較高,但是我覺得細跟的好看,時尚大方優雅的氣質顯得更加豐富。有些不喜歡高跟鞋的女士們來說認為哪種都不好,最起碼對身體不會很好!因較有些身材的原因或胖腳的話,沒有適合的高跟鞋子!細跟高跟鞋主打時尚魅力方向。
  • 美術研究|好書推薦·專題:李軍《跨文化的藝術史:圖像及其重影》
    第一編「跨越東西:絲綢之路上的跨文化文藝復興」包含了同一主題的七章內容,集中探討13—16世紀歐亞大陸兩端義大利與中國的跨文化藝術交流。第三、四章以13—16世紀的世界體系為背景,聚焦現存最早、最具代表性的十幅(四幅中國、六幅西方)世界地圖,一方面揭示出它們之間種種隱秘的歷史聯繫,另一方面藉助藝術史,追蹤這十幅世界地圖的圖形形式在製作層面上所呈現的跨文化過程。第五、六和七章是圍繞同一主題展開的一組研究。
  • 八世紀以來李白研究的十大熱點
    進入20世紀,李白研究的局面有了改觀,70年代後更是碩果纍纍。因而本文所述詳今略古,著眼於爭論較多和創穫較豐的問題。 一、家世 李白家世的原始記載,見於李白詩文中自敘、李陽冰的《草堂集序》、範傳正的《唐左拾遺翰林學士李公新墓碑》。
  • 細跟鞋早早out了,最近興起「橡皮擦跟」,腿長到能跨三級階梯
    這個夏天還是一如既往地熱,但是一些美女卻早就不穿細跟的涼鞋了,因為細跟顯得人很成熟,年輕的女生穿的話,估計是會老幾歲的。而年輕的女生,想要穿搭得有個性,不妨學習一下下圖的小姐姐。細跟鞋早早out了,最近興起「橡皮擦跟」,腿長到能跨三級階梯!現在的女生,出門就是很喜歡穿高跟鞋,因為可以拉長身材的比例,尤其是在穿裙子的時候更是顯魅力。
  • 鳥也懂倫常,最新研究發現長尾山雀通過辨識叫聲來避免近親繁殖
    圖 1 長尾山雀科(學名:Aegithalidae)是鳥綱雀形目的一科,分布於北半球的森林地帶根據謝菲爾德大學的最新研究表明,長尾山雀能夠通過叫聲來區分近親和非家族的同類成員,從而積極的避免不利於種群延續的「近親繁殖
  • 辨仿簡答(13):龍是龍紋商非商
    辨玉是一個淨化心靈的賞趣過程。不戴有色眼鏡、不憑先入為主、不思價值幾何才能客觀求證;從細節處入手、到全方位考量才是真正的辨玩,才能在辨識中得到賞古的樂趣。一件商代形制玉龍玦(圖1,以下簡稱「此玉玦」)。
  • 安能辨我是雄雌,金豪世紀橙色大豆腐F尖鋼筆評測
    從側面看銥粒還算飽滿。背面和筆舌做個對比,分別是派克世紀和金豪世紀的筆尖,從銥粒上看,你更加喜歡哪一個?從我個人喜好來說,我肯定會選金豪的這個。金豪世紀鋼筆的外形部分差不多就講到這裡。書寫體驗先說結論,派克世紀和金豪世紀,從書寫方面,我可能...更加...喜歡金豪,不開玩笑。為啥?派克的F筆太細了,也有點硬...在我接觸了這麼多鋼筆之後,我越發覺得美系鋼筆真的真的都是實用為主,甚至是為了日常的實用性為主。
  • 棉花加工有門道:由粗到細去雜質
    棉花加工有門道:由粗到細去雜質 石軼君 2017-10-16 12:54 來源:澎湃新聞
  • 什麼是長尾關鍵詞?
    ,顧名思義,長尾關鍵詞的特徵就是比較長,通常是由2到3個詞組成的,還包括一些短語,大多體現在網站文章、標題以及內容頁中,被業內人士稱為長尾理論的衍生物。總體而言,長尾關鍵詞記錄的內容可以很簡單,只要進一步將長尾關鍵詞記錄的搭建起來,那麼整個網站就形成了一個比較強大的網絡結構,無論是搜尋引擎抓取還是用戶訪問體驗,都會大大提升。