從4710萬論文大數據,看科學概念如何演化和傳播?

2021-01-15 集智俱樂部

 

流行語是社交網絡中的模因,而學術概念,是引文網絡中模因,在研究者之間傳播和演化。然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。


在一篇於2014年11月發表在Physical Review X的經典論文中,研究者基於源於Web of Science、美國物理學會等的數千萬引文數據,為模因在引文網絡上的傳播,建立了一個簡潔的數學模型。本文將以這篇論文為背景,為讀者介紹模因在科研引文網絡上的傳播規律,以及研究方法。


何謂科學模因?


科學是現代人類文化的重要支柱,科學產出的評價和科學協作模式的研究越來越受到研究者的關注。從引用分布、合著網絡和研究團隊的形成,到研究人員的排名以及科學成功的量化和預測,我們如何做科學本身已經成為一門科學。隨著近年來大量數位化數據可用性的不斷增加,複雜系統理論和建模的飛速發展,科學學的又一個春天正在到來。


模因(meme)源自希臘語,意為「被模仿的東西」,由新達爾文主義者Richard Dawkins在其1976年所著的《自私的基因》中首次提到。他認為,諸如單詞、旋律、食譜和思想等文化實體與基因一樣進化,涉及複製和變異,但使用人類文化而不是基因庫作為它們的傳播媒介。


當科學碰上模因,我們不禁要問:模因是如何在科研引文網絡上傳播的?然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。2014年11月在PHYSICAL REVIEW X發表的一篇論文,為模因在科研引文網絡上的傳播建立了僅含一個參數的數學模型,基於Web of Science、PubMed Central以及美國物理學會(APS)的科研引文數據進行驗證,並通過多種方法對模型進行評估。本文將以這篇為背景,為讀者介紹模因在科研引文網絡上的傳播規律。

 


論文題目:

Inheritance Patterns in Citation Networks Reveal Scientific Memes

論文地址:

https://journals.aps.org/prx/abstract/10.1103/PhysRevX.4.041036



基於道金斯對「基因」一詞的定義,文章給出了科學模因的定義。科學模因,是文章中的一個短文本單位,在引用文章中複製,並以許多副本分發。一個特定的單詞序列越容易同時出現,且常常存在於引用文章中,就越容易成為科學模因。因此,從引用文章中複製單詞或短語的文章類似於從父母那裡繼承基因的後代有機體。



圖1


在進行建模之前,我們首先需要了解科學模因的特點,通過定性分析,把握科學模因分布的定性規律。


如圖1(a)所示,基於Web of Science數據集的引文網絡包含超過3300萬篇文章。各類科學學科形成了相對緊密的群體:物理科學(青色)與網絡右上角的工程技術(洋紅色)非常接近,但與社會科學和人文科學(綠色)以及佔網絡左側的大部分的醫學和健康科學(紅色)卻相差甚遠。自然科學和農業科學介於兩者之間(藍色)。


如圖1(b)所示,在基於美國物理學會(APS)數據集的引文網絡中,不同的顏色標註出Physical Review中的五個最重要的期刊,每個都覆蓋物理的一個子領域。可以發現,儘管所採用的網絡布局算法並沒有明確考慮科學學科和期刊信息,但在引用網絡中存在顯著的不同期刊的社團結構。


如圖1(c)所示,在圖1(b)的基礎上突出顯示了五個模因,可以發現,包含這些模因的文章在在引用網絡中形成緊密社團結構。量子模因(quantum)分布較廣,但絕不是均勻分布的,遍及幾個大團簇。包含裂變模因(fission)的文章形成了幾個相互連接的星團,這些星團局限於一個區域,該區域構成了涵蓋核物理的《Physical Review C》雜誌。同樣,石墨烯(graphene)、自組織臨界性(self-organized criticality)、交通流(and traffic flow)都集中在各自的中型或小型社區。


通過前面的分析,我們已經知道科學模因的分布具有一定的規律,但要想在大量文字資料庫中準確的捕獲它們,我們就需要知道什麼樣的詞條可以作為模因?首先,作為模因,該詞條一定具備較高的出現頻率,只有在多個文章中大量出現,該詞條才可能作為一種類似於生物中基因的物質在文章中複製並傳播。因此,作者定義了詞條出現頻率(f_m)來刻畫詞條的重要性。那麼只要出現頻率足夠高的詞就一定可以稱為科學模因嗎?答案當然是否定的,幾乎每一篇文章(甚至每一段落中)都會出現大量的停用詞,如「the」、「of」等,這些詞本質上沒有明確的含義,但卻在語段中大量出現。此外,科學模因的定義更強調文章的「遺傳」屬性,在科研引文網絡中即為文章與其引文的關係。因此,作者基於詞條在文章及其引文中是否出現定義了傳播得分(p_m)來刻畫詞條的傳播價值。此外,我們可以發現,由於科學模因的定義並不是十分明確的,那麼詞條能否被判定為科學模因就需要一個類似於概率的量來描述詞條被認為是科學模因的可能性。因此,作者定義了模因得分M_m:

        

其中,詞條出現頻率(f_m)是很容易計算得到的,需要注意的僅僅是需要對頻率做標準化處理,但如何定義傳播得分(p_m)使之能準確刻畫詞條的傳播價值呢?首先,作者發現,模因在文章與引文中出現與否的四種情況,如表1所示:其次,作者提出黏附因子(Sticking factor)和激發因子(Sparking factor)的概念,分別量化模因的複製比率和生成比率,複製比率越高,則傳播價值越大;生成比率越高,則傳播價值越低。進一步,研究者可以發現,由於模型的比率形式,要求分母不等於零,與變量的實際意義矛盾,因此,我們引入參數——受控噪聲(delta),為避免delta取值對於稀有模因產生較大的影響,作者通過大量實驗,將delta值在未特殊說明的情況下固定為3。此外,為避免「free-riding」問題,即存在某些較長的模因被錯誤識別為多個模因,作者在計算選出較長的模因計數。1.可以精確計算,而不引入任意閾值及限制,例如:不限制最小出現次數;不限制詞條的長度;不需要過濾包含特殊字符的單詞;3.不依賴過濾器,例如:不需要依賴停用詞表即可刪除最常見的單詞和短語;前文建立的模型,在理論分析中雖然具有諸多優勢,但能否真正準確快速的捕獲科學模因還需要進行實驗驗證。因此,本文作者通過隨機化、人工實驗及多模型比較三種方法進行驗證分析。計算所考慮的三個數據集中所有詞條的模因得分,得到了如圖2所示的結果。它們的相對頻率和傳播分數以對數尺度的熱圖形式進行繪製。其中圖2(a)是基於APS文章的題目和摘要數據,模因得分非零的詞條數為1372365;圖2(b)是基於經過保留時間順序的隨機化操作的APS文章的題目和摘要數據,模因得分非零的詞條數為89356;圖2(c)是基於PubMed Central文章的題目和摘要數據,模因得分非零的詞條數為1322013;圖2(d)是基於Web of Science文章的題目數據,模因得分非零的詞條數為7966731。四幅圖中,均有一條白線代表模因分數的99.9%分位數(M_0.999)。1.圖形具有一個向下傾斜的寬頻帶,表明更頻繁的模因通過引用網絡傳播的較少。2.在每個圖形的下半部分,我們看到一個非常高密度的楔形,沿著左下邊緣的較大條帶,但向中間逐漸變窄到消失。儘管這一楔形對於Web of Science資料庫來說有一個更為圓潤和寬廣的形狀,但總體而言,這些圖形在所有數據集上都非常相似。這是科學模因分布模式普遍性的一個標誌。3.考慮到詞條數目的範圍超過5個數量級以上,99.9%分位數線(M_0.999)也非常穩定。4.將前面提到的物理模因定位在APS數據集圖2(a)中,研究者發現它們位於帶右上方的非常邊緣,其中詞條的密度非常低。(一些停用詞如「of」或「the」出現在圖的頂部的微弱尖峰中,其中   ,頻率接近100%)圖2(b)中的數據,經過了保留時間順序的隨機化操作,與原始網絡具有完全相同的拓撲結構,但是文章文本(即標題和摘要及其模因)被隨機分配給不同節點。對於保留時間順序的隨機化,我們只對在很短的連續時間窗口內發布的文章進行無序處理。例如:使用了1000篇文章的時間窗口,意味著隨機化後沒有任何一篇文章從最初的時間順序向前或向後移動了超過1000個位置。因此,圖2(b)中的熱圖說明了APS引文圖隨機化後的情況,但文章的時間順序保存了信息。模因得分非零的詞條數量急劇減少(從圖2(a)中的約140萬減少到圖2(b)中的僅89356),科學模因的普遍分布模式消失,排名靠前的模因所在的右上角部分消失。當然,如果APS引用網絡是完全隨機的,且不保留時間順序,那麼與圖2(a)中顯示的原始結果的差別會更大。統計分析表明,隨機網絡獲得的模因得分中位數與原始引文圖的中位數相差超過1個數量級,不同隨機化數據的差異非常小。這些結果表明,僅拓撲結構和時間結構無法解釋分布模式的普遍性。因此,模因得到高模因得分基於複雜的過程和機制。

             

表2所展示的是APS數據集中模因得分排名前50位的模因,可以發現,這些模因中的大多數是表示真實合理物理概念的名詞短語,這與文章中的關鍵詞往往是名詞有關。模型建立的過程中並不包含任何理論知識,且模型存在由兩個或三個詞組成模因,因此,該模型具有相當不錯的識別效果。

             

如表3所示,研究者給出了由模因得分確定的詞條的兩次人工實驗的結果。首先,作者從APS數據集中提取出模因得分最高的150個模因詞條,構成樣本1。其次,作者從至少在100篇文章中出現的所有詞條中完全隨機抽取150個詞條,構成樣本2。最後,作者出現頻率做權重從至少在100篇文章中出現的所有詞條中隨機抽取150個詞條,構成樣本3。此外,為了排除不同詞條長度的影響,我們確保兩批隨機抽取的樣本的長度分布與基於模因提取的主樣本完全相同。三個樣本的450個詞條打入按順序後讓兩個物理學博士生分別識別這些詞條,兩次實驗的選項分別為:實驗1:(i)短語不是一個有意義的詞條或不是一個重要的物理概念;(ii)短語是一個重要的物理概念或實體——它可以作為一個綜合百科全書條目的標題出現。實驗2:(i)名詞短語,(ii)動詞,(iii)形容詞或副詞,(iv)其他。實驗結果表明,在樣本1中,實驗1中86%左右的模因得分項是重要的物理概念,且兩個人在81.3%的情況下達成一致性判斷。實驗2中86.0%的模因得分項是名詞短語,且兩個人在82.7%的情況下達成一致性判斷。而對於隨機樣本,其類別判斷和判斷的一致性都很低。對於兩個博士生的一致性分類結果進行Fisher精確檢驗,p < 10^(-15),實驗結果非常顯著,證明了模因得分對名詞短語和重要概念具有顯著的偏好性。為了證明模因得分模型的有效性,作者引入了五個模因得分的替代指標:(2)隨時間的最大絕對變化——最高得分項。尤其是頻率的最大絕對變化;(3)隨時間的最大相對變化——與(2)相同,但基於相對變化;(4)期刊之間的最大絕對差異——期刊之間頻率最大絕對差異的最高得分項;(5)期刊之間的最大相對差異——與(4)相同,但基於相對差異。度量(1)是基於重要的模因是相對高頻出現的假設(非停用詞)。度量(2)和(3)基於有價值的模因隨著時間的推移呈現出趨勢的假設。度量(4)和(5)基於作者的直覺提出的,即短語主要出現在特定的期刊上,而不是其他期刊上,必須是特定研究領域的特定概念。如圖3所示,在右上角的小圖中,縱坐標為詞條在維基百科(真值列表)中的比例,橫坐標是模因得分最高的模因數,是對數坐標。結果顯示,模因得分最高的前10個模因中,約70%對應於從維基百科中提取的詞條,前20個模因中的約55%、前50個模因中的約40%和前100個模因中的約26%。此外,為了量化由特定指標delta確定的頂級模因與維基百科列表之間的一致性,研究者使用曲線下的標準化區域的面積大小A(Agreement),面積越大,則一致性越高。在右上角的小圖中,不同的藍色折線,代表不同的受控噪聲值delta。(delta取值在1到10之間;藍色粗線代表delta=4,其面積A最大)在圖3的箱線圖中,比較了不同模型下關於A的大小。對於模因分數指標來說,存在當delta=1時,32.3%的孤立異常值。當delta取值在2到10之間時,A的值在40.9%到44.8%之間,敏感性較低。而其他指標的得分始終低於22%(包括離群值),相差較大,說明模因分數指標的有效性。

             

詞條圖4(a)證實了在模因得分數較高(即大約99.9%的分位數M_0.999)的地區(右上角)的詞條往往顯示為維基百科物理文章的標題。此外,該圖顯示這是唯一的此類區域。有一些分散的離群值,但只有在99.9%的分位數附近發現了維基百科詞條密度高的唯一重要區域。但在圖4(b)中,含有化學式的詞條(如BaFe2As2)的頻率相對較低(個別),但傳播分數較高,正如表2中的MgB2+和CuGeO3+所示的那樣。在99.9%的分位數上可以再次找到密度最高的區域,這與化學化合物作為物理研究的重要和有價值的實體的預期一致。

             

圖5基於APS數據集獲得的模因得分的頂級物理模因的時間歷史。時間軸按發布計數縮放。在顯示的911個時間點中,所有排名前十的模因都會顯示條形圖和標籤。灰色區域表示給定時間的第二級模因。研究發現,頂級科學模因揭示了一種劇烈的時間動態,這反映了模因對科學家關注的有限和波動資源的激烈競爭。隨著時間推移的頂級模因的時間分布可以用突發性動力學來解釋。這些爆發可能是許多科學模因受歡迎程度的快速上升和下降的反映。隨著新的科學範式的出現,舊的範式似乎很快就失去了吸引力,而且只有少數模因在很長一段時間內成功地登上了榜首。這種激烈的動態也支持這樣一種觀點,即科學範式的興衰都是由強大的自我組織原則驅動的。抽象化的科學模因類似於子女遺傳父母的習慣、性格、思想等潛在特徵。文章作者只考慮固定字符序列作為潛在的模因,但很明顯,模因不僅存在於這一較低的層次上,如果使用一些人類已有的資料庫,並通過有監督學習或強化學習的方式,研究者可以在更抽象的層次上捕捉科學模因。這種抽象化的模因可能由一組形態變體、詞的共同出現、多個模因的組合、語法結構,甚至是論證方案和修辭風格組成。

 

 

科學玩「梗」:模因(meme)如何在社交網絡中傳播?科學玩「梗」:模因(meme)如何在社交網絡中傳播?

跨越學科界限:資訊理論視角下的生命起源與進化

Paper 已經過時——計算機時代科學傳播方式的變革

加入集智,一起複雜!

 

 




集智俱樂部QQ群|877391004

商務合作及投稿轉載|swarma@swarma.org

搜索公眾號:集智俱樂部


加入「沒有圍牆的研究所」

讓蘋果砸得更猛烈些吧!

相關焦點

  • 領域大數據知識圖譜專題 《中國科學:信息科學》
    【點擊論文題目可閱讀全文】 「基於知識圖譜的推薦系統研究綜述」針對基於知識圖譜的推薦系統這一領域進行了全面的綜述。介紹了推薦系統與知識圖譜中的一些基本概念,以及現有方法如何挖掘知識圖譜不同種類的信息並應用於推薦系統。總結了相關的一系列推薦應用場景, 提出了對基於知識圖譜的推薦系統前景的看法, 展望了該領域未來的研究方向。
  • 資料|數據挖掘:概念、模型、方法和算法(第2版)/ 國外計算機科學...
    《數據挖掘:概念、模型、方法和算法(第2版)/國外計算機科學經典教材》介紹了通過分析高維數據空間中的海量原始數據來提取用於決策的新信息的尖端技術和方法。《數據挖掘:概念、模型、方法和算法(第2版)/國外計算機科學經典教材》開篇闡述數據挖掘原理,此後在示例的引導下詳細講解起源於統計學、機器學習、神經網絡、模糊邏輯和演化計算等學科的具有代表性的、前沿的挖掘方法和算法。書中還著重描述如何恰當地選擇方法和數據分析軟體併合理地調整參數。每章末尾附有複習題。
  • 《科學》論文解讀:選擇壓力如何增強蛋白質的演化能力?
    作者 | 小柯機器人瑞士蘇黎世大學Andreas Wagner研究團隊揭示了選擇如何通過突變來增強蛋白質的演化能力。2020年12月4日,國際知名學術期刊《科學》發表了這一成果。處於強烈選擇黃色表型狀態的群體向綠色表型演化最快。
  • 《Science》刊登南京大學地球科學與工程學院研究成果:大數據和...
    北京時間1月17日,國際權威期刊《Science》以研究長文的形式在線發表了南京大學和中國科學院南京地質古生物所樊雋軒教授、沈樹忠院士等的論文「Ahigh-resolution summary of Cambrian to Early Triassic marine invertebratebiodiversity
  • 論文數據丨營養科SCI論文大數據分析「2021」
    導言:2020年,我們已經對醫院的大部分科室做了大數據分析;剩下的一些科室會在2021年的上半年完成。今天發送的是營養科發表的SCI論文大數據分析;並會總結2020年中國醫院營養科發表的SCI論文數量。1,營養科論文概況營養科領域已經發表了245,351篇Medline收錄文獻。
  • 論文通訊作者等解讀《國家科學評論》相關論文
    其來源是3月3日發表於《國家科學評論》的論文《關於SARS-CoV-2的起源和持續進化》。但是,中國—世衛組織聯合考察組剛剛給出了新冠病毒未發生明顯變異的結論。《自然—微生物學》也發表了耶魯大學流行病學專家Nathan D. Grubaugh等人的評論文章,指出病毒突變符合正常流行病學規律,沒必要引起恐慌。那麼,上述論文應該如何解讀?
  • 大數據:科技傳播的靈魂
    科技傳播是人類社會科學與技術系統得以產生和存續的基本前提,是科技發展的基本條件,是科技工作者進行科學發現和技術發明的基本支持。科技傳播是包括科技、品牌推廣、大消費等多領域和社會的「血液循環系統」,是人類社會進步的階梯之一。
  • 2018年最具影響力的20篇數據科學研究論文,盤它!
    大數據文摘出品文章來源:opendatascience.com編譯:Ivy、狗小白、雲舟作為一名前半生奉獻給學術,現在投身業界的研究者,Daniel Gutierrez習慣在數據科學業內工作的同時,跟進學術界的最新動態。
  • 5篇必讀的數據科學論文(以及如何使用它們)
    這些論文所涉及的主題包括:編制數據科學工作流、輕量化神經網絡的突破、重新思考使用統計學解決問題的基本方法。對每篇論文,我都給出了將其思想應用到自己手頭工作上的一些想法。這是由谷歌研究院團隊傾情奉獻(2015年NeurIPS),當我們需要設置自己的數據科學工作流時,我們可以從該論文中學習到多個避免反模式的明確方案。
  • 口腔科SCI論文大數據分析「2021」
    導言:最近留言查找口腔科論文大數據分析的朋友特別特別多。我們之前嘗試過多次,都放棄了。因為檢索詞太多了,另外中外口腔科設置差別很大。不過,在朋友們的要求下,我們還是試試。並會總結2020年中國醫院口腔科發表的SCI論文的大致情況。
  • [學子論文]「擬社會互動」與科學傳播
    因此,一般的基於大眾媒介的科學傳播只能是儘可能在科學術語運用和大眾可接受話語之間進行平衡,其內容往往只是粗淺的介紹一些科學事實而已。 三、「@月球車玉兔」的自我形象塑造與微博互動分析 本文將從三個方面進行分析,探究「月球車玉兔」是如何營造社會交往情境並且進行「擬社會互動」,進而推進了航天知識的普及和受眾對於科學知識的興趣。
  • Arxiv網絡科學論文摘要19篇(2020-07-09)
    過濾氣泡、回聲室和強化:在選舉數據中追蹤民粹主義;數據科學與建模藝術;基於社交的實時交通檢測研究;社交媒體的自我品牌塑造和成功:來自模型競賽的定量證據;網絡上流行病傳播的雙曲模型:動力學描述和數值方法原文標題: Hyperbolic models
  • ...生物多樣性演化《Science》刊登南大地球科學與工程學院研究成果
    該研究利用古生物大數據、超算和遺傳算法等全新的方法和手段,基於化石記錄重現了生命演化歷史,改變了當前對古生代海洋生物多樣性演化的認知。   生命起源與演化是世界十大科學之謎,也是《Science》雜誌列出的125個重大科學問題之一。了解地球上生命的演化歷程,是人類了解自身由來、以及未來演化的重要手段。
  • 生物醫學工程科SCI論文大數據分析「2021」
    導言:今天和同仁們分析生物醫學工程科SCI論文的大數據分析。對於我們來說,這是一個陌生的領域,但是卻收穫了我們最大的快樂。因為發現,中國的生工竟然這麼厲害。1,生工科論文概況生工科領域已經發表了139,561篇Medline收錄文獻;其中2020年發表了20,825篇。
  • 超算揭秘古生代海洋生物多樣性演化《Science》刊登南大地球科學與...
    該研究利用古生物大數據、超算和遺傳算法等全新的方法和手段,基於化石記錄重現了生命演化歷史,改變了當前對古生代海洋生物多樣性演化的認知。   生命起源與演化是世界十大科學之謎,也是《Science》雜誌列出的125個重大科學問題之一。了解地球上生命的演化歷程,是人類了解自身由來、以及未來演化的重要手段。
  • 從微小史前蜥蜴看爬行動物演化
    》發表一篇論文 A tiny new Middle Triassic stem-lepidosauromorph from Germany: implications for the early evolution of lepidosauromorphs and the Vellberg fauna 介紹了德國發現的一個史前爬行動物新種。
  • Arxiv網絡科學論文摘要15篇(2020-09-29)
    >超越COVID-19:網絡科學和可持續退出策略;當前COVID-19大流行動態的通用描述;大流行城市的可持續開放街道規劃;COVID-19的建築物通風和其他緩解措施:以2020年冬季為重點;同時相關性和多樣性:一種新的推薦推理方法
  • 大數據和超算揭秘古生代海洋生物多樣...
    大數據和超算揭秘古生代海洋生物多樣性演化 2020-01-17 17:53 來源:澎湃新聞·澎湃號·政務
  • ...基因組數據研究登《Nature》封面!進一步揭示基因組多樣性演化...
    研究團隊發表了363種鳥類基因組數據,同時通過這一數據建立了無參考序列下多基因組比對和分析的新方法,並基於這一新方法闡明高密度物種取樣對生物多樣性研究的重要性,為深入了解基因組多樣性演化奧秘提供了契機。
  • 看病毒和人類的演化博弈!廣東科學中心科普病毒展覽15日起開放
    重新認識病毒,客觀全面了解病毒,掌握病毒防範的科學方法,對我們每個人而言都至關重要。為此,廣東科學中心結合當前疫情和公眾科普需求,自主研發《病毒——人類的敵人還是朋友?》科普主題展覽,並於5月15日面向公眾開放。