導語
僅僅通過一個指標,例如 h 指數,來衡量科學家的學術影響力,這未免是對現實複雜性的過度簡化。近日發表在 PNAS 上的新論文「科研影響力的三個維度」,通過中觀維度(Meso level)的模型,利用三個指標,分別表示學者的總產出、總影響力以及該學者的幸運程度。該模型為科學學(Science of Science)又增添了新的工具。
論文題目: Three dimensions of scientific impact 論文地址:https://www.pnas.org/content/early/2020/06/05/2001064117
現在有一對雙胞胎分別跟著不同的導師讀博士,哥哥跟著學界權威,畢業時已經發了多篇論文,各篇引用都不少;而弟弟跟著新晉導師,畢業時只完成了一篇論文,但這篇論文卻有極大潛力。那我們該如何評價兄弟兩人的學術影響力?如果按照 h 指數來看,即某個人發表了有 h 篇論文,每一篇至少被引用了至少 h 次來看,那麼哥哥的成就更大。然而這樣的評價方式,首先沒有考慮到運氣的影響,其次,忽略了富者越富的馬太效應。在學術界中,一項具有奠基性的研究,會被之後所有的相關研究引用,從而使得這樣的文章獲得大量引用。例如巴拉巴西提出 BA 模型的論文,就是網絡科學中被引用最多的論文之一。這就是在學界被廣泛證實的現象,稱之為「由過往成功帶來的成功」。相關閱讀:
什麼是無標度網絡 | 集智百科
無標度網絡模型開山之作:隨機網絡中標度的湧現
如何在對科研影響力進行評價時,同時考慮到運氣和偏好依附(Preferential attachment)的影響,是本文要解決的問題,也是其創新點所在。其文中所提及的用三個指標來評價某領域學者的科研影響力,則是該模型的副產品。
傳統上的建模,要麼是宏觀的,從統計指標出發,去找到不同指標間的相關性;要麼是微觀的,先假設產生該現象的機制,再看什麼樣的參數能夠再現出現實情況。
圖1:宏觀、中觀、微觀視角對比
在對學者影響力的建模上,宏觀視角是用來找到在不同學科中,論文發表數量和被引用數之間的統計規律;而微觀視角下研究主體變得很小,通過巴拉巴西提出的優先連接的機制,或基於主體的模型,其關注的是每篇論文的發表時間及影響力符合何種規律,而沒有觸及學者的影響力這一方面。
宏觀模型描述的是整個學科的規律,微觀模型描述的是單篇論文的引用量具有的特徵。而中觀視角,則介於宏觀與微觀之間,其研究對象的粒度,是以學者為單位的。而研究方法,則是基於對現象成因的理解,自下而上地用幾個參數,來重新發現生活中的數據所具有的特徵。
宏觀視角下,每篇論文的引用數,經排序之後,會發現其符合指數分布;但這個規律,並不適合單個科學家。採用中觀視角後,可以將每個研究者的 N 篇論文,及其各自的引用數,用更少的指標進行描述,並對每個指標給出清晰的解釋,這體現了中觀視角的優勢。
在其它類似的問題上,例如對風險投資及其成功率的建模,也可以採用中觀視角。關注各個投資機構,而不是整個行業(宏觀)或者每一筆投資(微觀)是否成功,其受到哪些因素的影響?這是該文帶給讀者方法論層面的啟發。
不同於科學學研究中常用的 APA 數據集,該文的數據來自計算機科學,稱為 DBLP。其包含 176 萬名研究者,309 萬篇論文和 2516 萬次引用關係,該資料庫還在持續更新中。
在 2020 年最新版的 DBLP 資料庫中,已包含 489 萬論文和 4556 萬次引用關係。其中包含了文章標題,摘要,年份,影響因子等諸多信息,是一份值得深挖的數據集。
資料庫中大量引用數過少的論文,會造成模型對長尾效應的過擬合。為避免上述影響,該文關注的只是 h 指數大於 5 的研究者及其發表的論文,以及這些研究者之間的引用網絡。
在建模過程中,將每名研究者的影響力,設定為 X,每發表一篇論文,就會增加X所代表的值。其中一部分來自該論文因為運氣所獲得的引用,一部分源於該論文由於之前的成功所獲得的引用,由此,可以得到下面的公式:
而從宏觀的角度來看,按照上述的規則模擬,平均來看,給定每個人的總論文數為 N,被引用數合計為 C 以及論文引用中有多少為來自隨機性的影響(用 ρ 描述,ρ 為 0 代表引用完全由於隨機影響,ρ 為 1 代表該論文的引用完全來自之前的成功)可以推出平均每個研究者預期的 X 值,為下式:
N 和 C 的值,能夠從原數據中經簡單的統計獲得。通過將所有研究者的 Xk 與X^k(N,C,ρ)的差進行整合,可以找到使兩者之差最小化的 ρ 值,由此可以使用這三個指標,來描述某個學科論文發表中所呈現的規律。
按照發表總論文數,將研究者分為 4 檔,分別觀察各檔科學家所對應的 ρ 值,可以得到下圖:
圖2:總發文數不同的作者,其引用數呈現不同的規律
圖中不同顏色的圖形,代表不同檔位的研究者,例如綠色代表總論文數在 48-52 篇之間的 2624 名研究者,橙色代表在 95-105 篇之間的 1113 名研究者。圖中的每個點代表一篇論文。橫軸是論文引用數的排名,縱軸是引用數。
該圖指出:越高產的研究者,其論文的引用數就越不平均,對應於該檔研究者中擬合的 ρ 值的平均就越大,這說明學術界存在著富者越富的情況。由於總論文數更多的作者,有更大的可能是資深研究者,而他們發表的文章引用數卻有很大差異,這意味著對於那些已經發表過爆款論文的研究者,有很大可能其最有影響力的研究已經發表。而這與之前對科研論文引用網絡進行的研究所指出的:「成功可能發生在職業生涯的任何一個階段」可以相互印證。
圖3:總產出,總引用數和 ρ 值的關係
上圖進一步,將模型中的三個參數的關係展現了出來。其中不同顏色的線代表了,該類作者中,超過 25%,50% 及 75% 的其他研究者的所對應 ρ 值,左圖橫軸為總論文數,右圖為總引用數。
有 30% 的研究者,其 ρ 值為 0,這些研究者大多處於學術生涯的早期,或者其最具影響力的文章還沒有出現,從上圖的左下角可以看出。
使用該指標,能夠更好地評價青年研究者的學術潛力。比如兩個 N 和 C 值相同的研究者,ρ 值越高,說明其研究越多地是佔坑型的(基於以前研究的擴展型),而不是原創型的。
回到本文開篇的問題,該如何評價一對跟了不同類型導師的雙胞胎博士畢業時的學術成就?用單一的指標,總會丟掉一些信息,唯有通過多個指標,才能描繪現實中的複雜性。
關於這篇論文本身的介紹,就到這裡。在研究了該文的數據集後,筆者認為,基於該數據及本文提出的模型,還可以回答如下問題:首先是不同年份的論文,其對應的平均 ρ 值是怎樣變化的?是否有一致的趨勢?如果 ρ 值越來越大,說明計算機領域真正開創性的研究越來越稀少。類似地,基於關鍵詞可以得出在不同領域,例如計算機視覺,語音識別等對應的平均 ρ 值,並以此判斷該領域的原創程度。其次可以看到,處於不同階段的平均 ρ 值不同的研究者,其科研合作呈現怎樣的特徵。是不是越是資深研究者的論文,就越有可能是來自大團隊,由多名作者合作完成?而那些青年研究者,是否更有可能在小團隊中,能夠獲得更好的訓練,從而在未來更加成功?
最後,在微觀的層面看,論文的題目和文章的原創性有沒有關係?例如是不是題目越短的論文,其原創性越強?還可以根據題目中 review、survey 等關鍵詞找出綜述類文章。並比較綜述類文章的引用量,是否總是顯著地高於該學者論文的平均引用量?這些問題,也可以基於該文的數據進行研究。
作者:郭瑞東
審校:劉華林、曾祥軒
編輯:張爽