「著名科學家」的門檻是什麼?高產、高被引、好運氣一個都不能少

2020-08-28 集智俱樂部


導語

僅僅通過一個指標,例如 h 指數,來衡量科學家的學術影響力,這未免是對現實複雜性的過度簡化。近日發表在 PNAS 上的新論文「科研影響力的三個維度」,通過中觀維度(Meso level)的模型,利用三個指標,分別表示學者的總產出、總影響力以及該學者的幸運程度。該模型為科學學(Science of Science)又增添了新的工具。

論文題目: Three dimensions of scientific impact 論文地址:https://www.pnas.org/content/early/2020/06/05/2001064117

1. 如何評價學術影響力

現在有一對雙胞胎分別跟著不同的導師讀博士,哥哥跟著學界權威,畢業時已經發了多篇論文,各篇引用都不少;而弟弟跟著新晉導師,畢業時只完成了一篇論文,但這篇論文卻有極大潛力。那我們該如何評價兄弟兩人的學術影響力?如果按照 h 指數來看,即某個人發表了有 h 篇論文,每一篇至少被引用了至少 h 次來看,那麼哥哥的成就更大。然而這樣的評價方式,首先沒有考慮到運氣的影響,其次,忽略了富者越富的馬太效應。在學術界中,一項具有奠基性的研究,會被之後所有的相關研究引用,從而使得這樣的文章獲得大量引用。例如巴拉巴西提出 BA 模型的論文,就是網絡科學中被引用最多的論文之一。這就是在學界被廣泛證實的現象,稱之為「由過往成功帶來的成功」。相關閱讀:

什麼是無標度網絡 | 集智百科

無標度網絡模型開山之作:隨機網絡中標度的湧現

如何在對科研影響力進行評價時,同時考慮到運氣和偏好依附(Preferential attachment)的影響,是本文要解決的問題,也是其創新點所在。其文中所提及的用三個指標來評價某領域學者的科研影響力,則是該模型的副產品。

2. 中觀視角,描述複雜問題的新方法

傳統上的建模,要麼是宏觀的,從統計指標出發,去找到不同指標間的相關性;要麼是微觀的,先假設產生該現象的機制,再看什麼樣的參數能夠再現出現實情況。

圖1:宏觀、中觀、微觀視角對比

在對學者影響力的建模上,宏觀視角是用來找到在不同學科中,論文發表數量和被引用數之間的統計規律;而微觀視角下研究主體變得很小,通過巴拉巴西提出的優先連接的機制,或基於主體的模型,其關注的是每篇論文的發表時間及影響力符合何種規律,而沒有觸及學者的影響力這一方面。

宏觀模型描述的是整個學科的規律,微觀模型描述的是單篇論文的引用量具有的特徵。而中觀視角,則介於宏觀與微觀之間,其研究對象的粒度,是以學者為單位的。而研究方法,則是基於對現象成因的理解,自下而上地用幾個參數,來重新發現生活中的數據所具有的特徵。

宏觀視角下,每篇論文的引用數,經排序之後,會發現其符合指數分布;但這個規律,並不適合單個科學家。採用中觀視角後,可以將每個研究者的 N 篇論文,及其各自的引用數,用更少的指標進行描述,並對每個指標給出清晰的解釋,這體現了中觀視角的優勢。

在其它類似的問題上,例如對風險投資及其成功率的建模,也可以採用中觀視角。關注各個投資機構,而不是整個行業(宏觀)或者每一筆投資(微觀)是否成功,其受到哪些因素的影響?這是該文帶給讀者方法論層面的啟發。

3. 模型中的三個組成項及其意義

不同於科學學研究中常用的 APA 數據集,該文的數據來自計算機科學,稱為 DBLP。其包含 176 萬名研究者,309 萬篇論文和 2516 萬次引用關係,該資料庫還在持續更新中。

在 2020 年最新版的 DBLP 資料庫中,已包含 489 萬論文和 4556 萬次引用關係。其中包含了文章標題,摘要,年份,影響因子等諸多信息,是一份值得深挖的數據集。

資料庫中大量引用數過少的論文,會造成模型對長尾效應的過擬合。為避免上述影響,該文關注的只是 h 指數大於 5 的研究者及其發表的論文,以及這些研究者之間的引用網絡。

在建模過程中,將每名研究者的影響力,設定為 X,每發表一篇論文,就會增加X所代表的值。其中一部分來自該論文因為運氣所獲得的引用,一部分源於該論文由於之前的成功所獲得的引用,由此,可以得到下面的公式:

而從宏觀的角度來看,按照上述的規則模擬,平均來看,給定每個人的總論文數為 N,被引用數合計為 C 以及論文引用中有多少為來自隨機性的影響(用 ρ 描述,ρ 為 0 代表引用完全由於隨機影響,ρ 為 1 代表該論文的引用完全來自之前的成功)可以推出平均每個研究者預期的 X 值,為下式:

N 和 C 的值,能夠從原數據中經簡單的統計獲得。通過將所有研究者的 Xk 與X^k(N,C,ρ)的差進行整合,可以找到使兩者之差最小化的 ρ 值,由此可以使用這三個指標,來描述某個學科論文發表中所呈現的規律。

4. 越成功的研究者,其受隨機性的影響越低

按照發表總論文數,將研究者分為 4 檔,分別觀察各檔科學家所對應的 ρ 值,可以得到下圖:

圖2:總發文數不同的作者,其引用數呈現不同的規律

圖中不同顏色的圖形,代表不同檔位的研究者,例如綠色代表總論文數在 48-52 篇之間的 2624 名研究者,橙色代表在 95-105 篇之間的 1113 名研究者。圖中的每個點代表一篇論文。橫軸是論文引用數的排名,縱軸是引用數。

該圖指出:越高產的研究者,其論文的引用數就越不平均,對應於該檔研究者中擬合的 ρ 值的平均就越大,這說明學術界存在著富者越富的情況。由於總論文數更多的作者,有更大的可能是資深研究者,而他們發表的文章引用數卻有很大差異,這意味著對於那些已經發表過爆款論文的研究者,有很大可能其最有影響力的研究已經發表。而這與之前對科研論文引用網絡進行的研究所指出的:「成功可能發生在職業生涯的任何一個階段」可以相互印證。

圖3:總產出,總引用數和 ρ 值的關係

上圖進一步,將模型中的三個參數的關係展現了出來。其中不同顏色的線代表了,該類作者中,超過 25%,50% 及 75% 的其他研究者的所對應 ρ 值,左圖橫軸為總論文數,右圖為總引用數。

有 30% 的研究者,其 ρ 值為 0,這些研究者大多處於學術生涯的早期,或者其最具影響力的文章還沒有出現,從上圖的左下角可以看出。

使用該指標,能夠更好地評價青年研究者的學術潛力。比如兩個 N 和 C 值相同的研究者,ρ 值越高,說明其研究越多地是佔坑型的(基於以前研究的擴展型),而不是原創型的。

回到本文開篇的問題,該如何評價一對跟了不同類型導師的雙胞胎博士畢業時的學術成就?用單一的指標,總會丟掉一些信息,唯有通過多個指標,才能描繪現實中的複雜性。

5. 未來的研究方向展望

關於這篇論文本身的介紹,就到這裡。在研究了該文的數據集後,筆者認為,基於該數據及本文提出的模型,還可以回答如下問題:首先是不同年份的論文,其對應的平均 ρ 值是怎樣變化的?是否有一致的趨勢?如果 ρ 值越來越大,說明計算機領域真正開創性的研究越來越稀少。類似地,基於關鍵詞可以得出在不同領域,例如計算機視覺,語音識別等對應的平均 ρ 值,並以此判斷該領域的原創程度。其次可以看到,處於不同階段的平均 ρ 值不同的研究者,其科研合作呈現怎樣的特徵。是不是越是資深研究者的論文,就越有可能是來自大團隊,由多名作者合作完成?而那些青年研究者,是否更有可能在小團隊中,能夠獲得更好的訓練,從而在未來更加成功?

最後,在微觀的層面看,論文的題目和文章的原創性有沒有關係?例如是不是題目越短的論文,其原創性越強?還可以根據題目中 review、survey 等關鍵詞找出綜述類文章。並比較綜述類文章的引用量,是否總是顯著地高於該學者論文的平均引用量?這些問題,也可以基於該文的數據進行研究。

作者:郭瑞東

審校:劉華林、曾祥軒

編輯:張爽

相關焦點

  • 2019全球園藝學高被引論文及高產作者排名
    本次發布的是園藝學高被引論文和高產作者,令人疑惑的是一些論文是水稻和玉米的,也出現在列表中。一些高產作者從沒發表過園藝作物的論文竟然也出現在名單中。因此這個表單僅供參考了!Web of Science核心合集收錄的2014-2018年的SCI和SSCI論文數據,檢索時間為2019年9月。
  • 佛山科學技術學院王海龍教授入選2020年全球高被引科學家名單!
    11月18日,科睿唯安發布了2020年「高被引科學家」名單,全球60多個國家的6167位來自各領域的高被引科學家入榜。 佛山科學技術學院環境與化學工程學院教授、博士生導師王海龍入選環境與生態領域名單,這也是佛山科學技術學院學者首次入選全球高被引科學家榜單,說明我校相關研究具有一定的國際影響力,必將推進相關領域研究走向長足發展,推動學校高水平理工科大學建設取得新突破。
  • 【新華網】科學家找到一個關鍵基因 或可幫助水稻實現「低肥高產...
    【新華網】科學家找到一個關鍵基因 或可幫助水稻實現「低肥高產」 2021-01-08 新華網 董瑞豐 【字體:大 中 小】
  • 景陶大肖絢教授入選2018年「高被引科學家」榜單
    本報訊 為加速科學發現和創新提供高質量數據及分析服務的全球領導者——科睿唯安日前於美國費城發布了2018年度「高被引科學家」榜單,景德鎮陶瓷大學肖絢教授入選生物與生物化學領域高被引科學家,這也是該校首次有人入選。
  • 什麼是ESI高被引?你發表的論文離高被引還有多遠?
    文 / 鐵非(看學界風雲激蕩 與諸君共賦流觴)從今天(2020.08.12)開始,學之策將推出ESI專題,主要關注高被引論文、熱點論文的相關信息和解讀,也會涉及一些高被引科學家、ESI學科等方面的內容,歡迎關注。
  • 全球高被引學者,著名華人科學家強制他人引用自己論文,數量嘆為觀止
    近日,Nature雜誌官網報導,全球論文被引用量最高的科學之一,著名生物物理學家周國城(Kuo-Chen Chou),因操縱同行評審過程以提高自己論文被引用量,而被一本學術期刊編委會除名,並被禁止擔任另一本期刊的審稿人。
  • 科學家找到一個關鍵基因 或可幫助水稻實現「低肥高產」
    新華社北京1月7日電(記者董瑞豐)我國科學家最新研究發現,一個名為OsTCP19的基因在減氮情況下可以提高水稻氮肥利用效率20%至30%,或將幫助改良水稻品種,實現少施肥、高產量的目標。該成果北京時間7日由國際知名學術刊物《自然》發布。
  • 2020年度「高被引科學家」名單出爐,中國科學家已佔12%
    全球專業信息服務提供商科睿唯安今天發布2020年度高被引科學家名單,還對入選科學家所在的國家和研究機構的分布進行了統計。「高被引科學家」名單根據2009年1月至2019年12月的11年期間所發表的高被引論文數量,從自然科學和社會科學的21個領域以及跨學科中遴選出6000多名科學家。
  • 2020年度「高被引科學家」名單出爐,中國科學家已佔12%
    「高被引科學家」名單根據2009年1月至2019年12月的11年期間所發表的高被引論文數量,從自然科學和社會科學的21個領域以及跨學科中遴選出6000多名科學家。入榜科學家在過去十年間均發表了多篇高被引論文,被引頻次在WebofScience中位於同學科的前1%,彰顯了他們在同行中的重要學術影響力。(注:WebofScience是全球最大的非出版機構引文索引資料庫。)
  • 2020全球高被引科學家出爐!中科院、清華躋身總數前十
    在11月18日科睿唯安(clarivate)發布的「2020年高被引科學家名單」中,美國再次蟬聯第一,共有2650名科學家上榜,佔比達到41.5%,依舊處於壟斷地位;中國內地(除中國臺灣、中國香港、中國澳門外)自2019年首次超過英國後,本次依舊位居次席,共有770名科學家上榜,佔比12.1%,且每年都在高速增長中;英國本次位居第三,共有514名科學家上榜,佔比
  • 2020年"高被引科學家"名單重磅曝光!這些中國學者"強勢登榜"!
    11月18日,全球領先的專業信息服務提供商——科睿唯安發布了2020年"高被引科學家"名單。華東理工大學7人次入選,入選人次數量位居中國內地高校第23位。在一定時期內,某一位科學家所發表的論文在全球範圍內被引用的頻次很高
  • 清華大學55人次入選全球高被引科學家榜單,第一已為美國外籍院士
    11月18日,全球專業信息服務提供商科睿唯安發布了2020年「高被引科學家」名單,全球60個國家的6167人次來自各領域的高被引科學家入榜。值得一提的是,在本次全球「高被引科學家」榜單中,中國內地上榜人數又一次實現了激增,入選科學家從2019年的636人次(佔比10.2%)上升到今年的770人次(佔比12.1%),位居全球第二名。在中國內地上榜科學家中,有621人次來自全國的123所高校。其中,清華大學入選榜單科學家人次位居首位,達到了55人次。
  • 全球"高被引科學家"名單曝光,這些中國學者強勢上榜!
    近日,科睿唯安公布了2020年度"高被引科學家"名單,全球60 多個國家的6167位來自各領域的高被引科學家入榜。吉林大學物理學院馬琰銘教授(物理學),化學學院董慶鋒教授(交叉學科領域)、楊柏教授(交叉學科領域)、朱守俊教授(交叉學科領域),材料科學與工程學院鄢俊敏教授(交叉學科領域)5人入選。
  • 微信公眾號賺錢取決於粉絲數量,粉絲質量一個都不能少!
    微信公眾號賺錢取決於粉絲數量,粉絲質量一個都不能少! 微信公眾號1萬粉絲多不多?獲取粉絲的成本越來越高,導致微信公眾號粉絲價格居高不下。但是,目前出現一個新趨勢,不再只是簡單的討論粉絲的數量,粉絲質量越來越被重視。如果粉絲只是關注一個公眾號獲取資訊,但是毫無消費的可能,那變現就不可能實現了。只要粉絲能在運營者的引導下,對營銷不排斥,對一些產品服務有興趣,那麼就有變現的可能。因此粉絲數量不在多而在精,已經成為了越來越多公眾號運營者的共識。那麼如何看粉絲質量?
  • 通靈珠寶以舊換新門檻高 消費者知情權遭侵犯?
    近日,據蕭山日報報導蕭山的項女士因為通靈珠寶以舊換新的門檻高傷了腦筋,通靈珠寶店員表示,「以舊換新須選擇高於原來買入飾品1500元以上的產品才可以。」  項女士稱,「店員最初沒說清楚,才導致了這一局面,首飾不是白菜,價格不菲,這些老款我留著不能戴,新的又捨不得換,太尷尬了。」
  • 著名科學家袁隆平:「把中國人的飯碗牢牢端在自己手中」
    ,即變成雄性可育了,長得比父母都要健壯,並且高產優質。中國多一點糧食不怕,若少一點糧食,你試試看!關鍵時刻,一粒小小的糧食,影響巨大。這個對我們來講是一個重要的任務。我們搞農業的,搞糧食生產的,一定要為保障國家糧食安全盡我們的努力。  過去認為,產量高的米質不好,米質好的產量不高,這是片面的。我們在進入新世紀的時候就做了戰略調整,要高產優質。
  • 常大包伯成教授入選全球高被引科學家榜單
    」這是我校教師首次入選全球高被引科學家榜單如果某位科學家的論文被引用的次數很多,就叫「高被引科學家」。2020年,有來自全球60多個國家和地區的6167人入選高被引科學家名單,其中,中國內地共770人入選。
  • 7位塔大海洋與農業科學家榮登全球「高被引科學家」榜單
    「高被引科學家」(highly sited researchers)名單一直備受期待,這份名單是對在過去十年中通過發表多篇頻繁被業界引用論文而被予以高度肯定科學家的認可。這些科學家的論文在Web of Science 領域和年份引文中均名列前1%,研究成果不僅受到了同行的認可,也為相關領域做出了突出貢獻。
  • 實用英語口語:「一個都不能少」怎麼說
    電影《一個都不能少》以其催人淚下的故事反映了我國教育事業在特定歷史時期面臨的困境,以極強的感染力感動了觀眾。從此以後,「一個都不能少」成了一個使用頻率非常高的詞,被應用於各種場合,在百度輸入「一個都不能少」檢索,有250萬個相關網頁之多。
  • 袁隆平水稻新品種為何早熟又高產?科學家挖掘出一個重要基因
    水稻如何能既早熟又高產?我國多個科研團隊合作發現,一個名為Ef-cd的基因可將水稻成熟期提早7天至20天,不造成產量損失甚至具有不同程度的增產效果。挖掘和利用該基因,將有力促進綠色超級稻品種培育的減肥增效需求。該研究成果8月27日在線發表於知名學術期刊《美國科學院院刊》。