105萬篇博士論文數據,勾畫學術界30年的知識變遷

2021-01-19 澎湃新聞

原創 趙子鳴 集智俱樂部

導語

越來越頻繁的跨學科研究是過去數十年各個學科發展的特徵,如何刻畫學科之間的相互影響、刻畫整個學術界的知識變遷成為重要問題。在近日的一篇預印本論文中,來自谷歌的研究員對 1980-2010 年間美國 157 所高校的 105 萬篇博士畢業論文進行了文本分析,構建了這 30 年間的學科交流網絡,量化了學科間的交流和各學科的發展趨勢。

關於科學學的研究最早使用的社會科學領域的傳統方法,包括文獻綜述( literature reviews),專家訪談(expert interviews)和調查(surveys)等。然而,傳統方法更注重針對單個或多個領域的詳盡研究,並不能直接分析整個學術領域的所有學科。近年來,出現了基於複雜網絡分析方法的科學學研究,主要依據文章引用關係、作者合作關係等建立網絡,但這種方法僅限於學術空間中的正式關聯(formal linkages),不考慮學科之間的非正式交流,大量真實存在的學術隱藏結構被忽略。

最近,在 arXiv.org 上刊登了谷歌研究員 Daniel Rammage 博士的一篇文章《Mapping Three Decades of Intellectual Change in Academia》,基於 1980 年至 2010 年間美國 157 所研究密集型高校的 105 萬篇博士畢業論文摘要數據,通過使用統計文本模型(PLDA算法),並提出淨資源得分(Net Source Scores)來量化 30 年內的學科交流與學科發展,對於科研資金的分配具有一定的借鑑意義。

論文題目:

Mapping Three Decades of Intellectual Change in Academia

論文地址:

https://arxiv.org/abs/2004.01291

構建基於學科術語的學術空間

圖1:學科交叉網絡

圖 1 展示了 1980-2010 年間的學科交叉網絡,共分為六個大的研究領域:工程(Engineering)、物理和數學科學(Physical and Mathematical Sciences)、生物科學(Biological Sciences)、地球和農業科學(Earth and Agricultural Sciences)、社會科學(Social Sciences)、人文科學(Humanities)。其中STEM相關學科分布在圓圈的右側(S:Science 科學;T:Technology 科技;E:Engineering 工程;M:Mathematics 數學)。各研究領域又細分為若干學科,各個研究領域及學科所佔的弧度大小與論文總數成正比。

對於每個學科來說,研究過程中常常會使用其他學科的知識,同時也會促進其他學科的研究。因此,文章通過連邊來刻畫學科間的這種關係。對於學科 A 與學科 B,學科A的所有論文中使用了的學科B的專業術語數為α,學科B的所有論文中使用了的學科A的專業術語數為 β,學科 A 與學科 B 之間的連邊粗細刻畫了 |α-β| 的大小,當α-β>0,類比貿易網絡,我們稱學科 B 為淨出口學科,學科A為淨進口學科,連邊顏色為淨出口學科B的顏色,否則為學科 A 的顏色。其中,大領域內的學科交叉連邊被畫在圓外,跨學科領域的學科交叉被畫在圓內。

我們還可以發現,STEM 學科與人文學科存在顯著的分界線,很少有文章能跨越這個鴻溝。

學科知識的交叉

具有顯著的非對稱性

圖2:學科間專業術語使用的不對稱性

圖 2(A)展示了 兩條曲線分別在計算機科學(Computer Science)學科的所有專業術語中,關於遺傳學和基因組學(Genetics and Genomics)的專業術語比例(藍色);在遺傳學和基因組學學科的所有專業術語中,關於計算機科學的專業術語比例(紫色),其中誤差棒(Error Bar)表示為陰影部分。

圖3:學科交叉與計算生物學的興起

從圖中可以看出,模型可以清晰的展示新興跨領域的學科形成過程。如圖2(A) 所示,計算生物學Computational Biology(藍色)與生物計算Bio-computation(紫色)是在同一時間興起的兩個新興學科,由於學科交叉活動是有方向性的,從遺傳學和基因組學的論文中獲取計算機科學專業術語的百分比與從計算機科學的論文中獲取遺傳學和基因組學專業術語的百分比存在顯著差異。

專業術語比例的差異性不僅體現在同時興起的兩個對稱的交叉學科中,還在各個學科間普遍存在。如圖2(B) 所示, 兩條曲線分別展示了在生態學和進化生物學(Ecology and Evolutionary Biology)學科的所有專業術語中,關於環境科學(Environmental Science)的專業術語比例(綠色);在環境科學學科的所有專業術語中,關於生態學和進化生物學的專業術語比例(紫色),其中誤差棒表示為陰影部分。

圖4:基礎學科與前沿學科的交叉示意圖,以生態學、進化生物學與環境學為例

從圖中可以很明顯的看出從生態學和進化生物學的論文中獲取環境科學專業術語的百分比顯然高於從環境科學的論文中獲取生態學和進化生物學專業術語的百分比,生態學和進化生物學對環境科學的影響顯然是更大的,生態學和進化生物學可以看做是環境科學的基礎學科。

事實上,專業術語比例的不對稱性比比皆是,學科間的差異性是非常顯著的。存在很多基礎學科,在整個學術空間中扮演學術語言創造者的角色。如社會學(Sociology)對於社會科學(Social Sciences)來說是基礎學科,生態學和進化生物學對於地球與農業科學來說是基礎學科。

學科特色與學科發展

現在我們已經發現在學術空間中不同學科間差異性顯著,為了從學科交叉的角度更好的發現學科特色,文章提出了淨資源得分這一指標。

淨資源得分(Net Source Scores)

對於學科 A 和學科 B,比較學科 A 論文中使用學科 B 的專業術語數 α 與學科 B 論文中使用學科 A 的專業術語數 β,如果α>β,即學科 B 為淨出口學科,學科 A 為淨進口學科,則學科 B 的淨資源得分+1,學科A的淨資源得分-1。所有學科之間兩兩比較,淨出口次數與淨進口次數之差即為學科的淨資源得分,記為 S,淨資源得分刻畫了學科的相對影響力大小。

圖5:從淨資源得分看學科特色

如圖 5 所示,y軸為淨資源得分。其中,A 圖展示了不同領域淨資源得分隨時間的變化,淨資源得分越高,學科相對影響力越大。從圖中可以看出工程領域的影響力顯著增強,特別是其中計算機科學的學科影響力顯著提高,而化學工程(Chemical Engineering)的影響力有所下降。其他領域中數學(Mathematics)、動物科學(Animal Science)、微生物學(Microbiology)的學科影響力有所減弱。

圖 B 列出了圖A中高亮散點的詳細信息。在圖 B 中,每個學科的論文數量作為學科規模(x),每條折線代表一個學科的影響力發展軌跡,折線上的七個點分別表示該學科在1980年、1985年、1990年、1995年、2000年、2005年、2010年時的淨資源得分(S)及學科規模(x)。其中,棕色的線是數學;人文學科的紅線是哲學(Philosophy)、性別和種族研究(Gender & Ethnic Studies);藍色的線是計算機科學,紫色的線是生態學和進化生物學和微生物學,綠色的線是動物科學。

特點

老牌學科

新興代表學科

淨出口學科

概念性、方法性學科

數學、哲學

計算機科學、統計學

淨進口學科

應用性、主題性學科

語言學

性別與種族研究、健康科學

從學科影響力角度來看,數學、哲學、計算機科學和統計學(Statistics)等方法類學科具有很高的淨資源得分,而動物科學、微生物學等應用類學科淨資源得分為負值。結合更多研究數字,文章還指出數學(S=32)和哲學(S=54)被稱為「根源學科(Root Disciplines)」,代表了一種基本的知識形式,過去很長一段時間具有很高的而影響力。然而,隨著大數據時代的來臨,數據驅動的計算機科學(S=55)和統計學(S=54)等數據驅動的方法類學科正在扮演著越來越重要的地位。

從學科規模的角度來看,人文領域如古典文學Classics(S=-23)和語言學Languages (S=-19);地球和農業科學(平均S=-25.9);生物科學(平均S=-13)等應用性、主題性較強的學科雖然淨資源得分為負值,但學科規模有顯著的提升。特別是在過去的幾十年裡,生物科學領域的論文數量翻了三倍,從20世紀80年代的每年大約 2000 篇論文到 21 世紀前十年的每年 6500 多篇論文,發展非常迅速。

此外,我們還注意到性別和種族研究在過去30年中,無論從學科影響力,還是學科規模來說發展的是顯著而迅速的。

生物健康領域:學科影響的逆轉式變革

圖6:生物科學、健康科學、地球與農業科學領域的發展

圖 6 展示了在 20 世紀 80 年代和 21 世紀前十年間,生物科學(紫色)、健康科學 Health Sciences(金色)和地球與農業科學(綠色)的學科影響力。第 i 行第 j 列的圓點大小,代表了第 i 個學科的論文中有多少專業術語來自於學科 j 。從圖中可以看出,在1980s,地球與農業科學顯著依賴於生物科學,特別是生態學和進化生物學,然而到了 2000s 卻恰恰相反,生態學和進化生物學的研究中發量出現來自地球與農業科學領域的專業術語。此外,相對於動物科學,地球與農業科學對於健康科學的影響更加顯著。生物科學領域內部聯繫更加緊密。

人文社科領域:性別和種族研究的崛起

圖7:社會科學與人文科學的領域的發展

圖 7 展示了在 20 世紀 80 年代和 21 世紀前十年間,社會科學(橙色)與人文科學(紅色)的學科影響力。第 i 行第 j 列的圓點大小,代表了第 i 個學科的論文中有多少專業術語來自於學科 j 。從圖中可以看出,性別與種族研究再 30 年間發展迅速,幾乎滲透到人文社科的各個領域。此外,隨著性別和種族研究的興起,哲學在規模上有所下降,但其相對影響力卻沒有下降,仍然是一個強大根源學科。

從細分學科變化看生物領域分裂

圖8:六個學科近30年的學科發展

圖 8 展示了生物科學(紫色)、健康科學(金色)、地球與農業科學(綠色)、人文科學(紅色)、社會科學(橙色)、其他領域(灰色)領域的專業術語在給的六個學科(微生物學、生態學和進化生物學、哲學、生理學和細胞生物學、遺傳學和基因組學、性別和種族研究)論文中所佔的比例隨時間的變化。

從圖中可以看出微生物學在 1980s 發展迅速,但到了 1990s 微生物學相對於還原主義學科(遺傳學和基因組學以及生理學和細胞生物學)影響力顯著下降。圖6同樣證明了,現在生物學的大部分領域都與還原論方法和在醫學上的應用有關,而生態學和進化生物學幾乎已經分裂成新興的環境科學,在地球和農業科學上都有應用和影響。

作為圖 7 的補充,圖 8 中右側的兩幅圖證明了性別與種族研究發展迅速,而根源學科哲學的已經處於相對穩定的狀態。

方法:PLDA算法

PLDA(Partially Labeled Dirichlet Allocation)算法,是一種基於主題模型的貝葉斯統計(Bayesian Statistics)文本挖掘方法,刻畫了單詞、文檔和標籤之間的關係,其核心假設是每個學科只對應一個標籤,論文的標籤決定了論文的學科屬性,學科屬性生成了論文的專業術語。

文章通過使用 PLDA 算法,將每篇論文摘要中的單詞與最相似的學科標籤相關聯。這個過程分為兩步:學習和推理( Learning and Inference)。首先,利用專業術語和學科標籤之間的聯繫來學習屬於各個學科的專業術語。其次,重新檢查每篇論文,推斷摘要中的每個單詞可能屬於其他學科的概率。

在學習階段,通過考察各學科名稱和專業術語在相應的摘要中同時出現的現象,建立各學科的語言模型。對於一篇具有多個標籤的文章摘要,我們無法判斷哪些詞屬於哪個學科標籤。但是,基於整個論文數據集中單詞和標籤的分布,我們可以從統計上判斷,「基因組(genome)」和「序列(sequence)」等詞更有可能同時出現在遺傳學和基因組學文檔中,而「算法(algorithm)」和「複雜性(complexity)」等詞則更有可能出現在計算機科學中。因此,我們可以確定在一篇被標記為計算機科學和遺傳學&基因組學的論文中,哪些詞更好地歸屬於每個標記。

在推理階段, 基於一種上下文敏感的軟聚類方法:一個像序列這樣的詞既屬於數學,也屬於基因組學,它的一個實例可能屬於一個領域,也可能同時屬於兩個領域,具體取決於摘要中的其他詞。

數據:博士學位論文摘要數據

文章研究所用的數據來源於美國 ProQuest 維護的UMl資料庫中的博士學位論文。每篇論文包含一個標題,摘要,作者,導師,日期,主題代碼和關鍵詞。研究所用的數據包含了自 1980 年到 2010 年 157 所科研密集型高校提交的 105 萬篇博士畢業論文摘要,摘要平均包含 179 個單詞,共涉及268個主題代碼。此外,主題代碼本身存在分布不均勻的問題,例如物理學領域細分為13個學科代碼,共計 52,432 篇學位論文;而計算機科學,只有兩個學科代碼,包含41,605篇學位論文。特別說明,文章研究中未考慮四個主要面向專業培訓的領域——教育、商業、法律、健康與醫學科學。

總結

文章基於 1980-2010 年論文摘要文本的統計模型,首次揭示了學術學科之間隱藏的關係以及它們在過去三十年中的變化。研究結果包括準確識別廣泛出口學科專業術語的方法學領域、大量進口學科專業術語的主題領域,數學、哲學等學術根源領域以及近年來快速崛起的計算機科學、統計學及生物健康學科。文章創新性的提出淨資源得分指標來量化學科之間的影響,對於監測學科動態,有效分配科研資金、調整國家的學科資助方向及力度具有重要借鑑意義。

作者:趙子鳴

審校:劉培源

編輯:張爽

搜索公眾號:集智俱樂部

加入「沒有圍牆的研究所」

讓蘋果砸得更猛烈些吧!

原標題:《105萬篇博士論文數據,勾畫學術界30年的知識變遷》

閱讀原文

相關焦點

  • 杜維明講述美國學術界:只有最優秀的博士,才能擠入講師之林
    本文原載於《東海文學》12期(1967年2月) 轉自:高校人文界 哲學園鳴謝 從博士到教授 ——漫談美國的學術界
  • 蔡省長的博士論文竟有444個錯字
    臺灣地區領導人蔡英文的博士論文有什麼問題?臺灣政治大學國關中心研究員嚴震生今天表示,他仔細看了蔡的博士論文,發現444個錯字,而且美式英文、英式英文並用,因為這篇論文,學術界開始懷疑英國及倫敦政經學院授予博士學位有何公正性?
  • 揭秘學術界論文掛名亂象:夫妻店型、剝削型、抱大腿型
    昨天,科學網公號推送了《「送」5篇SCI論文,意味著什麼?》一文。有讀者提出疑問:如何判定男主「送」了女主論文?這便牽扯到學術界的一大痛點:論文掛名亂象。針對昨天的文章,讀者也發表了很多看法:大老墨: 「寫論文掛名、送論文不是啥稀罕事吧。
  • 起底SCI論文小鋪:買賣論文何以十年不倒,牟利數百萬?
    他自稱讀博期間,他完成的論文數量達到兩位數,全部為英文SCI。11年前博士畢業時,「論文寫手」做了大量實驗,積累了一些實驗數據。一次偶然機會,「論文寫手」獲得了每年回母校做短期研究的機會,繼續做實驗,積累實驗數據。他說,做一篇文章需要什麼數據,篇幅是多大,可能需要補做什麼實驗,無一例外他都進行了統籌安排。
  • 國內高校SCI論文數排名,國科大第一,清華北大屈居第四和第五
    SCI雜誌的收錄數據顯示,中國大學的學術論文數量仍居世界第二位,僅次於美國的國內排名第一位是中國科學院大學,即國科大學。到今年為止,在科學引用文獻索引SCI中收錄的中國論文連續10年位居世界第二,佔世界份額的17.1%,比去年上升了0.8個百分點,比如2016年,SCI資料庫的世界科學技術論文總數為189.67萬篇,比2015年增加了4.4,收錄了中國科學技術論文32.42萬篇,前五位分別是美國、中國、英國、德國和日本,美國收錄了50.25萬篇論文,是中國的1.5倍,其中,中國科研人員發表了第一作者29.06萬篇SCI
  • 真演員假博士:博士和博士後的關係、區別!
    翟天臨,學霸演員,因為「北大博士後錄用通知書」和一句「不知道知網是什麼東西」遭學術界質疑、網友深挖。一時間由於涉嫌學歷造假牽涉的誠信問題、人設問題引起熱議。敏感字眼「博士」、「博士後」、「北大」。一,博士和博士後的關係、區別。
  • 那個選擇休學創業的清華博士,被人質疑從未發表過高質量論文……
    博士期間休學創業,搖身變為科普網紅。 「你從小到大都是學霸嗎?」 「學神。從小到大都是學神。」畢導非常迅速地糾正道。 高質量的論文並不能作為衡量學神的標準,甚至不能作為衡量一個人學術能力的唯一標準。當畢導休學創業,站在自媒體風口做科普的時候,論文對他已然不再重要。
  • 「論文小鋪」網上賣SCI論文百餘篇,店主稱「不違法」
    「論文寫手」在論文小鋪上兜售論文。網頁截圖10年前,記者曾以《房奴博士一年賣8篇SCI論文》為題,揭露一名工作在上海的博士生網上售賣論文事件。10年後,當年30歲的「房奴博士」已變身為40歲的「論文寫手」,不變的是他在網上開設的「SCI論文小鋪」仍在開張,廣告中還特意突出「十年老店」的標籤。
  • 攻讀博士學位:出自美國博士的研究論文26條心經
    在我國,2016年招收博士生的人數已經超過7萬,畢業博士生人數也有5萬。可見,越來越多的學生加入了攻讀博士學位的潮流之中。顯然,依據我國社會經濟發展的需求,這種趨勢還將進一步持續和增強。近幾年來,在我國高等教育界又出現了近半數博士生延期畢業的狀況。因而,如何幫助博士生按期完成學業成為了一個值得探討的問題。
  • 管理學院2021年博士研究生招生申請考核制實施方案
    為進一步深化博士研究生招生制度改革,建立科學有效的優秀生源甄別選拔機制,加強對考生專業基礎知識、科研能力及發展潛能的考核,保障博士研究生指導教師在博士生招生選拔過程中的權利,提高博士研究生生源質量,管理學院特制訂本實施方案。
  • 2017年最受全球媒體關注的百篇論文,7篇有中國學者參與
    「Nature自然科研」微信公號12月14日消息,關心科研的不只有學術界,大眾通過媒體和社交媒體也會關注最新的科學研究。截止到今年11月15日,Altmetric統計了過去一年中產出的超過220萬篇科學論文的1850萬次曝光和非學術論文類引用,整理並公布了2017年的論文Altmetric指數百強榜單,列出了那些在社會公共領域引起最強烈關注或討論的科學研究。
  • 【韓春雨撤稿】數據已經說話,生物學家們怎麼說?
    大連理工大學生命科學與技術學院教授修志龍:「韓春雨博士在無法提供足夠數據支撐自己的觀點、解答別人疑問的情況下自動撤稿是明智的,也是符合學術論文發表程序的。」2.提供優化的方案?在撤稿聲明的最後,韓春雨等人表示:會繼續調查原因,以提供一個優化的實驗方案。對於這樣一句話,我們該如何理解?
  • 博士生發2篇論文申請博士學位遭拒起訴母校,該案正在審理
    當記者問及是否有學院級別的與學校規定有所不同的博士學位授予要求時,該工作人員表示對此並不清楚。  2019年3月18日,上海大學2014級博士研究生柴麗傑向浦東新區人民法院提起行政訴訟。澎湃新聞記者從該行政起訴狀獲悉,原告柴麗傑因不服被告上海大學不履行法定職責,未組織有關院、系及學位評定委員會對原告博士學位申請進行審核評定一事,提起行政訴訟。
  • 中國科學技術信息研究所發布2016年中國科技論文統計結果-新聞稿
    一、我國的高被引國際論文數量、國際熱點論文數量雙雙進入世界排名第3位,排在美國、英國之後。2006-2016年十年間中國處於世界前1%的高被引論文為1.69萬篇,佔世界份額為12.8%,世界排名超過德國,由去年統計時的第4位前進到第3位。中國近2年間發表的論文得到大量引用,且被引用次數進入本學科前1‰的國際熱點論文為495篇,佔世界總數的18.0%,世界排名首次進入到第3位。
  • 中國論文一再遭遇撤稿 愛思唯爾總裁談撤稿事件
    9月16日,中國科協主席韓啟德公開痛斥:今年以來發生的撤稿事件,在國際學術界,給我國學術界的聲譽帶來了嚴重的負面影響,再次表明我國學術界仍然面臨著學風浮躁、學術失範的嚴峻挑戰。 中國學者的論文真的如此不受待見嗎?愛思唯爾期刊出版全球總裁Philippe Terheggen近日接受中國青年報記者採訪時表示,撤稿情況並沒有想像中的那麼嚴重。
  • 超過105歲後死亡機率會趨平
    並且一旦過了105歲,每年去世的概率便沒什麼差別了。1825年,英國精算師班傑明·岡珀茨提出,死亡的概率會隨年齡增長逐年遞增,比如70歲的人的死亡概率會比30歲的人大得多。此後,有人提出雖然死亡的相對概率的確會隨年齡增長而增加,但在過了一定年齡後,這一增加趨勢卻會逐漸放緩。例如,45歲和35歲的死亡機率可能差很多,但110歲和100歲卻相差無幾。
  • 灌水的博士,與「流水線」灌水的中國科研
    跟著大牛的在職博士開心了,年節打點下,三年畢業不是夢啊。跟著大牛的被器重的碩博開心了,早點發表個兩三篇,國獎有望啊。這種文章從設計之初就寡淡無味,但大家發文章並不因為它水就不發了,畢竟考核畢業項目都需要研究成果啊(論文)。發了,只會覺得總算發了,可以畢業,可以結題了,有的是慶幸。
  • 36歲高中物理老師把科學課寫進博士畢業論文,獲答辯委員...
    上周,一場博士答辯在雲端舉行。寧波外國語學校高中物理老師石曉明在經歷一個半小時的答辯後,被專家組一致授予無條件通過。這是對一篇博士論文的最高評價。不出意外,今年夏天他將如期從寧波諾丁漢大學博士畢業,成為一名教育學博士。
  • 臺灣雲豹:從一篇憂傷的博士論文說起
    偶然的機會,找到了姜博仁(Chiang Po-Jen)先生於2007年完成關於臺灣南部雲豹、獵物及其同域分布食肉類的博士論文。2003年3月4日,來自維吉尼亞州立大學的Patrick F. Scanlon博士,該校魚類與野生動物專業的教授,也是姜博士的導師,在野外調查期間因心臟病突發去世,享年62歲。
  • 本科論文大抽檢,大學生瑟瑟發抖?
    區別於博士碩士學位論文抽檢重點考察研究生創新性和科研能力,本科畢業論文抽檢重點考察本科生基本學術規範和基本學術素養。本科畢業論文如何抽檢?抽檢每年進行一次,對象為上一學年度授予學士學位的論文,抽檢比例原則上應不低於2%。省級教育行政部門採取隨機抽取的方式確定抽檢名單,抽檢論文要覆蓋本地區所有本科層次普通高校及其全部本科專業。