原創 趙子鳴 集智俱樂部
導語
越來越頻繁的跨學科研究是過去數十年各個學科發展的特徵,如何刻畫學科之間的相互影響、刻畫整個學術界的知識變遷成為重要問題。在近日的一篇預印本論文中,來自谷歌的研究員對 1980-2010 年間美國 157 所高校的 105 萬篇博士畢業論文進行了文本分析,構建了這 30 年間的學科交流網絡,量化了學科間的交流和各學科的發展趨勢。
關於科學學的研究最早使用的社會科學領域的傳統方法,包括文獻綜述( literature reviews),專家訪談(expert interviews)和調查(surveys)等。然而,傳統方法更注重針對單個或多個領域的詳盡研究,並不能直接分析整個學術領域的所有學科。近年來,出現了基於複雜網絡分析方法的科學學研究,主要依據文章引用關係、作者合作關係等建立網絡,但這種方法僅限於學術空間中的正式關聯(formal linkages),不考慮學科之間的非正式交流,大量真實存在的學術隱藏結構被忽略。
最近,在 arXiv.org 上刊登了谷歌研究員 Daniel Rammage 博士的一篇文章《Mapping Three Decades of Intellectual Change in Academia》,基於 1980 年至 2010 年間美國 157 所研究密集型高校的 105 萬篇博士畢業論文摘要數據,通過使用統計文本模型(PLDA算法),並提出淨資源得分(Net Source Scores)來量化 30 年內的學科交流與學科發展,對於科研資金的分配具有一定的借鑑意義。
論文題目:
Mapping Three Decades of Intellectual Change in Academia
論文地址:
https://arxiv.org/abs/2004.01291
構建基於學科術語的學術空間
圖1:學科交叉網絡
圖 1 展示了 1980-2010 年間的學科交叉網絡,共分為六個大的研究領域:工程(Engineering)、物理和數學科學(Physical and Mathematical Sciences)、生物科學(Biological Sciences)、地球和農業科學(Earth and Agricultural Sciences)、社會科學(Social Sciences)、人文科學(Humanities)。其中STEM相關學科分布在圓圈的右側(S:Science 科學;T:Technology 科技;E:Engineering 工程;M:Mathematics 數學)。各研究領域又細分為若干學科,各個研究領域及學科所佔的弧度大小與論文總數成正比。
對於每個學科來說,研究過程中常常會使用其他學科的知識,同時也會促進其他學科的研究。因此,文章通過連邊來刻畫學科間的這種關係。對於學科 A 與學科 B,學科A的所有論文中使用了的學科B的專業術語數為α,學科B的所有論文中使用了的學科A的專業術語數為 β,學科 A 與學科 B 之間的連邊粗細刻畫了 |α-β| 的大小,當α-β>0,類比貿易網絡,我們稱學科 B 為淨出口學科,學科A為淨進口學科,連邊顏色為淨出口學科B的顏色,否則為學科 A 的顏色。其中,大領域內的學科交叉連邊被畫在圓外,跨學科領域的學科交叉被畫在圓內。
我們還可以發現,STEM 學科與人文學科存在顯著的分界線,很少有文章能跨越這個鴻溝。
學科知識的交叉圖2:學科間專業術語使用的不對稱性
圖 2(A)展示了 兩條曲線分別在計算機科學(Computer Science)學科的所有專業術語中,關於遺傳學和基因組學(Genetics and Genomics)的專業術語比例(藍色);在遺傳學和基因組學學科的所有專業術語中,關於計算機科學的專業術語比例(紫色),其中誤差棒(Error Bar)表示為陰影部分。
圖3:學科交叉與計算生物學的興起
從圖中可以看出,模型可以清晰的展示新興跨領域的學科形成過程。如圖2(A) 所示,計算生物學Computational Biology(藍色)與生物計算Bio-computation(紫色)是在同一時間興起的兩個新興學科,由於學科交叉活動是有方向性的,從遺傳學和基因組學的論文中獲取計算機科學專業術語的百分比與從計算機科學的論文中獲取遺傳學和基因組學專業術語的百分比存在顯著差異。
專業術語比例的差異性不僅體現在同時興起的兩個對稱的交叉學科中,還在各個學科間普遍存在。如圖2(B) 所示, 兩條曲線分別展示了在生態學和進化生物學(Ecology and Evolutionary Biology)學科的所有專業術語中,關於環境科學(Environmental Science)的專業術語比例(綠色);在環境科學學科的所有專業術語中,關於生態學和進化生物學的專業術語比例(紫色),其中誤差棒表示為陰影部分。
圖4:基礎學科與前沿學科的交叉示意圖,以生態學、進化生物學與環境學為例
從圖中可以很明顯的看出從生態學和進化生物學的論文中獲取環境科學專業術語的百分比顯然高於從環境科學的論文中獲取生態學和進化生物學專業術語的百分比,生態學和進化生物學對環境科學的影響顯然是更大的,生態學和進化生物學可以看做是環境科學的基礎學科。
事實上,專業術語比例的不對稱性比比皆是,學科間的差異性是非常顯著的。存在很多基礎學科,在整個學術空間中扮演學術語言創造者的角色。如社會學(Sociology)對於社會科學(Social Sciences)來說是基礎學科,生態學和進化生物學對於地球與農業科學來說是基礎學科。
學科特色與學科發展現在我們已經發現在學術空間中不同學科間差異性顯著,為了從學科交叉的角度更好的發現學科特色,文章提出了淨資源得分這一指標。
淨資源得分(Net Source Scores)
對於學科 A 和學科 B,比較學科 A 論文中使用學科 B 的專業術語數 α 與學科 B 論文中使用學科 A 的專業術語數 β,如果α>β,即學科 B 為淨出口學科,學科 A 為淨進口學科,則學科 B 的淨資源得分+1,學科A的淨資源得分-1。所有學科之間兩兩比較,淨出口次數與淨進口次數之差即為學科的淨資源得分,記為 S,淨資源得分刻畫了學科的相對影響力大小。
圖5:從淨資源得分看學科特色
如圖 5 所示,y軸為淨資源得分。其中,A 圖展示了不同領域淨資源得分隨時間的變化,淨資源得分越高,學科相對影響力越大。從圖中可以看出工程領域的影響力顯著增強,特別是其中計算機科學的學科影響力顯著提高,而化學工程(Chemical Engineering)的影響力有所下降。其他領域中數學(Mathematics)、動物科學(Animal Science)、微生物學(Microbiology)的學科影響力有所減弱。
圖 B 列出了圖A中高亮散點的詳細信息。在圖 B 中,每個學科的論文數量作為學科規模(x),每條折線代表一個學科的影響力發展軌跡,折線上的七個點分別表示該學科在1980年、1985年、1990年、1995年、2000年、2005年、2010年時的淨資源得分(S)及學科規模(x)。其中,棕色的線是數學;人文學科的紅線是哲學(Philosophy)、性別和種族研究(Gender & Ethnic Studies);藍色的線是計算機科學,紫色的線是生態學和進化生物學和微生物學,綠色的線是動物科學。
特點
老牌學科
新興代表學科
淨出口學科
概念性、方法性學科
數學、哲學
計算機科學、統計學
淨進口學科
應用性、主題性學科
語言學
性別與種族研究、健康科學
從學科影響力角度來看,數學、哲學、計算機科學和統計學(Statistics)等方法類學科具有很高的淨資源得分,而動物科學、微生物學等應用類學科淨資源得分為負值。結合更多研究數字,文章還指出數學(S=32)和哲學(S=54)被稱為「根源學科(Root Disciplines)」,代表了一種基本的知識形式,過去很長一段時間具有很高的而影響力。然而,隨著大數據時代的來臨,數據驅動的計算機科學(S=55)和統計學(S=54)等數據驅動的方法類學科正在扮演著越來越重要的地位。
從學科規模的角度來看,人文領域如古典文學Classics(S=-23)和語言學Languages (S=-19);地球和農業科學(平均S=-25.9);生物科學(平均S=-13)等應用性、主題性較強的學科雖然淨資源得分為負值,但學科規模有顯著的提升。特別是在過去的幾十年裡,生物科學領域的論文數量翻了三倍,從20世紀80年代的每年大約 2000 篇論文到 21 世紀前十年的每年 6500 多篇論文,發展非常迅速。
此外,我們還注意到性別和種族研究在過去30年中,無論從學科影響力,還是學科規模來說發展的是顯著而迅速的。
生物健康領域:學科影響的逆轉式變革圖6:生物科學、健康科學、地球與農業科學領域的發展
圖 6 展示了在 20 世紀 80 年代和 21 世紀前十年間,生物科學(紫色)、健康科學 Health Sciences(金色)和地球與農業科學(綠色)的學科影響力。第 i 行第 j 列的圓點大小,代表了第 i 個學科的論文中有多少專業術語來自於學科 j 。從圖中可以看出,在1980s,地球與農業科學顯著依賴於生物科學,特別是生態學和進化生物學,然而到了 2000s 卻恰恰相反,生態學和進化生物學的研究中發量出現來自地球與農業科學領域的專業術語。此外,相對於動物科學,地球與農業科學對於健康科學的影響更加顯著。生物科學領域內部聯繫更加緊密。
人文社科領域:性別和種族研究的崛起圖7:社會科學與人文科學的領域的發展
圖 7 展示了在 20 世紀 80 年代和 21 世紀前十年間,社會科學(橙色)與人文科學(紅色)的學科影響力。第 i 行第 j 列的圓點大小,代表了第 i 個學科的論文中有多少專業術語來自於學科 j 。從圖中可以看出,性別與種族研究再 30 年間發展迅速,幾乎滲透到人文社科的各個領域。此外,隨著性別和種族研究的興起,哲學在規模上有所下降,但其相對影響力卻沒有下降,仍然是一個強大根源學科。
從細分學科變化看生物領域分裂
圖8:六個學科近30年的學科發展
圖 8 展示了生物科學(紫色)、健康科學(金色)、地球與農業科學(綠色)、人文科學(紅色)、社會科學(橙色)、其他領域(灰色)領域的專業術語在給的六個學科(微生物學、生態學和進化生物學、哲學、生理學和細胞生物學、遺傳學和基因組學、性別和種族研究)論文中所佔的比例隨時間的變化。
從圖中可以看出微生物學在 1980s 發展迅速,但到了 1990s 微生物學相對於還原主義學科(遺傳學和基因組學以及生理學和細胞生物學)影響力顯著下降。圖6同樣證明了,現在生物學的大部分領域都與還原論方法和在醫學上的應用有關,而生態學和進化生物學幾乎已經分裂成新興的環境科學,在地球和農業科學上都有應用和影響。
作為圖 7 的補充,圖 8 中右側的兩幅圖證明了性別與種族研究發展迅速,而根源學科哲學的已經處於相對穩定的狀態。
方法:PLDA算法
PLDA(Partially Labeled Dirichlet Allocation)算法,是一種基於主題模型的貝葉斯統計(Bayesian Statistics)文本挖掘方法,刻畫了單詞、文檔和標籤之間的關係,其核心假設是每個學科只對應一個標籤,論文的標籤決定了論文的學科屬性,學科屬性生成了論文的專業術語。
文章通過使用 PLDA 算法,將每篇論文摘要中的單詞與最相似的學科標籤相關聯。這個過程分為兩步:學習和推理( Learning and Inference)。首先,利用專業術語和學科標籤之間的聯繫來學習屬於各個學科的專業術語。其次,重新檢查每篇論文,推斷摘要中的每個單詞可能屬於其他學科的概率。
在學習階段,通過考察各學科名稱和專業術語在相應的摘要中同時出現的現象,建立各學科的語言模型。對於一篇具有多個標籤的文章摘要,我們無法判斷哪些詞屬於哪個學科標籤。但是,基於整個論文數據集中單詞和標籤的分布,我們可以從統計上判斷,「基因組(genome)」和「序列(sequence)」等詞更有可能同時出現在遺傳學和基因組學文檔中,而「算法(algorithm)」和「複雜性(complexity)」等詞則更有可能出現在計算機科學中。因此,我們可以確定在一篇被標記為計算機科學和遺傳學&基因組學的論文中,哪些詞更好地歸屬於每個標記。
在推理階段, 基於一種上下文敏感的軟聚類方法:一個像序列這樣的詞既屬於數學,也屬於基因組學,它的一個實例可能屬於一個領域,也可能同時屬於兩個領域,具體取決於摘要中的其他詞。
數據:博士學位論文摘要數據
文章研究所用的數據來源於美國 ProQuest 維護的UMl資料庫中的博士學位論文。每篇論文包含一個標題,摘要,作者,導師,日期,主題代碼和關鍵詞。研究所用的數據包含了自 1980 年到 2010 年 157 所科研密集型高校提交的 105 萬篇博士畢業論文摘要,摘要平均包含 179 個單詞,共涉及268個主題代碼。此外,主題代碼本身存在分布不均勻的問題,例如物理學領域細分為13個學科代碼,共計 52,432 篇學位論文;而計算機科學,只有兩個學科代碼,包含41,605篇學位論文。特別說明,文章研究中未考慮四個主要面向專業培訓的領域——教育、商業、法律、健康與醫學科學。
總結
文章基於 1980-2010 年論文摘要文本的統計模型,首次揭示了學術學科之間隱藏的關係以及它們在過去三十年中的變化。研究結果包括準確識別廣泛出口學科專業術語的方法學領域、大量進口學科專業術語的主題領域,數學、哲學等學術根源領域以及近年來快速崛起的計算機科學、統計學及生物健康學科。文章創新性的提出淨資源得分指標來量化學科之間的影響,對於監測學科動態,有效分配科研資金、調整國家的學科資助方向及力度具有重要借鑑意義。
作者:趙子鳴
審校:劉培源
編輯:張爽
搜索公眾號:集智俱樂部
加入「沒有圍牆的研究所」
讓蘋果砸得更猛烈些吧!
原標題:《105萬篇博士論文數據,勾畫學術界30年的知識變遷》
閱讀原文