二十載AI論文大調查,十萬多篇論文分析「學界鴻溝在加劇」

2020-12-06 騰訊網

作者 | 蔣寶尚

編輯 | 陳彩嫻

近日，著名科技網站venturebeat發表了一篇名為「深度學習時代，計算鴻溝正在集中權力，加劇不平等」的文章。

在文中，作者引用了幾篇論文，從頂會論文發表、研究資金投入和科研人才流動等方面說明了以下幾個現象：

QS排名前五十的學校平均發表66篇頂會論文，是第二、三層次學校（QS51-100、QS101-200）的近乎兩倍，而AI相關公司的生產力也遠超這些學校，平均發表約42篇論文。

自深度學習興起以來，QS 301-500的大學在頂會中的論文平均減少了六篇，比預期少了25％。

2004年至2018年之間學術界前所未有的人才流失。

對於這些現象的背後原因，文章作者歸納為：GPU。作者表示，以GPU為代表的AI資源正在像大企業和頂級名校集中，會導致兩極分化的馬太效應。

學界不平等的來源：研究方式的轉變

在文章中，作者引用的第一篇論文是來自維吉尼亞理工大學和韋仕敦大學的合著「The De-democratization of AI: Deep Learning and the Compute Divide in Artificial Intelligence Research」。這篇論文研究了從2000到2019年，包括ACL、ICML和NeurIPS在內57個頂會，涵蓋的領域包括：計算機視覺、數據挖掘、機器學習和自然語言學習等，調查樣本總數多達171394篇論文。

在這篇論文中，作者也證明了：「計算」在人工智慧研究中發揮的作用越來越大。

作者認為，當前計算機科學研究依然依賴算法、硬體、以及專用軟體的綜合作用。而計算在人工智慧歷史中，起到了「突破」和「確定研究方向」的作用。換句話說，在決定研究方向方面，計算機可以發揮超乎尋常的作用，算法或軟體在其中起到的作用相對弱一些。

硬體確實改變了人工智慧的研究格局。2012年之前，研究人員主要依賴通用硬體或者CPU。因此，那個時候，大多數研究人員使用相同的軟體和硬體，比拼的是算法的優越性。

然而，在現代人工智慧的研究中，由於有專門的硬體可用，因此，研究人員並不處於平等的地位。

另外，在一些大公司中，它們往往擁有高質量的專有數據集，用這些訓練數據集，有助於產生高度精確的深度學習模型。最近的研究表明，Facebook、谷歌和亞馬遜等大公司憑藉其專有數據在人工智慧研究中擁有優勢，而其他資源不充足的機構卻無法獲得這些計算以及大型數據集。

在人才方面，這些有錢的企業往往也更能招聘和留住人才，當然這些人才藉助優勢的計算的數據也更能發揮自己的能力。

放眼整個人工智慧的發展，正如2019年美國白宮在一份人工智慧報告中，將核心問題歸納為：「[……]工業憑藉其持續的資金支持，以及對先進計算設施和數據集的獲取，對學術研究和教學人才產生了強大的推動作用。」

近二十年頂會調查：名校大廠佔據半壁江山

上圖展示的是57個人工智慧和非人工智慧會議匯總數據，以會議年為單位，涵蓋2000~2019近20年的非平衡面板數據。論文總數達171394篇。

根據上述「描述性」表格，我們得知，大學機構排名和平均「出版」之間存在很強的相關性，一些有著精英名號的大學，在計算機領域也有著非常強的影響力，這些大學平均每個會議年發表66篇論文。世界排名（QS）51~100的大學，則只有35篇論文。而排名在101-200之間的近100所大學，只發表了32篇論文。

在公司層面，每年平均發表42篇，而大公司卻有23篇，佔比一半以上。

圖註：0.30表示某一年該會議上，30%的論文至少有一位合著者是公司員工

為了更加直觀的體現公司在科研中的作用，作者用上圖展示了在一段時間內，與公司相關的論文在人工智慧會議上的份額。上圖表明，在最「著名」的十個會議中，都在經歷「公司力量」的上升趨勢。

此外，上圖也說明了，各領域校企合作論文的比例都有不同程度的上漲，其中KDD（數據挖掘頂級會議）中合作論文在2020年比例超過50%，ICCV（國際計算機視覺大會）達到45%。

上圖展示了非人工智慧會議中，公司所佔份額，此圖展示的結果和上圖不同，在大多數情況下，公司發表論文的情況是相對穩定的。值得注意的一點是，2012年前，人工智慧和非人工智慧會議的企業參與率相似，只有在2012年ImageNet取得震撼成績之後，才有更多的公司參與到人工智慧中來。

此外，根據medium博主，Gleb Chuvpilo在2019年統計的年度AI研究排名，史丹福大學、MIT、卡內基梅隆大學，加州大學伯克利分校和微軟列為領先AI研究會議的六大貢獻者。

學界人才流失：加劇鴻溝的另一個原因

學界不平等的鴻溝的另一個表現是學界人才大量流入資本，在上述那篇論文中也證實了這種人才流動導致的科技水平變化。

作者表示，自深度學習興起以來，QS 301-500的大學在頂會中的論文平均減少了六篇，比預期少了25％，而世界500強、科技巨頭和頂尖大學論文發表情況卻截然不同。

對於，這種趨勢，英國衛報曾經有過一份秘密調查，顯示了科技公司招聘狂潮的影響。調查發現，許多頂級院校現在正努力滿足那些大規模擴大人工智慧研究團隊的科技公司的需求。

這份報告說，自2014年以來，英國科技公司的人工智慧崗位數量激增了485%。據一份公司內部的數據顯示，每一位合格的求職者其實都身兼數職。離開學界的大多數人都去了谷歌、Facebook、亞馬遜和蘋果等等公司。

換句話說，這些頂尖人才沒有「分散」在社會中做出貢獻，而是把自己的才華都集中到了少數公司。

另外，對於許多大學來說，從事AI研究越早的人員，流失越嚴重。更為直觀的表現是：獲得 2018 年圖靈獎的三位資深學者中，兩位早已投身業界，其中 Geoffrey Hinton 在谷歌，Yann LeCun 在 Facebook。

科學家的大量下海，可能對研究課題、研究質量、學院文化以及對本科生和研究生的培養產生負面影響。

卡耐基梅隆大學的計算機科學副教授 Ariel Procaccia 對 AI 人才紛紛投身業界表示擔憂：如果業界不斷地挖走頂尖學者，那麼由誰來培養 AI 領域的下一代創新者呢？

顯然，學界人才不斷流失，人工智慧研究不平等的鴻溝在學界和業界之間也會不斷加深。

那麼，如何縮小鴻溝呢？當前已經有過很多討論，文章作者提出的方案是：建立國家統一的AI研究雲是很有必要的。這一舉措，美國已經開始實行，例如今年6月，美國多所大學、科技公司和參議院議員都表示支持建立國家AI研究雲，通過共享公共數據集幫助算力不夠的機構訓練和測試AI模型。

但是，小編在這想提到一個大膽的想法供讀者討論：平均是否是一種進步？換句話說，不平均是否阻礙技術的發展？縱觀人類發展歷史，從相對平均原始社會到目前「不平均」現代社會，好像我們的經濟、科技、文化一直是螺旋式的前進。

這個問題，小編沒有答案，留給讀者探討。

相關焦點

臺大教授論文違反學術倫理學界籲進一步調查重振聲譽

臺大教授論文違反學術倫理學界籲進一步調查重振聲譽 2017-01臺灣學界則呼籲相關部門進行公平、公正調查，重振學術界聲譽。　　臺灣大學生化科學研究所教授郭明良團隊此前在國際期刊發表多篇大腸癌幹細胞相關研究成果。2016年11月，有匿名網站質疑其多篇論文圖片涉造假，違反學術倫理，包括臺大校長楊泮池與郭明良共同署名的論文。當月，臺大宣布成立特別委員會進行調查。　　臺大日前召開記者會說明階段性調查結果。
分析17萬篇AI頂會論文,揭示了計算資源貧富分化的證據

的確，深度學習時代，學術界計算能力的不平等正在進一步加劇不平等。但最近，第一次有學者將「人工智慧資源的壟斷」作為研究對象進行了詳細的分析，並且將結果用論文呈現了出來。這一研究來自維吉尼亞理工大學和西方大學的人工智慧研究人員。
多篇「轉基因飼料有害」論文涉嫌造假,正接受調查

（芒果妖怪/譯）在義大利那不勒斯大學，數篇描述轉基因作物飼料餵養動物產生有害影響的論文，目前正因為涉嫌篡改數據而接受審查。被洩露的調查結果顯示，論文中的圖片可能被故意改動過。負責該研究的實驗室主管則表示這項指控沒有任何依據。受調查的論文出自同一實驗室多項世界各地食物及藥品監察機構的安全測試結果都顯示食用轉基因食品沒有危害，這幾篇論文的結果卻截然相反。
2018 年重磅復盤:中國產出全球 25% AI 論文、政府署名 AI 論文...

經雷鋒網 AI 科技評論分析，與上一年相比，《AI Index 2018》的分析指標更全面細緻，同時不再只注重於北美地區的 AI 活動分析。x 軸展示的是論文相對發表率（每個類別作者的平均出版數除以該區域的整體平均出版數）；y 軸展示的是 FWCI（每個類別作者的平均論文引用數除以該區域的整體平均論文引用數）。本章節的分析只考慮 AI 學者，即寫過的論文中起碼有 30% 是關於 AI 的研究人員。學者的家鄉則取決於他第一篇論文的發表地區。
多所大學研究者呼籲：要填上AI中的計算鴻溝

2000到2019年，包括ACL、ICML和NeurIPS在內57個頂會中涵蓋計算機視覺、數據挖掘、機器學習和自然語言學習等領域的171394篇論文。在一個會議年的903篇論文中，QS前五十的學校平均發表66篇頂會論文，是第二、三檔學校（QS51-100、QS101-200）的近乎兩倍，而AI相關公司也勇奪第二，平均發表約42篇論文。
南開大學校長多篇論文造假?

中國醫院管理案例評選，醫院卓越管理實踐大秀場。點擊查看據中國青年報客戶端報導，11月14日起，伊莉莎白在該網站指出，以曹雪濤為通訊作者的多篇論文可能出現了圖像造假問題。
論文造假成為日本科研界一大「毒瘤」

原標題：論文造假成為日本科研界一大「毒瘤」新華社東京1月24日電 (記者華義)近年來日本學術界造假事件不斷，前有理化學研究所「學術女神」小保方晴子造假事件，後有東京大學教授渡邊嘉典多篇論文造假醜聞。
Science昨日首次撤稿中國學界論文

質疑者聲稱，該論文中的「Fig.S10」與此前一篇論文中的另一張圖出現了雷同，這篇論文題為《Enhanced ionic conductivity of yttria-stabilized ZrO2 with natural CuFe-oxide mineral heterogeneous composite for low temperature solid oxide
3899篇論文展現疫情下的新聞傳播研究圖景|年度報告

謹以此文告別和紀念2020年感謝各位讀者一年來的陪伴與同行RUC新聞坊祝大家新春快樂萬事順遂數據採集｜王怡溪楊凱文何伊靜楊若渝蔡靜遠汪瀚鄧依雲張涵悅何京蔚李新藝應瀅林姍蓉申屠泥彭美琪肖瀟數據分析｜楊凱文何伊靜張涵悅肖瀟蔡靜遠林姍蓉汪瀚文案｜王怡溪鄧依雲張涵悅何京蔚李新藝應瀅2020年，新冠肺炎在全球大流行
AI專家們推薦的13篇「必讀」論文

Jeff推薦的第二篇論文通過在整個訓練過程中倒鏈導數，計算出所有超參數的交叉驗證性能的精確梯度。這些梯度允許對數千個超參數進行優化，包括步長和動量計劃、權重初始化分布、豐富的參數化正則化方案和神經網絡架構。你可以在這裡閱讀更多關於這篇論文的內容。
曹雪濤多篇論文遭質疑,回應稱對有效性和可重複性「保有信心」

圖源：南開大學撰文 | 陳曉雪責編 | 李曉明最近，論文評論網站Pubpeer曝光南開大學校長、中國工程院院士曹雪濤教授實驗室發表的多篇論文存在圖片問題。這些論文發表於2003年到2019年間，涉及曹雪濤所工作過的第二軍醫大學、浙江大學、中國醫學科學院多個研究單位。
醫生論文評職稱調查: 制度性的逼良為娼

近些年，論文買賣蔚然成風，職稱晉升明爭暗鬥，學術造假愈演愈烈，論文與職稱掛鈎，唯論文至上帶來的惡果已經浸透整個醫療界，我們不禁要問，不發論文就不是好醫生了嗎？好醫生的標準到底是醫術的高低還是論文的多少？丁香園特別針對職稱晉升的論文要求以及醫護人員對論文的態度做了一項調查，收集了 1928 份有效問卷，讓我們一起來聽聽一線工作者的心聲。
綜述:論文造假成為日本科研界一大「毒瘤」

新華社東京１月２４日電綜述：論文造假成為日本科研界一大「毒瘤」　　新華社記者華義　　近年來日本學術界造假事件不斷，前有理化學研究所「學術女神」小保方晴子造假事件，後有東京大學教授渡邊嘉典多篇論文造假醜聞
南開大學校長40篇論文被疑造假

中國工程院：　　會調查處理這件事情　　在這些以曹雪濤為作者或者通訊作者的論文裡，出現了兩次實驗結果圖像完全一致；一幅實驗圖中，局部點圖多次「複製、粘貼」，兩幅實驗圖中，部分一致，部分疑似有增添、刪減等PS操作的現象。記者查閱到這40多篇論文中的35篇，其中曹雪濤擔任通訊作者或共同通訊作者的文章有29篇。
南開校長被指論文造假,期待「公允調查」

近日，南開大學校長、中國工程院院士曹雪濤被指有18篇論文涉嫌造假，論文實驗圖片也存在PS痕跡，一時引發熱議。
國內多篇醫學論文被指涉假涉事醫院稱正核實調查

編號「GMR7730」的論文與多篇論文的表格相似。美國知名論文抄襲監察網站PlagiarismWatch　　編號「GMR7730」的論文與多篇論文的表格相似。美國知名論文抄襲監察網站PlagiarismWatch　　新京報訊（記者戴軒）近日，國外一家知名論文抄襲監察網站發表報告稱，中國多篇醫學論文涉嫌抄襲，並推斷有論文代寫公司與部分SCI（科學引文索引）雜誌勾結，通過發表造假論文牟利。國內一家涉事醫院回應稱，已獲知此事，正在核實調查。
400多篇論文被曝造假,集中在中國山東,數十家醫院涉事,「論文作坊」真面初現?

大數據文摘出品400篇醫學論文，實驗圖片高度相似，這是醫學界近年來被爆出的最大規模學術造假事件，而這些論文集中在中國山東地區。首先，從被直接發現的400多篇論文來看，Bik認為這個「論文作坊」生產出的論文可能有上千篇；其次，這些論文都是經過同行評審後發表的，那麼顯然編輯對它們沒有進行嚴格質量控制，甚至一些出版社本身與這個「論文作坊」就有聯繫；最重要的是，這些論文可能已經「汙染」了學術領域。
我國SCI論文數首次突破十萬篇

中國科學技術信息研究所11月27日在京公布的 2008年度中國科技論文統計結果顯示，2008年主要反映基礎研究狀況的《科學引文索引》（SCI）收錄的中國科技論文總數為11.67萬篇，較 2007年的94800篇增加了21900篇，佔世界份額的9.8%，位列世界第二位。
西安交大在《自然》集中發表6篇論文!最全面的癌症多組學研究...

由西安交大生物信息計算團隊參與的 6篇論文在《自然》雜誌齊發！首創多項面向全基因組大數據的高精度計算技術，是迄今最全面的癌症多組學研究成果。
臺大醫院再曝學術醜聞專攻肝癌名醫多篇論文造假

（原標題：臺大醫院再曝學術醜聞專攻肝癌名醫多篇論文造假）海外網1月10日電 2016年前臺灣大學教授郭明良研究團隊多篇論文涉及造假時隔兩年，臺灣醫學界龍頭臺大醫院再曝論文造假醜聞，臺大醫院醫學研究部主治醫師陳昆鋒的多達10篇論文遭臺「科技部」認定造假，規模不亞於當年郭明良案。據臺灣「東森新聞雲」報導，經過臺「科技部」、臺大及臺大醫院調查，認定以陳昆鋒為主的研究團隊有10篇論文造假，這10篇論文都有申請或取得臺「科技部」補助專題研究計劃。

二十載AI論文大調查,十萬多篇論文分析「學界鴻溝在加劇」

相關焦點

臺大教授論文違反學術倫理 學界籲進一步調查重振聲譽

分析17萬篇AI頂會論文,揭示了計算資源貧富分化的證據

多篇「轉基因飼料有害」論文涉嫌造假,正接受調查

2018 年重磅復盤:中國產出全球 25% AI 論文、政府署名 AI 論文...

多所大學研究者呼籲：要填上AI中的計算鴻溝

南開大學校長多篇論文造假?

論文造假成為日本科研界一大「毒瘤」

Science昨日首次撤稿中國學界論文

3899篇論文展現疫情下的新聞傳播研究圖景|年度報告

AI專家們推薦的13篇「必讀」論文

曹雪濤多篇論文遭質疑,回應稱對有效性和可重複性「保有信心」

醫生論文評職稱調查: 制度性的逼良為娼

綜述:論文造假成為日本科研界一大「毒瘤」

南開大學校長40篇論文被疑造假

南開校長被指論文造假,期待「公允調查」

國內多篇醫學論文被指涉假 涉事醫院稱正核實調查

400多篇論文被曝造假,集中在中國山東,數十家醫院涉事,「論文作坊」真面初現?

我國SCI論文數首次突破十萬篇

西安交大在《自然》集中發表6篇論文!最全面的癌症多組學研究...

臺大醫院再曝學術醜聞 專攻肝癌名醫多篇論文造假

臺大教授論文違反學術倫理學界籲進一步調查重振聲譽

國內多篇醫學論文被指涉假涉事醫院稱正核實調查

臺大醫院再曝學術醜聞專攻肝癌名醫多篇論文造假