機器之心報導
參與:一鳴、張倩
被引率是學術評估中一個非常重要的指標,而根據古德哈特定律,當這些指標成為目標後,它們也就失去了原來的價值。這正是學界目前面臨的現狀。前段時間《Nature》曾發文揭露百名科學家自引率超 50% 的事實,有些甚至達到了 94%。時隔一個月,《Nature》再次發文,揭露了被引率驅使下的另一亂象:部分審稿人被質疑操縱審稿過程以提高自身被引率。
這項調查是由荷蘭出版商愛思唯爾的分析師著手進行的。他們發現,可能有部分審稿人會鼓勵被審論文作者引用審稿人的研究,作為交換,審稿人會為論文帶來更為正面的評審意見。這種做法被稱為「強制引用」(coercive citation)。
這項研究已於 9 月 6 日被收入 SSRN 社會科學研究庫,目前還沒有經過同行評審。
論文連結:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3339568
愛思唯爾的調查還顯示,這些審稿人中,有一些人還在自己署名的研究中存在其他問題。發現這一問題的愛思唯爾分析師告訴《Nature》,他們「發現了明顯的同行評審操縱痕跡」,以及研究者不止一次發表相同研究的證據。愛思唯爾表示,他們的調查將導致其中的一些研究被撤回。但他們也表示,沒有必要將受強制引用影響的研究撤回,因為論文作者不應對這一問題負責,而且引用操縱其實對這些作者的研究沒有影響。
從數據中發現的問題
這一可疑行為的發現者是愛思唯爾分析師 Jeroen Baas 和 Catriona Fennell。他們調查了大約 55,000 名愛思唯爾期刊審稿人的同行評審活動,以統計這些研究者的論文在他們所評審的論文中的被引率。
圖註:被審論文引用了審稿人的次數統計。圖源:論文。
這一分析緣起於愛思唯爾農林科學期刊《Geoderma》的一位審稿人。2017 年,該期刊審稿人 Artemi Cerdà、西班牙瓦倫希亞大學土壤科學家被指控使用自己的權力提升自身被引率,並因此從該期刊的編輯部離職。Cerdà否認了這項指控,但在他同樣擔任審稿人的歐洲地球科學聯盟(European Geosciences Union)的出版部門,愛思唯爾調查人員發現了同樣的問題。此後,愛思唯爾修改了編輯指南、編輯合同和審稿人指南,對這種做法提出了警告。
Fennell 和 Baas 的研究表明,多數審稿人的研究沒有被他們評審的論文引用,98.5% 的審稿人在自己評審的論文中的被引率低於 10%。只有不到 1% 審稿人似乎總是在他們評審的論文中被引用。
由於審稿人和作者可能處在同一個研究領域,所以存在一些交叉引用也是情理之中。但審稿人的研究總是被他們評審的論文引用就未免有些可疑了。引用審稿人的文獻這一做法是眾所周知的,但究竟到了什麼程度卻不為大眾所知,因為同行評審背後的數據通常保密。
Fennell 表示,他們已經完成了對最可疑案例的調查,其他案例還在調查之中。
「強制引用」不是一個新問題
早在 2012 年,《Nature》網站就發表了一篇研究——社會科學和商科領域的學者需要引用很多額外的文獻,否則可能無法發表論文。
這確實是學術界公開的秘密了——為了提升文章的引用量,一些論文作者被審稿人要求多引用一些高引文獻,以便提升該期刊整體的文獻引用量。為此,很多初級的學者受到了壓力。
「雖然『強制引用』確實存在,但是調查研究表明,這種現象發生的頻率高得嚇人。」研究作者表示。
另外,強制引用實際上是一個很大的灰色地帶,因為確實有審稿人會建議作者,在論文中引用一些待投稿期刊發表過的文章。但是,「建議」和「要求」之間並沒有明確的邊界。另外,有些審稿人可能只會提示「引用這個期刊」,但是有些審稿人則會具體到要引用的文章,這可能就包括他們自己發表過的文章。
由於擔心拒稿,作者往往會屈服於這樣的「建議」之下。
監管措施正在路上
「是時候做些什麼了,」俄克拉荷馬州醫學研究基金會生物信息學家 Jonathan Wren 表示。Wren 透露,今年早些時候,《Bioinformatics》期刊叫停了一位審稿人的審稿工作。調查發現,這位審稿人在每次審稿時平均會要求作者增加 35 條引用,其中 90% 是 ta 自己參與的研究。
Wren 正在寫一個可以自動標記論文非正常模式的算法,包括對某一特定作者的過度引用。「如果在論文發表之後再開始監管,那你要怎麼處理這些多出來的參考文獻?」Wren 說道。
愛思唯爾正在考慮的一個方案是撤回研究中的部分參考文獻,這是一個前所未有的做法。Fennell 表示,還有一個辦法就是發布更正,「我們正在尋找最好的解決方法。」他表示。
審稿領域的亂象
這次事件再一次讓論文審稿中的亂象暴露在公眾的視野下。審稿人學術水平不高、評審只看引用量等指標、主觀性過強這些問題,無不阻礙著學術的發展。
不懂深度學習,審稿人讓頂著 AI 帽子的論文過關
今年早些時候,《Nature》官網刊登了一篇用 AI 搞科研的文章,引來了深度學習領域研究者的吐槽。
該論文的作者來自伯克利國家實驗室能量存儲與分布式資源部門(Energy Storage & Distributed Resources Division)科學家 Anubhav Jain 領導的團隊,他們收集了 330 萬篇已發表的材料科學論文的摘要,並將它們饋入到一個名為 word2vec 的算法中(NLP 中的詞嵌入方法)。通過解釋詞間的關係,該算法能夠提前數年給出新熱電材料的預測,在目前未知的材料中找出有應用潛力的候選材料。
然而,這一研究只是將材料關鍵詞的共線關係用詞嵌入的方式展示了出來。哪幾個關鍵詞共現頻率高就會被算法找到,AI 在這一過程中沒有學到任何有關論文的知識。
如此淺顯的問題,為何《Nature》都沒有發現?一些網友認為,這和審稿人不懂深度學習有很大的關係。如果在審稿中哪怕給一位熟悉深度學習的人士看一眼這篇論文,無論如何這樣的研究都不會過審。
學術指標拖累研究
有研究發現,論文評審和接收已經變得更加主觀了。很多審稿人只注重論文作者的引用量和影響因子,這樣一來,曾經在頂級期刊發表過論文的作者再次投稿發表的可能性會大大增加。
這一研究是以色列本古裡安大學(BGU)的軟體和信息系統工程助理教授 Michael Fire 發現的,他表示:
「大量的論文投稿使這些期刊的編輯們不堪重負,因此他們可能秉持安全而非冒險的審稿原則,僅選擇那些知名且經驗豐富研究者的投稿論文。」
外觀判斷論文好壞?頂會主席論文被自己的 AI 系統拒了
更加尷尬的是,有時候使用自動化的審稿系統也可能讓一些論文莫名其妙地「躺槍」。
去年 12 月,CVPR 2019、ICCV 2019 的領域主席 Jia-Bin Huang 在 arXiv 上發表了一篇論文,基於論文的視覺外觀訓練了一個分類器來預測一篇論文應該被接收或者拒絕。
文章表示,好的論文版面非常重要。該研究中僅基於論文視覺外觀訓練出的分類器可以拒絕 50% 的壞論文,只有 0.4% 的好論文沒被接收。然而,作者把訓練出的分類器應用到這篇論文本身時,該論文遭到了無情拒絕,且拒絕概率高達 97%。
好論文的特定類別判別區域。
此文發出後,有讀者表示,這是一個很諷刺的實驗,證明現在的一些大會在審稿時有些過於注重外觀。
除了上面指出的這些問題,審稿領域還存在其他一些亂象,如每次頂會論文評審結果出爐後都有人吐槽審稿人不認真或沒看懂自己的論文。甚至有些深度學習頂會的審稿人會發出一些靈魂追問,如著名的:「What is softmax?」
去年的 NeurIPS 更是爆出了剛剛畢業的本科生成為大會同行評審的消息。以色列 Bar Ilan 大學的計算機科學高級講師 Yoav Goldberg 對此評論道:「請搞清楚,這是『同行評審』,不是找『做過五個 TensorFlow 教程的人』。」
其實,這些都是頂會接收論文數量激增的必然結果。大會論文爆炸式增長與資深審稿人稀缺存在著天然的矛盾,如何解決這一矛盾仍是困擾學界的一大難題。
但是首先,審稿帶來的問題需要改變。無論是愛思唯爾開始的內部調查還是用研究人員自動化程序進行統計和分析,都是揭露審稿亂象的重要開始。
參考連結:
https://www.nature.com/articles/d41586-019-02639-9
https://www.nature.com/news/researchers-feel-pressure-to-cite-superfluous-papers-1.9968