原標題:預印本文檔研究生成剽竊地圖
一項針對預印本伺服器(arXiv)上數十萬研究的新分析,提供了有關科學剽竊的影響和地理分布的有趣信息。在一些國家,從其他論文上複製文字更普遍,但這些存在大量抄襲行為的作者幾乎面對同樣的結果:他們論文的引用率不高。
自1991年啟動以來,arXiv成為物理、數學等領域成果的世界最大「集散地」。每個人都能在這裡發表論文,並且不需要完整的同行評議。但論文需要接受質量控制程序。一個電腦程式會對論文進行最終檢查:將該論文的文本內容與其他發表在arXiv上的論文進行比較。目標是標記可能存在較高剽竊風險的論文。
「文本重疊」是技術用語,有時它也能證明論文是「清白的」。例如,一篇綜述文章可能引用大量內容,或作者會再利用和略微修改之前文章的語句。arXiv剽竊監測系統會讓這類論文通過。「這是一個非常智能的機器。」美國康奈爾大學物理學家、arXiv創始人Paul Ginsparg說,「它有特殊的方法檢測大塊引用、斜體字文本、引號內容以及數學定理陳述,以避免出現主動錯誤信息。」
Ginsparg和該校物理學博士生Daniel Citron比較了1991~2012年提交給arXiv 的75.7萬篇文章。結果發現,一篇論文引用的已發表內容越多,其被引用率就可能越低。他們還注意到,「文本再使用」驚人地普遍。過濾掉綜述文章和合理引用後,每16位arXiv作者中,就有1位存在大段抄襲其已發表文章的行為。更令人擔憂的是,每1000位作者中就有1人從其他論文中抄襲了近1段文字,但沒有標註出處。
另外,作者在向arXiv提交論文時,會註明自己的居住國。因此這將揭示哪些國家剽竊率最高。不過,Ginsparg表示,其研究中的文本重疊並不一定是剽竊。數據顯示,來自美國、加拿大以及歐洲和亞洲少數工業化國家的研究人員提交的論文佔arXiv論文的最大份額,而且剽竊率也更低。例如,有20%的保加利亞作者被標記(38/186),這是紐西蘭(5/207)的8倍多。日本約為6% (269 / 4759),而伊朗超過15%。(張章)