論文剽竊究竟到了什麼程度現在還無法估計,但是,有疑問的投稿論文數量卻在日益上升,迫使期刊的編輯們採取措施向欺詐者宣戰。
對付論文剽竊者的戰鬥到了一個決定性的時刻。學術出版商告訴《自然》雜誌說,他們希望專門用於防止學生作假的軟體能很快用於學術論文的審稿中,以揭開剽竊其他研究人員或重複自己研究成果的學者的真面目。
總部位於荷蘭的Elsevier公司和總部位於英國牛津的Blackwell公司是學術界的兩大出版集團,一共出版了2500多種期刊。因為剽竊正在變成一種普遍情況,兩個集團被迫採取行動。Blackwell的總裁Bob Campbell說:「編輯們越來越頻繁地向我們抱怨這類事情」。
自我剽竊是指作者將自己已發表的文章內容又冒充成新的內容,這是一種特別的剽竊方式。因為發表論文的記錄對職務任命、晉升和經費申請的影響非常之大,所以研究人員有巨大的壓力需要發表文章,而這時少數人選擇用不誠實的方式來提升自己的履歷。
剽竊的程度究竟有多嚴重還很難估計。對剽竊進行定義也不是一件容易的事,即使是對情況很清楚的案例發生率進行統計也是很困難的。對某一領域的研究估計,該領域所發表的20%的論文有某種程度的自我剽竊。
儘管絕大多數的剽竊現象沒有被發現,但幾乎所有接受《自然》雜誌採訪的編輯和出版人都認可這一現象:自我剽竊的案例日益增加。
類似於美國大學用於檢查學生文章是否作假的軟體——反剽竊軟體的出現,意味著編輯和出版人終於有了一種切實可行的方法來處理這類問題。大學所用的在線服務軟體將論文與大量的文獻資料庫和媒體接口的內容進行比較。管理者可以了解文章中的哪些部分可能是剽竊的、被剽竊的內容來自何處。
出版界的專家說,將這種技術用於學術論文的檢查並不難,可以將這種軟體在線捆綁到出版人使用的同行評審管理軟體中。這一系統可以在背後工作,當發現重疊到了可疑的程度時,它會發出警告提醒編輯的注意,類似於計算機殺毒軟體的工作原理,這時編輯就會進行仔細的檢查。Campbell說:「我們認為這是一個具有非凡潛力的主意。」
Arxiv是位於美國康奈爾大學的物理學預印文本庫伺服器。在文獻庫中發現了22篇剽竊論文後,負責Arxiv運行的物理學家Paul Ginsparg決定採取行動:給它安裝上剽竊探測軟體。
初試牛刀
Daria Sorokina是康奈爾大學的一名計算機博士生,他對一種已有的算法進行了修改,從而讓這種程序能夠查找一行文字中至少有6個相同單詞的兩份文件。Ginsparg說,這個系統發現了相當多的可怕事情。一次試驗性的運行發現:一篇博士論文的絕大部分與3年前貼在這個文獻庫中的一篇論文是相同的。對該系統後來的試驗還發現,兩篇文章作者不同但內容過分重疊的情況至少出現了有幾千次。
Ginsparg計劃將凡是內容有過多重疊的兩篇文章都放在Arxiv的網站上,他沒有譴責有不當行為的作者,但要求涉及事件的研究人員做出回應。他希望結果有助於改善這套系統,該系統將用於對新遞交的論文進行檢查,如果論文中有明顯的重疊,它會向編輯發出警告。
現有的工具正越來越適合於編輯和個人使用。其中一個新的軟體工具是美國亞利桑那州大學的計算機科學家Christian Collberg開發的。2003年,Collberg應邀為一個學術會議評審論文,為了對這篇文章進行研究,他到Google搜索網站去查找資料。他回憶說:「我發現這篇論文與早期發表的一篇文章相比,僅僅只是版式不同而已。」他繼續為這個會議評審論文,他發現一篇論文的大部分內容都是對作者本人早期已發表工作的複製。他說:「這讓我感到極為厭惡,我開始花時間來研究這些論文。」
論文複印機
Collberg開始研製可檢查自我剽竊的軟體,這套軟體後來被稱為「自我剽竊偵查工具」(SPlaT)。也許SPlaT還需要經過數年的時間才能為出版人所用,但編輯和審稿人現在已經可以免費使用Collberg的軟體了。
SPlaT從作者的網站上獲取論文並將它們彼此對比,或與所遞交的論文和正在接受評審的論文進行對比。Collberg拒絕透露將SPlaT安裝在50個計算機系統上的細節,但他在上個月公布的結果摘要顯示:在會議所發表的論文中,SPlaT發現內容重疊超過50%的論文不止兩篇。
「反學生剽竊服務」是另外一種選擇。這種程序使得檢查自我剽竊成為可能。發行商業版剽竊追蹤工具iThenticate 的公司說,目前有5000多個機構批准使用這一產品,這個軟體能夠將可疑的重疊部分與其資料庫中70億頁的文章進行對比。因為它的收藏部分來自於「網絡捕手」,所以iThenticate含有作者自己的網站和部分免費進入的期刊。如果一所大學訂購這種服務,跟蹤學生的欺詐行為,那麼大學中的研究人員在評審論文時也可以使用它。
當《自然》雜誌在測試iThenticate時,它清楚地鑑別出合理地出現在不同地方的相同內容,比如作者的網站和參加文獻指引。但是,當一篇已知的剽竊論文被遞交給iThenticate時,它卻未能找出原始文獻,即使這篇原始論文發表在一份具有影響因子的期刊上。
Campbell說,如果出版集團願意在商業化偵查系統方面合作,那麼就有可能出現全面解決剽竊問題的方案。CrossRef公司曾經討論過這個問題,該公司正與多家出版集團合作,開發研究人員能夠搜索不同公司所出版期刊的軟體。
儘管建立這樣的系統至少需要幾年的時間,但理論上,這種系統能夠發現幾乎所有的直接剽竊者。與此同時,編輯們說,當少數研究人員不誠實地增加自己的論文數目時,剽竊論文的數目就會持續上升。一位向《自然》雜誌投稿的作者承認,自己有時也會忽略提及與新發表論文有重疊的情況,因為他知道,「院長不會讀論文,但他會數論文」。