別再抄襲論文圖片了,機器學習算法能自動檢測出來

2020-11-23 雷鋒網

雷鋒網 AI 科技評論按:近期來自紐約雪城大學的 Daniel Acuna 等人在 bioRxiv 上發表了一篇文章,作者在文章提出了一種機器學習算法,該算法能夠自動進行論文圖片查重,其目的旨在解決文獻查重中的一個死角——圖片查重。

目前許多期刊都會對一些圖片進行查重,但只有極少數的期刊有自動化的查重流程。例如《Nature》期刊對收到的稿件一般會進行隨機抽樣檢測,《Journal of Cell Biology》以及《The EMBO Journal》等期刊則對稿件中的大部分圖片進行手工查重。顯然手工查重費時費力,這也是為什麼到目前為止大部分期刊都沒有圖片查重這一項。

然而這並不意味著圖片查重不重要;如果能夠及時發現不當的圖片抄襲(重用),那麼可能會制止許多學術不端行為。

以 2014 年轟動學術圈的小保方晴子(Haruko Obokata)學術造假醜聞為例,當時小保方團隊同一天在《Nature》上發表了兩篇文章,文章稱他們從新生小鼠身上分離的細胞通過 STAP 方法能夠獲得胚胎幹細胞。

據後來人們的調查發現,在文章中竟赫然有兩張圖片使用了她在博士學位論文中的圖片,而這些圖片當時是用於表示細胞原本就處於胚胎狀態的,而非 STAP 之後變為胚胎狀態。在這個事件中,如果《Nature》期刊能夠在發表之前檢測出文章中的圖片重用,那麼這個讓整個學術圈震驚的造假醜聞也許就能扼殺於搖籃之中了。

然而事實是,沒有。

再說一下美國研究誠信辦公室(US Office of Research Integrity, ORI)。ORI 有多種工具來協助工作人員進行圖片查重,但每年他們也只報告了大約 10 例的學術不端行為;為了這少數的幾例報告,不知道他們要查閱多少案例/文件以及對比多少圖片。不過需要說明的是,ORI 並不會去主動審查學術不端(成本有點高),除非有匿名檢舉。

顯然,他們期待自動圖片查重程序的出現。

Daniel Acuna 等人發表在 bioRxiv 上的這篇預印文章或許為此提供了一線希望。

總的來說,作者首先分析了 PubMed Open Access Subset(PMOS)數據集(2015)中包含的 200 多萬張圖片,通過他們開發的自動查重管道能夠自動檢測出由相同的第一(最末)作者發布的多組論文的圖片重用。之所以做出「相同的第一(最末)作者」的限定,是為了降低模型的時間複雜度。由於缺乏相應的測試數據集,作者就制定一個標準,然後讓一群人類審閱者手工來檢查這些檢測到的圖片是否真的有重用,以此來評價自動查重管道的有效性。

下面我們來看這篇論文的詳細內容。

數 據

作者分析了 PMOS(2015)上來自 4324 個期刊的 760036 篇論文,其中有 2,628,959 張圖片。當然並不是所有的圖片都會被用到,例如有些是和公式相關;將這些圖片從中清除掉。平均來說大約每篇論文包含 4.78 張圖片。

方 法

文章中使用的方法包括:複製-移動檢測算法(Copy-move detection algorithm)、生物醫學補丁檢測(Biomedical patches detector)、人工評估算法的有效性。

複製-移動檢測算法

作者在這裡使用了和 V. Christlein et al.(2012) 相同的算法:基於關鍵點的檢測方法。這有以下幾個流程:

(Fig A)使用低閾值 SIFT 關鍵點檢測算法計算關鍵點。(Fig B)找到歐氏空間中圖片上的所有關鍵點中兩兩鄰近的點,這些關鍵點對的間距要小於等於第二近鄰距離的 60%。將其他沒有匹配或匹配程度小於 40 個像素的關鍵點移除。(Fig C)對關鍵點進行平面聚類,移除聚類面積小於 40x40 平方像素的集群。如果再一個集群中,有超過三個關鍵點與同一個集群相匹配,那麼就將這兩個集群定義為匹配集群。(Fig D)使用 RanSac 算法找到匹配的簇之間的仿射變換。

如我們前面所說,考慮到在數百萬張圖片上進行最近鄰搜索的時間複雜度,作者在這裡只分析了第一(最末)作者的數據。雷鋒網認為,如果想要將這種算法應用到實際應用中,可能還需要考慮如何降低該算法的時間複雜度。

生物醫學補丁檢測

在科學文章中,許多圖片都有著極為相似的區域,例如許多圖片會使用相似的文本和形狀來描述圖形的某些區域(軸標籤、箭頭等),因此前面的算法發現的許多匹配可能就是這些內容。於是作者開發了另外一個額外的步驟。

作者首先從上一步「複製-移動檢測」結果中抽取 20k 的樣本,讓隨機森林來預測一個匹配是生物醫學匹配的概率,然後根據預測的熵對這些匹配進行排序,選擇出熵值較高的匹配,然後讓一些論文作者來標記(哪些是生物醫學匹配)。人工標記後,將這些數據添加到訓練數據集中,然後重複這個過程。通過這種方式來清除掉非生物醫學的匹配。

這種方法明顯有一個很大的不足之處,即需要專業知識才能進行人工標註。這大大限制了本文方法的廣泛應用。這個作者在文章中也有提到。

人工評估算法的有效性

論文圖片查重研究的一個很大問題是,沒有測試集。於是 Daniel Acuna 他們三人就擔任了這個人類評估器。他們製作了一個基於網絡的工具,這個工具包含了上述匹配結果中的 10000 個可能有問題的案例,並且提供了與 PUBMED 的連結,能夠看到相應圖片的標題、說明以及文章本身。三個人獨立審查了所有這些案例,並按照 No problem、suspicious、potential fraud、fraud 來給這些匹配結果進行評估。

結 果

經過以上三個步驟以及相關細節的約束,作者得出如下圖所示的結果。

其中左側 A 圖為生物醫學圖被重用的比例。可以看出,在所有這些論文中有大約 1.5%(0.6%+0.9%)的論文是需要考察其論文是否存在欺騙,其中有 0.6% 的論文存在明顯的圖片重用。

另一方面,從右側的 B 圖,我們可以看出一個有意思的現象:跨論文的圖片重用匹配更有可能屬於學術不端行為(43.1%)。

討 論

這篇論文的意義一方面指出了 PubMed 開放獲取的論文中,有相當多的論文(0.59%)被三位科學家一致認為存在欺詐行為,另一方面它提出了一種大規模分析文獻圖片重用(抄襲、欺詐)的方法,為各類期刊及研究誠信機構提供了可行的、節省成本的方法。

當然(我們也在上文中部分指出了)這項工作還存在著許多有待改進的地方:

在標記非生物醫學補丁時,需要有專業背景知識的專家的參與,這大大限制了這種方法擴展到其他領域。如何改進算法或框架,從而不再需要專家知識,是接下來研究的重點之一。Daniel Acuna 等人的這項工作為了降低時間複雜度,一方面只選擇了少量的生物醫學的出版物(4324 個期刊的 760036 篇論文),另一方面只考慮了第一(末位)作者自身論文中的圖片重用現象。能否將這種方法應用到億級規模的出版文獻庫中,還有待觀察。不管怎麼來說,降低模型的複雜度,是將這種方法推廣到工業級的必由之路。還有一點,也是這種方法的一個痛點,即沒有測試集。如何構建訓練-測試集,可能是促進相關研究的一項重要工作。雷鋒網認為,從利益相關的角度來說,可能期刊和研究誠信機構更應該在這些方面做出努力和嘗試。

但是不管怎麼說,這篇文章所構建的這種方法可能將是實現針對學術文獻中圖片查重漫長而艱辛的徵程中的第一步。

科研人員為什麼會在學術文獻中造假不得而知,但是無論動機如何,隨著機器學習以及人工智慧的發展,可能做這種行為之前就需要慎重考慮了。

據《Nature》新聞介紹,Daniel Acuna 他們還沒有公開他們的算法,但已經和芝加哥西北大學研究誠信辦公室主任、美國研究誠信官員聯合會副主席 Lauran Qualkenbush 進行了討論。後者表示:「這對研究誠信辦公室非常有用,我非常希望今年我的辦公室可以成為 Daniel 這項工具的試點單位。」

相關焦點

  • 論文抄襲率檢測原理及問答
    論文查重原理上傳論文後,論文查重系統會自動檢測該論文的章節信息,如果有自動生成的目錄信息,那麼系統會將論文按章節分段檢測,否則會自動分段檢測,系統資源庫中對比。對比資料庫為:網際網路資料庫、各類期刊資料庫、個人自建庫以及其他比對庫。部分書籍如果不在系統庫,則檢測不到。
  • 摘要翻譯、論文寫作、信息檢索、抄襲檢測……人工智慧延伸科學...
    「英文學術論文摘要適合專業科研人員閱讀,但摘要中的語句並不都適合寫到科學新聞中面向大眾傳播,因此需要結合編輯提供的先驗知識,採用計算機算法對語句進行篩選,保留適合進行大眾新聞傳播的語句。」萬小軍說。萬小軍說,在科研論文寫作過程中,可以藉助自然語言處理技術幫助推薦參考文獻,並自動生成related work等章節的文字;業界也有基於自然語言處理技術自動編撰圖書的嘗試。「我個人也接觸到很多很有意思也很有挑戰的應用需求,但可惜的是不少需求都無法基於目前的自然語言處理技術進行實現。自然語言處理技術還需要進一步地發展和突破,我相信在未來將有更多的用武之地。」
  • 知網論文查重是根據什麼來判斷抄襲的?
    但是,中國語言博大精深,同樣的一句話可以用很多種方式表達出來;就算是一模一樣的語句,被其他學者先寫出來的概率也是非常大的;另外,不同學科,還會涉及到專業術語、名人名言、法規條款、詩詞歌賦、公式代碼、步驟流程甚至醫藥處方等類型的重合,知網查重系統是根據什麼來判斷抄襲的哪?
  • 「論文查重」論文抄襲的內容沒有被檢測到,遇到這種情況怎麼辦?
    要讓畢業論文定稿,必過的一關就是論文查重。論文查重系統能夠利用先進的語義比對算法,自動識別論文中與系統資源庫和網際網路文章的重複率,在檢測報告中將重複的片段進行標紅,並指出相似源,可以對標紅的片段進行修改,以確保論文的重複率在學校規定的範圍之內,能夠安然度過論文查重這一險關。
  • 研究員開發新算法打擊學術造假 用AI查重論文圖片
    來自美國紐約雪城大學(Syracuse University)的機器學習研究員丹尼爾•阿庫納(Daniel Acuna)等在2018年開發出一套算法,能利用人工智慧(AI)識別學術論文中的圖像造假,對論文圖片進行查重。  他們分析了生命科學領域來自4324本期刊的76萬篇開放獲取(Open Access)論文,並從中提出有效的263萬張圖片。
  • 網上熱賣論文反反抄襲檢測系統
    昨日,記者在調查中發現,為了通過這個鐵面無私「包公」的嚴格檢測,各種應對論文反抄襲檢測的「招數」悄然而生,針對反抄襲檢測軟體更形成了「論文檢測市場」,考生只需花點錢,就可以確保自己來路不明的論文輕鬆通過檢測,而這種方法被稱為「反反抄襲」。  【愁】  畢業論文過不了關咋辦?
  • 「論文查重檢測」畢業論文檢測抄襲率規定和範圍
    如果在學校檢測的範圍內就通過檢測,如果沒有通過就要返回重新寫論文,如果畢業論文延期的話就會影響畢業。和學位證書等。論文檢測的抄襲率多少算過了?學校具體的規定是怎麼樣的了?下面給大家介紹下。具體不同的學歷或者不同的學校對論文檢測抄襲率的要求都是不同的:本科論文抄襲率<30%可申請答辯;<15%可申請院優秀論文;<10%可申請校級優秀論文;>25%有一次不超過
  • 論文抄襲後為什麼沒有被查重系統檢測出來?
    論文抄襲後為什麼沒有被查重系統檢測出來?一般情況下,剽竊查重軟體都能將外文標註出來,計算出總的重複字數,除去總字數,得到重複率。但為什麼有的人找不到抄襲的地方呢?一是資料庫的片面性得知論文查重軟體設計原則後,該軟體必須檢索你抄襲的論文資料,才有可能比照當時進行查重。
  • 最實用的5大論文避免抄襲檢測修改技巧
    最實用的5大論文避免抄襲檢測修改技巧 每當畢業季來臨,廣大應屆畢業生都開始面臨畢業論文的困擾! 方法:查閱研究領域外文文獻,特別是高水平期刊的文獻,將其中的理論講解翻譯成中文,放在自己的論文中。這樣安全有效。 缺點:不過這種方法有很高的英語水平才能實現。對於英語一般的同學,可以自行去聯繫英語水準高的同學進行幫助。
  • 為什麼要進行論文抄襲率檢測?
    ,下面我們為大家介紹論文抄襲率檢測的重要性,為什麼要進行論文抄襲率檢測呢?論文抄襲率檢測,除了對學生的畢業論文進行全面的檢測以外,職稱論文以及發表的學術論文,都是要以同樣的方式進行全面檢查,讓畢業論文的質量得到了很大的提升。
  • 「大學生論文抄襲檢測系統」發布
    「大學生論文抄襲檢測系統」發布         本報訊(記者李斌)日前,由清華同方知網自主開發的「大學生論文抄襲檢測系統」(簡稱PMLC)正式發布,它將全面應用於高等院校的日常教學,幫助高校檢查學生論文
  • 論文防抄襲檢測軟體走俏 教授:取消本科畢業論文
    論文防抄襲檢測軟體走俏 教授:取消本科畢業論文  據中國之聲《新聞縱橫》報導,再有一個月就到了畢業季,目前這個階段有很多的畢業生都在準備論文。為了規範論文管理,提高畢業論文的質量,避免抄襲剽竊,「論文查重」也就是通過軟體來檢測抄襲率,已經成為學校論文檢查審查的重要一環。教育部出臺的「學位論文作假行為處理辦法」於去年1月實施,其中就規定,論文查重率高者,將會面臨取消學位申請資格、註銷學位證書、開除學籍等處分。
  • 高校用論文檢測軟體查抄襲
    六月是大學生畢業論文提交的高峰期。早在一年前,揚子晚報曾報導過「網上幾百元代寫論文」,時至今日,情況又發生了戲劇性的變化:學校也越來越「精」了,為了嚴防論文抄襲情況的發生,今年南京已有高校開始嘗試使用論文檢測系統來查「抄襲」!據悉,各個高校都規定了論文重複率(相似度),超過規定重複率就可能延期畢業。
  • 論文防抄襲檢測軟體走俏 教授建議取消本科論文
    再有一個月就到了畢業季,目前這個階段有很多的畢業生都在準備論文。為了規範論文管理,提高畢業論文的質量,避免抄襲剽竊,「論文查重」也就是通過軟體來檢測抄襲率,已經成為學校論文檢查審查的重要一環。教育部出臺的「學位論文作假行為處理辦法」於去年1月實施,其中就規定,論文查重率高者,將會面臨取消學位申請資格、註銷學位證書、開除學籍等處分。
  • 【福利】悄悄告訴你免費的論文反抄襲檢查工具
    Gocheck論文檢測系統基於國內最大中文文獻資源庫及數億的網際網路資源,憑藉先進的語義比對算法,提供最精準的論文抄襲自查服務, Gocheck已被數百家高校及科研院所採用。知識拷貝衛士(http://www.copycheck.com.cn/index.jsp)  它的在線檢測引擎以上億網頁數據為基礎,提供了基於知網萬網上千萬論文數據的專業檢測服務,除了檢測論文的相似度,還能給出詳細的抄襲檢測報告。目前僅支持中文檢測。
  • 高校查論文抄襲 網上論文檢測軟體銷售火爆(圖)
    小張告訴記者,論文雖是自己一個字一個字碼出來的,但心裡還是有點擔心過不了學校的重複率檢測關。小張說:「院裡要求畢業論文重複率不得超過15%,否則就要延期畢業。聽以前畢業的師兄們說,文科畢業論文最容易檢出重複,所以我心裡就挺擔心的。同學向我推薦了一款檢測論文重複的軟體——Paperpass。讓我在送給學校前先自己檢測、修改,保證能通過。」
  • 職稱論文如何進行抄襲率檢測?
    論文這類學術研究聽起來很複雜,然而事實上只要自我能夠靜下心來,一篇完美的論文很快就能寫完,論文的抄襲率應該是在論文初稿完成後最讓人擔心的事情了,很多人不懂快捷的論文檢測方式。以前有個讀理工科的男生問我論文怎麼檢測類的問題,他和我說他的同學是把論文一句句地複製到百度搜索框裡看哪裡飄紅了。聽完我就笑出聲了,難道同學們不知道論文檢測的權威軟體知網檢測系統嗎?
  • 天津大學一名碩士學位論文涉嫌大面積抄襲
    該軟體集成了纖維圖像處理與分析的算法,包括圖像的預處理以及圖像的特徵提取等算法;內嵌了纖維圖像特徵資料庫管理系統,可以將提取的圖像特徵值直接存儲於特徵資料庫中,用於進一步的分析或識別;圖像的處理及分析結果均可顯示在屏幕上,界面友好,操作方便。「纖維檢測軟體可以在現場離線使用,該軟體的發明擺脫了以往大型檢測工具的繁重搬運,給檢測人員大大地提供了方便。
  • 機器學習+合成生物學:算法也能成為你的細胞生物工程師
    這項創新意味著,科學家們不必再花費數年時間對細胞的每個部分以及細胞的功能進行細緻的了解再對其進行操作。取而代之,通過有限的訓練數據集,算法就能夠預測細胞的DNA或生物化學變化將如何影響其行為,然後對下一個工程周期提出建議,並對實現預期目標的概率進行預測。
  • 論文防抄襲檢測軟體走俏 教授建議取消本科生畢業論文
    央廣網北京5月6日消息(記者孫魯晉 實習記者李虹靜)據中國之聲《新聞縱橫》報導,再有一個月就到了畢業季,目前這個階段有很多的畢業生都在準備論文。為了規範論文管理,提高畢業論文的質量,避免抄襲剽竊,「論文查重」也就是通過軟體來檢測抄襲率,已經成為學校論文檢查審查的重要一環。