打假神器來了?AI圖像查重4小時篩查3500篇論文

2020-07-25 科學網

編譯 | 劉如楠


7月23日,據「DeepTech深科技」微信公號報導,北京大學常務副校長詹啟敏在Pubpeer網站上被指涉嫌25篇論文存在實驗圖像重複、實驗方法存在錯誤等問題。


7月24日,署名詹啟敏的作者在「瀟敏ScienceArt」公號上回應稱,已與論文合作者仔細核實相關文章表述和實驗結果,認真開展討論,目前並未發現數據造假和學術不端情況。


「實驗圖像重複」是論文被質疑的常見問題之一。此前,已有數起論文打假瞄準了生物醫學領域,其中的一個關鍵靶點就是「實驗圖像重複」。


近日,Nature報導了美國計算機學者研發的一款圖像查重軟體,似乎為快速解決這一問題帶來了希望。該軟體在4小時內篩查了3500篇論文,並最終發現了400個可能重複的圖像。


不過,有學者認為,這款軟體的缺點也很明顯,因為圖像重複不一定是錯誤。而且,軟體甚至會將相似的圖像標記為重複。


知名學術打假人Elisabeth Bik評價稱,該軟體「仍需要人工監督,以確保它不會出現標記錯誤」。


新冠論文大篩查:4小時、3500篇論文、2.1萬張圖像


今年6月,雪城大學計算機學者丹尼爾·阿庫納(Daniel Acuna)利用開發的圖像查重軟體,提取和比較了預印本網站bioRxiv和medRxiv上的3500篇論文,共2.1萬張圖像。


打假神器來了?AI圖像查重4小時篩查3500篇論文

Daniel Acuna (圖源:Syracuse University)


這一軟體可批量篩查論文,找出重複圖像,即使經過旋轉、裁剪的圖片也難逃它的法眼。Acuna的公司Resis使用這一軟體為期刊和研究機構提供服務,但目前還未公開使用。


他說,在4個小時內,該軟體就發現了約400個可能存在重複的圖像。不過,Acuna認為大多數都沒有問題。


他選擇了24篇包含「有趣」重複圖片的論文,同時公布在他自己創建的網站和PubPeer上。


這引起了不小的轟動。論文作者們也反應不一。一些作者選擇了承認錯誤並立即改正;一些論文的作者則回答說,有些錯誤在經同行評議的論文版本中已經改正。


芬蘭赫爾辛基大學病毒學家Giuseppe Ballistreri對Acuna所做的工作表示感謝。他寫道:「如果這個軟體的運行結果是準確的,我認為應默認在PubMed中實施。」


幫助出版商篩查造假


目前,期刊審稿大多依賴於作者提交的手稿圖像,進行手動篩查。《歐洲分子生物學學會雜誌》主編Bernd Pulverer介紹說,整個過程很耗時,早就應該進行自動篩查以簡化過程。


Acuna表示,如果期刊編輯採用類似軟體,他們也許能更輕鬆地完成審查工作。


荷蘭出版業巨頭愛思唯爾科研誠信負責人IJsbrand Jan Aalbersberg說,為發現圖像重複使用問題,出版商需要創建一個包含所有已出版圖像的共享資料庫,以便進行比較。


2015年,Acuna及合作者就從當時發表在PubMed生物醫學文獻資料庫開放存取的76萬篇文章中提取了260萬張圖像。他們從中抽取約3750張標記圖像進行手動篩查,並根據結果預測,該資料庫中1.5%的論文包含可疑圖像,而0.6%的論文存在圖像造假。


需要人工調整結果


不過,也有人表示,重複不一定是錯誤。Bik認為,該軟體「需要人工監督。」


Acuna同意她的觀點。他說,該軟體尚無法根據上下文判斷重複圖片是否存在問題,需要人為審查。


「但這仍然是有用的,儘管Bik擅長在論文中查找重複的圖像,但計算機可以通過比較數十萬、數百萬篇論文,來找到兩篇論文中的重複之處,這對人類來說是不可能完成的任務。」Acuna說。


一些研究人員則反映,Acuna的軟體將相似的圖像也標記為重複。同時,軟體無法兼容廣為流行的PDF文件格式,也是一個問題。


後來,Acuna從他的網站中刪除了約1/3的重複文章分析,並將其加密。作者只有從他那裡獲得訪問密鑰,才能看到相關結果。


來自德國海德堡的圖像完整性分析師Jana Christopher說,從更廣泛的意義上講,重複圖像查重軟體過於專注查找重複項,從而忽視了圖像的全貌。例如,兩個被判定為重複的圖像,其實只有很小的重複區域,在其他方面完全不同。Acuna認為,改進細微差別是機器學習進步的關鍵。


圖像分析在持續,造假者要小心


即便該軟體存在諸多問題,但Acuna表示,他將繼續分析COVID-19預印本論文。目前已經分析了5500篇,這個數字還在持續上漲。


他還會將預印本中的圖像與資料庫PubMed中的研究論文進行比較,這可能還會引發其他圖像的重複使用。


「我希望作者能意識到,有人正在做這樣的事情。」他說。

參考資料:

1.https://www.nature.com/articles/d41586-020-02161-3

2.https://www.nature.com/articles/d41586-020-01363-z

3.https://www.nature.com/articles/d41586-018-02421-3

4.https://doi.org/10.1080/08989621.2020.1793675

5.https://ischool.syr.edu/people/directories/view/deacuna/

6. https://acuna.io/

7. https://www.thepaper.cn/newsDetail_forward_8416829

8. https://mp.weixin.qq.com/s/99t2qTQ7L_HguJpTb4mHdw

相關焦點

  • 打假神器!圖像查重軟體研發成功,4小時查3500篇論文
    7月21日,《Nature》發布了一篇重磅新聞:論文圖片查重軟體研發成功。該軟體的研發者是美國Syracuse大學的機器學習研究者Daniel Acuna。2019年11月,Bik博士在PubPeer爆出,南開大學校長、中國工程院院士曹雪濤的18篇論文存在學術不端的嫌疑,論文實驗圖片有PS痕跡。之後,她更是指出,目前能檢索到有上述圖像異常、作者署名包括曹雪濤的論文已超過40篇。
  • 論文圖像查重軟體研發成功,造假圖片,無...
    近日,Nature 雜誌新聞版發布了一篇重磅消息:論文圖片查重軟體研發成功,軟體開發人員在對 3500 篇預印版論文進行的檢測中,找出 24 張涉嫌重複 / 造假的圖像。
  • Nature:學術造假者瑟瑟發抖,論文圖像查重AI技術重拳出擊
    ,他用這款軟體檢查了3500篇論文的21,000張圖像,在4小時內查出大約400張疑似重複的圖像,這項技術或許將為學術造假亂象的解決帶來曙光。近三年來,剽竊和錯誤是中國SCI論文撤稿的首要原因。其中剽竊主要是指文字抄襲,目前的查重系統只能查重文字,不能查重圖像。而錯誤則主要是指 圖像錯誤,包括經過PS然後重複使用的圖像。學術論文造假手段常用的有四種:1、重複用圖;2、編造數據,用ps塗抹修圖;3、花錢買論文;4、偽造審稿人。其中第一種和第二種最常用,造假成本最低,以重複用圖進行學術造假的案例屢見不鮮。
  • 法學專家搞不定學術打假 誰來判定論文抄襲?
    原標題:法學專家搞不定學術打假——誰來判定論文抄襲?看到查重報告顯示,論文的文獻複製比超過50%的時候,姚洪軍一度覺得自己要舉報的抄襲是「板上釘釘」的事了。這位上海政法學院法律學院的副教授,關注本院院長侯懷霞涉嫌「抄襲」已經9年。
  • 北大副校長被疑論文造假,海外打假網站頻出手是否「自身硬」
    在詹啟敏遭到質疑的25篇論文中,大體可分為三類:實驗圖像重複,違反動物實驗倫理以及實驗結果或存在常識性錯誤,還有個別為引物無效或缺失。 在PubPeer上,目前詹啟敏團隊對四篇論文進行了回復,另有四篇進行了勘誤。25篇論文中,實驗圖像形似或重複的論文有15篇。對於其中一篇圖像重複的論文,詹啟敏團隊回復稱,是因為不同的實驗錯誤地放置了同一幅實驗圖所致。
  • 論文「查重神器」淘寶月銷64萬筆,店主:要是「中超翟天臨」捨得花...
    論文「查重神器」淘寶月銷64萬筆,店主:要是「中超翟天臨」捨得花那7.2元錢…… iwangshang / 寧函夏 毛曉瓊 / 2019-03-13 摘要:現在,就連吃瓜群眾,
  • 又見一群中國醫生被「圍獵」,「零號」抄襲造假論文被發現
    近5年來,SCI論文抄襲屢見不鮮、造假花樣層出不窮,中國科學似乎已然成為了國外學術打假人士的「重點照顧對象」。近日,又一群中國醫生「甘願」被圍獵,8篇相互抄襲造假論文被國外學者發現,且經艾普蕾系統檢測和人工核實。
  • 研究員開發新算法打擊學術造假 用AI查重論文圖片
    來自美國紐約雪城大學(Syracuse University)的機器學習研究員丹尼爾•阿庫納(Daniel Acuna)等在2018年開發出一套算法,能利用人工智慧(AI)識別學術論文中的圖像造假,對論文圖片進行查重。  他們分析了生命科學領域來自4324本期刊的76萬篇開放獲取(Open Access)論文,並從中提出有效的263萬張圖片。
  • 誰來判定論文抄襲?
    他提供的中國知網查重報告顯示,侯的博士論文除本人已發表文獻複製比達55%,另外5篇期刊文章分別為97.8%、69.1%、55.4%、53.1%、47.6%。依靠這些查重報告,他給上級教育主管部門寫舉報信,跟涉事學校反映情況,一一打電話給期刊和論文原文作者,也在網上發帖,結果是無一例外地碰壁。
  • 法學專家搞不定學術打假 抄襲與否的邊界到底在哪兒
    法學專家搞不定學術打假——  誰來判定論文抄襲?  看到查重報告顯示,論文的文獻複製比超過50%的時候,姚洪軍一度覺得自己要舉報的抄襲是「板上釘釘」的事了。  這位上海政法學院法律學院的副教授,關注本院院長侯懷霞涉嫌「抄襲」已經9年。
  • 百度學術再放大招:24小時自助在線論文查重
    畢業的腳步漸趨,許多同學都滿心期許地準備來場世紀大狂歡,和青春狠狠來場告別。然而,導師的一則「請於本周內提交畢業論文開題報告」的消息卻開啟了前輩們口中的暗黑系「畢設季」。  如果說撰文、答辯、論文格式是三大苦役,那麼嚴苛的論文查重更是同學們心中一大痛。
  • 匪夷所思,兩中國學者抄襲國外博士論文,幾周內連發表9篇SCI
    Bik博士發現,這兩位不僅僅都姓Zhang,還共享了9篇論文。而這9篇論文都包含了抄襲/剽竊的內容。  Bik博士之所以認為這是明顯的抄襲,是因為有足夠的證據。  舉例如下,除了參考文獻插入格式不同,這些論文與別人的論文幾乎都一樣。
  • 免費論文查重神器+在線雲修改+自動生成檢測報告
    檸檬近期掐指一算就知道很多小夥伴肯定在為論文查重和畢業答辯而煩惱,一篇好的論文可以為你的大學生涯加分,在畢業後尋找工作,也有許多高新技術性的公司會要求查看你的論文成績以及讓你介紹下你的畢業設計成果。畢業論文是大學最後階段非常重要的一個環節,希望同學們能夠好好的對待。
  • 輕鬆搞定論文查重
    今天我們來說說畢業論文查重平臺有哪些,以及怎樣查重才能即經濟又有效。目前,論文查重的平臺有兩類:1、首次免費平臺2、完全收費平臺 首次免費平臺 這類平臺主要推薦PaperPass、PaperTime和PaperFree論文檢測系統。
  • 上海政法學院侯懷霞被指論文「抄襲」 副教授舉報9年四處碰壁
    從2007年開始,學術不端問題越發被重視,部分高校要求碩士研究生論文和博士論文都需要進行知網查重,只有檢測合格才能論文答辯,這個要求隨後也延伸到了本科階段。  相比人工篩查,它的資料庫龐大,篩查標準統一,工作周期短,面對與日俱增的大量論文保證了審核速度,它逐漸成了學術問題篩查不可替代的「第一道防線」。
  • 本科論文查重哪個系統比較靠譜
    作者:新風學術網 論文降重普遍使用的網站 知網 知網是家喻戶曉的最權威查重系統了,大多數高校也都是與知網合作的。但是其價格是論文查重檢測中最貴的,一般是300-450/篇。市面上雖然有便宜的知網查重系統,但是真偽需要我們擦亮眼睛仔細辨別。
  • 「美國方舟子」為何盯上南開校長的論文?
    近日,美國女子伊莉莎白·比克在科研打假網站Pubpeer上指出,以南開大學校長、中國工程院院士曹雪濤為作者的多篇論文可能出現了圖像造假問題,一時間在學術界引起軒然大波。如今,在對曹雪濤論文的質疑聲中,這兩篇論文也被重新提及。   >>雙方回應   曹雪濤:已展開調查   伊莉莎白·比克:看起來仍很相似   華商報記者發現,截止18日晚7時,在最初曝出曹雪濤論文造假的國外學術交流在線平臺PubPeer上,能檢索到有圖像異常、作者署名包括曹雪濤的論文已有54篇。
  • 論文工具箱:新時代論文寫作場景下的神器
    (原標題:論文工具箱:新時代論文寫作場景下的神器) 論文寫作、查重市場接近飽和的狀態下
  • 為什麼不同論文查重系統的查重率各異?論文查重的基本原理是什麼
    作為應屆畢業生在撰寫論文的過程中,都需要使用到論文查重系統來輔助完成整篇論文的定稿。但是,當我們拿著自己的論文分別到不同的論文查重系統時,都會遇到過這樣的這問題,那就是不同的論文查重系統得出來的檢測報告都各有差異,那到底以哪個為準?
  • 論文查重怎麼查?原來論文查重要這樣查,附論文降重技巧
    大家都知道,論文寫完之後,要進行查重,因為只有先查重,我們才能知道論文的重複率,才能更好地進行降重,將論文重複率降到學校規定的要求,才能順利通過。那麼論文查重怎麼查呢?很多朋友都不知道論文查重要查詢哪些內容,具體怎麼查。