研究員開發新算法打擊學術造假 用AI查重論文圖片

2020-12-05 中國新聞網

  有圖無真相

  在打擊學術造假的徵途上,學術規範機構又下一城。

資料圖:人工智慧機器人。

  來自美國紐約雪城大學(Syracuse University)的機器學習研究員丹尼爾•阿庫納(Daniel Acuna)等在2018年開發出一套算法,能利用人工智慧(AI)識別學術論文中的圖像造假,對論文圖片進行查重。

  他們分析了生命科學領域來自4324本期刊的76萬篇開放獲取(Open Access)論文,並從中提出有效的263萬張圖片。其中,約有9%的圖像存在高度重複。該團隊又在其中選取了約4000張可疑圖片進行人工核查。經測算,在所有論文中,約1.5%存在學術不端的嫌疑,0.6%確認存在圖像方面的論文造假。

  在學術造假上,圖片是藏汙納垢的死角。《科學》(Science)雜誌和《撤稿觀察》(Retraction Watch)2018年發布報告稱,在過去10年裡,學術期刊撤回的論文數量增加了10倍。這些論文中,約有1.7%是因為篡改了論文圖像被撤回。

  美國賓夕法尼亞大學生物工程副教授阿榮•拉傑(Arjun Raj)早在2012年就指出,一篇生命科學領域的研究論文背後的科學成本約為30萬-50萬美元。2012年全年,美國研究人員共發表該領域論文15.2萬篇。如果其中1.7%因圖片造假需要被撤回,則僅在2012年,因此造成的損失就接近10億美元。

  根據出版機構的統計,全球科學產量每9年就會翻番。

  過去,圖片審核工作往往要靠人力完成,幾乎沒有自動化的流程。《自然》(Nature)雜誌會對收到的稿件隨機抽樣進行檢查,並要求作者提供未編輯的圖像作參考;生命科學領域的重要刊物《細胞生物學雜誌》(Journal of Cell Biology)和《歐洲分子生物學組織雜誌》(The EMBO Journal)會對圖片進行手動查重。

  2018年6月,來自史丹福大學的微生物學家分析了2009-2016年發表在《分子與細胞生物學》(Molecular and Cellular Biology)上的960篇論文,發現其中59篇含有「不適當的」重複圖像,約有2%值得再去進行圖像證偽。他們將情況反映給出版機構後,42篇論文更正了圖片,5篇被撤稿。

  圖片查重費時費力,以至於多數刊物都沒有這項流程。《歐洲分子生物學組織雜誌》主編表示,人工篩選非常耗時,早就應該有一個常規的、自動化的工具簡化這一過程。

  美國誠信研究辦公室(the United States Office of Research Integrity, 簡稱ORI)的數據顯示,圖片造假的情況一直在惡化,標誌性的兩個時間是1990年和1996年,Photoshop的Mac版和PC版在這兩年發布。

  但即使是ORI,每年也僅報告了10例圖片造假的行為。因為成本過高,他們不會主動審查學術不端,僅在有舉報的情況下進行。

  自誕生起,學術論文就承擔著描述科研成果、進行學術交流的重任。它還被用來衡量學者的學術水平,是評定職稱、獲取科研經費等環節中考察的重要的內容。因此,判斷一篇學術論文是否由抄襲、造假得來至關重要。

  在計算機技術不夠發達、資料庫尚未開放共享的時代,識別學術不端不得不依靠評審編輯慧眼如炬。在中國,論文文字查重體系一直到2005年前後才建立。後來,人們又不斷優化這個系統,從能識別「複製粘貼型」抄襲,到能識別改變用詞和句法的抄襲,但圖片重複一直是論文查重的死角。

  道高一尺,魔高一丈,心懷不軌的研究人員已經學會了應付能識別文字抄襲的系統。在生命科學等依賴圖像實物的研究領域,圖片造假的難度和成本會更高。

  2014年轟動學術圈的小保方晴子學術造假醜聞中,她的團隊被發現使用了小保方晴子博士學位論文中的圖片,用來證明新的發現。更多時候,造假來得更隱秘,研究人員用旋轉、裁剪、調整大小和對比度的方式調整圖片。它們常常難以被察覺,直到前赴後繼的科研人員發現研究成果無法復現。此時,大量的人力和資金成本都被浪費了。

  如何解決這個問題,仍然是擺在我們面前的一座大山。即使是丹尼爾•阿庫納等人開發出的算法,也面臨很大的困難。在每一個領域,我們需要專業人士進行足夠數量的前期人工標註。

  這套算法的運算速度也有限,目前只能考察作者自己發表的諸多論文中是否存在重複,尚無法應對以億為單位的出版文獻庫。出版巨頭愛思唯爾(Elsevier)誠信部門主管也表示,出版商需要創建一個共享的資料庫,以便進行相關檢索,查實論文圖片重複使用的情況。

  我們似乎無法阻止「魔」的存在,只能努力讓「道」高得快一點(王嘉興)。

相關焦點

  • Nature:學術造假者的噩夢!論文圖像查重軟體研發成功,造假圖片,無...
    近日,Nature 雜誌新聞版發布了一篇重磅消息:論文圖片查重軟體研發成功,軟體開發人員在對 3500 篇預印版論文進行的檢測中,找出 24 張涉嫌重複 / 造假的圖像。
  • Nature:學術造假者瑟瑟發抖,論文圖像查重AI技術重拳出擊
    ,他用這款軟體檢查了3500篇論文的21,000張圖像,在4小時內查出大約400張疑似重複的圖像,這項技術或許將為學術造假亂象的解決帶來曙光。近三年來,剽竊和錯誤是中國SCI論文撤稿的首要原因。其中剽竊主要是指文字抄襲,目前的查重系統只能查重文字,不能查重圖像。而錯誤則主要是指 圖像錯誤,包括經過PS然後重複使用的圖像。學術論文造假手段常用的有四種:1、重複用圖;2、編造數據,用ps塗抹修圖;3、花錢買論文;4、偽造審稿人。其中第一種和第二種最常用,造假成本最低,以重複用圖進行學術造假的案例屢見不鮮。
  • 別再抄襲論文圖片了,機器學習算法能自動檢測出來
    雷鋒網 AI 科技評論按:近期來自紐約雪城大學的 Daniel Acuna 等人在 bioRxiv 上發表了一篇文章,作者在文章提出了一種機器學習算法,該算法能夠自動進行論文圖片查重,其目的旨在解決文獻查重中的一個死角——圖片查重。目前許多期刊都會對一些圖片進行查重,但只有極少數的期刊有自動化的查重流程。
  • 學術不端、學術造假的事件也越來越多
    所有本科畢業論文的質量由各個學生的畢業論文指導老師具體把關,首選知網,畢業之家網今天為大家介紹大學生和研究生兩個系統的區別:對於畢業論文查重。圖片在畢業論文中起到至關重要的作用,維普檢測系統查重之後。
  • 發表的論文造假的後果,中國學術造假從來不缺例子
    自2011年起,教育局開始嚴打學術不端風氣,一時之間,怨聲四起。  即將畢業的時候,我們都會以畢業論文的形式來進行結業的主要條件,這不僅僅是大學生,研究生,碩士生也均有所情況。同時還要痛苦的進行論文查重,不過,值得我們注意的是,論文不僅出現在教育事業中,就是在社會學術上也所有體現。
  • 中文論文投稿查重率要低於多少?
    作者:新風學術網 成功投稿發表類期刊論文,對於需要職稱評定的朋友來說非常重要,而雜誌社、學報等為了打擊學術造假行為,都會對投稿論文進行查重,檢測合格者才有機會發表論文,那麼中文論文投稿查重率要低於多少才算合格呢?降低中文投稿論文查重率的方法又有哪些呢?
  • 論文抄襲,學術造假為何屢禁不止?
    學術造假,論文抄襲這一現象屢禁不止,本應該是象牙塔的大學卻有那麼多不應該有的現象,這合理嗎。先有讚美師娘,再有實名舉報導師抄襲,還有許多的學二代應該勵志攀巖科學的頂峰,難道做學術就不能堂堂正正嗎?作為一個掌握科研機會的家庭,讓孩子更早的接觸科學,無可厚非,這樣的孩子更有機會在科研上做出成就,可是現在的學二代不用做實驗,躺著就能水論文,仿佛一出生就自帶兩篇scl。網友說的好,真科研,還得看小學生。其次,對於學術造假的事情很難判斷,對於普通人來說舉報個不做事的官員簡單,可是分辨一篇文章的好壞就難了。正經人誰去知網看文獻啊,作為一個大學生除非百度抄不到,要不然誰去翻文獻啊。
  • 失效的學術「測謊儀」:高校論文查重利益鏈如何「瞞天過海」
    (圖片來源:全景視覺)經濟觀察報 記者 吳秋婷「幫助您掃清畢業路上的一切障礙」「抓緊時間行動起來,錯過這波高峰期,就要等明年了。」5月1日下午,薛衛洋給公司論文查重的校園代理們發了這樣一條微信。5月是高校論文定稿的高峰期,也是他與校園代理們一年中最忙碌的月份。
  • 計算機審查難擋論文造假
    如果說論文抄襲、成果造假等學術不端行為是高校的陳年頑疾,那麼,近日媒體揭露出論文造假已形成規模化產業鏈,這種觸目驚心的黑幕,則象徵著這一陳年頑疾開始癌變,對教育主管部門及高校治理學術腐敗的努力構成極大的威脅。  近年來,教育主管部門及高校為打擊論文造假等學術不端行為,做了多種努力,採取了種種舉措。
  • 「畢業之家」揭秘:大學生知網論文查重的規則及查重原理
    後續會持續為大家更新畢業論文寫作、修改、降重,記得關注喲。說道大學生學位論文查重,大家不得不提起知網。知網真的是強勁的學術軟體和查重軟體。知網的功能很多,僅僅這個名字就可以辨別出那些「渾水」的學術造假者。翟天臨的一句「知網是什麼」就讓他顯出了學術造假來。知網的影響力真是大。
  • 徐耀:論文查重與學術無關
    原標題:論文查重與學術無關 今年中國科學院正式進入學位論文查重時代,有必要銘記這個偉大的舉措。 高校系統實行論文查重已經多年,中科院遲遲沒有進入,原因在於研究所的抵制,這是我親歷的。幾年前,我所在的研究所學位委員會召集全體博導開會,討論中科院研究生院(那時還未成立國科大)下達的關於論文查重的意見徵集稿。
  • AI圖像查重4小時篩查3500篇論文
    7月24日,署名詹啟敏的作者在「瀟敏ScienceArt」公號上回應稱,已與論文合作者仔細核實相關文章表述和實驗結果,認真開展討論,目前並未發現數據造假和學術不端情況。新冠論文大篩查:4小時、3500篇論文、2.1萬張圖像今年6月,雪城大學計算機學者丹尼爾·阿庫納(Daniel Acuna)利用開發的圖像查重軟體,提取和比較了預印本網站bioRxiv
  • 圖像查重軟體研發成功,4小時查3500篇論文
    7月21日,《Nature》發布了一篇重磅新聞:論文圖片查重軟體研發成功。該軟體的研發者是美國Syracuse大學的機器學習研究者Daniel Acuna。眾所周知,在目前的論文查重系統中,一般只能對文字部分進行查重,無法對圖片部分查重。因此,除了文字抄襲外,最常見「撤稿原因」就是圖片「錯誤」。當前,僅靠人工檢查,就已經發現了大量造假的圖片。
  • 論文查重要求更為嚴格,畢業生「禿頭痛哭」:論文抄襲造假的後果
    論文查重要求更為嚴格,畢業生「禿頭痛哭」:學術論文抄襲造假會有什麼後果?01 公眾人物論文抄襲曝光說起翟天臨,如今人們的印象除了是優秀的演員以外,更對他多了一層人物濾鏡——不知道「知網」為何物的北大博士後。
  • 什麼是論文查重?論文查重查的是什麼?
    大家在日常生活中肯定聽到過這樣一個字眼,叫做「論文查重」。論文查重這四個字經常出現在大學裡面,當然,也活躍在碩士生和博士生的生活中。那麼,什麼是論文查重?論文查重查的是什麼呢?想知道答案的朋友們,請跟著小編的步伐,一起來了解一下吧。
  • 中國團隊 Nature 新冠論文被指圖片造假,又是科研「P圖」?
    mice 的研究論文,研究使用新冠病毒(SARS-CoV-2)感染 hACE2 轉基因小鼠,研究了新冠病毒的致病性,相關結果曾於 2020 年 2 月 28 日提前發布在預印本 bioRxiv 上。然而 5 月 12 日,著名國際「學術打假人」——前史丹福大學助理研究員 Elisabeth Bik 博士在 PubPeer 和其 Twitter 上質疑該 Nature 論文不端,存在圖片內容重疊問題。
  • 論文查重知識普及啦?
    論文查重知識普及啦?很多畢業論文寫作的朋友不太清楚論文查重是什麼概念,今天論文查重檢測服務papercrazy收集整理到了一些論文查重知識,常見問題,為大家科普一下,希望對此能有所幫助! 1. 什麼是論文查重?
  • 大學生是用知網的PMLC查重系統進行論文查重嗎?
    近幾年國內學術不端現象越來越嚴重,大學都需要對論文進行查重,目前檢測系統主要有知網、維普、萬方重軟體。多數大學都在使用知網,而知網的版本有不少,例如:知網 VIP、 PMLC、 AMLC和 SMLC。
  • 清華醫學院院長董晨被質疑 24 篇論文造假,本人回應:基本排除惡意...
    Science報導曹雪濤事件時稱,「中國學術造假的成本太低甚至沒有。」再比如,韓春雨的學術造假風波,買賣論文風波鬧到現在,他依然沒有被開除處理。還有網友將造假的原因歸納了兩個方面:生物醫學產出評價模式、生物醫學產出本身。還有網友總結了造假的幾個手段:1.編造數據,用ps塗抹修圖;2.花錢買論文;3.偽造審稿人。
  • 論文查重須知,學術不端行為主要有哪幾種?
    面對學術不端行為屢屢出現的情況,知網的學術不端文獻檢測系統在做論文查重檢測時發揮了非常大的作用,而且效率很高。當前知網在國內比如學術、科技期刊等使用十分廣泛,有賴於知網學術不端文獻檢測系統的幫助,能快速查出在學術研究中存在的抄襲、學術造假等不端行為。根據檢測結果,有關的編輯出版部門會根據實際情況給予制止。那麼在初審環節,存在的學術不端行為主要有哪幾種?