大數據文摘出品
作者:笪潔瓊、奧🌰vi丫、lin
密集警告!
先來感受下這場地獄級別的連連看:這是16小塊實驗數據圖,你能看出哪些塊存在相似的地方嗎?
文摘菌看了一會兒就頭昏眼花,但是,你相信嗎?有人可以用肉眼一下子看出其中相似的地方,而且,這就是她每天的日常工作。
這位「連連看高手」就是Elisabeth Bik,人稱跨國論文打假王,專門尋找論文中的異常,目前已經對超過49個國家的研究學者公開發表的論文提出質疑。
她的特殊技能是,可以用肉眼瀏覽數十篇生物醫學類的論文,並尋找其中重複使用的圖像,這些重複圖像包括通過複製、翻轉、移動或旋轉圖像的一部分來創建「新」的實驗數據。
2019年11月,在PubPeer(可匿名討論論文的網站)上,南開大學的校長曹雪濤教授,有超過40篇論文的實驗圖像數據,被質疑存在重複異常。(事後曹教授被質疑的論文已進行更正)
2020年2月,來自我國三甲醫院的400多篇論文被她質疑是論文工廠代寫,論文中的實驗圖像數據以及寫作邏輯都存在問題。
本月初,Bik質疑中國醫學科學院動物研究所所長秦川團隊,在Nature上發布的論文存在重複圖像,5天後秦川團隊回應:誤用一張病理學實驗數據圖片,已向Nature提交更正。
沒錯,這些異常都是她憑著火眼金睛找到的。
走上打假之路之前,Bik也是一名普通的研究者。
1997年,Bik在荷蘭的烏得勒支大學(Utrecht University)結束了她從理學碩士到博士後的研究學習生涯,並於2002年去史丹福大學做助理研究員,此後15年都在研究人類以及哺乳動物的微生物群方向,直到2019年開始「全職「進行論文打假工作。
Bik論文打假工作開始於2013年的一次小意外。當時Bik出於好奇,去搜索了一下自己已發表論文中引用的參考文獻,沒想到其他人沒有按照學術規範表明,進行引用文獻說明。
接著,她在審核一篇博士論文的時候,發現其中的一張實驗圖像:蛋白質印跡的分布規律十分奇怪,更為奇特的是她在論文的另外一章裡也看到了這張圖像,論文裡是將這張圖像作為兩次不同的實驗結果,但Bik認為該圖像不僅本身存在問題,而且還用在兩個不同的實驗中。
由於該論文已經公開發表了,她為了不讓其他研究者因為這篇有錯誤的論文,而開始錯誤研究的路,就向該期刊的編輯發送郵件說明這個問題,並在同年6月在PubPeer網站上對該論文進行匿名評價。
經過一番調查,相關論文被撤回,而這篇涉嫌篡改數據的論文,讓Bik一戰成名。
接下來,Bik開始對尋找造假實驗圖著迷了,由於看論文非常耗費時間,所以她辭掉了醫藥公司的研發總監工作,專心進行論文打假。
Bik對論文打假比本職工作更有激情,她每次提出質疑不止一篇而是好幾篇,甚至是幾百篇打包式質疑,並及時通過和期刊編輯聯繫,對存在異常的論文進行更正或者撤稿。
由於論文數量比較多,她還找到志同道合的朋友一起合作,Bik負責篩查論文,並將篩查出的問題論文結果,傳給兩位朋友:微生物學家Arturo和Fang進行審核,儼然一條論文打假流水線。
他們一共對2萬多篇論文進行抽樣調查,結果發現了782篇論文存在圖像重複的情況。Fang表示:「Bik就像是魔術師,論文中的問題只有經她指出,我們才看得到」。
Bik的日常是從早上開始看論文,一天她收到了來自比利時的科學家的求助信,信中聲稱:請幫忙看看附件裡的實驗圖像是否存在問題?
Bik仔細看了下圖像,發現該蛋白質印跡圖像屬於存在異常的,通常蛋白質印跡條帶分布圖(一種檢測生物樣品中蛋白質的通用測試結果)是模糊,而且類似圓滑的黑色毛毛蟲狀,但圖像上是邊緣非常尖銳,而且像素化的特徵非常明顯。
正常的實驗圖像可能會存在類似的印跡分布,但不大可能出現完全相同的分布。
當然也可能存在圖片被壓縮後的痕跡,或者是研究者在準備圖像數據時不小心上傳了重複圖像,以及舊顯微鏡上的斑點導致每張圖上都有奇怪的斑點。她還需要參考論文的其它地方再來判斷是否存在重複圖像的問題。
雖然她在自傳裡評價自己是直率又刻薄,但她同時又極度內斂。
在她打假成名之後,有非常多的人給她發郵件、發消息,希望她能幫忙看看已發布的論文是不是存在問題。由於數量太多,讓她忍不住發推聲明:因為詢問的人數太多,所以她可能無法及時跟進。並且在這些求助信息裡,還存在團隊或同事之間的不信任,「做一個誠實的科學家真難。」
雖然Bik對於目前的打假工作充滿熱情,但還是會受到威脅和騷擾。比如經常收到私信被罵,推特頻繁被下線,寫郵件給前同事說壞話之類的情況。
要知道,論文打假行業不僅僅只有她一位論文警察,就只有她是公開使用真名發布打假信息。
她開始在每篇文章的開頭寫上:這篇文章不是對學術不端的批評。
由於Bik持續打假,她的粉絲量在一年內翻了三倍。她不僅自己尋找問題,還將發現有問題的論文提前發到推特上,看誰能先找出來問題,並號召大家一起來找茬,第一個答對的人有獎勵,甚至還有粉絲找到了她都沒有找到的隱藏彩蛋。
她自己保守估計至少導致了172次論文退稿,以及超過300次修改。
Bik一天可以精讀大約100篇論文,並向她的資料庫中添加1到20個匹配數據。當一張重複的問題圖像反覆出現,以及一張熟悉的問題圖像再次出現時,系統就會出現提示。當收集的圖像數據足夠多時,系統就可以自我總結規律,比如多次出現問題的研究者就會重點審核。(敲黑板警告)
雖然Bik表示她不針對任何人,但資料庫裡問題最多的研究者的國籍是中國和印度,重複的圖像更喜歡低影響力的期刊。
根據這個資料庫,Bik在和計算機科學家合作開發一款自動查重圖片的軟體,希望可以在數百萬篇論文中發現重複使用的圖片。
「很遺憾,我們不能克隆Elisabeth Bik,」紐約雪城大學的計算機科學家Daniel Acuna說,他的小組是專門研究問題圖像檢測算法,儘管Bik擅長在單篇論文裡查找複製的圖像,但計算機可以通過比較數十萬篇或數百萬篇論文,來幫助找到兩篇論文之間的更多的重複,這對人類來說幾乎是不可能的任務。
2018年,Acuna的團隊在bioRxiv預印伺服器上發布了分析的初步結果,該分析結果從760,000篇論文中提取了200萬張圖像。
事實證明,計算量太大,根本無法將每張圖像彼此進行對比,但是該團隊研究了同一作者在論文內部和跨論文的圖像重複,在手動檢查了軟體標記的3,700多個匹配圖像的樣本後,研究人員確認了40篇異常論文,其中幾乎一半涉及同一張圖像,用於在不同的論文中代表不同的結果。
當前的技術擅長檢測複製,翻轉或旋轉的完全相同的副本。Resis 公司有款軟體,可以檢測論文是否使用重複圖像。比較麻煩的是,例如兩張圖像共享一小塊重疊區域,但在其它方面完全不同。這時,軟體就失效了。
Bik給Acuna提供了更多的樣本數據來訓練機器學習算法,其中包含了大量重複的圖像數據。愛思維爾(Elsevier)也在研發同類型的資料庫,現有500個生物醫學方向的樣本數據,主要是來自撤回論文的圖像數據。
Bik對目前能用的軟體都不滿意。她相信未來會有電腦程式來進行篩選,但人們將始終需要審核結果,尤其是要審核在某些情況下的圖像,存在部分相似的情況。
就這樣,Bik倒了一杯咖啡,坐在桌旁繼續看論文,落地窗外是滿滿的果樹和植物。
相關參考:https://www.nature.com/articles/d41586-020-01363-zhttps://scienceintegritydigest.com/https://scienceintegritydigest.com/2020/02/21/the-tadpole-paper-mill/