作者:Douglas Heaven丨譯者:王心雨丨校譯:陳銘
目前,出現了一系列自動化的工具幫助進行同行評審,但是主動權仍然掌握在人類手中。大部分的研究者都有充分的理由抱怨同行評審,因為這是一個耗時間且容易出錯的工作。並且只有 20% 的科學家承擔大部分的評審工作,工作量分配嚴重不均。如今,人工智慧的出現有望改善同行評審這一過程,提高文章質量並節省評審時間。有一部分學術出版商已經在嘗試使用 AI 來幫助他們完成一些事情,例如選擇評審學者、統計和核查數據準確率、總結文章的新發現。今年 6 月,總部位於阿姆斯特丹的出版業巨頭愛思唯爾旗下的同行評審管理系統 Aries Systems 採用了一款名為 StatReviewer 的軟體,用於檢查來稿中的統計數據和方法是否真實可信。與此同時,廣受歡迎的同行評審平臺 ScholarOne 正在與丹麥奧爾胡斯的 UNSILO 開展合作。UNSILO 使用自然語言處理和機器學習等技術對來稿進行分析,並自動提取關鍵概念來總結文章的核心內容。但無論機器起了什麼作用,最終的決定權仍然掌握在編輯手中。英國出版顧問大衛·沃洛克(David Worlock)在 10 月份的德國法蘭克福書展上看到了 UNSILO 的展臺,他感嘆道:「它不會代替編輯的決策,但它能讓這個過程簡單了許多。」決 策
UNSILO 對來稿文章進行語義分析處理,提取文本中機器識別出來的主要語句。UNSILO 的銷售總監尼爾·克裡斯滕森(Neil Christensen)表示,這一方法得到的結果比作者自己提交的關鍵詞能更好地概述文章內容。他還補充說:「我們在他們的文章中找到了他們真正想表達的意思,而不是僅僅看他們在提交前五分鐘裡想出來的內容。」此外,UNSILO 還會識別出最有可能代表作者觀點和發現的關鍵詞語,從而讓編輯對作者的研究成果有粗略的了解。UNSILO 還能夠高亮出文章中與其他論文相似的觀點,用於檢測學術不端行為,或者將其與學界其他相關研究聯繫在一起。Christensen 認為:「這一工具並不是在做決定,而是在告訴你,這裡有一些內容和之前發表過的文章相比有些突出,而決定權在你手中。」 UNSILO 從 PubMed Central 這一龐大但有限的學術資料庫中採集信息。UNSILO 可以將新的來稿與資料庫中 170 萬篇已發表的生物醫學領域的研究論文進行全文比較。UNSILO 還與位於賓夕法尼亞州費城的 Clarivate Analytics 旗下的 ScholarOne 合作,訪問更多的數據,包括 Clarivate 的 Web of Science 資料庫。Giuliano Maciocci 在英國劍橋《eLife》雜誌上帶領一個新團隊,她認為 UNSILO 是一個有趣的解決方案,能夠解決同行評議中一些令人頭疼的問題,但是 eLife 不會考慮採用它。「在我們這樣一個非常重視專家管理的期刊上,這個工具可能用途不大。」Wizdom.ai 的董事 Worlock 注意到,市面上出現了很多類似的工具。Wizdom.ai 是一家由 Taylor & Francis 出版公司控股的新公司,該公司正在開發一款能夠挖掘論文數據並提取不同學科和概念間關聯的軟體。他認為,正在研發的這個工具不僅能夠在同行評審中起到作用,對於撰寫撥款申請和文獻綜述等都有幫助。從檢測學術不端到檢測 p 值
包括 ScholarOne 在內的很多平臺已經能夠自動進行學術不端評測,並且包括 Penelope.ai 在內的很多服務能夠檢查參考文獻和來稿的結構是否符合期刊的發稿要求。有一些工具還可以用研究質量進行標記。由荷蘭蒂爾堡大學的研發團隊開發的工具 Statcheck 能夠評估作者所報告的數據的一致性,聚焦於 p 值的大小。《心理科學》這一期刊把所有來稿都用這一工具檢測一遍,其他出版商更傾向於在同行評審中使用這個工具。荷蘭蒂爾堡團隊在分析《心理學報》期刊上的文章的時候,他們發現大約有 50% 的論文至少有一項數據統計不夠準確。在八分之一的論文中,有些錯誤甚至已經嚴重到足以影響已發表結果的統計意義。她說:「這令人擔憂。」但是她也表示並不奇怪這些評審學者會忽略這些錯誤。「沒有人有時間去核對所有的數字,你只會關注論文本身。」目前,Statcheck 僅限於分析使用美國心理協會報告格式進行數據統計的論文。與之相反,StatReviewer 的開發者——北卡羅來納州威客森林大學醫學院的蒂莫西·侯勒(Timothy Houle)和威斯康辛州新興科技公司 NEX7 的執行長查德威克·德沃斯(Chadwick DeVoss)聲明他們的工具能夠評估來自多個科學領域的標準格式展示風格的統計數據。為了做到這一點,這一工具可以檢查論文中的樣本大小和基線數據等信息是否正確。DeVoss 表示:StatReviewer 還能夠識別欺詐行為的標記,例如他們是否在玩弄數據規則或是偽造數據?如果風險要高於期刊接受的範圍,他們還可以調查細節。對算法進行測試
DeVoss 說 StatReviewer 正在接受幾十家出版商的測試,2017 年,倫敦開放出版商 BioMed Central 進行了實驗,但是沒有得出確定的結論。因為這個工具沒能分析足夠的稿件,但也提供了一些洞見。施普林格《自然》的公開研究傳播總監艾米·伯克維特(Amy Bourke-Waite)說,StatReviewer 抓住了人類評審員忽略的東西,善於發現不符合標準要求的論文。Bourke-Waite 還說:參加測試的作者們表示很開心,因為如果沒有 StatReviewer 進行報告,他們就會成為評審員撰寫評審報告。自動化的限制
即使實驗結果成功,但 DeVoss 預計只有少數期刊會願意付費掃描他們的來稿。所以他和他的同事們將目標轉向作者,希望他們在投稿前會使用這一工具檢查自己的文章。一般來說,在同行評審中,人工智慧存在著潛在的缺陷。一個擔憂是,使用以前發表的論文培訓的機器學習工具可能會強化同行評審中存在的偏見。Worlock 說:「如果你在過去被採納的文章的基礎上建立決策系統,不可避免會有內在的偏見。」 DeVoss 說:「如果一個算法在評估一篇論文後只提供一個總分,正如 StatReviewer 所做的那樣,編輯們可能會被這個結果影響,拒絕一些邊緣文章,只是依靠那個分數來決定是否採納一篇論文。」紐西蘭的同行評審跟蹤新興公司 Publons 的聯合創始人安德魯·普雷斯頓(Andrew Preston)表示,目前的算法還不夠智能,無法讓編輯僅憑藉提取的信息採納或者拒稿。「這些工具可以確保稿件達到標準,但是它們不可能取代評審員在評審方面所做的工作。」 一部分學者也表示同意:「算法需要一定的時間去完善,但是自動化處理一些工作是有意義的,因為同行評審中的很多事情都是有固定標準的。」(來源:科學網 - 數字科學交流)
作者應如何回復專家的評審意見
全球同行評議現狀報告中文版來襲
Editorial Manager投稿系統使用方法
Reviewer Credits,下一個Publons?