大多數研究者都有理由指摘同行評議:費時又容易出錯,而且工作量分配不均,20%的科學家承擔了大多數的同行評議工作。
但是人工智慧(AI)卻有望改善同行評議過程,提高發表研究的質量,並且節省評閱人的時間。
自動化工具可以減輕同行評議中的負擔。來源:Mary Evans/Classicstock/H. Armstrong Roberts
不少學術出版商正在試驗AI工具,用來挑選評閱人,檢測統計數據,歸納研究發現等。
出版業巨頭愛思唯爾(Elsevier)的同行評議管理系統Aries Systems曾採用了一款叫做StatReviewer的軟體,該軟體可以檢測稿件中的統計數據和研究方法是否靠譜。
許多期刊採用的同行評議平臺ScholarOne也和丹麥的UNSILO達成了合作。UNSILO採用自然語言處理和機器學習來分析稿件,它能自動選出關鍵概念來總結論文內容。
最關鍵的是,稿件的最終決定權還是在編輯手上。
英國的出版顧問David Worlock 表示:「它並不會取代編輯的判斷,但是它讓編輯的工作變得更容易了。」Worlock曾在上個月的法蘭克福書展(Frankfurt Book Fair)上見過UNSILO的展示。
掌握決定權
UNSILO採用語義分析方法從稿件中提取主要觀點。UNSILO的銷售主管Neil Christensen表示,它比讓作者自己提交關鍵詞的傳統方法要好,對文章的概括性更高。他說:「我們可以在作者撰寫的文章中找到重要的句子,而不是他們在遞交稿件前花5分鐘想出來的關鍵詞。」
UNSILO接著會分析這些關鍵句中,哪些最可能代表了研究的主要觀點或發現,這能讓編輯迅速了解一項研究的結果。這個方法也能判斷稿件的觀點是否和已發表論文雷同,這樣就可以檢測剽竊,或者把稿件和文獻中的相關研究聯繫在一起。
Christensen說:「工具本身並不會做決定,它的作用就是告訴編輯『這個稿件和其它已發表的論文相比,有什麼不同點』。最終的裁判是你。」
UNSILO的原型從PubMed Central學術資料庫中獲取信息,比較稿件和170萬(雖然這個數值很大,但依然有限)已發表的生物醫學論文全文的差異。這家公司表示,未來它會加入超過2000萬篇PubMed的論文。
它和科睿唯安(Clarivate Analytics)旗下的ScholarOne也有合作關係,這為它帶來了更多的資料庫,比如科睿唯安的Web of Science資料庫。
同行評議中的一些步驟越來越多地由軟體執行。來源:iStock/Getty
期刊eLife的創新團隊負責人Giuliano Maciocci表示,UNSILO為同行評議過程中的一些難點提供了有意義的解決方案,但是eLife並不會考慮採用這類工具。他說:「我們不確定對於我們這樣的期刊來說,這個工具有什麼用處,因為專家的人工判斷非常重要。」
Worlock注意到有些類似的工具出現了。他是位於倫敦的初創公司Wizdom.ai的董事會成員,該公司隸屬於泰勒弗朗西斯集團(Taylor & Francis),目前正在研發可以挖掘論文資料庫、發掘不同學科和概念之間聯繫的軟體。他指出,這類工具很快就可以應用在同行評議之外的地方,比如撰寫經費申請或文獻綜述。
從剽竊到p值
包括ScholarOne在內的許多平臺已經開始使用自動剽竊檢測工具了。類似於Penelope.ai的工具則可以檢測稿件的參考文獻和結構是否符合期刊要求。
一些工具也可以標記研究質量問題。比如荷蘭蒂爾堡大學(Tilburg University)的方法學家 Michèle Nuijten 和同事研發的statcheck可以檢測論文的統計報告(主要是p值)是否前後一致。期刊《心理科學》(Psychological Science)用這個工具審查了所有論文。Nuijten表示,其它出版商也有興趣在同行評議中使用這個工具。
Nuijten團隊在分析心理學期刊中的論文時發現,大約50%都包含至少1個統計矛盾。八分之一的論文的統計數據出現了很嚴重的錯誤——足以改變研究結果的顯著性。
她說:「這很令人擔憂。」但是對於評閱人的失誤,她並不感到吃驚,「並不是所有人都有時間檢查所有統計數據,你關注的是研究的主要發現或是整體結果。」
目前statcheck僅限於分析符合美國心理學會(APA)的統計報告格式的稿件。
但是StatReviewer的研發者——維克森林大學醫學院的Timothy Houle 以及科技初創公司NEX7的CEO Chadwick DeVoss表示,這個工具可以檢測符合多個領域的標準論文和報告格式的統計數據。這個工具可以檢測論文是否包含樣本容量,被試是否對試驗假設不知情,以及基線數據等重要信息。
DeVoss 表示,StatReviewer 也能檢測學術不端行為,「比如作者是否操縱了數據,或直接編造數據?如果學術不端的風險高於正常水平,那麼編輯就可以進一步查看具體情況。」
試驗中的算法
DeVoss表示,幾十個出版商正在測試StatReviewer。2017年,開放獲取出版商BioMed Central的試驗並沒有得出決定性結論,因為他們測試的稿件量不夠多。不過這次試驗還是帶來了一些深刻見解(BioMed Central正在規劃後續研究)。
施普林格·自然(Springer Nature)的開放研究傳播主管Amy Bourke-Waite表示,StatReviewer能夠覺察人類評閱人容易忽略的信息。比如,它善於篩選不符合格式規範(如許多出版商使用的CONSORT格式)的稿件。施普林格·自然是《自然》(Nature)的出版商(但《自然》的新聞團隊與施普林格·自然編輯獨立),BioMed Central也隸屬於施普林格·自然。
Bourke-Waite也提到,參與了試驗的投稿作者表示,不管是人類評閱人還是StatReviewer的評閱意見,他們的滿意度沒有差別。
她說,有時StatReviewer也會犯錯,但是某些錯誤會讓作者注意到自己在稿件中沒有闡釋清楚的地方。
自動化的限制
DeVoss預計,即使這些試驗最終成功,也只有少數期刊願意付錢來檢測自己的稿件。因此,他和同事打算把目標轉向作者,他們希望論文作者願意使用該工具在投稿前進行自查。
整體而言,用AI來進行同行評議存在風險。其中一點在於,利用過去發表的論文訓練的機器學習工具會強化已有的同行評議偏見。Worlock說:「在期刊過去錄用的論文基礎上建立的決策系統會有內在偏向性。」
DeVoss表示,如果算法在評估論文後給出了一個單一分數(如StatReviewer所做的那樣),編輯就容易抄近路,簡單粗暴地依賴這個分數來決定是否錄用稿件。
科睿唯安收購的同行評議追蹤網站Publons的聯合創始人Andrew Preston認為,算法還沒聰明到可以讓編輯用它們提取的信息來決定是否錄用稿件的地步。Publons使用機器學習來研發一種工具,用以推薦同行評議專家。「這些工具可以保證稿件達標,但是它們無法取代評議專家。」
Nuijten也表示同意:「需要時間來完善算法,但是自動化是有意義的,因為同行評議過程中的許多步驟是標準化的。」
微信公眾號全新改版
如果你還想找到「我是科學家」
請儘快將【我是科學家iScientist】設置為「星標」
歡迎個人轉發到朋友圈
你願意讓AI來審稿你的論文嗎?