學術界該相信AI還是審稿人?
匿名且具有各種迴避措施的同行審閱是今日大部分學術期刊依賴的評審制度,也就是整個學術界的支柱,隨著全球高等教育水平的提升及科研的快速發展,許多頂級期刊及國家級科研單位在手稿及資助的審閱分量日益增加,擔任同行審閱的審查人工作分量呈現超飽和狀態,成為整個學術界亟待解決的問題。
2016 年美國數字媒體公司Vox Media旗下新聞網站Vox發表了一篇針對英語世界科研人進行的調查,提出同行評審崩壞的觀點。那麼國內的情形呢?最近陸續有NeurIPS曝出,啟用了剛畢業且沒有中過NeurIPS論文的本科生擔任審稿人,人工智慧頂會IJCAI 19遭同樣批評,就在剛剛11月初,深度學習領域頂級會議ICLR 2020被爆47%審稿人無相關經驗,因為資深學者抵不上新進學者的成長速度,早前,有人擔心,這樣的現象最終會摧毀整個學術界。
漢語世界的同行審閱到底壓力有多大?國家自然科學基金委員會(National Natural Science Foundation of China,簡稱NSFC)在2018年就評審了22.5萬份基金申請,幾乎是美國國家科學基金會收到的6倍,而且數字還在成長中。在缺乏足夠審稿人的現實下,NSFC被迫進行了創新:今年5月Nature發表文章稱,NSFC正在建立一個更加複雜的系統,將利用自然語言處理技術抓取在線科學文獻資料庫和科學家的個人網頁,收集潛在評審人員的出版物或研究項目的詳細信息。NSFC負責人李靜海表示,還希望這個工具能夠減少審稿人評審時的偏見,並且AI是不會被行賄收買的。
2017年Elsevier開發了一套名為「Evise」的自動化工具來幫助進行同行評審,Frontiers也在2018年推出下一代通常評審AIRA,試圖解決日益增長的稿件提交量,並更有效地保護稿件和同行評審質量。今年4月挪威研究委員會開始使用自然語言處理技術,將大約3000份研究提案分組,並將它們與最佳評審小組進行匹配。Frontiers的質量和道德高級經理Marie Soulière表示,AI系統能標記有潛在問題的稿件,告知需要手動檢查的內容,使審查更加準確,在抄襲檢查方面超越人工檢查的成果。
事實上,AI文件審查系統並非學術界的創舉,2018年3 月,專攻合同審查領域的 AI 初創公司 LawGeex 與史丹福大學、杜克大學和南加州大學的法學教授合作,讓 20 名律師與經過訓練的法律 AI 程序挑戰,審查 5 項保密協議,並確定 30 個法律問題,結果律師平均正確率為 85%,AI 則拿下了 94% 的正確率達,而且 AI 只在 26 秒內完成任務,人類律師平均需要 92 分鐘。
然而,許多學術界人士對AI參與同行審閱保持懷疑的態度,最大的質疑是AI連自然語言的處理都還無法過關,又如何處理學術期刊審閱呢?其他人則擔心AI系統最終會複製人類判斷中根深蒂固的偏見,還有學者舉出,一個想法可能需要幾十年的時間才能被鑑定是「偉大的」或是「無用的」,連人類都無法處理的議題,難道AI真的可以做得好嗎?其實質疑AI參與審閱的人大可先作壁上觀,因為審稿人握有最終決定權力,AI 只是改善或加速流程,並協助人類處理必須投入大量心力才能抓到的錯誤,由於AI 已經能夠在專門的領域特定功能上達到很好的表現,相信AI與審稿人的合作將是學術界的趨勢。