7月28日上午,美國國家標準與技術研究院(NIST)高級研究員,ACM Fellow Ellen Voorhees博士在第43屆國際信息檢索大會(SIGIR 2020)上以「信息檢索研究中的合作競爭」(Coopetition in IR Research)為題進行了主題報告。
智源社區為這次國際學術盛會提供了線上會議系統,並進行全程直播支持。
在報告中,Voorhees博士首先提出如何判別一個好的檢索結果,由於檢索本質是一種用戶行為,所以不同用戶有著不同甚至衝突的評判標準來判別一次搜索結果是不是好的。而如果想在信息檢索研究中引入類似基準數據集的相關測試,則需要組織者選一個合適的數據集,難度不能太大也不能太小,然後研究人員在這一數據集上進行測試,結果被組織者手動判別。
圖1:信息檢索研究中的競爭合作
Voorhees博士分析總結這種競爭合作機制的(1)益處:提升最好的性能(Improve the state-of-the-art),建立研究方法(Establish the research methodology),成立研究社區(Form/solidify a research community),促進科技遷移(Facilitate technology transfer),攤銷設施花銷(Amortize the costs of infrastructure);以及(2)風險:過度集中在單一任務上(Community overfitting to single dataset/task),任務概要表述不清(Poor task abstraction),算法認證方法不明(Method conformity)。
針對以上的分析,Voorhees博士結合文本檢索會議(Text REtrieval Conference, TREC)的例子對上述益處和風險進行案例分析。在提升最好性能方面,Voorhees博士結合統計數據發現社區過度把精力放在了單個任務上的結果並總結提出希望研究者可以做多樣化的研究系統,不要拘泥於單個任務的表現。
圖2:TREC最好性能方面分析
接下來Voorhees博士對研究社區方面的影響進行了分析,提出建立一個好的用於測試的任務需要考慮到難度選題等各個方面。
圖3:TREC研究社區方面分析
在研究方法上面,Voorhees博士提出進行規範化的測試是非常重要的並需要警惕數據集的濫用。
圖4:TREC研究方法方面分析
而在設施搭建方面,Voorhees博士提出搭建設施需要大量的時間和金錢,需要注意在研究社區中由參與者進行分攤。
圖5:TREC設備花銷分析
最後,Voorhees博士簡單介紹了TREC-COVID (CORD-19),一個未來應對未來生物醫學危機的大流行測試庫。在CORD-19中文檔的管理非常嚴格和高效,對未來的使用和比較有非常嚴格的規定。
圖6:CORD-19中的改變
作為 CCF 推薦的 A 類國際學術會議,SIGIR 歷來都是網際網路業內關注的焦點,會議覆蓋了信息檢索領域相關的各類前沿成果,包括基礎理論、算法應用以及評估分析。接下來, Salton Award獲得者Norbert Fuhr教授、ACM Fellow Elizabeth F. Churchill博士、澳大利亞科學院院士陶大程教授在內的四位專家學者進行相關主題報告。
點擊閱讀原文,進入智源社區參與更多討論。
作者:張偉楠
關於智源線上會議平臺
智源線上會議平臺,支持包括學術年會、學術報告會、學術沙龍、頭腦風暴、學術辯論會、學術講座、圓桌學術會議和學術座談會等多種會議形式,實現純淨版視頻觀看界面。