SIGIR 2020最佳論文公布,清華大學攬多個獎項,大三學生摘得最佳短...

2020-12-23 騰訊網

新智元報導

來源:智源研究院

編輯:白峰

【新智元導讀】7月29日晚,第43屆國際 「信息檢索研究與發展」 年會(SIGIR - The International ACM SIGIR Conference on Research and Development in Information Retrieval)最佳論文正式公布。

本屆會議最佳論文獎由康奈爾大學Thorsten Joachims團隊獲得,共同一作是Marco Morik和Ashudeep Singh。

清華大學本次獲得了多個獎項:最佳論文榮譽提名獎由清華大學張帆(一作)等獲得,智源學者劉奕群也是作者之一;兩個最佳短論文獎也都被清華大學摘取,第一作者分別是常健新和於是。值得一提的是,於是目前是大三學生,智源學者劉知遠是指導老師之一。

本次會議共收到論文投稿總數 1180 篇,總共錄取 340 篇。其中,長文投稿555 篇,最終錄用 147 篇,錄用率約 26%;短文投稿507 篇,最終錄用 152 篇,錄取率約 30%。這是SIGIR繼2011年於北京刷新該會議論文投稿記錄後,時隔9年回到中國,投稿量和錄取率再創新高。來自 32 個國家的 1221 名作者為錄用論文做出了貢獻。

最佳論文獎

論文:Controlling Fairness and Bias in Dynamic Learning-to-Rank

論文地址:https://sigir-schedule.baai.ac.cn/poster/fp0069

本文作者:Marco Morik, Ashudeep Singh, Jessica Hong, Thorsten Joachims。其中Thorsten Joachims教授是康奈爾大學計算機系的教授,ACM Fellow,多年致力於無偏排序(unbiased ranking)的研究,在數據挖掘相關的頂級會議如KDD、SIGIR、WWW、WSDM、CIKM發表多篇相關著作,其中很多工作都頗具影響力,比如發表在SIGIR 2005上的Accurately interpreting clickthrough data as implicit feedback可以稱得上是無偏排序的開山之作之一。

論文介紹:

排序算法在很多在線平臺將用戶和項目(比如新聞產品音樂等)進行匹配,在用戶和項目雙邊考慮中,用戶不僅評估排序算法的效益,而且排序算法本身也影響了項目提供端(比如出版商)的效益(比如曝光度)。目前的排序算法中並沒有考慮到在項目提供端的效益。基於這些考慮,本文提出了顯性的基於組(比如相同出版商出版的文章)的公平排序算法。在保證公平的同時,本文的算法可以有效的優化排序算法的效果。

具體來說,本文主要研究了動態學習排序算法,在算法設計中,有兩個點需要重點考慮:一是排序系統本身會造成偏差(bias),這是由於排序高的項目可以獲得更多的反饋,這樣會造成這次排序高的項目在下次排序中排序也會高(richer-get-richer)。

偏差示意圖(排序越高反饋越多)

二是排序系統本身是曝光度裁決者的身份,會直接影響曝光度和項目提供端相關收入,所以在排序過程中,需要考慮項目的公平性(fairness),比如項目曝光度(exposure)需要相關度(relevance)正比。

公平性示意圖(圖中左右排序項目的曝光度與相關度並不是正比的,所以是不公平的)

出於這種考慮,為了解決偏差問題,本文建立一個基於IPS(Inverse propensity weighting)的非偏估計機制(unbiased estimator)來估計文檔的條件相關度,這種非偏估計機制可以根據有偏的點擊,估計無偏的條件相關度。為了解決動態排序中的公平問題,本文採用了P-controller(proportional controller)的形式,動態地調整排序策略,使得之前曝光程度不夠的文檔能夠得到更有效的曝光。該方法被證明可以在平均相關度估計收斂的情況下,使得不同組間曝光度-相關度比例的差距以一定的比例收斂到零。為了驗證提出算法的魯棒性和效果,作者分別在半生成的新聞數據集和真實的電影數據集上進行了實驗驗證。該算法不僅可以取得良好的排序效果和公平性,並且非常高效,容易實現。下圖為本文提出算法和線性規划算法的比較。

實驗結果圖(左圖排序算法表現,右圖公平表現)

整理:上海交通大學 張偉楠副教授

博士生晉嘉睿、戴心儀

最佳論文榮譽提名獎

論文:Models Versus Satisfaction: Towards a Better Understanding of Evaluation Metrics

論文地址:https://sigir-schedule.baai.ac.cn/poster/fp0128

這篇文章作者來自清華大學計算機系,作者包括張帆,毛佳昕,劉奕群,謝曉暉,馬為之,張敏,馬少平等人。

論文介紹:

搜索評價一直都是信息檢索領域的一個核心問題,為了使評價的結果更符合用戶的真實體驗,現有的搜索離線評價指標在設計時都會基於一定的用戶模型。因此,評價指標的有效性同時包括兩個方面:

評價指標背後的用戶模型能否準確地擬合用戶行為;

評價指標的評價分數能否有效地衡量用戶滿意度。

基於用戶模型的評價指標的兩個方面 [Wicaksono and Moffat, 2020][1]

然而,現有工作很少去探究評價指標在這兩方面表現的一致性。為了對基於用戶模型的評價指標有更深入的理解,我們在本文中對評價指標進行了更細緻的探究。

通過在一個公開數據集[2]和我們收集的數據集[3]上的實驗,我們驗證了基於用戶模型的評價指標在擬合用戶行為和衡量用戶滿意度兩方面的一致性,基於用戶點擊行為校準的評價指標與基於用戶滿意度校準的評價指標的表現是非常接近的。此外,我們也驗證了評價指標參數的可靠性,相比用戶滿意度,利用用戶行為擬合評價指標得到的參數更加穩定,受訓練數據採樣的影響較小。最後,我們對訓練數據規模進行了探究,利用小規模的用戶行為數據對評價指標進行校準,已經能夠使評價指標在衡量用戶滿意度上取得較好的效果。

我們的實驗結果為現有的「基於用戶行為日誌擬合評價指標參數」這一方法論提供了經驗依據。用戶滿意度反饋在實際搜索中難以收集,而我們通過用戶行為日誌對評價指標的參數進行擬合,得到的評價指標能夠很好地對用戶使用搜索系統的滿意度進行衡量。

整理:清華大學 張帆

最佳短論文獎 I

論文:Bundle Recommendation with Graph Convolutional Networks

論文地址:https://sigir-schedule.baai.ac.cn/poster/sp0017

本文來自於清華大學電子系金德鵬教授與李勇副教授的研究團隊,第一作者和第二作者分別為團隊中的碩士生常健新與博士生高宸。中國科學技術大學何向南教授參與了該論文的合作和指導。

論文介紹:

物品組合是在功能或屬性上相似或互補的多個物品,用於同時滿足用戶在某個場景下的複雜需求。目前,物品組合在電子商務和各類內容平臺上日益流行,使得物品組合推薦變成一項重要個性化推薦任務。

該論文提出了一個基於圖卷積神經網絡的物品組合推薦方法,解決了物品組合推薦面臨的挑戰以及現有工作的諸多局限性。具體而言,該方法將用戶、物品、物品組合三者統一為異構圖,以此顯式地建模用戶與物品組合/單一物品的交互關係、以及物品組合與單一商品的從屬關係。在此異構圖上,提出單物品級別與物品組合級別的圖卷積網絡層,分別捕獲單一物品交互數據和物品組合交互數據中的協同過濾信號,同時也刻畫了物品組合蘊含的替代性、互補性等語義信息以及物品組合之間的相似性。

進一步地,考慮到用戶在選擇物品組合時與選擇單一物品時的不同動機,該方法提出了一種基於難負樣本的採樣學習方法,通過在訓練過程中構建難負樣本,以學習用戶、單個物品、物品組合的細粒度特徵。

總而言之,該方法利用圖神經網絡從複雜的圖結構中學習了用戶、物品、物品組合的高階連通性,解決了已有方法僅能提取簡單協同過濾信號的關鍵缺陷。該論文在多個真實數據集進行了廣泛的實驗,提出的方法在多項推薦精準度指標上達到了state-of-the-art,同時該方法在應對數據稀疏性等問題上亦取得優異表現。

整理:清華大學 常健新

最佳短論文獎 II

論文:Few-Shot Generative Conversational Query Rewriting

論文地址:https://sigir-schedule.baai.ac.cn/poster/sp0142

本文由來自清華大學師生與Microsoft Research AI學者合作完成。第一作者是清華大學計算機系大三本科生於是同學。本文由清華大學劉知遠和Microsoft Research AI高級研究員熊辰炎共同指導。

論文介紹:

現代信息檢索需要精準理解用戶查詢意圖,提升用戶查詢體驗。近年來,對話式檢索由於能夠更好地捕捉用戶意圖,得到研究者越來越多的關注。在對話場景中,用戶提出的查詢問題是人機互動的重要方式,然而由於用戶在對話中做出的原始查詢缺少上下文語境,現有的信息檢索系統無法直接進行有效搜索。

解決該問題的思路是,構建自動的查詢改寫系統,根據人機對話歷史信息,將用戶查詢改寫成信息檢索系統能夠有效處理的標準化查詢。基於這種思路,本論文提出了一種小樣本學習方法,能夠有效提升對話式檢索中的查詢重寫效果。具體地,分別採取基於規則和自我監督學習的方式生成弱監督數據,用於微調預訓練模型GPT-2增強對於用戶問題的理解和改寫能力。

該模型在對話式檢索任務TREC Conversational Assistance Track 2019中,與當前最好的問題改寫模型相比準確率提高了12%。在無標註語料訓練場景中,該模型準確率仍與TREC CAsT 2019最好的模型效果相當。這些實驗表明,所提出的方法能夠有效捕捉對話上下文信息,從而幫助提升對話式檢索的效果。

整理:清華大學 於是

Test of Time Award

論文:Learning to Recommend with Social Trust Ensemble

論文地址:https://dl.acm.org/doi/10.1145/1571941.1571978

本文作者:Hao Ma,Irwin King,Michael R. Lyu,來自香港中文大學。

論文介紹:

推薦系統作為信息過濾領域不可缺少的技術,近年來在學術界和工業界得到了廣泛的研究和發展。然而,目前大多數的推薦系統都存在如下問題:(1)用戶項矩陣數據量大且稀疏,嚴重影響了推薦質量。因此,大多數推薦系統都無法有效處理使用頻次較少的用戶。(2) 傳統的推薦系統假設所有的用戶都是獨立、分布一致的,而忽略了用戶之間的聯繫,這與現實世界中的推薦是不一致的。

為了更準確、真實地對推薦系統進行建模,作者提出了一種新的概率因子分析框架,將用戶的喜好和他們所信任朋友的偏好自然地融合在一起。在這個框架中,創造了社會信任集合(Social Trust Ensemble)這一術語,來表達社會信任對推薦系統的限制。

複雜度分析表明,作者的方法可以適用於非常大的數據集,因為它與觀測值的數量成線性關係,而實驗結果表明改方法比現有其他方法有更好的性能。

整理:智源社區 常政

Test of Time Award Honorable Mention I

論文:A User Browsing Model to Predict Search Engine Click Data from Past Observations

論文地址:https://dl.acm.org/doi/10.1145/1390334.1390392

本文作者:Georges Dupret,Benjamin Piwowarski。兩位作者都來自雅虎研究院。

論文介紹:

搜尋引擎點擊日誌提供了寶貴的相關信息來源,但這些信息是有偏差的,因為忽略了用戶點擊前後在結果列表中實際看到的文檔;否則完全可以通過簡單的計數來估計文檔的相關性。

本文提出了一組關於用戶瀏覽行為的假設,這些假設使得能夠估計文檔被看到的概率,從而提供文檔相關性的無偏估計。為了訓練、測試和比較模型與文獻中描述的其他最佳替代方案,作者收集了大量真實數據,並進行了廣泛的交叉驗證實驗。結果顯示,其解決方案性能遠遠優於以前的模型。

伴隨而來的其他好處是,可以深入了解用戶的瀏覽行為,並將其與Joachims等人[4]的眼動實驗的結論進行比較。特別是,作者的發現證實了用戶幾乎總是在點擊文檔後立即瀏覽該文檔,而且還解釋了為什麼位於非常相關的文檔之後的內容會被更頻繁地點擊。

整理:智源社區 賈偉

Test of Time Award Honorable Mention II

論文:Selecting Good Expansion Terms for Pseudo-Relevance Feedback

論文地址:https://dl.acm.org/doi/10.1145/1390334.1390377

本文作者:Guihong Cao,Jian-Yun Nie,Jianfeng Gao(高劍峰),Stephen Robertson。作者分別來自加拿大蒙特婁大學、美國雷德蒙德微軟研究院和英國劍橋微軟研究院。

論文介紹:

偽相關性反饋(Pseudo-relevance feedback)假設,在偽反饋文檔(pseudo-feedback documents)中最頻繁的術語對檢索是有用的。

在這項研究中,作者重新檢驗了這一假設,結果證明這個假設並不成立,傳統方法中確定的許多擴展術語事實上與查詢是無關的,且對檢索有害。

研究還表明,僅根據反饋文檔和整個集合中的分布,不能將良好的和不良的擴展術語區分開來。作者建議整合一個術語分類過程(term classification process),從而來預測擴展術語的有用性,可以在這個過程中集成多個其他功能。

作者對三個TREC集合的實驗表明,使用術語分類可以大大提高檢索效率。此外還表明,好的術語,應當能夠根據它們可能會對檢索效率產生的影響直接識別出來,換句話說,使用監督學習而不是無監督學習。

整理:智源社區 賈偉

參考文獻:

[1] Wicaksono A F, Moffat A. Metrics, User Models, and Satisfaction[C]//Proceedings of the 13th International Conference on Web Search and Data Mining. 2020: 654-662.

[2] Chen Y, Zhou K, Liu Y, et al. Meta-evaluation of online and offline web search evaluation metrics[C]// Proceedings of the 40th international ACM SIGIR conference on research and development in information retrieval. 2017: 15-24.

[3] http://www.thuir.cn/tiangong-ss-fsd/

[4] T. Joachims, L. Granka, B. Pan, H. Hembrooke, F. Radlinski, and G. Gay. Evaluating the accuracy of implicit feedback from clicks and query reformulations in web search. ACM Transactions on Information Systems (TOIS), 25(2), 2007.

附:SIGIR近5年最佳論文

2019 | Variance Reduction in Gradient Exploration for Online Learning to Rank

作者:Huazheng Wang,Sonwoo Kim,Eric McCord-Snook,Qingyun Wu,Hongning Wang

連結:https://dl.acm.org/citation.cfm?id=3331264

2018 | Should I Follow the Crowd? A Probabilistic Analysis of the Effectiveness of Popularity in Recommender Systems

作者:Rocío Ca amares,Pablo Castells

連結:https://dl.acm.org/citation.cfm?id=3210014

2017 | BitFunnel: Revisiting Signatures for Search

作者:Bob Goodwin,Michael Hopcroft,Dan Luu,Alex Clemmer,Mihaela Curmei,Sameh Elnikety,Yuxiong He

連結:https://dl.acm.org/citation.cfm?doid=3077136.3080789

2016 | Understanding Information Need: an fMRI Study

作者:Yashar Moshfeghi,Peter Triantafillou,Frank E. Pollick

連結:http://dx.doi.org/10.1145/2911451.2911534

2015 | QuickScorer: A Fast Algorithm to Rank Documents with Additive Ensembles of Regression Trees

作者:Claudio Lucchese,Franco Maria Nardini,Salvatore Orlando,Raffaele Perego,Nicola Tonellotto,Rossano Venturini

連結:http://dx.doi.org/10.1145/2766462.2767733

編輯:智源社區 王煒強

相關焦點

  • 大三生獲最佳短論文獎,清華狂攬信息檢索頂會SIGIR2020多個獎項
    昨日,大會公布了最佳論文等獎項。來自清華大學的研究人員獲得最佳論文榮譽提名獎、最佳短論文獎獎項。ACM SIGIR 是信息檢索領域的頂級學術會議,今年是第 43 屆。據統計,SIGIR 2020 會議共收到投稿 1180 篇,接收 340 篇,接收率為 28.8%。
  • UC伯克利摘最佳論文、HuggingFace獲最佳demo,EMNLP2020獎項公布
    機器之心報導編輯:魔王、杜偉、小舟剛剛,正在進行中的 EMNLP 2020 大會公布了一系列獎項,其中最佳論文獎由加州大學伯克利分校的研究者獲得,愛丁堡大學華人博士生 Yanpeng Zhao 為一作的論文獲得了最佳論文榮譽提名獎(共 4 篇論文獲此獎項)。另外,本屆大會的最佳 Demo 獎由大家非常熟悉的 Hugging Face 團隊摘得。
  • KDD 2020最佳論文揭曉!杜克大學陳怡然組獲最佳學生論文獎
    【新智元導讀】KDD 2020最佳論文新鮮出爐!最佳學生論文、最佳論文亞軍均被華人學生(一作)摘得,來看看這些論文出自誰之手吧!KDD Best Paper 終於來了!受疫情影響,今年第26屆國際數據挖掘頂會 ACM SIGKDD 於8月23日-27日以虛擬線上方式召開。
  • 中國團隊包攬KDD挑戰賽全部冠亞軍,北航拿下KDD最佳學生論文
    蕭簫 發自 凹非寺量子位 報導 | 公眾號 QbitAI數據挖掘、知識發現領域的最高學術會議——KDD 2020的所有獎項已全部公布。KDD,全稱Knowledge Discovery and Data Mining,由SIGKDD舉辦,後者是美國計算機學會ACM旗下數據挖掘和知識發現的專業組織。
  • 清華大學博士生韓濟澤獲2020年度國際頻率控制大會「學生最佳論文...
    ,簡稱IEEE IFCS-ISAF)入圍學生最佳論文(Student Best Paper Finalists),並最終獲得優勝獎(Student Paper Competition Group Winner)。
  • ACCV 2020最佳論文等三項大獎出爐!華為諾亞獲最佳學生論文獎
    ACCV 2020 共錄用論文 255 篇,官方提供所有論文開放下載。官網連結:http://accv2020.kyoto/截止目前,大會已經公布了最佳論文獎、最佳學生論文獎、最佳應用論文獎等三項大獎,其中帝國理工和華為諾亞方舟合作獲得了最佳學生論文獎。以下AI科技評論就帶大家讓我們一起來看看這三項大獎吧 !
  • 對話頂會、解讀最佳:CVPR 2020最佳論文對CV領域的啟發
    對話頂會,探索最新學術進展,本次分享AI TIME特地邀請到CVPR 2017最佳論文得主、世界人工智慧大會 Super AI Leader(SAIL)先鋒獎得主、來自清華大學自動化系的黃高老師為大家解讀本屆CVPR「最佳論文」和「最佳學生論文」背後蘊含的亮點,深入剖析其核心思路、創新點,談談它們對CV領域的啟發。
  • ACM2020傑出會員公布,葉傑平、崔鵬上榜,華人學者佔四成
    他在數據挖掘和多媒體領域知名會議和期刊上發表文章 100 多篇,近期研究獲得 IEEE Multimedia Best Department Paper Award、ICDM 2015 最佳學生論文獎等多個獎項。2015 年,他獲得 ACM 中國新星獎,2018 年獲得 CCF-IEEE CS 青年科學家獎。目前,他是 ACM 和 CCF 傑出會員、IEEE 高級會員。
  • ECCV 2020最佳論文講了啥?作者為ImageNet一作、李飛飛高徒鄧嘉
    蕭簫 發自 凹非寺量子位 報導 | 公眾號 QbitAI作為計算機視覺三大頂會之一,備受矚目的ECCV 2020(歐洲計算機視覺國際會議)最近公布了所有獎項。其中,最佳論文獎被ImageNet一作、李飛飛高徒鄧嘉及其學生摘得。
  • ECCV 2018 最佳論文名單公布,何愷明再添一項論文獎
    繼正會第一天的開場演講中介紹了多項基本情況之後,各項論文獎項也在 12 日的參會人員大聚餐 Gala Dinner 上、在歡樂輕鬆的氛圍中、在美食的香氣裡逐項揭曉。最佳論文獎(Best Paper Award,一篇)Implicit 3D Orientation Learning for 6D Object Detection from RGB Images
  • 慶餘年摘得白玉蘭,王啟年獲得最佳男配角,成為網播劇最大贏家
    慶餘年摘得白玉蘭,王啟年獲得最佳男配角,成為網播劇最大贏家2010年8月7日晚,第二十六屆上海電視節閉幕儀式暨白玉蘭獎頒獎典禮在國家廣播電視總局、中央廣播電視總臺和上海市人民政府的共同努力下順利舉行,各主要專業獎項全部揭曉。
  • 太極二作李子懋獲SIGGRAPH最佳博士論文獎,華人連續三年獲此殊榮
    機器之心報導參與:魔王、蛋醬、杜偉剛剛,頂級計算圖形學機構 ACM SIGGRAPH 頒發了 2020 年最佳博士論文獎。MIT CSAIL 博士後研究員、太極(Taichi)論文第二作者李子懋(Tzu-Mao Li)獲得該獎項。
  • 西安電子科技大學首獲2020中國高校「就業最佳典範獎」
    11月28日,「內生力量,重塑新生」2020中國年度最佳僱主頒獎盛典暨中國人力資本國際管理論壇在無錫舉行。西安電子科技大學與清華大學、北京大學、中國人民大學、南京大學、浙江大學、上海交通大學等26所高校獲得2020年度中國高校數位化就業最佳典範獎,這是西電首次獲得此項榮譽。
  • 清華大學經濟管理學院獲 「2020年度中國商學院最佳MBA項目TOP100...
    【MBA中國網訊】2020年12月23日,「2020中國商學院教育盛典」在北京隆重舉行。清華大學經濟管理學院MBA項目榮獲「2020年度中國商學院最佳MBA項目TOP100」第一名。
  • 奧斯卡獲獎名單出爐,最佳影片竟被亞洲人摘得,刷新歷史!
    奧斯卡獲獎名單出爐,最佳影片竟被亞洲人摘得,刷新歷史! 大家好!相信部分小夥伴已經開始在家上課、遠程辦公了。就在今早,全世界矚目的電影界盛事——奧斯卡終於公布了電影名單,頒獎典禮上更是緬懷了高以翔。讓我們來看看哪些電影榜上有名吧!
  • 2020年世界威士忌大賞榜單公布!日威再度問鼎世界最佳單一!
    今天,官方發布了2020世界最佳威士忌名單,以往官方會舉行頒獎晚宴,今年由於疫情原因,世界威士忌大賞改為在官方的社交平臺上進行公布。作為威士忌最有公信力的榜單之一,WWA世界威士忌大獎賽每年的獲獎榜單一直被飲家譽為威士忌圈中的奧斯卡,以下為您介紹其中部分獲獎的威士忌。
  • 2020日本遊戲大賞公布首批獎項 《精靈寶可夢:劍/盾》獲得最佳銷量...
    2020日本遊戲大賞今天公布了第一批獎項的獲獎名單:經濟產業大臣獎:《集合啦!動物森友會》開發團隊最佳銷量獎:《精靈寶可夢:劍/盾》
  • 2020年世界威士忌大賞WWA榜單公布!日威再度問鼎世界最佳單一!
    今天,官方發布了2020世界最佳威士忌名單,以往官方會舉行頒獎晚宴,今年由於疫情原因,世界威士忌大賞改為在官方的社交平臺上進行公布。 作為威士忌最有公信力的榜單之一,WWA世界威士忌大獎賽每年的獲獎榜單一直被飲家譽為威士忌圈中的奧斯卡,以下為您介紹其中部分獲獎的威士忌。
  • 第七屆「文榮獎」各獎項揭曉:王凱、趙露思獲最佳電視劇男女主角
    2020中國·橫店影視節最受矚目的「文榮獎」頒獎典禮在這裡隆重舉行。開幕紅毯秀上,眾多導演、明星、影視大咖和橫店目前在拍的《慕南枝》《尚食》《浣溪沙》《香山葉正紅》等40多個劇組主創和主演紛至沓來,唐國強、王凱、聶遠、許凱、金瀚、徐開騁、朱珠、保劍鋒、朱正廷、經超、任敏、景甜、王大陸、翁虹等明星們一出場便受到高度關注。
  • 國際足聯頒獎兩大笑話!最佳主帥爆大冷,最佳門將落選最佳陣容
    最佳主帥爆大冷,最佳門將落選最佳陣容 北京時間12月18日凌晨2點,國際足聯進行了線上頒獎典禮,頒出了2020年各大獎項的獲得者。最受關注的最佳球員獎項,萊萬多夫斯基毫無懸念的擊敗梅西、C羅當選。