新智元報導
來源:智源研究院
編輯:白峰
【新智元導讀】7月29日晚,第43屆國際 「信息檢索研究與發展」 年會(SIGIR - The International ACM SIGIR Conference on Research and Development in Information Retrieval)最佳論文正式公布。
本屆會議最佳論文獎由康奈爾大學Thorsten Joachims團隊獲得,共同一作是Marco Morik和Ashudeep Singh。
清華大學本次獲得了多個獎項:最佳論文榮譽提名獎由清華大學張帆(一作)等獲得,智源學者劉奕群也是作者之一;兩個最佳短論文獎也都被清華大學摘取,第一作者分別是常健新和於是。值得一提的是,於是目前是大三學生,智源學者劉知遠是指導老師之一。
本次會議共收到論文投稿總數 1180 篇,總共錄取 340 篇。其中,長文投稿555 篇,最終錄用 147 篇,錄用率約 26%;短文投稿507 篇,最終錄用 152 篇,錄取率約 30%。這是SIGIR繼2011年於北京刷新該會議論文投稿記錄後,時隔9年回到中國,投稿量和錄取率再創新高。來自 32 個國家的 1221 名作者為錄用論文做出了貢獻。
最佳論文獎
論文:Controlling Fairness and Bias in Dynamic Learning-to-Rank
論文地址:https://sigir-schedule.baai.ac.cn/poster/fp0069
本文作者:Marco Morik, Ashudeep Singh, Jessica Hong, Thorsten Joachims。其中Thorsten Joachims教授是康奈爾大學計算機系的教授,ACM Fellow,多年致力於無偏排序(unbiased ranking)的研究,在數據挖掘相關的頂級會議如KDD、SIGIR、WWW、WSDM、CIKM發表多篇相關著作,其中很多工作都頗具影響力,比如發表在SIGIR 2005上的Accurately interpreting clickthrough data as implicit feedback可以稱得上是無偏排序的開山之作之一。
論文介紹:
排序算法在很多在線平臺將用戶和項目(比如新聞產品音樂等)進行匹配,在用戶和項目雙邊考慮中,用戶不僅評估排序算法的效益,而且排序算法本身也影響了項目提供端(比如出版商)的效益(比如曝光度)。目前的排序算法中並沒有考慮到在項目提供端的效益。基於這些考慮,本文提出了顯性的基於組(比如相同出版商出版的文章)的公平排序算法。在保證公平的同時,本文的算法可以有效的優化排序算法的效果。
具體來說,本文主要研究了動態學習排序算法,在算法設計中,有兩個點需要重點考慮:一是排序系統本身會造成偏差(bias),這是由於排序高的項目可以獲得更多的反饋,這樣會造成這次排序高的項目在下次排序中排序也會高(richer-get-richer)。
偏差示意圖(排序越高反饋越多)
二是排序系統本身是曝光度裁決者的身份,會直接影響曝光度和項目提供端相關收入,所以在排序過程中,需要考慮項目的公平性(fairness),比如項目曝光度(exposure)需要相關度(relevance)正比。
公平性示意圖(圖中左右排序項目的曝光度與相關度並不是正比的,所以是不公平的)
出於這種考慮,為了解決偏差問題,本文建立一個基於IPS(Inverse propensity weighting)的非偏估計機制(unbiased estimator)來估計文檔的條件相關度,這種非偏估計機制可以根據有偏的點擊,估計無偏的條件相關度。為了解決動態排序中的公平問題,本文採用了P-controller(proportional controller)的形式,動態地調整排序策略,使得之前曝光程度不夠的文檔能夠得到更有效的曝光。該方法被證明可以在平均相關度估計收斂的情況下,使得不同組間曝光度-相關度比例的差距以一定的比例收斂到零。為了驗證提出算法的魯棒性和效果,作者分別在半生成的新聞數據集和真實的電影數據集上進行了實驗驗證。該算法不僅可以取得良好的排序效果和公平性,並且非常高效,容易實現。下圖為本文提出算法和線性規划算法的比較。
實驗結果圖(左圖排序算法表現,右圖公平表現)
整理:上海交通大學 張偉楠副教授
博士生晉嘉睿、戴心儀
最佳論文榮譽提名獎
論文:Models Versus Satisfaction: Towards a Better Understanding of Evaluation Metrics
論文地址:https://sigir-schedule.baai.ac.cn/poster/fp0128
這篇文章作者來自清華大學計算機系,作者包括張帆,毛佳昕,劉奕群,謝曉暉,馬為之,張敏,馬少平等人。
論文介紹:
搜索評價一直都是信息檢索領域的一個核心問題,為了使評價的結果更符合用戶的真實體驗,現有的搜索離線評價指標在設計時都會基於一定的用戶模型。因此,評價指標的有效性同時包括兩個方面:
評價指標背後的用戶模型能否準確地擬合用戶行為;
評價指標的評價分數能否有效地衡量用戶滿意度。
基於用戶模型的評價指標的兩個方面 [Wicaksono and Moffat, 2020][1]
然而,現有工作很少去探究評價指標在這兩方面表現的一致性。為了對基於用戶模型的評價指標有更深入的理解,我們在本文中對評價指標進行了更細緻的探究。
通過在一個公開數據集[2]和我們收集的數據集[3]上的實驗,我們驗證了基於用戶模型的評價指標在擬合用戶行為和衡量用戶滿意度兩方面的一致性,基於用戶點擊行為校準的評價指標與基於用戶滿意度校準的評價指標的表現是非常接近的。此外,我們也驗證了評價指標參數的可靠性,相比用戶滿意度,利用用戶行為擬合評價指標得到的參數更加穩定,受訓練數據採樣的影響較小。最後,我們對訓練數據規模進行了探究,利用小規模的用戶行為數據對評價指標進行校準,已經能夠使評價指標在衡量用戶滿意度上取得較好的效果。
我們的實驗結果為現有的「基於用戶行為日誌擬合評價指標參數」這一方法論提供了經驗依據。用戶滿意度反饋在實際搜索中難以收集,而我們通過用戶行為日誌對評價指標的參數進行擬合,得到的評價指標能夠很好地對用戶使用搜索系統的滿意度進行衡量。
整理:清華大學 張帆
最佳短論文獎 I
論文:Bundle Recommendation with Graph Convolutional Networks
論文地址:https://sigir-schedule.baai.ac.cn/poster/sp0017
本文來自於清華大學電子系金德鵬教授與李勇副教授的研究團隊,第一作者和第二作者分別為團隊中的碩士生常健新與博士生高宸。中國科學技術大學何向南教授參與了該論文的合作和指導。
論文介紹:
物品組合是在功能或屬性上相似或互補的多個物品,用於同時滿足用戶在某個場景下的複雜需求。目前,物品組合在電子商務和各類內容平臺上日益流行,使得物品組合推薦變成一項重要個性化推薦任務。
該論文提出了一個基於圖卷積神經網絡的物品組合推薦方法,解決了物品組合推薦面臨的挑戰以及現有工作的諸多局限性。具體而言,該方法將用戶、物品、物品組合三者統一為異構圖,以此顯式地建模用戶與物品組合/單一物品的交互關係、以及物品組合與單一商品的從屬關係。在此異構圖上,提出單物品級別與物品組合級別的圖卷積網絡層,分別捕獲單一物品交互數據和物品組合交互數據中的協同過濾信號,同時也刻畫了物品組合蘊含的替代性、互補性等語義信息以及物品組合之間的相似性。
進一步地,考慮到用戶在選擇物品組合時與選擇單一物品時的不同動機,該方法提出了一種基於難負樣本的採樣學習方法,通過在訓練過程中構建難負樣本,以學習用戶、單個物品、物品組合的細粒度特徵。
總而言之,該方法利用圖神經網絡從複雜的圖結構中學習了用戶、物品、物品組合的高階連通性,解決了已有方法僅能提取簡單協同過濾信號的關鍵缺陷。該論文在多個真實數據集進行了廣泛的實驗,提出的方法在多項推薦精準度指標上達到了state-of-the-art,同時該方法在應對數據稀疏性等問題上亦取得優異表現。
整理:清華大學 常健新
最佳短論文獎 II
論文:Few-Shot Generative Conversational Query Rewriting
論文地址:https://sigir-schedule.baai.ac.cn/poster/sp0142
本文由來自清華大學師生與Microsoft Research AI學者合作完成。第一作者是清華大學計算機系大三本科生於是同學。本文由清華大學劉知遠和Microsoft Research AI高級研究員熊辰炎共同指導。
論文介紹:
現代信息檢索需要精準理解用戶查詢意圖,提升用戶查詢體驗。近年來,對話式檢索由於能夠更好地捕捉用戶意圖,得到研究者越來越多的關注。在對話場景中,用戶提出的查詢問題是人機互動的重要方式,然而由於用戶在對話中做出的原始查詢缺少上下文語境,現有的信息檢索系統無法直接進行有效搜索。
解決該問題的思路是,構建自動的查詢改寫系統,根據人機對話歷史信息,將用戶查詢改寫成信息檢索系統能夠有效處理的標準化查詢。基於這種思路,本論文提出了一種小樣本學習方法,能夠有效提升對話式檢索中的查詢重寫效果。具體地,分別採取基於規則和自我監督學習的方式生成弱監督數據,用於微調預訓練模型GPT-2增強對於用戶問題的理解和改寫能力。
該模型在對話式檢索任務TREC Conversational Assistance Track 2019中,與當前最好的問題改寫模型相比準確率提高了12%。在無標註語料訓練場景中,該模型準確率仍與TREC CAsT 2019最好的模型效果相當。這些實驗表明,所提出的方法能夠有效捕捉對話上下文信息,從而幫助提升對話式檢索的效果。
整理:清華大學 於是
Test of Time Award
論文:Learning to Recommend with Social Trust Ensemble
論文地址:https://dl.acm.org/doi/10.1145/1571941.1571978
本文作者:Hao Ma,Irwin King,Michael R. Lyu,來自香港中文大學。
論文介紹:
推薦系統作為信息過濾領域不可缺少的技術,近年來在學術界和工業界得到了廣泛的研究和發展。然而,目前大多數的推薦系統都存在如下問題:(1)用戶項矩陣數據量大且稀疏,嚴重影響了推薦質量。因此,大多數推薦系統都無法有效處理使用頻次較少的用戶。(2) 傳統的推薦系統假設所有的用戶都是獨立、分布一致的,而忽略了用戶之間的聯繫,這與現實世界中的推薦是不一致的。
為了更準確、真實地對推薦系統進行建模,作者提出了一種新的概率因子分析框架,將用戶的喜好和他們所信任朋友的偏好自然地融合在一起。在這個框架中,創造了社會信任集合(Social Trust Ensemble)這一術語,來表達社會信任對推薦系統的限制。
複雜度分析表明,作者的方法可以適用於非常大的數據集,因為它與觀測值的數量成線性關係,而實驗結果表明改方法比現有其他方法有更好的性能。
整理:智源社區 常政
Test of Time Award Honorable Mention I
論文:A User Browsing Model to Predict Search Engine Click Data from Past Observations
論文地址:https://dl.acm.org/doi/10.1145/1390334.1390392
本文作者:Georges Dupret,Benjamin Piwowarski。兩位作者都來自雅虎研究院。
論文介紹:
搜尋引擎點擊日誌提供了寶貴的相關信息來源,但這些信息是有偏差的,因為忽略了用戶點擊前後在結果列表中實際看到的文檔;否則完全可以通過簡單的計數來估計文檔的相關性。
本文提出了一組關於用戶瀏覽行為的假設,這些假設使得能夠估計文檔被看到的概率,從而提供文檔相關性的無偏估計。為了訓練、測試和比較模型與文獻中描述的其他最佳替代方案,作者收集了大量真實數據,並進行了廣泛的交叉驗證實驗。結果顯示,其解決方案性能遠遠優於以前的模型。
伴隨而來的其他好處是,可以深入了解用戶的瀏覽行為,並將其與Joachims等人[4]的眼動實驗的結論進行比較。特別是,作者的發現證實了用戶幾乎總是在點擊文檔後立即瀏覽該文檔,而且還解釋了為什麼位於非常相關的文檔之後的內容會被更頻繁地點擊。
整理:智源社區 賈偉
Test of Time Award Honorable Mention II
論文:Selecting Good Expansion Terms for Pseudo-Relevance Feedback
論文地址:https://dl.acm.org/doi/10.1145/1390334.1390377
本文作者:Guihong Cao,Jian-Yun Nie,Jianfeng Gao(高劍峰),Stephen Robertson。作者分別來自加拿大蒙特婁大學、美國雷德蒙德微軟研究院和英國劍橋微軟研究院。
論文介紹:
偽相關性反饋(Pseudo-relevance feedback)假設,在偽反饋文檔(pseudo-feedback documents)中最頻繁的術語對檢索是有用的。
在這項研究中,作者重新檢驗了這一假設,結果證明這個假設並不成立,傳統方法中確定的許多擴展術語事實上與查詢是無關的,且對檢索有害。
研究還表明,僅根據反饋文檔和整個集合中的分布,不能將良好的和不良的擴展術語區分開來。作者建議整合一個術語分類過程(term classification process),從而來預測擴展術語的有用性,可以在這個過程中集成多個其他功能。
作者對三個TREC集合的實驗表明,使用術語分類可以大大提高檢索效率。此外還表明,好的術語,應當能夠根據它們可能會對檢索效率產生的影響直接識別出來,換句話說,使用監督學習而不是無監督學習。
整理:智源社區 賈偉
參考文獻:
[1] Wicaksono A F, Moffat A. Metrics, User Models, and Satisfaction[C]//Proceedings of the 13th International Conference on Web Search and Data Mining. 2020: 654-662.
[2] Chen Y, Zhou K, Liu Y, et al. Meta-evaluation of online and offline web search evaluation metrics[C]// Proceedings of the 40th international ACM SIGIR conference on research and development in information retrieval. 2017: 15-24.
[3] http://www.thuir.cn/tiangong-ss-fsd/
[4] T. Joachims, L. Granka, B. Pan, H. Hembrooke, F. Radlinski, and G. Gay. Evaluating the accuracy of implicit feedback from clicks and query reformulations in web search. ACM Transactions on Information Systems (TOIS), 25(2), 2007.
附:SIGIR近5年最佳論文
2019 | Variance Reduction in Gradient Exploration for Online Learning to Rank
作者:Huazheng Wang,Sonwoo Kim,Eric McCord-Snook,Qingyun Wu,Hongning Wang
連結:https://dl.acm.org/citation.cfm?id=3331264
2018 | Should I Follow the Crowd? A Probabilistic Analysis of the Effectiveness of Popularity in Recommender Systems
作者:Rocío Ca amares,Pablo Castells
連結:https://dl.acm.org/citation.cfm?id=3210014
2017 | BitFunnel: Revisiting Signatures for Search
作者:Bob Goodwin,Michael Hopcroft,Dan Luu,Alex Clemmer,Mihaela Curmei,Sameh Elnikety,Yuxiong He
連結:https://dl.acm.org/citation.cfm?doid=3077136.3080789
2016 | Understanding Information Need: an fMRI Study
作者:Yashar Moshfeghi,Peter Triantafillou,Frank E. Pollick
連結:http://dx.doi.org/10.1145/2911451.2911534
2015 | QuickScorer: A Fast Algorithm to Rank Documents with Additive Ensembles of Regression Trees
作者:Claudio Lucchese,Franco Maria Nardini,Salvatore Orlando,Raffaele Perego,Nicola Tonellotto,Rossano Venturini
連結:http://dx.doi.org/10.1145/2766462.2767733
編輯:智源社區 王煒強