作者 | 陳大鑫
編輯 | 陳彩嫻
第 26 屆 ACM SIGKDD 知識發現和數據挖掘會議(KDD 2020)將於太平洋標準時間 8 月 23 日 - 27 日以虛擬線上方式召開。今日KDD 2020公布了最佳論文獎、最佳學生論文獎等多個獎項。
其中最佳論文獎由谷歌研究院的Walid Krichene和Steffen Rendle摘得,最佳學生論文獎由杜克大學的 Ang Li、Huanrui Yang、陳怡然和北航段逸驍、楊建磊獲得。此外,湯繼良、盛勝利、唐傑等華人學者在本屆 SIGKDD 大會上也榮獲了包含新星獎、時間檢驗研究獎、時間檢驗應用科學獎在內的三項大獎。
1 最佳論文獎
最佳論文獎由來自谷歌研究院的Walid Krichene和Steffen Rendle獲得,獲獎題目為《On Sampled Metrics for Item Recommendation》
論文連結:http://walid.krichene.net/papers/KDD-sampled-metrics.pdf
KDD官網:https://www.kdd.org/kdd2020/accepted-papers/view/on-sampled-metrics-for-item-recommendation
論文摘要:
項目推薦的任務需要在給定上下文的情況下對大量的項目進行排序。項目推薦算法是使用依賴於相關項目位置的排名指標來評估的。為了加速度量的計算,最近的工作經常使用抽樣的度量,其中只有一組較小的隨機項和相關項被排序。
本文對抽樣指標進行了更詳細的研究,發現它們與精確的度量值不一致,因為它們沒有保留相關的語句,例如,說推薦者A優於B時甚至連期望值也沒有。而且,抽樣規模越小,指標之間的差異就越小,另外對於非常小的抽樣規模,所有指標都會坍縮為AUC度量。
我們證明了通過應用一個修正項來提高抽樣指標的性能是可行的:通過最小化不同的標準,如偏差或均方誤差。最後,我們對原始抽樣指標及其修正變量進行了實證評估。綜上所述,我們建議在度量計算中應避免抽樣,但是如果實驗研究需要抽樣,那麼我們所提出的修正項可以提高估計的質量。
2 最佳學生論文獎
獲獎論文:《TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework for Deep Learning with Anonymized Intermediate Representations》
論文第一作者 Ang Li 是杜克大學電子和計算機工程系的一名在讀博士,導師為陳怡然和 Hai "Helen" Li 教授。Ang Li 曾在2013 年獲得北京大學軟體工程碩士學位,2018 年獲得阿肯色大學計算機科學博士學位。
今日陳怡然教授在微博上慶祝:
陳怡然教授本碩均就讀於清華大學,博士就讀於美國普渡大學,現任杜克大學電子與計算機工程系教授、杜克大學計算進化智能中心主任、美國 NSF 新型可持續智能計算中心主任。
論文連結:https://arxiv.org/abs/2005.11480.pdf
KDD官網:https://www.kdd.org/kdd2020/accepted-papers/view/tiprdc-task-independent-privacy-respecting-data-crowdsourcing-framework-for
論文摘要:
深度學習的成功部分得益於各種大規模數據集的可用性。這些數據集通常來自個人用戶,並且包含諸如性別、年齡等隱私信息。用戶對數據共享的隱私擔憂阻礙了眾包數據集的生成或使用,並導致對新的深度學習應用程式的訓練數據的渴求。
一個自然的解決方案是在用戶端對原始數據進行預處理以提取特徵,然後只將提取的特徵發送到數據採集器。不幸的是,攻擊者仍然可以利用這些提取的特徵訓練對抗分類器來推斷私有屬性。一些現有技術利用博弈論來保護私有屬性。然而,這些防禦措施是針對已知的初級學習任務設計的,提取的特徵對於未知的學習任務效果不佳。
為了解決學習任務未知或變化的情況,我們提出了一種基於匿名中間表示的任務無關隱私的數據眾包框架TIPRDC。該框架的目標是學習一個特徵抽取器,它可以隱藏中間表徵中的隱私信息,同時最大限度地保留原始數據中嵌入的原始信息,供數據採集器完成未知的學習任務。
我們設計了一種混合訓練方法來學習匿名中間表示:(1)針對特徵隱藏隱私信息的對抗性訓練過程;(2)使用基於神經網絡的互信息估計器最大限度地保留原始信息。我們廣泛地評估了TIPRDC,並將其與使用兩個圖像數據集和一個文本數據集的現有方法進行了比較。我們的結果表明,TIPRDC大大優於其他現有的方法。我們的工作提出了第一個任務獨立隱私尊重數據眾包框架。
3 最佳論文獎亞軍
來自維吉尼亞大學的 Mengdi Huai、Jianhui Sun、Renqin Cai、Aidong Zhang 和來自紐約州立大學布法羅分校的 Liuyi Yao 獲得了最佳論文獎的亞軍,獲獎論文是《Malicious Attacks against Deep Reinforcement Learning Interpretations》。
深度學習和強化學習(RL)的結合,並證明了其在眾多順序決策問題中對動力學建模的能力。為了提高透明度,已經提出了用於DRL的各種解釋方法。但是,這些DRL解釋方法隱式地假定它們是在可靠和安全的環境中執行的,在實際應用中並非如此。維吉尼亞大學團隊調查了惡意環境中DRL解釋方法的漏洞。具體而言,引入了針對DRL解釋的對抗性攻擊的第一項研究。提出了一個優化框架來解決研究的對抗攻擊。
論文連結:https://dl.acm.org/doi/pdf/10.1145/3394486.3403089
KDD 官網:https://www.kdd.org/kdd2020/accepted-papers/view/malicious-attacks-against-deep-reinforcement-learning-interpretations
論文摘要:
近年來,深度強化學習(DRL)得到了迅速的發展,它是深度學習和強化學習(RL)相結合的產物。然而,深度神經網絡的採用使得DRL決策過程不透明,缺乏透明度。
基於此,人們提出了各種DRL解釋方法。然而,這些解釋方法隱含著一個假設,即它們是在可靠和安全的環境中執行的。在實踐中,順序agent-環境交互將DRL算法及其相應的下遊解釋暴露在額外的對抗性風險中。
儘管惡意攻擊盛行,但目前還沒有研究針對DRL解釋的惡意攻擊的可能性和可行性。為了彌補這一差距,本文研究了DRL解釋方法的脆弱性。具體來說,我們首先介紹了針對DRL解釋的對抗性攻擊的研究,並提出了一個優化框架,在此基礎上可以得到最優的對抗攻擊策略。此外,我們還研究了DRL解釋方法對模型中毒攻擊的脆弱性,並提出了一個算法框架來嚴格描述所提出的模型中毒攻擊。最後,我們進行了理論分析和大量實驗,以驗證所提出的針對DRL解釋的惡意攻擊的有效性。
這篇論文將深度學習和強化學習結合(DRL),並證明了其在眾多序列決策問題中動態建模的能力。為了提高模型的透明度,已經有研究提出了針對 DRL 的各種解釋方法。但是,這些 DRL 解釋方法隱式地假定它們是在可靠和安全的環境中執行的,但在實際應用中並非如此。維吉尼亞大學的研究團隊調查了一些 DRL 解釋方法在惡意環境中的漏洞。具體而言,他們提出了第一個針對 DRL 解釋的對抗性攻擊的研究,提出了一個優化框架來解決所研究的對抗性攻擊問題。
4 創新獎
Thorsten Joachims,康奈爾大學計算機科學與信息科學教授,美國計算機協會、美國人工智慧學會院士,因其在機器學習方面的研究貢獻而受到認可,包括在信息檢索,支持向量機(SVM)和結構化輸出預測方面研究人類偏見的有影響力的工作。
值得注意的是,Joachims開創了從隱式反饋中引出可靠偏好的方法,無偏向學習排名方法和提供公平保證的排名方法。ACM SIGKDD創新獎是知識發現和數據挖掘領域技術卓越的最高榮譽。它授予個人或團體合作者,他們的傑出技術創新極大地影響了該領域的研究和開發方向。
Joachims表示:「我很榮幸獲得KDD社區的認可。」 KDD以創新而著稱-不僅是學術上的努力,而且著眼於現實世界的影響和社會福利。
Joachims個人主頁:
http://www.cs.cornell.edu/people/tj/
值得一提的是,Joachims與他的學生和合作者一起發表過的論文在各大頂會共獲得了9項最佳論文獎和4項時間檢驗獎,其中就包括在今年國際信息檢索研究與發展(SIGIR 2020)年會上,Thorsten Joachims團隊獲得了最佳論文獎:
AI科技評論之前對此篇論文做過專門解讀:《SIGIR 2020最佳論文解讀出爐,可緩解排名問題的馬太效應?》,有興趣的讀者可以移步看看。
5 服務獎
Michael Zeller ,淡馬錫(Temasek)人工智慧戰略與解決方案負責人,因致力於在ACM SIGKDD擔任志願司庫和執行委員會秘書而在該領域做出的傑出貢獻而感到榮幸。
Zeller在執行董事會任職八年,在策劃多個KDD會議中發揮了重要作用。作為執行委員會成員,他特別重視應用人工智慧,其使命是促進研究機構與行業組織之間的牢固合作關係,這是KDD社區持續成功的關鍵。ACM SIGKDD服務獎是該領域所授予服務的最高認可。
Zeller說:「作為ACM SIGKDD的長期會員,我一直對我們的志願者的貢獻印象深刻。如果沒有他們對我們使命的奉獻和信念,我們將永遠無法建立這樣一個充滿活力的數據科學社區,更不用說年復一年地組織如此規模和質量的會議了。」
個人主頁:
https://www.linkedin.com/in/michaelzeller/
6 論文獎
ACM SIGKDD論文獎表彰了研究生在數據科學,機器學習和數據挖掘領域所做的傑出工作。
Rediet Abebe 是加州大學伯克利分校計算機科學系新任助理教授,她的博士論文獲得了今年的ACM SIGKDD學位論文獎。
Abebe是第一位入選哈佛研究員學會的女性計算機科學家,並與他人共同創立了社會公益機制設計(MDSG),這是一個多機構倡議,旨在改善歷史悠久,服務水平低下的弱勢社區的機會。
個人主頁:https://www.cs.cornell.edu/~red/
其獲獎論文為《Designing Algorithms for Social Good》。
論文連結:
https://www.cs.cornell.edu/~red/AbebeDissertation.pdf
論文摘要:
算法和人工智慧技術顯示出巨大的潛力,可以加深我們對社會經濟不平等的理解,並為旨在改善獲得機會的幹預措施提供信息。針對歷史上服務不足的社區的幹預措施尤其具有挑戰性,因為眾所周知劣勢和不平等是多方面的難以衡量的,並通過基礎結構中的反饋循環加以強化。
雖然這些領域已經取得了長足的進步,從公立學校的席位分配到貧困地圖繪製,但仍有許多領域有進一步貢獻的重大機會,而且我們有可能開發出統一的框架,將計算機算法應用於改善社會福利。
在這篇論文中,我們發展了算法和計算技術,通過兩種幹預措施來解決這些問題:一種是分配稀缺的社會資源,另一種是改善獲取信息的方式。我們研究了算法、離散優化、機制設計、網絡和計算科學等領域的技術如何應對不同形式的不利因素,包括易受收入衝擊、社會隔離和獲取健康信息方面的差異。我們強調計算機在社會變革中發揮作用的機會。
最後,我們將圍繞算法、優化和機制設計的使用,圍繞一個新興研究領域的開放性問題——社會公益機制設計展開討論。
學位論文獎亞軍(runner-up)
加利福尼亞大學聖地牙哥分校的計算機科學助理教授Jingbo Shang以其論文《Constructing and Mining Heterogeneous Information Networks from Massive Text 》獲得亞軍(runner-up)。
論文連結:
http://hanj.cs.illinois.edu/pdf/kdd19_jshang.pdf
論文摘要:
真實世界的數據主要以非結構化文本的形式存在。數據挖掘研究面臨的一個重大挑戰是開發有效的、可伸縮的方法,將非結構化文本轉化為結構化知識。基於我們的設想,將這些文本轉化為結構化的異構信息網絡,在這種網絡上可以根據用戶的需要生成可操作的知識。在本論文中,我們將全面概述此方向的最新研究和開發。
首先,我們介紹了一系列從海量、特定領域的文本語料庫構建異構信息網絡的有效方法。然後討論了基於用戶需求的文本豐富網絡的挖掘方法。具體地說,我們關注於可伸縮的、有效的、弱監督的、與語言無關的方法,這些方法適用於各種文本。我們進一步在真實的數據集(包括新聞文章、科學出版物和產品評論)上演示如何構建信息網絡,以及它們如何幫助進一步的探索性分析。
7 新星獎
今年是KDD第一屆設立KDD年度新星獎(Rising Star Award),該獎項的設立旨在慶祝SIGKDD社區最聰明的新思想的早期成就以及表彰KDD社區裡在博士畢業五年內便獲得卓越科研成就的年輕學者。
今年一共有兩位學者獲得,分別是Danai Koutra(Morris Wellman)和湯繼良(Tang Jiliang)。
湯繼良教授來自密西根州立大學數據科學與工程實驗室(Data Science and Engineering Laboratory),他的傑出工作包括對表示學習的研究,尤其是圖形及其在網際網路和社交媒體領域的應用。湯教授獲得該榮譽的主要原因在於他在特徵學習(尤其是圖和圖在網絡、社交媒體和智能教育上的應用)領域所取得的傑出成就。
個人主頁:http://www.cse.msu.edu/~tangjili/
另外,AI科技評論曾有幸對湯繼良教授進行了專訪,並與湯老師交流他的科研故事,希望能為青年學子、尤其是正在迷茫中不知出路的年輕人樹立一個榜樣:《湯繼良:從小鎮走出來的KDD科研新星 | 專訪 》
第二位獲獎人Danai Koutra(Morris Wellman)在密西根大學計算機科學與工程系的任助理教授,她在大規模數據挖掘中的研究集中於用於網絡匯總和多網絡分析的有原則、可解釋和可擴展的方法。
她利用網絡內部數據之間的固有聯繫,了解世界數據中的未知數據。這些連接自然以網絡或圖形建模,而網絡或圖形又跨越了我們生活的方方面面:電子郵件通信網絡,用於網絡搜索的知識圖,社交網絡,共同作者圖,大腦網絡,人工神經網絡等。她的工作通過提供簡潔明了的網絡摘要來利用這些數據的大規模,異質性和複雜性,以此作為一種方式:(a)加快後續分析和僅適用於較小的代表性數據的方法;(b)了解底層流程,並通過消除手動篩選大量數據的負擔來為我們的決策提供信息;(c)提供對科學數據的見解,產生新的假設。
個人主頁:https://web.eecs.umich.edu/~dkoutra/
8 時間檢驗研究獎
SIGKDD的時間檢驗獎表彰了至少已發表十年的傑出KDD論文,這些論文對數據挖掘研究界產生了持久影響,並繼續被人們視為新的研究分支的基礎。今年,時間檢驗研究獎( Test of Time Award for Research)獲得者是Victor S. Sheng,Foster Provost和Panagiotis Ipeirotis:
獲獎論文為2008年同行評審論文:
《Get Another Label? Improving Data Quality and Data Mining Using Multiple, Noisy Labelers 》
論文連結:
http://crowdsourcing-class.org/readings/downloads/econ/get-another-label.pdf
論文摘要:
本文討論了當標籤不完善時,數據項標籤的重複獲取問題。我們考察了通過重複標記在數據質量方面的改進(或不足),特別是針對監督歸納的訓練標籤的改進。隨著小任務的外包變得越來越容易,例如通過Rent-A-Coder或亞馬遜的Mechanical Turk,通常可以以低成本獲得不太專業的標籤。使用低成本標記,準備未標記的數據部分可能會比標記成本高很多。
我們提出了增加複雜性的重複標記策略,並給出了幾個主要結果:
1、 重複標記可以提高標籤質量和模型質量,但並不總是這樣。
2、當標籤嘈雜時,即使在標籤並不特別便宜的傳統環境中,重複標籤也比單一標籤更好。
3、一旦處理未標記數據的成本不是免費的,即使是多次標記所有內容的簡單策略也可以帶來相當大的優勢。
4、反覆標記一組精心選擇的點通常是可取的,我們提出了一種穩健的技術,可以結合不同的不確定性概念來選擇質量應提高的數據點。
底線:結果清楚地表明,當標籤不完美時,有選擇地收購多個標籤是數據挖掘者的一種策略;對於某些標籤質量/成本制度,好處是巨大的。
9 時間檢驗應用科學獎
今年是首屆應用科學時間測驗獎(Test of Time Award for Applied Science)SIGKDD頒發了該獎項,以表彰在數據科學的實際應用中具有影響力的研究。唐傑、李娟子等人憑藉他們在2008年發表的關於學術社會網絡挖掘的研究成果獲得了該獎。
唐傑目前為清華大學計算機科學與技術系長聘教授,計算機系副主任、清華-工程院知識智能聯合實驗室主任。
獲獎論文:《ArnetMiner: Extraction and Mining of Academic Social Networks 》
論文連結:
https://static.aminer.org/upload/pdf/985/1447/1704/53e9a5afb7602d9702edacce.pdf
論文摘要:
本文討論了ArnetMiner系統中的幾個關鍵問題,該系統旨在提取和挖掘學術社交網絡。
具體而言,該系統側重於:
1、 從Web上自動提取研究人員的個人資料;
2、 將現有數字圖書館出版數據整合到網絡中;
3、 對整個學術網絡進行建模;
4、為學術網絡提供搜索服務;
到目前為止,已經使用統一的標記方法提取了448470名研究人員的個人資料。我們整合了來自網絡資料庫的出版物,並提出了一個概率框架來處理名稱模糊問題。
此外,我們提出了一個統一的建模方法來同時對論文、作者和出版物的主題方面進行建模。基於建模結果提供了專家檢索、人員關聯搜索等搜索服務。本文介紹了該系統的體系結構和主要特點。我們還對所提出的方法進行了實證評價。