數據挖掘領域的頂會 KDD 2017 目前正在火熱進行中。昨日,機器之心報導了滴滴被 KDD 2017 接收的論文。今日,KDD 2017 公布包括最佳論文在內的多個獎項。
KDD 的英文全稱是 Knowledge Discovery and Data Mining(知識發現與數據挖掘),由美國計算機協會 ACM 下的數據挖掘分會舉辦,是國際數據挖掘領域的頂級會議。據統計,KDD 2017 共收到 1144 篇論文投遞,收錄 216 篇。今日,KDD 2017 公布了收錄論文中的最佳論文等獎項。獲獎情況如下:
最佳論文與最佳學生論文
論文:Accelerating Innovation Through Analogy Mining
作者:Tom Hope、Joel Chan、Aniket Kittur 和 Dafna Shahaf
地址:https://arxiv.org/abs/1706.05585
Runner up paper:
論文:Toeplitz Inverse Covariance-Based Clustering of Multivariate Time Series Data
作者:David Hallac、Sagar Vare、Stephen Boyd 和 Jure Leskovec
地址:https://arxiv.org/abs/1706.03161
最佳應用論文獎
論文:HinDroid: An Intelligent Android Malware Detection System Based on Structured Heterogeneous Information Network
作者:Shifu Hou、Yanfang Ye、Yangqiu Song 和 Melih Abdulhayoglu
地址:http://www.cse.ust.hk/~yqsong/papers/2017-KDD-HINDROID.pdf
Runner up Papers:
論文:DeepSD: Generating High Resolution Climate Change Projections through Single Image Super-Resolution
作者:Thomas Vandal、Evan Kodra、Sangram Ganguly、Andrew Michaelis、Ramakrishna Nemani 和 Auroop R Ganguly
地址:https://arxiv.org/abs/1703.03126
博士論文獎
Runner up papers:
論文 :Mining Large Multi-Aspect Data: Algorithms and Applications
作者:Evangelos E. Papalexakis
地址:http://www.cs.cmu.edu/~epapalex/proposal.pdf
Honorable Mention Papers:
以下是機器之心對獲獎論文的摘要介紹。此外,我們還介紹了 SIGKDD 2017 創新獎與服務獎的獲得者。
最佳論文和最佳學生論文獎:Accelerating Innovation Through Analogy Mining
摘要:大型知識資源庫(如美國專利資料庫)的可用性提高可以顯著加速人們發明和探索類似問題的進程。然而,想要在這些巨大、複雜的現實資源庫(repositories)中尋找有意義的類推方式對人類和自動方法而言都是一個巨大的挑戰。此前,我們使用的方法通常包含手動編寫的帶有高關聯結構的數據集(如謂詞演算表徵),但這種數據集非常稀疏且昂貴。更簡單的機器學習/信息檢索相似性度量可以擴展到大型的、基於自然語言的數據集中,但很難應對結構的相似性——而這是類比的核心問題。
在本文中,我們探索了學習簡單結構表示的可行性和價值,特別是在「問題模式」上,其中規定了產品的目的與達到目的使用的機制。我們的方法整合了眾包模式與循環神經網絡來提取產品描述中的目的和機制的向量表示。我們證明了,這些學習的向量可以讓我們比傳統信息檢索方式更快、更準確地找到類比。在一個思維實驗中,新模型檢索的類比顯著增加了人們產生新思想的可能性。我們的結果證明了新方法可以讓大規模類比的計算適應弱結構表徵。
最佳應用論文獎:HinDroid: An Intelligent Android Malware Detection System Based on Structured Heterogeneous Information Network
摘要:隨著安卓惡意軟體的增多、對智慧型手機用戶的危害越來越嚴重,對安卓惡意軟體的檢測已經成為網絡安全的重中之重。而安卓惡意軟體日益增長的複雜性,要求我們創造出新的技術對抗新的威脅且難以入侵。在此論文中,為了檢測安卓惡意軟體,我們不只是調用 API,而是進一步分析它們之間的不同關係,創造更高級別的語義,從而使得攻擊者入侵檢測需要花費更大的努力。我們將安卓應用、相關 API、以及它們之間的豐富關係表達為一種結構化的異質信息網絡(Heterogeneous Information Network/HIN)。然後我們使用基於元通道(meta-path)的方法表徵 app 與 API 之間的語義關係。我們使用每個元通道在安卓 app 上公式化類似的測量方法,並使用多核學習(Multi-kernel learning)收集不同的類似點(similarities)。然後,每個元通道被學習算法自動賦權,從而作出預測。據我們所知,這是首個使用結構化 HIN 網絡進行安卓惡意軟體檢測的工作。我們在 Comodo 雲安全中心收集的真實樣本上進行了綜合實驗,旨在對比不同的惡意軟體檢測方法。有潛力的實驗結果表明,我們開發的系統 HinDroid 超越了其他安卓惡意軟體檢測技術。
最佳博士論文獎:Local Modeling of Attributed Graphs: Algorithms and Applications
摘要:具有關聯節點、原始連結信息的現實世界圖正在變得越來越普遍。例如,社交網絡既包含親友關係,也包含人口統計、興趣等屬性;一個蛋白質相互作用的網絡(protein-protein interaction network)不僅可以具有相互作用的表示,還可以顯示相互作用的級別。這樣的信息可以由使用節點表示對象的圖來表示,而圖的邊代表互相之間的關係,節點相關的特徵向量代表屬性。
這種圖數據通常被稱為屬性圖(Attributed graph)。本文著重於開發適用於屬性圖的可擴展算法和模型。在這裡,數據可以看作是離散的(一組邊),或是連續的(嵌入式節點之間的距離),我從兩個角度考慮了這個問題。具體來說,我提出了一種在線學習算法,它利用深度學習中的最新進展來構建多種圖嵌入。使用這種新方法編碼的多尺度社會關係對於網絡中的多標籤分類和回歸任務都是可用的。我還提出了離散圖中異常社區得分的局部算法。這些算法可以發現圖屬性的子集,最終發現社區(例如社交網絡上的共同興趣)。
本論文中所有方法的可擴展性都是通過利用圖基元(Graph primitives)的限制集合來保證的,如自我中心網絡和截斷隨機遊動,它們可以利用每個頂點周圍的局部信息。此外,對於限制圖依賴性的範圍,我們考慮使用新方法在 MapReduuce 和 Spark 上對常見內容進行大數據處理。
這項工作在數據挖掘和信息檢索等應用領域領域前景廣闊,其中包括用戶分析/人口統計推理,在線廣告和欺詐檢測等。
2017 SIGKDD Test of time award
康奈爾大學 Thorsten Joachims 的《Training Linear SVMs in Linear Time》獲得了該獎項。
論文地址:https://www.cs.cornell.edu/people/tj/publications/joachims_06a.pdf
摘要:線性支持向量機(SVM)已經成為了高維稀疏數據空間中最傑出的機器學習技術之一,它通常應用於如文本分類、詞義消歧和藥物設計等領域。這些應用都涉及到巨量的樣本 n 和巨量的特徵 N,每一個樣本只有 s << N(s 遠小於 N)個特徵是非零特徵。該論文展示了一種訓練線性 SVM 的截平面算法(Cutting-Plane Algorithm),該算法經證明分類問題的訓練時間只需 O(sn),有序回歸問題的訓練時間為 O(sn log(n))。該算法基於一種 SVM 優化問題的替代但等價公式化方法。經驗上,截平面算法要比如 SVMLight 那樣的分解法在大數據集上快幾個數量級。
2017 SIGKDD Innovation Award
ACM SIGKDD 新一任主席、加拿大西蒙弗雷澤大學計算機學院裴健教授
裴健(Jian Pei)是加拿大西蒙弗雷澤大學計算機學院教授、IEEE Fellow,他的研究主要集中在開發針對新型數據密集型應用的高效數據分析技術。裴健教授的研究領域包括數據挖掘、聯機分析處理、數據倉庫、web 搜索、信息檢索、醫學信息學、商業智能等領域中的應用。2000 年以來,裴健教授發表了 200 多篇論文,也多次擔任國際會議的程序委員會委員和組織委員會委員。
裴健教授獲得了許多研究獎項,包括 2015 ACM SIGKDD Service Award、2014 IEEE ICDM 研究貢獻獎、IBM Faculty Award(2006)和 KDD 最佳應用論文獎(2008)、PAKDD 最佳論文獎(2014)、PAKDD 最具影響力論文獎(2009)和 IEEE 傑出論文獎(2007)等等。
裴健教授因為「在數據挖掘及應用領域的基礎研究,尤其是模式挖掘與空間數據挖掘方面做出的傑出貢獻。還有已經被業界廣泛接受和應用的數據挖掘方法」而獲得此項榮譽。
2017 SIGKDD Service Award
香港科技大學楊強教授
楊強,第四範式聯合創始人、首席科學家。楊強教授在人工智慧研究領域深耕三十年,是國際公認的人工智慧全球頂級學者,ACM 傑出科學家,兩屆「KDD Cup」冠軍。現任香港科技大學計算機與工程系主任,是首位美國人工智慧協會(AAAI)華人院士,AAAI 執行委員會唯一的華人委員,國際頂級學術會議 KDD、IJCAI 等大會主席,IEEE 大數據期刊等國際頂級學術期刊主編。楊強教授在數據挖掘、人工智慧、終身機器學習和智能規劃等研究領域都有卓越的貢獻,是遷移學習領域的奠基人和開拓者,他發表論文 400 餘篇,論文被引用超過三萬次。
楊強是多本國際期刊的編委,是 ACM TIST 的創始主編,是 IEEE 大數據期刊創始主編,還是 IEEE Intelligent Systems,IEEE TKDE (2005-2009),AI Magazine 等期刊的編委。此外,他也是很多人工智慧和數據挖掘相關會議的組織者以及程序聯合主席,如 2012 年在北京舉辦的 ACM 國際數據挖掘大會(KDD) 的會議主席,以及 ACM KDD 2010,ACM RecSys 2013, ACM IUI 2010,ICCBR2001 等會議的主席。他是國際人工智慧大會(IJCAI) 的董事會成員和 2015 年在阿根廷舉辦 IJCAI 會議的程序委員會主席, 同時在 2016 年被選為 AAAI 執行委員會委員。
據頒獎現場,楊強教授因為「在研究和發展數據挖掘和人工智慧領域所做出的傑出貢獻」而獲得此項榮譽。
本文為機器之心報導,轉載請聯繫本公眾號獲得授權。
✄------------------------------------------------
加入機器之心(全職記者/實習生):hr@jiqizhixin.com
投稿或尋求報導:editor@jiqizhixin.com
廣告&商務合作:bd@jiqizhixin.com
(下載iPhone或Android應用「經理人分享」,一個只為職業精英人群提供優質知識服務的分享平臺。不做單純的資訊推送,致力於成為你的私人智庫。)
作者:佚名
來源:機器之心