數據挖掘領頭人韓家煒教授:如何從無結構文本到有用的知識?

2020-12-04 雷鋒網

雷鋒網 AI 科技評論按:這幾日,對於許多數據挖掘領域的研究者來說,北京是一個關注的焦點,原因無他,作為數據挖掘領域的兩大頂會CIKM 2019和ICDM 2019相繼在北京召開,甚至連開會地點(國家會議中心)都沒有變化。

兩個會議同為CCF B類,其區別在於前者是ACM舉辦,而後者是IEEE舉辦;此外CIKM覆蓋範圍更廣,包括了資料庫、信息檢索和數據挖掘三個領域,而ICDM則更為專注數據挖掘。

在兩次會議中,數據挖掘領域的巨擘韓家煒教授將就其研究分別做主題為《From Unstructured Text to TextCube: Automated Construction and Multidimensional Exploration》(@CIKM2019)和《Embedding-Based Text Mining: A Frontier in Data Mining》(@ICDM2019)的報告。

現實世界中的大數據在很大程度上是非結構化的、互聯的和動態的,且以自然語言文本的形式出現,將此類龐大的非結構化數據轉換為有用的知識是一條必由之路。目前大家普遍採用勞動密集型的方法對數據進行打標籤從而提取知識,這種方法短時來看可取,但卻無法進行擴展,特別是許多企業的文本數據是高度動態且領域相關。

韓家煒教授認為,大量的文本數據本身就隱含了大量的隱模式、結構和知識,因此我們可以藉助domain-independent 和 domain-dependent的知識庫,來探索如何將海量數據從非結構化的數據轉化為結構化的知識。

如下圖所示,是韓家煒教授及其學生在過去以及未來研究的主線:

韓家煒認為要想將現有的無結構的大數據變成有用的知識,首先要做的就是將數據結構化。他提出兩種結構化數據的形式,一種是異質網絡(Heterogeneous Network),另一種是多維文本立方體(Multi-dimensional Text Cube)。由這種結構化數據生成知識已經證明是很強大的,但是如何將原始無結構的數據變成有結構的數據(Network 或 Text Cube)則是非常困難的。

在 Network/Text Cube 到 Knowledge 的問題上,韓家煒等人已經做了很多研究工作,也已經由此獲得了很多獎項;在無結構文本數據到有結構 Network/Text Cube 的路上他們也做出了許多嘗試和成果,現在仍在進行中。韓家煒認為這是一條很長的路,他們現在只是在這條路上突破了幾個可以往前走的口子,還只是一條小路,要變成一條康莊大道則需要各國學者共同努力。

韓家煒教授的研究工作並非跟隨熱點,而是在十年如一日地去打通一條從無結構數據到有用的知識的康莊大道,因此脈絡極為清晰且極具連貫性。

雷鋒網(公眾號:雷鋒網) AI 科技評論在2018年初曾整理過一篇韓家煒教授的演講報告文章《韓家煒在數據挖掘上開闢的「小路」是什麼》,值得大家參考。相比一年前,韓家煒教授的團隊也在不斷將當前最新的研究進展融入到他們這條「小路」當中,例如BERT、Spherical Text Embedding等,這些請查閱韓家煒教授團隊近期發表論文:

在2018年初他提到的以下幾本已經發表的書:

站在2019年末,韓家煒的團隊又發布了幾本新書:

任翔出了《Mining Structures of Factual Knowledge from Text》,張超也出版了《Multidimensional Mining of Massive Text Data》 。

相關焦點

  • 專訪數據挖掘領頭人韓家煒教授:不要迷信權威,做學問要秉承「三個...
    作為第二天的大會嘉賓,美國伊利諾伊大學香檳分校(UIUC)計算機系教授韓家煒圍繞《基於海量文本數據的結構化知識抽取:數據挖掘、機器學習和自然語言處理的融合技術》分享了他在數據挖掘領域的相關研究。韓家煒認為要想將現有的無結構的 Big Data 變成有用的 Knowledge,首先要做的就是將數據結構化。
  • 韓家煒在數據挖掘上開闢的「小路」是什麼
    在 Network/Text Cube 到 Knowledge 的問題上,韓家煒等人已經做了很多研究工作,也已經由此獲得了很多獎項;在無結構文本數據到有結構 Network/Text Cube 的路上他們也做出了許多嘗試和成果,現在仍在進行中。
  • 重磅 | 數據挖掘之父韓家煒:文本語料庫的數據挖掘(附視頻+PPT下載)
    授權轉載自公眾號數據派THU微信ID:DatapiTHU近期,美國伊利諾伊大學厄巴納香檳分校計算機科學Abel Bliss教授韓家煒在清華大學FIT樓多功能廳進行了關於文本語料庫數據挖掘的主題分享。 嘉賓簡介:韓家煒,美國伊利諾伊大學香檳分校計算機系教授,IEEE和ACM院士,美國信息網絡學術研究中心主任。曾擔任KDD、SDM和ICDM等國際知名會議的程序委員會主席,創辦了ACM TKDD學報並任主編。在數據挖掘、資料庫和信息網絡領域發表論文900餘篇。
  • 科學網—韓家煒:數據挖掘第一人
    當記者向學生們表示,有時間很想拜訪這裡幾位華裔科學家時,學生們立刻推薦:「你應該去見見韓家煒。」 「他有『數據挖掘第一人』之稱,是伊利諾伊大學香檳分校具有國際影響力的著名科學家,我們很多學生都選了他的課。」 「我上個月去聽了韓家煒教授的講座,果然是學術大牛,分析問題一針見血,講述道理深入淺出,原先對數據挖掘領域許多一知半解的問題都豁然開朗。」
  • 美國伊利諾伊大學香檳分校教授韓家煒訪問自動化所
    韓家煒現為美國伊利諾伊大學香檳分校計算機系教授,ACM會士和IEEE會士,被稱為「數據挖掘第一人」。他在數據挖掘領域有重要的學術影響力,發表論文600餘篇,出版多部專著。曾擔任國際知名會議KDD、SDM和ICDM程序委員會主席,創辦了學術期刊ACM TKDD並擔任主編。
  • 韓家煒Jiawei Han訪談錄(數據挖掘)
    其與人合夥撰寫的《數據挖掘:概念與技術》為本領域公認的經典教材。他是資料庫領域傑出華人學者之代表。本專訪介紹了韓家煒教授如何研究數據挖掘、隱私等問題,以及如何管理自己的學生。問:歡迎來到本期 ACM SIGMOD Record資料庫領域傑出人物訪談。
  • CCF ADL 87講習班回顧:韓家煒等13位大牛全方位解析社交網絡和數據...
    Philip 教授認為 Broad Learning 的關鍵任務有兩點:1、信息融合;2、知識發現。而其挑戰則是,怎麼融合以及怎麼挖掘知識?因為現在信息融合的方法會隨著不同的數據而變,此外在特定的知識發現任務中並不是所有的數據都是有用的。
  • 微信、微博數據這麼多,如何從中挖掘潛在信息? | CCF-ADL 87期
    在社交網絡中匯聚了大量的用戶關係數據和信息傳播數據,對社交網絡數據的研究和挖掘將為我們了解和研究人類社會、經濟、商業等的潛在規律提供極大的幫助。那麼在海量的社交網絡數據下面存在著什麼樣的特點和規律呢?在線社交網絡的信息傳播與物理社交網絡的信息傳播有什麼樣異同呢?如何挖掘社交網絡的數據以從中發現一些潛在的社會、經濟和商業規律呢?社交網絡和數據挖掘的前沿研究方向在哪裡呢?
  • 知識圖譜——用Python代碼從文本中挖掘信息的強大數據科學技術
    裡面不僅有文本、大量的超連結,甚至還有音頻片段。整個網頁上有很多相關的和可能會有用的信息,將它們應用到實際生活中可能性是無窮的。然而,還有一個小問題。這不是給機器提供數據的理想來源,至少不是以現在的這種形式。是否能找到一種方法,使這些文本數據變為機器可讀?能否將這些文本數據轉錄成既讓機器可以使用,也能讓我們可以輕鬆解釋的東西?答案是肯定的。
  • 文本挖掘從小白到精通(一):語料、向量空間和模型的概念
    本文給大家介紹幾個在使用gensim進行文本挖掘所需了解的基本概念和術語,並提供一些簡單的用法示例。enjoy~筆者最近在梳理自己的文本挖掘知識結構,藉助gensim、sklearn、keras等庫的文檔做了些擴充,希望在梳理自身知識體系的同時也能對想學習文本挖掘的朋友有一點幫助,這是筆者寫該系列的初衷。
  • 數據挖掘之文本分類技術,最詳細的原理解讀
    寫在前面的話:不要被技術嚇到哦 ,本文儘量寫的白話,致力為從事大數據的運營、諮詢規劃、需求以及想學習大數據的入門者提供知識分享@……@一、文本分類研究的背景 隨著網際網路的發展,非結構化的文本數據急劇增加,(對大數據特徵不夠理解的,參考:還不懂什麼是大數據?
  • 2018中國AI英雄風雲榜技術創新人物候選人之韓家煒
    韓家煒,伊利諾伊大學香檳分校教授、IEEE/ACM院士。2018中國AI英雄風雲榜技術創新人物大師獎候選人。韓家煒,美國伊利諾伊大學香檳分校計算機系教授,IEEE和ACM院士,美國信息網絡學術研究中心主任。1949年8月出生於中國上海,1979年畢業於中國科學技術大學,同年考入中科院研究生院,1985年在威斯康星麥迪遜大學獲得博士學位。他是2009年麥克道爾獎(the McDowell Award)的得主,由國際電氣與電子工程師學會(IEEE)頒發的最高技術獎。
  • 從概念到應用,這一次終於把數據挖掘給講明白了
    02 什麼是數據挖掘數據挖掘是在大型資料庫中自動地發現有用信息的過程。數據挖掘技術用來探查大型資料庫,發現先前未知的有用模式。數據挖掘還可以預測未來的觀測結果,比如顧客在網上或實體店的消費金額。並非所有的信息發現任務都被視為數據挖掘。例如查詢任務:在資料庫中查找個別記錄,或查找含特定關鍵字的網頁。
  • 數據挖掘的知識類型
    這些關聯並不總是事先知道,而是通過資料庫中數據的關聯分析獲得的,其對商業決策具有重要的價值,因而關聯分析廣泛用於市場營銷,事物分析等領域。挖掘關聯知識的一個典型應用實例就是市場購物分析。根據被放到一個購物袋的(購物)內容記錄數據而發現的不同(被購買)商品之間所存在的關聯知識無疑將會幫助商家分析顧客的購買習慣。發現常在一起被購買的商品(關聯知識)將幫助商家指定有針對性的市場策略。
  • 論文主題、引用量、中國機構 & 華人學者,KDD 2020 關鍵數據搶先看
    GNNs需要定義良好的圖結構來進行信息傳播,這意味著它們不能直接應用於依賴關係未知的多元時間序列。本文提出了一個專門針對多元時間序列數據設計的通用圖神經網絡框架。該方法通過一個圖學習模塊自動提取變量間的單向關係,可以方便地將變量屬性等外部知識集成到其中。進一步提出了一種新的混合跳傳播層和擴展的起始層來捕獲時間序列中的空間和時間相關性。圖學習、圖卷積和時間卷積模塊在端到端框架中聯合學習。
  • 文本挖掘從小白到精通(二):料庫和詞向量空間
    寫筆者最近在梳理自己的文本挖掘知識結構,藉助gensim、sklearn、keras等庫的文檔做了些擴充,會陸陸續續介紹文本向量化、tfidf、主題模型、word2vec,既會涉及理論,也會有詳細的代碼和案例進行講解,希望在梳理自身知識體系的同時也能對想學習文本挖掘的朋友有一點幫助,這是筆者寫該系列的初衷
  • 深入淺出:如何從0開始學習大數據挖掘分析?
    最近有很多人諮詢,想學習大數據,但不知道怎麼入手,從哪裡開始學習,需要學習哪些東西?對於一個初學者,學習大數據挖掘分析的思路邏輯是什麼?本文就梳理了如何從0開始學習大數據挖掘分析,學習的步驟思路,可以給大家一個學習的建議。
  • 數據挖掘(DataMining)概述
    2 數據挖掘的對象常見的數據挖掘對象有以下7大類關係型資料庫(MySQL)、非關係係數據庫(NoSQL);數據倉庫/多維度資料庫(HDFS/Hive);空間數據(如地圖信息)工程數據(如建築、集成電路的信息)文本和多媒體數據(如 文本、圖像、音頻、視頻數據)時間相關的數據(如歷史數據或股票交換數據)全球資訊網(如半結構化的HTML、結構化的XML以及其他網絡信息)。