CCAI2018 | 韓家煒:大規模文本數據挖掘的新方向

2021-03-01 中國人工智慧學會

韓家煒認為,數據挖掘的研究工作可以總結為三部曲:

(1)從文本數據中挖掘隱藏的結構。文本數據中隱藏著大量的結構,這步工作就是將這些數據挖掘出來

(2)將文本數據轉化為有類型的 Network/Text Cube。將文本數據變成有結構、有類型的數據(Network/Text Cube)

(3)挖掘 Network/Text Cube 生成有用的知識。最後一步才是挖掘。

此外,在研究的推進過程中,他們也曾遇到了很多困難。

一是領域限制。用一般語料獲得的實體標註在特定領域、動態領域或者新興的領域無法很好的工作。

二是名稱的歧義性。多個實體可能共享同一個表面名字(Surface Name,例如「Washington」,它可能是州、市、人名、球隊名等)。

三是上下文稀疏。對同一個關係可能有許多種表示方法(想想中文有多少中表示體育比賽結果的方法)。

雖然數據挖掘已經有了成型的結構,但仍有重重困難需要克服。韓教授曾說:「在這條路上,我們現在只是找到了幾個口子可以往前走。現在這還不是一條大路,只是一條小路。要想變成一條康莊大道,需要大家共同努力。這條路通寬了,將來我們就可以從大量的無結構的文本,變成大量的有用的知識。」

相關焦點

  • 韓家煒在數據挖掘上開闢的「小路」是什麼
    [3] 筆者私以為這場報告對廣大做數據挖掘的老師和學生有很大的指導意義,韓家煒在這場報告中講述了他以及他帶領的學生在過去以及未來十多年中研究方向的主線,即下面這張圖:韓家煒認為從無結構文本中挖掘出結構是當前數據挖掘研究的重中之重。他就他們研究中的四個方面做了深入的解讀;4、如何構建 Text Cube。承接前一步,挖掘出結構後,韓家煒講解了如何構建多維 Text Cube;5、研究方向總結。最
  • 【韓家煒老師CS512 Spring 2020課程】數據挖掘:原理與算法,附下載
    【導讀】韓家煒老師是數據挖掘領域的祖師爺,也是華人計算機界的代表性人物之一。
  • 【乾貨】UIUC韓家煒老師2020年新課:CS512 數據挖掘:原理與算法,附PPT
    最近他在UIUC新開設一門數據挖掘的課程CS512 Spring 2020,Data Mining: Principles and Algorithms》,介紹數據挖掘的原理、算法和應用,內容豐富,值得收藏。戳右邊連結上 新智元小程序 了解更多!
  • CCF ADL 87講習班回顧:韓家煒等13位大牛全方位解析社交網絡和數據...
    ,13位老師分別講述了一個或幾個不同的研究方向,可謂場場乾貨。尤其尤其是韓家煒教授和Philip教授兩位學界大牛,從他們的報告可以看出,雖然他們講的概念不同,用的方法不同,但是他們做的方向基本一致,兩位學界巨擘的研究或許也代表了數據挖掘領域當前的一個方向。下面我們來回顧一下本次講習班的主要內容(按分享時間順序總結,排名不分先後)。
  • 美國伊利諾伊大學香檳分校教授韓家煒訪問自動化所
    韓家煒現為美國伊利諾伊大學香檳分校計算機系教授,ACM會士和IEEE會士,被稱為「數據挖掘第一人」。他在數據挖掘領域有重要的學術影響力,發表論文600餘篇,出版多部專著。曾擔任國際知名會議KDD、SDM和ICDM程序委員會主席,創辦了學術期刊ACM TKDD並擔任主編。
  • 微信、微博數據這麼多,如何從中挖掘潛在信息? | CCF-ADL 87期
    在社交網絡中匯聚了大量的用戶關係數據和信息傳播數據,對社交網絡數據的研究和挖掘將為我們了解和研究人類社會、經濟、商業等的潛在規律提供極大的幫助。那麼在海量的社交網絡數據下面存在著什麼樣的特點和規律呢?在線社交網絡的信息傳播與物理社交網絡的信息傳播有什麼樣異同呢?如何挖掘社交網絡的數據以從中發現一些潛在的社會、經濟和商業規律呢?社交網絡和數據挖掘的前沿研究方向在哪裡呢?
  • 第七屆中國數據挖掘會議(CCDM 2018)徵文通知
    會議旨在為數據挖掘領域從業者提供一個互動交流平臺,使參會者了解最前沿的學術動態,分享數據挖掘領域的最新研究成果、創新思想和科學方法,提高國內數據挖掘領域的研究水平。中國數據挖掘會議每兩年舉行一次,前六屆會議分別在北京、鄭州、煙臺、廣州、金華和桂林成功舉行,現已成為國內數據挖掘領域最主要的學術活動之一。
  • 一文看懂什麼是文本挖掘
    文本挖掘指的是從文本數據中獲取有價值的信息和知識,它是數據挖掘中的一種方法。文本挖掘中最重要最基本的應用是實現文本的分類和聚類,前者是有監督的挖掘算法,後者是無監督的挖掘算法。文本挖掘是一個多學科混雜的領域,涵蓋了多種技術,包括數據挖掘技術、信息抽取、信息檢索,機器學習、自然語言處理、計算語言學、統計數據分析、線性幾何、概率理論甚至還有圖論。
  • 數據挖掘之文本分類技術,最詳細的原理解讀
    在理解文本信息的問題上,由於信息量的龐大,如果僅憑人工方式來收集和挖掘文本數據,不僅需要消耗大量的人力和時間,而且也是很難實現的。於是,實現自動文本分類就顯得尤其重要,它是文本信息挖掘的基本功能,也成為了處理和組織文本數據的核心技術。
  • 文本挖掘入門課:主題模型讓文本數據處理更幸福
    本文介紹了一個叫做主題模型的文本挖掘方法。這是提取主題時一項極其有用的技術,在應對自然語言處理問題的時候也非常常見。提示:強烈建議你閱讀這篇文章以對奇異值分解(SVD)和UMAP等概念進行了解(https://www.analyticsvidhya.com/blog/2018/08/dimensionality-reduction-techniques-python/)。
  • Kaggle發起CORD-19數據集文本挖掘競賽
    近日,艾倫AI研究所等頂級研究小組發布了免費的COVID-19開放研究數據集,涵蓋目前所有的冠狀病毒研究文獻,Kaggle緊跟著發起CORD-19數據集文本挖掘競賽,提出10大難題,召喚AI研究人員開發文本數據挖掘工具助力醫學界。「新智元急聘主筆、編輯、運營經理、客戶經理,添加HR微信(Dr-wly)或掃描文末二維碼了解詳情。」
  • 2018年6月份Python網絡爬蟲與文本挖掘
    為提升相關科技工作者的技術水平,北京博宏科睿教育科技有限公司特舉辦2018年第二期「Python爬蟲與文本挖掘實例技術與應用」培訓班,本次培訓從爬蟲的基本知識入手,使用Python作為實現工具,一步步講述網絡爬蟲的實現,具體內容如下:            【培訓目標】 1.讓學員儘快掌握python語言的基本結構與語法與數據類型,模塊、
  • 韓家煒課題組重磅發文:文本分類只需標籤名稱,不需要任何標註數據!
    今天介紹的這篇paper講的是文本分類居然不需要任何標註數據啦!哇,真香!當前的文本分類任務需要利用眾多標註數據,標註成本是昂貴的。而半監督文本分類雖然減少了對標註數據的依賴,但還是需要領域專家手動進行標註,特別是在類別數目很大的情況下。試想一下,我們人類是如何對新聞文本進行分類的?
  • 「首席架構師推薦」文本挖掘軟體列表
    文本挖掘,也稱為文本數據挖掘,大致相當於文本分析,是指從文本中獲取高質量信息的過程。高質量的信息通常是通過設計模式和趨勢通過統計模式學習等手段獲得的。文本挖掘電腦程式可從許多商業和開放源碼公司和原始碼獲得。
  • 2018年值得擁有的十大大數據挖掘工具
    數據挖掘是指這個過程:在龐大數據集當中發現模式,將它轉換成有效的信息。該技術利用特定的算法、統計分析、人工智慧和資料庫系統,從龐大數據集中提取信息,並轉換成易於理解的形式。本文介紹了廣泛用於大數據行業的10種綜合數據挖掘工具。  Rapid Miner是一個數據科學軟體平臺,為數據準備、機器學習、深度學習、文本挖掘和預測分析提供一種集成環境。
  • 不用專業詞典,電力領域文本挖掘有多難?
    而專業詞彙的識別能力是文本挖掘的關鍵,當前泛在電力物聯網、綜合能源服務等新概念的出現,帶來了大量新說法、新詞彙,構建專業化的行業詞典變得越來越迫切。dvdf文本挖掘從數據挖掘發展而來,指從大量的文本數據中提取事先未知的、有價值的信息的過程,簡言之,就是從非結構化的文本中尋找知識的過程。
  • 乾貨丨文本挖掘二三式
    文本挖掘是指從大量文本數據中發現知識,抽取隱含的、未知的、潛在有用的模式的過程。文本挖掘是數據挖掘中的一個研究領域,只是數據挖掘的研究對象大多是結構化的數據,而文本挖掘的研究對象是非結構化或半結構化的信息。
  • 基於文本挖掘的學習分析應用研究
    本文首先描述了學習分析、文本挖掘的概念,通過文獻分析法,對國內外採用文本挖掘技術的學習分析研究現狀進行了綜述;其次,介紹了學習分析中文本挖掘的數據來源、方法和工具;最後主要從課程評價支持、學習者知識能力測評、學習共同體分組、學習行為危機預警、學習效果預測和學習狀態可視化6個方面闡述了文本挖掘應用於學習分析中的具體實例,並對未來作進一步的展望和探討。
  • 論文主題、引用量、中國機構 & 華人學者,KDD 2020 關鍵數據搶先看!
    Jiawei Han(韓家煒)韓家煒教授一直在研究數據挖掘、信息網絡分析、資料庫系統和數據倉庫,擁有900多份期刊和會議出版物。在大多數數據挖掘和資料庫會議中,他曾主持或服務於許多國際會議的項目委員會。
  • 論文主題、引用量、中國機構&華人學者,KDD 2020 關鍵數據搶先看!
    Jiawei Han(韓家煒) 韓家煒教授一直在研究數據挖掘、信息網絡分析、資料庫系統和數據倉庫,擁有900多份期刊和會議出版物。在大多數數據挖掘和資料庫會議中,他曾主持或服務於許多國際會議的項目委員會。