微信、微博數據這麼多,如何從中挖掘潛在信息? | CCF-ADL 87期

2021-01-08 雷鋒網

社交網絡和數據挖掘是計算機學科相關研究中的熱點。

近年來，以微博、微信等為代表的在線社會媒體逐漸成為人們發布、傳播和獲取信息的主要媒介。在社交網絡中匯聚了大量的用戶關係數據和信息傳播數據，對社交網絡數據的研究和挖掘將為我們了解和研究人類社會、經濟、商業等的潛在規律提供極大的幫助。

那麼在海量的社交網絡數據下面存在著什麼樣的特點和規律呢？在線社交網絡的信息傳播與物理社交網絡的信息傳播有什麼樣異同呢？如何挖掘社交網絡的數據以從中發現一些潛在的社會、經濟和商業規律呢？社交網絡和數據挖掘的前沿研究方向在哪裡呢？

不管你是青年愛好者、計算機科學工作者，還是社會科學研究人員或者企事業單位的管理人員，對這些問題的探討和學習，都會對你的工作、學習、研究有極大的幫助。

12月22日-24日，由中國計算機學會（CCF）主辦的第87期CCF學科前沿講習班（CCF-ADL）將以《社交網絡和數據挖掘》為主題，邀請數位來自國內外該領域重量級的專家學者對這些問題做一系列主題報告。雷鋒網作為獨家合作媒體，也將到場聆聽大牛分享，並對講習班內容進行全程報導。

他們將對社交網絡和數據挖掘的基礎理論、關鍵技術方法以及當前熱點問題進行深入淺出的介紹，並對如何開展該領域前沿技術研究等進行探討，以及分享近幾年在在線社會媒體中的信息傳播預測方面的研究成果。相信與會者必然能夠從中了解到社交網絡和數據挖掘領域的重點和熱點，給自己的學習、研究和工作帶來新啟發。

（雷鋒網編者註：CCF-ADL系列開班以來，主題涉及深度學習、類腦計算、區塊鏈技術、城市計算、計算機視覺等各大領域，邀請了學術界、工業界包括微軟研究員鄭宇、360首席科學家顏水成、港科大楊強教授等，聚集產學研各界人士，給數千人分享了學術前沿成果和應用方法。雷鋒網作為獨家合作媒體，將對講習班進行深入報導，無法到達現場的同學，雷鋒網·AI慕課學院也會呈上已獲授權的全網獨家在線視頻（http://www.mooc.ai/course/307）以供學習。

下面雷鋒網(公眾號：雷鋒網)對課程內容作以簡要介紹，詳細內容請參閱AI慕課學院介紹。

特邀講者Philip S. Yu：通過社交網絡信息融合的「Broad Learning」

Philip S. Yu，ACM/IEEE院士、美國伊利諾伊大學芝加哥分校特聘教授、清華大學軟體學院客座教授。

報告簡介：

在大數據時代，以各種格式存在的數據資源非常豐富。一種有意思的想法就是將這些不同格式的資源融合在一起，來協同挖掘數據背後的信息，這將比單一的數據資源獲得更多有價值的結果。「Broad Learning」正是這樣一種新型的學習任務。但BL在將不同的數據資源有效融合的過程中仍然存在著巨大的挑戰，這不僅取決於數據源的相關性，還取決於目標應用問題。在本次報告中，我們將探討如何融合社交網絡信息來改善各種應用場景中數據挖掘的效果。

唐傑：社會影響力與行為預測

唐傑，清華計算機系副教授、博導、CCF傑出會員、清華-工程院知識智能聯合實驗室主任。主持研發了研究者社會網絡挖掘系統AMiner，從億級文獻數據挖掘科技知識，吸引了220個國家/地區800多萬獨立IP訪問；核心技術應用於國家科技部、自然科學基金委、中國工程院、ACM、美國艾倫人工智慧研究所、搜狗、阿里巴巴、騰訊等單位。

摘要：

社會網絡已經成為溝通真實物理世界和虛擬互聯空間的橋梁。我們在網際網路中的行為直接反映了我們在真實世界的活動和情感。我將介紹在大規模真實網絡中（如：微信、微博、Twitter、 AMiner等網絡）如何分析用戶之間的交互影響力和基於網絡拓撲的結構影響力，並基於影響力預測用戶行為。模型同時考慮了網絡結構、用戶屬性和網絡用戶的偏好。並設計了針對大規模網絡的並行學習算法。在實際真實在線社交系統中得到了驗證。

沈華偉：在線社交媒體中的信息傳播預測

沈華偉，博士，中國科學院計算技術研究所研究員，中國中文信息學會社會媒體處理專委會副主任。

摘要：

近年來，以微博、微信等為代表的在線社會媒體逐漸成為人們發布、傳播和獲取信息的主要媒介。社會媒體匯聚了大量的用戶關係數據和信息傳播數據，為分析和研究人類社會活動提供了彌足珍貴的數據資源。社會媒體中數據多源異構、個體間關係繁雜、信息傳播突發等特點給社會媒體分析提出了科學技術挑戰。分析社交網絡的結構規律、挖掘用戶行為的固有模式、探索網絡信息傳播的內在機理、研究高效的社交網絡分析與網絡信息傳播預測方法，有利於提升對在線社會媒體的科學認知水平和有效利用能力。報告將從網絡結構分析、網絡表達學習、網絡信息傳播預測等幾個方面介紹報告人近幾年在在線社會媒體中的信息傳播預測方面的研究成果。

宋國傑：社會網絡信息傳播影響最大化挖掘

宋國傑，北京大學信息科學技術學院副教授，智能交通系統研究中心副主任。

摘要：

網絡信息傳播挖掘研究是近年來社交網絡分析領域的熱點問題。報告將重點介紹兩方面的研究工作：傳播影響最大化（Influence Maximization）和網絡推斷（Network Inference）。前者主要研究在既定傳播模型下，如何高效尋找社交網絡中信息傳播影響力最大的Top-k節點集合，而後者則是在給定觀測到信息傳播級聯數據集的基礎上，推斷出隱藏的、不可直接觀測的社交網絡拓撲結構。報告將重點介紹這兩類工作的代表性研究成果，並對未來發展進行展望。

Wei Wang：動態網絡的系統建模

Wei Wang，加州大學洛杉磯分校計算機科學Leonard Kleinrock首席教授，ScAi研究所主任，NIH BD2K中央合作中心的聯合主任。

摘要：

含時網絡（Temporal networks，即在網絡中加入時間的成分）可以說是無處不在，因為眾多的應用程式（包括微信、微博、twitter等）主要就是以時間依賴的方式生成的網絡結構。近年來，在進化網絡分析領域已經有了大量的研究工作，例如異常檢車、鏈路預測、節點分類等。針對這些問題已經存在許多單獨的解決方案，但是要想更廣泛地解決類似的問題，我們需要考慮的是：我們是否可以直接把網絡結構描述成時間的一個函數？在不同的應用環境中使用網絡結構時，將其描述為時間的函數至關重要，因為這樣的描述可以捕獲非常豐富的關於底層網絡結構的信息。在報告中，我將展示動態網絡建模的一些困難以及我們的解決方案。

胡祥恩：語義表示和分析（SRA）以及潛在的應用

胡祥恩博士是孟菲斯大學（UOFM）心理學系，電氣與計算機工程與計算機科學系教授，UofM智能系統研究所（IIS）高級研究員，華中師範大學心理學院院長，UOFM高級分布式學習（ADL）合作實驗室主任，中國教育部青少年網絡心理與行為重點實驗室高級研究員。

摘要：

語義表示分析（SRA）是基於向量的語義分析的一般框架。在這個框架內，自然語言的語義以誘導語義結構的形式表示。 SRA在信息檢索、文本分析和智能輔導系統中有很大的應用。在這個講座中，我將會：1）介紹一個SRA的數學模型；2）介紹和展示一種生成個性化的、領域特定的、上下文敏感的語義表示的方法；3）介紹和展示作為局部學生模型的學習者特徵曲線以及它在智能輔導系統中的應用。

石川：異質信息網絡建模與分析

石川，博士、北京郵電大學計算機學院教授、博士研究生導師、智能通信軟體與多媒體北京市重點實驗室副主任。

摘要：

當前的社會網絡分析主要針對同質網絡（即網絡中結點類型相同），但是現實世界中的網絡化數據通常包含不同類型的對象，並且對象之間的關聯表示不同的語義關係。構建異質信息網絡（即包含不同類型的結點或邊的網絡）可以包含更加完整的對象之間的關聯信息，因此分析這類網絡有希望挖掘更加準確的模式。本課題以異質信息網絡為對象，深入分析異質網絡的複雜結構和豐富語義對數據挖掘帶來的挑戰。本報告將介紹異質信息網絡的基本概念、特點、和分析方法，以及在實際問題中的應用。

崔鵬：網絡嵌入：在向量空間中啟用網絡分析和推理

崔鵬，清華大學副教授。

摘要：

現在，在應用當中出現越來越大的網絡，網絡數據也變得越來越具有複雜性和挑戰性。為了有效地處理圖譜數據，第一個關鍵的挑戰就是如何表示網絡數據，即如何正確表示網絡以便在時間和空間上高效地進行模式發現、分析、預測等高級分析任務。在這個報告中，我將回顧一下網絡嵌入的最新思想和研究成果。更具體地說就是，將討論網絡嵌入中的一系列基本問題，包括為什麼需要重新考慮網絡表示，網絡嵌入的研究目標是什麼，網絡嵌入如何學習以及網絡嵌入的主要未來方向。

劉知遠：語言表示學習與計算社會科學

劉知遠，清華大學計算機系助理教授。

摘要：

語言是人類交流的工具、人類文化的載體，是了解人類社會的重要視角。近年來隨著表示學習在自然語言處理中的應用，語言表示學習也為社會科學研究提供了全新的技術工具，特別是面向在線社會媒體的大規模用戶產生內容進行用戶和內容分析，具有很大優勢。本報告將介紹語言表示學習技術在計算社會科學方面的最新動態，探討該方向的未來發展趨勢。

韓家煒：大規模語料庫的多維分析

韓家煒，ACM院士和IEEE院士，伊利諾伊大學厄巴納 - 香檳分校計算機科學系Abel Bliss教授。

摘要：

現實世界的大數據在很大程度上是以自然語言文本形式存在的非結構性的、相互關聯的數據。對於這樣的海量文本數據，從多維角度觀看和分析是非常理想的。不過這也提出了一個重大的挑戰，即如何將非結構化文本數據轉換為結構化文本然後在多維空間中去分析這些數據。為了促進這樣的分析，我們提出了一種文本立方體（textcube）建模方法，並討論了如何從大量文本語料庫構建這樣的立方體，以及如何使用這種文本立方體進行多維OLAP分析。在過去的幾年裡，我們開發出一種文本挖掘方法，這種方法只需要遠程的或最小的監督，而不是依靠大量數據。在這個報告中，我將展示：

（1）從海量文本數據中挖掘出高質量的短語；

（2）通過遠程監督從海量文本數據中提取類型；

（3）通過元路徑定向模式發現實體、屬性和值；

（4）從大量的語料庫中構建分面分類法；

（5）從大量文本構建文本立方體；

（6）對這些立方體進行多維分析。

這裡我們展示的範例——將大量的文本數據轉化為結構化和有用的知識——將是一個非常有希望的方向。

趙鑫：面向社交媒體平臺的商業數據挖掘

趙鑫，中國人民大學計算機副教授。

摘要：

隨著網際網路技術的不斷發展，各種社交媒體平臺都得到了廣泛的使用。社交網絡平臺中蘊含大量的用戶信息，包括用戶個人屬性信息（如年齡、性別等等）、用戶所發表的內容信息等等。如何充分利用社交媒體平臺的信息來加強用戶個性化建模，從而推動商業數據挖掘成了一個研究熱點。本次報告試圖系統梳理一些重要的商業大數據應用問題，如用戶意圖檢測、用戶畫像構建以及推薦算法等。

楊洋：移民的城市夢——上海移民融合

楊洋，浙江大學計算機科學與技術學院助理教授。

摘要：

前所未有的人類流動推動了全球高速的城市化進程。在中國，1978年至2012年間，城市人口居住比例從17.9％上升到52.6％。這種大規模的移民對政策制定者和研究人員來說既是重大的挑戰，又是重要的問題。在這個報告中，我將介紹我們對移民融合過程的研究。

具體而言，我們採用了上海一個月的電信元數據完整的數據集，其中擁有5400萬用戶和6.98億個通話記錄。我們發現本地人和移民在移動通信網絡和地理位置上存在有系統的差異。例如移民在定居後相比本地人會有更多的社會接觸，在城市中的移動半徑要大於本地人。通過區分新移民（最近移居上海）和定居的移民（在上海待了一段時間），我們發現了新移民在前三周的融合過程。此外，我們進一步調查了移民在第一周的行為，特別是他們的行為與最終提早離開之間的關係。我們發現最終離開的移民，在頭幾個星期往往都沒有發展處多樣性的聯繫，也沒有在城市周圍移動；他們活動區域的住房價格也高於那些最終留下來的移民的住房價格。

學術主任：唐傑、劉知遠

時間：2017年12月22日-24日

地點：中科院計算所一層報告廳（北京市海澱區中關村科學院南路6號）

報名方式：

1）現場聽課：即日起至2017年12月20日，報名請 登錄 https://jinshuju.net/f/yxdpPx

2）線上聽課：點擊 報名連結，雷鋒網AI慕課學院已獲獨家視頻授權，或者掃描下圖二維碼報名

雷鋒網原創文章，未經授權禁止轉載。詳情見轉載須知。

微信、微博數據這麼多,如何從中挖掘潛在信息? | CCF-ADL 87期

相關焦點

ADL112《量子計算》開始報名

CCF ADL 87講習班回顧:韓家煒等13位大牛全方位解析社交網絡和數據...

微博核心傳播者挖掘與傳播規模預測研究

大數據中數據挖掘的基本步驟

傳說中的Oncomine! 【基因數據挖掘專題第十三期】

韓家煒在數據挖掘上開闢的「小路」是什麼

XBRL層次結構與財務信息數據挖掘

乾貨面向大數據的時空數據挖掘

SEER數據挖掘4.8分SCI發文思路

清華178頁深度報告:一文看懂AI數據挖掘

ADI公司推出高性能RMS功率檢波器ADL5906

數據挖掘常用的算法

大數據_數據挖掘技術分類及應用

CCF NLPCC 2018 自然語言處理與中文計算國際會議

什麼叫數據挖掘_數據挖掘技術解析

在大數據中,數據挖掘到底有幾種方法?我來告訴你!

實戰課堂丨大數據關係信息挖掘:知識圖譜應用案例分享

深度解析數據挖掘在推薦系統中的應用

安卓版微信即將全量上線「暗色模式」;微博回應「用戶信息被出售...

深入淺出:如何從0開始學習大數據挖掘分析?

微信、微博數據這麼多,如何從中挖掘潛在信息? | CCF-ADL 87期

相關焦點

ADL112《量子計算》開始報名

CCF ADL 87講習班回顧:韓家煒等13位大牛全方位解析社交網絡和數據...

微博核心傳播者挖掘與傳播規模預測研究

大數據中數據挖掘的基本步驟

傳說中的Oncomine! 【基因數據挖掘專題第十三期】

韓家煒在數據挖掘上開闢的「小路」是什麼

XBRL層次結構與財務信息數據挖掘

乾貨 面向大數據的時空數據挖掘

SEER數據挖掘4.8分SCI發文思路

清華178頁深度報告:一文看懂AI數據挖掘

ADI公司推出高性能RMS功率檢波器ADL5906

數據挖掘常用的算法

大數據_數據挖掘技術分類及應用

CCF NLPCC 2018 自然語言處理與中文計算國際會議

什麼叫數據挖掘_數據挖掘技術解析

在大數據中,數據挖掘到底有幾種方法?我來告訴你!

實戰課堂丨大數據關係信息挖掘:知識圖譜應用案例分享

深度解析數據挖掘在推薦系統中的應用

安卓版微信即將全量上線「暗色模式」;微博回應「用戶信息被出售...

深入淺出:如何從0開始學習大數據挖掘分析?

乾貨面向大數據的時空數據挖掘