微信、微博數據這麼多,如何從中挖掘潛在信息? | CCF-ADL 87期

2021-01-08 雷鋒網

社交網絡和數據挖掘是計算機學科相關研究中的熱點。

近年來,以微博、微信等為代表的在線社會媒體逐漸成為人們發布、傳播和獲取信息的主要媒介。在社交網絡中匯聚了大量的用戶關係數據和信息傳播數據,對社交網絡數據的研究和挖掘將為我們了解和研究人類社會、經濟、商業等的潛在規律提供極大的幫助。

那麼在海量的社交網絡數據下面存在著什麼樣的特點和規律呢?在線社交網絡的信息傳播與物理社交網絡的信息傳播有什麼樣異同呢?如何挖掘社交網絡的數據以從中發現一些潛在的社會、經濟和商業規律呢?社交網絡和數據挖掘的前沿研究方向在哪裡呢?

不管你是青年愛好者、計算機科學工作者,還是社會科學研究人員或者企事業單位的管理人員,對這些問題的探討和學習,都會對你的工作、學習、研究有極大的幫助。

12月22日-24日,由中國計算機學會(CCF)主辦的第87期CCF學科前沿講習班(CCF-ADL)將以《社交網絡和數據挖掘》為主題,邀請數位來自國內外該領域重量級的專家學者對這些問題做一系列主題報告。雷鋒網作為獨家合作媒體,也將到場聆聽大牛分享,並對講習班內容進行全程報導。

他們將對社交網絡和數據挖掘的基礎理論、關鍵技術方法以及當前熱點問題進行深入淺出的介紹,並對如何開展該領域前沿技術研究等進行探討,以及分享近幾年在在線社會媒體中的信息傳播預測方面的研究成果。相信與會者必然能夠從中了解到社交網絡和數據挖掘領域的重點和熱點,給自己的學習、研究和工作帶來新啟發。

(雷鋒網編者註:CCF-ADL系列開班以來,主題涉及深度學習、類腦計算、區塊鏈技術、城市計算、計算機視覺等各大領域,邀請了學術界、工業界包括微軟研究員鄭宇、360首席科學家顏水成、港科大楊強教授等,聚集產學研各界人士,給數千人分享了學術前沿成果和應用方法。雷鋒網作為獨家合作媒體,將對講習班進行深入報導,無法到達現場的同學,雷鋒網·AI慕課學院也會呈上已獲授權的全網獨家在線視頻(http://www.mooc.ai/course/307)以供學習。

下面雷鋒網(公眾號:雷鋒網)對課程內容作以簡要介紹,詳細內容請參閱AI慕課學院介紹。

特邀講者Philip S. Yu:通過社交網絡信息融合的「Broad Learning」

Philip S. Yu,ACM/IEEE院士、美國伊利諾伊大學芝加哥分校特聘教授、清華大學軟體學院客座教授。

報告簡介:

在大數據時代,以各種格式存在的數據資源非常豐富。一種有意思的想法就是將這些不同格式的資源融合在一起,來協同挖掘數據背後的信息,這將比單一的數據資源獲得更多有價值的結果。「Broad Learning」正是這樣一種新型的學習任務。但BL在將不同的數據資源有效融合的過程中仍然存在著巨大的挑戰,這不僅取決於數據源的相關性,還取決於目標應用問題。在本次報告中,我們將探討如何融合社交網絡信息來改善各種應用場景中數據挖掘的效果。

唐傑:社會影響力與行為預測

唐傑,清華計算機系副教授、博導、CCF傑出會員、清華-工程院知識智能聯合實驗室主任。主持研發了研究者社會網絡挖掘系統AMiner,從億級文獻數據挖掘科技知識,吸引了220個國家/地區800多萬獨立IP訪問;核心技術應用於國家科技部、自然科學基金委、中國工程院、ACM、美國艾倫人工智慧研究所、搜狗、阿里巴巴、騰訊等單位。

摘要:

社會網絡已經成為溝通真實物理世界和虛擬互聯空間的橋梁。我們在網際網路中的行為直接反映了我們在真實世界的活動和情感。我將介紹在大規模真實網絡中(如:微信、微博、Twitter、 AMiner等網絡)如何分析用戶之間的交互影響力和基於網絡拓撲的結構影響力,並基於影響力預測用戶行為。模型同時考慮了網絡結構、用戶屬性和網絡用戶的偏好。並設計了針對大規模網絡的並行學習算法。在實際真實在線社交系統中得到了驗證。

沈華偉:在線社交媒體中的信息傳播預測

沈華偉,博士,中國科學院計算技術研究所研究員,中國中文信息學會社會媒體處理專委會副主任。

摘要:

近年來,以微博、微信等為代表的在線社會媒體逐漸成為人們發布、傳播和獲取信息的主要媒介。社會媒體匯聚了大量的用戶關係數據和信息傳播數據,為分析和研究人類社會活動提供了彌足珍貴的數據資源。社會媒體中數據多源異構、個體間關係繁雜、信息傳播突發等特點給社會媒體分析提出了科學技術挑戰。分析社交網絡的結構規律、挖掘用戶行為的固有模式、探索網絡信息傳播的內在機理、研究高效的社交網絡分析與網絡信息傳播預測方法,有利於提升對在線社會媒體的科學認知水平和有效利用能力。報告將從網絡結構分析、網絡表達學習、網絡信息傳播預測等幾個方面介紹報告人近幾年在在線社會媒體中的信息傳播預測方面的研究成果。

 宋國傑:社會網絡信息傳播影響最大化挖掘

宋國傑,北京大學信息科學技術學院副教授,智能交通系統研究中心副主任。

摘要:

網絡信息傳播挖掘研究是近年來社交網絡分析領域的熱點問題。報告將重點介紹兩方面的研究工作:傳播影響最大化(Influence Maximization)和網絡推斷(Network Inference)。前者主要研究在既定傳播模型下,如何高效尋找社交網絡中信息傳播影響力最大的Top-k節點集合,而後者則是在給定觀測到信息傳播級聯數據集的基礎上,推斷出隱藏的、不可直接觀測的社交網絡拓撲結構。報告將重點介紹這兩類工作的代表性研究成果,並對未來發展進行展望。

 Wei Wang:動態網絡的系統建模

Wei Wang,加州大學洛杉磯分校計算機科學Leonard Kleinrock首席教授,ScAi研究所主任,NIH BD2K中央合作中心的聯合主任。

摘要:

含時網絡(Temporal networks,即在網絡中加入時間的成分)可以說是無處不在,因為眾多的應用程式(包括微信、微博、twitter等)主要就是以時間依賴的方式生成的網絡結構。近年來,在進化網絡分析領域已經有了大量的研究工作,例如異常檢車、鏈路預測、節點分類等。針對這些問題已經存在許多單獨的解決方案,但是要想更廣泛地解決類似的問題,我們需要考慮的是:我們是否可以直接把網絡結構描述成時間的一個函數?在不同的應用環境中使用網絡結構時,將其描述為時間的函數至關重要,因為這樣的描述可以捕獲非常豐富的關於底層網絡結構的信息。在報告中,我將展示動態網絡建模的一些困難以及我們的解決方案。

胡祥恩:語義表示和分析(SRA)以及潛在的應用

胡祥恩博士是孟菲斯大學(UOFM)心理學系,電氣與計算機工程與計算機科學系教授,UofM智能系統研究所(IIS)高級研究員,華中師範大學心理學院院長,UOFM高級分布式學習(ADL)合作實驗室主任,中國教育部青少年網絡心理與行為重點實驗室高級研究員。

摘要:

語義表示分析(SRA)是基於向量的語義分析的一般框架。 在這個框架內,自然語言的語義以誘導語義結構的形式表示。 SRA在信息檢索、文本分析和智能輔導系統中有很大的應用。 在這個講座中,我將會:1)介紹一個SRA的數學模型;2)介紹和展示一種生成個性化的、領域特定的、上下文敏感的語義表示的方法;3)介紹和展示作為局部學生模型的學習者特徵曲線以及它在智能輔導系統中的應用。

 石川:異質信息網絡建模與分析

石川,博士、北京郵電大學計算機學院教授、博士研究生導師、智能通信軟體與多媒體北京市重點實驗室副主任。

摘要:

當前的社會網絡分析主要針對同質網絡(即網絡中結點類型相同),但是現實世界中的網絡化數據通常包含不同類型的對象,並且對象之間的關聯表示不同的語義關係。構建異質信息網絡(即包含不同類型的結點或邊的網絡)可以包含更加完整的對象之間的關聯信息,因此分析這類網絡有希望挖掘更加準確的模式。本課題以異質信息網絡為對象,深入分析異質網絡的複雜結構和豐富語義對數據挖掘帶來的挑戰。本報告將介紹異質信息網絡的基本概念、特點、和分析方法,以及在實際問題中的應用。

崔鵬:網絡嵌入:在向量空間中啟用網絡分析和推理


崔鵬,清華大學副教授。

摘要:

現在,在應用當中出現越來越大的網絡,網絡數據也變得越來越具有複雜性和挑戰性。為了有效地處理圖譜數據,第一個關鍵的挑戰就是如何表示網絡數據,即如何正確表示網絡以便在時間和空間上高效地進行模式發現、分析、預測等高級分析任務。 在這個報告中,我將回顧一下網絡嵌入的最新思想和研究成果。 更具體地說就是,將討論網絡嵌入中的一系列基本問題,包括為什麼需要重新考慮網絡表示,網絡嵌入的研究目標是什麼,網絡嵌入如何學習以及網絡嵌入的主要未來方向。

 劉知遠:語言表示學習與計算社會科學

劉知遠,清華大學計算機系助理教授。

摘要:

語言是人類交流的工具、人類文化的載體,是了解人類社會的重要視角。近年來隨著表示學習在自然語言處理中的應用,語言表示學習也為社會科學研究提供了全新的技術工具,特別是面向在線社會媒體的大規模用戶產生內容進行用戶和內容分析,具有很大優勢。本報告將介紹語言表示學習技術在計算社會科學方面的最新動態,探討該方向的未來發展趨勢。

韓家煒:大規模語料庫的多維分析

韓家煒,ACM院士和IEEE院士,伊利諾伊大學厄巴納 - 香檳分校計算機科學系Abel Bliss教授。

摘要:

現實世界的大數據在很大程度上是以自然語言文本形式存在的非結構性的、相互關聯的數據。對於這樣的海量文本數據,從多維角度觀看和分析是非常理想的。不過這也提出了一個重大的挑戰,即如何將非結構化文本數據轉換為結構化文本然後在多維空間中去分析這些數據。為了促進這樣的分析,我們提出了一種文本立方體(textcube)建模方法,並討論了如何從大量文本語料庫構建這樣的立方體,以及如何使用這種文本立方體進行多維OLAP分析。在過去的幾年裡,我們開發出一種文本挖掘方法,這種方法只需要遠程的或最小的監督,而不是依靠大量數據。 在這個報告中,我將展示:

(1)從海量文本數據中挖掘出高質量的短語;

(2)通過遠程監督從海量文本數據中提取類型;

(3)通過元路徑定向模式發現實體、屬性和值;

(4)從大量的語料庫中構建分面分類法;

(5)從大量文本構建文本立方體;

(6)對這些立方體進行多維分析。

這裡我們展示的範例——將大量的文本數據轉化為結構化和有用的知識——將是一個非常有希望的方向。

趙鑫:面向社交媒體平臺的商業數據挖掘

趙鑫,中國人民大學計算機副教授。

摘要:

隨著網際網路技術的不斷發展,各種社交媒體平臺都得到了廣泛的使用。社交網絡平臺中蘊含大量的用戶信息,包括用戶個人屬性信息(如年齡、性別等等)、用戶所發表的內容信息等等。如何充分利用社交媒體平臺的信息來加強用戶個性化建模,從而推動商業數據挖掘成了一個研究熱點。本次報告試圖系統梳理一些重要的商業大數據應用問題,如用戶意圖檢測、用戶畫像構建以及推薦算法等。

楊洋:移民的城市夢——上海移民融合

楊洋,浙江大學計算機科學與技術學院助理教授。

摘要:

前所未有的人類流動推動了全球高速的城市化進程。在中國,1978年至2012年間,城市人口居住比例從17.9%上升到52.6%。這種大規模的移民對政策制定者和研究人員來說既是重大的挑戰,又是重要的問題。在這個報告中,我將介紹我們對移民融合過程的研究。

具體而言,我們採用了上海一個月的電信元數據完整的數據集,其中擁有5400萬用戶和6.98億個通話記錄。我們發現本地人和移民在移動通信網絡和地理位置上存在有系統的差異。例如移民在定居後相比本地人會有更多的社會接觸,在城市中的移動半徑要大於本地人。通過區分新移民(最近移居上海)和定居的移民(在上海待了一段時間),我們發現了新移民在前三周的融合過程。此外,我們進一步調查了移民在第一周的行為,特別是他們的行為與最終提早離開之間的關係。我們發現最終離開的移民,在頭幾個星期往往都沒有發展處多樣性的聯繫,也沒有在城市周圍移動;他們活動區域的住房價格也高於那些最終留下來的移民的住房價格。


學術主任:唐傑、劉知遠

時間:2017年12月22日-24日

地點:中科院計算所一層報告廳(北京市海澱區中關村科學院南路6號)

報名方式:

        1)現場聽課:即日起至2017年12月20日,報名請 登錄 https://jinshuju.net/f/yxdpPx 

        2)線上聽課: 點擊 報名連結,雷鋒網AI慕課學院已獲獨家視頻授權,或者掃描下圖二維碼報名

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • ADL112《量子計算》開始報名
    CCF學科前沿講習班The CCF Advanced Disciplines LecturesCCFADL第112期給予西部五所高校兩個名額,可免費,限CCF會員, 需個人提出書面申請並加蓋院系公章,將電子版發至adl@ccf.org.cn, CCF將按照申請順序進行錄取(五所高校的名單如下:新疆大學,青海大學,雲南大學,貴州大學,寧夏大學。)2、報名截止日期:2020年12月2日。報名請預留不會攔截外部郵件的郵箱。
  • CCF ADL 87講習班回顧:韓家煒等13位大牛全方位解析社交網絡和數據...
    在資訊時代 3.0,用戶開始在網絡上了,用戶之間形成了交互,這就形成了信息空間和用戶空間,通過兩個空間信息的融合將產生智能。有了數據,怎麼去發現並充分利用大數據的價值,則需要新型數據挖掘和分析方法,以能夠從非結構化數據中獲得知識和洞察力。
  • 微博核心傳播者挖掘與傳播規模預測研究
    摘要:基於30條熱門微博的全部傳播數據及參與傳播的帳號關係,本報告利用數據挖掘方法量化地評估出各主題微博轉發網絡的結構特徵、傳播特徵、內容特徵,並以此建立全面、系統的綜合評價體系,再結合PageRank算法思想,提出了一種有效的核心傳播者挖掘算法,從而精準地評估各條微博中各節點的影響力差異,識別核心傳播者。
  • 大數據中數據挖掘的基本步驟
    挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,作出正確的決策。挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,作出正確的決策。   數據挖掘是什麼   數據挖掘指從資料庫的大量數據中揭示出隱含的、先前未知的並有潛在價值的信息的非平凡過程。
  • 傳說中的Oncomine! 【基因數據挖掘專題第十三期】
    我們平時做的晶片數據往往來自於一個或兩個數據集,偶爾會因為樣本的批次、平臺的差異、實驗的條件等因素使結果與我們預期的不一樣。而這個資料庫,可以讓我們站在更高的一個位置來觀察所有相關研究的晶片結果,這一點會在這一節講課中會為大家展示。
  • 韓家煒在數據挖掘上開闢的「小路」是什麼
    [2] 雷鋒網作為獨家合作媒體,全程報導了ADL 87 的演講內容(十三位講者內容簡介見《CCF ADL 87 講習班回顧:韓家煒等 13 位大牛全方位解析社交網絡和數據挖掘》,視頻請移步 CCF-ADL87:社交網絡與數據挖掘)。
  • XBRL層次結構與財務信息數據挖掘
    XBRL的廣泛傳播並不是僅僅是由於技術規範的成熟和標準的整齊劃一,更重要的是因為它對於現實生活中商業行為的深刻理解和語義層面的把握,才使得不同語法形式下(外在表現為異質平臺)信息共享成為可能,極大地促進了財務信息數據挖掘的進行,滿足了決策者對有用信息和知識的需求。本文將探討XBRL的層次結構特點,以說明為何它能有效地把握語義信息及由此而產生的數據挖掘問題。
  • 乾貨 面向大數據的時空數據挖掘
    信息網絡和手持行動裝置等的普遍應用,以及遙感衛星和地理信息系統等的顯著進步,使人們前所未有地獲取了大量的地理科學數據。這些地理科學數據通常與時間序列相互關聯,並且隱含許多不易發現的、又潛在有用的模式。從這些非線性、海量、高維和高噪聲的時空數據中提取出有價值的信息並用於商業應用,使得時空數據挖掘具有額外的特殊性和複雜性。
  • SEER數據挖掘4.8分SCI發文思路
    或者不做生信數據挖掘的,可以嘗試一下別的發文思路,例如挖掘SEER資料庫的臨床數據進行發表SCI。本次分享的範文發表在FRONT ONCOL上,影響因子:4.848,中科院分區:2區。研究方法:從2010年到2015年,從SEER資料庫中分析了6,860名被診斷患有初始骨轉移的乳腺癌患者。採用單因素Cox和多因素Cox分析來確定預後因素。根據從Cox回歸結果中選擇的因素進行列線圖。根據不同的亞型,轉移負擔和通過列線圖區分的風險組繪製生存曲線。
  • 清華178頁深度報告:一文看懂AI數據挖掘
    在數據爆炸的時代裡,如何利用手中數據資源提高行業效率、提高行業質量,成為了眾多企業決策者所關注的問題,數據挖掘也逐漸成為當下的熱門研究領域之一,受到了谷歌、亞馬遜、阿里、百度等科技巨頭的追捧。KDD數據挖掘(Data Mining),是指從大量的數據中自動搜索隱藏於其中的有著特殊關係性的數據和信息,並將其轉化為計算機可處理的結構化表示。
  • ADI公司推出高性能RMS功率檢波器ADL5906
    ADL5906 RF檢波器非常適合各種需要精確測量RMS信號功率的應用,包括通信基礎設施、功率放大器線性化、點到點和點到多點電纜、軍工、衛星、儀器設備和ISM頻段發射機。   · 下載數據手冊或申請樣片,請訪問產品頁面:http://www.analog.com/zh/pr0327/adl5906   · 從ADI中文技術論壇獲得支持: http://ezchina.analog.com/community/rf   · 瀏覽ADI公司全部RF產品組合,包括從天線到數據位和從數據位到天線以及全套設計工具,涵蓋整個信號鏈的1000
  • 數據挖掘常用的算法
    很多人對大數據的基本概念和特點已經有所了解,那麼我們僅僅將大數據進行獲取、存儲、檢索和共享是不夠的,怎麼樣才能在大數據中找出未知的且有價值的信息和知識呢?很多人對大數據的基本概念和特點已經有所了解,那麼我們僅僅將大數據進行獲取、存儲、檢索和共享是不夠的,怎麼樣才能在大數據中找出未知的且有價值的信息和知識呢?  知識發現(KDD)就是從大數據中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的過程。  數據挖掘是大數據知識發現(KDD)中不可缺少一部分,是大數據理論和應用中非常重要的一部分。
  • 大數據_數據挖掘技術分類及應用
    (數據挖掘)是指用非平凡的方法從海量的數據中抽取出潛在的、有價值的知識(模型或規則)的過程。該術語還有其他一些同義詞:資料庫中的知識發現 、信息抽取 、信息發現 、智能數據分析 、探索式數據分析( 、信息收穫 、數據考古 等。
  • CCF NLPCC 2018 自然語言處理與中文計算國際會議
    為此,雷鋒網(公眾號:雷鋒網)AI科技評論曾採訪 CCF 中文信息技術專委會主任、微軟亞洲研究院副院長周明博士及 CCF 中文信息技術專委會秘書長、北京大學趙東巖研究員,了解了中國 NLP 研究及 NLPCC 大會的發展歷程及未來規劃。
  • 什麼叫數據挖掘_數據挖掘技術解析
    數據挖掘(data mining)是指從大量的資料中自動搜索隱藏於其中的有著特殊關聯性的信息的過程。在全世界的計算機存儲中,存在未使用的海量數據並且它們還在快速增長,這些數據就像待挖掘的金礦,而進行數據分析的科學家、工程師、分析員的數量變化一直相對較小,這種差距稱為數據挖掘產生的主要原因。
  • 在大數據中,數據挖掘到底有幾種方法?我來告訴你!
    利用數據挖掘開展數據統計分析常見的方法關鍵有歸類、多元回歸分析、聚類算法、關聯規則、特點、轉變和誤差剖析、web頁挖掘等,他們各自從不一樣的視角對數據信息開展挖掘1、神經元網絡方法遺傳算法具備的暗含並行性、便於和其他實體模型融合等特性促使它在數據挖掘中被多方面運用。3、決策樹算法方法決策樹算法是一種常見於預測模型的優化算法,它根據將很多數據信息有目地歸類,從這當中尋找一些有使用價值的,潛在性的信息。它的關鍵優勢是敘述簡易,歸類速度更快,非常合適規模性的數據處理方法。
  • 實戰課堂丨大數據關係信息挖掘:知識圖譜應用案例分享
    負責聯想創投大數據機器智能產品和行業應用模型開發。擁有多年高性能計算、大數據、人工智慧行業經驗 。畢業於美國紐約州立大學,曾在IBM認知團隊任行業解決方案專家。榮之聯實戰課堂第4期的《解讀大數據分析:新技術,新實踐》主題沙龍上,聯想創投(香港)機器智能實驗室高級產品經理錢廣銳跟大家分享了《大數據關係信息挖掘:知識圖譜應用案例分享》。
  • 深度解析數據挖掘在推薦系統中的應用
    在移動網際網路時代, 我們會接收到很多由推薦系統推薦過來的信息。比如在逛淘寶、京東時,你會看到「猜你喜歡」這樣的推薦商品; 刷今日頭條、抖音時會首選看推薦的新聞、短視頻,接收來自推薦系統的信息似乎已經成了一種習慣。實際上,在構建推薦系統的過程中會用到大量的數據挖掘算法。
  • 安卓版微信即將全量上線「暗色模式」;微博回應「用戶信息被出售...
    該委員會在上周日的一份聲明中表示:「軟銀不僅有義務完成《主交易協議》中規定的要約收購,他們在沒有努力履行義務時給出的藉口也是不適當且不誠實的。」作為回應,軟銀表示,如果 WeWork 仍然存有重大責任,該公司仍然保留了退出要約收購的權利。軟銀還補充道,這一要約不會對軟銀髮展 WeWork 的承諾產生影響,也不會對其財務實力產生影響。
  • 深入淺出:如何從0開始學習大數據挖掘分析?
    最近有很多人諮詢,想學習大數據,但不知道怎麼入手,從哪裡開始學習,需要學習哪些東西?對於一個初學者,學習大數據挖掘分析的思路邏輯是什麼?本文就梳理了如何從0開始學習大數據挖掘分析,學習的步驟思路,可以給大家一個學習的建議。