理論(用戶分類)和應用兩個方向
【關鍵詞】社交網絡,拓撲結構,網絡群體,信息傳播
社交網絡在維基百科的定義是:」由許多節點構成的一種社會結構",節點通常是指個人或組織,而社交網絡代表著各種社會關係。
基於網際網路的社交網絡已經成為了人類社會中社會關係維繫和信息傳播的重要渠道和載體,對國家安全和社會發展產生著深遠的影響.虛擬的社交網絡和真實社會的交融互動對社會的直接影響巨大,所形成的謠言、暴力、欺詐、色情等不良輿論會直接影響國家安全與社會發展。
在線社交網絡是一種在信息網絡上由社會個體集合及個體(也稱為節點)之間的連接關係構成的社會性結構,包含關係結構(載體)、**網絡群體(主體)與網絡信息及其傳播(客體)**3 個要素。
(1)在線社交網絡的結構特性與演化機理。
(2)在線社交網絡群體行為形成與互動規律。
(3)在線社交網絡信息傳播規律與演化機理。
在線社交網絡分析涉及計算機科學、社會學、管理學、心理學等多個學科領域。
(1)社交網絡的結構分析與建模(基礎)
社交網絡結構分析是通過統計方法來分析網絡中節點度的分布規律、關係緊密程度、相識關係的緊密程度,某一個用戶對於網絡中所有其他用戶對之間傳遞消息的重要程度等諸多統計特性。
社交網絡建模是針對社交網絡的特性,採用結構建模的方法來研究產生這些特性的機制,以此來深刻認識社交網絡的內在規律和本質特徵。(圖論方法)
(2)虛擬社區發現(必備功能)
(3)社交網絡演化分析
動態演化性
(1)社交網絡上的用戶行為分析
社交網絡上群體行為分析的已有研究主要集中在群體社交網絡選擇模型研究,以及個體行為特徵分析等2 個方面。在群體社交網絡選擇模型研究方面,2007 年,美國密西根大學的埃裡森(Ellison)等人將社交網絡的群體行為關係分為橋接型、黏接型和維持型三種類型,並基於回歸分析發現**橋接型**關係對個體選擇社交網絡有著更重要
的影響。
(2)群體情感建模與行為互動
情感分析是針對主觀性信息(「支持」、「反對」、「中立」)進行分析、處理和歸納的過程,主觀性信息表達了人們的各種情感色彩和情感傾向。社交網絡中每個人情感狀態不同,影響力也會不同。
特指:以社交網絡為媒介進行的信息傳播過程。
信息傳播是人們通過符號、信號來進行信息的傳遞、接收與反饋的活動,是人們彼此交換意見、思想、情感,以達
到相互了解和影響的過程。
(1)社交網絡的信息及其能量
已有研究主要集中在信息的符號表示與意義,以及信息傳播能量及演化方面。
(2)社交網絡信息傳播模型
已有研究主要集中在傳染病模型、網絡拓撲圖模型以及基於統計推理的信息傳播模型等。
(3)社交網絡信息傳播影響(熱點)
其目的是發現社交網絡中最有信息傳播影響力的節點集合,從而經過信息在社會網絡中的傳播,最終能夠最大化信息的傳播範圍。在實際生活的許多重要場景中,社交網絡信息傳播影響分析均有著廣泛的應用,例如,市場營銷、廣告發布、輿情預警、水質監測、疫情監控、網絡競選、突發事件通知等。
研究方法:有概率論方法、經濟學方法和傳播學方法。
概率論方法:基於概率圖模型對研究信息傳播的敏感度和影響力的方法,可以對概率圖參數、結構的重要性進行量化分析。
國防科技大學、上海交通大學、合肥工業大學、北京郵電大學、中科院計算所、北京大學、清華大學、北京科技大學、浙江大學、哈爾濱工業大學、中科院信工所等單位都開展了系統性的研究。
國際上人們對於大型社交網絡的本質特徵和網絡信息傳播的基本規律的研究仍處在相對初級的階段,尚未提出完整的社交網絡分析的基礎理論和方法,仍然值得我們進一步進行研究和突破。
結構、群體是為傳播研究而服務的。
社交網絡分析的3 個要素「結構」、「群體」和「傳播」是相互作用的關係。社交網絡結構建模和群體互動規律分析的目標都是支持信息傳播形態研究,因此是否能夠將結構建模與群體互動者兩個獨立的要素結合起來,研究結構與互動相結合的動態建模方式?已有的信息傳播過程分析中,核爆炸式、煙花式、星球式、水母式等信息爆發式傳播形態都能客觀表示,如何能夠讓拓撲結構建模對這些信息傳播的模型有所貢獻?如何從結構建模的角度支持這些外顯形態的存在?群體事件、群體極化、群體演化等社交網絡中的群體形態是否也能被模型化?信息傳播的影響力是否能夠形成一個可計算的量綱?如何將碎片化、時變的、演化的話題分析技術和信息傳播、溯源技術結合起來,形成信息傳播的可計算模型。
作為一種新型媒介,在線社交網絡的根本在於信息流動和傳播,而信息的傳播根植於社會群體的互動,但又受限於社交結構與社區的規模。
信息傳播過程可以被視作社交網絡中一個時間函數的求解變量,其中的群體正是函數因子,而社交網絡的拓撲結構是控制其發展的邊界條件。21 世紀,是人類高度依賴數據、深度融入信息社會的世紀。在信息社會中,在線社交網絡構建了龐大的功能平臺。人們在社交網絡上表達觀點、交友互動,每天都產生數億計的信息。
在線社交正在改變著人們的行為模式和社會形態,而在線社交網絡數據也正在成為最成熟的大數據,通過研究和分析這一技術,人們有望對在線社交網絡大數據背後的用戶行為、社會現象的理解達到空前的深度。
社交推薦顧名思義是利用社交網絡或者結合社交行為的推薦,具體表現為推薦 QQ 好友,微博根據好友關係推薦內容等。在線推薦系統最早被亞馬遜用來推薦商品,如今,推薦系統在網際網路已無處不在,目前大熱的概念「流量分發是網際網路第一入口」,支撐這個概念有兩點核心,其一是內容,另外就是推薦,今日頭條在短短幾年間的迅速崛起便是最好的證明。
根據推薦系統推薦原理,社交推薦可定義為一種「協同過濾」推薦,即**不依賴於用戶的個人行為,而是結合用戶的好友關係進行推薦。**對於網際網路上的每一個用戶,通過其社交帳戶能很快定義這個用戶眾多特點,再加之社交網絡用戶數之多,使得利用社交關係的推薦近些年備受關注。
輿情分析在網際網路出現之前就被廣泛應用在政府公共管理,商業競爭情報搜集等領域。在社交媒體出現之前,輿情分析主要是線下的報紙,還有線上門戶網站的新聞稿件,這些信息的特點是相對專業準確,而且易於分析和管理;但隨著社交媒體出現,輿情事件第一策源地已經不是人民日報新華社這樣的大媒體,而是某一個名不見經傳的微博用戶,一個個人微信公眾號。他們的特點是信息非常新鮮,缺點是真實度較低且傳播十分迅速,難以控制。所以在社交網絡下的輿情分析是一門新的學問。
「刺死辱母者」微博轉發趨勢
舉幾個例子,去年的和頤酒店,今年的北京地鐵罵人事件這類急性輿情事件最早就是在微博上爆出,而且在短時間內迅速傳播。還有去年的關於快手的「中國農村殘酷底層物語」,今年的「北京房價」等這類民生話題,也是在微信公眾號逐漸發酵。
當然,在新形勢下的輿情應對,也已經有新的工具,大家百度「輿情分析平臺」或者「輿情分析軟體」可以找出一大堆。比較有名的有蟻坊、紅麥、清博、知微、新榜等等。一些傳統的輿情分析機構開始轉型做「大數據」的輿情分析,也有近年來完全基於社交媒體的輿情平臺,比如基於微信的新榜和基於微博的知微 。除此之外,BAT 等大型平臺有自己輿情分析工具,可以私人訂製,也有開放的指數(百度指數、微信指數)。
隱私問題在網際網路時代已經是老生常談的問題了。在社交網絡中,作為用戶,我們可能會留下大量痕跡,這些痕跡有隱性的,也有顯性的,好不誇張地,社交服務提供商可以根據你的少量痕跡,挖掘到大量你的個人信息,有些信息是你不願意別人知道的。
這其中存在一個矛盾,即社交服務提供商處於商業目的想儘可能獲取你的個人信息,但是你又擔心自己的個人信息被洩露。所以在隱私保護領域,一方面要設計足夠安全的機制,技術層面的,法律層面的,在保護個人隱私的前提下最大化商業利益和用戶的體驗。
舉一個大家比較熟悉的例子,即許多網站註冊帳戶的時候使用微信、支付寶帳戶驗證,即免去了大家填寫個人信息的煩惱,又保護了大家的隱私。同理,螞蟻金服提供的芝麻信用功能也有隱私保護的功能。
目前學界對隱私保護的研究主要還是從技術層面設計完善的隱私保護機制。
用戶畫像,這是個營銷術語,即通過研究用戶的資料和行為,將其劃分為不同的類型,進而採取不同的營銷策略。傳統的用戶畫像最常用的手段就是調查問卷,訂閱過雜誌和報紙的讀者都知道,會有各種各樣的有獎問卷,一方面用來獲得對於產品的反饋,另一方面就是對你進行畫像,這些畫像資料甚至廣泛在黑市流通,這就是你為什麼有時候會接到莫名其妙的電話的原因(又扯到了隱私保護問題)。
在社交網絡,用戶畫像方式變得更多了,除了傳統的線下問卷變成在線問卷。我們通過用戶的行為,一方面通過統計學方法獲得一些用戶特徵(經典的例子是沃爾瑪的「啤酒和尿布」,另一方面通過機器學習進行建模和驗證獲得意外的收穫(參見上面提到的騰訊社交廣告文章)。
接觸過微信公眾號後臺的讀者都知道,公眾號後臺對微信公眾號文章的讀者還有公眾號粉絲的畫像已經做得非常充足了,好像微博會員也有粉絲畫像的功能。這些便捷的功能對於媒體運營者和廣告投放者都有非常重要的作用。
謠言檢測算是輿情分析的一部分,之所以單獨提出來是因為這部分非常重要,而且謠言的確定對於輿情管理非常重要。早起微博因為充斥著大量謠言,使得新浪微博不得不推出「微博闢謠」官方帳號,到如今微博以及有許多自發和官方的闢謠帳號,微信公眾號也是如此。
傳統闢謠方法無非是進行試試檢驗,用證據說話,隨著現在機器學習技術的迅速發展,我們也可以通過信息傳播的軌跡,信息內容等維度自動判斷消息是否屬於謠言,而且判斷地越迅速,對於輿情管理的意義就越大。同理,這種技術也被應用在社交網絡有害信息識別。
在國外,有關 Facebook 假新聞的新聞被炒得火熱,有興趣的讀者可以關注一下。
可視化是隨著大數據一起成為熱門話題的。因為人類對於圖像信息的理解速度要大於文字信息數百倍,所以講一些數據可視化有助於人們更生動地理解某一結論或現象。當然不是所有數據都適合可視化,在社交網絡中,我們最常見的有信息傳播軌跡還有詞雲圖等。有關這方面的內容可以參考微博帳號「社交網絡與數據挖掘」。
除了專門可視化的機構,網上也有許多開源的可視化庫,百度的 Echarts 就很有名。 對於社交網絡信息傳播以及好友關係等的可視化,使得我們能直觀看到一些事實,這對於輿情報告製作以及新聞報導都有很好的輔助作用。
http://hao.199it.com/
http://memetracker.org/data/index.html
http://archive.ics.uci.edu/ml/datasets.html
http://www.socialysis.org/data/project/project
https://cn.aminer.org/
http://132.239.95.211:8080/demowww/index.jsp#
https://grouplens.org/
http://www.xinhuanet.com/xuanzhi/zt/xzyxl/index.html
http://www.newrank.cn/
http://www.gsdata.cn/
http://echarts.baidu.com/
https://yq.aliyun.com/teams/8
筆者僅列出與社交網絡相關的部分國際會議,排名不分先後,加粗的會議為專門討論社交網絡話題的會議。
KDD, WWW, ICDM, CIKM, AAAI, SDM, IEEE BigData, ASONAM, WSDM, ICWSM, ACL, IJCAI, NIPS, ICML, ECML-PKDD, VLDB, SIGIR, PAKDD, RecSys, ACM HT, SBP, ICWE, PyData
筆者在這裡推薦兩個國內的社交網絡分析會議,一個是全國社會媒體處理大會(SMP),由中國中文信息學會主辦,會議論文 EI 檢索。第二個是國際網絡空間數據科學會(IEEE ICDSC),會議由中科院,北大,中國網絡空間安全協會等機構籌辦。
筆者在上一部分提到的國際會議,例如 WWW、KDD 等,每年都有關於社交網絡分析方向的 tutorial,其視頻和 PTT 都是在網上可獲取的,通過 tutorial 能對相關領域有一個宏觀了解並且能了解領域前沿動態。
除此之外,在 Coursera 上面密西根大學安娜堡分校開設的一系列 Python 學習課程也值得一看。在網易公開課上面也有中文的 Python 數據挖掘課程可供學習。
萬能的淘寶也提供大量廉價的視頻和電子學習資料。
最後,利用好科學上網工具和搜尋引擎(不是百度)才是王道。
[1] 方濱興, 許進, 李建華. 在線社交網絡分析[M]. 電子工業出版社, 2014.
[2] Reza Zafarani, Mohammad Ali Abbasi, Huan Liu. 社會媒體挖掘[M]. 人民郵電出版社, 2015.
[3] Carlos Castillo, Wei Chen, Laks V.S. Lakshmanan, Information and Influence Spread in Social Networks,KDD 2012 Tutorial
[4]中國知網(中科院院刊)社交網絡分析核心科學問題、研究現狀及未來展望
基金項目:國家重點基礎研究發展計劃(「973」)項目(2013CB329601),國家自然科學基金項目(61372191)