1成果簡介
社會網絡已經成為覆蓋用戶最廣、傳播影響最大、商業價值最高的Web2.0業務,在世界範圍內,最著名的社會網絡代表是Facebook、Twitter,用戶量分別達到12億、5億;國內使用人數最多的社會網絡工具是新浪微博和騰訊微博,其中新浪微博用戶達到5億,騰訊微博用戶超過8億。社會網絡中的巨大用戶群每天產生海量的用戶數據、關係數據和信息數據,若能夠對海量數據進行準確、及時的分析,則會在精確營銷、輿情探測以及網絡安全等方面創造巨大價值。然而由於社會網絡的大數據特性以及分析方面要求準確、及時,目前缺乏融合多項社會網絡分析技術的、成熟的社會網絡大數據分析系統。
社會網絡分析技術是一項關鍵技術,也是一項熱門的研究,涵蓋了社會學、人類學、社會語言學、地理、社會心理學、通信研究、資訊科學、社會網絡分析與探勘、組織研究、經濟學以及生物學等多個領域,是一項多學科交叉技術。社會網絡大數據分析系統要求具有堅實的數據支撐,即數據獲取全面、更新及時、獲取數量大,也強調多維度、多粒度的分析手段相結合,並對分析速度、可視化以及人機互動等方面都提出很高的要求。
基於上述現狀和挑戰,在國家科技支撐項目的資助下,實現基於新浪微博、Twitter等主要社會網絡交流工具的大數據分析系統,系統完成從數據獲取、數據預處理、數據存儲、消息中心、數據分析、結果可視化展示的閉環處理流程,支持多種社會網絡(Twitter、新浪微博等)的數據實時、不間斷獲取,獲取數據量在國內外同研究領域處於領先地位;實現整體、個體、群體以及事件的多層次、多粒度分析模式;同時具備良好的人機互動操作界面以及優秀的分析展示效果。
系統的特點如下:
多手段數據獲取模式融合:採用網絡流量分析、API/非API爬蟲、元搜索以及增量式爬蟲等多手段數據獲取模式相結合的方式進行數據實時、不間斷獲取,保證數據獲取全面、更新及時、獲取量大;多維度、多粒度數據分析手段結合:系統對社會網絡整體、個體、群體、事件四個維度的對象進行分析,並結合基礎分析、深度挖掘的多粒度分析手段共同完成社會網絡的數據分析;多種關鍵技術支撐:系統融合機器學習、分布式並行處理、數據挖掘、自然語言處理等多種關鍵技術,共同保證系統各項功能的穩定、快速實現;優秀的分析展示效果和友好的人機互動操作:藉助Gephi工具進行群體、事件等分析效果的可視化展示,可視化效果清晰;操作便捷,實現用戶與系統、系統與資料庫的無縫連接。
上述優點表明該系統能夠實現從數據獲取、數據預處理、數據存儲、消息中心、數據分析、結果可視化展示的處理流程,達到完善的功能實現目標和優秀的系統運行效果。查新表明,國內外目前尚未發現有如此功能全面與性能優越的社會網絡大數據分析系統。
性能參數:
能有效獲取社會網絡平臺的用戶數據、關係數據和信息數據,獲取覆蓋率不低於85%;分布式爬蟲支持不少於10個節點,分布式資料庫支持不少於5個節點;資料庫讀/寫操作不少於並發1000次,數據預處理效率不小於1000條/秒;數據存儲規模不小於7TB;熱點信息(個體、群體、事件)發現準確率不低於75%,關鍵路徑發現準確率不低於75%;熱點話題發現準確性不低於80%,傾向性言論的發布主體發現準確率不低於75%;信息傳播壽命預測準確率不低於80%。
2應用說明
2013年9月,利用社會網絡大數據分析系統進行數據獲取以來,獲取Twitter用戶數據2.2億,用戶關係數據11.5億,推文1.2億,目前數據量仍處於不斷高速增長階段;著重獲取社會網絡上中國人全集的數據,主要採用基於用戶屬性、用戶關係、用戶信息3層過濾機制,通過特定團體獲取方式進行獲取,中國人用戶數據達到63萬,用戶關係數據510萬,推文數據1740萬,目前中國人用戶數據已趨於穩定,推文數據仍處於快速增長階段。在獲取到的數據基礎上,對網絡中個體、群體、事件以及整體進行基礎分析以及深度挖掘,能夠快速識別關鍵個體、關鍵群體、熱點信息、熱點話題,並實現對信息、話題的情感分析、趨勢預測等功能,同時也保證分析效果優秀的可視化展示。
3效益分析
由於目前國內外尚無同標準產品,而社會網絡大數據分析的需求比較迫切,因此本系統具有較大的推廣空間。本系統價格每套150萬元。而本系統數據積累深厚、運行穩定、分析功能全面、處理速度快、響應時間短。總體上,系統成本低、功能全、速度快,運行費每月在3000元左右,具有明顯的經濟和技術優勢。
嘿科技時代經過多年的探索和實踐,我們與科技,金融,人才等機構建立了良好的關係。探索了技術轉移過程中技術供方和需方的不同角度之間的矛盾,致力於建立雙方良好的溝通機制,提高技術轉移效率,全面推進社會科技水平的提高。您也可以訪問嘿科技時代網站了解更多項目內容。