移動互聯高速發展,在線社交網絡成為最大的社交載體。社交網絡用戶暴增,海量數據產生,背後蘊藏的活力前所未有。成就社交網絡的內在邏輯,大數據能否作答?社交網絡有哪些你不知道的規律?本期《世紀大講堂》,王元卓帶您《探究社交網絡演化規律》。
王元卓,中國科學院計算技術研究所大數據研究院院長,博士生導師。主要研究方向,網絡大數據分析、開放知識計算、社交網絡演化分析、網絡與信息安全等。主持國家自然科學基金重點項目,面上項目,國家重點研發計劃課題。已出版《隱私數據洩漏行為分析》《開放網絡知識計算》《社交網絡演化計算》等五部學術專著,參與組織編寫《大數據導論》。
我們所研究的這個社交網絡,其實可以追溯到20世紀的80年代,我們開始有電子郵件,可以跟朋友通過網絡實現社交、互聯。對在線社交而言,最重要的一個節點是上世紀90年代的中期,美國的ICQ開始發展,它在上線六個月之後就成為當時世界上用戶量最大的即時通信軟體,也就是我們說的在線社交軟體。第七個月的時候,它的用戶規模就達到了一百萬。在1999年的時候,我國的OICQ上線,也就是我們現在耳熟能詳的QQ。騰訊公司在1999年的11月份推出了QQ的第一代產品,當時的註冊人數就達到了六萬。
2004年,Facebook產生,它也是當前登陸用戶量最大的社交類應用。2008年,推特上線,開創微博類產品先河。我國人口眾多,我們的社交軟體也不甘落後。2009年,新浪微博出現,成為中國目前用戶量最多的產品。2011年,我們現在通常使用的微信開始上線。2018年,平均每天就有10.1億的用戶在登陸微信。這是一個非常巨大的這樣的一個數字。
什麼是社交網絡?我們現在講的社交網絡,是在線社交網絡的一個簡稱。社交網絡它就是一種能夠在我們的信息網絡上面,由我們的一些社會上的個體,或者是一些個體的集合,也就是我們所說的群體。把他們之間連接起來,並且能夠通過信息的傳遞產生這樣的聚合的這樣的一個網絡結構。
全球的社交網絡,發展迅猛。到2017年的6月的時候,Facebook的月活躍用戶就已經達到了20億。到2019年,全球98%的數字消費者都在社交媒體上。達到35億, 而且用戶每天平均有2小時22分鐘在使用社交媒體通過進行消息的即時傳遞。
左圖為2018年中國在線網民年齡結構圖
數據來源:CNNIC中國網際網路發展狀況統計調查
中國網際網路發展報告2019,微信財報
2019年的時候,中國網民的規模已經達到了8.54億,絕大多數的人都在使用社交網絡。用戶的活躍度,排名第一的是微信。當前的用戶量已經突破了11億人次。這是一個非常巨大的數字。最關鍵的是它還在不斷的增長,目前還能以每個季度2.3%的速度增長,還在不斷的發展和壯大之中。
社交網絡,它給我們帶來了什麼呢?
比爾·蓋茨 冰桶挑戰
首先,社交網絡它給我們的信息傳播帶來了巨大的發散和擴大效果。舉一個例子,冰桶挑戰。由一個組織在社交媒體上發起,把冰水淋到頭上,視頻上傳之後@三位好友。如果你能夠效仿就接受,如果在24小時之內你不敢做,那就要去捐款100美元。很簡單的一個行動,但它卻能夠在短期內吸引了包括微軟的比爾·蓋茨、Facebook的扎克伯格、美國前總統小布希等等名人的參與。而更關鍵的是,它在三周內就募集到了四千多萬美元的善款,是之前不用社交網絡的時候20多倍。截止到2014年的8月份,募集的善款的總數已經超過了1個億。所以我們說社交網絡對信息傳播的放大作用是非常顯著的。
在今天社交網絡的爆發式增長,讓信息傳播的速度和廣度都遠超以往的量級,除此之外,社交網絡還催生了大量的消費行為。在最初的階段,這些消費都是社交網絡的延伸產品,然而隨著社交網絡的蓬勃發展,這些副產品所帶來的經濟規模,讓很多人都大吃一驚。
李佳琦銷量驚人,社交網絡的下一個驚喜和奇蹟在哪裡?
王元卓:口紅一哥李佳琦,他通過在線直播和電商相結合的方式,形成了一個過效果驚人的帶貨購物的形式。2018年的「雙11」,他只用了5分鐘的,就賣掉了15000支的口紅。2019年的「6·18」預熱活動當中,更是在3分鐘的時間內就銷售額超過了600萬元,這是我們傳統的任何的一種商業模式所達不到的這樣一個爆炸性的效果。這背後是巨大的商業背景,也是推動我們社交網絡不斷發展的一個非常重要的動力和引擎。
「口紅一哥」李佳琦
社交網絡,給我們的信息傳播的形式帶來了巨大的改變。一方面,它可以讓更多的人了解我們的信息和內容,讓我們每一個人,都有主宰信息傳播的可能。另一方面,信息傳播背後帶來巨大商業價值,也使我們的社交網絡得以不斷的發展和壯大。那麼這樣的一個社交網絡,它有什麼規律嗎?我們可以去預知社交網絡的未來嗎?
如果社交網絡中有規律可循,它是什麼?
非常的幸運,我們找到了這樣的一個依據,一位科學家在《SCIENCE》上的一個頂級的期刊上面發表,說人類93%的行為是可以被預測的。
物理學家 艾伯特-拉斯洛·巴拉巴西
和他在《SCIENCE》上發表的文章
在這樣的一個基礎上,我們如何能夠發現社交網絡發展和演化的規律。它是如何從一個小的網絡,發展成為一個帶有巨大商業價值的網絡結構呢?有什麼樣的規律可以去遵循呢?
首先是我們的個體,也就是在社交網絡當中,作為社交發送信息主體的每一個人。我們通過關注關係、好友關係,可以跟其他人產生一定的網絡結構,並且通過這樣的網絡結構來發送各種各樣的信息、文字、圖片、圖像視頻等等。通過一些共同的興趣愛好、機構特徵,我們就可以形成一系列的群體。而這樣的群體還在不斷的發展、演化、壯大和消亡當中。如果這些要素是我們所需要關注的話,那麼我們首先要分析和研究就是我們社交網絡當中個體的信息行為。我們會在什麼時候給什麼人發送什麼樣的信息,我們去配合其他的好友轉發信息、點讚,會有怎樣的一些用戶行為特徵。這是我們在微觀層面關注的非常重要的一個方面。
第二個方面,我們很關注我們個體的信息行為所促使的信息在網絡上是如何擴散的。我發了一個信息,誰會去轉發它,誰會對它感興趣。別人還會發其他的信息,誰的信息對我的信息產生競爭、構成威脅?我們在信息傳播中,又有怎麼樣的一些規律和特徵?
社交網絡中我們關注的要素
個體、信息、群體
第三個,通過這個信息的轉播,我們可以找到我們有共同興趣愛好、共同關注關係的人,我們所組成的這樣的一個群體。這個群體的結構,可能會逐漸變得更加聚集,也可能會逐漸變得鬆散。今天可能共同喜歡聊足球的,明天可能會共同喜歡聊科研,這個群體也在發生不斷的演化。
哲學家曾經說過,有人群的地方就有左中右。社交網絡也不例外,因為使用它的,歸根到底還是人,從個體到群體的人,人的好惡,人的選擇,信息的聚集和鬆散,等等,都是剖析社交網絡發展和演化規律的要素。面對這些紛繁複雜的要素,傳統的分析方法似乎有點不夠用了。
眾多要素中尋找規律,大數據如何做到?
王元卓:這麼多的要素,如何用大數據對它進行分析?我們如果分析微觀層面,也就是我們每一個人,如果我們擁有所有的數據,顯然我們是可以來預測我們將要做什麼,可以知道每個人的興趣愛好、用戶畫像等。如果我們的群體結構不是很大。比如說幾十人、幾百人,在這樣的一個體制內,我們也可以通過數據的分析,從中觀層面來找到我們的一些行為特徵和所謂的規律。那如果我們要關注像「雙11」這樣,像整個微博、微信這樣,全網的,宏觀層面的特徵。能夠分析嗎?我們看一個數據,僅僅是在2014年,Facebook每天所增加的數據量就超過了600個TB,換言之我們是很難把幾十億人,每天的所有的信息,所有的數據全部採集下來。
我們現在能做的通過數據採集來做的分析,也通常僅僅是其中非常小的一部分的採樣。我們如果用這樣的一些數據來分析我們全網的發展規律,它無異於瞎子摸象。而我們得到的結論也通常只能是以偏概全。那我們能不能通過我們所獲得的僅有的或者說局部的採樣的數據,來推測全網規律。我們提了這樣的一個思路:能不能通過我們採樣的少量數據,來分析我們個體的行為特徵。並且通過一定的數學模型的計算,放到我們的大規模的計算模擬的計算機裡面,讓它能夠恢復整個「大象」的全貌,並且能夠推演這個「大象」的行為和發展規律。我們能做到嗎?
在這三個先決條件當中,個體的數據顯然是可以獲得的,而且也可以拿來分析。但要用什麼樣的數學模型呢?我們發現這個社交網絡,從小發展到大,我們的結構發生變化,我們的行為在不斷的進化過程中的特點,好像跟生物種群的演化非常相似。生物的種群是從單細胞到多細胞,從簡單到複雜,從水生到陸地,它永遠都不是一個單一個體的演化過程。
個體的演化,一定是包含在很多群體當中。一個生物是以種群的形式進行演進的。很多群體當中,不適應環境的將會被不斷的淘汰。而那些不斷的演化、強壯的基因,才能夠不斷的生存下來,才導致我們的種群不斷的進化。既然有這樣的一個現象很相近。那之前我們在研究種群進化的時候用了什麼樣的模型和方法呢?我們找到了一個叫演化博弈的方法。
【名詞解釋】演化博弈論誕生於上世紀70年代,在新世紀逐漸發展完善。和傳統的博弈論有所不同, 它整合了理性經濟學和演化生物學的思想。通俗的說,演化博弈論不再把研究對象,也就是人,看作是超級理性的。畢竟,人不是機器,人的行為也就不可能像機器一樣嚴絲合縫不出差錯。演化博弈論,拓展了研究人員的視野,也讓研究工作更加真實地反映現實。
王元卓:我們用演化博弈可以很好的來描述這樣的一個種群發展演化的這樣的一個過程。我們說很好,跟我們想要的非常接近。能不能用演化博弈的方法來描述我們社交網絡的演化過程呢?
當我們採集了個體數據之後,跟我們的演化博弈模型相結合,進行推演後,很不幸!得到的網絡結構,跟我們真實的社交網絡的結構不太一樣。不能直接拿來使用。我們種群的進化跟社交網絡的演化,有什麼不同?在於我們的社會屬性。我們希望我們能擁有更好的聲譽、信用,希望有更多的人關注我們、認可我們。所以我就提出了基於演化博弈的一種,具有社交屬性的社交演化博弈。
如果說傳統的演化博弈,它更多的是追求「效用」,也就是回報。那社交演化博弈,就不僅僅是追求簡單的回報,而會更看重長期的信譽、長期的聲譽。我們用這樣的一個模型方法,結合真實數據進行了仿真之後發現,非常好的吻合了社交網絡的結構特徵。這樣的一個方法,也許可以幫助我們來分析社交網絡的演化過程。於是,我們用這樣一個社交網絡的模型,結合採集的一些個體數據。在我們採集大量的數據當中,我們可以算出平均的轉發比例、平均的關注比例,以及我們聲譽所關注的程度和平均的信息回報的程度。我們通過這樣的一些模型的計算,就可以得到我們相應的一些變量的實際的數值。
我把它們帶到我們社交演化博弈的模型當中,簡單的講,社交演化博弈有兩種目標函數。一個目標函數是我們通過短期的效用來指導我們是不是該發表評論,是不是該給你點讚。那麼同時,我們還會根據一種長期的聲譽來作為我們的目標函數,來指導我們,我該關注誰,我該取消對誰的關注。通過這樣的一系列的更新規則,我們通過大規模的模擬仿真呢,真的就找到了這樣的一些我們所謂的規律。
王元卓和他的團隊到底找到了哪些規律?
王元卓:我們發現了有這樣的一些規律。第一,在我們的一個社交平臺上面,如果我們的用戶更關注我們的聲譽。我們很在意,我們不能說謊。我們很在意我們的傳播這個話題的質量的話,那麼不同的人來關注我們的時候,有更多的人去願意傳播我們的信息。
第二個規律,用戶間的頻繁的交流會促進信息的傳播。也就是說如果我們經常的聊天,我們不斷的發一些信息,你就更願意去轉發我的信息,或者更願意給我的信息點讚。
第三,如果在社交網絡當中,兩個互相競爭的信息,比如說我們兩個競品的手機的廣告的投放。我們在月初的時候,一個手機開始新的新型開始投放,它有很強大的功能,它有很好的這個售價。然後它希望去競爭更多的這個用戶。那麼同時,在月中或者月末的時候,另一款競品的手機也開始投放到市場,如何後來能夠居上呢?通過我們的分析,競爭信息至少要超過前面的這樣的信息20%的收益以上,才能夠有可能讓之前的用戶去改變它的態度。
換言之,你如果花超過20%了,你用了50%的回報,可能你就虧了。如果你用低於20%的回報,很可能沒有辦法達到你搶佔市場,爭取用戶的這樣的一個效果。
而以上的規律都可以指導我們在社交網絡當中,遊戲規則的設定,去指導我們的投放廣告,包括一些輿論引導等等的這樣一些機制,一些策略的設計。
王元卓推演的規律,能否真實描述社交網絡?
王元卓:我們首先選擇一個相對簡單的進行研究,同步的競爭信息傳播。也就是我們說在一個時間段內,在一個時間點,兩個信息同時在發。我們看誰能打敗誰,也就是說誰能夠佔領更多的用戶。
比如說在新春的這個大年三十敲鐘的時候,我們有很多的商家會選擇在這樣的一個時間點來投放它的紅包,我們就選擇了兩個品牌的紅包。同時我們分別選擇了70萬用戶,以他們在我們的微博上面所傳遞信息的關注程度來作為我們的研究對象。如果關注的其中一個品牌的人數多,就意味著它更有競爭力。
通過我們模型呢,對它進行了有效的一個預測。我們看到這個藍色的這個曲線是我們的仿真的數據,也就是我們預測的數據,而這個紅色的線呢?是我們真實的數據,也就是在我們新浪微博上面真正關注其中某一個信息傳播的這樣的一個關注程度的變化的過程。我們可以看到,它的大概的趨勢是對的。我們預測的方向是沒錯的。
我們依然可以看到上文提到的一個非常有意思的數據,20%。也就是當我們的收益超過1.2的時候,我們發現,兩條線同時在開始下降。那為什麼會整個數據的趨勢是一樣的,但是它的數值會相差這麼大。因為我們的同步競爭信息傳播缺少先驗知識。我們之前是沒有任何先驗數據的。所以在預測的時候,會極大的影響我們的預測的準確度。
同步競爭信息傳播結果預測:
1. 信息吸引力越大,達到20%額外收益,用戶開始選擇轉發
2. 缺少先驗數據,採樣點稀疏
王元卓:同步競爭信息,在我們的日常生活當中存在的情況很少,生活中更多的是要求沒那麼高的異步信息的傳播。在對異步信息的傳播,它又可能會有什麼樣的一些規律呢?我們依然選擇了這樣的一個,大家關注度比較高的電影。電影在不同時間上映,在只要在一個周期內,可能都是在競爭我們作為觀影者的這樣的一些關注度,包括競爭我們的時間,競爭我們的這樣的一些喜好。我們同樣是選擇了這個70萬人。那麼同時呢選擇了這樣的兩部電影,一部是《大聖歸來》,一部是《小時代》。
這兩部電影在不同時間上映,先看的,會對它產生一個評價。後看的,也會對第二個電影產生評價。那麼我們對哪一個電影的關注程度更高呢?我們能不能通過我們的模型,進行一個有效的預測呢?我們來看一下我們預測的數據。在這樣的一個相對短時間的時間裡面,比如說我們一個電影的上映可能是40多天,那麼在這樣的一個時間周期內,去競爭用戶關注度的這樣的預測,我們發現在一定時間段內好像很準。
在這裡面,介紹兩個關鍵點。第一個,最準的地方依然是圍繞著「20%」,也就是超過1.2的回報的這個點。第二,因為我們在短期競爭裡面,有了一個電影的前期觀影的數據,這些數據給了我們一定的先驗知識。我們有了先驗知識,時間相對較長,我們的樣本也比較的大,我們有一定的跨度,我們有一段的擬合就比較好。
換言之,我們很好的預測了一個競爭性信息,在整個社交網絡上面發展演化的過程。也就是說,我們不但發現了規律,我們的規律還在真實的場景下得到了很好的印證。通過我們的模型、採樣,通過計算機模擬計算的方法,所找到的這樣的一些規律,它真的可以在我們社交網絡當中去做這樣的一些演化行為的預測。
其實,對於社交網絡的研究我們要做的還很多,比如說,我們要針對一個可以變化的社交網絡,人群在不斷的增加,人群在不斷的減小。在社交網絡當中還有很多新型的機制、設計湧現出來。怎麼能夠讓我們的模型能夠更貼近我們社交網絡真實的情況,能夠去適應我們社交網絡不斷演化的一個過程。也是我們以後要在模型研究方面,不斷要做的工作。
最後,我還是希望我們的研究工作能夠真正的用於或者指導於我們社交網絡上面的這樣的一些新型商業模式,一些新型的這個商業平臺的構建和發展當中。也希望通過大數據可以更好的為我們的老百姓提供服務。
編輯:巴塔木