摘要:微博用戶的轉發行為已成為信息擴散的關鍵機制。本研究旨在構建模型對轉發行為進行預測,並分析其影響因素。首先根據「5W模型」,提取微博作者、微博文本、微博接受者和相互關係四個一級維度特徵,並細分為39個二級維度特徵,利用支持向量機構建預測模型,再通過新浪微博數據,對模型進行評估。預測模型的查全率為58.67%,精確率為82.19%,F1值為68.46%,這表明預測模型的表現令人滿意。本研究還利用信息增益算法計算39個二級維度特徵的影響力,並以此對其進行排序。結果表明,「微博作者活躍度」、「微博作者和接受者標籤相似度」、「接受者活躍度」、「微博主題與接受者標籤相似度」四個因素對轉發行為的影響最大。本研究結論在微博營銷與輿情分析等領域將有很多潛在應用。
關鍵詞:微博轉發、預測模型、影響力排序、支持向量機、信息增益
一、引言
微博因其簡單性和隨意性,吸引了越來越多的網民參與其中,獲取信息,分享生活[[1]]。中國最大的微博平臺是新浪微博,它允許用戶發布文字貼(不超過140個漢字)[[2]],內容涉及廣泛話題。截至2013年12月底,中國微博網民規模為2.81億,網民中微博使用率為45.5%[1]。微博已經成為網民獲取信息的重要途徑[[3]]
在微博平臺上,用戶行為主要包括發布信息、轉發、評論、添加關注等幾種。其中,轉發被看作是最重要的行為之一。通過轉發,微博信息能夠以指數級的方式進行擴散。微博用戶因為利他或自我提高等原因轉發微博[[4]]。例如他們通過轉發特定信息,構建自己的微博形象、分享感興趣的信息、公開贊成或反對某個觀點等。轉發行為的實踐有助於建立起一個會話生態系統。在此系統中,會話是通過用戶基於共享上下文而進行交流的。同時,轉發行為也使得新的,原作者陌生的用戶參與特定的話題討論[[5]]。
雖然轉發行為被看作是微博平臺上信息擴散的關鍵機制,但目前仍不清楚為什麼有些微博比另一些更容易被轉發。本研究的第一個研究目的,即構建模型對用戶轉發行為進行預測。通過預測模型,可以引導輿情、篩除謠言,優化微博中信息擴散等。同時,在影響用戶轉發行為的因素中,理清他們的影響力大小,將促進商家個性化推薦信息和精準營銷,引發巨大經濟效益。因此,本研究的第二個目的是對影響轉發行為的因素的影響力大小進行排序。
本文接下來分為以下部分:第二章討論和梳理的已有文獻。第三章描述本研究所構建的預測模型。第四章介紹本研究所使用到主要方法。第五章介紹本研究的實驗並給出實驗結果。第六章對實驗結果進行討論。第七章將給出本研究的結論和以後的研究方向。
二、文獻綜述
持續增加的微博用戶使得研究者開始關注他們的行為。微博用戶能自由地選擇關注其他用戶,這種關注行為是單向的,並不需要被關注用戶確認[[6]]。正是這種單向關注行為,促進了微博上信息的廣泛傳播。在Twitter中,人際交互大多數發生在線下,而事件傳播大多發生在線上[[7]]。實驗發現,被試可以通過閱讀Twitter用戶所發布的內容判斷他們的大五人格類型[[8]]。另外,隨著線上對社會熱點問題的討論和影響愈發頻繁,越來越多的學者開始關注Twitter上的信息傳播及其模式。但Twitter用戶對於信息並不是完全不加思考的接受,研究者發現,有過低或過高的粉絲數和關注數的用戶均容易被認為有較低的信息可信性[[9]]。
面對信息在微博平臺上迅速傳播和擴散的現狀,研究者們將轉發行為看作是其關鍵機制之一。然而,目前和轉發行為相關的研究主要局限在轉發的動機和內容兩方面。因此探索其傳播和擴散的機制變得尤為重要[[10]]。研究者通過實驗證明了Twitter用戶傾向於轉發與自己粉絲興趣相關的和信息價值高的內容[[11]]。更多的研究則試圖通過建立預測模型,對轉發行為進行預測。研究者選擇了內容特徵和情境特徵作為自變量,構建了基於泛化線性模型的預測模型。他們發現,Tweet包含超連結和話題標記與否,對其轉發率有直接影響;Tweet作者的粉絲數、關注數和帳戶的年齡對其轉發率有間接影響;Tweet作者已有的Tweet數與轉發率基本無關[[12]]。也有學者認為轉發的主要原因是個人興趣與滿意程度,他們提出了一個能夠有效從Tweet內容中提取潛在主題的模型來預測用戶的轉發行為[[13]]。其他學者選擇了基於社會、基於內容、基於Tweet和基於用戶等四個維度的特徵構建模型,確定了與用戶轉發行為聯繫最緊密的特徵[[14]]。還有學者提取內容相關、拓撲學相關、時間相關、元數據相關等四大類特徵,預測給定的Tweet是否會被轉發及轉發的程度[[15]]。Petrovic和Sasa等利用被動攻擊算法,選擇了社會性特徵和Tweet特徵兩大類構建預測模型。同時還構建了時間敏感性模型,以適應發布時間對轉發行為的影響[[16]]。
雖然已有研究提出了多種對Twitter用戶的轉發行為進行預測的模型,但是多數研究通常沒有說明預測模型自變量的來源。他們不能解釋為什麼有些因素可以影響用戶的轉發行為而另外一些因素則不能,因此也就沒有辦法判斷其預測模型的自變量是否包含了所有可能對轉發行為產生影響的因素。另一方面,作為自媒體的代表,微博本身不僅是作為大眾傳播的媒介,還具備人際傳播的特點。在微博平臺上,每個人都擁有話語權,傳播模式日趨扁平化和網絡化[[17]]。因此,在研究微博平臺上的轉發行為時,作為接受者的用戶特徵不能忽略。事實上,微博轉發過程可被視為信息傳播過程,用戶是否轉發即為此過程的傳播效果。著名傳播學家Lasswell提出了著名的「5W模式」[[18]]:「誰(Who)」,「說什麼(say What)」,「通過什麼渠道(through Which channel)」,「對誰說(to Whom)」,「有什麼效果(With what effect)」。「5W模式」描述了信息經由傳播渠道從傳播者到達接受者的過程,為傳播效果研究提供了清晰的分析框架。因此,本研究採用「5W模式」作為預測模型構建的理論基礎,並提取能夠影響用戶轉發行為的潛在因素。
三、預測模型的構建
根據「5W模式」,傳播過程中需要考慮的因素包括傳播者、傳播內容、傳播渠道、接受者、傳播效果。本研究中,傳播者為微博作者,傳播內容為微博文本內容,傳播渠道為微博平臺,接受者指所有看過此微博的用戶,傳播效果為此微博是否被轉發。轉發行為預測模型,即在確定傳播渠道為微博平臺的前提下,構建一個獨立預測模型,其中,自變量應包括微博作者特徵,微博文本特徵,微博接受者特徵三大類因素。同時,微博用戶不僅可以通過評論、轉發等行為,建立與他人的聯繫,構建自己的社交關係網;同時也會被其他用戶的行為影響。因此,預測模型中還應當考慮微博作者、微博接受者、微博文本三個因素之間的相互關係。
然而上述的四大特徵(微博作者特徵,微博文本特徵,微博接受者特徵,相互關係特徵)仍然過於寬泛,它們僅適合作為預測模型的一級維度特徵。對於每個一級維度特徵,還需要細化為二級維度特徵,如圖1所示。下面將對重點二級維度特徵進行介紹。
1、微博作者特徵
微博作者即發布微博的用戶。本研究提取了11個因素作為微博作者特徵的二級維度。需要說明的是,微博作者的地域是以省為分析單位。用戶可能傾向於轉發與自己所在省相關的微博。
2、微博文本特徵
微博文本即微博的具體內容,包括文字、符號、超連結等。對於微博用戶來說,微博內容將在很大程度上影響其是否轉發。本研究選擇了11個因素作為微博文本特徵的二級維度,包括微博主題、微博中含有的hashtag數等。需要說明的是,微博含有的hashtag數,即指微博文本中含有的「#」的數量。在微博中,hashtag通常成對出現,並且兩個hashtag之間的內容,通常為此條微博的主要內容。另外,微博主題需要通過對微博文本進行分類處理後才能確定。
3、微博接受者特徵
微博接受者即除微博作者之外,所有瀏覽過指定微博的用戶。作為「5W模式」中的組成部分,微博接受者在研究中卻常常被忽略。在微博平臺上,每個人既可以是信息的發布者,又可以是信息的接受者。傳統大眾媒體中關於傳播者和接受者的界限,在微博裡變得越來越模糊,傳播者和接受者的地位也越來越平等。所以本研究將微博接受者與微博作者置於同等重要的地位。
但是對於給定微博,很難判斷接受者未轉發的原因是因為真的不想轉發,還是僅僅因為沒有看到微博。為了避免後者,本研究將微博作者的所有粉絲作為接受者,並提取了10個因素作為微博接受者特徵的二級維度。其中接受者地域和微博作者地域一樣,是以省為分析單位。
4、相互關係特徵
相互關係特徵指微博作者、微博文本、微博接受者三者之間相互聯繫的特徵因素。在微博用戶決定其是否轉發過程中,這些相互關係會影響用戶的決策。本研究選擇了7個因素作為相互關係特徵的二級維度。需要說明的是,本研究採用用戶自定義的標籤來表徵用戶的興趣,這主要是基於一個假設,即用戶為自己添加的標籤,通常表示用戶本身對於標籤內容的認可和喜愛。
通過對影響用戶轉發行為的特徵分析,本研究將所用到的數據樣本定義為d = (a, t, r, c),其中a表示微博作者特徵,t表示微博文本特徵,r表示微博接受者特徵,c表示相互關係特徵。同時將微博用戶是否轉發某條微博定義為y。因此,預測模型即為尋找到一種關係f,通過f建立起由39個二級維度特徵構成的數據樣本d到因變量y之間的對應關係,即f (d) → y。因變量y可能的取值及意義由式(1)給出。
因為因變量y只有兩個可能的取值,因此預測模型的任務也可以看作是對給定的數據樣本進行分類。分類的結果只有兩種,類別為C1(微博被轉發)或C2(微博未被轉發)。所以本研究中的預測模型,是一個根據給定的自變量進行二分類的模型。
四、方法
本章將介紹本研究所使用的分類方法。同時,針對39個二級維度特徵進行排序,需要計算每個特徵的影響力,所以本章還將給出特徵影響力的計算方法。
1、分類方法
目前常用的分類方法包括基於關聯規則的分類[[19]],有監督的機器學習[[20]],支持向量機[[21]]等。其中對於二分類問題,以支持向量機最為有效。支持向量機是由Vapnik提出的一種大有前景的方法[[22]]。它是一種新的統計學習算法,具有基於結構化風險最小原則之上的良好理論基礎和泛化性能[[23]]。它可以最小化訓練誤差,通過不太複雜的邊界實現分類或回歸[[24]]。支持向量機已被廣泛用於有監督的學習技術,特別是在數據樣本較少時,它能得到較理想的分類結果[[25]]。另外,已有研究也表明支持向量機的分類性能,尤其是泛化能力好於傳統的分類方法[[26]],[[27]]。因此本研究選擇它作為分類來完成預測過程。
除了預測轉發行為是一個分類問題外,確定微博主題這個二級特徵維度時,也涉及到文本分類問題。經典文本分類方法包括:Rocchio法、決策樹法、樸素貝葉斯分類、K近鄰算法等[28]。其中樸素貝葉斯分類器,作為最直接和最廣泛使用的概率分類方法,在模式識別領域已經有了很長時間的應用[[29]]。同時,它也是用於解決許多現實世界分類問題的重要方法。貝葉斯分類器具有四大優點:易使用,對所需訓練集只需一次掃描,善於處理缺失值以數據具有連續性[[30]]。所以本研究採用貝葉斯分類器來確定微博主題。
2、影響力計算方法
除了預測轉發行為,本研究還將對39個二級維度特徵的影響力大小排序。信息增益是在選擇特徵相關的變量中做出貢獻的基礎上,不考慮特徵交互的單變量方法[[31]],它利用了信息熵的概念[[32]],研究者發現,信息增益算法是最有效的特徵選擇方法之一[[33]]。在本研究中,39個二級維度特徵之間存在一定的相關性,並不相互獨立,因此選擇不考慮特徵交互的信息增益方法,可以保留二級維度特徵彼此相關性,得到較準確的結果。
因為預測模型處理的是二分類問題,只有C1(微博被轉發)和C2(微博未被轉發)兩類,所以在運用信息增益算法計算特徵的影響力時,計算過程將大大簡化。計算方法由式(2)給出。
其中,P(Cj)表示類Cj出現的概率,j=1,2,其計算方法由式(3)給出。
P(ti)表示特徵T取值為ti的概率,i=1,2,3, …, k,其計算方法由式(4)給出。
P(Cj|ti)表示類別Cj中特徵T取值為ti的概率,j=1,2, …, n,i=1,2,3, …, k,其計算方法由式(5)給出。
在本研究中,選擇信息增益方法,利用式(2)計算出每個二級維度特徵的信息增益值,便可對每個二級維度特徵的影響力進行排序。
五、實驗
1、數據描述
本研究利用新浪微博官方API,從中隨機抽取數據作為研究樣本。首先隨機抽取15000條微博,並獲取每條微博的作者信息。在剔除了非中文微博、同一作者發布的多條微博、粉絲數為零的作者發布的微博之後,最終得到14421條微博及14421位微博作者信息。然後,隨機從每位作者的粉絲中抽取一定數量的用戶作為微博接受者,由此組成數據樣本。最終,一共得到208747條數據樣本,其中男性用戶佔48.92%,認證用戶佔10.37%。這表明所獲取的數據樣本很好的符合新浪微博平臺上的真實情況。
2、實驗過程
(1)構建特徵向量
假設每條數據樣本d有n個特徵,ni是d的第i個特徵,i = 1,2,3,…,n,用數字xi來表徵,則可以用向量x = (x1, x2, x3, …, xn)來表示d,稱向量x為d的特徵向量。在本研究中,每條數據樣本d中包含39個特徵,即n為39。構建特徵向量的目的,是為了將每條數據樣本向量化,從而有利於分類計算。
本研究構建特徵向量的方法主要包括編碼和計算兩類。編碼即用預先規定的方法將文字、數字或其他信息轉化成特定形式。本研究需要將微博作者地域,微博是否包含圖片,用戶活躍度等特徵轉化為數字形式,其中用戶活躍度通過式(6)計算得到。
計算則主要針對微博主題和相互關係特徵。對於微博主題,採用貝葉斯分類器。首先對微博文本進行分詞處理。為保證分詞結果的準確性,本研究採用成熟分詞系統——中科院的漢語詞法分析系統ICTCLAS[[34]]——進行分詞。分詞完成後,剔除其中的停用詞,得到微博文本的詞集。接下來,利用事先準備好的訓練集進行訓練,並根據訓練結果對微博文本分類,得到主題。需要注意的是,因為樣本中微博文本並不確切的知道其所屬類別,所以機器學習中常用的將數據樣本分為訓練集和測試集的方法對確定微博主題並不適用。本研究使用數據堂網站[2]提供的微博文本分類語料庫作為訓練集。該語料庫包含了微博文本常見的財經、傳媒等21個主題,每個主題中包含幾百條微博文本,樣本來源廣,數量充足。在分類完成後,還需要通過編碼的方式處理分類結果。
三種相似度(作者和接受者標籤相似度、微博主題與接受者的標籤相似度、微博主題與作者的標籤相似度)的計算,可以轉換為兩個詞語之間相似度的計算。本研究採用HowNet提供的方法來求解詞語間的相似度。
微博用戶的標籤通常不只一個,因此在計算相似度特徵時,假設微博作者標籤詞集SW1 ={W11, W12, W13, …, W1n},微博接受者標籤詞集SW2={W21, W22, W23, …, W2m},則微博作者和微博接受者標籤相似度由式(7)給出。
(2)模型驗證
本研究採用簡單、易用和快速有效的支持向量機模式識別與回歸的軟體包libsvm來進行基於分類運算[[35]]。208747條數據樣本被分為訓練集(130000條數據樣本,62.28%)和測試集(78747條數據樣本,37.72%)兩類。根據預測結果和測試集中樣本的真實情況,建立混淆矩陣如表1所示。
本研究選用信息檢索的標準指標來對預測模型進行評價,主要指標包括查全率、精確率、F1值。其結果如表2所示:
(責編:王妍(實習)、燕帥)