摘 要:網際網路媒體的快速發展使網民每日接收著海量的新聞。發現熱點新聞並對其演化趨勢進行挖掘可有利於媒體把握新聞風向和讀者喜好,並幫助用戶低成本、全方位地了解新聞事件的來龍去脈。媒體網站可通過實時獲取新聞並進行文本處理,運用聚類分析、時序主題挖掘等算法跟蹤了解熱點新聞事件的演化趨勢。本文結合相關挖掘技術,提供了一種基於主題模型的熱點新聞演化趨勢挖掘的流程設計,並結合具體的新聞事件進行分析。
關鍵詞:熱點新聞,聚類,主題模型,文本挖掘,新聞演化
1、研究背景
隨著網際網路的發展,在線新聞已成為媒體發表新聞、用戶閱讀新聞的主要渠道。在Web2.0時代,網絡中的信息傳遞愈加迅速便捷,網民可自主發表個人意見,助推了各類熱點新聞的誕生。網絡中的熱點新聞是指反映社會反響比較大,網民比較關注的新聞內容,具有傳播快、影響力大、關注度高的特點。網絡中的熱點新聞一般會經歷話題產生、變化和消亡三個階段,不同階段的新聞有不同的熱度和話題。人們在閱讀網際網路上海量新聞時,往往重點關注某些領域的熱門新聞,並且希望了解熱門的新聞的來龍去脈等泛化信息。
對網絡熱點新聞事件的挖掘可以滿足網際網路用戶新聞閱讀訴求。將網絡中各個信息源相同和相似的新聞事件聚集在一起。最後將聚集在一起的新聞事件按照時間先後順序進行排列和統計,這樣就能夠得出新聞事件的起因、發展以及結果等一系列過程,並通過統計信息的數量得到事件關注度變化曲線。挖掘結果能使用戶更方便快捷的去了解網絡中整個信息演化趨勢和狀況,同時也引導用戶去關注社會和生活中的一些焦點新聞。
從用戶角度看,對熱點新聞演化趨勢的挖掘分析給用戶提供了更為方便快捷的服務,它能夠使用戶用最小的代價獲取最多最全面的內容,它能夠幫助用戶更準確、更迅速的了解一個事件的來龍去脈、整個發展過程以及各方各面對該事件的理解和看法。對媒體和網站管理者而言,從對網際網路中熱門事件的研究,可以有效的得出網際網路中熱點新聞的遷移,網際網路用戶行為習慣變化以及網際網路的輿論導向[1],便於媒體根據讀者喜好和熱點風向發布新聞報導,引導和控制新聞發展。
2、熱點新聞挖掘技術與研究框架
2.1 熱點新聞挖掘相關技術現狀
在對熱點新聞的演化狀況進行挖掘時,主要會使用到有監督性學習、無監督性學習以及複雜網絡分析等方面的相關技術。
(1)新聞聚類技術
傳統的新聞主題聚類任務一般採用向量空間模型來表示一個新聞文檔,然後通過相似度公式來計算文檔之間的距離,而對於新主題的識別主要採用增量聚類的算法來實現;通過主題抽取與聚類工作,可以不停地生成、總結形成新的新聞主題[2]。基於以上路徑,誕生了多種新聞聚類方法。如Ron Papka[3]等學者則提出了一種混合式的主題聚類算法,他將多種聚類算法進行混合搭配,根據不同聚類算法之間的特點,採取融合邏輯來進行新聞主題聚類。Sayyadi[4]等研究人員將新聞主題與社交網絡結合起來,提出了一種基於關鍵詞圖的新聞主題聚類算法,充分地利用了網絡新聞系統中的消費者社交網絡信息,取得了不錯的效果。
(2)新聞分類技術
新聞網站對於新聞進行分類使得讀者可以更準確地找到自己感興趣的分類並有利於關聯閱讀的進行, 例如目前新聞頁面下方的新聞推薦, 可以使讀者便捷地閱讀到與當前閱讀新聞相關的其他新聞頁面。目前,機器學習和神經網絡技術的發展使得新聞分類逐漸成熟,如支持向量機(SVM)、決策樹、KNN等分類算法在新聞分類任務上均有不錯的表現。
(3)主題挖掘技術
非監督性學習中的主題模型,可以用於追蹤和檢測新聞熱點話題。通過主題模型將自由文本中的主題 提取出來再進行分析。主題模型也是近年來文本挖掘 領域的熱點。主題模型起源於Deerwester[5]等1990年提出的隱性語義索引。M. Blei等2003年[6]提出的LDA模型,擴展了隱性語義索引,得到一個更為完全的概率生成模型。近年來,與特定的應用場景相結合,出現了越來越多的基於LDA的概率模型。
(4)新聞演化挖掘技術
新聞話題演化脈絡挖掘[7],是在與某個特定話題的相關報導已被跟蹤的前提下,根據新聞之間的邏輯關係,自動組織成符合邏輯的事件發展軌跡。國內外研究的一個重點集中於兩新聞之間相似性度量(關聯強度)方面,有研究發現新聞發展軌跡是自上而下的,具有時間近鄰、事件要素共現特性,利用事件的內容關聯強度、時間關係可以構造出新聞話題演化故事鏈[8]。
2.2 熱點新聞演化趨勢挖掘框架
針對網絡中的熱點新聞演化趨勢分析主要分為三個模塊:新聞獲取模塊;熱點新聞識別模塊和熱點新聞演化分析模塊。其中新聞獲取模塊主要完成數據的即時性獲取任務;熱點新聞識別模塊主要對新聞文本信息進行預處理,運用聚類技術對新聞進行聚簇,挖掘新聞熱度及事件標籤;熱點新聞演化分析模塊主要對簇內新聞在時間序列上進行主題挖掘,對挖掘出的主題演化情況可視化展示。
3、新聞獲取
在獲取新聞階段,主要目的是實時性得獲取新聞網站的海量新聞數據,滿足對新聞演化趨勢分析的數據要求。在該階段,一般的流程為:網頁抓取,網頁解析,信息提取,信息存儲。
(1)網頁抓取
新聞網頁的抓取是獲取數據的基礎。面對新聞挖掘抓取相關網頁要滿足兩個特點:定時和定向。定時抓取,是指為了保證新聞的時效性,需要定時(每天、每周或每小時)抓取新聞站點的新聞頁面。由於新聞網站上每天都有大量新聞產生,及時抓取當日新聞才能滿足對新聞演化趨勢的挖掘。定向抓取,是為了防止抓取的新聞分布過於分散,可從新聞網站的專題頁或主題頁進行抓取。以人民網為例,可從滾動新聞模塊出發每日0點抓取新聞,保證抓取的即時性和抓取內容的豐富性。
(2)網頁解析與信息提取
網頁的解析,能夠得到網頁中比較單一和固定的元素,例如網頁標題、副標題、連結信息、文本信息等,python與java語言環境下有成熟的工具包可以使用。SST(Site Style Tree)算法提供了一種根據Web網頁DOM樹節點信息熵提取有效信息的方法,可以過濾網頁中的冗餘的無意義信息,提高提取信息的有效性。
(3)信息存儲
為便於按照時間線對新聞進行分析,要記錄存儲網頁的時間、新聞標題、新聞內容等信息。存儲網頁新聞信息數據系統可使用SQL-Server資料庫或Oracle資料庫存儲,滿足大量數據多線程並發查詢的需求。網頁新聞存儲表的欄位設計如表3-1所示,欄位需要包括原始網頁中的新聞信息和處理後的關鍵信息,為提升查詢速度,可對部分欄位添加索引。
4、熱點新聞識別
獲取到大量的新聞數據之後,需對文本進行中文分詞、去停用詞與低價值詞、文本特徵表示等預處理操作,以滿足後續的分析要求。在新聞熱度識別模塊,主要運用聚類算法,對文本進行聚類,挖掘相似文本集合的數量和主題,生成熱點新聞話題集群。
(1)文本分詞與處理
對於原始新聞文本,難以進行使用聚類算法進行分析。中文文本分詞是必不可少的環節。目前,已有Jieba、THULAC、ICTCLAS等較為成熟的中文分詞工具,可實現對中文語料進行分詞、詞性標註、新詞識別等操作。為降低文本噪音,分詞後可對分詞結果進行去停用詞操作。
(2)文本特徵表示
分詞後的詞語集合可以使用基於代數論的向量空間或基於概率統計的文本模型進行表示。向量空間模型主要是把文本抽象成一個向量,, 是詞庫中唯一存在的詞,其取值確定了該詞語代表文檔能力的強弱,即體現了詞語在文檔中的重要。通常,可以使用TF-IDF(詞頻-逆向文檔頻率)值表示詞語特徵項的權重,在此,不再對TF-IDF算法做具體介紹。概率統計模型考慮了詞語中的內在聯繫,相較於向量空間模型,其更符合文檔生成的客觀規律;但運算、統計先驗概率都較為複雜,需要做出合理的優化。常見的概率統計模型有n-gram模型和最大熵馬爾科夫模型等。
在實際操作中,由於新聞集合包含的詞語數目多,產生的特徵向量空間的維數廣,計算規模較大。為了提升聚類效率,可以對文本特徵向量空間進行壓縮。在計算文本特徵距離時,只存儲和使用兩個文檔所包含詞語得權重,減少特徵向量的維數。
(5)聚類標籤表示
聚類後某類集合下的新聞數量可以表示該組新聞的熱度。根據聚類集合下的新聞數量很容易發現哪個集群下的新聞報導數量最高。報導數量越高,該結合下新聞代表的事件就越熱門。但還需使用一個代表性標籤來反映該類別下新聞的話題,表示這類新聞集合到底在講什麼事件。由於聚類結果存在噪聲,不便直接選取聚類中心的詞向量作為聚類標籤。為了能自動挖掘新聞集合的話題,可以在用自然語言處理的方法來對文本內容進行歸納總結。但面對大量新聞文本的挖掘操作過於龐大,這裡提出一種使用新聞標題集合產生標籤的聚類方法。通過將新聞標題集合進行切分、詞頻統計和詞性標註,選擇詞頻數目靠前的名詞和動詞作為聚類標籤。比如:在聚類後得到了一個關於颱風的新聞的集合,將該集合下的新聞標題進行詞頻統計,取動詞和名詞中詞頻排名前兩位的詞語組成詞語集合{山竹,颱風,停課,登陸},該詞語集合已足夠反應該類新聞的主題。
5、熱點新聞主題演化分析
經過對大量新聞文本的聚類後,已經獲得每組的新聞集合和簡要的集合標籤特徵,接下來可以對同一組內新聞集合進行主題抽取及演化分析。
5.1 DTM主題模型
關於文本的主題挖掘模型有很多,最長使用的是基於LDA的主題挖掘模型。LDA模型是一種基於潛在狄利克雷分布的主題生成模型。在這個主題模型中, 一系列主題以服從多項式分布的形式生成每個文本, 再從這些主題中同樣以服從多項式分布的方式抽樣出每個單詞, 由此構成該模型。但傳統的LDA模型忽略了文本之間邏輯或時序上的某種關聯,面對具有演化時間標籤的熱點新聞集合,必須考慮新聞話題在時序上的變化情況。
DTM模型是由Blei於2006年[6]提出的模型,它在LDA的基礎上加上時序相關信息,訓練出時序相關的模型,從而分析主題在時序上的變化。傳統的LDA主題模型在生成文檔時,認為文檔中的每個單詞對應的主題是可以交換地從一系列的主題中採樣得到的,但是現實世界中,文檔的時間順序影響了主題的集合裡的主題。DTM假設文本可以按照時間順序分為多個集合,比如按年,那麼時間片t的主題是從時間片t-1的主題演化得到的。時間片t-1的模型參數對時間片t的模型參數有所影響。圖5-1展示了有三個時間片的DTM模型,其中圖模型的參數含義如表5-1所示。
5.2 新聞主題挖掘
在這裡的實驗中,省略新聞聚類的環節,人民網上直接抓取了3月份以來帶有事件序列的關於「滴滴順風車」相關的新聞,使用主題模型進行新聞主題挖掘。根據挖掘結果,可以獲得新聞集合的六個話題,清洗掉話題之間的重複詞語後,每個話題有5個單詞構成。經過主題模型的挖掘,已經能夠發掘部分主題的大致含義。比如:topic3是指「樂清女性乘坐滴滴順風車遇難」這一事件,topic6是指「滴滴關閉夜店打車服務」的事件後續反應。
5.3 新聞時序演化分析
新聞話題演化脈絡挖掘需要從一個話題出現、發展、高潮、平淡、到最後結束的連續跟蹤。一個複雜的新聞話題往往包含多個子事件,而事件之間也存在著一些邏輯或時序上的關聯,通過這些事件之間的關係,可以得到新聞話題下的事件演化脈絡,輔助用戶理解新聞的來龍去脈。
繼續使用「滴滴順風車」事件的新聞實例,在識別出新聞話題後,將各個話題的新聞數量變化趨勢在時間序列軸上表示出來,可以發現各個話題隨時間的演化情況和不同事件對「滴滴順風車」事件報導的側重點,如圖5-2所示。可視化後的新聞演化趨勢圖可以清晰的展示某話題及其子話題出現、發展、高潮、平淡的發展趨勢。
通過圖5-2可以看出,Topic4主題樂清-女性-乘客-遇害-懸賞」的報導數量,在2018年8月26號左右爆發並達到頂峰,這符合該事件實際報導的演化情況;Topic3主題「夜間-專車-停運-投訴-交通」的報導數量,在2018年9月11號先上升後下降,這與滴滴在該時間段內決定夜間停運專車業務一周相吻合;Topic0主題「美團-市場-補貼-上線-高德」的新聞在2018年4月份開始出現並增多,表明該時期下媒體關於滴滴打車的競爭對手美團打車上線的新聞較多,這也與事實相符。
在以上主題挖掘的基礎上,選取部分主題詞,將每個高頻主題詞的存在情況表示在時間序列上,如圖5-3所示,整個事件的發展和演化趨勢一目了然。
6、研究局限與展望
(1)聚類帶來的新聞事件分離
聚類儘管可以將不同大類或不同事件下的新聞事件聚簇,但若聚類粒度選擇不當,很容易將熱點新聞的子事件分離,為後續的新聞演化分析帶來不便。如何優化文本相似度的計算方法、聚類數目、算法目標函數仍是一個問題。
(2)時序話題間的詞語重複
應用時序主題模型挖掘出的不同話題下的主題詞存在交集。雖然允許不同話題擁有相似的主題詞,但在相同聚類集群下,更主要的是獲得不同的主題詞語以彰顯熱點新聞事件的動態發展與轉折。在主題挖掘之後,可將不同主題詞集合間對詞語進行二次篩選。
(3)時序話題的邏輯關係暫未識別
經過時序主題挖掘後的主題詞集合較為獨立,未能形成完整的新聞事件演化故事鏈,不利於用戶理解閱讀。可嘗試構建新聞事件間的層次結構,結合聚類集群標籤集和和主題詞集合,生成新聞事件發展鏈或故事鏈。
(責編:尹崢、趙光霞)