基於主題模型的網絡熱點新聞演化趨勢研究

2021-01-10 人民網

摘 要:網際網路媒體的快速發展使網民每日接收著海量的新聞。發現熱點新聞並對其演化趨勢進行挖掘可有利於媒體把握新聞風向和讀者喜好,並幫助用戶低成本、全方位地了解新聞事件的來龍去脈。媒體網站可通過實時獲取新聞並進行文本處理,運用聚類分析、時序主題挖掘等算法跟蹤了解熱點新聞事件的演化趨勢。本文結合相關挖掘技術,提供了一種基於主題模型的熱點新聞演化趨勢挖掘的流程設計,並結合具體的新聞事件進行分析。

關鍵詞:熱點新聞,聚類,主題模型,文本挖掘,新聞演化

1、研究背景

隨著網際網路的發展,在線新聞已成為媒體發表新聞、用戶閱讀新聞的主要渠道。在Web2.0時代,網絡中的信息傳遞愈加迅速便捷,網民可自主發表個人意見,助推了各類熱點新聞的誕生。網絡中的熱點新聞是指反映社會反響比較大,網民比較關注的新聞內容,具有傳播快、影響力大、關注度高的特點。網絡中的熱點新聞一般會經歷話題產生、變化和消亡三個階段,不同階段的新聞有不同的熱度和話題。人們在閱讀網際網路上海量新聞時,往往重點關注某些領域的熱門新聞,並且希望了解熱門的新聞的來龍去脈等泛化信息。

對網絡熱點新聞事件的挖掘可以滿足網際網路用戶新聞閱讀訴求。將網絡中各個信息源相同和相似的新聞事件聚集在一起。最後將聚集在一起的新聞事件按照時間先後順序進行排列和統計,這樣就能夠得出新聞事件的起因、發展以及結果等一系列過程,並通過統計信息的數量得到事件關注度變化曲線。挖掘結果能使用戶更方便快捷的去了解網絡中整個信息演化趨勢和狀況,同時也引導用戶去關注社會和生活中的一些焦點新聞。

從用戶角度看,對熱點新聞演化趨勢的挖掘分析給用戶提供了更為方便快捷的服務,它能夠使用戶用最小的代價獲取最多最全面的內容,它能夠幫助用戶更準確、更迅速的了解一個事件的來龍去脈、整個發展過程以及各方各面對該事件的理解和看法。對媒體和網站管理者而言,從對網際網路中熱門事件的研究,可以有效的得出網際網路中熱點新聞的遷移,網際網路用戶行為習慣變化以及網際網路的輿論導向[1],便於媒體根據讀者喜好和熱點風向發布新聞報導,引導和控制新聞發展。

2、熱點新聞挖掘技術與研究框架

2.1 熱點新聞挖掘相關技術現狀

在對熱點新聞的演化狀況進行挖掘時,主要會使用到有監督性學習、無監督性學習以及複雜網絡分析等方面的相關技術。

(1)新聞聚類技術

傳統的新聞主題聚類任務一般採用向量空間模型來表示一個新聞文檔,然後通過相似度公式來計算文檔之間的距離,而對於新主題的識別主要採用增量聚類的算法來實現;通過主題抽取與聚類工作,可以不停地生成、總結形成新的新聞主題[2]。基於以上路徑,誕生了多種新聞聚類方法。如Ron Papka[3]等學者則提出了一種混合式的主題聚類算法,他將多種聚類算法進行混合搭配,根據不同聚類算法之間的特點,採取融合邏輯來進行新聞主題聚類。Sayyadi[4]等研究人員將新聞主題與社交網絡結合起來,提出了一種基於關鍵詞圖的新聞主題聚類算法,充分地利用了網絡新聞系統中的消費者社交網絡信息,取得了不錯的效果。

(2)新聞分類技術

新聞網站對於新聞進行分類使得讀者可以更準確地找到自己感興趣的分類並有利於關聯閱讀的進行, 例如目前新聞頁面下方的新聞推薦, 可以使讀者便捷地閱讀到與當前閱讀新聞相關的其他新聞頁面。目前,機器學習和神經網絡技術的發展使得新聞分類逐漸成熟,如支持向量機(SVM)、決策樹、KNN等分類算法在新聞分類任務上均有不錯的表現。

(3)主題挖掘技術

非監督性學習中的主題模型,可以用於追蹤和檢測新聞熱點話題。通過主題模型將自由文本中的主題 提取出來再進行分析。主題模型也是近年來文本挖掘 領域的熱點。主題模型起源於Deerwester[5]等1990年提出的隱性語義索引。M. Blei等2003年[6]提出的LDA模型,擴展了隱性語義索引,得到一個更為完全的概率生成模型。近年來,與特定的應用場景相結合,出現了越來越多的基於LDA的概率模型。

(4)新聞演化挖掘技術

新聞話題演化脈絡挖掘[7],是在與某個特定話題的相關報導已被跟蹤的前提下,根據新聞之間的邏輯關係,自動組織成符合邏輯的事件發展軌跡。國內外研究的一個重點集中於兩新聞之間相似性度量(關聯強度)方面,有研究發現新聞發展軌跡是自上而下的,具有時間近鄰、事件要素共現特性,利用事件的內容關聯強度、時間關係可以構造出新聞話題演化故事鏈[8]。

2.2 熱點新聞演化趨勢挖掘框架

針對網絡中的熱點新聞演化趨勢分析主要分為三個模塊:新聞獲取模塊;熱點新聞識別模塊和熱點新聞演化分析模塊。其中新聞獲取模塊主要完成數據的即時性獲取任務;熱點新聞識別模塊主要對新聞文本信息進行預處理,運用聚類技術對新聞進行聚簇,挖掘新聞熱度及事件標籤;熱點新聞演化分析模塊主要對簇內新聞在時間序列上進行主題挖掘,對挖掘出的主題演化情況可視化展示。

3、新聞獲取

在獲取新聞階段,主要目的是實時性得獲取新聞網站的海量新聞數據,滿足對新聞演化趨勢分析的數據要求。在該階段,一般的流程為:網頁抓取,網頁解析,信息提取,信息存儲。

(1)網頁抓取

新聞網頁的抓取是獲取數據的基礎。面對新聞挖掘抓取相關網頁要滿足兩個特點:定時和定向。定時抓取,是指為了保證新聞的時效性,需要定時(每天、每周或每小時)抓取新聞站點的新聞頁面。由於新聞網站上每天都有大量新聞產生,及時抓取當日新聞才能滿足對新聞演化趨勢的挖掘。定向抓取,是為了防止抓取的新聞分布過於分散,可從新聞網站的專題頁或主題頁進行抓取。以人民網為例,可從滾動新聞模塊出發每日0點抓取新聞,保證抓取的即時性和抓取內容的豐富性。

(2)網頁解析與信息提取

網頁的解析,能夠得到網頁中比較單一和固定的元素,例如網頁標題、副標題、連結信息、文本信息等,python與java語言環境下有成熟的工具包可以使用。SST(Site Style Tree)算法提供了一種根據Web網頁DOM樹節點信息熵提取有效信息的方法,可以過濾網頁中的冗餘的無意義信息,提高提取信息的有效性。

(3)信息存儲

為便於按照時間線對新聞進行分析,要記錄存儲網頁的時間、新聞標題、新聞內容等信息。存儲網頁新聞信息數據系統可使用SQL-Server資料庫或Oracle資料庫存儲,滿足大量數據多線程並發查詢的需求。網頁新聞存儲表的欄位設計如表3-1所示,欄位需要包括原始網頁中的新聞信息和處理後的關鍵信息,為提升查詢速度,可對部分欄位添加索引。

4、熱點新聞識別

獲取到大量的新聞數據之後,需對文本進行中文分詞、去停用詞與低價值詞、文本特徵表示等預處理操作,以滿足後續的分析要求。在新聞熱度識別模塊,主要運用聚類算法,對文本進行聚類,挖掘相似文本集合的數量和主題,生成熱點新聞話題集群。

(1)文本分詞與處理

對於原始新聞文本,難以進行使用聚類算法進行分析。中文文本分詞是必不可少的環節。目前,已有Jieba、THULAC、ICTCLAS等較為成熟的中文分詞工具,可實現對中文語料進行分詞、詞性標註、新詞識別等操作。為降低文本噪音,分詞後可對分詞結果進行去停用詞操作。

(2)文本特徵表示

分詞後的詞語集合可以使用基於代數論的向量空間或基於概率統計的文本模型進行表示。向量空間模型主要是把文本抽象成一個向量,, 是詞庫中唯一存在的詞,其取值確定了該詞語代表文檔能力的強弱,即體現了詞語在文檔中的重要。通常,可以使用TF-IDF(詞頻-逆向文檔頻率)值表示詞語特徵項的權重,在此,不再對TF-IDF算法做具體介紹。概率統計模型考慮了詞語中的內在聯繫,相較於向量空間模型,其更符合文檔生成的客觀規律;但運算、統計先驗概率都較為複雜,需要做出合理的優化。常見的概率統計模型有n-gram模型和最大熵馬爾科夫模型等。

 

在實際操作中,由於新聞集合包含的詞語數目多,產生的特徵向量空間的維數廣,計算規模較大。為了提升聚類效率,可以對文本特徵向量空間進行壓縮。在計算文本特徵距離時,只存儲和使用兩個文檔所包含詞語得權重,減少特徵向量的維數。

(5)聚類標籤表示

聚類後某類集合下的新聞數量可以表示該組新聞的熱度。根據聚類集合下的新聞數量很容易發現哪個集群下的新聞報導數量最高。報導數量越高,該結合下新聞代表的事件就越熱門。但還需使用一個代表性標籤來反映該類別下新聞的話題,表示這類新聞集合到底在講什麼事件。由於聚類結果存在噪聲,不便直接選取聚類中心的詞向量作為聚類標籤。為了能自動挖掘新聞集合的話題,可以在用自然語言處理的方法來對文本內容進行歸納總結。但面對大量新聞文本的挖掘操作過於龐大,這裡提出一種使用新聞標題集合產生標籤的聚類方法。通過將新聞標題集合進行切分、詞頻統計和詞性標註,選擇詞頻數目靠前的名詞和動詞作為聚類標籤。比如:在聚類後得到了一個關於颱風的新聞的集合,將該集合下的新聞標題進行詞頻統計,取動詞和名詞中詞頻排名前兩位的詞語組成詞語集合{山竹,颱風,停課,登陸},該詞語集合已足夠反應該類新聞的主題。

5、熱點新聞主題演化分析

經過對大量新聞文本的聚類後,已經獲得每組的新聞集合和簡要的集合標籤特徵,接下來可以對同一組內新聞集合進行主題抽取及演化分析。

5.1 DTM主題模型

關於文本的主題挖掘模型有很多,最長使用的是基於LDA的主題挖掘模型。LDA模型是一種基於潛在狄利克雷分布的主題生成模型。在這個主題模型中, 一系列主題以服從多項式分布的形式生成每個文本, 再從這些主題中同樣以服從多項式分布的方式抽樣出每個單詞, 由此構成該模型。但傳統的LDA模型忽略了文本之間邏輯或時序上的某種關聯,面對具有演化時間標籤的熱點新聞集合,必須考慮新聞話題在時序上的變化情況。

DTM模型是由Blei於2006年[6]提出的模型,它在LDA的基礎上加上時序相關信息,訓練出時序相關的模型,從而分析主題在時序上的變化。傳統的LDA主題模型在生成文檔時,認為文檔中的每個單詞對應的主題是可以交換地從一系列的主題中採樣得到的,但是現實世界中,文檔的時間順序影響了主題的集合裡的主題。DTM假設文本可以按照時間順序分為多個集合,比如按年,那麼時間片t的主題是從時間片t-1的主題演化得到的。時間片t-1的模型參數對時間片t的模型參數有所影響。圖5-1展示了有三個時間片的DTM模型,其中圖模型的參數含義如表5-1所示。

5.2 新聞主題挖掘

在這裡的實驗中,省略新聞聚類的環節,人民網上直接抓取了3月份以來帶有事件序列的關於「滴滴順風車」相關的新聞,使用主題模型進行新聞主題挖掘。根據挖掘結果,可以獲得新聞集合的六個話題,清洗掉話題之間的重複詞語後,每個話題有5個單詞構成。經過主題模型的挖掘,已經能夠發掘部分主題的大致含義。比如:topic3是指「樂清女性乘坐滴滴順風車遇難」這一事件,topic6是指「滴滴關閉夜店打車服務」的事件後續反應。

5.3 新聞時序演化分析

新聞話題演化脈絡挖掘需要從一個話題出現、發展、高潮、平淡、到最後結束的連續跟蹤。一個複雜的新聞話題往往包含多個子事件,而事件之間也存在著一些邏輯或時序上的關聯,通過這些事件之間的關係,可以得到新聞話題下的事件演化脈絡,輔助用戶理解新聞的來龍去脈。

繼續使用「滴滴順風車」事件的新聞實例,在識別出新聞話題後,將各個話題的新聞數量變化趨勢在時間序列軸上表示出來,可以發現各個話題隨時間的演化情況和不同事件對「滴滴順風車」事件報導的側重點,如圖5-2所示。可視化後的新聞演化趨勢圖可以清晰的展示某話題及其子話題出現、發展、高潮、平淡的發展趨勢。

通過圖5-2可以看出,Topic4主題樂清-女性-乘客-遇害-懸賞」的報導數量,在2018年8月26號左右爆發並達到頂峰,這符合該事件實際報導的演化情況;Topic3主題「夜間-專車-停運-投訴-交通」的報導數量,在2018年9月11號先上升後下降,這與滴滴在該時間段內決定夜間停運專車業務一周相吻合;Topic0主題「美團-市場-補貼-上線-高德」的新聞在2018年4月份開始出現並增多,表明該時期下媒體關於滴滴打車的競爭對手美團打車上線的新聞較多,這也與事實相符。

在以上主題挖掘的基礎上,選取部分主題詞,將每個高頻主題詞的存在情況表示在時間序列上,如圖5-3所示,整個事件的發展和演化趨勢一目了然。

6、研究局限與展望

(1)聚類帶來的新聞事件分離

聚類儘管可以將不同大類或不同事件下的新聞事件聚簇,但若聚類粒度選擇不當,很容易將熱點新聞的子事件分離,為後續的新聞演化分析帶來不便。如何優化文本相似度的計算方法、聚類數目、算法目標函數仍是一個問題。

(2)時序話題間的詞語重複

應用時序主題模型挖掘出的不同話題下的主題詞存在交集。雖然允許不同話題擁有相似的主題詞,但在相同聚類集群下,更主要的是獲得不同的主題詞語以彰顯熱點新聞事件的動態發展與轉折。在主題挖掘之後,可將不同主題詞集合間對詞語進行二次篩選。

(3)時序話題的邏輯關係暫未識別

經過時序主題挖掘後的主題詞集合較為獨立,未能形成完整的新聞事件演化故事鏈,不利於用戶理解閱讀。可嘗試構建新聞事件間的層次結構,結合聚類集群標籤集和和主題詞集合,生成新聞事件發展鏈或故事鏈。

(責編:尹崢、趙光霞)

相關焦點

  • 基於國家社科基金項目解析2020新聞傳播研究的熱點與趨勢
    研究主題分類進一步分析,智能媒體、重大突發事件、國家形象、新聞史、一帶一路、區塊鏈等研究主題出現頻率較高。研究主題分類國家形象,社交網絡,短視頻,網絡輿情等研究主題出現的次數較多。從項目主題來看,國家形象在年度項目和青年項目皆佔較大比例,此外項目研究也緊跟時代變化發展,2020年智能媒體、突發事件傳播研究獲得較多關注。
  • ...創新:研究熱點、知識演進和理論框架——基於CiteSpace可視化分析
    它通過繪製可視化圖譜, 尋找開創性和標誌性文獻、主流主題、演變趨勢及研究領域間的關聯, 以探索學科演化的潛在動力機制與學科發展的前沿動態, 籍此更好地幫助人們理解某一研究領域。其基本原理是通過以共引分析 (co-citation analysis) 和尋徑網絡算法等理論在某一時區內尋找文獻共現關係、形成共現網絡, 然後將眾多小的網絡按時間順序合併, 最終得到大的遞進的可視化網絡。
  • 國際移動學習研究的認識取向與主題演化
    移動學習研究聚焦為三類主題,分別是以移動學習的接受度及影響因素研究為主的「探索」、以移動學習系統設計與應用效果研究為主的「實踐」、以移動學習模型及理論框架研究為主的「反思」。這三類主題在軟體技術、硬體技術及教育技術實踐演進的影響下,逐步形成了「探索-實踐-反思」循環的「螺旋式拓展」研究模式。
  • 基於CiteSpace 的國內智慧圖書館研究熱點分析
    智慧圖書館研究的熱點主題包括哪些?研究的不足之處是什麼?智慧圖書館未來的發展趨勢及研究重點在何處?不少學者通過綜述研究對以上問題做出回答,但以定性分析和傳統的文獻計量研究為主,而本研究藉助CiteSpace軟體定量分析該研究領域的大量文獻資料,增加了研究的廣度與深度,並通過繪製可視化知識圖譜,直觀地展示研究特點及發展趨勢,全面把握我國智慧圖書館的研究狀況。
  • 基於神經進化的深度學習模型研究綜述
    摘要 深度學習研究發展至今已可以勝任各類識別、分類、生成任務,但是對於不同的任務,神經網絡的結構或參數不可能只是微小的變化,依然需要專家進行調整
  • 曹樹金:我國網絡輿情研究現狀
    廣州 510275  內容提要:文章基於文獻計量法和對數透視理論,分析我國網絡輿情研究及其知識增長趨勢。首先根據知網檢索結果,從共詞分析、主題演進、合作作者與合作機構等角度分析我國網絡輿情研究的現狀,再根據百度學術的檢索結果分析總結2005~2015年國內網絡輿情研究的知識增長趨勢,研究發現,儘管我國網絡輿情領域的研究發展相當迅猛,知識仍然是線性增長和積累的。
  • 基於人民網新聞標題的短文本自動分類研究
    對於新聞來說,簡短的新聞標題是新聞內容的高度總結,針對短文本的分類研究一直是自動文本分類技術的研究熱點。本文基於人民網觀點頻道中的數據,採用深度學習中的卷積神經網絡(CNN)和循環神經網絡中的長短時記憶模型(LSTM)組合起來,捕捉短文本表達的語義,對短文本自動文本分類進行智能化實現,為新聞網站的新聞分類實現提供參考。
  • 代鳳菊 劉承宇:近十年國際語言政策與規劃研究熱點與趨勢——基於Scopus資料庫的可視化分析
    近十年國際語言政策與規劃研究熱點與趨勢——基於Scopus資料庫的可視化分析摘要
  • AMiner 新功能:技術趨勢分析—挖掘技術源頭、近期熱度和全局熱度
    技術趨勢分析的方法技術趨勢分析描述了技術的出現、變遷和消亡的全過程,它可以幫助研究人員理解領域的研究歷史和現狀,快速識別研究的前沿熱點問題學者運用統計分析、模型構建、AHP 等方法對技術發展路徑進行了一系列研究,這些方法大多是偏重於專家德爾菲法的定性分析,重點在於指標的設定,缺乏定量數據分析。另有一些研究者利用專利主路徑分析研究技術的變遷,然而較少考慮技術主題隨著時間的繼承、分裂和融合。基於數據挖掘的主題變遷通過挖掘深層次的科技文本語義信息,能夠有效的解決這一問題。
  • 基於新聞事件的網絡流行語擴散研究
    [關鍵詞]新聞事件 網絡流行語 擴散 研究  基於新聞事件的網絡流行語(以下簡稱「網絡流行語」)從本質上而言是一種語言創新,其流行過程也是網民使用增多的過程,語言學把「一段時期內某一地區一種語言使用的增多」稱為語言擴散(language spread),借用這一概念,我們也可以將網絡流行語在某一時期使用的迅速增多稱之為擴散。
  • 工學院「工程經濟學」課程推出「基於SEIR模型的北京市新冠肺炎...
    我希望促使在家的同學們一方面嘗試利用所學的知識去更好的理解當前的社會熱點問題,另一方面通過遠程小組合作的方式探索新知識學習的樂趣。「工程經濟學」在線課程開始之後,通過向同學們介紹疫情發生後的疾病預測建模、政府出臺不同防控政策效應分析等熱點研究問題,我鼓勵選課同學建立在線研究小組來進行學習與研討。
  • 基於財經新聞的LDA主題模型實現:Python
    LDA主題模型雖然有時候結果難以解釋,但由於其無監督屬性還是廣泛被用來初步窺看大規模語料(如財經新聞)的主題分布。
  • 近十年來我國高等教育研究的熱點領域與前沿主題
    本文基於文獻計量統計學的方法,並結合大數據挖掘技術,探測我國高等教育研究的熱點領域與前沿主題。研究選取三種CSSCI來源的高等教育學期刊(《中國高等教育》《高等教育研究》《中國高教研究》)所刊載的文獻作為數據源,通過可視化軟體CiteSpace分析探測出我國高等教育研究的熱點和前沿,並繪製該領域相關的網絡知識圖譜,從宏觀視角把握我國高等教育研究的演變趨勢,並為國內外學者、研究者提供參考價值。
  • 重磅 | 國際土壤質量研究熱點與趨勢
    由美國德雷賽爾大學陳超美教授於2004  年首次推出的基於Java  環境的引文網絡分析工具Citespace,主要用於科學文獻數據計量和分析、識別和顯示科學發展新趨勢和新動態,並在分析和可視化共引網絡方面具有準確、便利和高效的特點,因此,本研究選取Citespace  V作為主要分析軟體。
  • 國內外計算思維研究的熱點領域和演進趨勢——基於CNKI與WOS期刊文獻的可視化分析
    摘要:計算思維已經納入信息素養,為了系統、全面地了解國內外計算思維的發展趨勢與研究熱點,文章以CNKI和WOS資料庫刊載的計算思維文獻為數據源,運用文獻計量和內容分析的方法,對國內外的計算思維研究從年度分布、學科類別分布、研究機構分布、高產學者分布、關鍵詞與聚類結果分析和研究趨勢分析幾個部分進行了知識圖譜的構建。
  • 基於Holt的趨勢時間序列預測模型
    今天小編為大家帶來「基於Holt的趨勢時間序列預測模型」,一起來看看吧!的趨勢時間序列預測模型01:08來自LearningYard學苑 多圖預警!二、計算流程Holt指數平滑模型由Holt於1957年提出。它與一般的指數平滑模型不同的是它對趨勢數據直接進行平滑並對原時間序列進行預測,需要考慮的是兩個平滑參數以及初值的選取問題,也被成為Holt雙參數線性指數平滑模型。
  • 新聞智能推薦之Tensorflow自動生成標題的研究及應用
    研究背景:某新聞企業通過接入極光智能推薦系統,在其APP端增加智能推薦模塊,為其用戶私人訂製感興趣的新聞。極光機器學習雲能夠快速、精準的提取每條新聞的主題,並對新聞進行主題分類,藉助極光自有的用戶標籤,向用戶實時的推薦個性化新聞。
  • 基於技術接受模型的高校教師網絡教學行為研究
    而由戴維斯(Davis)教授在1989年率先提出的技術接受模型(TAM),是用來解釋用戶對信息系統接受時提出的一個理論模型,隨著TAM理論模型的不斷完善,該模型的解釋能力從最初的10%顯著提升至目前的60%[5]。因此,採用技術接受模型的綜合模型來研究高校教師的網絡教學行為將有助於提高研究的科學性。本研究正是基於技術接受模型來分析、構建網絡教學行為影響因素模型。
  • 【主題報告】2019年我國新聞傳播學研究態勢分析
    經過分析,核實了2019年新聞傳播學研究的核心院所,確認了2019年新聞傳播學研究隊伍種的領軍人物,界定了2019年新聞傳播學研究的重點領域,明確了2019年新聞傳播學研究的頂尖論文與熱點論文。雖然不同學者從不同角度在新聞傳播學領域進行研究,並產生了眾多的細分研究領域,但在研究方向上還是有一定的聚焦性,研究重點具有一致性;同時,基於對外部環境的即時反應,研究前沿具有時效性。關鍵詞是作者對文章核心研究內容的精煉,學科領域裡高頻次出現的關鍵詞和從數據樣本中,對每一篇文獻進行提取後分析出的名詞短語可被視為該領域的研究熱點[4]。
  • 神經語言學國際熱點與趨勢的科學知識圖譜分析
    這些結果支持大規模的結構網絡,而非左半球語言的模塊化組織。Friederici(2011)基於先前語言加工的神經影像研究,發現大腦中存在語言功能網絡,如偏左腦的顳區皮質和額下皮質主要負責句法加工,而非左半球偏側的額顳葉網絡主要負責語義加工。在這些大腦網絡中,句法加工先於語法、語義關係的構建,聽覺信息的超音段韻律信息則由大腦右半球的額顳葉網絡加工。