李偉:輿情事件等級評估及基於語義理解實現文本精細化分類

2020-12-12 金臺資訊

7月17日,由人民網輿情數據中心/人民在線主辦的第二屆「人民雲社會評價科技大會」在線上順利舉行,主題為「重大風險評估體系建設」。與會的數據建模、計算機技術應用、輿情領域專家學者就如何有效地利用新技術完善重大風險評估體系建設進行了分享和探討。人民網輿情數據中心主任數據分析師李偉分享的主題是:輿情事件等級評估及基於語義理解實現文本精細化分類。

輿情事件等級評估

輿情事件等級評估,李偉從四個方面進行了闡釋:一是當前輿情行業等級評估主要方法以及存在問題。當前行業內使用的指標主要是熱度值。雖然搜索的熱度值或報導的數量能反映一個事件社會關注度,但卻存在著指標單一、數據不全、無法針對用戶特點提供個性化服務等問題。因此評估輿情事件嚴重程度需要有能容納原有方法,但更全面、多維、面向用戶個性化需求的模型來實現。

二是輿情事件等級綜合評估模型設計的原則,這涉及到兩個方面。一是要考慮到模型裡面有哪些變量,二是建立模型應該遵循的原則。變量因素主要有三點考量,第一點要考慮利益相關方,第二點要考慮其面向的用戶,第三點是事件的嚴重程度,以這樣的思路構造模型結構。利用機器學習理念,通過訓練得到模型參數,這也是本研究創新之處。當然,不是通過梯度下降等等典型反向傳播方法由機器自動實現,而是人工按照一定規則調試。構建模型時,需要考慮其健壯性和魯棒性,同時,一定要充分利用輿情專家的經驗。

李偉結合案例,從目的和數據兩個方面對輿情事件等級評估進行了闡釋。他提出在目的方面要遵循輸入簡單、契合用戶行業特點、邏輯簡單明了、基本符合直覺、客觀科學的要求。而數據主要依靠系統的自動採集、用戶簡單查詢,輔以用戶少量主觀判斷。評分模型結構包括評分和評級兩個部分共三個環節。見圖 1 利用模型對輿情事件評價過程:

圖 1 利用模型對輿情事件評價過程

對於評分模型,李偉依據這一公式進行考量:

輿情事件原始得分 =(傳播熱度 影響因子)* 用戶相關係數 * 事件嚴重程度

其中傳播熱度是基礎、基本面,影響因子是局部疊加的,用戶相關係數和事件嚴重程度二者是全局性影響因素。在模型中,即使沒有任何痕跡事件(因某些原因網上沒有任何報導),在百分制傳播熱度中也能有基礎的60分,這種設計保證了模型健壯性。李偉還強調,事件中敏感因子得分總量不超過13分,這樣既沒有影響事件基本面特徵,又能反應事件客體起的局部疊加影響作用,讓模型不會因為一些變量數值小變動而對結果產生很大影響,保障了模型魯棒性。

三是對一個政府部門用戶進行了實例化分析。請人民網輿情專家就36個輿情事件(類別基本平衡)進行了評級,充分利用了專家知識,通過這些打了標記樣本訓練參數。把不同類別案例得分區間理想狀態下沒有交叉,(如「一般」類別的最高分要 lt; 臨近的「敏感」類型的最低分),而且各類別得分間隔要大致相等作為損失函數,得到的多分類模型具有相當不錯準確性。當前使用這個監督學習方法是可行的。

最後李偉針對當前模型提出了一些存在問題和改進方法。首先,當前樣本量還不夠,需要專家評分標記;其次,對於不同的等級事件,如遇分值交叉情況,閾值該如何確定。針對這兩個問題,李偉提出,第一要擴大樣本,並把未用於訓練的一些專家評分樣本作為「驗證集」使用。通過此方法來迭代,讓參數更合理。第二要擴大採集對象。當前熱度值採集對象只是關於某個事件關鍵詞報導的文章、網頁,後續採集可以把文章本身的點讚、轉發等都加上去。第三要為不同等級事件評分的交叉部分以及閾值的確定方法考慮更詳細規則。

基於知識圖譜和NLP的文本精細化分類

李偉首先闡述了知識圖譜和NLP的文本精細化分類的現實需求。在當前的文本分類,一般是結合上下文的情況進行分類,在語句層面以及「詞」的層面理解都不夠到位。因此需要進一步基於知識圖譜,利用NLP技術消除詞的歧義,對文本進行語義識別實現精細化分類,從詞和語句兩個層面來解決問題。李偉對NLP和知識圖譜也做出了簡單介紹。NLP就是讓人類和機器之間可以無障礙通信,讓計算機能沒有困難地理解人類自然語言。人類對自然語言處理的研究主要包括以下方面:對語句中詞進行詞性標註、句法分析、自然語言生成、文本分類問題、海量信息檢索、重要信息抽取、自動朗讀文本、人機之間問答系統、機器翻譯和提取文章摘要等等。要滿足以上應用,語義分析成為自然語言處理技術的幾個核心任務之一。知識圖譜是結構化語義知識庫,用於以符號形式描述物理世界中概念及其相互關係。其基本組成單位是「實體-關係-實體」或「實體-屬性-屬性值」三元組,實體間通過關係相互聯結,構成網狀知識結構。知識圖譜包含三層含義:1)知識圖譜本質是一個具有屬性實體(E)通過關係(R)連結而成的網狀知識庫(S)。2)從圖的角度來看,知識圖譜在本質上是一種概念網絡,其中的節點表示物理世界的實體(或概念),而實體間的各種語義關係則構成網絡中的邊。3)知識圖譜是對物理世界的一種符號表達。知識圖譜由數據層 (data layer) 和模式層 (schema layer)兩部分構成,大多只有數據層,除非要進行知識推理時候才需要模式層。

知識圖譜有人工構建和機器自動構建兩種方式。見圖 2 知識圖譜自動構建方法:

圖 2 知識圖譜自動構建方法

對於句子級的語義分析,李偉表示主要是通過語義標註來了解句子含義。語義標註首先需要處理最小對象——知識元,也就是詞,需要先了解知識元含義,然後明確知識元聯結方式,二者共同構成句子含義,從而實現句子級語義理解。知識元/詞含義需要有兩個方面工作:分詞和消除歧義,知識元聯結方式包括詞與詞之間關係,還有詞與詞之間的組合方法。見 圖 3 知識圖譜應用於句子級語義理解:

圖 3 知識圖譜應用於句子級語義理解

優化詞嵌入算法,引入知識圖譜,實現分類優化,見圖 4 分詞有序嵌入到詞向量空間中。李偉提出四個方面:一是分詞有序進入到詞向量空間中,要把自然語言轉化到機器語言,這時機器才能對自然語言進行一個理解;二是關鍵詞的提取,運用了TextRank算法;三是利用知識圖譜實體對齊方法,消除分詞歧義,將基於屬性相似性評分匹配問題轉化為分類問題;四是利用基於共同鄰居計數方法的結構相似性函數分辨詞義遠近。

圖 4 分詞有序嵌入到詞向量空間中

基於句子級語義理解,知識圖譜NLP精細化理解文本的方法,李偉提出首先要基於句子級語義分析,結合知識圖譜,精確爬取文本。其次要引入知識圖譜進行第二次文本分類,這也是本研究創新點。句子級語義分析首先要提取出關鍵詞,並找到其對應領域知識圖譜,進行第二次的分類匹配。在第二次細分文本的過程中,首先對文章進行摘要,並定位關鍵詞段落,每一個關鍵詞找到5個三元組,從而建設好知識圖譜。

運用知識圖譜進行二次文本分類即對上述過程進行更具體地細化。首先對文本進行分詞,找到含有歧義的段落,嵌入詞向量空間,通過LSTM進行文本摘要,得到三個以上關鍵詞。通過構建圖譜抽取5個三元組,在與對應領域匹配比對,從而實現文本的第二次分類。見圖 5 引入知識圖譜實現第二次文本精細化分類:

圖 5 引入知識圖譜實現第二次文本精細化分類

在測試結果及改進問題上,李偉與技術專家共同研討後發現,通過自動構建的知識圖譜與文本中的三元組匹配,相似度沒有想像中的那麼高。其誤差原因可能在於運用通用型語言構建圖譜,缺乏針對性。因此需要有更專業的素材來創建領域知識圖譜。最後李偉總結,將知識圖譜結合NLP方法是一條可行的路徑,這個方法在很多其他課題中也同樣適用。

相關焦點

  • ACM MM | 中山大學等提出HSE:基於層次語義嵌入模型的精細化物體分類
    原標題:ACM MM | 中山大學等提出HSE:基於層次語義嵌入模型的精細化物體分類 機器之心發布 作者:Tianshui Chen、Wenxi Wu、Yuefang Gao、Le Dong、Xiaonan Luo、Liang Lin
  • 基於Text-CNN模型的中文文本分類實戰
    為了讓計算機能夠理解詞彙,我們需要將詞彙信息映射到一個數值化的語義空間中,這個語義空間我們可以稱之為詞向量空間(詞向量模型)。文本的數值化方式有很多種,例如:TF-IDF、BOW、One-Hot、分布式的表示方式(word2vec、Glove)等。我一般常用的就是最經典的word2vec工具,該工具在NLP領域具有非常重要的意義!
  • NLP: 基於文本語義的智能問答系統
    深度學習-智能問答機器人深度語言模型會將問題和文檔轉化為語義向量,從而找到最後的匹配答案。本文藉助Google開源的Bert模型結合Faiss開源向量搜尋引擎,快速搭建基於語義理解的對話機器人。0-2 在線系統DEMO項目實現以一種平臺化思路建議系統,是一個通用的解決方案。
  • 文本分類六十年
    圖1展示出了基於淺層和深度學習的文本分類方法中所涉及的操作步驟的流程圖。文本數據不同於數字,圖像或信號數據。它要求NLP技術具有能夠進行十分精細化處理的能力。而首先重要的一步是對輸入模型的文本數據進行預處理。淺層學習模型通常需要通過人工標註的方法來獲得良好的樣本特徵,然後使用經典的機器學習算法對其進行分類。
  • 達觀智能推薦:萬字長文詳解基於智能推薦的精細化運營實戰
    精細化運營和智能推薦概述1.1精細化運營1.1.1什麼是精細化運營?精細化運營是一種針對人群、場景、流程做差異化細分運營的運營策略,是結合市場、渠道、用戶行為等數據分析,對用戶展開有針對性的運營活動,以實現運營目的行為。
  • 百度CTO王海峰詳解知識圖譜與語義理解
    當時,主要是基於規則的系統,也要用到知識,那時的知識是把人類專家的知識編輯在規則裡,實現語言的理解、生成,然後實現翻譯。 過去 20 多年,這一領域從基礎研究到應用,都已經發生了非常大的變化。當然,20 多年相比於自然語言處理這個領域 70 多年的歷史來說,還很年輕。
  • 語義分割領域開山之作:Google提出用神經網絡搜索實現語義分割
    自 Google 提出 Cloud AutoML,NAS(Neural Architecture Search,神經網絡架構搜索)也取得重大進展,但更多的是在圖像分類和自然語言處理方面的應用。在過去的一年中,元學習(meta-learning)在大規模圖像分類問題上,性能已經實現超越人類手工設計的神經網架構。
  • ICML 2020 | 基於類別描述的文本分類模型
    我們提出了三種方法引入這種描述:使用這種技術,我們能夠在單標籤文本分類、多標籤文本分類和多角度情感分析任務的10個數據集上取得顯著更好的效果。文本分類是自然語言處理中非常重要的一項任務,它要求模型判斷輸入文本的類別,如情感、評分、類型等。
  • 大數據環境下高校新媒體輿情分析模型的探索與實踐
    第一步是識別熱點事件,系統利用關鍵詞抽取、語義分析、數值統計對預處理數據進行主題特徵提取,通過聚類算法將主題集壓縮成一個個熱門話題集,或通過分類算法根據主題集的特徵對主題進行分類,得到與監測主題相關的輿情信息。經統計,高校輿情的類型主要可分為社會穩定類、校園安全類、權益維護類、高校管理類等。
  • 從海量金融文本中挖掘價值信息,華為雲助力企業風控與輿情分析
    首頁 > 傳媒 > 關鍵詞 > 華為雲最新資訊 > 正文 從海量金融文本中挖掘價值信息,華為雲助力企業風控與輿情分析
  • 文本分類綜述 | 邁向NLP大師的第一步(上)
    NewBeeNLP公眾號原創出品    公眾號專欄作者 @lucy北航博士在讀 · 文本挖掘/事件抽取方向本系列文章總結自然語言處理(NLP)中最基礎最常用的「文本分類」鑑於已有的文獻已經提出了許多方法,數據集和評估指標,因此更加需要對上述內容進行全面的總結。本文通過回顧1961年至2020年的最新方法填補來這一空白,主要側重於從淺層學習模型到深度學習模型。我們首先根據方法所涉及的文本,以及用於特徵提取和分類的模型,構建了一個對不同方法進行分類的規則。
  • 前沿|通用句子語義編碼器,谷歌在語義文本相似性上的探索
    近年來,基於神經網絡的自然語言理解研究取得了快速發展(尤其是學習語義文本表示),這些深度方法給人們帶來了全新的應用,且還可以幫助提高各種小數據集自然語言任務的性能。本文討論了兩篇關於谷歌語義表示最新進展的論文,以及兩種可在 TensorFlow Hub 上下載的新模型。
  • 揭秘基於ERNIE的百度飛槳語義理解開發套件5大特色
    昨天,在「WAVE Summit+」2019深度學習開發者秋季峰會上,百度對外發布基於ERNIE的語義理解開發套件,旨在為企業級開發者提供更領先、高效、易用的ERNIE應用服務,全面釋放ERNIE的工業化價值,其中包含ERNIE 輕量級解決方案,提速1000倍!
  • 百分點認知智能實驗室出品:情感分析在輿情中的研發實踐(上)
    網際網路上每時每刻都會產生大量文本,這其中也包含大量的用戶直接參與的、對人、事、物的主觀評價信息,比如微博、論壇、汽車、購物評論等,這些評論信息往往表達了人們的各種主觀情緒,如喜、怒、哀、樂,以及情感傾向性,如褒義、貶義等。基於此,潛在的用戶就可以通過瀏覽和分析這些主觀色彩的評論來了解大眾輿論對於某一事件或產品的看法。
  • 2020年 第1期 | 專題前言:突發事件應急情報分析
    本期的四篇專題論文是教育部哲學社會科學研究重大課題攻關項目「提高反恐怖主義情報信息工作能力對策研究」的階段性成果,從突發事件防控理論研究、輿情監測與畫像、情感分析等多個視角展開研究。《面向企業輿情監測的事件畫像與高危人群預測研究》一文基於事件信息結構表示理論,構建面向企業輿情監測場景的事件畫像體系,通過追溯用戶的歷史行為數據,採用多種語義挖掘算法及邏輯回歸預測模型刻畫事件背後的高危人群特徵,勾勒企業輿情相關的事件特徵以及推動事件進程的關鍵人群特徵。
  • 智能語義理解搜尋引擎中漢語虛詞的形態特徵略析
    虛詞雖無義卻有形,其形態量化與關係是首要任務之一,明晰了形態關係也就解決了語句中實詞與虛詞搭配組句的語法、語義、語用形態特徵,漢語虛詞形態信息提取及量化分析是智能化語義理解不可或缺的 [3-4] 。換言之,詞彙語用修正了詞彙語義在詞語選擇與詞語理解上的缺陷,並指出語境化是理解和使用詞語的關鍵。
  • 樸素貝葉斯分類器詳解及中文文本輿情分析(附代碼實踐)
    本文主要講述樸素貝葉斯分類算法並實現中文數據集的輿情分析案例,希望這篇文章對大家有所幫助,提供些思路。
  • 【工具】語義分析系統---- NLPIR
    、實體抽取、詞頻統計、關鍵詞提取、語義信息抽取、文本分類、情感分析、語義深度擴展、繁簡編碼轉換、自動注音、文本聚類等。主要研究領域為:自然語言處理、信息檢索、網絡信息內容安全,先後主持了國家863、242等相關的課題15項,研製的天璣輿情系統已經廣泛地應用於中國證監會、銀監會、廣電、工信部等 單位,已經成為實際的業務系統。
  • 文本分類又來了,用 Scikit-Learn 解決多類文本分類問題
    翻譯 | 朱茵      整理 | 餘杭  MY 在商業領域有很多文本分類的應用,比如新聞故事通常由主題來分類;內容或產品常常被打上標籤;基於如何在線談論產品或品牌,用戶被分成支持者等等。然而大部分的文本分類文章和網上教程是二進位的文本分類,像垃圾郵件過濾(spam vs. ham)、情感分析(積極的和消極的)。在大量實例中,我們現實世界的問題要比這些複雜的多。因此,這是我們今天要做的:將消費者的財務投訴分成12個預定義的類。這些數據可以從 data.gov 下載。
  • ASG動態等級模型:做好精細化運營的關鍵
    運營要講求精細化,要根據產品、用戶、市場的具體情況制定具體的運營措施。文章主要分享了ASG動態等級模型在用戶分層精細化運營領域的應用方法,希望對你有用。中國的網際網路浪潮隨著移動用戶的趨於飽和,已經進入了下半場的角力。