李偉:輿情事件等級評估及基於語義理解實現文本精細化分類

2021-01-14 輿情頻道

7月17日,由人民網輿情數據中心/人民在線主辦的第二屆「人民雲社會評價科技大會」在線上順利舉行,主題為「重大風險評估體系建設」。與會的數據建模、計算機技術應用、輿情領域專家學者就如何有效地利用新技術完善重大風險評估體系建設進行了分享和探討。人民網輿情數據中心主任數據分析師李偉分享的主題是:輿情事件等級評估及基於語義理解實現文本精細化分類。

輿情事件等級評估

輿情事件等級評估,李偉從四個方面進行了闡釋:一是當前輿情行業等級評估主要方法以及存在問題。當前行業內使用的指標主要是熱度值。雖然搜索的熱度值或報導的數量能反映一個事件社會關注度,但卻存在著指標單一、數據不全、無法針對用戶特點提供個性化服務等問題。因此評估輿情事件嚴重程度需要有能容納原有方法,但更全面、多維、面向用戶個性化需求的模型來實現。

二是輿情事件等級綜合評估模型設計的原則,這涉及到兩個方面。一是要考慮到模型裡面有哪些變量,二是建立模型應該遵循的原則。變量因素主要有三點考量,第一點要考慮利益相關方,第二點要考慮其面向的用戶,第三點是事件的嚴重程度,以這樣的思路構造模型結構。利用機器學習理念,通過訓練得到模型參數,這也是本研究創新之處。當然,不是通過梯度下降等等典型反向傳播方法由機器自動實現,而是人工按照一定規則調試。構建模型時,需要考慮其健壯性和魯棒性,同時,一定要充分利用輿情專家的經驗。

李偉結合案例,從目的和數據兩個方面對輿情事件等級評估進行了闡釋。他提出在目的方面要遵循輸入簡單、契合用戶行業特點、邏輯簡單明了、基本符合直覺、客觀科學的要求。而數據主要依靠系統的自動採集、用戶簡單查詢,輔以用戶少量主觀判斷。評分模型結構包括評分和評級兩個部分共三個環節。見圖 1 利用模型對輿情事件評價過程:

圖 1 利用模型對輿情事件評價過程

對於評分模型,李偉依據這一公式進行考量:

輿情事件原始得分 =(傳播熱度+影響因子)* 用戶相關係數 * 事件嚴重程度

其中傳播熱度是基礎、基本面,影響因子是局部疊加的,用戶相關係數和事件嚴重程度二者是全局性影響因素。在模型中,即使沒有任何痕跡事件(因某些原因網上沒有任何報導),在百分制傳播熱度中也能有基礎的60分,這種設計保證了模型健壯性。李偉還強調,事件中敏感因子得分總量不超過13分,這樣既沒有影響事件基本面特徵,又能反應事件客體起的局部疊加影響作用,讓模型不會因為一些變量數值小變動而對結果產生很大影響,保障了模型魯棒性。

三是對一個政府部門用戶進行了實例化分析。請人民網輿情專家就36個輿情事件(類別基本平衡)進行了評級,充分利用了專家知識,通過這些打了標記樣本訓練參數。把不同類別案例得分區間理想狀態下沒有交叉,(如「一般」類別的最高分要 < 臨近的「敏感」類型的最低分),而且各類別得分間隔要大致相等作為損失函數,得到的多分類模型具有相當不錯準確性。當前使用這個監督學習方法是可行的。

最後李偉針對當前模型提出了一些存在問題和改進方法。首先,當前樣本量還不夠,需要專家評分標記;其次,對於不同的等級事件,如遇分值交叉情況,閾值該如何確定。針對這兩個問題,李偉提出,第一要擴大樣本,並把未用於訓練的一些專家評分樣本作為「驗證集」使用。通過此方法來迭代,讓參數更合理。第二要擴大採集對象。當前熱度值採集對象只是關於某個事件關鍵詞報導的文章、網頁,後續採集可以把文章本身的點讚、轉發等都加上去。第三要為不同等級事件評分的交叉部分以及閾值的確定方法考慮更詳細規則。

基於知識圖譜和NLP的文本精細化分類

李偉首先闡述了知識圖譜和NLP的文本精細化分類的現實需求。在當前的文本分類,一般是結合上下文的情況進行分類,在語句層面以及「詞」的層面理解都不夠到位。因此需要進一步基於知識圖譜,利用NLP技術消除詞的歧義,對文本進行語義識別實現精細化分類,從詞和語句兩個層面來解決問題。李偉對NLP和知識圖譜也做出了簡單介紹。NLP就是讓人類和機器之間可以無障礙通信,讓計算機能沒有困難地理解人類自然語言。人類對自然語言處理的研究主要包括以下方面:對語句中詞進行詞性標註、句法分析、自然語言生成、文本分類問題、海量信息檢索、重要信息抽取、自動朗讀文本、人機之間問答系統、機器翻譯和提取文章摘要等等。要滿足以上應用,語義分析成為自然語言處理技術的幾個核心任務之一。知識圖譜是結構化語義知識庫,用於以符號形式描述物理世界中概念及其相互關係。其基本組成單位是「實體-關係-實體」或「實體-屬性-屬性值」三元組,實體間通過關係相互聯結,構成網狀知識結構。知識圖譜包含三層含義:1)知識圖譜本質是一個具有屬性實體(E)通過關係(R)連結而成的網狀知識庫(S)。2)從圖的角度來看,知識圖譜在本質上是一種概念網絡,其中的節點表示物理世界的實體(或概念),而實體間的各種語義關係則構成網絡中的邊。3)知識圖譜是對物理世界的一種符號表達。知識圖譜由數據層 (data layer) 和模式層 (schema layer)兩部分構成,大多只有數據層,除非要進行知識推理時候才需要模式層。

知識圖譜有人工構建和機器自動構建兩種方式。見圖 2 知識圖譜自動構建方法:

圖 2 知識圖譜自動構建方法

對於句子級的語義分析,李偉表示主要是通過語義標註來了解句子含義。語義標註首先需要處理最小對象——知識元,也就是詞,需要先了解知識元含義,然後明確知識元聯結方式,二者共同構成句子含義,從而實現句子級語義理解。知識元/詞含義需要有兩個方面工作:分詞和消除歧義,知識元聯結方式包括詞與詞之間關係,還有詞與詞之間的組合方法。見 圖 3 知識圖譜應用於句子級語義理解:

圖 3 知識圖譜應用於句子級語義理解

優化詞嵌入算法,引入知識圖譜,實現分類優化,見圖 4 分詞有序嵌入到詞向量空間中。李偉提出四個方面:一是分詞有序進入到詞向量空間中,要把自然語言轉化到機器語言,這時機器才能對自然語言進行一個理解;二是關鍵詞的提取,運用了TextRank算法;三是利用知識圖譜實體對齊方法,消除分詞歧義,將基於屬性相似性評分匹配問題轉化為分類問題;四是利用基於共同鄰居計數方法的結構相似性函數分辨詞義遠近。

圖 4 分詞有序嵌入到詞向量空間中

基於句子級語義理解,知識圖譜NLP精細化理解文本的方法,李偉提出首先要基於句子級語義分析,結合知識圖譜,精確爬取文本。其次要引入知識圖譜進行第二次文本分類,這也是本研究創新點。句子級語義分析首先要提取出關鍵詞,並找到其對應領域知識圖譜,進行第二次的分類匹配。在第二次細分文本的過程中,首先對文章進行摘要,並定位關鍵詞段落,每一個關鍵詞找到5個三元組,從而建設好知識圖譜。

運用知識圖譜進行二次文本分類即對上述過程進行更具體地細化。首先對文本進行分詞,找到含有歧義的段落,嵌入詞向量空間,通過LSTM進行文本摘要,得到三個以上關鍵詞。通過構建圖譜抽取5個三元組,在與對應領域匹配比對,從而實現文本的第二次分類。見圖 5 引入知識圖譜實現第二次文本精細化分類:

圖 5 引入知識圖譜實現第二次文本精細化分類

在測試結果及改進問題上,李偉與技術專家共同研討後發現,通過自動構建的知識圖譜與文本中的三元組匹配,相似度沒有想像中的那麼高。其誤差原因可能在於運用通用型語言構建圖譜,缺乏針對性。因此需要有更專業的素材來創建領域知識圖譜。最後李偉總結,將知識圖譜結合NLP方法是一條可行的路徑,這個方法在很多其他課題中也同樣適用。

人民網輿情數據中心/人民在線作為國內輿情行業的開創者、領軍者,十餘年來專注於輿情大數據的研究與應用,充分發揮輿情大數據的價值,打造最具公信力的大數據應用平臺。人民在線的「人民雲社會評價科技」是人民網「內容科技」的組成部分,通過人工智慧、區塊鏈、大數據等技術應用,快速、高效、精準地將海量的社會認知,轉化為可定性和定量分析的社會評價。舉辦系列「人民雲社會評價科技大會」旨在構建一個開放共享的交流平臺,推進大數據在社會治理領域的應用,為國家治理體系和治理能力現代化水平的提升貢獻「人民力量」。

(責編:袁勃、李婭琦)

分享讓更多人看到

相關焦點

  • ACM MM | 中山大學等提出HSE:基於層次語義嵌入模型的精細化物體分類
    針對於精細化物體識別,其類別可以按照不同程度進行概念抽象,並形成了層次化的分類結構。這種結構是層級間豐富語義知識的集中體現,如層級間的關聯繫,它可以作為先驗知識規範化語義空間,有效引導和約束深度網絡的學習。近日,中山大學、華南農業大學、電子科技大學以及桂林電子大學聯合研究團隊提出層次化語義嵌入模型,有效利用層次化的分類結構引導網絡特徵學習以及約束其預測空間,在細粒度圖像識別問題上取得最優的性能。
  • 文本分類六十年
    圖1展示出了基於淺層和深度學習的文本分類方法中所涉及的操作步驟的流程圖。文本數據不同於數字,圖像或信號數據。它要求NLP技術具有能夠進行十分精細化處理的能力。而首先重要的一步是對輸入模型的文本數據進行預處理。淺層學習模型通常需要通過人工標註的方法來獲得良好的樣本特徵,然後使用經典的機器學習算法對其進行分類。
  • 前沿|通用句子語義編碼器,谷歌在語義文本相似性上的探索
    近年來,基於神經網絡的自然語言理解研究取得了快速發展(尤其是學習語義文本表示),這些深度方法給人們帶來了全新的應用,且還可以幫助提高各種小數據集自然語言任務的性能。本文討論了兩篇關於谷歌語義表示最新進展的論文,以及兩種可在 TensorFlow Hub 上下載的新模型。
  • 專欄| NLP概述和文本自動分類算法詳解
    文章分類:依據預設分類體系對文本進行自動歸類。 情感分析:準確分析用戶透過文本表達出的情感傾向。 文章主題模型:抽取出文章的隱含主題。 為了實現這些頂層應用,達觀數據掌握從詞語短串分析個層面的分析技術,開發了包括中文分詞、專名識別、語義分析和詞串分析等模塊。
  • 「金猿技術展」文心ERNIE——基於知識增強的語義理解技術
    文心(ERNIE)是一個取得世界級突破的語義理解技術與平臺,依託百度的深度學習平臺飛槳打造,將機器理解語言的水平提升到新的高度,全面刷新了各項NLP任務的世界最好效果,取得了諸多權威語義評測比賽的世界冠軍。除語言理解外,提出的基於多流機制生成完整語義片段語言生成技術ERNIE-GEN、知識增強跨模態語義理解技術ERNIE-ViL等,均達到世界領先水平。
  • 百分點認知智能實驗室出品:情感分析在輿情中的研發實踐(上)
    基於此,潛在的用戶就可以通過瀏覽和分析這些主觀色彩的評論來了解大眾輿論對於某一事件或產品的看法。百分點認知智能實驗室基於前沿的自然語言處理技術和實際的算法落地實踐,真正實現了整體精度高、定製能力強的企業級情感分析架構。
  • 語義分割領域開山之作:Google提出用神經網絡搜索實現語義分割
    自 Google 提出 Cloud AutoML,NAS(Neural Architecture Search,神經網絡架構搜索)也取得重大進展,但更多的是在圖像分類和自然語言處理方面的應用。在過去的一年中,元學習(meta-learning)在大規模圖像分類問題上,性能已經實現超越人類手工設計的神經網架構。
  • 樸素貝葉斯分類器詳解及中文文本輿情分析(附代碼實踐)
    本文主要講述樸素貝葉斯分類算法並實現中文數據集的輿情分析案例,希望這篇文章對大家有所幫助,提供些思路。
  • BERT-Flow | 文本語義表示新SOTA
    ,因為句向量是詞向量的平均池化,是一種保凸性運算,然而這些沒有語義定義的空間使得分布不是凸性的,所以可以認為BERT句向量空間在一定程度上是「語義不平滑的(semantically non-smoothing)」,這導致句向量相似度不一定能夠準確表示句子的語義相似度。
  • 2020年 第1期 | 專題前言:突發事件應急情報分析
    本期的四篇專題論文是教育部哲學社會科學研究重大課題攻關項目「提高反恐怖主義情報信息工作能力對策研究」的階段性成果,從突發事件防控理論研究、輿情監測與畫像、情感分析等多個視角展開研究。《面向企業輿情監測的事件畫像與高危人群預測研究》一文基於事件信息結構表示理論,構建面向企業輿情監測場景的事件畫像體系,通過追溯用戶的歷史行為數據,採用多種語義挖掘算法及邏輯回歸預測模型刻畫事件背後的高危人群特徵,勾勒企業輿情相關的事件特徵以及推動事件進程的關鍵人群特徵。
  • 網約車運力平臺精細化運營下的數據價值思考
    不少平臺更是制定了精細化運營的策略,本文作者就對其數據價值進行了思考。1. 前言本文建立在網約車聚合業務下,運力平臺的精細化運營階段的基礎上,思考數據支撐/數據產品的價值和可落地的切入點。2. 精細化業務方向拆解基於啟動階段的業務經驗,業務在早期可以通過快速開城擴張,得到體量的快速增長,但當達到一定量級後,體驗和安全會成為制約增長的重要因素。
  • 基於人民網新聞標題的短文本自動分類研究
    本文基於人民網觀點頻道中的數據,採用深度學習中的卷積神經網絡(CNN)和循環神經網絡中的長短時記憶模型(LSTM)組合起來,捕捉短文本表達的語義,對短文本自動文本分類進行智能化實現,為新聞網站的新聞分類實現提供參考。
  • 數據挖掘之文本分類技術,最詳細的原理解讀
    寫在前面的話:不要被技術嚇到哦 ,本文儘量寫的白話,致力為從事大數據的運營、諮詢規劃、需求以及想學習大數據的入門者提供知識分享@……@一、文本分類研究的背景 隨著網際網路的發展,非結構化的文本數據急劇增加,(對大數據特徵不夠理解的,參考:還不懂什麼是大數據?
  • 基於Bert和通用句子編碼的Spark-NLP文本分類
    自然語言處理(NLP)是許多數據科學系統中必須理解或推理文本的關鍵組成部分。常見的用例包括文本分類、問答、釋義或總結、情感分析、自然語言BI、語言建模和消歧。NLP在越來越多的人工智慧應用中是越來越重要。如果你正在構建聊天機器人、搜索專利資料庫、將患者與臨床試驗相匹配、對客戶服務或銷售電話進行分級、從財務報告中提取摘要,你必須從文本中提取準確的信息。
  • 大數據環境下,輿情研究方法如何迭代?
    大數據輿情分析面臨著數據量大、維度多樣、結構複雜等問題。研究對象也從受眾個體發展到了受眾之間、傳受之間的複雜網絡關係,甚至雜糅了時間、空間維度等場景化信息。但現有的研究仍以數量統計和詞頻分析為主,難以深入挖掘大數據的潛在價值。 不同維度的數據都需要專業的分析方法,繼而革新了輿情研究的思維方式。基於豐富的輿情分析理論和經驗,科學研究方法才能使輿情研究如虎添翼。
  • 機器不學習:基於深度學習CNN的短文本相似度計算方案
    機器學習深度學習乾貨棧 www.jqbxx.com基於CNN模型的短文本相似度的計算方法可以大致分為兩類:一類是基於Siamese結構的神經網絡模型,先分別學習輸入的文本對兒的句子向量表達,再基於句子向量計算相似度;另一類是直接以詞語粒度的相似度矩陣作為輸入,學習並計算文本相似度。
  • 達觀數據乾貨分享:深度解析文本分類與標籤的應用價值和原理
    訓練過程中,主要用到各類文本分類算法,包括SVM,RF,XGBoost,TextCNN等:(4) 評估和調優,用一個量化指標,比如分類準確率,去評估模型效果,如果效果不好,就需要通過調整算法、補充訓練樣本、調整特徵、規則後處理等手段去優化,直到模型分類準確率達到一定效果,比如85%,再上生產環境運行實際過程中,文本分類的效果取決於訓練樣本的數量和質量、選用的算法和特徵、
  • 百度NLP主任架構師全面講解百度語義表示技術及最新進展
    孫宇,百度NLP主任研發架構師、語義計算技術負責人。本文根據作者在「2019自然語言處理前沿論壇」語義理解主題的特邀報告整理而成。但是這個表示實際上停留在原始詞彙空間,表示的空間大小依然是詞表的維度,只是相對於One-Hot的表示來說更精細,這個方法是基於1954年Harris提出來的「上下文相似的詞,其語義也相似」的假設。
  • 讓機器搞懂100萬種隱含語義,騰訊Peacock大規模主題模型首次全揭秘
    因為MapReduce使用磁碟進行數據交換,同時整個訓練任務需要調度幾百個Jobs,所以基於MapReduce的AD-LDA實現是非常低效的。4.1 文本語義分析圖21 文本分析示例為了理解網際網路上海量、多樣化、非結構化的自然語言描述的文本,我們通常會從詞法、句法、語義等維度進行分析。受限於文本字面信息量小,存在歧義現象,詞法和句法分析容易遭遇 Vocabulary Gap的問題,從海量文本數據中歸納 「知識」,從語義角度幫助理解文本,是一種非常重要的途徑。