關於輿情分析的實例分析,希望給你帶來一些幫助。
前言
距離上次文本挖掘小文章時間已經過了3個月了,北京已經入冬,有人說北京的冬天很冷,但是吃上火鍋很暖;也有人說北京的冬天霧霾嚴重,太幹。這兩句表達的是對北京冬天的情感,即有正面也有負面。
如果在輿情分析而言,我們在做營銷分析,分析產品、活動優劣,或者希望維護品牌PR,我們就需要針對消費者網絡發聲去分析情感,來幫助我們維護品牌,改善活動產品,來達到監測輿情分析效果。換句話說也就是我們今天分享的主題—sentiment
輿情分析思路筆者5年前做輿情分析時候一般來說就是人工輿情,並沒有加入高級點的分析工具減少人工投入。隨著R,python等的流行,同時,隨著各種開源包tm,LDA,Rwordseg開發,以及高等概率數學的應用,例如分詞算法根據隱性馬爾科夫鏈算法編寫而成(有興趣的同學自己研究),讓我們之前的工作量大大減少。因此人工輿情轉換成人工糾正輿情大勢所趨,即我們使用工具減少讀帖子的時間,並且讓機器學習,人工後期糾錯。
一般而言,輿情分析報告分為以下幾個步驟:
前兩個可以作為統計分析-統計時間趨勢音量,音量份額,後兩個可以作為建模分析-主題分析,情感判別。
這裡有個小插曲:上次分享的是主題分析,筆者最近又重新梳理了下LDA,發現tm包中文分詞形成詞頻矩陣很不理想,這會導致LDA無法應用,因此,後續筆者會自己寫個腳本將詞頻矩陣實現,這樣會方便LDA,會方便聚類分析,以及預測分析。
言回正傳,情感分析就是表達發言人對一個主題的看法,有好有壞,或者中立。情感分析應用分類兩類,第一是給定正負面詞,算分值,高於或者低於baseline則表示正面、負面情緒。第二,根據深度學習,利用神經網絡來區分正負情感。本文先實現第一類情感分析。
第一類情感分析:正負面詞典(簡版)讀入文本,數據清理本次還是以上次文本為輸入項,將content_Full 內容做文本處理
清理原則:
去除特殊字符,空值等,例如☆移動平臺☆iOS☆去除轉發的內容,留原作者觀點。例如 保留紅框內的文本,去除後面轉發文本刪除文本過長的內容,內容偏向日記和廣告,減少文本噪聲
比如中文常規字符,『的』『地』『得』『我』等
添加詞彙由於本文是醫用詞彙,需要添加的詞彙偏重醫用或者品牌,不讓分詞拆成單個字符
例如:媽富隆,調經
分詞&詞雲圖文本處理後,根據詞頻出現頻次,且過濾掉分詞為單個詞的中文,繪製詞雲圖,滑鼠所過的詞可以顯示文本出現次數,例如避孕藥:767次
正面詞記1;負面詞為-1,便於之後算分值劃定情感
將文本中的分詞按照中英文詞典的正負面詞打分,計算分值,若中性詞(不出現字典)則記為0。
分值計算原理
情感分值=∑i=1(正面+中性)*(-1)t
i 表示第i句話;t表示出現負面詞的次數
公式表示一句話中若出現偶數負面詞,表示肯定,例如:我其實覺得他沒有那麼不通情達理。 兩次否定:不,沒有,t=2結果正面發聲分類結果:
負面發聲結果
文本挖掘小探索:避孕藥內容主題分析
作者:馮大福,微信公眾號:說說數據分析那些事兒
本文由 @shangyuan 原創發布於人人都是產品經理。未經許可,禁止轉載。
題圖來自unsplash,基於CC0協議
收藏已收藏 | {{ postmeta.bookmark }} 點讚已贊 | {{ postmeta.postlike }}