文本挖掘:避孕藥主題情感分析

2021-01-10 人人都是產品經理

關於輿情分析的實例分析,希望給你帶來一些幫助。

前言

距離上次文本挖掘小文章時間已經過了3個月了,北京已經入冬,有人說北京的冬天很冷,但是吃上火鍋很暖;也有人說北京的冬天霧霾嚴重,太幹。這兩句表達的是對北京冬天的情感,即有正面也有負面。

如果在輿情分析而言,我們在做營銷分析,分析產品、活動優劣,或者希望維護品牌PR,我們就需要針對消費者網絡發聲去分析情感,來幫助我們維護品牌,改善活動產品,來達到監測輿情分析效果。換句話說也就是我們今天分享的主題—sentiment

輿情分析思路

筆者5年前做輿情分析時候一般來說就是人工輿情,並沒有加入高級點的分析工具減少人工投入。隨著R,python等的流行,同時,隨著各種開源包tm,LDA,Rwordseg開發,以及高等概率數學的應用,例如分詞算法根據隱性馬爾科夫鏈算法編寫而成(有興趣的同學自己研究),讓我們之前的工作量大大減少。因此人工輿情轉換成人工糾正輿情大勢所趨,即我們使用工具減少讀帖子的時間,並且讓機器學習,人工後期糾錯。

一般而言,輿情分析報告分為以下幾個步驟:

前兩個可以作為統計分析-統計時間趨勢音量,音量份額,後兩個可以作為建模分析-主題分析,情感判別。

這裡有個小插曲:上次分享的是主題分析,筆者最近又重新梳理了下LDA,發現tm包中文分詞形成詞頻矩陣很不理想,這會導致LDA無法應用,因此,後續筆者會自己寫個腳本將詞頻矩陣實現,這樣會方便LDA,會方便聚類分析,以及預測分析。

言回正傳,情感分析就是表達發言人對一個主題的看法,有好有壞,或者中立。情感分析應用分類兩類,第一是給定正負面詞,算分值,高於或者低於baseline則表示正面、負面情緒。第二,根據深度學習,利用神經網絡來區分正負情感。本文先實現第一類情感分析。

第一類情感分析:正負面詞典(簡版)讀入文本,數據清理

本次還是以上次文本為輸入項,將content_Full 內容做文本處理

清理原則:

去除特殊字符,空值等,例如☆移動平臺☆iOS☆去除轉發的內容,留原作者觀點。例如 保留紅框內的文本,去除後面轉發文本

刪除文本過長的內容,內容偏向日記和廣告,減少文本噪聲

比如中文常規字符,『的』『地』『得』『我』等

添加詞彙

由於本文是醫用詞彙,需要添加的詞彙偏重醫用或者品牌,不讓分詞拆成單個字符

例如:媽富隆,調經

分詞&詞雲圖

文本處理後,根據詞頻出現頻次,且過濾掉分詞為單個詞的中文,繪製詞雲圖,滑鼠所過的詞可以顯示文本出現次數,例如避孕藥:767次

載入正負詞典

正面詞記1;負面詞為-1,便於之後算分值劃定情感

計算情感得分

將文本中的分詞按照中英文詞典的正負面詞打分,計算分值,若中性詞(不出現字典)則記為0。

分值計算原理

情感分值=∑i=1(正面+中性)*(-1)t

i 表示第i句話;t表示出現負面詞的次數

公式表示一句話中若出現偶數負面詞,表示肯定,例如:我其實覺得他沒有那麼不通情達理。 兩次否定:不,沒有,t=2結果

正面發聲分類結果:

負面發聲結果

後續改進:將詞頻矩陣腳本改寫,重現LDA 或者 聚類對文本先人工預判,將此打分進行 confusion matrix,評估分類器目測而言負面分類基本正確,正面分類中包含很多中性發聲,需要進一步剔除研究深度學習重現下情感分析相關閱讀

文本挖掘小探索:避孕藥內容主題分析

 

作者:馮大福,微信公眾號:說說數據分析那些事兒

本文由 @shangyuan 原創發布於人人都是產品經理。未經許可,禁止轉載。

題圖來自unsplash,基於CC0協議

收藏已收藏 | {{ postmeta.bookmark }} 點讚已贊 | {{ postmeta.postlike }}

相關焦點

  • 基於文本挖掘的學習分析應用研究
    本文首先描述了學習分析、文本挖掘的概念,通過文獻分析法,對國內外採用文本挖掘技術的學習分析研究現狀進行了綜述;其次,介紹了學習分析中文本挖掘的數據來源、方法和工具;最後主要從課程評價支持、學習者知識能力測評、學習共同體分組、學習行為危機預警、學習效果預測和學習狀態可視化6個方面闡述了文本挖掘應用於學習分析中的具體實例,並對未來作進一步的展望和探討。
  • 商業分析中,如何進行文本挖掘
    我的好友吳亦凡在這篇文章中,提供了一種通過文本挖掘得出商業洞察的方法,簡單易上手,又極具價值。本文將從商業分析的視角來介紹文本挖掘的實際應用場景,以及一項完整的文本挖掘流程。本篇的重點以「器」的角度,介紹我珍藏的幾款文本挖掘工具,手把手教你製作一個精美的個性化詞雲。
  • 「首席架構師推薦」文本挖掘軟體列表
    Angoss文本分析通過嵌入式提供實體和主題提取、主題分類、情感分析和文檔摘要功能AUTINDEX -是Saarbrucken應用信息科學研究所開發的一個基於複雜語言學的商業文本挖掘軟體包。Clarabridge文本分析(文本挖掘)軟體,包括自然語言(NLP),機器學習,集群和分類。提供SaaS,託管和現場文本和情感分析,使公司能夠收集,聽取,分析,並採取行動,對客戶的聲音(VOC)從外部(Twitter, Facebook, Yelp!內部資源(呼叫中心notes、CRM、企業數據倉庫、BI、調查、郵件等)。
  • 自動化文本情感分析的基本概念和研究思路
    自動化情感分析的研究思路和應用領域又是什麼?本文結合研究團隊多年豐富的經驗和應用,從文本情感分析技術/方法應用的理解角度進行分享,歡迎讀者們批評指正。什麼是文本情感分析文本的情感分析(sentiment analysis)的目的是在於了解作者在特定文本中的情感態度,這些態度反映了作者在撰寫該文本時的個人情緒狀態,或是意圖經由該文本向讀者所傳達的情感。
  • python的中文文本挖掘庫snownlp進行購物評論文本情感分析實例
    現在研一,機器學習算法學完以後,又想起來要繼續學習文本挖掘了。所以前半個月開始了用Python進行文本挖掘的學習,很多人都推薦我從《python自然語言處理》這本書入門,學習了半個月以後,可能本科畢業設計的時候有些基礎了,再看這個感覺沒太多進步,並且這裡通篇將nltk庫進行英文文本挖掘的,英文文本挖掘跟中文是有很大差別的,或者說學完英文文本挖掘,再做中文的,也是完全懵逼的。
  • 2016:文本分析、情感分析和社交分析的10大趨勢
    這項技術目前大量地應用於一系列的工業產品中,從醫療健康到金融、媒體、甚至客戶市場。它們從線上、社交網絡、企業數據源中提取商業洞察力。目前分析技術發展得還是相當不錯的,儘管在某些領域,例如數字分析和市場研究有些稍稍落後。但是甚至是在例如「客戶體驗、社群聆聽、用戶交互」方面,還是有很多發展空間。這個快速發展的市場空間無論對於新加入的玩家還是深耕已久的資深人士都意味著大量的機遇。
  • 文本挖掘入門課:主題模型讓文本數據處理更幸福
    全文共3480字,預計閱讀時長7分鐘在解決自然語言處理的問題上,有一種文本挖掘的方法叫做主題模型
  • 文本情感分析:讓機器讀懂人類情感
    賦予機器情感分析能力引起了社會的廣泛關注,研究領域也開展了很多相關的研究工作。科幻電影《她》中人工智慧系統和主人公談戀愛的故事,激發了人們對機器具有人類情感的無限想像。那麼,機器是怎樣理解人類情感呢?通常來講,機器理解人類情感是一個多模態的感知過程,通過表情、行為、語言來理解情感。語言通常以文本的形式存在,本文主要是從文本的角度討論情感分析的研究。
  • Voices:LinkedIn了解用戶反饋的文本分析平臺
    所有這些主題都會按照主體模式及相關操作分類。文本挖掘又被稱為文本分析,指的是運用高級數據挖掘與自然語言處理技術對非結構化的文本進行計算研究,這項技術在處理上述任務時有很大用處。文本挖掘的關鍵一般包括但不限於:主題挖掘、文本分類、文本聚類以及分類構建。文本分析這個市場中有很多公司競爭(見下圖),目前有很多可用的供應商及開源工具。
  • 英文文本挖掘預處理流程總結
    ,我們總結了中文文本挖掘的預處理流程,這裡我們再對英文文本挖掘的預處理流程做一個總結。英文文本挖掘預處理三:拼寫檢查更正由於英文文本中可能有拼寫錯誤,因此一般需要進行拼寫檢查。如果確信我們分析的文本沒有拼寫問題,可以略去此步。拼寫檢查,我們一般用pyenchant類庫完成。pyenchant的安裝很簡單:"pip install pyenchant"即可。
  • 從海量金融文本中挖掘價值信息,華為雲助力企業風控與輿情分析
    如何從海量的金融文本中快速準確地挖掘出關鍵信息一直是金融領域研究的熱點,其效果好壞對投資者和決策者有至關重要的影響,其難點在於如何識別出海量文本中針對不同實體的報導的正負面,核心技術是實體級情感分析,而這也成為了本次大賽「金融信息負面及實體判定」賽道的重點解決問題。
  • 2018年6月份Python網絡爬蟲與文本挖掘
    其研究內容涉及:科技金融(基於機器學習的選股策略研究,信用逾期預測)圖像分析理解,文本分析,智能硬體,數據挖掘、機器學習、手寫識別等內容。曾獲得過ImageCLEF2012 Photo annotation task國際圖像分類競賽中獲得第一名,ImageCLEF2015 Scalable Concept Image Annotation Task(text-base) 第四名。
  • 看看如何用Python進行英文文本的情感分析
    數據科學在數值領域中很常見,但這個不斷壯大的領域現在也可以應用於非數值數據,比如文本。本文將探索一些理解文本數據的關鍵算法,包括基本文本分析、馬爾可夫鏈和情感分析。許多數據(比如文本)是非結構化的,需要採用不同的機制來提取洞察。文本分析或文本數據挖掘是採用各種方法從文本中獲取信息的過程。
  • 乾貨丨文本挖掘二三式
    Web中99%的可分析信息都是以文本形式存在的,一些機構內90%的信息也是以文本形式存在的。社交媒體的興起讓網際網路的信息更加豐富,不僅有一般媒體的新聞、企業的信息還有用戶產生的內容,其中包括大量的評論信息。對這些文本信息進行挖掘具有非常重要的意義,可以用於客戶反饋分析、品牌聲譽分析、信息預測等方面。
  • R從網頁抓取到文本分析全教程:影評的獲取與分析
    作者:鄭連虎,在數學學院取得理學學位的文科生,中國人民大學碩博連讀生在讀,山東大學管理學學士、理學學士
  • 不用專業詞典,電力領域文本挖掘有多難?
    在電力領域,文本挖掘技術應用也在逐步落地推進,尤其在輔助業務優化、助力精益管理和推動服務轉型等方面展示出有著越來越重要的作用,是新環境下電力企業智能化發展所需。目前,在文本挖掘技術類別中,各行業應用較為普遍的是文本分類、自動文摘以及文本聚類等。當下,電網公司對業務數據也主要是集中在結構化數據的統計和分析,而這些方法無法直接應用在非結構化文本數據中,更無法對其中隱含的價值規律進行深度挖掘。
  • ​文本挖掘從小白到精通(二十一)如何使用造好的輪子快速實現各項文本挖掘任務
    text = '''文本挖掘主要有哪些功能達觀數據擁有多年的自然語言處理技術經驗,掌握從詞語短串到篇章分析各層面的分析技術,在此基礎之上提供以下文本挖掘功能:* 涉黃涉政檢測:對文本內容做涉黃涉政檢測,滿足相應政策要求;* 垃圾評論過濾:在論壇發言或用戶評論中,過濾文本中的垃圾廣告,提升文本總體質量;* 情感分析:對用戶評論等文本內容做情感分析
  • 讀完本文你就了解什麼是文本分析
    關鍵是,為了將文本作為數據 而不是文本僅僅是文本,我們必須破壞原始文本的直接可解釋性,但目的是從其樣式化特徵中進行更系統,更大規模的推斷。我們應該堅定不移地認識到這一過程,但也不要因此而寢食不安,因為將文本作為數據進行分析的重點永遠不是解釋數據而是挖掘其深層次的模式。數據挖掘是一個破壞性的過程-隨便問問哪個礦山-為了開採其寶貴資源,開採礦產資源不可避免會破壞地表形態和環境。
  • 一文看懂什麼是文本挖掘
    文本挖掘指的是從文本數據中獲取有價值的信息和知識,它是數據挖掘中的一種方法。文本挖掘中最重要最基本的應用是實現文本的分類和聚類,前者是有監督的挖掘算法,後者是無監督的挖掘算法。文本挖掘是一個多學科混雜的領域,涵蓋了多種技術,包括數據挖掘技術、信息抽取、信息檢索,機器學習、自然語言處理、計算語言學、統計數據分析、線性幾何、概率理論甚至還有圖論。
  • Python爬蟲與文本分析應用案例研討會
    會議主題Python爬蟲與文本分析應用案例研討會   會議目標   本課程將主要講解Python爬蟲技術採集數據,並使用文本分析的技術來解決一些市場研究,尤其是產品研究中的一些具體問題,比如產品提及、產品評價、品牌形象等。