在運營中,為什麼文本分析遠比數值型分析重要?一個實際案例,五點...

2020-12-27 人人都是產品經理

本文是《數據分析中,文本分析遠比數值型分析重要!》的下篇,以一個實際案例來聊聊文本分析在實際運營中如何落地。行為脈絡如下:先簡要講述文本分析的分支—情緒分析的基本原理,然後以亞馬遜的Kindle Voyage的用戶評論作為「情緒分析」的實操分析,最後羅列了幾個實用的文本分析工具,以期對大家有所幫助。

在大數據時代還未來臨前,企業一般根據自身積累的歷史數據,以及一線運營人員的主觀經驗來猜測用戶接下來的反應,以此作為制定後續營銷、運營方案的依據。

然而,在這個VUCA時代(寶潔公司營運長Robert McDonald借用一個軍事術語來描述這一新的商業世界格局,即volatility,易變性;uncertainty,不確定性;complexity,複雜性;ambiguity,模糊性),商業場景的變化速度和複雜程度今非昔比,用戶的喜好也容易受外界「場景」的影響,就如「孩子的臉」和「六月的天」一樣善變,先前積累的經驗往往不足以作為企業下一階段進行市場謀劃和運營的依據。

VUCA時代的特徵

根據《數據運營|數據分析中,文本分析遠比數值型分析重要!(上)》的分析,我們可知,大數據文本分析正是應對上述困局的一劑良方。

(一)

接下來,我們將從理論到實踐,聊聊文本分析是如何應用在商業實踐中的。

1.文本分析重構產品的營銷和運營流程

藉助基於大數據的文本分析,我們可以對用戶行為和想法進行科學分析,使用戶洞察由原來的主觀「猜測」轉變為以數據為驅動的精準預測。在新產品上市前,或者是小規模投放市場後,在社交媒體上對粉絲和潛在用戶的言論進行收集,對其進行文本分析,知道他們喜歡產品的哪些方面,對哪些方面不太滿意,以及他們對產品的其他期望,從而敏捷、快速、準確的對用戶的反饋做出積極的回應。

由此可見,有文本分析介入的產品運營流程被「重構」了,如下圖所示。

有文本分析參與的運營分析邏輯流程

其中,對用戶言論進行文本分析的「精髓」在於對提煉出的文本數據的所表達出的「情緒」的解讀,也就是用戶言論的情緒分析。

在理解文本分析語境下的「情緒分析」前,我們先看看它的一般含義。

2.大數據文本分析中的「情緒分析」是什麼?

先說「情緒」。「情緒」這個詞,在心理學中的一般含義是:對一系列主觀認知經驗的通稱,是多種感覺、思想和行為綜合產生的心理和生理狀態。我們日常中最普遍的情緒就是喜、怒、憂、思、悲、恐、驚,也就是中醫中所說的「七情」。

那麼,「情緒分析」就是有效且準確的識別這些具體的情緒,根據得到的結果,進一步對產生於自身或者他人的情緒採取合理的應對措施(如疏導自身消極情緒、理解他人的反常行為等)。

與此類似,基於大數據文本數據的「情緒分析」,也被業界稱為「觀點挖掘」,它利用多樣化、海量的社會化媒體做客服,藉助數量龐大的社交網絡平衡語料和新聞平衡語料的機器學習模型,對所獲取文本中的情感傾向和評價對象進行提取,使運營者更全面、更深入地了解用戶的「心聲」,掌握用戶對於產品的喜好程度,及用戶視角下的產品優缺點。

值得注意的是,基於大數據文本的情緒分析在於深度分析評論的意義(評論的是事物的哪些方面)以及附帶的情緒傾向(是「褒」是「貶」,還是「中立」),而不是評論本身在說的文字。

下面,筆者將以基於亞馬遜上Kindle Voyage商品評論的文本數據為例,來聊聊文本數據的情緒分析在商業實踐中的運用。

3.「情緒分析」在商業實踐中的正確打開方式

現在,筆者以亞馬遜官網2014年9月份在其平臺上發售的Kindle Voyage電子書閱讀器珍藏限量為例,對其商品評論區的用戶評論進行基於文本數據的「情緒分析」,看看我們能從中得到哪些有價值的insight,以便優化我們的運營工作。

亞馬遜官網上Kindle Voyage電子書閱讀器的商品詳情頁

  • 分析時間段:2014.12.01~2015.06.23
  • 數據來源:亞馬遜官網上Kindle Voyage電子書閱讀器商品評論區
  • 意見領袖總數(評價者):1675人
  • 原始評價:2720條
  • 詳細評價信息(包括對評價的「回應」,即評價的評價,如此循環):4659條

亞馬遜Kindle Voyage電子書閱讀器珍藏限量版評論區

(二)

筆者將從以下5個方面,即用戶聚焦點分析、用戶反饋趨勢分析、用戶情緒分析、用戶反饋分析,以及各地域用戶評級分布及情緒分析,對Kindle Voyage亞馬遜商品評論區的4659條用戶留言/評論進行文本分析。

對Kindle Voyage用戶評論進行文本分析的幾大模塊

1、用戶典型意見分析

大數據文本分析中的「典型意見」是指,將用戶的意見進行單據級別的語義聚合,將內涵相近但表述有差異的意見/看法聚合在一起,抽取出其中典型的用戶反饋/意見,在短時間內迅速梳理出用戶對於產品所關注的話題。

用戶評論的典型意見分析

從上圖可以看出,通過對這些用戶留言的典型意見進行分析,再結合Kindle Voyage的商品詳情描述,我們可以了解到用戶對於Kindle Voyage的評價主要集中在以下7個方面:

  • 捆綁銷售策略(話題1)
  • 限量發售策略(話題2)
  • 屏幕顯示效果(話題3)
  • 原裝配套皮套(話題4)
  • 與其「同族兄弟」kindle Paper White的比較(話題5)
  • 屏幕的亮度自動調節功能(話題6、話題7)
  • 售後客服評價(話題8)

關於用戶對這些話題的具體評價和情緒感受,我們需要做進一步的分析。

2、用戶反饋趨勢分析

用戶反饋趨勢分析曲線展現了文本數據量在時間上的分布情況,可以從宏觀上掌握上述8個話題所對應評論(量)的發展走勢,以便做好及時跟進,發掘出其中有價值的言論。

下圖中,從下至上,依次是話題1到話題8的評論數量隨時間變化的增減趨勢。其中,評論量的大小以圖形面積的大小來呈現。

用戶評論量隨時間軸的變化趨勢

可以看到,這些話題的發布數量的增減走勢基本相同,且在2015-3-1達到評論高峰,2016-1-25達到小高峰,這兩個時間點的前後數天的購買人數激增。然而在2016-4-24這一天商品評論區的總體評論量驟然減少,對於這幾個異常點,運營人員可以調出對於日期的銷售記錄、商品維護日誌等資料找出原因,以便對症下藥,做好後續的運營工作。

3、用戶評價和情緒分析

這部分包含2個模塊,即用戶評價和情緒分析,二者存在一定的正相關關係,也就是說,用戶評價較高,相應的情緒偏正面,反正亦然。

(1)用戶評價分析

用戶評論星級分布表

用戶評價星級佔比圖

從上面2個圖可知,超過63%的用戶對於Kindle Voyage的產品性能是非常滿意的,給出了5顆星的評價;次之的四顆星評價佔到19.15%的比重,以上二者比重之和超過80%,可知Kindle Voyage總體的市場反饋非常不錯。

(2)用戶總體情緒傾向分析

用戶的總體情感偏向

用戶的情感度分布

上圖是用戶對於Kindle Voyage總體情感的儀錶盤,是根據用戶對於Kindle Voyage的文字評論進行情緒傾向分析得出的,能反映消費者對於Kindle Voyage總體態度是肯定還是否定。該儀錶盤分為3個大的方向,即負面情緒、中性情緒和正面情緒,其中暗含的用戶態度就是對產品不滿意、產品一般和產品很不錯。

從上面2個圖可以看出,購買者對於Kindle Voyage以中性評論為主,情感正面值為1.06,總體情感偏向於正面,說明大家對Kindle Voyage的真實看法與評價星級總體傾向是一致的,沒有言不由衷。

4、個體用戶情緒傾向分析

上面的是全體用戶對於Kindle Voyage的總體情緒傾向,但在很多時候,我們想要知道哪些用戶的「發聲」在這些評論中更具代表性。這就需要分析引擎在語義層面上對每個用戶進行重要性排名,從中發掘出有「話語權重」較大的「意見領袖」。

更進一步,我們要對其中單個用戶的情緒態度、評價和所關注的產品方面進行分析,這就涉及到以單個用戶為主體的情緒傾向分析了。

以下2個圖分別關注的是意見領袖(用戶)情緒分析總覽和單個意見領袖(用戶)的詳細情緒分析。從中我們可以看到評論用戶的名稱、評論的數量、情緒是屬性及相應的情緒數值。

用戶(意見領袖)情緒分析總覽

如果我們想對某個重要用戶的情緒進行詳細分析,我們可以點開這個用戶的詳細資料,進行深入的分析。如下圖所示:

單個意見領袖(用戶)的詳細情緒分析

從上圖中我們可以了解到為什麼該用戶對Kindle Voyage持正面態度(正面情緒用紅色顯示)了—下面的正面關鍵詞雲顯示出該用戶對Kindle Voyage的手感、屏幕顯示和做工質量很滿意。此外,在「焦點概覽」裡,我們可以了解到類似的評論有8條,在哪個時間節點達到峰值。

在進行上述分析後,我們還需要進一步讀懂評論區的全體用戶對Kindle Voyage的反饋,知道用戶喜歡它的哪些方面,對哪些方面還不是太滿意,以及這些(不)滿意的方面的程度如何,這是「情緒分析」中的重中之重。

所以,我們需要進行下一步分析——用戶反饋分析。

5、用戶反饋分析

這部分的原理是,從眾多用戶評論中提取出跟產品屬性相關且有代表性的關鍵詞,並進行相似文本聚類,然後給出相應權重,最後匹配相應的情緒屬性和情緒值。最終的結果使得運營者擁有了用戶視角,知曉產品有哪些地方表現尚可,哪些地方反映平平,而哪些地方是需要進行改進和完善的。

下圖是用戶對於Kindle Voyage使用後的評論中提取並聚類的關鍵詞雲,其中文字大小代表該詞的權重(重要程度和詞頻),字體顏色表明該詞的情緒偏向(紅色是正面評價,灰色是中性評價,藍色是負面評價)。

用戶的對於Kindle Voyage評論的主要關注點

根據關鍵詞及其重要程度排名,筆者找到了用戶滿意的幾個方面:

  • 屏幕顯示效果良好,這一點用戶很是認可,「顯示效果」、「解析度高」、「看著舒服」、「字跡清晰」等關鍵詞顯示較大,此類評價的用戶居多;字體為紅色,表明用戶反映的情感正面積極。
  • 產品(及周邊)質量不錯,體現在「做工精細」、「續航能力」、「原裝皮套」、「值得擁有」、「Ipad Mini(那樣的做工)」、「實體翻頁鍵(不錯)」、「一分錢一分貨」等關鍵詞上。
  • 「限量珍藏版「這個概念牌打得好,用戶也願意為此買單,這主要體現在「限量珍藏版」這個詞頻較高且為紅色的關鍵字上。

另一方面,運營方也要及時了解用戶的負向反饋,針對性地改進服務質量。

還好,在這裡只出現了「壓敏按鍵」這些負面詞彙,點開「壓敏按鍵」一詞,看到用戶的詳細吐槽……「壓敏按鍵在按下的時候出現下陷情形……」雖然這樣的反饋不多,但仍要引起高度警惕,具體排查是產品本身的設計問題,還是極個別的產品質量問題,並將此反饋傳遞給相關負責部門。

6、地域評分和情緒分析

將用戶的反饋數據和評分同步到地圖上,通過形成的數據地圖可以直觀的看到各地對於Kindle Voyage的評價和情緒度,從而對整體的用戶反饋情況進行監控,重點「關照」其中的用戶差評「重災區」。

此處選取的是Kindle Voyage在江蘇省各市的用戶反饋數據,反映出該地區Kindle Voyage用戶對於產品的評價及情緒傾向性。

其中,數值代表評分高低,顏色反映情緒值,綠色代表良好,藍色是一般,紅色代表處於警報狀態,需要重點關注,排查問題發生的具體原因。

江蘇省各市Kindle Voyage用戶的評分及情緒度分布

這裡可以看到,徐州市、連雲港市等城市的用戶反饋良好,反映在評分較高,且顏色為綠色。然而,淮安市、鎮江市和南京市的Kindle Voyage用戶卻非常不滿意,評分較低且情緒度處於紅色警報狀態,需要引起客戶體驗部門的高度重要,做好用戶情緒疏導和公關工作。

結語

從上面的實例中,我們可以體會到大數據文本分析對於產品、設計、營銷和運營的巨大價值,它的重要性不亞於傳統的結構性數據分析。用正確的方式閱讀這些海量的文本數據,我們就可以直接讀懂用戶的想法,獲得強有力的決策支持,從而使產品研發、營銷推廣和日常運營更貼近消費者需求,最終在用戶心中形成良好的品牌形象。

#專欄作家#

蘇格蘭折耳喵,微信公眾號:Social Listening與文本挖掘,人人都是產品經理專欄作家。數據PM一隻,擅長數據分析和可視化表達,熱衷於用數據發現洞察,指導實踐。

本文原創發布於人人都是產品經理。未經許可,禁止轉載。

相關焦點

  • 文本型數字與數值型數字
    「文本型數字」與「數值型數字」的不同是「文本型數字」不可以進行計算,而「數值型數字」則可進行各類計算。1.   認識文本型數字格式「文本型數字」格式是比較特殊的數字格式,它的作用是設置單元格數據為「文本」性質。設置為文本格式的單元格,在單元格中輸入數字時會完整顯示,而非文本型單元格(常規格式)中輸入超過15位的數字,Excel將識別為數值型數字,在單元格中的數值15位後面數字將變成0。
  • Python爬蟲與文本分析應用案例研討會
    會議主題Python爬蟲與文本分析應用案例研討會   會議目標   本課程將主要講解Python爬蟲技術採集數據,並使用文本分析的技術來解決一些市場研究,尤其是產品研究中的一些具體問題,比如產品提及、產品評價、品牌形象等。
  • 商業分析中,如何進行文本挖掘
    而傳統的調研方法雖然可以回答「為什麼」,但時間成本高、較難及時進行熱點事件背後的洞察。我的好友吳亦凡在這篇文章中,提供了一種通過文本挖掘得出商業洞察的方法,簡單易上手,又極具價值。本文將從商業分析的視角來介紹文本挖掘的實際應用場景,以及一項完整的文本挖掘流程。本篇的重點以「器」的角度,介紹我珍藏的幾款文本挖掘工具,手把手教你製作一個精美的個性化詞雲。
  • 相對數值在數據分析中的運用
    編輯導語:在進行數據對比時,我們會用到相對數值的概念,相對數值可以明確我們在不同對象之間的關係;所以在數據分析中,我們經常會用到相對數值;本文作者分享了關於相對數值在數據分析中的運用,我們一起來看一下。
  • EXCEL中如何實現文本與數值型數字格式的自由轉換?
    小琪說著,便選擇好數據,然後在「設置單元格格式對話框中,將單元格的格式由「文本」,改成了「數值」。設置完成後,一瞧,數字沒有任何改變。這時,小琪又在某個數字所在的單元格上雙擊了一下,原來的文本型數字才變成了數值型數字。「小琪,你這也是個方法,可以如果數字很多,難道你要一個個雙擊嗎?」
  • 作為一個合格的「增長黑客」,你還得重視外部數據的分析!
    由此,我們必須對企業之外的外部數據引起重視,尤其是外部數據中的非結構化文本數據。 對於文本數據的重要性,筆者已在之前的文章中有過詳細的論述,詳情請參看《數據運營|數據分析中,文本分析遠比數值型分析重要!(上)》。
  • 乾貨|作為一個合格的「增長黑客」,你還得重視外部數據的分析!
    對外部數據中的分析很重要經過上面對四種數據分析類型的描述,筆者認為現有的基於企業內部數據的數據分析實踐存在如下幾類特徵:大多數的數據分析僅停留在描述性數據分析上,未觸及數據深層次的規律,沒有最大限度的挖掘數據的潛在價值;數據分析的對象以結構化的數值型數據為主,而對非結構化數據,尤其是文本類型的數據分析實踐則較少
  • 遊戲運營案例來深入淺出數據分析&挖掘
    數據只有依附在實際業務上,才能從概念轉化成具有實體意義的內容。2. 將數字轉化為結論數據分析是一個分析+探索的過程。我們有時是帶著問題和假設去分析、驗證,有時是純粹地在數據中探索,但無論怎樣的形式,我們都需要數據將我們導向一個理性的結論。
  • 連享會直播課:文本分析-爬蟲-機器學習
    在傳統的經濟和金融分析中,我們使用的主要是結構化的數據 (多數數據來源於統計年鑑、商業資料庫,如 GTA,Wind 等),而在大數據時代,大量有價值的信息以文本等非結構化、異構型的數據格式存儲於網際網路網頁或者各類文檔中。從 Web 上快速、有效地提取這些信息對人文社會科學的深度研究尤為重要。
  • 案例分析:用「新4C」來拆解一個實際的案例
    今天,我們用上周講的「新4C」來拆解一個實際的案例。如果忘了什麼是新4c的小夥伴可以看上周文章連結: 《新4C:低成本引爆社群的秘籍》。一、案例先看一段採訪,內容來自梨視頻:《日銷上百單!女大學生課餘賣水果:最初是為了減少花銷!》。
  • 英語閱讀教學中文本解讀案例分析
    【案例一】教學內容源於外研版《英語》選修6 Module 3 Interpersonal Relationships —— Friendship中的第一課時Reading and Vocabulary —— Roy's Story。該課文講述了一個與人際關係有關的故事。
  • 連享會-文本分析與爬蟲專題
    在傳統的經濟和金融分析中,我們使用的主要是結構化的數據 (多數數據來源於統計年鑑、商業資料庫,如 GTA,Wind 等),而在大數據時代,大量有價值的信息以文本等非結構化、異構型的數據格式存儲於網際網路網頁或者各類文檔中。從 Web 上快速、有效地提取這些信息對人文社會科學的深度研究尤為重要。
  • 【R案例】R語言中的情感分析與機器學習
    在R語言中,由Timothy P.Jurka開發的情感分析以及更一般的文本挖掘包已經得到了很好的發展。你可以查看下sentiment包以及夢幻般的RTextTools包。實際上,Timothy還寫了一個針對低內存下多元Logistic回歸(也稱最大熵)的R包maxtent。然而,RTextTools包中不包含樸素貝葉斯方法。e1071包可以很好的執行樸素貝葉斯方法。
  • Excel數值型數字和文本型數字轉換,數字類型轉換就這麼簡單
    數值型數字:可以用於計算的數字。文本型數字:不可直接用於計算的數字。很簡單,看能不能直接進行計算即可輕鬆區分它們。我們可以到下圖使用SUM函數分別對數值型數字和文本型數字進行計算,數值型會得到正確的結果,而文本型計算的結果為0。
  • 關注可視化文本分析中的技術優勢——基於全國教育科學規劃教育技術類課題的命題分析
    基於全國教育科學規劃教育技術類課題的案例研究驗證了這些優勢,且這一做法正逐漸引發業內的研究關注,成為一大發展趨勢。案例研究還發現:受中文自然語言處理技術還不夠成熟的影響,可視化文本分析在中文文本應用中還比較有限,在分詞、工具選用以及分析深度等方面還存在不足。
  • 數據分析案例及新手如何學習數據分析
    >數據分析常見作用之案例三:修正方向 數據分析常見作用之案例四:輔助決策 數據分析常見作用之案例五:了解現狀 數據分析常見作用之案例五:了解現狀 運營店鋪時,對店鋪的發展狀態儘可能掌握,是運營人員能夠操控店鋪局面的一個必要前提
  • Excel文本型數字轉數值的方法
    問題情景很多時候,我們從系統中導出的數據,表面上看起來是數值,但卻不能計算,如下動圖:這些「數值」,根本上是文本。
  • 《孔乙己》文本解讀綜述與教學案例分析
    據統計分析,以上課例教學內容的實踐主要從如下兩個方面展開:第一,通過分析孔乙己的人物形象和性格特徵,走進文本,從不同角度選取教學內容,感受孔乙己命運變化,從而幫助學生達到理解小說主題的目的。這一類的教學案例在其中佔大多數。從對小說故事情節的梳理入手整體感知孔乙己的人物形象,讓學生明白孔乙己是一個好吃懶做、死要面子、迂腐不堪卻也是內心善良的舊時代讀書人。
  • 對應分析介紹及SPSS案例分析
    它是於1970年由法國統計學家J.P.Beozecri提出來的,起初在法國和日本最為流行,後來引入到美國,是在R型和Q型因子分析基礎上發展起來的一種多元統計方法。簡單對應分析是分析某一研究事件兩個分類變量間的關係,其基本思想以點的形式在較低緯的空間中表示列聯表的行和列中各元素的比例結構,可以在二維空間更加直觀的通過空間距離反映兩個分類變量間的關係。
  • 4天直播-連享會-文本分析與爬蟲專題
    在傳統的經濟和金融分析中,我們使用的主要是結構化的數據 (多數數據來源於統計年鑑、商業資料庫,如 GTA,Wind 等),而在大數據時代,大量有價值的信息以文本等非結構化、異構型的數據格式存儲於網際網路網頁或者各類文檔中。從 Web 上快速、有效地提取這些信息對人文社會科學的深度研究尤為重要。