Voices:LinkedIn了解用戶反饋的文本分析平臺

2020-12-13 199IT

大數據時代,各家公司都在收集更多自由文本格式的非結構化數據,內容從客服對話到市場研究調查均有涵蓋。儘管這些用戶反饋(VOM)包含寶貴的信息,但通常來說,如何大規模對這些數據進行最有效的分析還是比較模糊的。

找出用戶反饋數據的主題非常關鍵,不僅能讓我們了解用戶的擔憂及痛點,還能通過總結洞見以作出更好的商業決策,改進產品及用戶體驗。其中一些典型的案例包括:

  • 在調查淨推薦值(NPS)的市場研究中,我們希望了解用戶向他人推薦品牌或網站的原因,即為公司提高NPS分數的動力是什麼。在NPS調查中,類似「構建網絡」這樣的主題給了我們提示:用戶喜歡能作為有效工具,構建自己社交網絡的網站。
  • 我們希望能從應用的評論中了解用戶的應用體驗,並用以修復問題、改善產品。例如,評論中關於「應用崩潰」的主題表明應用存在著潛在缺陷。
  • 對於客戶服務(CS)郵件來說,最主要的目的是找出報告最頻繁的問題。例如,在客戶服務郵件中「合併帳號」這個詞出現的次數讓我們知道,到底有多少用戶擁有多個個人帳號與資料,以及相應問題的嚴重性。所有這些主題都會按照主體模式及相關操作分類。

文本挖掘又被稱為文本分析,指的是運用高級數據挖掘與自然語言處理技術對非結構化的文本進行計算研究,這項技術在處理上述任務時有很大用處。文本挖掘的關鍵一般包括但不限於:主題挖掘、文本分類、文本聚類以及分類構建。

文本分析這個市場中有很多公司競爭(見下圖),目前有很多可用的供應商及開源工具。既然選擇有這麼多,為什麼我們還要構建自己的解決方案呢?主要的原因在於,我們希望這個解決方案具備可擴展性、靈活性與專注性:首先,由於我們要處理的是來自多個渠道、不同性質的大量數據,因此理想的解決方案應當是可擴展的;其次,由於調研和集成了不同的文本挖掘功能,我們還希望系統具備靈活性;最後,我們希望能專注於某一部分的數據,比如與LinkedIn相關的數據。在決定使用哪一種文本分析平臺時,還需要考慮的其它重要因素包括時間、開發成本以及維護費用。

圖一:文本分析供應商與開源工具

在LinkedIn,我們建立了Voices這個文本分析平臺,通過它訪問關於我們網站和主要產品的用戶反饋非常簡單。Voices聚合了來自內部(比如LinkedIn發布的信息、客戶支持案例、NPS調查結果)及外部(比如來自Facebook、Twitter、新聞、論壇及博客等社交媒體)數據來源的非結構化文本,將來自各種渠道的結構化客戶數據及非結構化文本數據錄入HDFS,再使用一套文本挖掘功能來處理。通過Voices,我們可以從各個角度總結出相關的見解,比如價值定位、產品、情感、見解趨勢還有很多其它的用例。

我們將內部的數據來源與從外部(從社交平臺、在線新聞、博客、論壇等公開數據中所提取的相關信息)獲得的數據進行集成。其它數據屬性,比如地理位置、情緒、用戶細分等方便使用者進行商業方面的深挖,Voices中數據還包括LinkedIn在蘋果商店及Google Play獲得的評論。

在Voices中的文本挖掘

文本挖掘是針對非結構化文本進行計算研究,以理解用戶反饋,並為更好地作出商業決策獲得洞見。如果讓人類執行,需要數年、數百萬量級的文本閱讀量,對於任何公司來說都是無法等待的。因此,我們亟需能對大量的非結構化文本執行文本挖掘的有效、高效的功能。

在Voices,有三個關鍵的文本挖掘組件,見圖二:

圖二:Voices的文本挖掘架構

相關性的解決方案

在社交媒體中處理大量非結構化文本時,找出與LinkedIn、與我們的產品及服務相關的內容是非常關鍵的,而且這一步必須在其它分析開始前完成。在Voices,我們使用機器學習的方式來解決相關問題。基於曾經見過的案例——無論是否與LinkedIn相關,我們建立起模型,然後將學習到的模型應用到新的文檔中,以預測這些文檔各自的相關程度。

分類引擎

為了通過機器學習來完成相關性判斷,我們開發了一個通用的文本分類框架,通過樣例文檔,使用預定義分類的已知標籤(比如已知產品的客戶服務表單列表,或者帶有情感標籤的應用評論列表)構建了支持向量機(SVM)模型,這個模型可以用於預測新文本文檔。這個框架還有很多其它的應用,比如情感分析、產品分類以及價值定位分類。

主題挖掘

與文本分類引擎(以及相關性解決方案)不同,另一個關鍵的文本挖掘組件是主題挖掘。主題挖掘也被稱為主題建模或主題識別,是一種從非結構化文本中提取最重要概念以及相關行為的技術。我們的主題挖掘系統是由多個自然語言處理(NLP)模塊構成的管道,包括:1)詞性(POS)標註;2)詞性模式匹配;3)主題刪減;4)主題排序。這個多模塊管道的核心概念就是,任何一個模塊單獨運用時,所產生的主題混亂且不準確。

我們的方法在諸如論壇討論、小組更新、博客等自然語言中,針對用戶反饋數據的效果良好。系統產生的主題可用於:1)無需人工查看內容,便可理解並使用用戶反饋中的信息;2)對用戶投訴進行分類或者分組,以供客服代表進一步處理;3)識別主題相關的情緒;4)方便搜索用戶投訴;5)為與主題相關的內容產生結論;6)用以實現文本分類功能,以減少功能,並提高效率。

討論

在開發Voices系統時,我們獲得了很多經驗,希望與社區分享。首先,在進行文本挖掘時,我們時常要面對抉擇,包括選擇供應商產品、開源工具以及內部解決方案。不存在萬能的解決方案,權衡關鍵的因素——比如質量、效率、靈活度、可擴展性、成本(包括開發成本與維護成本)非常重要。

其次,我們需要在質量與效率之間作出權衡,例如LDA是一個現成的主題建模方法,但計算花費過高、效率較低。在實踐中,還有更多次優的方法在效率上和擴展性上都更勝一籌。在這些方面有所提高,同時也不會太損失質量的方案在實踐中更受歡迎。

再次,如有可能,我們總是儘可能利用類似Hadoop及Spark這樣的大數據基礎架構來提供真正可縮放的文本挖掘功能。

最後但同樣重要的是可視化,可視化對於顯示文本挖掘的結果也很重要。例如,主題的顯示有許多選項,包括關鍵字雲或主題餅狀圖等。而最佳的可視化解決方案可以快速有效地闡述結果,方便決策制定,這對於產品及用戶體驗的改進都很有好處。

總結

我們構建了一個可擴展的文本分析平臺,通過高級機器學習與自然語言處理技術,實現了創新性的文本挖掘解決方案。通過這樣的平臺,我們得以聆聽社區的反饋意見,為更好的商業決策給出可執行的見解,最終為用戶帶來改善。

英文: Voices: a Text Analytics Platform for Understanding Member Feedback
譯者: 孫薇 @Verawala

來自:InfoQ中文站

相關焦點

  • 在運營中,為什麼文本分析遠比數值型分析重要?一個實際案例,五點...
    在新產品上市前,或者是小規模投放市場後,在社交媒體上對粉絲和潛在用戶的言論進行收集,對其進行文本分析,知道他們喜歡產品的哪些方面,對哪些方面不太滿意,以及他們對產品的其他期望,從而敏捷、快速、準確的對用戶的反饋做出積極的回應。由此可見,有文本分析介入的產品運營流程被「重構」了,如下圖所示。
  • 商業分析中,如何進行文本挖掘
    這場新冠疫情強化了我們直播間購物、短視頻娛樂、微博追熱點等行為,大家是否留意到這些場景中用戶所留下的言語將是一片巨大的商業寶藏。這個時候要是能夠通過實時分析微博、貼吧、直播、評論等海量用戶文本,及時了解全網輿情的整體情況,掌握熱點傳播路徑中、挖掘潛在引爆點與驅動力。這將對我們產品和運營同學調整戰略和戰術起著極大的作用。簡單說來就是追熱點的能力。
  • 斯圖飛騰Stratifyd獲殊榮G2 Crowd文本分析軟體魔力象限外加4.2星...
    全球領先的商業軟體評測機構G2 Crowd發布了2021文本分析軟體魔力象限報告,斯圖飛騰(Stratifyd Inc)憑藉優異的客戶滿意度躋身高成長者象限(High Performer in Text Analytics),其中Stratifyd增強智能數據分析平臺更是獲得了4.2星(滿分5星)的好成績,向市場充分證明了其在數據分析領域的高增長潛力。
  • 技術秘笈:領英6.9億用戶背後,AI如何為招聘者與求職者牽線搭橋?
    目前,這方面的技術已經在各類招聘及職業社交平臺上廣泛應用,使得招聘與求職雙方的用戶體驗都得到了極大的提升。作為全球最大的職場社交網絡,領英(LinkedIn)目前的用戶總量已經達到 6.9 億以上,在中國擁有超過 5000 萬名用戶。對於領英來說,人工智慧技術是如何融入面向眾多招聘者和求職者的日常服務的?
  • 用戶意見反饋平臺-兔小巢
    想知道用戶使用感受,只能找入職的同事打電話問。在想有沒有便攜的方式收集用戶產品意見,就找到了《騰訊兔小巢》這款工具。選擇兔小巢有以下幾點:1、產品免費;2、接入方便,下文有我小程序的接入代碼。3、支持多端接入。截圖是目前支持的接入方式。
  • 質性文本分析方法,你了解嗎?
    資料分析作為重要一環,對於社會科學的研究極為重要。那麼,資料搜集上來了,該如何分析呢? 質性研究作為一種在社會科學領域常使用的研究方法,通常是相對量化研究而言,包含但不限於民族志研究,口述史研究,行動研究,紮根理論研究,個案研究,文本分析等。 其中的文本分析,是從文本的表層深入到文本的深層,從而發現那些不能為普通閱讀所把握的深層意義。
  • 文本情感分析:讓機器讀懂人類情感
    Ku et al. [12]先用SVM來識別作者的意見,再用CRF來標註評價的發出者,在NTCIR7 MOAT 任務上取得了與最好系統接近的性能。雖然在產品評論及社交網絡上都有明確的用戶ID,使評價發出者抽取研究淡化,但是在一些文本中存在描述第三方情感和觀點的情況,需要對其進行抽取。評價對象和評價表達抽取是情感元素抽取任務的核心。
  • Python爬蟲與文本分析應用案例研討會
    比如這次Python爬蟲與文本分析課程,較6月份的那次課程,我們更換了幾乎所有的案例,並在文本分析部分,引入knime軟體做為講解的平臺,整個分析過程都在可視化的環境下進行,通過簡單的拖曳和設置就可以完成一個分析流程的開發(如下圖所示,每個節點都包含一段預先定義好的Python代碼,完成分析流程中的一步),這樣大大降低了學員的理解難度,提高了Python代碼的復用度。
  • 文本分析與可視化
    在這篇文章中,我想描述一種文本分析和可視化技術,它使用一種基本的關鍵字提取機制,只使用單詞計數器從我在http://ericbrown.com [1]博客上創建的文章語料庫中查找前3個關鍵詞。如果你想看一些很酷的主題建模,那就跳過並閱讀如何在Python中挖掘新聞反饋數據和提取交互式見解……[6]這是一篇非常好的關於主題建模和集群的文章,我在本文及以後的文章中也會提到這一點。
  • 穆迪分析ImpairmentStudio?平臺完成2019 SOC 1? 審查
    紐約--(美國商業資訊)--穆迪分析(Moody’s Analytics)今天宣布,作為其當前預期信用損失(Current Expected Credit Loss, CECL)解決方案核心的ImpairmentStudio平臺,已根據美國註冊會計師協會(AICPA)建立的認證標準完成系統與組織控制(SOC 1)第2類審查。 此新聞稿包含多媒體內容。
  • 讀完本文你就了解什麼是文本分析
    二、 理解文本textual data(text as data)  量化後的文本數據,可定量2.1 text as text文本的重點是傳遞著某種東西,從某種意義上說,所有形式的文本都包含可以被視為數據形式的信息。因此,文本總是以某種方式提供信息(即使我們不了解如何操作)。
  • 綜述: 文本分析在市場營銷研究中的應用
    透過新聞報告、歌詞等內容也可以幫助研究者了解社會態度和社會規範,分析有關對女性、少數族裔(Boghrati and Berger 2019; Garg et al. 2018)和特定產業態度的時代變遷(Humphreys 2010)。雖然文本分析並不容易,但企業和組織可以使用社交網絡傾聽民聲。
  • 基於文本挖掘的學習分析應用研究
    文本挖掘一般指從非結構化的文本數據中(例如:文檔、聊天信息和郵件)發現和提取有用的模式、模型、方向、趨勢或者規則[43][44],最終形成用戶可理解的信息與知識的過程。它是語言學、統計學、機器學習、數據挖掘及自動文本處理如信息抽取、信息檢索、文本分類等理論和技術相結合的產物,更多地被用在生命科學研究、政府智能、商業等應用領域。
  • 綜述:文本分析在市場營銷研究中的應用
    透過新聞報告、歌詞等內容也可以幫助研究者了解社會態度和社會規範,分析有關對女性、少數族裔(Boghrati and Berger 2019; Garg et al. 2018)和特定產業態度的時代變遷(Humphreys 2010)。雖然文本分析並不容易,但企業和組織可以使用社交網絡傾聽民聲。
  • 人工智慧和文本分析:遵循的最佳方法
    人工智慧和文本分析使您對業務績效和客戶有深入的了解,使您能夠做出更好的決策。從自動化重複性任務到提供可行的客戶見解,人工智慧可以幫助企業改善收入和用戶體驗。同樣,文本分析會解釋大量數據,以發現消費者趨勢和機會。 文本分析是指分析文本以提取有用的高質量信息的方法。
  • 2016:文本分析、情感分析和社交分析的10大趨勢
    這項技術目前大量地應用於一系列的工業產品中,從醫療健康到金融、媒體、甚至客戶市場。它們從線上、社交網絡、企業數據源中提取商業洞察力。目前分析技術發展得還是相當不錯的,儘管在某些領域,例如數字分析和市場研究有些稍稍落後。但是甚至是在例如「客戶體驗、社群聆聽、用戶交互」方面,還是有很多發展空間。這個快速發展的市場空間無論對於新加入的玩家還是深耕已久的資深人士都意味著大量的機遇。
  • 自動化文本情感分析的基本概念和研究思路
    自動化文本情感分析算法模型現已開放給個人用戶使用啦!中文、英文均可搞定,在界面首頁點擊領取免費的算法額度!本期小編將帶大家一起了解下關於文本數據自動化情感分析的基本知識!隨著主觀性文本的增多,在面對複雜的自然語言時,機器是否能夠做出準確的自我判斷?
  • 深度分析:YouTube、TikTok等海外四大社媒平臺用戶畫像及營銷優劣勢
    海外最大視頻社媒 YouTube 平臺分析、用戶畫像和網紅營銷優劣勢關於 YouTube 你需要了解的基本數據和用戶畫像根據 2019 年 YouTubeInstagram 平臺分析、用戶畫像和網紅營銷優劣勢關於 Instagram 你需要了解的基本數據和用戶畫像1、每月將近 10 億的用戶在使用
  • 常見用戶行為分析模型解析(7)――用戶分群
    間隔分析從事件發生的時間間隔維度來探索用戶行為數據價值,它能夠科學地反映特定用戶群體(如北京地區年齡 30 歲以上女士),發生指定行為事件( 如事件 A 到 B 的轉化、金融用戶的二次投資等)的時間間隔及數據分布情況。不同數據組的偏態和重尾可反饋用戶路徑過程中的應用體驗,並藉此評估產品設置的合理性。
  • 設計有效的「用戶行為與反饋效應」循環
    營養標籤就是為此而生的,通過它,人們可以了解到吃一個蘋果能夠攝取哪些好東西,吃一坨培根會帶來怎樣的問題,等等。解決方案:就像飲食方面的營養標籤,我們也要在產品中以可量化的方式向用戶輸出反饋。不妨嘗試一些可視化的、有可比性的呈現方式,因為人類的大腦比較善於對有形事物的大小、位置等方面的屬性進行比較。