達觀數據乾貨分享丨情感分析架構演進

2021-01-11 CSDN技術社區

在網際網路日益發達的今天,許多用戶不管是通過電商網站或者線下門店購買商品後,包括買車、買手機,都會到品牌官網或者一些專業網站甚至社交媒體去發表對產品的評價。對於買家來說,評論是了解一款產品真實情況的重要途徑。對於商家而言,評論則是了解客戶反饋、了解產品的優勢和潛在問題的第一手渠道。但對於評論數據的挖掘並不是簡單到可以信手拈來,首先一個產品往往會有非常大量的評論,買家和賣家都不可能仔細閱讀每一條評論從而得到對於一個產品的整體認知。利用計算機,利用算法自動對評論進行分析挖掘,是解決這個問題的最有效途徑。其次,這些評論會涉及產品各方各面非的屬性,用戶有的說好有的說不好,即使表達相同意思也會有不同的表述。以我們的經驗,要完美解決評論的觀點挖掘問題,需要一套高複雜度的系統架構。達觀數據基於在自然語言處理、機器學習算法和文本挖掘領域的多年技術積累,融合文本標籤提取、文本分類和情感分析,打造了針對產品評論的觀念挖掘服務,幫助用戶從海量評論數據中提煉出核心觀點,從而對產品的真實情況一目了然。

 

 

圖 1 達觀針對某款汽車的評論觀點挖掘

觀點挖掘基礎——情感分析

情感分析是文本挖掘的重要基礎分支,也是評論挖掘的關鍵技術,不管是買家還是賣家,首先都是想知道評論是說產品好還是不好,以及比例是多少。本篇將著重講解情感分析在達觀的實現架構和經驗。情感分析可以看做一個二分分類問題,即將表達正面情感的文本作為類別「1」,以負面情感文本作為類別「0」。

規則算法——樸素思路的啟示

最樸素的情感分析實現方式是基於情感詞典和規則,大致分為三個步驟:

1. 分詞:分詞是中文自然語言處理的基礎,即把一個句子精確切分成一個個詞語。中文分詞長期以來都是文本挖掘領域的重要研究領域,因為一旦分詞錯誤,會直接導致上層文本挖掘功能的性能下降。達觀目前使用自助研發的一套內部分詞系統,也是經過了長期打磨才能為上層文本功能提供基礎的效果保證。因為分詞算法不是本文重點,在此不做展開。

2. 設置情感詞典:情感詞典一般包括5個詞典,即正面情感詞典、負面情感詞典、否定詞典、程度副詞詞典和行業情感詞典。正面和負面情感詞典很好理解,比如「高興」、「悲傷」等等。否定詞典例如「不」,會使情感產生逆轉。程度副詞比如「非常」、「極其」等,會對情感有增強作用,最終影響整個短語或句子的總體情感傾向。另外還有行業情感詞典,即只在某些特定領域具有情感傾向的詞,比如對於汽車,「塑料感」、「底盤硬」其實是表達負面情感。

3. 基於規則匹配:基於分詞和情感詞典,即可以根據人們平時的語言表達習慣設置一些規則來計算文本的情感傾向,比如每遇到一個正面情感詞則+1分,遇到負面情感詞則-1分,遇到否定詞則乘以-1將情感反轉,遇到程度副詞則將情感分數乘以一個放大係數。最後根據計算出的分數判斷情感傾向,分數為正數則判斷為正面情感,負數則判定為負面情感,正負相抵則判定為中性。

 

 

圖 2 基於規則的情感分析

基於規則的方法的好處是不需要標註好的訓練數據,但是可擴展性非常差,需要人工一個個配詞典加規則,才能識別足夠多的情感傾向,並且需要完全精確匹配,因此召回率比較差。同一個含義人可以有很多種表述方式,尤其在情感分析領域,常常出現雙重否定等複雜句式,規則必須設計得足夠複雜才能進行識別。此外,當配的規則比較多的時候,不同規則往往會發生互相衝突,這時候情感分析結果就不可控了,會導致準確率下降。

特徵工程+機器學習——長久以來的業界標杆

鑑於規則算法有這麼明顯的缺陷,在過去很長的一段時間裡,主流情感分析算法都是基於機器學習算法,比如基於Logistic Regression、SVM、隨機森林等經典算法。機器學習可行的前提是要收集和標註訓練數據集。目前網際網路上也有很多公開語料可以使用。相比基於規則的方法,機器學習算法多了2個步驟:特徵提取和模型訓練。

 

 

圖 3 特徵工程+機器學習方法

1. 特徵提取:文本挖掘領域最常用的也是最簡單的特徵是詞袋模型(bag of words),即將文本轉換為基於詞語的一個向量,向量的每一維度是一個詞語,詞語可以基於分詞得到,也可以基於N-Gram模型得到。每一維度的特徵取值也可以有多種計算法方式,比如經典的one-hot編碼和tf-idf值。

2. 模型訓練:基於文本的標註類別和提取好的特徵向量,即可以使用機器學習算法進行訓練,模型訓練完成之後即可用於判別文本的情感傾向。

 

 

圖 4 詞袋模型特徵提取

相比基於規則的方法,機器學習方法在可擴展性和適應性方面有著質的飛躍,只需要準備好標註數據,設計好特徵提取方法,模型可以自動從數據中學習出一個複雜的高維分類模型實現情感分析。

然而,基於傳統機器學習的情感分析方法也有一定的局限性,其效果主要取決於特徵工程,即提取的特徵是否能足夠好的區別正面和負面情感。在相同的特徵下,如果只使用簡單分類器,那選擇不同的分類算法,效果差別不會太大。

要做好特徵工程,非常依賴於人的先驗知識,即需要我們對數據進行足夠深入的觀察和分析,把那些對區分正負面情感最有用的特徵一個一個找出來。

特徵工程做深入了也需要依賴情感詞典和規則方法,但不是直接判定文本的情感傾向,而是將規則命中的結果作為一維或者多維特徵,以一種更為「柔性」的方法融合到情感分析中,擴充我們的詞袋模型。

在達觀文本挖掘服務,傳統機器學習方法仍佔據一定比重,尤其是在數據量相對小的情況下。目前針對多個行業的文本數據,我們都有對應的行業詞典和特徵工程算法。而且在分類算法方面,運用了達觀自主研發的多模型融合算法,情感分析的效果可以達到業界較高水平,相比單模型算法效果可以提升10%。

 

 

 

圖 5 達觀文本挖掘技術框架

深度學習——大數據時代的新銳力量

總體而言,傳統的機器學習方式還是比較費時費力的。普遍應用的詞袋模型隱含了一個假設,即詞語之間的語義是相互獨立的,因而丟失了文本的上下文信息。但真實情況往往並非如此,同一個詞語在不同的語義環境下是可以具有不同語義的。詞袋模型還會導致向量空間特別大,一般都是數十萬維。對於評論這種短文本,轉換成的向量會特別稀疏,也造成了模型的不穩定性。

如今大熱的深度學習技術,代表了目前文本挖掘領域的最高水平,可以很好的解決上述問題。目前達觀情感分析包括其他文本挖掘系統,已經全面部署深度學習。相比於傳統機器學習方法,深度學習至少有3大直接優勢:

1. 無需特徵工程:深度學習可以自動從數據中學習出特徵和模型參數,省去了大量繁雜的特徵工程工作,對行業先驗知識的依賴也降低到最小程度。

2. 考慮語義上下文:深度學習在處理文本數據的時候,往往是先把詞語轉成詞向量再進行計算,詞向量的生成考慮了一個詞語的語義上下文信息,也就解決了詞袋模型的局限性。

3. 大幅減少輸入特徵維度:由於使用了詞向量,特徵維度大幅減少,可以降低到百的量級,同時也使得文本向量變得「稠密」,模型變得更加穩定。

深度學習主要包含兩個步驟:

1. 詞語轉成詞向量:google的word2vec算法是目前應用最廣泛的詞向量生成算法,實踐證明其效果是非常可靠的,尤其是在衡量兩個詞語的相似度方面。Word2vec算法包含了CBOW(Continuous Bag-of-Word)模型和Skip-gram(Continuous Skip-gram)模型。簡單而言,CBOW模型的作用是已知當前詞Wt的上下文環境(Wt-2,Wt-1,Wt+1,Wt+2)來預測當前詞,Skip-gram模型的作用是根據當前詞Wt來預測上下文(Wt-2,Wt-1,Wt+1,Wt+2)。因此,一次詞向量事實上是基於詞語的上下文來生成的,也就具備了詞袋模型所不具備的表意能力。

2. 

 

3. 圖 6 基於詞向量的CNN模型

4. 利用深度學習框架進行訓練:詞轉成固定維度的詞向量之後,一個文本也就自然而然可以形成一個矩陣,如下圖所示。以矩陣作為輸入的深度學習算法,第一個想到的自然是在圖像識別領域獲得過成功的卷積神經網絡(CNN)。但CNN在文本挖掘領域的運用具有一定局限性,因其每層內部的節點之間是沒有連接的,即又丟失了詞與詞之間的聯繫。前面已經多次強調,詞語的上下文關係對文本挖掘是至關重要的,尤其對情感分析,情感詞(「喜歡」)和否定詞(「不」)、程度詞(「很」)的搭配會對情感傾向產生根本性的影響。因此目前比較廣泛使用的是LSTM(Long Short-Term Memory,長短時記憶),LSTM能夠「記住」較長距離範圍內的上下文對當前節點的影響。

 

 

圖 7 LSTM模型

總結

基於深度學習的文本情感分析,相比傳統機器學習,效果可以提升15%左右,而且省去了繁複的特徵工程工作,將人工依賴降低到最低程度。藉由深度學習技術,達觀文本挖掘架構也在不斷的更新迭代,不斷的升級完善。

相關焦點

  • 達觀數據乾貨分享:深度解析文本分類與標籤的應用價值和原理
    下圖就是通過達觀自然語言處理引擎,自動對一篇紅旗H7的車評文章(樣本http://car.bitauto.com/hongqih7/koubei/977900/)打上標籤和正負面類別。按照這種方式,我們分析更多篇車評,再對每篇車評分析結果進行一些統計和歸併,就得到下表的結果。
  • 移動軟交換向m-AGCF演進分析
    摘    要:從標準、關鍵技術、關鍵問題等方面對移動軟交換向m-AGCF的演進進行了分析,並給出了ICS技術的應用場景和演進方案。c) 根據接入網絡和用戶終端能力的不同提供數據業務,支持SIP的寬帶用戶可以享受更豐富的數據業務。由此可見,雖然ICS架構可以將CS網絡納入IMS的控制,由MMTel統一提供多媒體業務,但是其提供的業務只是對原有CS業務的繼承,同時還要兼顧網絡和終端的能力,並不具有提供新業務的能力。
  • 達觀數據新經濟與人工智慧應用峰會在蓉舉辦,持續發力RPA新場景
    11月26日,人工智慧領軍企業達觀數據和成都市人工智慧協會在成都聯合主辦「數字經濟·智能領航新經濟與人工智慧應用峰會」。本次大會由天府新區管委會與成都市科學技術局指導支持,雲從科技和四川省大數據產業聯合會協辦,成都科技企業孵化器協會合作支持。
  • 民生銀行大數據體系架構設計與演進
    目前每天採集的數據超過千萬條,累積的行為數據已經達到數十億條,通過大數據分析技術,對採集到的數據進行了報表統計和分析,已得到五類的統計報表數據,包括應用中用戶的新增數目、活躍數目、累計數目及用戶的設備分布、地域分布、作業系統、留存情況、用戶瀏覽時長統計、點擊事件統計及應用的錯誤統計等,目前進一步的在推動行為數據對營銷和風控的實時數據補充。
  • 用數據驅動HR,虎彩做到了!(深度乾貨)
    演 講丨王斌,HR數據部經理整 理丨環球君滿滿乾貨,建議直接分享收藏!掃描下方二維碼,即可收聽完整版語音+PPT分享。覺得不錯,請為虎彩印藝HR投票哦!下面來分享一則經營真實案例:因業務增加,不能滿足客戶交貨,內部數據分析後發現,瓶頸在於產品質檢的效率不能滿足生產需要,管理會議上部門經理提出需增加補員20人以滿足生產需要
  • 對比解讀五種主流大數據架構的數據分析能力 - 大數據_CIO時代網...
    隨著大數據技術的發展,數據挖掘、數據探索等專有名詞的曝光度越來越高,但是在類似於Hadoop系列的大數據分析系統大行其道之前,數據分析工作已經歷了長足的發展,尤其是以BI系統為主的數據分析,已經有了非常成熟和穩定的技術方案和生態系統,對於BI系統來說,大概的架構圖如下:
  • 達觀數據:文字的起源與文本挖掘的前世今生
    「達觀」在不同年代的不同寫法中國文明源遠流長,一脈相承,與漢字的進化也離不開。隨著時代的變遷和語言的豐富,漢字的筆畫也逐漸減少,記錄文明的方式越是簡單,文明的發展也就越快。現在計算機做文字處理,是先認識字詞、句子,通過字詞>語句>篇章三級結構,來進行文字語義分析。
  • 陳義宏:美團供應鏈系統架構簡介及演進歷程
    而面對企業今後多元化業務的發展需要,這個系統又進行了架構的重塑。在UPYUN主辦的「  UPYUN Open Talk 」第三期北京站上,美團技術專家、供應鏈平臺系統負責人陳義宏向與會的知名企業及創業團隊的開發者們做了深入淺出的精彩分享。
  • XRD與Jade學習資料合集,教程/乾貨/視頻免費分享!
    XRD應用廣泛,除一般物相分析外,還可以進行單晶分析、結構分析、測定微晶尺寸、宏觀及微觀應力等。為幫助各位小夥伴快速get這些技能,小編搜遍全網,傾心整理了這份XRD乾貨合集,結合Jade分析資料,助你快速成為XRD大神。
  • 分布式架構概述
    分布式架構是一個非常複雜的體系,任何技術都不是孤立的存在,任何技術都無法適應所有場景。作為一名分布式系統架構或者資深研發人員,我們必須儘可能多的學習與之相關的各種知識,掌握各種技術的演進路線,正式從一名碼農蛻變成為架構師什麼是分布式?網際網路應用的特點是:高並發,海量數據。
  • 第四屆達觀杯 x CCKS算法大賽圓滿收官,激發知識圖譜實踐新思路
    本次大賽由中國中文信息學會語言與知識計算專業委員會主辦,達觀數據與同濟大學聯合組織。經過幾個月的激烈角逐,實力卓群的國家電網旗下國網信通產業集團從幾千名參賽選手中脫穎而出榮獲冠軍,並在第十四屆全國知識圖譜與語義計算大會(CCKS-2020)上進行方案分享,達觀數據副總裁王文廣為冠軍團隊頒發獎項。
  • 運城樓市11月份月報丨數據大爆炸!樓市乾貨匯總……
    運城樓市11月份月報丨數據大爆炸!樓市乾貨匯總…… 安居運城 |安心挑好房 ,當然安居客
  • 往十年不忘初心,新十年不負韶華丨完整回顧2020數據技術嘉年華
    ,數據倉庫正加速從Big Data向Cloud-Native + Fast Data演進,雲原生技術催化大數據與資料庫系統演進。信息化3.0以數據來驅動業務變革,是行業用戶數位化轉型升級的目標,因此需要下一代的大數據平臺、數據中臺、新一代企業級數據倉庫來進行數據分析、預測、數據驅動業務。阿里雲資料庫高級產品專家韓鋒老師目前的工作重心在阿里雲自主研發的一款分析型資料庫AnalyticDB上。
  • 北京大學袁曉如:智能數據可視分析
    不到現場,照樣看最乾貨的學術報告!嗨,大家好。這裡是學術報告專欄,讀芯術小編不定期挑選並親自跑會,為大家奉獻科技領域最優秀的學術報告,為同學們記錄報告乾貨,並想方設法搞到一手的PPT和現場視頻——足夠乾貨,足夠新鮮!
  • 乾貨丨超聲焊接原理及影響因素
    如果本文對你有所幫助,歡迎分享到朋友圈點擊下列標題 閱讀更多歷史乾貨【技術π】深度剖析鋰離子電池鼓脹原因丨【鋰電內阻】理論結合生產談談鋰電池內阻那些事丨【技術π】深度剖析NCM811電池壽命衰減原因丨【精品】鋰電池漿料性質及關鍵影響因素分析丨【技術π】水分含量對電池性能的影響 丨【技術π】陶瓷塗層在鋰電池中的應用丨【技術π】電極漿料製備過程中物料顆粒狀態變化詳解丨
  • 中國移動李允博:大力推進光電融合組網和開放式網絡架構演進
    通信世界網消息(CWW)在8月27日舉辦的以「協同創新 光耀未來」為主題的「2020年新一代光傳送網發展論壇技術研討會」上,中國移動研究院教授級高工李允博分享了他對光通信新技術在未來光網絡架構中的演進的思考及中國移動光網絡架構的發展進程,並就業務發展、網絡架構演進及開放式組網三個方面進行了闡述。
  • 數據湖 VS 數據倉庫之爭?阿里提出大數據架構新概念:湖倉一體
    下圖是數據湖技術架構的演進過程,整體上可分為三個階段:圖3. 數據湖技術架構演進1. 階段一:自建開源Hadoop數據湖架構,原始數據統一存放在HDFS系統上,引擎以Hadoop和Spark開源生態為主,存儲和計算一體。缺點是需要企業自己運維和管理整套集群,成本高且集群穩定性差。2.
  • 由材料分析觀點看英特爾14nm/14nm+演進
    圖1:英特爾的市場策略模式演進:左為Tick-Tock,右為P.A.O.架構 (數據源:Intel Developer Forum 2016)W6DEETC-電子工程專輯此策略另一目的在於試圖把目前看似落後的10nm戰線拉到2017年下半甚至更久,就在這個10nm工藝大戰開始前夕,本文將以材料分析的觀點,切入英特爾的14nm工藝技術,進一步分析其架構優化產品14nm以及14nm plus (14nm+)兩代間的差異。
  • 歡迎加入共同大數據知識星球:海量資源一站式獲取!
    內容列表(持續更新中ing)【乾貨】10本人工智慧豆瓣高分書籍,免費領取圖解丨麥肯錫式邏輯思考術思維導圖重磅!>《DTiii版中國大數據產業地圖(3352家)》產業地圖PPT《地球大數據支撐可持續發展目標報告》我國的健康大數據:觸目驚心《量子計算發展白皮書(2019年)》下載麥肯錫發布:中國數字經濟如何引領全球新趨勢(附PDF)《數字中國指數報告(2019)》《大數據白皮書(2019年)》大數據分析5萬首《全唐詩
  • 【實用乾貨】循環伏安與交流阻抗測試及其分析方法
    EIS乾貨,秒懂交流阻抗譜原理和分析擬合技能鋰電池的EIS圖中每個頻段對應的阻抗分別代表什麼超實用丨Tafel數據處理和Zview對ESI數據擬合教程乾貨丨秒懂電化學交流阻抗(EIS)以及ZSimpWin軟體擬合