邏輯回歸實現情感分析

2021-03-05 管工學科在線
本文參考於吳恩達NLP專項課程—有監督學習 & 情感分析

在有監督機器學習中,你需要有輸入特徵X以及特徵的標籤Y

目標是儘可能地減小損失值

將特徵X輸入給prediction function,將實現特徵X輸出為預測標籤Y_hat

當標籤Y和預測值Y_hat差異值較小時,可以實現從特徵到標籤的最佳映射

損失函數Cost計算Y_hat和Y之間的差異

通過計算的損失值來更新參數,迭代重複至損失值為一個較理想的值

邏輯回歸的函數為sigmoid函數

情感分析的有監督機器學習分類問題例子:

目的是辨別tweet文本中的語句是積極的還是消極的情感

處理原tweet文本為訓練數據集並且提取有用的特徵

訓練邏輯回歸分類器模型並減小損失值

預測

特徵提取

稀疏矩陣表示

為了將一個文本轉化為向量表示,我們需要建立一個詞彙表Vocabulary,然後能夠將任何文本或則tweet轉化為數組矩陣

詞彙表V將會以列表形式存儲tweet中的不同單詞

利用稀疏矩陣存儲,在$tweet$中出現的單詞詞彙表V將會賦予1,而未出現的單詞賦予0

稀疏矩陣存在的問題:

邏輯回歸模型將會學習N+1個參數,N是詞彙表V的大小

耗費巨大的訓練時間

耗費巨大的預測時間

 2.分別統計消極負面和積極正面的頻率

從tweet語料庫中不同的單詞建立詞彙庫V

建立兩個類別,一個類別是消極負面情感,另一個類別是積極正面情感

在詞彙表V中計算積極單詞的頻率,需要統計它在積極正面的tweet文本中出現的次數,計算消極單詞的頻率一致

實際上在編碼時,此表是一個字典,將單詞及其對應的類別映射到頻率,例如單詞I,{(I,PosFreq):3,(I,NegFreq):3}

使用字典提取有用的特徵以進行情感分析,使用維度=3的向量表示tweet

預處理

使用詞幹化stemming以及停頓詞stop words對文本進行預處理

首先,我們移除在tweets中不會帶有重要含義的單詞或則符號,例如停頓詞,標點符號

在某些情況下,不必移除標點符號。因此,需要仔細考慮標點符號是否會為你的NLP任務添加重要信息

NLP中的詞幹化只是簡單的把單詞轉化為其基本的單詞

訓練邏輯回歸模型測試邏輯回歸模型

首先,利用theta和X_val,即pred=h(X_val,theta),其中h=sigmoid函數

其次,評估pred是否大於等於閾值,通常閾值設置為0.5

最後在驗證集上評估模型的準確率

損失函數

大家有興趣可以下載課程的作業,實現一下。作業下載地址:https://github.com/tsuirak/deeplearning.ai

相關焦點

  • ...實現機器學習之邏輯回歸:邏輯回歸介紹、應用場景、原理、損失...
    作者 | 汪雯琦責編 | Carol來源 | CSDN 博客學習目標知道邏輯回歸的損失函數知道邏輯回歸的優化方法知道sigmoid函數知道邏輯回歸的應用場景應用LogisticRegression實現邏輯回歸預測知道精確率、召回率指標的區別知道如何解決樣本不均衡情況下的評估了解
  • 簡單粗暴理解與實現機器學習之邏輯回歸:邏輯回歸介紹、應用場景...
    知道邏輯回歸的優化方法知道sigmoid函數知道邏輯回歸的應用場景應用LogisticRegression實現邏輯回歸預測知道精確率、召回率指標的區別>邏輯回歸介紹邏輯回歸(Logistic Regression)是機器學習中的一種分類模型,邏輯回歸是一種分類算法,雖然名字中帶有回歸,但是它與回歸之間有一定的聯繫。
  • Logistic邏輯回歸原理及實現
    我們用一條直線對這些點進行擬合,該線陳偉最佳擬合直線,這個擬合過程成為回歸。利用logistic回歸進行分類的主要思想是根據現有數據對分類邊界線建立回歸公式,依次進行分類。邏輯回歸的一般流程1.收集數據:採用任何方法收集數據2.準備數據:由於需要進行距離計算,因此需要數據類型為數值型,另外結構化的數據格式則最佳3.分析數據:採用任一方法對數據進行分析
  • 邏輯(Logistic)回歸分析-補充
  • R語言邏輯回歸分析
    如何進行邏輯回歸分析邏輯回歸是當y=f(x),而y為分類變量的時候的邏輯曲線擬合的方法。
  • 邏輯回歸的sklearn實現
    上篇講到邏輯回歸的算法實例,這篇主要講邏輯回歸的sklearn實現。
  • R邏輯回歸逐步選擇變量的實現
    從留言內容來看,還是有很多朋友在使用R作為主要分析工具的
  • Logistic(邏輯)回歸分析及癌症分類預測案例
    Logistic(邏輯)回歸分析一、邏輯回歸數學背景1、邏輯回歸(Logistic回歸)分析概要如果現在想對某件事情發生的概率進行預估,比如一個非醫用口罩,在疫情期間是否有人願意買?這裡的Y變量是「是否願意購買」,屬於分類數據,所以不能使用回歸分析。如果Y為類別性(定性)數據,研究影響關係,正確做法是選擇Logistic回歸分析。
  • 如何用邏輯回歸做數據分析?
    ,傳送門:如何用線性回歸做數據分析? 邏輯回歸應用於數據分析的場景主要有三種:下圖是之前講到的線性回歸模型的數據分布,線性回歸是用一條線來擬合自變量和因變量之間的關係,我們可以看到其輸出結果y是連續的。例如我們想預測不同用戶特徵對所使用產品的滿意分,可以採用線性回歸模型。
  • 多元線性回歸、逐步回歸、邏輯回歸的總結
    在這個高級語言層出不窮的年代,這樣做顯然不明智,所以我考慮用優秀的數據分析工具——R語言(不敢說最優秀,雖然心裡是這麼想的,我怕有人要罵我!)做回歸分析。包括簡單多變量回歸、逐步回歸、邏輯回歸!對了,上次,用Python寫的兩篇回歸擬合分別是:基於最小二乘法的——線性回歸擬合(一)基於梯度下降法的——線性回歸擬合(二)多元回歸分析,生活中用的很多,因為一個因素可能與很多其它因素有關!言歸正傳,這裡考慮用R語言裡面的相關函數做回歸分析。
  • 用Python實現機器學習算法:邏輯回歸
    邏輯回歸
  • 什麼是邏輯回歸?
    邏輯回歸(Logistic Regression,也譯作「對數機率回歸」)是離散選擇法模型之一,屬於多重變量分析範疇,是社會學、生物統計學、臨床、數量心理學、計量經濟學、市場營銷等統計實證分析的常用方法。邏輯回歸一般用於二分類(Binary Classification)問題中,給定一些輸入,輸出結果是離散值。
  • 硬核乾貨|如何利用邏輯回歸模型,實現用戶增長?
    因此,我們就引出今天的主題:技術派是如何利用邏輯回歸模型實現用戶增長的——這也是增長三部曲的最後一部。雖然在當下,深度學習模型已經成為時尚,但邏輯回歸仍然堅守在第一線,靠的就是其高時效性與高準確度性。許多銀行和金融平臺利用此模型預測借款人違約的概率,在金融領域都能站住腳,足以看出邏輯回歸的江湖地位。很多運營同學聽到邏輯回歸模型都會大驚失色,覺得難度係數過高,所以下文提供了難易兩條路線供大家參考。第一條是「懶人」路線,第二條是「挑戰」路線。
  • 邏輯回歸的常見問題
    作者:陶立元 趙一鳴 來源:臨床流行病學和循證醫學邏輯回歸是分類資料統計分析的一種重要方法,是一種研究多水平(包括兩水平)的反應變量與其影響因子(又稱自變量)間關係的回歸分析。下面我們針對邏輯回歸的常見問題作一討論。1、為什麼會有非條件和條件邏輯回歸?按照研究設計的不同,可將邏輯回歸分為成組資料的非條件邏輯回歸和配對資料的條件邏輯回歸兩類。成組資料是指組與組之間是相互獨立的,沒有針對每一個病例去尋找他特定的對照,它是相對於配對資料而言的。
  • 邏輯回歸算法介紹及其參數講解
    對邏輯回歸而言,多重共線性並不是問題,它可以結合L2正則化來解決該問題;計算代價不高,易於理解和實現。適用場景邏輯回歸又稱邏輯回歸分析,是一種廣義的線性回歸分析模型,常用於數據挖掘,疾病自動診斷,經濟預測等領域。例如,探討引發疾病的危險因素,並根據危險因素預測疾病發生的概率等。以胃癌病情分析為例,選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群必定具有不同的體徵與生活方式等。
  • Python數據分析|泰坦尼克邏輯回歸
    Python數據分析學習筆記,今天分享下利用Python進行邏輯回歸,預測鐵達尼號乘客生存情況。#導入2個Python常用數據分析的庫import numpy as npimport pandas as pd#將數據源文件讀取#注意Windows環境下,需要用r轉義一下,不然讀取不進來train = pd.read_csv(r"C:\\Users\\Administrator\\Desktop\\train.csv")test = pd.read_csv(r"C:\
  • 回歸XY 數據江湖:回歸五式之第二式(邏輯回歸)
    今天呢,跟大家再分享「數據江湖:回歸五式」中的第二式,叫做:邏輯回歸。在正式講述之前啊,需要簡單複習一下:什麼是回歸分析。回歸分析就是關於XY的相關性分析。線性回歸就是最常見的一種回歸模型。線性回歸有兩個特點:第一、因變量必須是連續型,或者近似連續型數據;第二、它研究的是XY之間的線性相關關係。那麼,邏輯回歸又是一個什麼鬼呢?
  • 邏輯回歸 vs 決策樹 vs 支持向量機(II)
    事實上,這三個算法在其設計之初就賦予了一定的內部特性,我們將其分析透徹的主要目的在於:當你面臨商業問題時,這些算法的特性可以讓你在選擇這些算法時得到一些靈感。首先,我們來分析下邏輯回歸(Logistic Regression),它是解決工業規模問題最流行的算法,儘管與其他技術相比,其在效率和算法實現的易用性方面並不出眾。
  • 邏輯回歸,很有邏輯
    最後,簡單談談邏輯回歸、Softmax 回歸和卷積神經網絡的關係。再來看看 Softmax 回歸。它是一種多項邏輯回歸,即響應變量的取值大於兩類。假設共有 K > 2 類,每個樣本點的響應變量 y_i 的取值為 1 到 K 之間的某一個值。多項邏輯回歸的應用更加廣泛,比如在手寫數字識別中,一共有 0 到 9 是個數字,因此一共可以有 10 類。
  • 邏輯回歸介紹與應用
    一、邏輯回歸簡介邏輯回歸又稱Logistic回歸分析,是一種廣義的線性回歸分析模型,常用於數據挖掘、疾病自動診斷、經濟預測等領域。邏輯回歸從本質來說屬於二分類問題。二分類問題是指預測的y值只有兩個取值(0或1)。