線性判別分析總覽

2022-01-09 珠江腫瘤

收錄於話題 #StatQuest 61個

線性判別分析總覽(Linear Discriminant Analysis,LDA):用於數據預處理中的降維、分類任務,其目標是找到能夠最大化類間區分度的坐標軸成分。用幾個詞概括LDA的特徵,即降維、分類。
1.樣本分類

假設一批患者使用同一種腫瘤藥,一些人效果良好(response),而另一些人無明顯療效(not response)。故我們需要利用一些特徵對患者進行分類(反應者 或 非反應者),使其接受針對性的接受治療從而達到更好的療效。基於實踐,可能基因的表達特徵有助於患者分類。

①僅使用一個基因的表達量對患者進行分類。該基因表達水平能較好地實現對腫瘤患者的分類,發現大部分反應者的該基因表達水平較低(左側),大分部非反應者的該基因表達水平較高(右側),但反應者與非反應者的該基於表達水平也有一定的重疊(中間)。

②使用兩個基因的表達水平對患者進行分類。基於兩個水平的分類能實現較好的腫瘤患者分類,大部分反應者對應gene X與Y的表達水平低,大分部非反應者對應的gene X與Y的表達水平較高,僅有絕少數患者的分類不準確。

③使用三個基因的表達水平對患者進行分類。在平面上很難辨認是否基於三個gene表達水平的分類能較好實現腫瘤患者分類。

④基於4個或者4個及以上的基因表達水平對患者進行分類,常規的4維及4維以上的圖形將會非常難辨別是否該方法能有效的實現患者分類。為了實現該目的,需要進行數據降維處理。但為了實現降維後,能夠更加準確的進行數據分類,需要使用的方法是線性判別分析(Linear Discriminant Analysis,LDA)。

LDA: 同PCA一樣,可以達到降低數據維度的效果。但其與PCA又有顯著不同的區別,PCA主要是根據具有最大表達的基因尋找數據的主要成分,而LDA主要是基於如何能最大化不同類間的差異而進行數據降維,LDA的主要作用的實現數據分類。

2. LDA實現樣本分類的原理

如下,將將2-D數據轉換成1-D數據,從而實現數據降維和分類。

一個糟糕的做法是:忽略Y軸或X軸數據,將數據直接投射到X軸或Y軸。而LDA則提供了一個較好的思路,充分利用X軸與Y軸的數據,建立新的坐標軸(new axis),既實現數據維度的減少,又能實現對數據的良好分類。

2.1 LDA基於兩個標準創建新坐標軸2個類別的數據1.最大化不同類間的均值差異(μ1-μ2,用d表示不同類間的差異);2.最小化同一類間的數據差異(scatter,用S2表示相同類間的分散情況)。

簡單來說,就是不同類間的差異越大越好,相同類間的差異越小越好。 結合兩個標準,用二者的比值進行量化,其值越大,說明分類的效果越好。

3個類別的數據

創建新坐標軸的2個標準是一致的,即均最大化不同類間的差異,最小化相同類間的差異。但是也有一些差別:

距離d的確定:不同類別數據至總數據質心的距離平方和為不同類間的距離。

數據的分類:因為需要將數據分為3類,故需要兩條相互垂直的直線進行分類。

在僅有兩個gene X與gene Y(兩個變量的時候),新坐標軸上的數據未做降維處理,其與原數數據一致。

> 3個類別的數據

如果有10000個基因的表達數據,並基於這10000個基因的表達將樣本分為3類。在這種情況下,就需要對數據進行降維處理。如下,利用LDA分析將10000個gene表達數據降至2維。儘管該分類的結果並不是十分完美,但是LDA也能較準確地將樣本分為3類。

3. LDA與PCA的比較3.1 LDA與PCA的差異同前,仍利用10000個基因的表達數據進行LDA(左圖)和PCA分析(右圖)。因為PCA與LDA的主要目的不同,LDA的主要目的是實現降維和分類,故其能較好的實現數據分類;而PCA的主要目的是基於變化量最大的變量進行數據降維,故其在數據分類中的性能略差。3.2 LDA與PCA的相似點

二者僅基於重要性對新坐標軸進行排序,均可基於原始數據創建新的坐標軸。

LDA中(重點找不同類間的差異):LD1為解釋不同分類間最大差異的坐標軸;LD1為解釋不同分類間第二大差異的坐標軸...PCA中(重點找最大變異):PC1為解釋數據最大變異的坐標軸;PC2為解釋數據第二大變異的坐標軸...LDA: 目的是最優化不同類間的分類效果(實現對數據的最優分類)PCA:關注具有最大變異的變量(具有最大變異的某基因)4. 總結

LDA與PCA均能實現數據降維,從而有利於後續的分析。雖然二者具有很多相似之處,但是二者實現不同的目的,故在選擇數據降維時應結合自己的分析目的。本次筆記作為一個簡單的介紹,如果想要更加深入的學習LDA,請參考更多的資源。

參考視頻:https://www.youtube.com/watch?v=azXCzI57Yfc&list=PLblh5JKOoLUICTaGLRoHQDuF_7q2GfuJF&index=29

編輯:呂瓊

校審:羅鵬


相關焦點

  • 線性判別分析LDA
    線性判別分析是一種線性降維的方法,和之前ARGO提及的PCA(見文章主成分分析(PCA)入門)目的一樣,都是為了降低海量特徵以實現降維,但兩者又有顯著的不同。全文分成如下四個部分:PCA 回顧線性判別分析(LDA)多類別的線性判別分析使用LDA的限制一  PCA回顧介紹LDA之前,簡單的回顧一下之前講到的PCA。
  • 線性分類模型(一):線性判別模型分析
    ,線性分類模型分為判別式模型和生成式模型,本文首先簡單複習了與算法相關的數學基礎知識,然後分析各線性判別式分類算法,如最小平方法,Fisher線性判別法和感知器法,最後總結全文。目錄1、相關的數學知識回顧2、判別式模型和生成性模型3、最小平方法4、Fisher線性判別函數5、感知器算法6、總結1、直線方程和平面方程拓展到分類思想:
  • 經典分類:線性判別分析模型!
    作者:小雨姑娘,康乃狄克大學,Datawhale成員這幾天看了看SVM的推導,看的是真的頭疼,那就先梳理基礎的線性判別分析模型
  • 運用sklearn進行線性判別分析(LDA)代碼實現
    基於sklearn的線性判別分析(LDA)代碼實現一、前言及回顧本文記錄使用sklearn庫實現有監督的數據降維技術——線性判別分析(LDA)。在上一篇LDA線性判別分析原理及python應用(葡萄酒案例分析),我們通過詳細的步驟理解LDA內部邏輯實現原理,能夠更好地掌握線性判別分析的內部機制。
  • LDA線性判別分析
    問題線性判別分析(二分類情況)PCA和LDALDA降維實例小結  參考資料問題之前我們討論的 PCA降維,對樣本數據來言,可以是沒有類別標籤 y 的。如果我們做回歸時,如果特徵太多,那麼會產生不相關特徵引入、過度擬合等問題。我們可以使用PCA 來降維,但 PCA 沒有將類別標籤考慮進去,屬於無監督的。
  • 【R分享|實戰】LDA 線性判別分析
    」   --科白君之前我們分享了不少降維相關的分析方法,例如PCoA,NMDS,PCA分析,它們都是無監督學習。無監督學習指我們事先沒有任何訓練樣本,直接對數據進行建模。無監督學習的主要算法是聚類,聚類目的在於把相似的東西聚在一起,主要通過計算樣本間和群體間距離得到。
  • 線性判別分析(LDA)及其在R中實現
    線性判別分析(Linear Discriminant Analysis,LDA)是一種用於數據降維以及分類預測的機器學習方法,由RA Fisher(1936)提出,也稱為Fisher判別式。最初的LDA只能處理兩種分類問題,Rao(1948)拓展了「多類別線性判別分析」或稱「多元判別分析」,將LDA推廣至適用於多分類的情形。
  • 分類分析之判別分析,SPSS判別分析實操
    判別分析是常用的一種分類分析方法。與聚類分析不同的是【聚類分析是直接比較各事物之間的性質,將性質相近的歸為一類,將性質差別較大的歸入不同的類。>定義:判別分析先根據已知類別的事物的性質(自變量),建立函數式(自變量的線性組合,即判別函數),然後對未知類別的新事物進行判斷以將之歸入已知的類別中。
  • 線性判別分析LDA(Linear Discriminant Analysis)
    線性判別分析(二類情況)回顧我們之前的logistic回歸方法,給定m個n維特徵的訓練樣例(i從1到m),每個x(i)對應一個類標籤。我們就是要學習出參數,使得(g是sigmoid函數)。現在只考慮二值分類情況,也就是y=1或者y=0。為了方便表示,我們先換符號重新定義問題,給定特徵為d維的N個樣例,,其中有個樣例屬於類別,另外個樣例屬於類別。
  • 判別分析——注意事項
    通過前期的學習,我們已經知道判別分析是根據判別對象若干個指標的觀測結果判定其應屬於哪一類的數據統計方法;了解和鑑別四種常用判別方法的基本原理;掌握SPSS的Fisher判別和Bayes判別操作方法;學習判別分析效果評價的方法。判別分析的最後一期內容,檸檬精給大家準備的是判別分析的注意事項,以作補充。
  • 安全數據的判別分析
    安全數據的判別分析包括四大內容,如圖所示1 距離判別法2 貝葉斯判別法3基本思想是投影,即將K組p維數據投影到某一個方向,使得組與組之間的距離儘可能的大,藉助一元方差分析的思想來構造一個線性判別函數,其係數是根據類與類之間距離最大、類內部距離最小的原則來確定,再根據所建立的線性判別函數結合相應的判別規則來判斷待判樣品的類別。
  • 詳解線性判別分析(Linear Discriminant Analysis)
    對應一個類標籤     至此,我們只需要求出原始樣本的均值和方差就可以求出最佳的方向w,這就是Fisher於1936年提出的線性判別分析。線性判別分析(多類情況)     前面是針對只有兩個類的情況,假設類別變成多個了,那麼要怎麼改變,才能保證投影后類別能夠分離呢?
  • 機器學習算法系列(十)-線性判別分析算法(一)(Linear Discriminant Analysis Algorithm)
    (3)使用S_b、S_w來代替中間部分,得到新的代價函數(4)其中S_b 被稱為"類間散度矩陣"(between-class scatter matrix)(5)其中S_w 被稱為"類內散度矩陣"(within-class
  • 聚類分析、判別分析、主成分分析、因子分析的區別與聯繫
    目的不同: 因子分析把諸多變量看成由對每一個變量都有作用的一些公共因子和僅對某一個變量有作用的特殊因子線性組合而成,因此就是要從數據中控查出對變量起解釋作用的公共因子和特殊因子以及其組合係數;主成分分析只是從空間生成的角度尋找能解釋諸多變量變異的絕大部分的幾組彼此不相關的新變量(主成分)。2.
  • SPSS分析技術:判別分析
    :數據的歸納分析;SPSS分析技術:分層聚類分析;SPSS分析技術:K-Mean聚類分析;下面介紹個案聚類的第三種方法:判別分析。為此,需要根據已被正確分類的樣本及其屬性,進行數據分析,找出影響樣本歸類的關鍵因素,甚至獲得一個判定係數;然後依據判定係數,對未來樣本進行判別。判別分析是為了解決未來個案歸屬問題而提出的一種數據分類技術,它基於已有的分類個案尋求有效的判別規則,並藉助判別規則對未來個案的歸屬進行判定。
  • [PRML]線性分類模型--概率判別模型
    與式13的比較表明,它與線性回歸模型的平方和誤差函數的梯度具有完全相同的形式。需要注意的是,即使數據點的數量比模型中的參數的數量大,只要訓練數據集是線性可分的,問題就會出現。6 概率單位回歸已經看到,對於由指數族描述的廣泛的類條件分布,後驗類概率的結果由作用於特徵變量的線性函數的logistic(或softmax)變換給出。但並不是所有的類條件密度的選擇都能產生簡單形式的後驗概率(例如如果使用高斯混合模型來對類條件密度建模)。這表明,其他類型的判別概率模型值得探索。
  • SPSS分析技術:典型判別分析;由鳶(yuan)尾花分類發展而來的分析方法
    以上這些和邏輯回歸模型是一致的,不同之處在於判別分析的目的是建立原始變量的線性組合,使得根據因變量劃分的不同類別之間差異最大,而邏輯回歸模型的擬合方法是極大似然法,它們在模型擬合方法上是完全不同的。如果自變量中連續型變量較多,那麼判別分析更為準確,如果分類型變量較多,則邏輯回歸分析較為好用,大家可以根據實際分析結果來選擇。
  • 數據江湖之多元劍法 | 招式三:判別分析
    這兩個步驟中的第一步,在多元分析裡面,就稱之為「判別分析」(discriminant analysis),而第二步,就是「分類」(classification)。判別分析是描述性的,而分類分析是推斷性的。當然,這二者並不是可以嚴格割離的,因為判別分析的主要目的就是進一步進行分類,而分類分析通常都要有判別分析的結果做基礎。我們這一次就先討論第一步,判別分析。
  • 安全數據的聚類分析和判別分析概述
    1 聚類分析的基本原理1)聚類分析的含義聚類分析是根據「物以類聚」的原理,對樣品或指標進行分類的一種多元統計分析方法,將安全統計對象的集合分成多個類的分析過程。2 判別分析的基本原理1)判別分析的含義判別分析是在已將安全現象分成若干類、並已經取得各種類型的一批已知安全統計樣品的觀測數據的基礎上,根據某些準則來建立判別模型,然後對未知類型的安全統計樣品判別其歸屬問題的一種多變量統計分析方法。
  • 線性判別分析(LDA)原理總結
    小白學視覺」,選擇加"星標"或「置頂」重磅乾貨,第一時間送達線性判別分析(Linear Discriminant Analysis,以下簡稱LDA)是有監督的降維方法,在模式識別和機器學習領域中常用來降維。