假設一批患者使用同一種腫瘤藥,一些人效果良好(response),而另一些人無明顯療效(not response)。故我們需要利用一些特徵對患者進行分類(反應者 或 非反應者),使其接受針對性的接受治療從而達到更好的療效。基於實踐,可能基因的表達特徵有助於患者分類。
①僅使用一個基因的表達量對患者進行分類。該基因表達水平能較好地實現對腫瘤患者的分類,發現大部分反應者的該基因表達水平較低(左側),大分部非反應者的該基因表達水平較高(右側),但反應者與非反應者的該基於表達水平也有一定的重疊(中間)。
②使用兩個基因的表達水平對患者進行分類。基於兩個水平的分類能實現較好的腫瘤患者分類,大部分反應者對應gene X與Y的表達水平低,大分部非反應者對應的gene X與Y的表達水平較高,僅有絕少數患者的分類不準確。
③使用三個基因的表達水平對患者進行分類。在平面上很難辨認是否基於三個gene表達水平的分類能較好實現腫瘤患者分類。
④基於4個或者4個及以上的基因表達水平對患者進行分類,常規的4維及4維以上的圖形將會非常難辨別是否該方法能有效的實現患者分類。為了實現該目的,需要進行數據降維處理。但為了實現降維後,能夠更加準確的進行數據分類,需要使用的方法是線性判別分析(Linear Discriminant Analysis,LDA)。
LDA: 同PCA一樣,可以達到降低數據維度的效果。但其與PCA又有顯著不同的區別,PCA主要是根據具有最大表達的基因尋找數據的主要成分,而LDA主要是基於如何能最大化不同類間的差異而進行數據降維,LDA的主要作用的實現數據分類。
2. LDA實現樣本分類的原理如下,將將2-D數據轉換成1-D數據,從而實現數據降維和分類。
一個糟糕的做法是:忽略Y軸或X軸數據,將數據直接投射到X軸或Y軸。而LDA則提供了一個較好的思路,充分利用X軸與Y軸的數據,建立新的坐標軸(new axis),既實現數據維度的減少,又能實現對數據的良好分類。
2.1 LDA基於兩個標準創建新坐標軸2個類別的數據1.最大化不同類間的均值差異(μ1-μ2,用d表示不同類間的差異);2.最小化同一類間的數據差異(scatter,用S2表示相同類間的分散情況)。簡單來說,就是不同類間的差異越大越好,相同類間的差異越小越好。 結合兩個標準,用二者的比值進行量化,其值越大,說明分類的效果越好。
3個類別的數據創建新坐標軸的2個標準是一致的,即均最大化不同類間的差異,最小化相同類間的差異。但是也有一些差別:
距離d的確定:不同類別數據至總數據質心的距離平方和為不同類間的距離。
數據的分類:因為需要將數據分為3類,故需要兩條相互垂直的直線進行分類。
在僅有兩個gene X與gene Y(兩個變量的時候),新坐標軸上的數據未做降維處理,其與原數數據一致。
> 3個類別的數據如果有10000個基因的表達數據,並基於這10000個基因的表達將樣本分為3類。在這種情況下,就需要對數據進行降維處理。如下,利用LDA分析將10000個gene表達數據降至2維。儘管該分類的結果並不是十分完美,但是LDA也能較準確地將樣本分為3類。
3. LDA與PCA的比較3.1 LDA與PCA的差異同前,仍利用10000個基因的表達數據進行LDA(左圖)和PCA分析(右圖)。因為PCA與LDA的主要目的不同,LDA的主要目的是實現降維和分類,故其能較好的實現數據分類;而PCA的主要目的是基於變化量最大的變量進行數據降維,故其在數據分類中的性能略差。3.2 LDA與PCA的相似點二者僅基於重要性對新坐標軸進行排序,均可基於原始數據創建新的坐標軸。
LDA中(重點找不同類間的差異):LD1為解釋不同分類間最大差異的坐標軸;LD1為解釋不同分類間第二大差異的坐標軸...PCA中(重點找最大變異):PC1為解釋數據最大變異的坐標軸;PC2為解釋數據第二大變異的坐標軸...LDA: 目的是最優化不同類間的分類效果(實現對數據的最優分類)PCA:關注具有最大變異的變量(具有最大變異的某基因)4. 總結LDA與PCA均能實現數據降維,從而有利於後續的分析。雖然二者具有很多相似之處,但是二者實現不同的目的,故在選擇數據降維時應結合自己的分析目的。本次筆記作為一個簡單的介紹,如果想要更加深入的學習LDA,請參考更多的資源。
參考視頻:https://www.youtube.com/watch?v=azXCzI57Yfc&list=PLblh5JKOoLUICTaGLRoHQDuF_7q2GfuJF&index=29
編輯:呂瓊
校審:羅鵬