t-SNE原理總覽

2021-02-19 珠江腫瘤

引言:t-SNE 是一種非線性降維算法,非常適用於高維數據降維到2維或者3維,進行可視化。是單細胞測序高分文章中常見的一種降維可視化算法。

參考:Zheng C, Zheng L, Yoo JK, et al. Landscape of Infiltrating T Cells in Liver Cancer Revealed by Single-Cell Sequencing. Cell. 2017;169(7):1342–1356.e16. doi:10.1016/j.cell.2017.05.035

1. t-SNE降維可視化的意義

如果忽略水平軸或縱軸的信息,直接將數據直接投射到縱軸或水平軸,那麼降維後的效果非常糟糕:原始聚類信息將不再保留,出現數據分類的混亂。

如果使用t-SNE降維可視化的方法,降維後的結果與原始數據聚類信息一致。t-SNE完成任務便是,保留較高維度的聚類信息,在較低維度找到較高維度數據對應的投射點。

2. t-SNE實現降維可視化(基本原理版)

Step 1: 將原始數據隨機投射到較低維度坐標軸中。

Step 2: t-SNE一點點移動低維度數據中的點,直至將類別相同的樣本(相同顏色的圓圈)重新聚在一起。 例如最左邊的樣本(中間坐標軸),由於它是原始數據紅色樣本聚類中的一部分,故其傾向於與其餘紅色樣本聚在一起(相同聚類的樣本相互吸引),而與其他顏色樣本分離(不同聚類的樣本相互排斥)。基於此,最左邊第一個樣本向右一點點移動(下方坐標軸)。

Step 3: 同step 2,繼續一點點移動樣本,直至重新恢復原始數據中的聚類結果。 原始坐標軸中同一聚類的樣本相互吸引,不同聚類的樣本相互排斥。同理,繼續一點點移動樣本,直至重新恢復原始數據中的聚類結果。

3. t-SNE基於相似性得分矩陣實現降維可視化

前面提出,原始坐標軸(上方坐標軸)中同一聚類的樣本相互吸引,不同聚類的樣本相互排斥。基於該原理在降維坐標軸中一點點移動樣本,直至重新恢復原始數據中的聚類結果。那麼t-SNE是如何實現這種轉換的呢?

1.計算原始散點圖中所有樣本的相似性(距離),基於以目標樣本(黑色)為中心的正態分布曲線得出未歸一化(unscaled)的相似性得分。 基於正態分布曲線,意味著相似性越低(距離越遠)樣本的相似性得分越低,相似性越高(距離越近)樣本的相似性得分越高。

2.歸一化相似性得分,使所有樣本的相似性得分之和為1。 

為什麼需要歸一化: 例如在如下兩個聚類中(藍色和紫色),藍色聚類緊密度是紫色聚類緊密度的2倍(意味著藍色聚類對應的正態分布曲線寬度為紫色對應正態曲線寬度的一半)。依次計算兩種聚類內的相似性(距離)和相似性得分,二者未經歸一化的相似性得分差異很大。而歸一化的作用就是是兩個聚類內的相似性得分保持一致,較緊密藍色聚類與較稀疏紫色聚類的歸一化相似性得分相同。

詳細來說,假設藍色聚類的標準差為1,紫色聚類的標準差為2,以2個樣本為例。

未歸一化:藍色聚類相似性得分(unscaled)= 2 x 紫色聚類相似性得分(unscaled);歸一化:藍色聚類相似性得分(scaled)= 紫色聚類相似性得分(scaled)。

3.同前,變換目標樣本,依次計算各個樣本相對於目標樣本的相似性得分。 得出所有樣本對應不同目標樣本時的相似性得分矩陣。在相似性矩陣中,行與列對應的樣本順序相同,如第一行與第一列均代表其他樣本相對於第一個樣本的相似性得分。紅色方塊對應較高的相似性,白色代表較低的相似性。同一樣本與其自身的相似性其深紅色表示,雖然有最高的相似性,但對聚類無關,無實際意義。

注意:因為正態分布的標準差取決於目標樣本所在聚類的緊密度,故不同聚類的兩樣本間互為目標樣本時,另一個樣本的相似性得分不同。如,圍繞樣本1的樣本2相似性得分不等於圍繞樣本2的樣本1相似性得分。t-SNE在計算時,取兩個不同方向相似性得分的平均值。

4. t-SNE實現降維可視化(原理展示版)

Step 1: 將原始坐標軸中的數據隨機投射到一維低維坐標軸中

Step 2: 計算低維坐標軸中的樣本間的相似性,基於t分布計算樣本間相似性得分。 使用t分布而不是正態分布的原因:t分布較正態分布「矮胖」,使用t分布能避免低維坐標軸中樣本聚集在中部而難以辨認的事件。

Step 3: 變換不同的目標樣本,計算其他所有樣本相對於目標樣本的相似性得分,得出相似性得分矩陣(左上角)。 基於隨機投射後的相似性矩陣較原始數據的相似性矩陣(右上角)混亂,如第5行數據(正對於低維坐標軸最左邊樣本的相似性得分)。t-SNE將樣本逐漸移動的目的就是使得左上角的相似性矩陣矩陣逐漸變換成右上角的相似性矩陣,實現原始聚類數據的還原。

Step 4: t-SNE算法對樣本進行一點點移動(每一次只移動一個樣本),使左上角的相似性矩陣矩陣逐漸變換成右上角的相似性矩陣,實現原始聚類數據的還原。

5. 總結

t-SNE是降維可視化的常見方法之一。在本小節中,我們由簡入難地一起學習了t-SNE的實現原理,希望能幫助大家看懂更多的高分文章。

參考視頻:https://www.youtube.com/watch?v=NEaUSP4YerM&list=PLblh5JKOoLUICTaGLRoHQDuF_7q2GfuJF&index=32

編輯:呂瓊

校審:羅鵬

相關焦點

  • t-SNE:最好的降維方法之一
    Visualizing data using t-SNE. Journal of Machine Learning Research, 9(Nov), 2579-2605.[3] Maaten, L. V. D., & Hinton, G. (2008). Visualizing data using t-SNE.
  • 深度 | 詳解可視化利器t-SNE算法:數無形時少直覺
    然而將高維數據擬合到一張簡單的圖表(降維)通常是非常困難的,這就正是 t-SNE 發揮作用的地方。在本文中,我們將探討 t-SNE 的原理,以及 t-SNE 將如何有助於我們可視化數據。t-SNE 算法概念這篇文章主要是介紹如何使用 t-SNE 進行可視化。
  • 大數據可視化利器-流形學習t-SNE
    文 | 光大科技大數據部 額日和1 數據可視化與降維2 算法原理簡介3 t-SNE實現和應用4.2 算法原理簡介 t-SNE是在Geoffrey Hinton 02年提出的SNE(Stochastic Neighbor Embedding)[2]基礎上發展而來,下面首先介紹SNE的原理,然後介紹t-SNE在此基礎上的兩點重要改進。
  • 你真的會用 t-SNE 麼?有關 t-SNE 的小技巧
    有人說: t-SNE有一個叫困惑度(Perplexity)的參數, 貌似越高,結果越令人困惑。 本文將跟讀者一起,探索t-SNE 的各種表現,從而有效的利用它。t-SNE 是 2008年L.v.d. Maaten和G.
  • t-SNE:可視化效果最好的降維算法
    為了解決這個問題,t-SNE出現了。什麼是t-SNE?t-SNE的主要用途是可視化和探索高維數據。 它由Laurens van der Maatens和Geoffrey Hinton在JMLR第九卷(2008年)中開發並出版。 t-SNE的主要目標是將多維數據集轉換為低維數據集。
  • 通俗理解一個常用的降維算法(t-SNE)
    等時間來到2008年,另外一個和我們比較熟悉的大牛 Geoffrey Hinton在 2008 年一同提出了t-SNE 算法。他們改進SNE算法為t-SNE算法,並使它在降維領域得到更廣泛的應用。2 t-SNE 算法概述全稱為 t-distributed Stochastic Neighbor Embedding,翻譯為 t分布-隨機鄰近嵌入。怎麼理解這個名字?首先,t-分布是關於樣本(而非總體)的t 變換值的分布,它是對u 變換變量值的標準正態分布的估計分布,是一位學生首先提出的,所以 t-分布全稱:學生t-分布。
  • 快學學大牛最愛的t-SNE算法吧(附Python/R代碼)
    在本文中,我將告訴你一個比PCA(1933)更有效、被稱為t-SNE(2008)的新算法。 首先我會介紹t-SNE算法的基礎知識,然後說明為什麼t-SNE是非常適合的降維算法。你還將獲得在R代碼和Python語句中使用t-SNE的實踐知識。來吧來吧!
  • 重慶休閒娛樂場所總覽
    重慶休閒娛樂場所總覽       重慶休閒娛樂總覽
  • 中文核心期刊要目總覽10月更新 破除虛幻的霸權
    北京大學出版社每隔4年修訂一次的《中文核心期刊要目總覽》,原本只是圖書館工作方面的一部專業工具書,近年來卻離奇地被學術界奉為與各種利益掛鈎的學術評價通用標準。  這讓使用單位對這次修訂也高度關注。已有高校的科研管理部門正式發出通知,請各單位密切注意2008年版《中文核心期刊要目總覽》,一俟新版問世,論文獎勵的範圍將以新版提供的目錄為準。
  • 人人都可以輕鬆繪製炫酷的t-SNE圖啦~
    t分布隨機鄰接嵌入(t-SNE)屬於非線性降維,在大數據可視化中的表現明顯優於PCA,成為數據可視化算法中的翹楚。t-SNE通過單細胞測序分析進入生物學研究者的視野,也使得很多人誤以為t-SNE降維是單細胞測序分析的獨有內容。
  • 比PCA降維更高級——(R/Python)t-SNE聚類算法實踐指南
    本文講解比PCA(1933)更有效的算法t-SNE(2008)。本文內容1 什麼是t-SNE?2 什麼是降維?3 t-SNE如何在維數降低算法空間中擬合4 t-SNE算法的細節5 t-SNE實際上是做什麼?
  • 森林遊戲攻略:森林多角度地圖以及作用總覽
    導 讀 《森林》中地圖的作用有著至關重要的作用,下面我們就來看看《森林》多角度地圖總覽吧。
  • 基於TensorFlow理解三大降維技術:PCA、t-SNE 和自編碼器
    t-SNE相對於 PCA,t-SNE 是一種相對較新的方法,起源於 2008 年的論文《Visualizing Data using t-SNE》:http://www.jmlr.org/papers/volume9/vandermaaten08a/vandermaaten08a.pdf它也比 PCA 更難理解,所以讓我們一起堅持一下
  • 2020版《中文核心期刊要目總覽》新鮮出爐!
    ●北大核心,全名:《中文核心期刊要目總覽》●中國科技論文統計源期刊,是CSTPCD的數據來源,也叫科技核心。中國知網首頁最新:2020版《中文核心期刊要目總覽》研究概況《中文核心期刊要目總覽》是由北京大學圖書館及北京十幾所高校圖書館眾多期刊工作者及相關單位專家參加的中文核心期刊評價研究項目成果,已經出版了1992、1996、2000、2004、2008、2011
  • 2020年版《中文核心期刊要目總覽》研究概況
    《中文核心期刊要目總覽》2020年版研究概況本項目採用定量評價和定性評價相結合的分學科研究方法。
  • 兩樣本t檢驗原理與R語言實現
    t檢驗也稱為student t檢驗,可以用來比較兩個均值的差異是否顯著,可分為單總體檢驗、雙總體檢驗、配對樣本檢驗。1.1歷史要了解t檢驗,就不得不提及他的發明者威廉·西利·戈塞特(William Sealy Gosset)。
  • 《湖南大學校園植物總覽》為你全解析
    近日,由湖南大學生物學院與共青團湖南大學委員會組織編寫的《湖南大學校園植物總覽》已順利出版。該書主要由湖南大學生物學院牽頭組織多名老師和近百名來自十多個專業的學生志願者們歷時三年完成。 該書出版得到了共青團湖南大學委員會和湖南大學出版社的大力支持,是湖南大學出版社圖書出版基金2013年資助項目之一。
  • sklearn與機器學習系列專題之降維(七)一文弄懂t-SNE特徵篩選&降維
    ,小編也不知道,隨緣吧)裡,小編在此再次介紹一種流行學習方法——t-Distributed 隨機鄰域嵌入算法(t-distributed stochastic neighbor embedding,t-SNE),該算法的初衷也是用於可視化高維複雜的數據結構,因此,也經常被用來和LLE算法作對比(如在LLE專題中的實戰一欄已作對比)。
  • 統計學基礎-t檢驗基本原理
    t檢驗主要分類    t 檢驗可分為單樣本(單總體)檢驗和兩獨立樣本檢驗以及配對樣本檢驗單樣本t 檢驗    樣本均數與總體均數比較的t檢驗,叫做單樣本資料的t檢驗。單樣本t檢驗也可以理解為是一個樣本平均數與一個已知的總體平均數的差異是否顯著。      當總體分布是正態分布,如總體標準差未知且樣本容量小於30,那麼樣本平均數與總體平均數的離差統計量呈t分布。單樣本t檢驗的統計量計算公式為:其中分子表示樣本均數