機器學習裡的歐氏距離

2021-03-01 智預

「遠在天邊,近在眼前」,距離是一個需要定義的概念,對距離進行量化需要一個合適的坐標參考體系。在詩句裡,距離可以很浪漫,「世界上最遙遠的距離,不是生與死的距離,不是天各一方,而是,我就站在你的面前,你卻不知道我愛你」。在機器學習裡,距離是嚴謹的,需要一個精確的公式來計算。

許多機器學習的常見算法都需要用到距離函數,即用於計算兩個不同觀測(obs)之間的距離。以癌症組織的轉錄組測序數據為例,不同的癌症樣本即不同的觀測,兩個樣本間的距離越短,意味著它們之間越相似,在各種非監督聚類算法中更容易被歸為同一類。距離函數五花八門,歐氏距離應該算得上其中「最簡單」和「最直觀」的距離函數了。

在數學上,歐氏距離是歐氏空間裡兩點間的直線距離。在一個二維空間裡,兩個點p1和p2的坐標分別為(x1,y1), (x2, y2)。那麼p1和p2的距離d(p1,p2)等於sqrt((x1-x2)2+(y1-y2)2)。同理,在一個三維空間裡,兩個點p1和p2的坐標分別為(x1,y1), (x2, y2) , (z2, z2)。那麼p1和p2的距離d(p1,p2)等於sqrt((x1-x2)2+(y1-y2)2+(z1-z2)2)。簡單的說,在二維和三維空間裡,兩個點間的距離就是它們在歐氏空間裡的真實距離。事實上,兩個數據點的情形就是畢達哥拉斯定理用兩個直角邊計算斜邊的公式。

現實中,我們的數據維度往往高於三維。對於n維空間裡的兩個點p1和p2,它們的坐標分別為(p11, p12,…, p1n), (p21, p22,…, p2n)。這兩個點的歐氏距離可以用如下公式定義:

這種距離公式有什麼用呢?在非監督機器學習算法k-means聚類中,我們事先並不知道我們的觀測(obs)應該屬於哪個類別。距離公式對於這樣的場景尤為重要。通常,我們隨機選擇n個數據中心,作為n個不同類別的「中心」;隨後,其他觀測將通過歐式距離公式定義的距離「就近」被分配到不同類別中。新的中心被計算,觀測與新中心的距離重新計算,類別重新定義,不斷迭代這個過程直至最終結果不再改變。

歐氏距離只是「一棵樹」,它之外還有一片森林。感興趣的可以安裝R包philentrophy,裡面有46種不同的距離算法可以調用。

1.Drost HG. Philentropy: Information Theory and Distance Quantification with R. Journal of Open Source Software (2018).<doi:10.21105/joss.00765>

2.https://www.brandidea.com/kmeans.html

更多精彩:

☆TCGA時間線上的裡程碑

☆第一個抗癌靶向治療藥物

☆中國人群三陰乳腺癌多組學研究

☆EGFR和C-RAF雙重抑制使部分晚期胰腺導管腺癌進入完全緩解

☆這些年發在CNS上的單細胞測序癌症研究

☆世衛GLOBOCAN 2018年全球癌症統計報告

☆一個患者的癌症中有多少體細胞突變呢?

☆第一個國產PD-1單抗獲批上市

☆人類基因組有多少蛋白質編碼基因

☆從基因序列預測蛋白質三維結構

智預微信公眾號歡迎涉及癌症、數學、算法、統計等相關領域投稿

投稿郵箱:13488122802@163.com

相關焦點

  • 機器學習中的分類距離
    生活中,距離通常是用於形容兩個地方或兩個物體之間的遠近。在人工智慧機器學習領域,常使用距離來衡量兩個樣本之間的相似度。「物以類聚」我們知道「物以類聚」通常用於比喻同類的東西經常聚在一起。機器學習中,距離就是遵循物以類聚的思想。通過兩個樣本特徵數據進行距離計算後,得到的距離值越小,代表兩者的相似度越高,屬於同一類的可能性就越高。
  • 歐氏距離、閔氏距離和馬氏距離(閔可夫斯基軼事外一則)
    距離是數學中的基礎概念之一,也是多元數據分析、機器學習方法(如聚類分析、判別分析等)中的重要概念之一。
  • 在機器學習的世界裡打怪升級——KNN算法篇
    「全文約2000字,閱讀時間約6分鐘」 來自機器學習世界裡的勇士,你剛走出新手村,還沒完全武裝自己,就碰到了旅途中第一個小boss——KNN算法。 不過也別害怕,這是入門機器學習zui簡單、也zui容易理解的一個算法。
  • NN中常用的距離計算公式:歐式距離、曼哈頓距離、馬氏距離、餘弦、漢明距離
    3 Mahalanobis馬氏距離馬氏距離的淺顯解釋,見我的博文:https://blog.csdn.net/weixin_41770169/article/details/80759195馬氏距離和歐式距離的對比,見我的博文:https://blog.csdn.net/weixin_41770169/article/details/80759236
  • 愛犯錯的智能體:談談黎曼流形與視覺距離錯覺問題
    在人工智慧熱潮下,學統計的又看不起研究機器學習的;而學機器學習的會看不起做多媒體的;而做多媒體的又看不起做資料庫的。純做密碼學研究的,鄙視鏈應該在應用數學與機器學習方向之間,哪會被才高八鬥的黎曼看上?能看上黎曼的自然也是大牛, 當年是德國數學家高斯看中了他並理解了他的幾何學觀點。今天要講的也不是黎曼猜想,而是黎曼的幾何學觀點與人工智慧的關係。
  • 馬氏距離及其幾何解釋
    機器學習中的算法會用到很多不同距離概念,網上有很多文章介紹。本文要講的是其中一種,馬氏距離(Mahalanobis Distance)。由於網頁上寫公式實在痛苦,所以儘量節省公式,有些地方用Latex命令代替了。馬氏距離是由印度統計學家馬哈拉諾比斯(P. C.
  • 深海「異形」-歐氏尖吻鯊
    歐氏尖吻鯊 又名歐氏尖吻鮫、歐氏劍吻鯊,也被稱為哥布林鯊,是一種深海鯊魚。
  • CICC科普欄目|距離,原來還有這麼多類
    採用什麼樣的方法計算距離是很講究,甚至關係到分類的正確與否。1. 歐氏距離(EuclideanDistance)       歐氏距離是最易於理解的一種距離計算方法,源自歐氏空間中兩點間的距離公式。(1)二維平面上兩點a(x1,y1)與b(x2,y2)間的歐氏距離:(2)三維空間兩點a(x1,y1,z1)與b(x2,y2,z2)間的歐氏距離:(3)兩個n維向量a(x11,x12,…,x1n)與 b(x21,x22,…,x2n)間的歐氏距離:Matlab計算距離主要使用pdist函數。
  • 歐氏幾何(Euclidean geometry)
    歐氏幾何全稱歐幾裡德幾何學
  • 拓撲數據分析與機器學習的相互促進
    對拓撲數據分析(TDA)不熟悉的人,經常會問及一些類似的問題:「機器學習和TDA兩者之間的區別?」,這種問題的確難以回答,部分原因在於你眼中的機器學習(ML)是什麼。下面是維基百科關於機器學習的說明:機器學習研究算法學習和構造,能從數據中進行學習並做出預測。這種算法通過從輸入實例中建立模型,目的是根據數據做出預測或決策,而不是嚴格地遵循靜態程序指令。
  • 從「歐氏空間」到「卡-丘空間」,見證「時空觀念」的顛覆與重建
    他在《幾何原本》裡提出五大公設,然後據此進行層層推演,最終由簡至繁,形成了邏輯嚴密的「歐幾裡德幾何」,這個在遙遠古代發展起來的幾何學,其內容已包括今天初、高中幾何的全部內容,其偉大的成就足以令人驚嘆。正是這本偉大的《幾何原本》,使得人類第一次用數學的語言構建了「角」和「空間」中「距離」之間聯繫的「法則」。接著建立起了「二維」和「三維」抽象的「數學空間」。
  • 歐氏品牌籃球體育木地板企業簡介
    原標題:歐氏品牌籃球體育木地板企業簡介歐氏地板創立於2003年,總部位於北京,是一家集專業運動實木地板研發、生產、銷售,以及運動木地板場館設計、安裝、翻新、保養、售後服務為一體的專業運動木地板綜合性企業,是國內率先打通運動木地板全產業鏈產品線的品牌。
  • 周末AI課堂:非線性降維方法(理論篇)機器學習你會遇到的「坑」
    MDS(多維縮放)和ISOMAP(等度量映射)數學準備:1.流形(manifold):局部近似歐氏空間的拓撲空間,流形上的任意一點都有鄰域近似為歐幾裡得空間。但裡面有一點可能並不合理,因為我們若要保持原始空間的距離,原始空間又是一個流形,計算樣本的歐幾裡得距離,相當於並沒有利用流形的內蘊空間。如圖,樣本的距離應該是紅線,而不是藍線。ISOMAP(Isometric mapping)不再使用原始空間的歐氏距離,而是使用兩點的測地線距離。
  • 機器學習——K最鄰近(KNN)算法詳解
    說到這,我們就會拋出下面兩個問題:因為你要知道每個實例之間的距離,所以實例與實例之間的距離是怎麼計算的?由上面的例子可以知道,當我們選取K不同的時候,相同的實例會有不同的分類結果,所以這個距離K是怎麼選取的?對於問題一,我們有兩種計算距離的方法:歐氏距離(歐幾裡得距離)和曼哈頓距離。相應的公式:
  • 讓我們來談談歐氏幾何是如何發展成非歐幾何的
    在閱讀正文之前:為了避免日常理解中「直」的含義的幹擾,日常理解中的「直」和「曲」只是相對的,沒有絕對的「直」和「曲」;為了便於理解,在閱讀空間、表面等方面時,可以想像自己是空間或表面上的一隻小螞蟻,這樣你就可以很容易地理解;深呼吸三遍,開始閱讀歐氏幾何
  • 詳解數學中的「距離」
    4) d(A,C) +d(C,B) >= d(A,B) // 三角形法則: (兩邊之和大於第三邊)好了,有了上面的4條,我們就可以定義在不同的情況下的距離了。歐氏距離最常見的兩點之間或多點之間的距離表示法,又稱之為歐幾裡得度量,它定義於歐幾裡得空間中,如點 x = (x1,...
  • 閔式距離詳解及其SPSS實現
    ③閔式距離的SPSS實現一、閔可夫斯基距離閔可夫斯基距離(Minkowski Distance)又叫做閔氏距離,是一組距離的定義,其計算公式為如下圖。根據q取值的不同,閔氏距離可分為曼哈頓距離、歐氏距離和切比雪夫距離等。
  • 教科書級別的數學益智遊戲,《歐氏幾何》讓你不想停下學習的腳步!
    看到這裡,小編相信同學們也明白了「歐氏」的名稱來源。歐幾裡得的名言「幾何的世界沒有皇家道路」仿佛是製作者對遊戲最好的詮釋,在《歐氏幾何》中,我們必須努力尋找所有謎題的最佳解法,沒有任何捷徑哦。開始遊戲後,小編就放心啦,原來《歐氏幾何》會先幫助玩家學習點、直線、圓等等幾何定義,先讓玩家學習到基本的作圖方法,接著再使用作圖方法來破解幾何題目。
  • 絕世傳奇——非歐幾何還原為歐氏幾何
    例如非歐幾何和歐氏幾何的關係。非歐幾何向歐氏幾何的還原是映射式還原的典型案例。歐氏幾何第五公理(平行公理)的證明是一個持續了2000年的數學難題,無數的嘗試都失敗了。直到非歐幾何向歐氏幾何的還原工作完成,非歐幾何才得到數學界的理解和認可。
  • 長相奇特的動物;鯨頭鸛、紅唇蝙蝠魚及歐氏尖吻鮫等
    在深海裡,小章魚發育完全了再孵化,可以提高它的存活能力。)二,螞蟻。(這種螞蟻在樹皮裡飼養小型蚧殼蟲作為食物,螞蟻中的牧民?)三,鯨頭鸛。四,歐氏尖吻鮫 。一種深海鯊魚,它們首先於日本的海域被發現。歐氏尖吻鮫是深海的鯊魚,經常在水深約250米的海底生活。最深的標本就曾於水深1300米處發現。由於極難捕捉,人類對歐氏尖吻鮫所知甚少。