多元統計分析——歐式距離和馬氏距離

2021-01-14 We are Abel

今天介紹一下歐式距離和馬氏距離。歐式距離大家都比較熟悉,但是歐式距離在某些情境下不太適用,於是印度統計學家馬哈拉諾比斯(P. C. Mahalanobis)提出了馬氏距離,來解決不能直接使用歐式距離的問題。

文章分為四個部分,第一部分簡單介紹歐式距離,第二部分給出不能直接使用歐式距離的例子,第三部分介紹馬氏距離,第四部分將歐式距離和馬氏距離的優缺點作比較。

歐式距離

歐式距離是指歐幾裡得空間中兩點的直線距離,設p維空間中兩點x和y的為:

那麼x,y之間的歐式距離可以表示為:

平方歐式距離為:


不能直接使用歐式距離的例子

如何判斷兩國各項目成績之間的差距?

當我們用歐式距離來比較各國之間田徑項目成績差異的時候,首先要對數據做標準化變換。即每個項目減去各自的均值再除以標準差,這樣子可以消除單位和方差差異的影響。但是儘管做到這樣,我們發現,有些項目之間有較強的相關性,比如100米和200米成績的相關性就比較強,在歐式距離的計算中我們不管各個項目之間的相關性,而是給各個分量想相同的權重。這就是歐式距離所忽視的地方,即不能消除各個項目之間相關性的影響。

因此,我們引入了馬氏距離。


馬氏距離

同樣地,設p維空間中兩點x,y為:

則x,y之間的馬氏距離可表示為:

x到總體的馬氏距離可表示為:

其中表示的是x和y的協方差矩陣,由於協方差矩陣的元素表示了各個分量之間的相關性,通過在歐式距離的基礎上乘一個協方差矩陣的逆,馬氏距離就消除了數據之間相關性的影響。

馬氏距離不受量綱的影響,兩點之間的馬氏距離與原始數據的測量單位無關,同時還可以排除變量之間的相關性的幹擾。所以在多用統計分析中一般採用馬氏距離。但是,另一方面,馬氏距離誇大了微小變量的作用。同時由於馬氏距離與協方差矩陣有關,因此協方差矩陣的不確定性往往容易導致無法計算出馬氏距離。

相關焦點

  • NN中常用的距離計算公式:歐式距離、曼哈頓距離、馬氏距離、餘弦、漢明距離
    1 歐氏距離Euclidean Distance:2 曼哈頓距離Manhattan:3 Mahalanobis馬氏距離馬氏距離的淺顯解釋,見我的博文:https://blog.csdn.net/weixin
  • 歐氏距離、閔氏距離和馬氏距離(閔可夫斯基軼事外一則)
    本文介紹一下另外兩種常用的距離定義:閔可夫斯基(Minkowski)[1]距離(簡稱閔氏距離)和馬哈拉諾比斯[2](Mahalanobis)距離(簡稱馬氏距離),它們都可以看作是歐氏距離的推廣。注意上式的兩種不同表達方式,第一種是用各分量顯式表達出計算公式來,第二種是利用向量點乘運算表達,正是從這兩種不同表達形式分別推廣出了閔氏距離和馬氏距離。
  • 馬氏距離及其幾何解釋
    上圖左為歐氏距離,A和B到\mu是一樣的距離,上圖右為馬氏距離,A和B到\mu也是一樣的距離,這說明馬氏距離的計算中考慮了在不同方向上尺度單位是不同的馬氏距離是在統計學中提出的,與多元高斯分布具有緊密聯繫。首先回顧一下概念,多元隨機變量記為X=[x_1,x_2,...
  • 常用的相似度和距離計算方法
    與餘弦相似度相關的指標叫做餘弦距離,定義如下:適用場景這裡和歐式距離比較著來說,歐式距離體現數值上的據對差異,而餘弦距離體現方向上的相對差異。例如:分析兩個用戶對於不同視頻的偏好,更關注相對差異,顯然應當使用餘弦距離;而當我們分析用戶活躍程度,以登錄次數和平均觀看時長作為特徵時,餘弦會人為(1,10)和(10,100)兩個用戶關係很近,但顯然兩個用戶的活躍程度有著極大差異,因此我們更關注數值絕對差異,應當使用歐式距離。
  • 閔式距離詳解及其SPSS實現
    多元統計分析中,距離是衡量樣品和變量間相似性和差異性的常用測度。許多多元方法都是以距離為基礎建立起來的。Minkowski距離是多元統計中最常見的一種距離形式,不同參考資料的翻譯名稱不同,有些叫閔可夫斯基距離,也有資料稱作明考斯基距離,建議記憶其英文名稱。本文主要包括三部分:①閔可夫斯基距離及其分類。②曼哈頓距離和切比雪夫距離的相互轉化。
  • 常見的距離算法和相似度計算方法
    )和歐式距離一樣,它們都是一種距離度量的定義、可以用來測量某兩個分布之間的距離。修正了歐式距離中各個維度尺度不一致且相關的問題。如果協方差矩陣是單位向量,也就是各維度獨立同分布,馬氏距離就變成了歐式距離。
  • 詳解數學中的「距離」
    ,xn) 和 y = (y1,...,yn) 之間的距離為:該距離最常用的 p 是 2 和 1, 前者是歐幾裡得距離(Euclidean distance),後者是曼哈頓距離(Manhattan distance)。
  • 《應用多元統計分析(第二版)》
    《應用多元統計分析(第二版)》  作者       何曉群  編著書號       ISBN 978-7-5037-7449-2開本      出版時間   2015年8月定價       41.00元責任編輯   張賞 內容簡介(中文):    本書是全國統計教材編審委員會「十二五」規劃教材,該書假定學生已具有線性代數、概率論與數理統計的基礎知識,本著提高人文社會科學、財經管理類學生量化分析能力的宗旨,在不失理論嚴密性的前提下,力求將多元統計分析主流方法的背景
  • 機器學習中距離和相似性度量方法
    如果維度相互之間數據相關(例如:身高較高的信息很有可能會帶來體重較重的信息,因為兩者是有關聯的),這時候就要用到馬氏距離(Mahalanobis distance)了。2.馬氏距離考慮下面這張圖,橢圓表示等高線,從歐幾裡得的距離來算,綠黑距離大於紅黑距離,但是從馬氏距離,結果恰好相反:馬氏距離實際上是利用 Cholesky transformation 來消除不同維度之間的相關性和尺度不同的性質。
  • CICC科普欄目|距離,原來還有這麼多類
    若X是一個M×N的矩陣,則pdist(X)將X矩陣M行的每一行作為一個N維向量,然後計算這M個向量兩兩間的距離。例子:計算向量(0,0)、(1,0)、(0,2)兩兩間的歐式距離    1.0000   2.0000    2.23612. 曼哈頓距離(ManhattanDistance)       從名字就可以猜出這種距離的計算方法了。
  • 馬氏距離
  • 機器學習裡的歐氏距離
    在詩句裡,距離可以很浪漫,「世界上最遙遠的距離,不是生與死的距離,不是天各一方,而是,我就站在你的面前,你卻不知道我愛你」。在機器學習裡,距離是嚴謹的,需要一個精確的公式來計算。許多機器學習的常見算法都需要用到距離函數,即用於計算兩個不同觀測(obs)之間的距離。
  • 【多元調解】網絡調解,千裡距離轉為方寸間,矛盾糾紛得以快速調解
    【多元調解】網絡調解,千裡距離轉為方寸間,矛盾糾紛得以快速調解 2020-07-20 18:10 來源:澎湃新聞·澎湃號·政務
  • 海拉爾與滿洲裡距離多少公裡?
    如果在呼倫貝爾旅遊,除了看草原外,海拉爾、滿洲裡這兩個城市都是您必須要去的兩個城市,那麼海拉爾與滿洲裡距離多少公裡呢?小編現在便向您介紹呼倫貝爾這兩個主要城市與公裡數。以及交通等各方面的問題。滿洲裡:屬呼倫貝爾市管轄的內蒙古自治區計劃單列市,比海拉爾區高半格,呼倫貝爾市低半格,滿洲裡的名字為俄語的音譯,最初的滿洲裡叫做「霍勒金布拉格」意為一眼旺盛的泉水之意,因為滿洲裡西有一眼泉水而得名,後來中東鐵路修成後,稱這裡為「滿洲裡亞」意為進入中國的第一站之意,後簡稱滿洲裡,滿洲裡是中國最大的陸路口岸,承載著中俄兩國60%的過貨量,滿洲裡是呼倫貝爾最漂亮的城市,整個城市的建築以歐式風格為主
  • 馬氏體鋼的焊接技巧方法
    馬氏體鋼有兩類: 一類是簡單的Cr13系列鋼,例如1Cr13、2Cr13、3Cr13、4Cr13等; 另一類是為了提高熱強性,以Cr12為基礎,加入W、Mo、V、Ti、Nb等元素的多元合金強化的馬氏體鋼,例如1Cr11MoV、1Cr12WMoV鋼等。
  • 數據科學家絕對不能錯過的3個距離
    歐式距離(Euclidean Distance)(或直線距離)歐氏距離算法最直觀:這是有人讓我們測量距離時最直觀的一種距離計算方法。歐氏距離就是橫縱坐標軸(x,y)內兩點間的直線距離:比如在世界地圖上,可以通過坐標(緯度,經度)鎖定一個城市。
  • 機器學習中的分類距離
    一圖看清「歐曼雪」下面我們再從簡單的二維平面坐標圖來對比了解歐氏距離、曼哈頓距離和切比雪夫距離(以下簡稱「歐曼雪」)這三種距離的區別。上圖是由X和Y組成的二維平面坐標,現有A、B兩個二維樣本值,其投影坐標點分別為:A(X1,Y1)、B(X2,Y2)A、B兩點之間的直線段距離(圖中的c)就是A、B兩個樣本的歐氏距離。
  • 什麼是「歐幾裡得距離」(ED)?| 群體遺傳專題
    要理解歐幾裡得距離,我們先要了解歐幾裡得空間。我們通常所在的空間是三維空間,三維空間任意的點可以被一個三維的坐標定義。而將三維拓展為更高的n維,即得到了n維歐幾裡得空間。而在n維空間中兩個點之間的距離,我們就稱之為歐幾裡得距離。在具體的應用中,如果一組數據擁有n個相互獨立的變量,我們就可以將其置於n維的歐幾裡得空間中,並應用歐幾裡得距離來量化兩組數據之間的差異。
  • 上大《Scripta Mater》一種預測馬氏體相變溫度的方法!
    論文連結 https://doi.org/10.1016/j.scriptamat.2020.06.062 馬氏體和殘餘奧氏體是高強鋼中兩種最基本的組織,如何準確預測殘餘奧氏體的穩定性和含量一直是困擾研究者們的難題。
  • 基於OTUs的距離計算
    ## 簡介生態相似性(Ecological resemblance)以計算樣方之間的群落組成相似程度或相異程度(距離)為基礎,是處理多元生態數據的基本方法之一