數據科學家經常處理高維數據——根據上下文,數據科學家可以處理數百萬維的數據。在一個每一個新特性都是另一個維度的世界裡,很容易失去對更高維度的真正理解,以及它們是如何工作的,這對設計算法和數據分析很有幫助。
幾乎所有的機器學習算法都要求在多維空間中找到兩點之間的歐幾裡得距離——一條直線。在本文中,您將了解如何在4+維中計算歐式距離。
最初的勾股定理指出,在一個二維直角三角形中三條邊a,b,c滿足: a+ b= c。
通過添加另一個三角形,其長度與原始三角形的斜邊相同,我們可以通過替換來擴展勾股定理:
如果將藍色三角形「抬高」,使它的長邊仍然與綠色三角形的斜邊相連,並且d垂直於b:
紅色的線代表三維的線。它是由邊a、b和d決定的,因此,a+ b+ d= e。換句話說,三維距離是它三條邊的平方和的平方根。
將這個想法擴展到四個方面:
通過將附加的黃色三角形視為與e相連,並且將線段f垂直於d,我們可以說g^2等於其四個邊的平方之和,即a^2+b^2+d^2+f^2。a和b分別形成x和y軸;d形成z軸,附加三角形的短邊表示新尺寸的長度。
這個想法可以進一步概念化,把三角形堆疊想像成一張二維的紙,沿著c摺疊產生第三維,然後沿著e摺疊,使得f垂直於d以及其他軸,比如a和b。
添加新維度相當於在斜邊上疊加更多的三角形。
這依賴於所有維都互相正交的假設。這也是主成分分析等降維方法在多維空間中尋找正交向量的假設。PCA與多維空間中的歐幾裡得距離具有相同的基礎。
因此,給定一個n維地點集,
其中a表示第一個點在n維空間中的位置,其第m個元素表示第m維空間中該點的值(例如,如果a(1) = 10,則該點的x軸值為10,則n維空間中的距離由
或者,邊的平方和(由維度n a和b之間的距離給出)。
這也被稱為歐幾裡得範數。現在,你對運算法則如何在高維數據集中運作有了一些直覺,能夠在一個我們永遠無法完全理解的世界中畫出一條直線。