漲知識!數據科學家絕對不能錯過的3個距離

2020-12-11 讀芯術

全文共1617字,預計學習時長5分鐘

圖源:Unsplash

世界上最遙遠的距離

不是生與死的距離

而是我站在你面前

你卻不知道我愛你

「尷尬開場」到此結束。

今天,小芯給大家帶來的是數據科學家絕對不能錯過的3個距離知識!

無論你是剛開始接觸數據科學還是有一定的經驗,下面這三個距離都是必不可少的知識:

1. 歐式距離(Euclidean Distance)(或直線距離)

歐氏距離算法最直觀:這是有人讓我們測量距離時最直觀的一種距離計算方法。

歐氏距離就是橫縱坐標軸(x,y)內兩點間的直線距離:比如在世界地圖上,可以通過坐標(緯度,經度)鎖定一個城市。

歐氏距離算法測量直線距離

想像一下在下圖城市中心地圖上測量A、B兩點間的直線距離。

A到B之間的歐氏距離就是直線距離,採用畢達哥拉斯算法

既然是歐氏距離,那麼只需要兩點的橫縱坐標,再運用畢達哥拉斯算法即可。

畢達哥拉斯定理是指在已知直角的水平線和垂直線長度時,通過公式a + b=c計算得出直角的「對角線」長度(或弦長)。

點A、B之間歐氏距離的計算

2. 切比雪夫距離(Chebyshev Distance)(也稱棋盤距離)

切比雪夫距離也叫棋盤距離(ChessboardDistance)或L-Infinity距離。對該距離最簡單的解釋就是「王」在棋盤上移動的距離:可以朝任意方向走(上、下、左、右)。

切比雪夫距離中,走斜線跟走直角是一樣的

與L1距離的不同之處在於,這裡我們將走直角的路線當作一步,而在城市街區距離中走直角是當作兩步的(一步向左一步向右)。

該距離跟歐式距離也不一樣,因為在歐氏距離中,正如上文所述,直角的路徑是(x+y)開根的值。

歐氏距離、L1距離和切比雪夫距離的對比

切比雪夫距離就是棋盤距離。

舉一個簡單的例子就是有兩個獨立發動機的無人機:一個發動機是提供向前的動力,另一個是提供向側面移動的動力。二者可以同時運轉,而且可以在同一時間達到各自的最大動力。

效果就是無人機可以沿斜線飛速移動,跟水平移動的速度一樣快:兩個發動機都運轉到極限就行。

再看上方的切比雪夫距離城市地圖,步子1時,兩個發動機同時運轉,在步子2中二者也保持同時運轉,但到步子3時就不用向前移動了,只需給側面提供動力的發動機運轉即可。

切比雪夫距離也因此得名「軸上最長的距離」

計算點A,B間的切比雪夫距離

3. L1距離(或城市街區距離)

L1距離,也稱城市街區距離、曼哈頓距離(ManhattanDistance)、計程車距離(TaxicabDistance)、直線式距離(RectilinearDistance)或蛇形距離(SnakeDistance),並非指直線而是按街區算。

L1距離測量街區距離:只算直線部分

看下面這幅圖便一目了然:L1距離只允許直線式移動!

點A到B之間的L1距離就是城市街區距離,也稱為曼哈頓距離。

圖中由A到B距離最短有多種選擇:可以先朝上走過兩個街區,然後右轉再走過三個街區;或者先朝右走過三個街區,然後轉而朝上走,等等。

L1距離就是段距離,所以跟實際路線無關。只需要知道最終要向東移動一定的x軸距離,向北移動一定的y軸距離。兩個距離相加就是AB間的L1距離。

計算點A,B間的曼哈頓距離

希望這篇文章對大家以後理解距離有幫助,小芯在這裡也非常感謝大家的閱讀。

武運昌隆!

留言點讚關注

我們一起分享AI學習與發展的乾貨

如轉載,請後臺留言,遵守轉載規範

相關焦點

  • 109個數據科學面試問答,你絕對不能錯過的寶藏庫!
    在面試的時候,面試官所出題目涉及的範圍可能會非常廣,這既考驗了面試者的技能知識,又很能體現面試者的溝通技巧。面試官會通過一系列的問題來衡量你的數據統計、編程,和數據建模能力,而且這些問題是經過專門設計的,需要你精神高度集中,並迫使你展示在壓力下的工作狀態。
  • 孩子學習英語,絕對不能錯過這5部英語紀錄片!
    它們也許是地球上最偏僻,但2萬餘個島嶼個個都被開拓了,從紐幾內亞,天堂鳥的家園,部落野蠻的成人儀式將年輕的戰士變成鱷魚人,到斐濟,法屬玻利尼西和夏威夷。據估計每6萬年才有一個物種到達夏威夷,從鹹水鱷和巨鰻到冠鬣蜥和怪蛙,為了成功不顧一切到達數千哩遠的島嶼,這些旅程是很好的功績。
  • 科學家如何測量遙遠天體的距離?原來宇宙也有「尺」,量一下就行
    我們前一期提到過,100光年以內的天體,我們可以通過三角視差法來計算其距離。而這個方法,在100光年以外,就不能使用了,原因我們也講過。那麼,科學家如何計算100光年以外天體的距離呢?好在,科學家發現了宇宙專用的「尺子」——造父變星。
  • 數據科學家超級明星必備的12個技能
    教育背景數據科學家基本受過高等教育(88%的人至少具有碩士學位,46%的人擁有博士學位),儘管有一些例外,但通常需要非常強大的教育背景和知識儲備來滿足成為數據科學家所必需的知識深度。最常見的研究領域是數學和統計學(32%),其次是計算機科學(19%)和工程學(16%)。
  • 一名數據科學家的新年計劃
    如果你看到這篇文章的題目開始閱讀本文,那麼一定是數據科學激起了你的興趣。你肯定希望2016年成為你的轉運年,對不對?如果你從今天起堅持去執行這些新年計劃,轉運的可能性就會更大。要知道,成為一名數據科學家不能一蹴而就,需要的是一個過程。因此,朝目標邁進的過程中一定要充滿耐心。根據發展階段的不同,我在此給大家分享一些每個數據科學家都應該做的新年計劃。
  • 蹩腳數據科學家的10種現象
    對數據科學的熱情以及掌握一定的技能,這是成功的關鍵。如果你只是假裝有興趣,或者並不具備重要的技能,總有一天,你會原形畢露。如今,數據科學家已是炙手可熱,那些曾經對其毫無所知的企業,眼下也開始在全世界搜尋最好的數據科學家。問題在於,優秀數據科學家的標準是什麼?和其他東西一樣,數據科學家也是良莠不齊,招聘他們是一項重要的投資,如果選了個「次品」,你會付出沉重的代價。
  • 科學家是如何知道天體距離我們有多遠呢?
    經常聽到各種關於天文的報導,動輒距離上千上萬光年,對於如此遙遠的距離,科學家又是如何得知的呢。簡單一個字概括,就是「看」,用啥看?用望遠鏡看。不過,測量地月距離就不需要利用望遠鏡了,由於距離很近,直接採用電磁波測距就行了,由於電磁波的速度是光速,一來一回就可以計算地月距離了。
  • 數據科學家新手常犯的 13 個錯誤(附工具、學習資源)
    正如房子是由磚塊砌成的,數據科學家也是由所有獨特技能所集成的。有大量的資源可以幫助你學習這些主題,下面我給每個主題列出一個資源,可以幫助你入門: 你還可以查看Analytics Vidhya的「數據科學入門」課程,其中包括一個有關統計和概率的綜合模塊。
  • 新南威爾斯大學全球最具影響力科學家人數3年漲10倍!
    在最新的2019科睿唯安「高被引」科學家名單中,雪梨新南威爾斯大學共有30名科學家光榮上榜。不僅上榜人數與去年相比攀升50%,而且在澳洲八大名校中的排名也晉升至第二。今年,全球共有6008名自然科學家和社會科學家上榜。他們的論文著作被引用頻次位列同學科的前1%,彰顯了他們在同行之中的重要學術影響力。新南威爾斯大學科學家最近幾年在「高被引」榜單上的表現可以用驚豔來形容。
  • 數據科學家的八大關鍵技能
    在過去幾年中,隨著大數據的崛起,出現了大批的新型分析師。所謂的「數據科學家」被許多人認為是唯一能夠充分利用大數據真正價值的人。雖然他們的職能已經非常清晰了,但是他們應該具有怎樣的品質卻還不清楚。人們最常見的偏見就是,認為統計學家就是數據科學家或者具有分析背景的商務智能專家會是一個好的數據科學家。也許在某些情況下這是正確的,但也有例外。
  • 數據科學家讀書會——從零開始學習大數據資料庫之MySQL
    經過多名專家級導師的認真探討與多期項目的經驗積累與調整,我們有效結合了基礎知識講授與大量的實戰練習,幫助各位學員從零起步,一步步的成長為專業的數據科學家。開設Data Scientist求職訓練營5年來,已為全球知名企業輸送千名以上優秀Data Scientist。新一期課程2020年5月30日開課,感興趣的同學不要錯過。
  • 數據科學家必會10個統計分析方法
    著名求職網站Glassdoor根據龐大的就業數據和員工反饋信息,將數據科學家排名為美國最佳的25個工作之首。雖然名頭不小,但毫無疑問,數據科學家所做的具體工作是不斷發展變化的。隨著機器學習等技術越來越普及,像深度學習這樣的新興領域在研究人員、工程師以及聘用他們的公司中成為新寵,數據科學家們將繼續在創新浪潮和技術進步中嶄露頭角。
  • 10種最常用的數據科學工具,最後一款絕對不要錯過
    從事數據科學和了解數據科學的人,應該都知道數據和數據科學的重要性。數據科學就是利用數據來輔助決策、解決實際面臨的問題。特別是現在大數據時代,企業乃至個人都已經深刻認識到數據背後的無限魅力。但是,數據科學家們要想完成這複雜而又繁瑣的數據收集、存儲、分析處理工作,就必須依賴這種統計學工具和程式語言。這裡給大家整理和比較了10款較為常用的數據科學工具,而且最後一款是絕對不容錯過!WekaWeka是一款基於Java語言編寫的機器學習軟體,主要集合了用於數據挖掘的各種機器學習算法,例如分類、回歸、聚類、數據準備和可視化等。
  • 看專家的經典答案,真漲知識
    看專家的經典答案,真漲知識在高頻率快節奏的生活方式下,很多職場打拼的精英男女不堪重負,身體時常處於亞健康狀態,每天精神高度緊張,身體極度疲乏,就連在睡夢中都無法安枕,夢境連連,倘若是好夢美夢喜事,倒還略感欣慰,然而絕大數人經常做的卻是噩夢,很多人困擾不已,都在尋求有沒有能控制夢境的方法或者讓自己在夢境中能保持清醒,減少影響,然而大家得到的答案卻往往似是而非。
  • 提高數據科學家講故事能力的5個小技巧
    作為數據科學家,我們也被教導要善於講故事。原因是我們經常需要向不同的利益相關者展示我們的工作。因為他們來自不同的背景,所以我們必須相應地改變我們的語氣。但在任何情況下,你的故事都是一樣的。 有效講述故事的技巧: 一個好故事有很多因素。
  • 數據科學家需要掌握的10個基本統計技術
    【IT168 編譯】無論您在數據的科學性問題上持哪種看法,都無法忽視數據的持續重要性,也不能輕視分析、組織和情境化數據的能力。 根據大量的就業數據和員工反饋信息統計,在「25個最佳美國就業機會」排行榜中,數據科學家排名第一。毫無疑問,數據科學家所做的具體工作內容將會進一步拓展。
  • 想成為真正的數據科學家,除了資歷你還需要這4個技能
    不過,從「會洗數據寫代碼」到「優秀的數據科學家」之間到底有多少距離,很多人都說不清。對於不同的企業,數據科學家的作用會有各種各樣的不同,甚至同一個企業中不同團隊的數據科學家都會有不小的區別。就算是想要為自己的數據科學家構建一個標準成長路徑的企業都會覺得非常苦惱。如果沒有清晰的成長路徑,這些充滿天分的計算機魔法師們就會有遇到瓶頸的風險。
  • 科學家如何尋找系外行星?距離那麼遠,科學家能找到嗎?
    在這個系列裡,我們介紹了科學家測量地球直徑、質量、日地距離、系外恆星距離的各種方法,有沒有讓大家長知識呢?接下來,咱們要介紹科學家尋找系外行星的方法~直接觀測法——「霸王硬上弓」系外行星的發現和太陽系行星的發現不同,難度大了不止一個數量級。
  • 漲知識!科學家為給新元素取名,不惜造了2個字!
    隨著科技的進步,科學家經過多年的努力寫完了元素周期表第七周期,其中最後四個被找到的元素是第113號、115號、117號、118號元素——這也是人們迄今找到最新的四個元素。 200多年來,這個神秘而富有挑戰性的領域,吸引著無數科學家為之不斷探索。2015年12月30日,國際純粹與應用化學聯合會(IUPAC)確認人工合成了113號、115號、117號和118號4個新元素。隨之,元素周期表第七周期被全部填滿!
  • 35張圖,看懂腸道和大腦的魔性關係,絕對漲知識!
    呃(⊙o⊙)…感覺是不是很魔性?畫畫可以天馬行空,但真實情況是這樣麼?腸道和微生物,真的有這麼重要、這麼厲害麼?答案貌似是肯定的:研究者未公開發表的實驗表明,把IBS患者便便裡的細菌分離出來,轉移到小鼠腸道裡,這些小鼠表現出焦慮的行為,而轉移了正常人細菌的小鼠一切正常!呃(⊙o⊙)…真魔性!