乾貨滿滿|不容錯過的數據科學入門數學指南

2020-12-11 CDA數據分析師

作者 | Randall Hall 來源 | 機器之心

想要入行數據科學而又不知如何開始嗎?先看看這篇使用的數據科學入門數學指南吧!

數學就像一個章魚:它的「觸手」可以觸及到幾乎所有學科。雖然有些學科只是沾了點數學的邊,但有些學科則被數學的「觸手」緊緊纏住。數據科學就屬於後者。如果你想從事數據科學工作,你就必須解決數學問題。如果你已經獲得了數學學位或其它強調數學技能的學位,你可能想知道你學到的這些知識是否都是必要的。而如果你沒有相關背景,你可能想知道:從事數據科學工作究竟需要多少數學知識?在本文中,我們將探討數據科學意味著什麼,並討論我們到底需要多少數學知識。讓我們從「數據科學」的實際含義開始講起。

對於數據科學的理解,是「仁者見仁,智者見智」的事情!在 Dataquest,我們將數據科學定義為:使用數據和高級統計學進行預測的學科。這是一門專業學科,重點關注理解有時有些混亂和不一致的數據(儘管數據科學家解決的問題因人而異)。統計學是我們在該定義中提到的唯一一門數學學科,但數據科學也經常涉及數學中的其他領域。學習統計學是一個很好的開始,但數據科學也使用算法進行預測。這些算法被稱為機器學習算法,數量達數百種。

深入探討每種算法需要多少數學知識不屬於本文的範圍,本文將討論以下常用算法所需的數學知識:

樸素貝葉斯線性回歸Logistic 回歸K-Means 聚類決策樹現在讓我們來看看每種算法實際需要哪些數學知識!

樸素貝葉斯分類器

定義:樸素貝葉斯分類器是一系列基於同一個原則的算法,即某一特定特徵值獨立於任何其它特徵值。樸素貝葉斯讓我們可以根據我們所知道的相關事件的條件預測事件發生的概率。該名稱源於貝葉斯定理,數學公式如下:

其中有事件 A 和事件 B,且 P(B) 不等於 0。這看起來很複雜,但我們可以把它拆解為三部分:

P(A|B) 是一個條件概率。即在事件 B 發生的條件下事件 A 發生的概率。P(B|A) 也是一個條件概率。即在事件 A 發生的條件下事件 B 發生的概率。P(A) 和 P(B) 是事件 A 和事件 B 分別發生的概率,其中兩者相互獨立。所需數學知識:如果你想了解樸素貝葉斯分類器算法的基本原理以及貝葉斯定理的所有用法,一門概率論課程就足夠了。

線性回歸

定義:線性回歸是最基本的回歸類型。它幫助我們理解兩個連續變量間的關係。簡單的線性回歸就是獲取一組數據點並繪製可用於預測未來的趨勢線。線性回歸是參數化機器學習的一個例子。在參數化機器學習中,訓練過程使機器學習算法變成一個數學函數,能擬合在訓練集中發現的模式。然後可以使用該數學函數來預測未來的結果。在機器學習中,數學函數被稱為模型。在線性回歸的情況下,模型可以表示為:

其中 a_1, a_2, …,a_n 表示數據集的特定參數值,x_1, x_2, …, x_n 表示我們選擇在最終的模型中使用的特徵列,y 表示目標列。線性回歸的目標是找到能描述特徵列和目標列之間關係的最佳參數值。換句話說,就是找到最能最佳擬合數據的直線,以便根據線的趨勢來預測未來結果。

為了找到線性回歸模型的最佳參數,我們要最小化模型的殘差平方和。殘差通常也被稱為誤差,用來描述預測值和真實值之間的差異。殘差平方和的公式可以表示為:

其中 y ^ 是目標列的預測值,y 是真實值。

所需數學知識:如果你只想簡單了解一下線性回歸,學習一門基礎統計學的課程就可以了。如果你想對概念有深入的理解,你可能就需要知道如何推導出殘差平方和的公式,這在大多數高級統計學課程中都有介紹。

邏輯回歸

定義:Logistic 回歸重點關注在因變量取二值(即只有兩個值,0 和 1 表示輸出結果)的情況下估算發生事件的概率。與線性回歸一樣,Logistic 回歸是參數化機器學習的一個例子。因此,這些機器學習算法的訓練結果是得到一個能夠最好地近似訓練集中模式的數學函數。區別在於,線性回歸模型輸出的是實數,而 Logistic 回歸模型輸出的是概率值。

正如線性回歸算法產生線性函數模型一樣,Logistic 回歸算法生成 Logistic 函數模型。它也被稱作 Sigmoid 函數,會將所有輸入值映射為 0 和 1 之間的概率結果。Sigmoid 函數可以表示如下:

那麼為什麼 Sigmoid 函數總是返回 0 到 1 之間的值呢?請記住,代數中任意數的負數次方等於這個數正數次方的倒數。

所需數學知識:我們在這裡已經討論過指數和概率,你需要對代數和概率有充分的理解,以便理解 Logistic 算法的工作原理。如果你想深入了解概念,我建議你學習概率論以及離散數學或實數分析。

K-Means 聚類

定義:K Means 聚類算法是一種無監督機器學習,用於對無標籤數據(即沒有定義的類別或分組)進行歸類。該算法的工作原理是發掘出數據中的聚類簇,其中聚類簇的數量由 k 表示。然後進行迭代,根據特徵將每個數據點分配給 k 個簇中的一個。K 均值聚類依賴貫穿於整個算法中的距離概念將數據點「分配」到不同的簇中。距離的概念是指兩個給定項之間的空間大小。

在數學中,描述集合中任意兩個元素之間距離的函數稱為距離函數或度量。其中有兩種常用類型:歐氏距離和曼哈頓距離。歐氏距離的標準定義如下:

其中 (x1,y1) 和 (x2,y2) 是笛卡爾平面上的坐標點。雖然歐氏距離應用面很廣,但在某些情況下也不起作用。假設你在一個大城市散步;如果有一個巨大的建築阻擋你的路線,這時你說「我與目的地相距 6.5 個單位」是沒有意義的。為了解決這個問題,我們可以使用曼哈頓距離。曼哈頓距離公式如下:

其中 (x1,y1) 和 (x2,y2) 是笛卡爾平面上的坐標點。

所需數學知識:實際上你只需要知道加減法,並理解代數的基礎知識,就可以掌握距離公式。但是為了深入了解每種度量所包含的基本幾何類型,我建議學習一下包含歐氏幾何和非歐氏幾何的幾何學。為了深入理解度量和度量空間的含義,我會閱讀數學分析並選修實數分析的課程。

決策樹

定義:決策樹是類似流程圖的樹結構,它使用分支方法來說明決策的每個可能結果。樹中的每個節點代表對特定變量的測試,每個分支都是該測試的結果。決策樹依賴於資訊理論的理論來確定它們是如何構建的。在資訊理論中,人們對某個事件的了解越多,他們能從中獲取的新信息就越少。資訊理論的關鍵指標之一被稱為熵。熵是對給定變量的不確定性量進行量化的度量。熵可以被表示為:

在上式中,P(x_i) 是隨機事件 x_i 發生的概率。對數的底數 b 可以是任何大於 0 的實數;通常底數的值為 2、e(2.71)和 10。像「S」的花式符號是求和符號,即可以連續地將求和符號之外的函數相加,相加的次數取決於求和的下限和上限。在計算熵之後,我們可以通過利用信息增益開始構造決策樹,從而判斷哪種分裂方法能最大程度地減少熵。信息增益的公式如下:

信息增益可以衡量信息量,即獲得多少「比特」信息。在決策樹的情況下,我們可以計算數據集中每列的信息增益,以便找到哪列將為我們提供最大的信息增益,然後在該列上進行分裂。

所需數學知識:想初步理解決策樹只需基本的代數和概率知識。如果你想要對概率和對數進行深入的概念性理解,我推薦你學習概率論和代數課程。

最後的思考

如果你還在上學,我強烈建議你選修一些純數學和應用數學課程。它們有時肯定會讓人感到畏懼,但是令人欣慰的是,當你遇到這些算法並知道如何最好地利用它們時,你會更有能力。如果你目前沒有在上學,我建議你去最近的書店,閱讀本文中提到的相關書籍。如果你能找到涉及概率論、統計學和線性代數的書籍,我強烈建議你選擇涵蓋這些主題的書籍,以真正了解本文涉及到的和那些未涉及到的機器學習算法背後的原理。

相關焦點

  • Github 首選數據科學入門指南
    來源:開源最前線(ID:OpenSourceTop) 最近,在 Github 上發現了一份數據科學的
  • 世界頂級大學數據科學/金融數學(工程)專業碩士申請指南(乾貨)
    申請指南相關數據pgc_id=6827383972092183047新發現之旅. 2020年美國大學US NEWS最佳數據科學排名.今日頭條https://www.toutiao.com/i6826870614855254532/新發現之旅. 2021年 US News美國研究生研究最佳教育心理學專業
  • 想學習數據科學?我們整理了一份優質編程入門課程清單
    關於後者, Codecademy 的沒有視頻、基於文本教程的課程包含在內,但是 R 語言課程中的文本教程則不符合這個標準。雖然書籍是學習 Python 和 R 的可行方法,但本指南著重介紹在線課程。必須有一定的教學時長:完成課程至少需要十個小時。
  • 一份數據工程師必備的學習資源,乾貨滿滿
    什麼是數據工程師數據工程師負責構建和維護數據科學項目的數據架構,他們必須確保伺服器和應用程式之間的數據流是連續的。改進數據基礎應用程式,將新的數據管理技術和軟體集成到現有系統中,構建數據收集管道及其他各種各樣的事情,都屬於數據工程師的職責。數據工程中最受歡迎的技能之一是設計和構建數據倉庫的能力。
  • AI 開發者不容錯過的 20 個機器學習和數據科學網站
    然而,要想緊跟該領域的進步和發展,你需要付出大量努力來研究、閱讀和查看信息、新聞、指南以及其他內容。這項任務並沒有簡單的解決方案。你會發現很多地方都湧現出了大量標題黨,但僅靠這些文章是否就足夠?每天我都會看到海量的信息,但不幸的是,大多數都是虛假或毫無價值的東西,尤其是關於數據科學和機器學習的東西。我們究竟應該從哪裡尋找有用的資料呢?讓本文來為你解答。
  • 關於數據科學中數學和統計學的完全指南
    數學和統計學對學習數據科學至關重要,因為這些學科構成了所有機器學習算法的基礎。成為一名數據科學家,除了對程式語言要有很好的了解,還必須要掌握機器學習算法、數據驅動方法。但數據科學並不只涉及這些領域。在本文中,您將了解數學和統計學對數據科學的重要意義以及如何將其用於建立機器學習模型。
  • 95後數據科學家教你從零自學機器學習,這有3本入門必看書籍
    曉查 發自 凹非寺 量子位 編譯 | 公眾號 QbitAI厭倦了現在的工作,想轉行做數據科學,但是卻沒有計算機專業的相關學歷,應該怎樣才能入門?這類的教程已經有很多。在學習之前,如果你對線性代數、微積分、概率論與統計學、程序設計都不太熟悉,Dario建議先去學習一下這幾門數學課程,然後再學習Python。在學完以上內容後可以進入下面的學習。
  • 一份數據工程師必備的學習資源,乾貨滿滿(附連結)
    數據倉庫是收集、存儲和檢索所有原始數據的地方,如果沒有數據倉庫,一個數據科學家做的所有任務就會變得要麼太昂貴,要麼太大,以至於無法拓展。ETL(提取、轉換和載入)是數據工程師構建數據管道所遵循的步驟,它實際上是一份關於如何處理、轉換收集來的原始數據以備分析的藍圖。數據工程師通常有著工程背景,與數據科學家不同的是,這個角色不需要太多的學術和科學知識。
  • 九江高中學習經驗分享會幹貨滿滿,今晚這場直播別錯過
    滿滿的乾貨分享大家千萬不要錯過這場直播噢!我相信,未來社會需要的是T字型人才,技多不壓身,當你懂得越多,會的越多,你的世界才會越廣闊,越精彩。已被中國科學技術大學地球和空間科學學院錄取。對數學和物理有著濃厚的學習興趣,平時會圍著南門湖夜跑緩解壓力,最愛看懸疑電影、武俠小說等。步入大學生活會更加堅定地追尋自己的目標。
  • 資源| 自學數據科學&機器學習?19個數學和統計學公開課推薦
    選自analyticscvidhya機器之心編譯在創造萬物之前,上帝只是在做純理論的數學。後來他想,做點應用數學應該是個有趣的變化。——數學家 John Edensor Littlewood數學和統計學是數據科學和機器學習的基礎。就我所知,大多數成功的數據科學家都來自這些領域——計算機科學、應用數學和統計學、經濟學。
  • 數據科學家讀書會——從零開始學習大數據資料庫之MySQL
    LIVE #1:  5/16 學員乾貨分享:數據科學行業offer求職經歷在求職中經常會有這樣的疑問,學歷,技術,經驗和項目,到底哪一樣才是應該重點準備的,HR到底會看重哪一塊?我的背景投遞什麼樣的崗位成功機率比較大?
  • 免費暑校課程,三小時滿滿乾貨,滴滴首席科學家帶你探秘雙邊市場
    為推動統計學與數據科學學科交叉,實現學科優質資源共享,推動統計學科的進步與發展,上海市學位委員會主辦,華東師範大學統計與數據科學前沿理論及應用教育部重點實驗室、統計學院、統計交叉科學研究院、研究生院共同承辦了2020年「上海市統計學研究生暑期學校」。
  • 【悉大本科Finance專業選課指南】從每一個細節教你選擇合適的課程!滿滿的乾貨~
    如果平時有不理解的地方一定要多多參照課本。學習Tips:這門課是很難划水、乾貨滿滿的課程,所以平時要多花時間複習Lecture Slides和讀Reading。另外Report每學期都會更新題目,Report涉及的Excel、Bloomberg數據處理都會在雙周Lab的Tutorial裡包含到。
  • 如果您的孩子正上二年級,這份數學單元易錯題,不容錯過,可列印
    如果您的孩子正上二年級,這份數學單元易錯題,不容錯過,可列印儘管二年級數學學習並未有多大的困難,可是作為家長,我們還是應當將培養孩子良好的學習習慣為主,千萬不要只盯住分數不放,畢竟小學低年級,孩子們考出好成績是一件非常簡單的事情
  • 這家店不容錯過,滿滿一鍋牛油!
    說起成都的火鍋,各位朋友們肯定都不會感到陌生嘛,成都的火鍋還是非常出名的,畢竟成都作為火鍋的發源地,各種各樣的火鍋讓人們眼花繚亂,很多來成都旅遊的朋友們都不知道到底該去哪裡吃火鍋。可以說這家火鍋店對於那些喜歡吃牛油火鍋的朋友們來說簡直就是一處世外桃源,這家火鍋店的火鍋之中滿滿的一鍋純牛油,再加上大紅袍花椒以及新鮮的藤椒,還有各種優質辣椒,吃火鍋之前先喝上一杯老鷹茶清清腸胃,然後就可以放開了吃了。
  • 樂享臺灣 不容錯過的SPA之旅
    臺灣的美景美食、樂遊樂購自是不容錯過,更有臺灣人無比鍾情的SPA以及三溫暖等健康休閒方式值得體驗。樂享臺灣,不容錯過的SPA之旅樂享地:香格裡拉臺南遠東國際大飯店地址:臺南市70146東區大學路西段89號電話:(886 6)7028888樂享指南:1.
  • 無師自通:NLP從入門到無敵,你不應該錯過的8本好書
    作者著重於介紹算法之「道」,而不拘泥於「術」。適合所有對自然語言處理的算法原理感興趣的同學。本書是自然語言處理(NLP)領域的一本實用入門指南,是著名的Python語言自然語言處理庫NLTK配套用書。當然,本書的缺點非常明顯,就是對初學者不友好,適合在機器學習領域有較深了解和一定實戰經驗、同時數學基礎較好的人群。
  • 重啟數據科學:如何開啟第二次的學習?
    重溫的方式和第一次看肯定是不一樣的。若你想重新學習機器學習和數據科學,該從何處下手呢?筆者最近就打算重拾數據科學,有趣的是,預期和實際開始學習的方式截然不同。不同人對學習方式各不相同。有人更喜歡看視頻學習,有些人選擇看書,還有許多人選擇參加付費課程督促自己學習。
  • 乾貨滿滿!2020加拿大成功入境指南
    今天是8月21日距9月開學時間不多了!許多同學都有返回加拿大的計劃。 據悉,加拿大政府目前允許持有效籤證的留學生和工籤人士入境,但是具體政策是有附帶限制條件的,為避免持有效籤證的小夥伴在入境時出現了被海關拒絕入境的情況,立思辰留學雲小編今天特地根據加拿大政府的最新通報和學員入境實際案例為大家整理了百分百入境加拿大成功指南
  • 10種最常用的數據科學工具,最後一款絕對不要錯過
    從事數據科學和了解數據科學的人,應該都知道數據和數據科學的重要性。數據科學就是利用數據來輔助決策、解決實際面臨的問題。特別是現在大數據時代,企業乃至個人都已經深刻認識到數據背後的無限魅力。但是,數據科學家們要想完成這複雜而又繁瑣的數據收集、存儲、分析處理工作,就必須依賴這種統計學工具和程式語言。這裡給大家整理和比較了10款較為常用的數據科學工具,而且最後一款是絕對不容錯過!WekaWeka是一款基於Java語言編寫的機器學習軟體,主要集合了用於數據挖掘的各種機器學習算法,例如分類、回歸、聚類、數據準備和可視化等。