在數據科學領域中,你需要多少數學知識?

2021-01-08 雷鋒網

譯者:AI研習社(話左)

雙語原文連結:How Much Math do you need in Data Science?

">

Benjamin O. Tayo.提供圖片

I. 引言

如果你有心學習數據科學,那麼你一定會在腦海中想過下面的問題:

沒有或者只有很少的數學知識,我能做一個數據科學家嗎?數據科學必需的數學工具有哪些?

有很多優秀的包可用於建立預測模型或者數據可視化。其中最常用的用於描述和預測分析的一些包有:

Ggplot2MatplotlibSeabornScikit-learnCaretTensorFlowPyTorchKeras">

多虧了這些包,任何人都可以建立起一個模型或者實現數據可視化。然而, 堅實的數學基礎對於修改你的模型讓你的模型性能更好更加可靠來說是十分必要的。建立模型是一回事,解釋模型得出可用於數據驅動的決策的有意義的結論又是另一回事。用這些包之前,理解每個包中的數學原理是很重要的。因為這樣你才不是簡單地只是把這些包作為一個黑盒來使用。

II. 案例學習:建立多重回歸模型

假設我們要建立一個多重回歸模型。在此之前,我們需要問一下自己下面的這些問題:

">

我的數據集有多大?我的特徵變量和目標變量是什麼?什麼預測特徵與目標變量關聯性最大?什麼特徵是重要的?我需要量化特徵值嗎?我的數據集應該如何分成訓練集和測試集?什麼是主成分分析(PCA)我應該用PCA移除多餘特徵嗎?我要如何評估我的模型?用R2,MSE還是MAE?我應該如何提升模型預測的能力?我應該使用正則化的回歸模型嗎?什麼是回歸係數?什麼是截距?我應該使用諸如K近鄰回歸或者支持向量回歸這種非參數回歸模型嗎?我的模型中有哪些超參數,如何對其進行微調以獲得性能最佳的模型?

沒有良好的數學背景,你就無法解決上面提到的問題。最重要的是,在數據科學和機器學習中,數學技能與編程技能同等重要。因此,作為有志於數據科學的人,你必須花時間研究數據科學和機器學習的理論和數學基礎。 你構建可應用於實際問題的可靠而有效的模型的能力取決於您的數學基礎。

">

現在我們來聊聊數據科學還有機器學習所必需的一些數學工具。

III. 數據科學與機器學習必需的數學工具

1. 統計與概率

統計與概率學可用於特徵的可視化,數據預處理,特徵轉換,數據插入,降維,特徵工程,模型評估等。

這裡是你需要熟悉的概念:均值,中位數,眾數,標準差/方差, 相關係數和協方差矩陣,概率分布(二項,泊松,正太), p-值, 貝葉斯理論(精確性,召回率,陽性預測值,陰性預測值,混淆矩陣,ROC曲線), 中心極限定理, R_2值, 均方誤差(MSE),A/B測試,蒙特卡洛模擬。

2. 多元微積分

大多數機器學習模型都是由帶有許多特徵或者預測因子的數據集建立的。因此,熟悉多元微積分對於建立機器學習模型及其重要。

">

這裡是你需要熟悉的概念:多元函數;導數和梯度; 階躍函數,Sigmoid函數, Logit函數, ReLU(整流線性單元)函數;損失函數;函數作圖;函數最大最小值。

">

3. 線性代數

線性代數是機器學習中最重要的數學工具。數據集通常都表示為矩陣。線性代數常用於數據預處理,數據轉換,降維和模型評估。

這裡是你需要熟悉的概念:向量;向量的範數;矩陣;矩陣轉置;矩陣的逆;矩陣的行列式;矩陣的跡;點積;特徵值;特徵向量

4. 優化方法

大多數機器學習算法通過最小化目標函數來建立預測模型,由此學習應用於測試數據的權重以獲得預測的標籤。

">

這裡是你需要熟悉的概念:損失函數/目標函數;似然函數;誤差函數;梯度下降算法及其衍生(如隨機梯度下降)

IV. 總結與結論

總之,我們已經討論了數據科學和機器學習所需的基本數學和理論技能。有幾門免費的在線課程可以教你數據科學和機器學習所必需的數學知識。作為有志於數據科學的人,請記住,數據科學的理論基礎對於構建高效且可靠的模型至關重要。因此,您應該投入足夠的時間來研究每種機器學習算法背後的數學理論。

V. 參考文獻

初學者的線性回歸基礎

使用R實現主成分分析的數學原理

機器學習教程

AI研習社是AI學術青年和AI開發者技術交流的在線社區。我們與高校、學術機構和產業界合作,通過提供學習、實戰和求職服務,為AI學術青年和開發者的交流互助和職業發展打造一站式平臺,致力成為中國最大的科技創新人才聚集地。

如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學習新知,分享成長。

相關焦點

  • 數據分析學習:入數據科學大坑,我需要什麼樣的數學水平?
    所以,本文作者闡釋了數據科學和機器學習為何離不開數學,並提供了統計學與概率論、多變量微積分、線性代數以及優化方法四個數學分支中需要熟悉的一些數學概念。本文的作者是物理學家、數據科學教育者和作家 Benjamin Obi Tayo 博士,他的研究興趣在於數據科學、機器學習、AI、Python 和 R 語言、預測分析、材料科學和生物物理學。
  • 乾貨滿滿|不容錯過的數據科學入門數學指南
    雖然有些學科只是沾了點數學的邊,但有些學科則被數學的「觸手」緊緊纏住。數據科學就屬於後者。如果你想從事數據科學工作,你就必須解決數學問題。如果你已經獲得了數學學位或其它強調數學技能的學位,你可能想知道你學到的這些知識是否都是必要的。而如果你沒有相關背景,你可能想知道:從事數據科學工作究竟需要多少數學知識?在本文中,我們將探討數據科學意味著什麼,並討論我們到底需要多少數學知識。
  • 成為偉大的數據科學家需要掌握的基本數學
    數學是任何當代科學學科的基石。現代數據科學的幾乎所有技術,包括機器學習,都有深厚的數學基礎。毫無疑問,想要成為一個頂級的數據科學家,需要在各個方面都具有優勢如編程能力、一定的商業智慧、以及獨特的分析能力等。但了解「引擎蓋下的機械原理」總是有好處的。對算法背後的數學機制有一個深入的理解,將使你在同行中具有優勢。
  • 成為天文學家需要多少數學知識?你必須懂哪些種類的數學知識?
    本文參加百家號#科學了不起#系列徵文賽。只有學霸可以歷練的學域,你準備好入門天文學了嗎?數據分析所必須的演算要求你對數學有一個廣泛的理解,因此你需要擁有很好的計算能力來進行數據分析而且還要掌握天體力學相關理論等等。在亞利桑那大學就要求每個本科學生都必須通過微積分(2個學期)、向量微積分和常微分方程考試。這些所有的課程都需要很強的代數和三角學技能。
  • 關於數據科學中數學和統計學的完全指南
    數學和統計學對學習數據科學至關重要,因為這些學科構成了所有機器學習算法的基礎。成為一名數據科學家,除了對程式語言要有很好的了解,還必須要掌握機器學習算法、數據驅動方法。但數據科學並不只涉及這些領域。在本文中,您將了解數學和統計學對數據科學的重要意義以及如何將其用於建立機器學習模型。
  • 【專業】數據科學(Data Science)知多少?
    數據科學是一門利用數據學習知識的學科,包括用數據的方法來研究科學和用科學的方法來研究數據。前者包括生物信息學、天體信息學、數字地球等領域;後者包括統計學、機器學習、數據挖掘、資料庫等領域。數據科學結合了諸多領域中的理論和技術,包括應用數學、統計、模式識別、機器學習、數據可視化、數據倉庫以及高性能計算。
  • 資源| 自學數據科學&機器學習?19個數學和統計學公開課推薦
    選自analyticscvidhya機器之心編譯在創造萬物之前,上帝只是在做純理論的數學。後來他想,做點應用數學應該是個有趣的變化。——數學家 John Edensor Littlewood數學和統計學是數據科學和機器學習的基礎。就我所知,大多數成功的數據科學家都來自這些領域——計算機科學、應用數學和統計學、經濟學。
  • 領域大數據知識圖譜專題 《中國科學:信息科學》
    自2012年穀歌推出基於知識圖譜的搜尋引擎以來,知識圖譜在工業、商業、金融、醫療、教育、諮詢等領域都得以不斷應用,並取得了初步的效果。由於不同領域在數據特點、領域需求上具有較大差別,面向領域的大數據知識圖譜仍面臨諸多問題及挑戰。
  • 準備好進入數據科學領域了嗎?先問問自己這14個問題
    最近一項研究表明,2020年大多數高科技工作需要數據科學技能。數據科學領域確實有很多令人興奮的機會。但在進入數據科學領域前,有必要看看以下問題,以評估數據科學是否真的適合你。1.什麼是數據科學?數據科學是一個廣闊的領域,包括幾個細分領域,如數據準備和探索、數據表示和轉換、數據可視化、預測分析、機器學習、深度學習、人工智慧等。
  • 數據科學邊界:數據不能解決什麼?
    如何構建學科體系數據世界觀數據分析整體框架問題分析/數據預處理/數據預分析數據分析核心:建模模型空間概述數據科學邊界(這篇文章)……數據科學 = 數學/統計學 + 科學方法論 + 計算機 (+ 業務經驗)我們在剛剛接觸一個新奇的事物的時候,總有一種衝動:這種東西可以改變全宇宙。比如:我們剛接觸區塊鏈的時候,啊,區塊鏈就要改變全宇宙了。
  • 不學好數學也想當數據科學家?不存在的
    為什麼數據科學依舊離不開數學?我們又需要會哪些數學知識?讓我們聽這位大咖一一道來。當然,這其中會涉及一些數學,但令人難過的是,我並沒有用到過數據科學家們所需要的那些數學。我有不少朋友在IT行業工作,我也目睹了不少傳統IT工程師充滿激情的學習或者參與到令人激動的數據科學和機器學習/人工智慧領域。
  • 欲學相對論需要哪些物理數學的預備知識?
    各種量子力學教科書中對氫原子薛丁格方程解的介紹,就反映作者的道德水平。 撰文 | 曹則賢(中國科學院物理研究所研究員) 相對性首先是一個原則,一句話就可以說清楚。恰恰因為相對性是個原則,相對論涵蓋的物理對象是籠統的、廣泛的,進而它對數學的需求也是廣泛的。
  • 數據科學50人·吳明輝:用數學思維,打破數據悖論
    作者 | 程一祥題圖 | 站酷海洛吳明輝,明略數據、秒針系統創始人兼董事長,本科畢業於北京大學數學學院,北京大學人工智慧實驗室碩士。他從事軟體工程開發和算法研究近二十年,是國內企業級服務領域裡全能型企業家。他所創辦的秒針和明略兩家大數據公司,都已經成長為中國數據科學領域的獨角獸企業。
  • 100天學習計劃|一份詳實的數據科學指南
    我遇到過許多對學習數據科學充滿熱情的人,但僅僅幾周後,他們就放棄了學習。我想知道為什麼一個人對一個領域如此熱情卻不去追求它?真正的事實是,要想成為一名成功的數據科學家或成為一名數據科學家,你甚至需要掌握更多。 如何學習數據科學要成為一名數據科學家,你需要從以下條目中學到足夠多的知識: Python或R編程的基礎知識如果選擇Python,那麼像panda和Numpy這樣的庫可視化庫,如ggplot、Seaborn和Plotly。
  • 解讀數據挖掘與數據科學之間鮮為人知的區別
    然而,儘管人們對數據科學的工作越來越感興趣,但並不知道如何從事這個職業。因此應該了解數據科學的職業生涯,這其中包括了解不同數據流程之間的差異。一些行業網站和大學正在提供有關數據科學的學習課程。然而,對於初學者來說,他們對於如何入門以及如何選擇有效的路徑並不總是很清楚。因為數據技術領域中一些相似的領域存在顯著的差異。
  • 數據科學不一定適合你
    1.你不喜歡在整個職業生涯中必須不斷學習 數據科學是一個極為寬泛的術語,它對於不同的公司而言意味著不同的事物,不同的公司需要員工擁有不同的技能。例如,有些公司需要具備機器學習知識,有些公司需要會實驗設計和A/B測試,有些需要會Python編程,有些需要會R語言等等。
  • 書單推薦:六本好書帶你入門數據科學
    神譯局是36氪旗下編譯團隊,關注科技、商業、職場、生活等領域,重點介紹國外的新技術、新觀點、新風向。 編者按:在日常的數據科學運算中,人們其實很少考慮「人」在其中的意義,儘管數據本身都是為人服務的。
  • 基因科學:數據共享和跨領域合作是趨勢
    劉小樂:我非常同意,總的來說對於生物信息和計算科學的話需要不斷的驗證,需要進行試驗,我們應該不斷的學習生物學來進行不斷的溝通,讓生物學家非常清楚的了解其他學科的支持。那談到數據共享的話我想提一點,可能大家不願意分享,但是他是可能覺得是一種商業秘密,最終如果你真的去,學術方面的專家的話可以來制定一些模型告訴他,如果你真的共享信息了,最終你得到的利益會更大。
  • 數據科學二三事
    導 語 如今數字業務蓬勃發展,在無所不在且多樣化的數據源中持續生成海量數據。各行業機構面臨著數字資源挖掘和數據資產變現的新調整,如何通過數據發掘新商機,基於數據解決新問題,破解未查覺的潛在問題,那麼就需要藉助「數據科學」來實現。
  • 學好物理需要掌握哪些數學知識
    今天小卜老師就帶新初二的小朋友們了解一下,在學習物理之前,你要掌握哪些數學知識點,才能學好這個科目01科學計數法1. 物理在計算時,如果數字比較大,就要用到科學計數法表示,在公式中和單位轉換時會涉及到科學計數法相關計算,永遠不要忘記同底數冪相乘,底數不變,指數相加的規律哦!02行程等問題2.