成為偉大的數據科學家需要掌握的基本數學

2020-08-27 老胡說科學

數學是任何當代科學學科的基石。現代數據科學的幾乎所有技術,包括機器學習,都有深厚的數學基礎。

毫無疑問,想要成為一個頂級的數據科學家,需要在各個方面都具有優勢如編程能力、一定的商業智慧、以及獨特的分析能力等。但了解「引擎蓋下的機械原理」總是有好處的。對算法背後的數學機制有一個深入的理解,將使你在同行中具有優勢。

對於從其他行業(硬體工程、零售、化學加工工業、醫藥和衛生保健、商業管理等)進入數據科學領域的新人來說,這一基本數學知識尤為重要。雖然這類領域可能需要電子表格、數值計算和投影方面的經驗,但數據科學所需的數學技能可能有很大的不同。

考慮web開發人員或業務分析人員。他們可能每天都要處理大量的數據和信息。數據科學應該是關於科學而不是數據。遵循這一思路,某些工具和技術就變得不可或缺。

  • 通過探測底層動態來建模一個過程
  • 形成假設
  • 嚴格評估數據源的質量
  • 量化數據和預測的不確定性
  • 從信息流中識別隱藏的模式
  • 理解模型的局限性
  • 理解數學證明及其背後的抽象邏輯

數據科學,就其本質而言,並不局限於某一特定的學科領域,它可以處理各種各樣的現象,如癌症診斷和社會行為分析。這就產生了令人眼花繚亂的n維數學對象數組、統計分布、優化目標函數等的可能性。

函數、變量、方程和圖形

這一領域的數學涵蓋了基礎,從方程的二項式定理和一切之間:

  • 對數,指數,多項式函數,有理數
  • 基本幾何和定理,三角恆等式
  • 實數和複數,基本性質
  • 系列、金額、不平等
  • 作圖和繪圖,笛卡爾坐標和極坐標,圓錐截面

可能用到的地方

如果您想了解在對百萬條目的資料庫進行排序之後,搜索是如何更快地運行的,那麼您將會遇到「二分查找」的概念。要理解它的機制,你需要理解對數和遞歸方程。或者,如果你想分析一個時間序列,你可能會遇到「周期函數」和「指數衰減」這樣的概念。

統計數據

掌握統計和概率的基本概念的重要性怎麼強調都不過分。該領域的許多實踐者實際上認為經典(非神經網絡)機器學習只不過是統計學習。有重點的規劃對於涵蓋最基本的概念至關重要:

  • 數據匯總和描述性統計,集中趨勢,方差,協方差,相關性
  • 基本概率:期望,概率微積分,貝葉斯定理,條件概率
  • 概率分布函數:均勻、正態、二項式、卡方、中心極限定理
  • 採樣,測量,誤差,隨機數生成
  • 假設檢驗,A/B檢驗,置信區間,p值
  • 方差分析、t檢驗
  • 線性回歸,正規化

如果你已經掌握了這些概念,你將很快給人留下深刻印象。作為一名數據科學家,你幾乎每天都會用到它們。

線性代數

這是數學的一個基本分支,用來理解機器學習算法如何在數據流上工作。從QQ上的好友推薦,到酷狗上的歌曲推薦,再到用深度轉移學習將你的自拍照轉換成薩爾瓦多·達利式的肖像,所有這些都涉及到矩陣和矩陣代數。以下是需要學習的基本數學:

  • 矩陣和向量的基本性質:標量乘法,線性變換,轉置,共軛,秩,行列式
  • 內積和外積,矩陣乘法規則和各種算法,矩陣逆
  • 特殊矩陣:方陣,單位矩陣,三角矩陣,單位向量,對稱矩陣,厄米矩陣,斜厄米矩陣和酉矩陣
  • 矩陣分解概念/LU分解,高斯/高斯-約當消去,解Ax=b線性方程組的方程
  • 向量空間,基底,空間,正交性,正交性,線性最小二乘法
  • 特徵值,特徵向量,對角化,奇異值分解

如果你用過降維技術(主成分分析),那麼你可能已經使用奇異值分解以更少的參數實現了數據集的緊湊維數表示。所有的神經網絡算法都使用線性代數技術來表示和處理網絡結構和學習操作。

微積分

不管你在大學裡喜歡還是討厭它,微積分在數據科學和機器學習中都有很多應用。這是一項極有價值的技能:

  • 函數的單變量、極限、連續性、可微性
  • 中值定理,不定式,洛必達法則
  • 最大值和最小值
  • 乘積與鏈式法則
  • 泰勒級數,無窮級數求和/積分的概念
  • 積分學的基本定理和中值定理,定積分和反常積分的計算
  • 函數
  • 多元函數,極限,連續性,偏導數
  • 常微分方程和偏微分方程基礎

想知道邏輯回歸算法是如何實現的嗎?它很有可能使用一種叫做「梯度下降」的方法來尋找最小損失函數。要理解它是如何工作的,您需要使用微積分的概念:梯度、導數、極限和鏈式法則。

離散數學

這一領域在數據科學中並不常見,但所有現代數據科學都是在計算系統的幫助下完成的,而離散數學是這些系統的核心。

  • 集合,子集
  • 計數函數,組合學,可數性
  • 基本的證明技巧:歸納法、反證法
  • 歸納、演繹和命題邏輯的基礎
  • 基本數據結構:堆棧、隊列、圖形、數組、哈希表、樹
  • 圖的性質:連接的組成部分,程度,最大流量/最小切割的概念,圖著色
  • 遞推關係與方程

在任何社會網絡分析中,你需要知道一個圖的屬性和快速算法來搜索和遍歷網絡。在任何算法的選擇中,你都需要理解時間和空間的複雜性。

優化和運營研究課題

這些主題在理論計算機科學、控制理論或操作研究等專業領域最為相關。但是對這些強大技術的理解也可以在機器學習的實踐中取得豐碩的成果。實際上,每一種機器學習算法的目標都是使受各種約束的某種估計誤差最小化,這是一個優化問題。以下是需要學習的數學:

  • 優化的基礎,如何制定問題
  • 極大值,極小值,凸函數,全局解
  • 線性規劃,單純形算法
  • 整數規劃
  • 約束規劃,背包問題

使用最小二乘損失函數的簡單線性回歸問題通常有精確的解析解,但是邏輯回歸問題沒有。要理解其中的原因,您需要熟悉優化中的「凸性」概念。這一系列的研究也將闡明為什麼我們必須對大多數機器學習問題的「近似」解決方案保持滿意。

雖然有很多東西要學習,網上有很好的資源。在複習這些主題和學習新概念之後,你將有能力在日常數據分析和機器學習項目中聽到隱藏的「音樂」。這是成為一個了不起的數據科學家的巨大飛躍。

想了解更多精彩內容,快來關注老胡說科學

相關焦點

  • 數據科學家需要掌握的10個基本統計技術
    【IT168 編譯】無論您在數據的科學性問題上持哪種看法,都無法忽視數據的持續重要性,也不能輕視分析、組織和情境化數據的能力。 根據大量的就業數據和員工反饋信息統計,在「25個最佳美國就業機會」排行榜中,數據科學家排名第一。毫無疑問,數據科學家所做的具體工作內容將會進一步拓展。
  • 銳眼洞察|2018年,成為數據科學家需要哪些技能?(翻譯)
    據Glassdoor,數據科學家是2017年美國的頭號職業。這並不意外,因為這一領域的中位基本工資達到了12萬3千美元。但數據科學家的就業市場遠不飽和,僅在美國就有19萬的人才空缺。如果你在考慮轉換跑道成為數據科學家,2018年提供了充足的機會。這篇文章旨在幫助梳理如何在2018年成為數據科學家。
  • 你想成為數據科學家嗎?不要把機器學習當成入門第一課
    所以當我尋找學習數據科學的切入點時,也受其影響。這是我犯過的最大錯誤,也是本文重點:如果想要成為一名數據科學家,請不要從機器學習開始。顯然,要成為一名「真正全能」的數據科學家,最終必須掌握機器學習的概念。但你會驚訝於沒有它你能走多遠。為什麼不從機器學習開始呢?
  • 成為一名數據科學家的學習三部曲
    如果你看到這篇文章的題目開始閱讀本文,那麼一定是數據科學激起了你的興趣。你肯定希望2016年成為你的轉運年,對不對?如果你從今天起堅持去執行這些新年計劃,轉運的可能性就會更大。要知道,成為一名數據科學家不能一蹴而就,需要的是一個過程。因此,朝目標邁進的過程中一定要充滿耐心。根據發展階段的不同,我在此給大家分享一些每個數據科學家都應該做的新年計劃。
  • 業界| 數據科學家最需要什麼技能?
    數據科學家需要涉獵很多——機器學習、計算機科學、統計學、數學、數據可視化、通信和深度學習。這些領域中有幾十種語言、框架和技術可供數據科學家學習。那麼要想成為僱主需要的數據科學家,他們應該如何安排學習內容呢?
  • 如何自學成為數據科學家或AI工程師?你需要攻克這九點
    這是很好的開端,但僅有這些知識在數據科學、人工智慧和機器學習領域還遠遠不夠。你需要更深入地學習一些統計學、代數和其他的數學概念。必備數學知識資源列表,參見:https://towardsdatascience.com/mathematics-for-data-science-e53939ee8306。
  • 如何成為一名數據科學家?
    用過R、matlab、Octive、Python、SAS和Microsoft Analysis Services的人都推薦用Python。Introduction to Statistical Learning: Page on usc.eduThink Stats: Probability and Statistics for Programmers13.像數據科學家一樣思考以上已經詳細的介紹了數據科學家所需要的具體技巧。
  • 開發者和IT人士成為數據科學家的學習路線
    在你轉行數據分析的起步階段,這會是個巨大的優勢。儘管你沒有使用數據科學領域程式語言的經驗,但是你在理解一些諸如指數、函數、對象、引用等概念上有很大的優勢。邏輯思維:數據科學家是按邏輯思考的,他們基於數據做決策。所以你呢?碼代碼需要邏輯,這是編程邏輯。你的大腦適應了那樣去思考,這當然是你的加分項。數學能力:數學是數據科學的核心。數學好是一個人能取得的最大成就。
  • 成為數據科學家路上需要掌握的基礎知識(附代碼)
    現在有很多數據科學家採用 Python 作為研究數據科學的工具,今天我們就分享一下將 Python 應用在數據科學領域中的基礎知識。Pyton 數據類型Python 包含多種數據類型,常見的有:float(浮點類型)、int(整型)、str(字符串)、bool(布爾類型)和 list。
  • 成為數據科學家、人工智慧和機器學習工程師的自學之路
    自學是一門需要自律和付出才能掌握的藝術。自學是一門需要自律和付出才能掌握的藝術。如果處理得當,你能靈活地將學習與工作相結合。然而,人工智慧或機器學習的開始階段非常艱難,但是請相信我這樣的擔心是值得的。自學時取得良好進展的關鍵是按照自己的節奏學習。在這篇文章中,我將分享一個期望學習數據科學,人工智慧和機器學習,以及在學習其他新事物方面取得良好的進步的人可以遵循的道路。
  • 蹩腳數據科學家的10種現象
    對數據科學的熱情以及掌握一定的技能,這是成功的關鍵。如果你只是假裝有興趣,或者並不具備重要的技能,總有一天,你會原形畢露。如今,數據科學家已是炙手可熱,那些曾經對其毫無所知的企業,眼下也開始在全世界搜尋最好的數據科學家。問題在於,優秀數據科學家的標準是什麼?和其他東西一樣,數據科學家也是良莠不齊,招聘他們是一項重要的投資,如果選了個「次品」,你會付出沉重的代價。
  • 數據科學家只需要會編程嗎?哈佛大學教授揭露真相
    華爾街頂級投資銀行摩根大通擁有全球31個數據中心、近28000個資料庫和近67000臺物理伺服器,大數據是銀行進行風險分析的基本要素,能夠立即評估地緣政治風險升級對投資組合及其在特定市場和資產類別中的影響,同時,銀行還可以使用大數據來分析交易的有效性。
  • 如何成為合格的數據分析師,需要考取哪些證書嗎?
    成為今時今日最有潛力、最有前景的社會職位之一。人們對於數據分析師的崗位趨之若鶩,國內高校也爭相開始設置大數據與數據分析相關專業,人們對數據分析的認知和需求越來越深,越來越多的人期望加入數據分析師行列。那麼,該如何成為合格的數據分析師呢,成為一名合格的數據分析師需要考取的證書又有哪些呢?下面跟大家好好普及普及。首先,數據分析師需要具備符合現代企業公司要求的基本技能。
  • 數據科學家成長指南:從入門到被逼瘋
    可是你確定想好要成為一名數據科學家了嗎?你知道成為一名DS,需要具備什麼技能嗎?那就請準備好,下面我們要開車了! 你可能已經從媒體鋪天蓋地的報導中,了解到數據科學家這個抬頭非常火。根據UiPath數據顯示,2018年12113個崗位爭奪AI人才,數據科學家需求量排名第二。
  • 如何成為一名合格的數據分析師,數據分析師需要哪些技能?
    隨著大數據時代的到來, 企業對數據分析師崗位的需求量也是越來越大。但是如何才能成為一名合格的數據分析師,為企業創造更好的價值,是一名數據分析師時刻反省的核心問題。當然還有部分即將就業、剛入行久、轉行加入數據分析領域的群體,對如何成為一名合格的數據分析師,數據分析師需要哪些技能還存在諸多疑惑,那麼今天們就一起探討一下。1、 理論基礎篇作為一名合格的數據分析師,你需要有應用數學、統計學、數量經濟學專業數學知識背景。
  • 分析了1000多個崗位,2020年公司最希望數據科學家掌握的技能是?
    這未嘗不可,現在每個公司都有自己對數據科學家的獨特定義,並會根據這一定義招聘人員。想要勝任這一工作崗位,也需掌握一些其他技術,如AWS、Azure和Power BI等。當然,這些所有職位都屬於數據科學家這一類別,它們有著相同的工作要求,如:掌握機器學習算法、數據統計、數據分析、數據清理和深度學習技術。
  • 2021年數據科學家求職必須掌握的五大新概念
    數據科學家是當前全球商業環境中令人夢寐以求的工作,成為一名數據科學家需要付出很多努力
  • 偉大的科學家牛頓
    我們都知道,牛頓是位偉大的科學家。為自然科學的發展做出了巨大貢獻。那麼,他成就主要在哪些方面呢?先看看他在天文學方面的貢獻。在牛頓之前,哥白尼、布魯諾、克卜勒等人曾經取得了很大成就。牛頓繼承並發展了他們的研究成果。
  • 如何準備Uber數據科學家的面試?
    它是一家跨國打車公司,在全球785多個城市設有大規模運營機構。服務範圍包括叫車, 送餐, 物流和微型出行等。Uber致力於:通過自動駕駛和城市空運,使客戶體驗貼更近未來。幫助人們快速經濟地訂餐,消除醫療保健屏障,開發新的貨運預訂方案,並幫助公司為員工提供無縫的出差體驗。Uber正逐步地將數據科學與分析納入幾乎每個部門和服務中,例如風險管理,市場營銷和政策實施等。
  • 想成為真正的數據科學家,除了資歷你還需要這4個技能
    雷鋒網 AI 科技評論按:「數據科學家」可謂是從「大數據」和「機器學習」雙雙開始普及之後催生的熱門職位之一了,許多接觸或者學習了機器學習的學生和程式設計師都期待自己能夠成為數據科學家。他必須學會如何成為一個溝通者,必須掌握簡潔地表達自己的發現的能力,以及能夠告訴自己的上級應該如何處理這些信息。給自己的總監以及其它管理層成員展示研究過程中收集到的所有的的圖表、所有的數據和所有的技術信息以表明自己工作得非常努力,這聽上去還不賴。尤其是,數據科學領域內有時候要花幾個月的時間才能在某一個問題上做出有價值的進展(背後自然是有原因的)。