曉查 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
如果想從事數據科學,但是又沒有數學背景,那麼有多少數學知識是做數據科學所必須的?
統計學是學習數據科學繞不開的一門數學基礎課程,但數據科學也經常會涉及數學中的其他領域。
數據科學使用算法進行預測,這些算法稱為機器學習算法,有數百種之多。有人總結了數據科學中最常用的6種算法,已經掌握它們分別需要哪些數學知識。
樸素貝葉斯分類器
樸素貝葉斯分類器(Naive Bayes classifier)是一種簡單的概率分類器,它基於特徵之間相互獨立的假設,以貝葉斯定理為基礎。
貝葉斯定理的數學公式為:
其中A、B表示兩個事件,且P(B)不等於0。各個部分具體的含義為:
1、P(A|B)是條件概率,它是事件B發生後事件A發生的概率。
2、P(B|A)也是一個條件概率,它是事件A發生後事件B發生的概率。事件發生的可能性 發生了 是真的。
3、P(A)和P(B)是各自發生的概率,A、B兩個事件彼此獨立。
需要的數學知識:
線性回歸如果你想要了解樸素貝葉斯分類器,以及貝葉斯定理的所有用法,只需學習概率課程就足夠了。
線性回歸是最基本的回歸類型,它用來理解兩個連續變量之間的關係。在簡單線性回歸的情況下,獲取一組數據點並繪製可用於預測未來的趨勢線。
線性回歸是參數化機器學習的一個例子,訓練過程最終使機器學習找到最接近於訓練集的數學函數,然後可以使用該函數來預測未來的結果。在機器學習中,數學函數被稱為模型。在線性回歸的情況下,模型可以表示為:
a1, a1, ……,an表示對數據集的參數值,x1, x1, ……,xn表示在線性模型中使用的特徵值。
線性回歸的目標是找到描述特徵值和目標值之間關係的最佳參數值。換句話說,就是找到一條最適合數據的線,可以外推趨勢以預測未來結果。
為了找到線性回歸模型的最佳參數,我們希望讓殘差平方和(residual sum of squares)最小化。殘差通常被稱為誤差,它用來描述預測值和真實值之間的差異。殘差平方和的公式可表示為:
y的「頭頂」加上^用來表示預測值,y表示真實值。
需要的數學知識:
邏輯回歸如果你只想粗略地了解,基礎統計學課程就可以了。殘差平方和的公式可以在大多數高級統計課程中學到。
邏輯回歸(Logistic regression)側重於二元分類,即輸出結果只有兩種情況的概率。
與線性回歸一樣,邏輯回歸是參數化機器學習的一個例子。因此,這些機器學習算法的訓練過程的結果是找到最接近訓練集的數學函數模型。
但是線性回歸模型輸出的是一組實數,而邏輯回歸模型輸出的是概率值。在邏輯回歸的過程中還會用到sigmoid函數,它會把所有值壓縮到0~1的範圍之間。
需要的數學知識:
神經網絡這一部分包含的知識有指數函數和概率,你需要對代數和概率論有充分的理解。如果想深入了解,建議學習概率論、離散數學或實分析。
神經網絡是一種機器學習模型,它們受到人類大腦中神經元結構的極大啟發。神經網絡模型使用一系列激活單元(稱為神經元)來預測某些結果。神經元將輸入應用於轉換函數,並返回輸出。
神經網絡擅長獲取數據中的非線性關係,並幫助我們完成音頻和圖像處理等任務。雖然存在許多不同類型的神經網絡(比如卷積神經網絡、前饋神經網絡、遞歸神經網絡等),但它們都依賴於轉換輸入生成輸出的基本概念。
在上圖中,線條將每個圓圈連接到另一個圓圈。在數學中,這就是所謂的圖,一種由邊連接的節點組成的數據結構。
神經網絡的核心是一個系統,它接收數據,進行線性代數運算,然後輸出答案。
線性代數是理解神經網絡的關鍵,它通過矩陣和向量空間來表示線性方程。因為線性代數涉及矩陣表示線性方程,所以矩陣是理解神經網絡核心部分必須知道的基本知識。
矩陣是由數字、符號或表達式組成的矩形陣列,按行和列排列。例如:
它被稱為3×3矩陣,因為它有三行三列。
神經網絡,每個特徵都表示為輸入神經元。每個特徵的數值乘以神經元的權重向量獲得輸出。在數學上,該過程是這樣的:
其中X是一個m×n矩陣,m是神經元輸入的數量,n神經元輸出的數量。a是權重向量,aT是a的轉置,b是偏置。
偏置(bias)通過向左或向右移動S形函數來影響神經網絡輸出,以便對某些數據集進行更好的預測。轉置(Transpose)是一個線性代數術語,它的意思是把矩陣的行變成列、列變成行。
在所有特徵列和權重相乘之後,調用激活函數來確定神經元是否被激活。激活函數有三種主要類型:RELU函數,sigmoid函數和雙曲正切函數。
sigmoid函數我們已經知道了。RELU函數是一個簡潔的函數,當輸入x大於0的時候輸出x,當輸入x小於0的時候輸出0。雙曲正切函數與sigmoid函數類似,只是它用來約束-1和1之間的數值。
需要的數學知識:
K-平均聚類離散數學和線性代數課程是必須的。為了深入理解,還需要學習圖論、矩陣論、多元微積分和實分析課程。
K-平均聚類(K-Means Clustering)算法是一種無監督機器學習,用於對未標記數據進行分類。該算法通過在數據中查找組來工作,其中組由變量k表示。它根據提供的特徵將每個數據點分配給k組中的一個。
K-平均聚類依賴於整個算法中的距離概念,將數據點「分配」到聚類。在數學中,描述集合中任意兩個元素之間距離的指標有兩種:歐幾裡德距離和計程車距離(又叫曼哈頓距離)。
其中,(x1, y1)、(x2, y2 )是笛卡爾平面上的坐標點。
雖然歐幾裡得距離標準已經足夠,但在某些情況下它不起作用。假設在城市街道上乘坐計程車,那麼你是沒法走斜線的,只能走橫平豎直的街道,這時候我們可以使用計程車距離:
需要的數學知識:
決策樹這部分牽涉到的知識比較少。實際上你只需要知道加法和減法和代數的基礎知識,就可以掌握距離公式。但是為了深入理解每種距離的基本幾何形狀,建議學習歐氏幾何和非歐幾何。為了深入理解指標和度量空間的含義,我會閱讀數學分析並參加實分析課程。
決策樹是一種類似流程圖的樹結構,它使用分支方法來說明決策的每個可能結果。樹中的每個節點代表對特定變量的測試,每個分支都是該測試的結果。
決策樹依賴於資訊理論(information theory)。在資訊理論中,人們對某個主題了解越多,可以知道的新信息就越少。資訊理論的關鍵之一是熵(entropy)。熵是變量不確定性的一種度量,具體形式為:
在上面的公式中,P(x)是數據集中特徵出現的概率。b是對數函數的底,它常見的值有2、e和10。前面的Σ符號表示求和,它的上下方分別寫著求和的上限和下限。
在計算熵之後,我們可以通過信息增益(information gain)構造決策樹,它告訴哪種拆分方式會最大程度地減少熵。信息增益的公式如下:
信息增益用于衡量可以獲得多少「信息」。在決策樹中,我們可以計算數據集中每一列的信息增益,找到哪一列能為我們提供最大的信息增益,然後在該列上進行拆分。
需要的數學知識:
基本的代數和概率知識是了解決策樹所必須的。
原文地址:
https://www.dataquest.io/blog/math-in-data-science/