前言
之前在給公司的程式設計師培訓機器學習專題實戰的時候,發現他們聽的認真,也非常想學,但是每當問他們有哪裡不懂的時候,他們總是回答不出哪裡不懂,識懂非懂的狀態,後來我總結了一下原因,1.機器學習領域跟程序開發的區別非常大,機器學習屬於一個交叉學科,即需要數學也需要計算機學,難度相對與單學科要大些,2.機器學習領域有很多專業詞彙與術語,之前程式設計師都沒聽說過和接觸過,即使當時講解的時候講的非常細,也很難接觸的過來,需要有個消化過程。
本篇文章將著重介紹機器學習與數據挖掘領域常用的專業術語,希望能在機器學習路上的你帶來幫助,假如你正準備學機器學習或數據挖掘建議你先了解該篇文章後在去學習。
一.基礎
1.數據集(DataSet)
數據集,又稱為資料集、數據集合或資料集合,是一種由數據所組成的集合。
程式設計師可以簡單的理解成資料庫表。
2.變量(variable)
變量來源於數學,是計算機語言中能儲存計算結果或能表示值抽象概念。變量可以通過變量名訪問。
可以理解為欄位。
3.向量(Vector)
在數學中,向量(也稱為歐幾裡得向量、幾何向量、矢量),指具有大小(magnitude)和方向的量。它可以形象化地表示為帶箭頭的線段。
4.X變量(Independent variable)
又稱自變量,自變量一詞來自數學。在數學中,y=f(x) 。在這一方程中自變量是x,因變量是y。將這個方程運用到心理學的研究中,自變量是指研究者主動操縱,而引起因變量發生變化的因素或條件,因此自變量被看作是因變量的原因。如在比較男女性白細胞數的實驗中,性別被稱為了自變量,而白細胞數則為因變量。
可以理解成我們在機器學習中需要分析的變量叫做X變量。
5.Y變量(dependent variable)
又稱因變量,可以理解為結果變量,如我們在金融貸款項目中預測某人是否可以放款,是否可以放款這個變量就叫做因變量。
6.連續變量
在統計學中,變量按變量值是否連續可分為連續變量與離散變量兩種。在一定區間內可以任意取值的變量叫連續變量,其數值是連續不斷的,相鄰兩個數值可作無限分割,即可取無限個數值。如:年齡、體重等變量。
7.離散變量
離散變量的各變量值之間都是以整數斷開的,如人數、工廠數、機器臺數等,都只能按整數計算。離散變量的數值只能用計數的方法取得。
8.二元變量
通常可以理解成啞變量或虛擬變量,虛擬變量 ( Dummy Variables) 又稱虛設變量、名義變量或啞變量,用以反映質的屬性的一個人工變量,是量化了的自變量,通常取值為0或1。
9.定性變量
統計學概念,定性變量(qualitative variable)又名分類變量 ( categorical variable ): 觀測的個體只能歸屬於幾種互不相容類別中的一種時,一般是用非數字來表達其類別,這樣的觀測數據稱為定性變量。可以理解成可以分類別的變量,如學歷、性別、婚否等。
10.均值
即平均值,平均數是表示一組數據集中趨勢的量數,是指在一組數據中所有數據之和再除以這組數據的個數。
11.中位數
對於有限的數集,可以通過把所有觀察值高低排序後找出正中間的一個作為中位數。如果觀察值有偶數個,通常取最中間的兩個數值的平均數作為中位數。
12.缺失值
它指的是現有數據集中某個或某些屬性的值是不完全的。
13.缺失率
某屬性的缺失率=數據集中某屬性的缺失值個數/數據集總行數
14.異常值
異常值(outlier)是指一組測定值中與平均值的偏差超過兩倍標準差的測定值,與平均值的偏差超過三倍標準差的測定值,稱為高度異常的異常值。
15.度量
度量(metric)亦稱距離函數,是度量空間中滿足特定條件的特殊函數,一般用d表示。度量空間也叫做距離空間,是一類特殊的拓撲空間。弗雷歇(Fréchet,M.R.)將歐幾裡得空間的距離概念抽象化,於1906年定義了度量空間。
16.矩陣
在數學中,矩陣(Matrix)是一個按照長方陣列排列的複數或實數集合,最早來自於方程組的係數及常數所構成的。
矩陣是高等代數學中的常見工具,也常見於統計分析等應用數學學科中。
即可以看成一個方便用來計算的數組。
17.方差
(variance)是在概率論和統計方差衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。在許多實際問題中,研究方差即偏離程度有著重要意義。
方差是衡量源數據和期望值相差的度量值。
18.標準差
標準差(Standard Deviation) ,中文環境中又常稱均方差,是離均差平方的算術平均數的平方根,用σ表示。標準差是方差的算術平方根。標準差能反映一個數據集的離散程度。平均數相同的兩組數據,標準差未必相同。
19.皮爾森相關係數
皮爾森相關係數(Pearson correlation coefficient)也稱皮爾森積矩相關係數(Pearson product-moment correlation coefficient) ,是一種線性相關係數。皮爾森相關係數是用來反映兩個變量線性相關程度的統計量。相關係數用r表示,其中n為樣本量,分別為兩個變量的觀測值和均值。r描述的是兩個變量間線性相關強弱的程度。r的絕對值越大表明相關性越強。
20.相關係數
相關係數是最早由統計學家卡爾·皮爾遜設計的統計指標,是研究變量之間線性相關程度的量,一般用字母 r 表示。由於研究對象的不同,相關係數有多種定義方式,較為常用的是皮爾遜相關係數。
21.特徵值
特徵值是線性代數中的一個重要概念。在數學、物理學、化學、計算機等領域有著廣泛的應用。設 A 是n階方陣,如果存在數m和非零n維列向量 x,使得 Ax=mx 成立,則稱 m 是A的一個特徵值(characteristic value)或本徵值(eigenvalue)。非零n維列向量x稱為矩陣A的屬於(對應於)特徵值m的特徵向量或本徵向量,簡稱A的特徵向量或A的本徵向量。
22.特徵向量
矩陣的特徵向量是矩陣理論上的重要概念之一,它有著廣泛的應用。數學上,線性變換的特徵向量(本徵向量)是一個非簡併的向量,其方向在該變換下不變。該向量在此變換下縮放的比例稱為其特徵值(本徵值)。
23.求導
求導是微積分的基礎,同時也是微積分計算的一個重要的支柱。物理學、幾何學、經濟學等學科中的一些重要概念都可以用導數來表示。如導數可以表示運動物體的瞬時速度和加速度、可以表示曲線在一點的斜率、還可以表示經濟學中的邊際和彈性。
24.MSE(Mean Square Error 均方誤差)
均方誤差(mean-square error, MSE)是反映估計量與被估計量之間差異程度的一種度量。設t是根據子樣確定的總體參數θ的一個估計量,(θ-t)2的數學期望,稱為估計量t的均方誤差。它等於σ2+b2,其中σ2與b分別是t的方差與偏倚。反映估計量與被估計量差異程度。
25.LMS(LeastMean Square 最小均方)
最小均方算法,簡稱LMS算法,是一種最陡下降算法的改進算法, 是在維納濾波理論上運用速下降法後的優化延伸,最早是由 Widrow 和 Hoff 提出來的。 該算法不需要已知輸入信號和期望信號的統計特徵,「當前時刻」的權係數是通過「上一 時刻」權係數再加上一個負均方誤差梯度的比例項求得。 其具有計算複雜程度低、在信號為平穩信號的環境中收斂性好、其期望值無偏地收斂到維納解和利用有限精度實現算法時的平穩性等特性,使LMS算法成為自適應算法中穩定性最好、應用最廣的算法。
26.LSM(Least Square Methods 最小二乘法)
最小二乘法(又稱最小平方法)是一種數學優化技術。它通過最小化誤差的平方和尋找數據的最佳函數匹配。利用最小二乘法可以簡便地求得未知的數據,並使得這些求得的數據與實際數據之間誤差的平方和為最小。最小二乘法還可用於曲線擬合。其他一些優化問題也可通過最小化能量或最大化熵用最小二乘法來表達。
27.MLE(MaximumLikelihood Estimation最大似然估計)
最大似然估計(maximum likelihood estimation, MLE)4一種重要而普遍的求估計量的方法。最大似然法明確地使用概率模型,其目標是尋找能夠以較高概率產生觀察數據的系統發生樹。最大似然法是一類完全基於統計的系統發生樹重建方法的代表。
28.QP(Quadratic Programming 二次規劃)
二次規劃是非線性規劃中的一類特殊數學規劃問題,在很多方面都有應用,如投資組合、約束最小二乘問題的求解、序列二次規劃在非線性優化問題中應用等。在過去的幾十年裡,二次規劃已經成為運籌學、經濟數學、管理科學、系統分析和組合優化科學的基本方法。
最大似然法明確地使用概率模型,其目標是尋找能夠以較高概率產生觀察數據的系統發生樹。最大似然法是一類完全基於統計的系統發生樹重建方法的代表。該方法在每組序列比對中考慮了每個核苷酸替換的概率。
29.CP(Conditional Probability條件概率)
條件概率是指事件A在另外一個事件B已經發生條件下的發生概率。條件概率表示為:P(A|B),讀作「在B條件下A的概率」。條件概率可以用決策樹進行計算。條件概率的謬論是假設 P(A|B) 大致等於 P(B|A)。數學家John Allen Paulos 在他的《數學盲》一書中指出醫生、律師以及其他受過很好教育的非統計學家經常會犯這樣的錯誤。這種錯誤可以通過用實數而不是概率來描述數據的方法來避免。
30. JP(Joint Probability 聯合概率)
聯合概率是指在多元的概率分布中多個隨機變量分別滿足各自條件的概率。假設X和Y都服從正態分布,那麼P{X<4,Y<0}就是一個聯合概率,表示X<4,Y<0兩個條件同時成立的概率。表示兩個事件共同發生的概率。A與B的聯合概率表示為 P(AB) 或者P(A,B),或者P(A∩B)。
31.MP(Marginal Probability邊緣概率)
邊緣概率 Marginal Probability 是某個事件發生的概率,而與其它事件無關。邊緣概率是這樣得到的:在聯合概率中,把最終結果中不需要的那些事件合併成其事件的全概率而消失(對離散隨機變量用求和得全概率,對連續隨機變量用積分得全概率)。
這稱為邊緣化(marginalization)。A的邊緣概率表示為 P(A),B 的邊緣概率表示為 P(B)。
32. Bayesian Formula(貝葉斯公式)
貝葉斯定理由英國數學家貝葉斯 ( Thomas Bayes 1702-1761 ) 發展,用來描述兩個條件概率之間的關係,比如 P(A|B) 和 P(B|A)。按照乘法法則,可以立刻導出:P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)。如上公式也可變形為:P(B|A) = P(A|B)*P(B) / P(A)。
貝葉斯的統計學中有一個基本的工具叫貝葉斯公式、也稱為貝葉斯法則, 儘管它是一個數學公式,但其原理毋需數字也可明了。如果你看到一個人總是做一些好事,則那個人多半會是一個好人。這就是說,當你不能準確知悉一個事物的本質時,你可以依靠與事物特定本質相關的事件出現的多少去判斷其本質屬性的概率。 用數學語言表達就是:支持某項屬性的事件發生得愈多,則該屬性成立的可能性就愈大。
L1 /L2Regularization(L1/L2正則,以及更多的,現在比較火的L2.5正則等)
L1範數正則化( L1 regularization 或 lasso )是機器學習(machine learning)中重要的手段,在支持向量機(support vector machine)學習過程中,實際是一種對於成本函數(cost function)求解最優的過程,因此,L1範數正則化通過向成本函數中添加L1範數,使得學習得到的結果滿足稀疏化(sparsity),從而方便人們提取特徵。
GD(GradientDescent 梯度下降)
梯度下降法是一個最優化算法,通常也稱為最速下降法。最速下降法是求解無約束優化問題最簡單和最古老的方法之一,雖然現已不具有實用性,但是許多有效算法都是以它為基礎進行改進和修正而得到的。最速下降法是用負梯度方向為搜索方向的,最速下降法越接近目標值,步長越小,前進越慢。
可以用於求解非線性方程組。
34. SGD(Stochastic Gradient Descent 隨機梯度下降)
隨機並行梯度下降算法(stochastic parallel gradient descent algorithm),簡稱SPGD算法。作為一種無模型優化算法,比較適用於控制變量較多,受控系統比較複雜,無法建立準確數學模型的最優化控制過程。
35.QR-decomposition(QR分解), 矩陣分解
矩陣分解 (decomposition, factorization)是將矩陣拆解為數個矩陣的乘積,可分為三角分解、滿秩分解、QR分解、Jordan分解和SVD(奇異值)分解等,常見的有三種:1)三角分解法 (Triangular Factorization),2)QR 分解法 (QR Factorization),3)奇異值分解法 (Singular Value Decomposition)。
36.Quantile (分位數), 分位數
分位數(Quantile),亦稱分位點,是指將一個隨機變量的概率分布範圍分為幾個等份的數值點,常用的有中位數(即二分位數)、四分位數、百分位數等。
37.協方差
協方差(Covariance)在概率論和統計學中用于衡量兩個變量的總體誤差。而方差是協方差的一種特殊情況,即當兩個變量是相同的情況。
協方差表示的是兩個變量的總體的誤差,這與只表示一個變量誤差的方差不同。 如果兩個變量的變化趨勢一致,也就是說如果其中一個大於自身的期望值,另外一個也大於自身的期望值,那麼兩個變量之間的協方差就是正值。 如果兩個變量的變化趨勢相反,即其中一個大於自身的期望值,另外一個卻小於自身的期望值,那麼兩個變量之間的協方差就是負值。
38.Covariance(協方差矩陣)。協方差矩陣
在統計學與概率論中,協方差矩陣的每個元素是各個向量元素之間的協方差,是從標量隨機變量到高維度隨機向量的自然推廣。