機器學習與數據分析常用術語-基礎篇(一)

2020-12-11 DT數據技術博文

前言

之前在給公司的程式設計師培訓機器學習專題實戰的時候,發現他們聽的認真,也非常想學,但是每當問他們有哪裡不懂的時候,他們總是回答不出哪裡不懂,識懂非懂的狀態,後來我總結了一下原因,1.機器學習領域跟程序開發的區別非常大,機器學習屬於一個交叉學科,即需要數學也需要計算機學,難度相對與單學科要大些,2.機器學習領域有很多專業詞彙與術語,之前程式設計師都沒聽說過和接觸過,即使當時講解的時候講的非常細,也很難接觸的過來,需要有個消化過程。

本篇文章將著重介紹機器學習與數據挖掘領域常用的專業術語,希望能在機器學習路上的你帶來幫助,假如你正準備學機器學習或數據挖掘建議你先了解該篇文章後在去學習。

一.基礎

1.數據集(DataSet)

數據集,又稱為資料集、數據集合或資料集合,是一種由數據所組成的集合。

程式設計師可以簡單的理解成資料庫表。

2.變量(variable)

變量來源於數學,是計算機語言中能儲存計算結果或能表示值抽象概念。變量可以通過變量名訪問。

可以理解為欄位。

3.向量(Vector)

在數學中,向量(也稱為歐幾裡得向量、幾何向量、矢量),指具有大小(magnitude)和方向的量。它可以形象化地表示為帶箭頭的線段。

4.X變量(Independent variable)

又稱自變量,自變量一詞來自數學。在數學中,y=f(x) 。在這一方程中自變量是x,因變量是y。將這個方程運用到心理學的研究中,自變量是指研究者主動操縱,而引起因變量發生變化的因素或條件,因此自變量被看作是因變量的原因。如在比較男女性白細胞數的實驗中,性別被稱為了自變量,而白細胞數則為因變量。

可以理解成我們在機器學習中需要分析的變量叫做X變量。

5.Y變量(dependent variable)

又稱因變量,可以理解為結果變量,如我們在金融貸款項目中預測某人是否可以放款,是否可以放款這個變量就叫做因變量。

6.連續變量

在統計學中,變量按變量值是否連續可分為連續變量與離散變量兩種。在一定區間內可以任意取值的變量叫連續變量,其數值是連續不斷的,相鄰兩個數值可作無限分割,即可取無限個數值。如:年齡、體重等變量。

7.離散變量

離散變量的各變量值之間都是以整數斷開的,如人數、工廠數、機器臺數等,都只能按整數計算。離散變量的數值只能用計數的方法取得。

8.二元變量

通常可以理解成啞變量或虛擬變量,虛擬變量 ( Dummy Variables) 又稱虛設變量、名義變量或啞變量,用以反映質的屬性的一個人工變量,是量化了的自變量,通常取值為0或1。

9.定性變量

統計學概念,定性變量(qualitative variable)又名分類變量 ( categorical variable ): 觀測的個體只能歸屬於幾種互不相容類別中的一種時,一般是用非數字來表達其類別,這樣的觀測數據稱為定性變量。可以理解成可以分類別的變量,如學歷、性別、婚否等。

10.均值

即平均值,平均數是表示一組數據集中趨勢的量數,是指在一組數據中所有數據之和再除以這組數據的個數。

11.中位數

對於有限的數集,可以通過把所有觀察值高低排序後找出正中間的一個作為中位數。如果觀察值有偶數個,通常取最中間的兩個數值的平均數作為中位數。

12.缺失值

它指的是現有數據集中某個或某些屬性的值是不完全的。

13.缺失率

某屬性的缺失率=數據集中某屬性的缺失值個數/數據集總行數

14.異常值

異常值(outlier)是指一組測定值中與平均值的偏差超過兩倍標準差的測定值,與平均值的偏差超過三倍標準差的測定值,稱為高度異常的異常值。

15.度量

度量(metric)亦稱距離函數,是度量空間中滿足特定條件的特殊函數,一般用d表示。度量空間也叫做距離空間,是一類特殊的拓撲空間。弗雷歇(Fréchet,M.R.)將歐幾裡得空間的距離概念抽象化,於1906年定義了度量空間。

16.矩陣

在數學中,矩陣(Matrix)是一個按照長方陣列排列的複數或實數集合,最早來自於方程組的係數及常數所構成的。

矩陣是高等代數學中的常見工具,也常見於統計分析等應用數學學科中。

即可以看成一個方便用來計算的數組。

17.方差

(variance)是在概率論和統計方差衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。在許多實際問題中,研究方差即偏離程度有著重要意義。

方差是衡量源數據和期望值相差的度量值。

18.標準差

標準差(Standard Deviation) ,中文環境中又常稱均方差,是離均差平方的算術平均數的平方根,用σ表示。標準差是方差的算術平方根。標準差能反映一個數據集的離散程度。平均數相同的兩組數據,標準差未必相同。

19.皮爾森相關係數

皮爾森相關係數(Pearson correlation coefficient)也稱皮爾森積矩相關係數(Pearson product-moment correlation coefficient) ,是一種線性相關係數。皮爾森相關係數是用來反映兩個變量線性相關程度的統計量。相關係數用r表示,其中n為樣本量,分別為兩個變量的觀測值和均值。r描述的是兩個變量間線性相關強弱的程度。r的絕對值越大表明相關性越強。

20.相關係數

相關係數是最早由統計學家卡爾·皮爾遜設計的統計指標,是研究變量之間線性相關程度的量,一般用字母 r 表示。由於研究對象的不同,相關係數有多種定義方式,較為常用的是皮爾遜相關係數。

21.特徵值

特徵值是線性代數中的一個重要概念。在數學、物理學、化學、計算機等領域有著廣泛的應用。設 A 是n階方陣,如果存在數m和非零n維列向量 x,使得 Ax=mx 成立,則稱 m 是A的一個特徵值(characteristic value)或本徵值(eigenvalue)。非零n維列向量x稱為矩陣A的屬於(對應於)特徵值m的特徵向量或本徵向量,簡稱A的特徵向量或A的本徵向量。

22.特徵向量

矩陣的特徵向量是矩陣理論上的重要概念之一,它有著廣泛的應用。數學上,線性變換的特徵向量(本徵向量)是一個非簡併的向量,其方向在該變換下不變。該向量在此變換下縮放的比例稱為其特徵值(本徵值)。

23.求導

求導是微積分的基礎,同時也是微積分計算的一個重要的支柱。物理學、幾何學、經濟學等學科中的一些重要概念都可以用導數來表示。如導數可以表示運動物體的瞬時速度和加速度、可以表示曲線在一點的斜率、還可以表示經濟學中的邊際和彈性。

24.MSE(Mean Square Error 均方誤差)

均方誤差(mean-square error, MSE)是反映估計量與被估計量之間差異程度的一種度量。設t是根據子樣確定的總體參數θ的一個估計量,(θ-t)2的數學期望,稱為估計量t的均方誤差。它等於σ2+b2,其中σ2與b分別是t的方差與偏倚。反映估計量與被估計量差異程度。

25.LMS(LeastMean Square 最小均方)

最小均方算法,簡稱LMS算法,是一種最陡下降算法的改進算法, 是在維納濾波理論上運用速下降法後的優化延伸,最早是由 Widrow 和 Hoff 提出來的。 該算法不需要已知輸入信號和期望信號的統計特徵,「當前時刻」的權係數是通過「上一 時刻」權係數再加上一個負均方誤差梯度的比例項求得。 其具有計算複雜程度低、在信號為平穩信號的環境中收斂性好、其期望值無偏地收斂到維納解和利用有限精度實現算法時的平穩性等特性,使LMS算法成為自適應算法中穩定性最好、應用最廣的算法。

26.LSM(Least Square Methods 最小二乘法)

最小二乘法(又稱最小平方法)是一種數學優化技術。它通過最小化誤差的平方和尋找數據的最佳函數匹配。利用最小二乘法可以簡便地求得未知的數據,並使得這些求得的數據與實際數據之間誤差的平方和為最小。最小二乘法還可用於曲線擬合。其他一些優化問題也可通過最小化能量或最大化熵用最小二乘法來表達。

27.MLE(MaximumLikelihood Estimation最大似然估計)

最大似然估計(maximum likelihood estimation, MLE)4一種重要而普遍的求估計量的方法。最大似然法明確地使用概率模型,其目標是尋找能夠以較高概率產生觀察數據的系統發生樹。最大似然法是一類完全基於統計的系統發生樹重建方法的代表。

28.QP(Quadratic Programming 二次規劃)

二次規劃是非線性規劃中的一類特殊數學規劃問題,在很多方面都有應用,如投資組合、約束最小二乘問題的求解、序列二次規劃在非線性優化問題中應用等。在過去的幾十年裡,二次規劃已經成為運籌學、經濟數學、管理科學、系統分析和組合優化科學的基本方法。

最大似然法明確地使用概率模型,其目標是尋找能夠以較高概率產生觀察數據的系統發生樹。最大似然法是一類完全基於統計的系統發生樹重建方法的代表。該方法在每組序列比對中考慮了每個核苷酸替換的概率。

29.CP(Conditional Probability條件概率)

條件概率是指事件A在另外一個事件B已經發生條件下的發生概率。條件概率表示為:P(A|B),讀作「在B條件下A的概率」。條件概率可以用決策樹進行計算。條件概率的謬論是假設 P(A|B) 大致等於 P(B|A)。數學家John Allen Paulos 在他的《數學盲》一書中指出醫生、律師以及其他受過很好教育的非統計學家經常會犯這樣的錯誤。這種錯誤可以通過用實數而不是概率來描述數據的方法來避免。

30. JP(Joint Probability 聯合概率)

聯合概率是指在多元的概率分布中多個隨機變量分別滿足各自條件的概率。假設X和Y都服從正態分布,那麼P{X<4,Y<0}就是一個聯合概率,表示X<4,Y<0兩個條件同時成立的概率。表示兩個事件共同發生的概率。A與B的聯合概率表示為 P(AB) 或者P(A,B),或者P(A∩B)。

31.MP(Marginal Probability邊緣概率)

邊緣概率 Marginal Probability 是某個事件發生的概率,而與其它事件無關。邊緣概率是這樣得到的:在聯合概率中,把最終結果中不需要的那些事件合併成其事件的全概率而消失(對離散隨機變量用求和得全概率,對連續隨機變量用積分得全概率)。

這稱為邊緣化(marginalization)。A的邊緣概率表示為 P(A),B 的邊緣概率表示為 P(B)。

32. Bayesian Formula(貝葉斯公式)

貝葉斯定理由英國數學家貝葉斯 ( Thomas Bayes 1702-1761 ) 發展,用來描述兩個條件概率之間的關係,比如 P(A|B) 和 P(B|A)。按照乘法法則,可以立刻導出:P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)。如上公式也可變形為:P(B|A) = P(A|B)*P(B) / P(A)。

貝葉斯的統計學中有一個基本的工具叫貝葉斯公式、也稱為貝葉斯法則, 儘管它是一個數學公式,但其原理毋需數字也可明了。如果你看到一個人總是做一些好事,則那個人多半會是一個好人。這就是說,當你不能準確知悉一個事物的本質時,你可以依靠與事物特定本質相關的事件出現的多少去判斷其本質屬性的概率。 用數學語言表達就是:支持某項屬性的事件發生得愈多,則該屬性成立的可能性就愈大。

L1 /L2Regularization(L1/L2正則,以及更多的,現在比較火的L2.5正則等)

L1範數正則化( L1 regularization 或 lasso )是機器學習(machine learning)中重要的手段,在支持向量機(support vector machine)學習過程中,實際是一種對於成本函數(cost function)求解最優的過程,因此,L1範數正則化通過向成本函數中添加L1範數,使得學習得到的結果滿足稀疏化(sparsity),從而方便人們提取特徵。

GD(GradientDescent 梯度下降)

梯度下降法是一個最優化算法,通常也稱為最速下降法。最速下降法是求解無約束優化問題最簡單和最古老的方法之一,雖然現已不具有實用性,但是許多有效算法都是以它為基礎進行改進和修正而得到的。最速下降法是用負梯度方向為搜索方向的,最速下降法越接近目標值,步長越小,前進越慢。

可以用於求解非線性方程組。

34. SGD(Stochastic Gradient Descent 隨機梯度下降)

隨機並行梯度下降算法(stochastic parallel gradient descent algorithm),簡稱SPGD算法。作為一種無模型優化算法,比較適用於控制變量較多,受控系統比較複雜,無法建立準確數學模型的最優化控制過程。

35.QR-decomposition(QR分解), 矩陣分解

矩陣分解 (decomposition, factorization)是將矩陣拆解為數個矩陣的乘積,可分為三角分解、滿秩分解、QR分解、Jordan分解和SVD(奇異值)分解等,常見的有三種:1)三角分解法 (Triangular Factorization),2)QR 分解法 (QR Factorization),3)奇異值分解法 (Singular Value Decomposition)。

36.Quantile (分位數), 分位數

分位數(Quantile),亦稱分位點,是指將一個隨機變量的概率分布範圍分為幾個等份的數值點,常用的有中位數(即二分位數)、四分位數、百分位數等。

37.協方差

協方差(Covariance)在概率論和統計學中用于衡量兩個變量的總體誤差。而方差是協方差的一種特殊情況,即當兩個變量是相同的情況。

協方差表示的是兩個變量的總體的誤差,這與只表示一個變量誤差的方差不同。 如果兩個變量的變化趨勢一致,也就是說如果其中一個大於自身的期望值,另外一個也大於自身的期望值,那麼兩個變量之間的協方差就是正值。 如果兩個變量的變化趨勢相反,即其中一個大於自身的期望值,另外一個卻小於自身的期望值,那麼兩個變量之間的協方差就是負值。

38.Covariance(協方差矩陣)。協方差矩陣

在統計學與概率論中,協方差矩陣的每個元素是各個向量元素之間的協方差,是從標量隨機變量到高維度隨機向量的自然推廣。

相關焦點

  • 大數據基礎術語,讓我們一起來學習吧!
    以下為您帶來49例大數據基礎術語,一起來學習吧!數據挖掘一般是指從大量的數據中通過算法搜索隱藏於其中信息的過程。數據挖掘通常與計算機科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
  • 數據分析淺談 | 基礎篇
    其實不然,舉個慄子,我們常用的 求和or 平均,這就是最基本的數據描述統計方法,該方法是通過匯總多個數據得到一個具體的確定值來表徵數據特點。其目的是為了描述數據特徵,找出數據的基本規律。描述統計可以分為集中趨勢分析和離散趨勢分析和相關分析三個部分。
  • 大數據分析與機器學習有什麼區別
    如果從更大的角度看,人工智慧也將成為每個增長業務的一部分,越來越多的人熟悉大數據,大數據分析和機器學習等技術術語,並使用它們來解決複雜的分析問題。 通過處理足夠的數據,公司可以使用大數據分析技術來發現,理解和分析資料庫中複雜的原始數據。機器學習是大數據分析的一部分,它使用算法和統計信息來理解提取的數據。
  • AI機器學習領域常用的15個術語
    機器學習是人工智慧(AI)的核心,是使計算機具有智能的根本途徑。本文整理了一下機器學習領域常用的15個術語,希望可以幫助大家更好的理解這門涉及概率論、統計學、逼近論、凸分析、算法複雜度理論等多個領域的龐雜學科。1.
  • 網際網路上20大免費數據科學、機器學習和人工智慧慕課
    這一專業分為三個主要課程:1. 線性代數2. 多元微積分3. 降維主成分分析在這個專業的最後,你將獲得必要的數學知識以繼續你的旅程,並採取更高級的課程在機器學習。你將學到什麼:· 創建可重複的數據分析報告· 推論統計的統一性· 執行頻率推論統計和貝葉斯模型,以了解自然現象和作出基於數據的決定· 在不依賴統計術語的情況下,正確、有效地傳達統計結果,批評以數據為基礎的要求和評價以數據為基礎的決定
  • 25個大數據術語
    2.分析。年末你可能會收到一份來自信用卡公司寄來的包含了全年所有交易記錄的年終報表。在大數據預測分析中,數據科學家可能會使用類似機器學習、高級的統計過程(後文將對這些術語進行介紹)等先進的技術去預測天氣、經濟變化等。5.規範分析。沿用信用卡交易的案例,你可能想要找出哪方面的支出(級食品、服裝、娛樂等)對自己的整體支出產生巨大的影響。規範分析建立在預測分析的基礎之上,包含了「行動」記錄(例如減少食品、服裝、娛樂支出),並分析所得結果來「規定」最佳類別以減少總體支出。
  • 大數據機器學習庫spark mllib基礎及應用案例
    近日,飛馬網邀請業內資深大數據研發專家董西成為大家在線講解了大數據機器學習庫spark mllib基礎及應用案例。
  • AI基礎:機器學習和深度學習的練習數據
    0.導語初學者學習機器學習和深度學習的時候,經常會找不到練習的數據,本文提供了獲取數據的一些方法。和seaborn)AI基礎:機器學習庫Scikit-learn的使用AI基礎:機器學習簡易入門>AI基礎:一文看懂BERTAI基礎:入門人工智慧必看的論文AI基礎:走進深度學習AI基礎:卷積神經網絡
  • 機器學習不用愁了,Google發布機器學習術語表 (中英對照)
    PPandas面向列的數據分析 API。很多機器學習框架(包括 TensorFlow)都支持將 Pandas 數據結構作為輸入。請參閱 Pandas 文檔。參數 (parameter)機器學習系統自行訓練的模型的變量。
  • 常用python機器學習庫總結
    眾所周知現在人工智慧非常的火熱,機器學習也算是人工智慧中的一個領域,在其中有一塊是對文本進行分析,對數據進行深入的挖掘提取一些特徵值,然後用一些算法去學習,訓練,分析,甚至還能預測,我們就來看看python有哪些機器學習庫吧!1.
  • 室內設計常用英語 | 設計術語篇
    在這一期內容,馬克筆設計留學會主要給大家講解室內設計相關的英文詞彙,也就是室內設計過程中的一些設計術語。很多同學在最終翻譯自己的作品集時,通常會不知道相對應的英文是什麼,從而導致根據中文的邏輯直接生硬地翻譯。在這篇文章中會主要介紹14個專業術語,都是在作品集版面,作為標題或者副標題會大量使用到的,小夥伴們如果覺得有用還不趕緊收藏。
  • 大數據可視化分析工具常用的有哪些?
    大數據可視化分析工具常用的有哪些?企業基礎數據才能制定出正確的策略,常用的分析工具有、Tableau、ECharts、Highcharts、魔鏡、圖表秀等。在大數據時代有價值的商品則是數據,大數據技術為決策提供依據,在政府、企業、科研項目等決策中扮演著重要的角色。
  • TensorFlow系列專題(一):機器學習基礎
    模式識別是機器學習中通過數學方法來研究模式處理的一類問題;數據挖掘是從資料庫管理、數據分析、算法的角度探索機器學習問題;而統計學習則是站在統計學的視角來研究機器學習問題。計算機視覺、語音識別以及自然語言處理(這裡特指文本處理)目前是機器學習領域最常見的幾類應用領域。
  • Python網絡爬蟲教程+數據分析+機器學習
    爬蟲作為機器學習語料庫構建的主要方式,建議大家都了解學習一下,現在不用並不代表將來用不到,建議將視頻資源收藏或保存。  既適合非專業人士了解有關機器學習的基礎概念,又適合有專業背景的學生進一步學習。  《圖解機器學習》PDF已經打包好,可以通過下述步驟來獲取:  從結構來看,全部教程包含兩部分:
  • 怎樣用Spark機器學習使用戶數據可視化?
    人氣品牌/產品/公司/聲譽感知監測  不滿意的客戶檢測、監視和警報  營銷活動監控/分析  客戶服務意見監控/分析  品牌情感態度分析  客戶反饋分析  競爭分析  品牌影響力的監控  人工分析客戶或潛在客戶生成的大量文本非常耗時,機器學習效率更高。
  • Google發布機器學習術語表 (中英對照)
    Google 工程教育團隊已經發布了多語種的 Google 機器學習術語表,該術語表中列出了一般的機器學習術語和 TensorFlow 專用術語的定義。語言版本包括西班牙語,法語,韓語和簡體中文。流水線 (pipeline)機器學習算法的基礎架構。流水線包括收集數據、將數據放入訓練數據文件、訓練一個或多個模型,以及將模型導出到生產環境。
  • R數據處理基礎篇(一)
    先用幾個問題檢驗一下你是否需要看這篇文章在使用R做數據分析的一個完整的過程包括數據的獲取,數據的前期處理,之後才是使用「整齊」的數據來套用模型得出結論。本專題旨在系統地講述使用R語言完成前期的數據處理,英文叫tidy data,將「髒」數據洗乾淨。
  • 【乾貨薈萃】機器學習&深度學習知識資料大全集(一)(論文/教程/代碼/書籍/數據/課程等)
    介紹:這是一份python機器學習庫,如果您是一位python工程師而且想深入的學習機器學習.那麼這篇文章或許能夠幫助到你.介紹:這一篇介紹如果設計和管理屬於你自己的機器學習項目的文章,裡面提供了管理模版、數據管理與實踐方法.介紹:如果你還不知道什麼是機器學習,或則是剛剛學習感覺到很枯燥乏味。那麼推薦一讀。
  • 近200篇機器學習&深度學習資料分享
    那麼推薦一讀。這篇文章已經被翻譯成中文,如果有興趣可以移步 http://blog.jobbole.com/67616/《R語言參考卡片》介紹:R語言是機器學習的主要語言,有很多的朋友想學習R語言,但是總是忘記一些函數與關鍵字的含義。
  • 考考你,這些數據分析常用術語你都分清楚了嗎?
    一般從事數據分析行業的朋友對這類詞並不陌生,但是像市場運營人員就會把這類些名詞概念搞混,導致結果不準確。數據分析相關概念多且雜,容易搞混。為了便於大家區分,今天小編就來盤點一下數據分析常用的術語解釋。建議大家收藏起來方便查看。按照以下三類進行匯總。