如果你想轉型數據科學家,可能要掌握這幾個統計學技術

2021-01-10 智能觀

Glassdoor利用龐大的就業數據和員工反饋信息,統計了美國25個最佳職位排行榜,其中,數據科學家排名第一。這個工作的重要性可見一斑。毫無疑問,數據科學家所做的事情是不斷變化和發展的。隨著機器學習的普遍應用,數據科學家們將繼續在創新和技術進步浪潮中獨領風騷。

雖然編碼能力很重要,但數據科學並不都是研究軟體工程的。他們生活在編碼、統計學和批判性思維的交叉點上。正如數據科學家喬希·威爾斯(Josh Wills)所說的:「數據科學家是程式設計師裡最好的統計學家,也是統計學家裡最好的程式設計師。」

我知道,很多軟體工程師想轉型數據科學家,他們盲目地使用機器學習框架TensorFlow或Apache Spark,而沒有透徹理解背後的統計理論。因此,統計學習從統計學和功能分析的角度出發,提出了機器學習的理論框架。

為什麼要學統計學習?

了解各種技術背後的想法,知道如何以及何時使用它們,這一點非常重要。

首先,要從理解簡單的方法開始,以便把握更複雜的方法。

其次,準確地評估一種方法的性能,了解它的工作效果,也很重要。

此外,統計學習是令人興奮的研究領域,在科學、工業和金融領域有著重要應用。

最後,統計學習是培養現代數據科學家的基本要素。

屬於統計學習領域的問題包括:

確定前列腺癌的危險因素。根據對數周期圖對錄製的音位進行分類。根據人口統計、飲食和臨床測量,預測是否有人會發生心臟病。自定義垃圾郵件檢測系統。識別手寫郵政編碼中的數字。根據組織樣本進行癌症分類。建立人口調查數據中工資與人口變量之間的關係。

我在大學最後一個學期進行了一項獨立研究,是關於數據挖掘的。內容涉及三本書:《Intro to Statistical Learning》《Doing Bayesian Data Analysis》和《Time Series Analysis and Applications》。我們做了大量的貝葉斯分析,馬爾可夫鏈蒙特卡羅,分層建模,監督和無監督學習的練習。這一經歷增加了我對數據挖掘的興趣,讓我堅定了投身這一領域的信心。

最近,我完成了史丹福大學Lagunita 統計學習在線課程,該課程涵蓋了《An Introduction to Statistical Learning: with Applications in R》一書中的所有內容。它的內容是我搞獨立研究時讀過內容的兩倍。我想分享本書中的10個統計技術,相信任何數據科學家都用得著。

在學習使用這10種技術之前,我想區分一下統計學習和機器學習。我之前寫過一篇關於機器學習的文章,廣受歡迎,所以我相信自己有足夠的專業知識,證明以下內容:

機器學習是人工智慧的一個子領域。統計學習是統計學的一個分支。機器學習更強調大規模應用和預測的準確性。統計學習強調模型及其可解釋性,精確性和不確定性。但是這種區別變得越來越模糊,並且存在很多「交叉領域」。機器學習在商業領域佔據上風!

1.線性回歸

在統計學中,線性回歸是一種通過擬合自變量與因變量之間最佳線性關係,來預測目標變量的方法。過程是給出一個點集,用函數擬合這個點集,使點集與擬合函數間的誤差最小。所謂的「最佳」線性關係是指在給定形狀的情況下,沒有其他位置會產生更少的誤差。

線性回歸的兩種主要類型是簡單線性回歸和多元線性回歸 。 簡單線性回歸使用一個獨立變量,通過擬合最佳線性關係來預測因變量。多元線性回歸使用多個獨立變量,通過擬合最佳線性關係來預測因變量。

舉例:任意選擇日常生活中相關的東西,比如,過去三年的月支出、月收入和月旅行次數。現在回答以下問題:

我明年的每月支出是多少?哪個因素(月收入或月旅行次數)在決定我的月支出中更重要?月收入和月旅行次數如何和月支出有什麼關係?

2.分類

分類是一種數據挖掘技術,它將類別分配給數據集合,幫助更準確地預測和分析。分類有時也稱為決策樹,它是用來分析大型數據集有效性的方法。兩種主要的分類技術是邏輯回歸和判別分析。

邏輯回歸是當因變量是二元時進行的適當回歸分析。像所有回歸分析一樣,邏輯回歸分析是一種預測分析。邏輯回歸用於描述數據,並解釋二元因變量與一個或多個描述事物特徵的自變量之間的關係。邏輯回歸可以檢驗的問題類型包括:

體重超重後,每增加一磅和每天吸一包菸草,患肺癌的可能性(是vs否)會發生怎樣的變化?體重、卡路裡攝入量、脂肪攝入量和參與者年齡對心臟病發作是否有影響?

在判別分析中,有兩個或兩個以上群集是已知的,新的觀測值根據特徵,歸入已知群集。判別分析對類別中X的分布進行建模,然後使用貝葉斯定理轉換為對應概率。判別分析包括以下兩種類型。

線性判別分析(LDA):計算每一項觀測結果的「判別分數」,對其所處的響應變量類別進行分類。這些分數是通過尋找自變量的線性組合得到的。它假設每類中的觀測結果來自於一個多變量高斯分布,而預測變量的協方差在響應變量Y的所有k級別都是通用的。

二次判別分析(QDA):提供了一種替代方法。和LDA一樣,QDA假設每一類中Y的觀測結果都來自於高斯分布。然而,與LDA不同,QDA假設每個類別都有自己的協方差矩陣。換句話說,預測變量在Y中的每個k級別都沒有共同的方差。

3.重採樣方法

重採樣是指從原始數據樣本中提取重複樣本的方法。這是一種非參數的統計推斷方法。換句話說,重採樣不利用通用分布計算近似的p概率值。

重採樣在實際數據的基礎上生成一個獨特的抽樣分布。它採用實驗方法,而不是分析方法,產生獨特的抽樣分布。它根據研究人員所研究的數據的所有可能結果的無偏樣本,得出無偏估計。為了理解重採樣的概念,應先了解Bootstrapping (自舉)和交叉驗證兩個術語。

Bootstrapping(自舉)可以幫助你在很多情況下驗證預測模型的性能、集成方法,估計模型的偏差和方差。它通過對原始數據進行有放回取樣,進行數據採樣,並將「 未選擇 」的數據點作為測試用例。我們可以多做幾次,計算出平均分,作為模型性能的估值。

交叉驗證是驗證模型性能的一種技術,它把訓練數據分成k個部分,以k1部分作為訓練集,其餘部分作為測試集。依次重複,重複k次。最後,將k次分數的平均值作為模型性能的估值。

通常,對於線性模型,普通最小二乘法是擬合數據的主要標準。接下來的3種方法,可以為線性模型的擬合提供更好的預測精度和模型可解釋性。

4.子集選擇

此方法選擇一個我們認為能夠解決問題的預測因子p中的子集,然後,使用子集特徵和最小二乘法,擬合一個模型。

最佳子集選擇:我們對每種可能的p預測因子組合進行OLS回歸,然後查看最終的模型擬合。

算法分為2個階段:

(1)擬合所有包含k個預測因子的模型,其中k是模型的最大長度。

(2)使用交叉驗證的預測誤差選擇單個模型。

由於 RSS 和 R^2 隨變量增加而單調遞增, 所以使用驗證或測試誤差, 且不用訓練誤差來評估模型的擬合情況是很重要的。最好的方法是選擇具有最高R^2和最低 RSS 的模型,交叉驗證。

向前逐步選擇:建一個模型,裡面不含預測因子, 然後逐個添加, 直到所有預測因子都在模型中。添加因子的順序是可變的, 根據不同變量對模型性能提升程度來確定, 添加變量,直到預測因子不能在交叉驗證誤差中改進模型。

向後逐步選擇:將所有預測因子p納入模型,迭代刪除沒有用的預測因子,一次刪一個。

混合方法:遵循向前逐步選擇的方法,但是,在添加新變量之後,還可以去除對模型擬合沒有用的變量。

5.收縮

這種方法適用於所有預測因子p的建模,然而,相對於最小二乘估計,它估計的係數會趨於零。這種收縮,也就是正則化,有減少方差,防止模型過擬合的作用。根據執行的收縮類型,一些係數可能被估計為零。因此,該方法也執行變量選擇。兩種最著名的縮小係數的方法是嶺回歸和套索回歸。

嶺回歸類似最小二乘法,不過它通過最小化一個不同的量來估計係數。像OLS一樣,嶺回歸尋求降低RSS的係數估計,但是當係數接近於零時,它們也會有收縮懲罰。這個懲罰的作用是將係數估計收縮到零。不使用數學計算,我們就可以知道,嶺回歸會將特徵縮小到最小空間。就像主成分分析,嶺回歸將數據轉換到低維空間,然後收縮係數空間內較低方差的成分,保留較高方差的成分。

嶺回歸至少有一個缺點,它包括最終模型中的所有預測因子p。收縮懲罰將使它們中的許多接近於零,但從未等於零。這對預測的準確性來說不是問題,但它可能使模型難以解釋。

套索回歸則克服了這個缺點,能夠迫使一些係數歸零,只要s足夠小。由於s= 1會產生正規的OLS回歸,而當s接近0時,係數收縮為零。因此,套索回歸也執行變量選擇。

6.降維

降維算法將p + 1個係數的問題簡化為M + 1個係數的簡單問題,其中M < p,這是通過計算變量的M個不同的線性組合或投影得到的。然後,這些M投影被用作預測最小二乘法擬合線性回歸模型的預測因子。該任務的兩種方法是主成分回歸和偏最小二乘法。

主成分回歸(PCR)是從大量變量中導出低維特徵集合的方法。數據的第一主成分方向是觀測數據變化最大的方向。換句話說,第一主成分是最接近擬合數據的線,可以適合p個不同的主成分擬合。第二主成分是與第一主成分不相關的變量的線性組合,並且在該約束下有最大方差。其思想是,主成分利用各個互相垂直方向上的數據的線性組合,捕捉數據中最大的方差。這樣,我們還可以結合相關變量的影響,從可用的數據中獲得更多的信息,而在常規的最小二乘法中,我們必須拋棄一個相關的變量。

PCR方法需要提取X的線性組合,它最能代表預測因子。這些組合(方向)以無監督方式提取,因為X對應的Y不能確定主成分的方向。也就是說, Y不監督主成分的提取,因此,最能解釋預測因子的方向,對於預測輸出來說不一定是最好的(即使經常假設)。

偏最小二乘法(PLS)是PCR的一種替代方法。 與PCR一樣,PLS是 一種 降 維 方法,它首先識別一組新的較小的特徵,這些特徵是原始特徵的線性組合,然後通過最小二乘法擬合一個線性模型,具備新的M個特徵。 然而,與PCR不同的是,PLS利用Y變量來識別新的特徵。

7.非線性模型

在統計學中,非線性回歸是回歸分析的一種形式,其中觀測數據是由一個函數建模的,該函數是模型參數的非線性組合,並取決於一個或多個自變量。數據通過逐次逼近的方法進行擬合。以下是一些處理非線性模型的重要技巧。

階躍函數的變量是實數,它可以寫成區間的指示函數的有限線性組合。非正式地說,一個階躍函數是一個分段常數函數,它只有有限的幾個部分。

分段函數是由多個子函數定義的函數,每個子函數應用於主函數域的某個區間。分段實際上是一種表達函數的方式,不是函數本身的特性,而是附加的限定條件,它可以描述函數的性質。例如,分段多項式函數是,在每個子域上,函數都是多項式函數,並且每個多項式都是不同的。

樣條曲線是由多項式定義分段的特殊函數。在計算機圖形學中,樣條曲線是指一個分段多項式參數曲線。由於其結構簡單、評估簡單、精度高,以及通過曲線擬合和交互曲線設計近似複雜形狀的能力,樣條曲線是很受歡迎的曲線。

廣義加性模型是一種廣義線性模型,其中線性預測因子線性地依賴於某些預測變量的未知平滑函數,它的作用就是推測這些平滑函數。

8.基於樹的方法

基於樹的方法可以用於回歸和分類問題,包括將預測空間劃分成多個簡單區域。由於用於分割預測空間的分割規則集可以在樹中總結,這些類型的方法稱為決策樹方法。下面的方法是幾種不同的樹,可以組合輸出一個單一的共識預測。

Bagging(套袋)是一種減少預測方差的方法,通過從原始數據集生成額外的數據,重複組合,生成訓練數據。通過增加訓練集的大小,你不能提高模型的預測力,只是減小方差,將預測精確地調整到預期結果。

Boost(提升)是一種使用幾種不同模型計算輸出的方法,然後使用加權平均方法計算結果。結合這些方法的優點和缺陷,通過改變加權公式,你可以使用不同的模型,為更大範圍的輸入數據提供良好的預測力。

隨機森林算法非常類似於Bagging(套袋)。在這裡,你可以繪製隨機的自舉樣本。然而,除了自舉樣本之外,你還可以繪製一個隨機的子集,訓練單獨的樹。由於隨機特徵選擇,與常規的Bagging(套袋)相比,每個樹更獨立,這通常會獲取更好的預測性能(由於更好的方差-偏置權衡),而且速度更快,因為每一個樹只從特徵子集中學習。

9.支持向量機

支持向量機是機器學習中有監督學習模型下的技術。通俗地說,它涉及尋找分離兩類點集的超平面(二維空間中是線,三維空間中是面,高維空間中是超平面)。本質上,這是一個約束最優化問題,在約束下間隔最大化,完美地對數據進行分類(硬邊界)。

這種「支持」這個超平面的數據點被稱為「支持向量」。在上圖中,實心藍色圓和兩個實心正方形是支持向量。對於兩類數據不是線性可分的情況,這些點被投射到一個爆炸(高維)空間,線性分離成為可能。涉及多個類的問題可以分解為多個一對一,或一對剩餘的二分類問題。

10.無監督學習

到目前為止,我們只討論了監督學習的技術,在這些技術中,數據類別是已知的,並且提供給算法的經驗是實體和它們所屬的組之間的關係。當不知道數據類別時,可以使用另一組技術。在算法學習中,它們被稱為無監督,要自己在提供的數據中找出模式。聚類是無監督學習的一個例子,在這種學習中,不同的數據集被集中到一組密切相關的項目中。以下是最廣泛使用的無監督學習算法。

主成分分析:通過識別一組具有最大方差且互不相關的特徵的線性組合,從而產生數據集的低維表示。這種線性降維技術有助於理解無監督環境中變量之間潛在的相互作用。

k-均值聚類:根據數據到集群中心的距離將數據劃分成k個不同的集群。

層次聚類:通過創建集群樹構建多層次的集群。

這是對一些基本的統計技術的簡單總結。這些技術可以幫助數據科學項目經理和主管,更好地了解他們的數據科學團隊每天都在做什麼。事實上,一些數據科學團隊純粹是通過python和R來運行算法的。他們中的大多數人甚至不需要考慮底層的數學問題。但是,能夠理解統計分析的基礎,可以讓團隊有更好的方法,對於細節有更深入的了解,便於操作和進行抽象思維。我希望這個基礎數據科學統計指南,能給你帶來不錯的理解方式!

來源:codementor作者:James Le智能觀 編譯

—完—

親愛的朋友:我們的「智能觀小艾」,本是為了方便有轉載需求的朋友服務的,結果被好多做開發的朋友添加了。其中有不少是軟體工程師想轉型的。我們很高興,有這麼多做開發的朋友關注我們。今天的這篇文章,就是分享給想轉型的你的。希望能對你有所幫助。祝安! 智能觀 一米 2018-2-10 於北京中關村

聲明:編譯文章旨在幫助讀者了解行業新思想、新觀點及新動態,為原作者觀點,不代表智能觀觀點。

相關焦點

  • 想成為數據科學家?你得先讀讀這篇文章
    ,我還想在這裡加上我本人的「Priestly推論」:「(數據科學家是)擅長對數據分析結果進行商業解釋的科學家與擅長數據分析的MBA的混合體」。Q:統計學家和數據科學家之間的區別是什麼?A:這是個好問題。我也經常被問到計算機科學家和數據科學家之間的區別是什麼。事實上這兩個學科也都在探索隱藏在數據中的新內涵。
  • 面試必備:數據科學家必須掌握的3個統計學概念
    從某些角度上來講,如今的數據科學家基本上等於現代統計學家。在數據科學面試中,我們也少不了要面對統計學相關的知識。以下是數據科學相關面試中最頻繁出現的三種統計學問題,它們是許多數據科學應用程式的基本構建模塊。
  • 《企業數位化轉型》37—技術趨勢ABCD+5G之大數據
    這一共識足以解釋近年來的數字大爆炸為何無比重要。簡而言之,有了大數據,管理者可以將一切量化,從而對公司業務盡在掌握,進而提升決策質量和業績表現。航班更準航空業分秒必爭。其次,他們要允許數據做主;當員工看到一位資深高管聽任數據推翻了他的直覺判斷—這將是改變一家公司決策文化的最大力量。五大管理挑戰大數據轉型並不是萬能的,除非企業能成功應對轉型過程中的管理挑戰。以下五個方面在這一過程中尤為重要。領導力。
  • 你有沒有想過,你可能高估了統計學(二)
    在前一節【你有沒有想過,你可能高估了統計學(一)】,我們聊到了統計學的無所不在和它的趣味盎然。從《赤裸裸的統計學》這本書中,我們還會發現統計學不為人知的另一面。-3- 會欺騙人的統計學我們從網站上、報紙上會看到各行各業的統計數字,有一些數字讓你覺得可信,有一些卻會讓你產生懷疑。不要懷疑,統計數字的確可能會欺騙你。
  • 你有沒有想過,你可能高估了統計學(一)
    中二等獎的概率是千分之一,共有10個。三等獎有100個,中獎概率是百分之一。當你看到一等獎的獎金有5000元,二等獎的獎金200元,中了三等獎也有10元的獎金時,會不會迫不及待地掏出你的錢包,期盼好運會降臨到你的頭上?如果我告訴你,要是花2元錢買了這張彩票,回報只有八毛錢,而且這八毛錢也未必回到你的錢包裡。你還會這麼做嗎?我的依據是數學期望。
  • 數據科學家需要掌握的10個基本統計技術
    【IT168 編譯】無論您在數據的科學性問題上持哪種看法,都無法忽視數據的持續重要性,也不能輕視分析、組織和情境化數據的能力。 根據大量的就業數據和員工反饋信息統計,在「25個最佳美國就業機會」排行榜中,數據科學家排名第一。毫無疑問,數據科學家所做的具體工作內容將會進一步拓展。
  • 做實驗需要掌握哪些統計學知識?
    比如很多人都喜歡用平均數去分析一個事物的結果,但是這往往是粗糙的,不準確的。如果學了統計學,那麼我們就能以更多更科學的角度看待數據。 大部分的數據分析,都會用到統計方面的以下知識,可以重點學習:通過基本的統計量,你可以進行更多元化的可視化,以實現更加精細化的數據分析。
  • 資源| 自學數據科學&機器學習?19個數學和統計學公開課推薦
    後來他想,做點應用數學應該是個有趣的變化。——數學家 John Edensor Littlewood數學和統計學是數據科學和機器學習的基礎。就我所知,大多數成功的數據科學家都來自這些領域——計算機科學、應用數學和統計學、經濟學。如果你想掌握數據科學,你就必須要對基本代數和統計學有很好的了解。但是,對於沒有數學背景的人來說,起步之路可能會舉步維艱。
  • 怎樣從數據分析師轉型數據科學家?
    數據分析師的首要作業是對數據進行搜集和處理,並通過統計算法分析已處理的結構化數據,從而為數據賦能,改進決策。數據科學家也會進行相似的作業,但對其提出了更高的要求。那麼,怎樣從數據分析師轉型數據科學家呢?
  • 入門| 從線性回歸到無監督學習,數據科學家需要掌握的十大統計技術
    本文介紹了數據科學家需要掌握的十大統計技術,包括線性回歸、分類、重採樣、降維、無監督學習等。不管你對數據科學持什麼態度,都不可能忽略分析、組織和梳理數據的重要性。Glassdoor 網站根據大量僱主和員工的反饋數據製作了「美國最好的 25 個職位」榜單,其中第一名就是數據科學家。
  • DSC:成為一個數據科學家的九個步驟(信息圖)
    199IT原創編譯數據科學和數據分析發展迅速,給該領域帶來了眾多工作機,但是可用人才匱乏。這給那些想找新工作的人提供了希望。
  • 【獨家】考察數據科學家和分析師的41個統計學問題
    原標題:【獨家】考察數據科學家和分析師的41個統計學問題 原創 本文長度為6500字,建議閱讀20分鐘> 本文是Analytics Vidhya所舉辦的在線統計學測試的原題,有志於成為數據科學家或者數據分析師的同仁可以以這41個問題測試自己的統計學水平。
  • 統計知識不容忽視:數據科學家必須了解的統計學
    ,這是必須重視的大問題。這些統計學概念有助於我們更好地理解不同模塊和各種技術,它們是數據科學、機器學習和人工智慧領域很多概念的基礎。1.集中趨勢度量集中趨勢的一個度量是找到一組數據中間位置的數值,用它來描述這一組數值。
  • 想從事數據科學?統計學60分怎麼夠!
    N年後,看到數據科學發展得風生水起,並且跟數學息息相關,我暗自發誓:錯過的青春和數學我都要補回來!於是勾搭了一位數學科學家,想找他開開光。他噗嗤一笑,用飽含同情的目光看著我,鄭重地將《基本數學和數學科學統計教程》交到我手上。看了兩頁後,小編卒……沒想到,除了數學之外,想要入門數據科學,統計學也是一座必須翻過去的大山。
  • 統計學 5 個基本概念,你知道多少?
    從高的角度來看,統計學是一種利用數學理論來進行數據分析的技術。象柱狀圖這種基本的可視化形式,會給你更加全面的信息。但是,通過統計學我們可以以更富有信息驅動力和針對性的方式對數據進行操作。所涉及的數學理論幫助我們形成數據的具體結論,而不僅僅是猜測。
  • ...因為你根本不懂數據!聽聽這位老教授多年心血練就的最實用統計學
    具體的數據沒有哪兩個是一樣的,這就要有獨特的處理方法,你必須考慮基於什麼樣的偷稅漏稅機理和背景來建立模型,你總不能說大家都在偷稅漏稅,而的目的是要把最有可能偷稅漏稅的人找出來,所以你就要了解企業避稅方面的思維方式和可能採用的方法。這就是說,你既要有相關應用領域的知識,又得知道怎麼來處理數據,還要會編程什麼的……所有的東西你都會了,才能做好。
  • 移動醫療大數據的幾個偽命題:大數據的陷阱與小數據的重要性
    因為人存在很多的個體差異,所以每個人身上的小數據也是千差萬別的。它不比大數據那樣浩瀚繁雜,卻對我自己至關重要。當然把大量的人的小數據整合起來可以視為大數據分析,但是前文Dr.2也說過,有的時候整體平均趨勢對個人是無價值的,甚至有害的。前天看個笑話,有個身高1.8米的人問大數據科學家能不能過前面這條河,科學家經過全河流域的大數據分析後,得出平均水深1.2米,於是他放心地趟過去,結果淹死了!
  • 大數據面前,統計學的價值在哪裡
    如果直接去問被調查的人員:「您是否撒過謊?」十之八九,是問不到真實答案的。如果被調查人員以前撒過謊,也不在乎多撒這個謊了。被調查人員可能出於不同的動機,不願意給出真實答案。那麼,調查數據怎麼得來呢?這顯然不是簡單地通過計算機技術、通過某些爬蟲軟體就容易收集到適合研究目的相關數據的。  如何利用統計學方法來收集數據呢?這就需要統計學的智慧了。調查人員設計了兩組實驗。
  • 不學好數學也想當數據科學家?不存在的
    作為一名技術開發工程師,我的日常工作內容主要涉及半導體物理,矽製造過程的有限元模擬,以及電子電路理論。當然,這其中會涉及一些數學,但令人難過的是,我並沒有用到過數據科學家們所需要的那些數學。他們希望得到完整的描述和推論統計,這些描述和統計可能有助於預測建模,並擴展出遠遠超出數據集所包含數據範圍的投射能力。今天的數據必須講述一個故事、或者唱一首美妙的歌。但是,要聽懂它優美的旋律,你必須精通音樂的基本音符,而這些音符就是數學。
  • 統計學的十個法則
    今天咱們來把蒂姆·哈福德的《讓世界講得通》這本書總結複習一下。這本書是講統計學的,但一個數學公式都沒有,它給我們提供了10個統計學的法則和教訓,值得我們好好理解,並且在面對統計數據的時候可以拿出來提醒自己。所以今天咱們就來把這10個法則複習一下。祝你每天都有收穫。