數據科學家需要掌握的10個基本統計技術

2021-01-10 IT168

【IT168 編譯】無論您在數據的科學性問題上持哪種看法,都無法忽視數據的持續重要性,也不能輕視分析、組織和情境化數據的能力。 根據大量的就業數據和員工反饋信息統計,在「25個最佳美國就業機會」排行榜中,數據科學家排名第一。毫無疑問,數據科學家所做的具體工作內容將會進一步拓展。隨著機器學習等技術變得越來越普遍,深度學習等新興領域對研究人員和工程師的需求得到了巨大的推動,數據科學家們在創新和技術進步的浪潮中再次嶄露頭角。

編碼能力強大是很重要的,但數據科學並不專職於軟體工程(事實上,對Python很熟悉就足夠了)。數據科學家生活在編碼、統計學和批判性思維的交叉點上。正如喬希·威爾斯(Josh Wills)所說的那樣:「數據科學家是一個比任何程式設計師都要好的統計學家,而且比任何統計學家都更擅長編程。」筆者個人知道有太多的軟體工程師希望轉向數據科學家,並盲目利用機器學習框架TensorFlow或Apache Spark,而不透徹理解背後的統計理論。因此出現了「統計學習」,一個與機器學習有關的理論框架,包含統計到功能分析的一系列專業領域。

為什麼學習統計學習?了解各種技術背後的想法是非常重要的,可以讓你知道如何以及何時使用它們。由簡入繁,首先要理解更簡單的方法,才好把握更複雜的方法。準確地評估一種方法的性能,了解它的工作效果多好或者多糟,這一點很重要。此外,這是一個令人興奮的研究領域,在科學,工業和金融領域有著重要的應用。最終,統計學習是培養現代數據科學家的基本要素。統計學習問題的例子有:

·確定前列腺癌的危險因素。

·根據記錄周期圖對錄製的音素進行分類。

·根據人口統計、飲食和臨床測量,預測是否有人會發生心臟病。

·自定義垃圾郵件檢測系統。

·識別手寫郵政編碼中的數字。

·將組織樣本分為幾個癌症類別之一。

·建立人口調查數據中工資與人口變量之間的關係。

統計學習和機器學習之間的差異在於:

·機器學習是人工智慧的一個子領域。

·統計學習是統計學的一個分支。

·機器學習更強調大規模應用和預測的準確性。

·統計學習強調模型及其可解釋性,精確性和不確定性。

1 - 線性回歸:

在統計學中,線性回歸是一種通過擬合自變量與自變量之間最佳線性關係來預測目標變量的方法。最好的做法是確保每個點的形狀和實際觀測之間的所有距離之和儘可能小。形狀的適合性是「最好的」,因為在形狀的選擇上沒有其他位置會產生較少的誤差。線性回歸的2種主要類型是簡單線性回歸和多元線性回歸。簡單線性回歸使用一個獨立變量來通過擬合最佳線性關係來預測因變量。多重線性回歸使用多個獨立變量來通過擬合最佳線性關係來預測因變量。

選擇你在日常生活中使用的任何兩件相關的東西。如每月支出,月收入和過去三年每月的旅行次數的數據。就需要回答以下問題:

我明年的每月開支是多少?

哪個因素(每月收入或每月旅行次數)在決定我的每月支出時更重要?

月收入和每月旅行如何與每月支出相關聯?

2 - 分類:

分類是一種數據挖掘技術,它將類別分配給數據集合,以助進行更準確的預測和分析。有時也稱為決策樹,分類是用於對非常大的數據集進行分析的幾種方法之一。眼下有2大分類技術脫穎而出:Logistic回歸和判別分析。

Logistic回歸分析是當因變量是二分(二元)時進行的適當的回歸分析。像所有回歸分析一樣,Logistic回歸是預測分析。 Logistic回歸用於描述數據並解釋一個相關二元變量與一個或多個標稱、序數、區間或比例級別的獨立變量之間的關係。邏輯回歸可以檢查的問題類型:

每增加一磅的超重和每天吸一包香菸,肺癌的可能性(是vs否)會發生怎樣的變化?

體重卡路裡攝入量,脂肪攝入量和參與者年齡對心臟病發作是否有影響(有vs無)?

在判別分析中,先驗已知2個或更多個組或群或群,並基於所測量的特徵將1個或更多個新觀察分類到1個已知群中。判別分析在每個響應類別中分別對預測因子X的分布進行建模,然後使用貝葉斯定理將它們翻轉為給定X的值的響應類別概率的估計。這樣的模型可以是線性的或二次的。

線性判別分析為每個觀測值計算「判別分數」,以便對它所處的響應變量類別進行分類。這些分數是通過尋找自變量的線性組合得到的。它假設每個類別內的觀察值都來自多變量高斯分布,預測因子的協方差在響應變量Y的所有k水平上是共同的。

二次判別分析提供了一種替代方法。和LDA一樣,QDA假定每個Y類的觀測值都是從高斯分布中得到的。但是,與LDA不同的是,QDA假定每個類都有其自己的協方差矩陣。換句話說,預測因子不被假定在Y中的每個k水平上具有共同的方差。

3 - 重採樣方法:

重採樣是從原始數據樣本中繪製重複樣本的方法。這是統計推斷的非參數方法。換句話說,重採樣方法不涉及使用通用分布表來計算近似p概率值。

重採樣根據實際數據生成唯一的採樣分布。它使用實驗方法而不是分析方法來生成獨特的抽樣分布。它產生無偏估計,因為它是基於研究者所研究數據的所有可能結果的無偏樣本。為了理解重採樣的概念,您應該理解術語Bootstrapping和交叉驗證:

Bootstrapping是一種技術,可以幫助您在很多情況下驗證預測模型的性能、集成方法、估計模型的偏差和方差。它通過對原始數據進行替換來進行採樣,並將「未選擇」的數據點作為測試用例。我們可以做這幾次,並計算平均分作為我們的模型性能的估計。

另一方面,交叉驗證是驗證模型性能的一種技術,它是通過將訓練數據分成k個部分來完成的。我們以k - 1部分作為訓練集,並使用「伸出部分」作為我們的測試集。我們重複k次不同的方式。最後,我們將k分數的平均值作為我們的業績估計。

通常對於線性模型,普通最小二乘法是考慮將它們適合於數據的主要標準。接下來的3種方法是可以為線性模型的擬合提供更好的預測精度和模型可解釋性的替代方法。

4 - 子集選擇:

這種方法確定了我們認為與響應相關的p預測因子的一個子集。然後,我們使用子集特徵的最小二乘擬合模型。

最佳子集選擇:這裡我們對每個可能的p預測因子組合進行單獨的OLS回歸,然後查看最終的模型擬合。算法分為2個階段:(1)擬合所有包含k預測因子的模型,其中k是模型的最大長度;(2)使用交叉驗證的預測誤差選擇單個模型。使用測試或驗證錯誤非常重要,而不是訓練錯誤來評估模型擬合,因為RSS和R 2單調增加更多的變量。最好的方法是在測試誤差估計值上交叉驗證並選擇具有最高R 2和最低RSS的模型。

向前逐步選擇考慮預測因子的一個小得多的子集。它從不含預測因子的模型開始,然後在模型中添加預測因子,直到所有預測因子都在模型中。被添加變量的順序是變量,其給出對擬合的最大的加法改進,直到沒有更多的變量使用交叉驗證的預測誤差來改進模型擬合。

向後逐步選擇開始將模型中的所有預測因子,然後迭代去除最不有用的預測因子。

混合方法遵循向前逐步回歸方法,但是,在添加每個新變量之後,該方法還可以去除對模型擬合沒有貢獻的變量。

5 - 收縮:

這種方法適合一個涉及所有p預測因子的模型,然而,估計係數相對於最小二乘估計向零收縮。這種縮水,又稱正規化,具有減少方差的作用。取決於執行什麼類型的收縮,其中一些係數可能恰好被估計為零。因此這個方法也執行變量選擇。將係數估計收縮為零的兩個最著名的技術是嶺回歸和Lasso。

嶺回歸類似於最小二乘,通過最小化一個稍微不同的數量估計係數。像OLS一樣,嶺回歸尋求降低RSS的係數估計值,但是當係數接近於零時,它們也會有收縮懲罰。這個懲罰的作用是將係數估計收縮到零。不用進入數學計算,知道嶺回歸縮小列空間方差最小的特徵是有用的。像在主成分分析中一樣,嶺回歸將數據投影到雙向空間,然後比高方差分量收縮低方差分量的係數,這相當於最大和最小主分量。

嶺回歸至少有一個缺點:它包括最終模型中的所有p預測值。犯規條款將使它們中的許多接近於零,但不完全為零。這對於預測準確性來說通常不是問題,但它可能使模型更難以解釋結果。 Lasso克服了這個缺點,並且能夠迫使一些係數歸零,只要s足夠小。由於s = 1導致有規律的OLS回歸,當s接近0時,係數收縮為零。因此,Lasso回歸也執行變量選擇。

6 - 維度降低:

維數減少將估計p + 1個係數的問題簡化為M + 1個係數的簡單問題,其中M <p。這是通過計算變量的M個不同的線性組合或投影來實現的。然後,這些M預測被用作預測因子以通過最小二乘擬合線性回歸模型。這個任務的兩種方法是主成分回歸和偏最小二乘法。

可以將主成分回歸描述為從大量變量中導出低維特徵集合的方法。數據的第一個主要組成方向是觀測值變化最大的。換句話說,第一臺PC是儘可能接近數據的一條線。人們可以適應不同的主要組成部分。第二個PC是與第一個PC不相關的變量的線性組合,並且受這個約束的變化最大。這個想法是主要的組成部分使用隨後正交方向的數據的線性組合捕獲數據中最大的變化。通過這種方式,我們也可以結合相關變量的效果,從可用數據中獲取更多信息,而在正則最小二乘中,我們將不得不放棄其中一個相關變量。

我們上面描述的PCR方法包括確定最能代表預測因子的X的線性組合。這些組合(方向)以無監督的方式被識別,因為響應Y不用於幫助確定主要組件方向。也就是說,響應Y不監督主成分的識別,因此不能保證最能解釋預測因子的方向對於預測響應(即使經常假設)也是最好的。偏最小二乘法(PLS)是一個監督的替代PCR。與PCR一樣,PLS是一種降維方法,它首先識別一組新的較小的特徵,這些特徵是原始特徵的線性組合,然後通過最小二乘法擬合一個線性模型到新的M特徵。然而,與PCR不同的是,PLS利用響應變量來識別新的特徵。

7 - 非線性模型:

在統計學中,非線性回歸是回歸分析的一種形式,其中觀測數據是由一個函數建模的,該函數是模型參數的非線性組合,並取決於一個或多個自變量。數據通過逐次逼近的方法進行擬合。以下是一些處理非線性模型的重要技巧:

如果實數的函數可以寫成區間指示函數的有限線性組合,則稱實數為函數。非正式地說,一個階梯函數是一個只有很多片段的分段常量函數。

分段函數是由多個子函數定義的函數,每個子函數應用於主函數域的一定間隔。分段實際上是表達函數的一種方式,而不是函數本身的一個特徵,但是具有額外的限定,可以描述函數的性質。例如,分段多項式函數是在其每個子域上是多項式的函數,但是每個子域上可能是不同的。

樣條函數是由多項式分段定義的特殊函數。在計算機圖形學中,樣條是指分段多項式參數曲線。由於其結構簡單,評估方便和準確,以及通過曲線擬合和交互式曲線設計逼近複雜形狀的能力,樣條曲線是流行的曲線。

廣義加性模型是一種線性預測模型,其中線性預測變量線性依賴於某些預測變量的未知光滑函數,興趣集中在對這些光滑函數的推理上。

8 - 基於樹的方法:

基於樹的方法可以用於回歸和分類問題。這些涉及將預測空間分層或分割成若干簡單區域。由於用於分割預測變量空間的分裂規則集合可以在樹中進行概括,所以這些類型的方法被稱為決策樹方法。下面的方法生成多個樹,然後結合在一起產生一個單一的共識預測。

套袋(Bagging)是減少預測方差的方法,通過使用重複組合來生成原始數據集中的訓練數據,從而生成與原始數據相同的多樣性。通過增加你的訓練集的大小,你不能提高模型的預測力,只是減少方差,勉強把預測調整到預期的結果。

提升(Boosting)是一種使用幾種不同的模型計算產出的方法,然後使用加權平均方法對結果進行平均。通過改變你的加權公式,結合這些方法的優點和缺陷,你可以使用不同的狹義調整模型,為更廣泛的輸入數據提供一個很好的預測力。

隨機森林(random forest )算法實際上非常類似於套袋。你也可以繪製訓練集的隨機bootstrap樣本。但是,除了自舉樣本之外,還可以繪製隨機子集來訓練單個樹;在套袋中,你給每個樹一套完整功能。由於隨機特徵選擇,與常規套袋相比,樹木之間的相互獨立性更高,這通常會帶來更好的預測性能(由於更好的方差偏差權衡),而且速度更快,因為每棵樹只能從功能的一個子集。

9 - 支持向量機:

SVM是機器學習中監督學習模型中的一種分類技術。通俗地說,它涉及於找到超平面(2D中的線,3D中的平面和更高維中的超平面,更正式地說,超平面是n維空間中的n維空間)最大保證金從本質上講,它是一個約束優化問題,其邊界被最大化,受限於它對數據進行了完美的分類(硬邊緣)。

這種「支持」這個超平面的數據點被稱為「支持向量」。對於兩類數據不能線性分離的情況,這些點被投影到可能線性分離的分解(高維)空間。涉及多個類的問題可以分解為多個一對一或者一對二的分類問題。

10 - 無監督學習:

到目前為止,我們只討論了監督學習技術,其中組是已知的,提供給算法的經驗是實際實體和它們所屬的組之間的關係。當數據的組(類別)未知時,可以使用另一組技術。它們被稱為無監督的,因為它會留在學習算法中以找出所提供的數據中的模式。聚類是無監督學習的一個例子,其中不同的數據集被聚類為密切相關的項目組。下面是最廣泛使用的無監督學習算法的列表:

主成分分析通過識別一組具有最大方差和相互不相關的特徵的線性組合來幫助產生數據集的低維表示。這種線性維度技術有助於理解變量在無監督環境下的潛在相互作用。

k-Means聚類:根據到群集質心的距離將數據分為k個不同的集群。

分層集群:通過創建集群樹來構建集群的多級分層結構。

以上是一些基本的統計技術的簡單解釋與說明,可以幫助數據科學項目經理和主管人員更好地理解他們的數據科學小組背後隱藏的內容。實際上,一些數據科學小組純粹通過python和R庫運行算法。他們中的大多數甚至不必考慮潛在的數學問題。但是,能夠理解統計分析的基礎知識可以為您的團隊提供更好的方法。

相關焦點

  • 成為偉大的數據科學家需要掌握的基本數學
    現代數據科學的幾乎所有技術,包括機器學習,都有深厚的數學基礎。毫無疑問,想要成為一個頂級的數據科學家,需要在各個方面都具有優勢如編程能力、一定的商業智慧、以及獨特的分析能力等。但了解「引擎蓋下的機械原理」總是有好處的。對算法背後的數學機制有一個深入的理解,將使你在同行中具有優勢。
  • 人人都需要掌握的 5 個基本統計概念 | 網際網路數據資訊網-199IT |...
    在數據科學藝術的執行中,統計可以說是一個強大的工具。從高層次來看,統計學是利用數學對數據進行分析的學科。基本的可視化(柱狀圖等)會給受眾一些深層的信息,但通過統計,我們可以用一種更富有信息驅動力和更有針對性的方式對數據進行操作。
  • 人人都需要掌握的 5 個基本統計概念
    統計中的數學可以幫助我們對數據形成具體的結論,而不僅僅是猜測。通過統計,我們可以獲得更深入、更細緻入微的見解,能夠了解數據的確切結構,並在此基礎上了解如何應用其他數據科學技術來獲取更多信息。今天,我們來看看數據科學家需要掌握的5個基本統計概念及其應用。
  • 入門| 從線性回歸到無監督學習,數據科學家需要掌握的十大統計技術
    本文介紹了數據科學家需要掌握的十大統計技術,包括線性回歸、分類、重採樣、降維、無監督學習等。不管你對數據科學持什麼態度,都不可能忽略分析、組織和梳理數據的重要性。Glassdoor 網站根據大量僱主和員工的反饋數據製作了「美國最好的 25 個職位」榜單,其中第一名就是數據科學家。
  • 基本數據統計分析--spss
    在數據分析工作中,描述性統計分析是我們日常使用率最高的,主要的基本統計分析維度包括但不限於均值、 中位數、眾數、方差、百分位、頻數、峰度、偏度、探索分析、交叉聯列表分析、多選項分析、基本統計報表製作等。而這些功能操作在spss中是可以直接使用的。當然我們也需要理解相關定義。
  • 如果你想轉型數據科學家,可能要掌握這幾個統計學技術
    Glassdoor利用龐大的就業數據和員工反饋信息,統計了美國25個最佳職位排行榜,其中,數據科學家排名第一。這個工作的重要性可見一斑。毫無疑問,數據科學家所做的事情是不斷變化和發展的。隨著機器學習的普遍應用,數據科學家們將繼續在創新和技術進步浪潮中獨領風騷。雖然編碼能力很重要,但數據科學並不都是研究軟體工程的。他們生活在編碼、統計學和批判性思維的交叉點上。
  • 數據科學家必會10個統計分析方法
    著名求職網站Glassdoor根據龐大的就業數據和員工反饋信息,將數據科學家排名為美國最佳的25個工作之首。雖然名頭不小,但毫無疑問,數據科學家所做的具體工作是不斷發展變化的。隨著機器學習等技術越來越普及,像深度學習這樣的新興領域在研究人員、工程師以及聘用他們的公司中成為新寵,數據科學家們將繼續在創新浪潮和技術進步中嶄露頭角。
  • excel數據統計:三個公式提高統計工作效率
    今天我們總結了三類小夥伴們經常遇到的統計問題,也將分享三種對應的解決方法,以後再面對這三類統計問題,就再也不怕啦~****************善於在工作中使用函數、公式可以提高工作效率,結合近期學員們遇到的問題,老菜鳥總結了三個非常實用的公式,每個公式都可以解決一類問題。學會這三個公式套路,就能解決日常遇到的很多麻煩事。
  • 每個數據科學家都必須了解的5大統計概念
    統計和數據科學的重要支柱任何數據科學家都可以從數據集中收集信息-任何優秀的數據科學家都將知道,紮實的統計基礎可以收集有用和可靠的信息。 沒有它,就不可能進行高質量的數據科學。以下是每個數據科學家都應該知道的前五個統計概念:描述性統計,概率分布,降維,過採樣和欠採樣以及貝葉斯統計。讓我們從最簡單的一個開始。
  • 數據科學入門前需要知道的10件事
    >本文為你介紹在學習數據科學時,需要注意的10件事。數據科學的技術內容包括了數據收集,數據預處理,數據深度分析,數據可視化,統計分析,機器學習,編程和軟體工程。除了這些技術要求,數據科學家還需要具有各種軟技能。下面信息圖所示概括了數據科學家必備的一些技能。
  • 面試必備:數據科學家必須掌握的3個統計學概念
    從某些角度上來講,如今的數據科學家基本上等於現代統計學家。在數據科學面試中,我們也少不了要面對統計學相關的知識。以下是數據科學相關面試中最頻繁出現的三種統計學問題,它們是許多數據科學應用程式的基本構建模塊。
  • 數據科學入門前需要知道的10件事
    他在22歲時開始自學數據科學,目前已經自學成才,文摘菌編譯了這篇文章,希望能把以下需要注意的10件事告訴剛入門的你。我從2004年開始數據科學之旅。那個時候『數據科學』概念才剛被提出,當時廣泛使用的術語是『數據挖掘』。一直到2012年『數據科學』這個概念才引起人們注意,且一篇由Thomas Davenport 和 D.J.
  • 不學好數學也想當數據科學家?不存在的
    作為一名技術開發工程師,我的日常工作內容主要涉及半導體物理,矽製造過程的有限元模擬,以及電子電路理論。當然,這其中會涉及一些數學,但令人難過的是,我並沒有用到過數據科學家們所需要的那些數學。他們希望得到完整的描述和推論統計,這些描述和統計可能有助於預測建模,並擴展出遠遠超出數據集所包含數據範圍的投射能力。今天的數據必須講述一個故事、或者唱一首美妙的歌。但是,要聽懂它優美的旋律,你必須精通音樂的基本音符,而這些音符就是數學。
  • 學統計:掌握統計數據描述指標,構建數據分析的基礎
    統計學是通過數據去發現規律(數據具有同質性,即規律),在這裡,數據是指統計學上變量的數值體現。 科學家最近採用彩色編碼地圖,標記出全球222個國家人口的平均壽命分布情況。
  • 全國統計專業技術中級資格考試大綱(2018年)
    《統計基礎理論及相關知識》科目   一、考試目的   考察統計專業技術人員綜合運用統計方法、經濟學基礎理論、會計基礎知識等有關理論和實踐經驗,根據不同要求進行數據描述、參數估計、假設檢驗,並對數據進行定性和定量分析的能力;利用統計和會計資料進行經濟社會發展情況判斷和分析的能力。
  • 大數據給統計工作帶來的挑戰
    ■ 鄭寶金     隨著雲計算技術概念的提出和發展,社會經濟正邁入大數據時代。所謂的大數據時代就是人們獲取的信息量劇增,獲取信息的渠道也越來越廣泛,信息趨向於網絡化、廣泛化、公開化。可以將其特徵歸納為四個「V」:數量(Volume),多樣性(Variety),價值(Value),速度(Velocity)。大數據時代數據衡量度越來越向縱深定義,數據體量巨大,類型繁多,相較於傳統數據挖掘分析技術,雲計算、人工智慧等新興大數據技術的數據分析處理能力愈加強大。
  • 大數據技術在預測性營銷上的實踐9個問題
    10%以下  這是怎麼做到在問捲髮送後的3個小時就回收35%? 我們用已知的數據尋找線索,不斷挖掘素材,不但可以鞏固老會員,也可以分析出未知的顧客與需求,進一步開發市場。 用戶分群:分門別類貼標籤  描述分析是最基本的分析統計方法,描述統計分為兩大部分:數據描述和指標統計。數據描述:用來對數據進行基本情況的刻畫,包括數據總數,範圍,數據來源。指標統計:把分布,對比,預測指標進行建模。
  • 香港新加坡留學統計和數據科學專業介紹,高薪專業!
    畢業生具備使用商業統計軟體進行統計和風險分析的實踐經驗,並且能勝任需要高級計算技能的數據分析工作。雖說鼓勵多元化的學生群體,但申請者也需滿足一定條件,先修課:矩陣微積分、統計、線性模型知識,錄取學生多為統計、經濟統計、數學、金數等數學背景強的。GPA建議3.5+,TOEFL 80 / IELTS 6(5.5),GMAT/GRE非強制,但最好能提交GRE。有面試和筆試,筆試多為統計基本知識。
  • 學會這10個簡單又實用的統計函數,再也不怕數據計算了
    對於常常需要匯總統計的人來說,誰沒有幾個用到爛熟的函數?然而對於函數初學者來說,一提到函數就瑟瑟發抖。有沒有什麼超級簡單,又實用的統計函數?還真的有!1.sum函數:求和用表格做統計,怎麼少得了SUM求和函數。有了SUM函數在手,想求哪裡的和就求哪裡的和。如下圖所示,在單元格輸入sum函數,並引用E2到E8單元格區域,表示對E2到E8單元格的區域的數據進行求和統計。
  • 鄉鎮統計基礎知識——統計工作的基本方法有哪些?
    統計工作是「觀察問題、提出問題、分析推斷和解決問題」的過程,沒有一整套貫穿於統計調查、統計整理、統計分析工作過程的科學的統計方法,就不可能全面、準確、及時地揭示現象的數量方面,更不可能由此反映現象發展的規律性。在統計工作過程的各個階段中,其具體方法是多種多樣的,但有一些基本方法貫穿於統計活動過程的始終,這些基本方法是大量觀察法、統計分組法、綜合指標法、統計推斷法和統計模型法。