數據分析師必須掌握的10種統計方法 (1)

2021-02-20 MarTechCareer

Glassdoor在《25個美國最好的工作》(25 Best Jobs in America)清單上將數據科學家列為榜首。

一聽到「數據科學家」,可能很多人的第一反應是編程,但這裡要糾正這個不太正確的觀點:雖然編程能力對數據科學非常重要,但是數據科學和軟體工程有很大的區別。數據科學家是編程、統計、商業意識的集合體。正如Josh Wills說的那樣,「數據科學家是程式設計師中最懂統計的,是統計學家中最懂編程的「。我認識非常多的軟體工程師在轉向數據科學家的路上走得很艱難,因為他們沒有充分理解統計理論。

而統計能力在現今的職場上已成為最重要的能力之一。不管你從事什麼工作,已經不能否認整理、分析、合理化數據的重要性了。在海量的統計知識裡,我認為有10個統計技能在商業應用中因其應用的廣泛性而脫穎而出,因而這篇文章就是介紹這10種統計方法的。

1.線性回歸

在統計中,線性回歸是通過擬合因變量和自變量之間最佳的線性關係來預測一個目標變量的。最佳擬合是怎麼找到的呢?是通過找到實際觀測值和預測值的最小加和來確定的。直觀上說,就是實際值的曲線和預測值的曲線越貼合越好。

兩個主要的線性回歸類型是簡單線性回歸和多元線性回歸。簡單線性回歸就是用一個自變量來預測一個因變量。多元線性回歸是用多於一個自變量來預測因變量。比如,我可以用我生活中的三個變量——過去三年中我每月的話費、每月收入、每月旅遊次數——來回答下面的問題:

2.分類

分類(classification)是一種數據挖掘技術,它可以將一組數據分成不同的類別。分類有時也被稱為決策樹。兩種主要的分類技術是:邏輯回歸(Logistic Regression)和判別分析(Discriminant Analysis)

當因變量是二分的(比如,轉化,只有轉化了vs沒轉化兩個值)時候,邏輯回歸就是一個正確的回歸方法來分析數據。就像所有的回歸分析那樣,邏輯回歸是一個預測分析。邏輯回歸是用來描述數據和解釋一個二分的因變量和一個或多個定類變量、定序變量、定距變量和定比變量的關係。

自變量類型

定類變量(nominal variable):比如廣告類別這個變量的值可以是展示廣告、搜索廣告、社交廣告這幾個類型

定序變量(ordinal variable):也就是變量的值不僅能夠代表事物的分類,還能代表事物按某種特性的排序,比如產品評分。

定距變量(interval variable):具有間距特徵的變量,有單位,沒有絕對零點,可以做加減運算但不能做乘除運算。比如,溫度。

定比變量(ratio variable):既有測量單位,也有絕對零點,是數據類別裡可以做最多運算的數據類型。比如:廣告曝光數、網站流量。


邏輯回歸可以解決的問題包括:

在判別分析中,按照一定的判別準則,建立一個或多個判別函數,用研究對象的大量數據確定判別函數中的待定係數,並計算判別指標。然後根據所測量到的特徵值判別新樣本/觀測值應該歸屬到哪個類別。判別分析通常都要設法建立一個判別函數,然後利用此函數來進行批判,判別函數主要有兩種,即線性判別函數(Linear Discriminant Function)和典則判別函數(Canonical Discriminate Function)。

在營銷分析中,一般根據事先確定的因變量(例如產品的主要用戶、普通用戶和非用戶;或是電視觀眾和非電視觀眾)找出相應處理的區別特性。在判別分析中,因變量為定類變量(nominal variable),有多少類別就有多少類別處理組;自變量通常為連續變量(可度量數據)。通過判別分析,可以建立能夠最大限度的區分因變量類別的函數,考查自變量的組間差異是否顯著、判斷哪些自變量對組間差異貢獻最大、評估分類的程度、根據自變量的值將樣本/觀測值歸類。

3. 重複抽樣方法

重複抽樣(Resampling)是一種指從原始數據樣本中重複提取樣本的方法。通常被用來解決機器學習中的不平衡分類問題(即某一類別的觀測樣本的數量顯著少於其他類別,尤其在諸如銀行欺詐、客戶終止續訂服務等異常檢測中是非常嚴重的問題)。重複抽樣屬於統計推斷中的一種非參數方法。換句話說,重複抽樣方法不涉及利用一般的統計概率分布表(如下圖)來計算大概的p概率值。


重複抽樣會基於實際數據來生成一個獨特的抽樣分布。它使用實驗性方法而不是分析性的方法來生成這個獨特的抽樣分布。由於重複抽樣是基於研究人員得來數據的所有可能結果的無偏樣本,因此它產生的也是無偏估計。為了理解重複抽樣的概念,你應該先了解自舉法(Bootstrapping)和交叉驗證(Cross-Validation)這兩個術語:


集成方法:是一種將多種機器學習技術整合成一個預測模型,以減少方差、偏差或提高預測,獲得比單個機器學習技術更好的學習效果的機器學習方法。



通常對於線性模型來說,普通最小二乘法(ordinary least  square regression,OLS regression)是考慮模型與實際結果擬合程度的主要標準。接下來兩種是其它可以為線性模型的擬合提供更好的預測精確度和模型可解釋性的替代方法。

4. 子集選擇

這種方法指從p個預測變量中挑選出與相應變量相關的變量形成子集,在對縮減後的變量集合使用最小二乘法。



最優子集選擇:對p個預測變量的所有可能組合分別使用普通最小二乘法進行擬合,最後在所有可能模型中選擇一個最優模型。該算法分為兩個階段:(1)擬合包含k個預測變量組合的所有模型。(2)使用交叉驗證預測誤差來選擇單個模型。使用測試集或驗證集的誤差非常重要,而不是訓練集的誤差來評估模型結果。因為RSS和R2會隨著變量的增加單調遞增。最好的方法是交叉驗證並選擇有著最高的R2和最低的RSS的模型。

向前逐步選擇:這個方法從一個比較小的變量子集開始,逐漸增加預測變量。它首先從一個不包含任何預測變量的模型開始,然後往模型裡逐漸加入預測變量,一次一個直到所有預測變量都被加入了模型中。添加變量的順序是先把能夠最大程度提高模型擬合度的變量加進去,直到不能更進一步提高模型準確率為止。

向後逐步選擇:從把所有p個預測變量都放進模型開始,然後逐漸減少變量,把影響較小的變量一次一個地從模型中拿掉。

混合方法:遵從遞增選擇的方法,但是,在添加每個新的變量以後,同時把之前放進模型卻對於提高模型擬合度沒有較大貢獻的變量再拿掉。

5. 收縮

該方法使用所有p個預測變量來進行建模,然而,模型係數會根據最小二乘估計向零收縮。這種收縮也被稱為正則化,通過減少方差來防止模型過度擬合。根據不同類型的收縮,一些係數可能被直接估計為零。因此這種方法也用來進行變量選擇。將係數收縮至零的兩種最知名的方法是嶺回歸(Ridge regression)和套索回歸(Lasso regression)。

 

本文來源:Medium

作者:James Le

翻譯:Yi, Vivian | MarTechApe

好課推薦

▲《營銷組合建模訓練營》第五期火熱招生,戳圖片了解課程詳情

MarTechApe是一個來自紐約、專注MarTech領域的知識分享|技能學習|求職服務的終身學習平臺。我們提供最專業的Marketing Technology課程。

相關焦點

  • 數據分析師是怎麼使用統計數據的?
    ENJOY THE WINTER 我們開門見山,這是數據分析師使用統計數據的7種方式—— ENJOY THE WINTER 1.設計和解釋實驗以指導產品決策
  • 數據分析師必須具備的10項基本技能
    1 數學與統計技能 (Ⅰ)統計和概率 a)統計和概率用於特徵的可視化,數據預處理,特徵轉換,數據歸因,降維,特徵工程,模型評估等。
  • 數據分析師-快速掌握SQL基礎
    SQL技能是數據分析師的必備技能,作者在之前的文章《你不知道的數據分析師》中也提到了,數據分析師50%的時間都在寫SQL。本文將從一道數據分析師的SQL面試題開始分析講解,期間,會涉及到SQL的基礎操作和分析函數的使用等知識點,然後為大家總結出了一份快速掌握SQL基礎的指南,希望能夠幫助到SQL初學者。這是一道來自百度數據部門的面試題,主要考察row_number的使用。題目:SQL語句如何查詢各用戶最長連續登錄天數?如圖左邊是源表User,右邊是需要達到的查詢結果。
  • 一名合格的數據分析師,統計基礎不可或缺!
    作者 | CDA數據分析師 來源 | CDA數據科學研究院從事數據分析工作,統計基礎不可或缺。今天小編就來給大家好好梳理一下關於一名合格數據分析師所要掌握的統計基礎都有哪些,旨在為大家查缺補漏,讓大家的數據分析之路走得更紮實穩靠。
  • 想華麗轉行數據分析師?這些你必須知道
    如果你對數據分析無感,在面對大量數據運算時感到頭疼,那可能入門數據分析對你來說非常困難;對於那些完全不了解數據分析的同學來說,轉行需要重頭學起,給自己留出一點時間,大概幾個月,也不要貪多,扎紮實實地看書或去參加一些專門的數據分析師技能的培訓課程,就能迅速掌握龐雜的知識體系與實戰案例。
  • 數據分析師之快速掌握SQL基礎
    >作者丨斌迪這是作者的第3篇文章SQL技能是數據分析師的必備技能,作者在之前的文章《你不知道的數據分析師》中也提到了,數據分析師50%的時間都在寫SQL。本文將從一道數據分析師的SQL面試題開始分析講解,期間,會涉及到SQL的基礎操作和分析函數的使用等知識點,然後為大家總結出了一份快速掌握SQL基礎的指南,希望能夠幫助到SQL初學者。這是一道來自百度數據部門的面試題,主要考察row_number的使用。題目:SQL語句如何查詢各用戶最長連續登錄天數?
  • 如何成為數據分析師
    我先來講解一下數據相關的角色以及職責,說不定你認識清楚了就不想成為數據分析師了,就可以不用往下看了。如果還有信心,那我就介紹一下要學習的基礎內容,然後再介紹進階的內容。   數據相關的角色   圍繞數據分析,主要有六種角色。
  • 零基礎入門數據分析師——你可以做到!
    7種數據分析技巧,分別是象限法,多維法,假設法,指數法,二八法,對比法,漏鬥法。第二:統計學知識準備數據分析要求數據分析員有一定的統計學基礎,包括對數據進行簡單的統計分析,進而從數據中發現問題解決問題。
  • 從數據分析師的級別看:產品經理的數據修養
    作為在網際網路公司搞了多年數據工作的職工,BLUES對當前熱門的大數據提法,一直不是很感冒,很多所謂搞大數據的,其實都不知道數據從哪裡來的,做數據分析,千萬別上來就是搞大數據分析,還是從小數據開始吧。無論是做產品策劃,還是做產品運營,都需要掌握必要的數據分析方法,至少掌握助理數據數據分析師的技能,如下所示:
  • 你想成為一名數據分析師嗎?
    但是,如何學習以進入該行業的最佳方法是什麼?從媒體到文章,再到職位發布,再到公司高層領導講話,似乎無處不在的術語是「數據分析「。因此,如果您熟悉技術或者對學習有關技術的新知識感興趣,那麼可能會思考一下問題:什麼是數據分析?一個人如何成為數據分析師?
  • 三個月從小白到數據分析師,都是靠著這份書單!
    數據分析基礎-統計學統計學是數據分析方法論中的核心基礎,在數據分析的方法模型中,很大程度上都來源於統計學的方法,所以掌握統計原理是必須的。這些是之後可以直接應用到你的數據分析項目中去的一些方法。從統計向機器學習深入和過渡,對目前目前的統計學習方法有全面的介紹。數據分析入門了解一部分統計學的基礎知識之後,接下來就可以正式上手學習較為基礎的數據分析知識了。
  • Top30數據分析師常見面試題(附答案)!
    【IT168 評論】這是一個用數據說話的時代,也是一個依靠數據競爭的時代。各大網際網路公司都在不斷完善自己的數據分析團隊,數據分析師的薪酬也是水漲船高。業內人士透露,應屆畢業生的平均薪資大概在6K左右,1至3年經驗的大概在10K到20K之間,5至10年經驗的大概在25K以上。薪資還是十分誘人的,那麼,如何快速成長為一名年薪百萬的數據分析師呢?
  • 5種聚類算法!數據分析師必須要掌握
    給定一組數據點,我們可以使用聚類算法將每個數據點分類到一個特定的簇中。理論上,屬於同一類的數據點應具有相似的屬性或特徵,而不同類中的數據點應具有差異很大的屬性或特徵。聚類屬於無監督學習中的一種方法,也是一種在許多領域中用於統計數據分析的常用技術。
  • 必須掌握的多條件數據統計技巧,進階高手必備技能,收藏備用
    在實際的工作中,對於數據統計,都是附加條件的,並不是簡單的求和、平均值、最大值、最小值等情況,所以利用函數公式做數據統計,必須掌握多條件的數據統計技巧。語法結構:=Dsum(數據區域,求和欄位的相對列數,條件)。目的1:按「性別」統計相應「地區」的總銷售額。
  • 轉行學習數據分析師還來得及嗎?
    數據分析師入門標準1、SQL資料庫。做數據分析,數據是基本,數據的來源有很多,可能是第三方提供的數據,也可能是自己爬蟲爬取的。但企業裡更多的情況是,數據是存儲在資料庫裡的,如何在資料庫裡選取自己想要的、有約定條件的數據,怎麼建立多表之間的聯繫就是SQL這部分需要掌握的技能,SQL也是數據分析最基礎的技能。2、統計學統計學可以分為描述性統計和推斷統計。
  • 學好Python,必須熟練掌握的幾種數據結構【文末送書】
    實際上,其意在闡明編程的核心在於掌握數據結構與算法!如果把一名優秀的程式設計師比作武林高手,那麼數據結構即為招式,算法則是內功,二者缺一不可。當下,Python語言非常火熱,學好Python就必須掌握好這些數據結構的常用用法。
  • 數據分析師的薪資上限究竟能給到多少
    數據分析師不應該只是一個獲取數據、清洗數據、數據建模、數據統計的工具人。熟練運用工具只是基本功,而真正通過數據分析結合業務,實現正確決策、賦能業務增長才是分析師拿高薪的關鍵。其實早在2017年,馬雲在IT領袖峰會上就曾說:「在未來,一切業務數據化,一切數據業務化,企業才更有出路。」
  • 數據分析師的職位描述、資質和前景
    數據分析師獲取、組裝並幫助其他人解釋和理解數據。要做到這一點,分析師必須培養分析、溝通、計算機、數學和統計方面等的技能。具體的經濟部門可以指導分析人員使用的數據類型。例如,醫療數據分析師的工作描述需要處理不同的信息,如實驗室數據、保險索賠、處方記錄、辦公室或醫院訪問。
  • NAR:MicrobiomeAnalyst微生物組分析師——統計、可視化和元分析微生物組數據的網頁工具
    因此,我們開發了微生物組分析師(MicrobiomeAnalyst),一款用戶界面友好的工具,整合了最進的統計和可視化技術,並結合廣泛的分析微生物組的輸出數據。儘管此類方法穩健,但缺少統計功效,不支持添加混雜因子等複雜實驗。處理不均勻的測序深度,主要兩種方法:重新標準化序列為一個恆量,即比例proportions;或重採樣各樣本為相等數量,即抽樣rarefying。前者會出現組成型數據的問題,而後者會損失一些重要的信息。一般來說,最好的方法是開發適合鬆散數據結構和不同測序深度的統計模型,或者開發合適的數據轉換方法,使現用數據適合其它算法的數據分布模型。
  • 如何成為一名合格的數據分析師,數據分析師需要哪些技能?
    當然還有部分即將就業、剛入行久、轉行加入數據分析領域的群體,對如何成為一名合格的數據分析師,數據分析師需要哪些技能還存在諸多疑惑,那麼今天們就一起探討一下。1、 理論基礎篇作為一名合格的數據分析師,你需要有應用數學、統計學、數量經濟學專業數學知識背景。