Glassdoor在《25個美國最好的工作》(25 Best Jobs in America)清單上將數據科學家列為榜首。
一聽到「數據科學家」,可能很多人的第一反應是編程,但這裡要糾正這個不太正確的觀點:雖然編程能力對數據科學非常重要,但是數據科學和軟體工程有很大的區別。數據科學家是編程、統計、商業意識的集合體。正如Josh Wills說的那樣,「數據科學家是程式設計師中最懂統計的,是統計學家中最懂編程的「。我認識非常多的軟體工程師在轉向數據科學家的路上走得很艱難,因為他們沒有充分理解統計理論。
而統計能力在現今的職場上已成為最重要的能力之一。不管你從事什麼工作,已經不能否認整理、分析、合理化數據的重要性了。在海量的統計知識裡,我認為有10個統計技能在商業應用中因其應用的廣泛性而脫穎而出,因而這篇文章就是介紹這10種統計方法的。
1.線性回歸
在統計中,線性回歸是通過擬合因變量和自變量之間最佳的線性關係來預測一個目標變量的。最佳擬合是怎麼找到的呢?是通過找到實際觀測值和預測值的最小加和來確定的。直觀上說,就是實際值的曲線和預測值的曲線越貼合越好。
兩個主要的線性回歸類型是簡單線性回歸和多元線性回歸。簡單線性回歸就是用一個自變量來預測一個因變量。多元線性回歸是用多於一個自變量來預測因變量。比如,我可以用我生活中的三個變量——過去三年中我每月的話費、每月收入、每月旅遊次數——來回答下面的問題:
2.分類
分類(classification)是一種數據挖掘技術,它可以將一組數據分成不同的類別。分類有時也被稱為決策樹。兩種主要的分類技術是:邏輯回歸(Logistic Regression)和判別分析(Discriminant Analysis)
當因變量是二分的(比如,轉化,只有轉化了vs沒轉化兩個值)時候,邏輯回歸就是一個正確的回歸方法來分析數據。就像所有的回歸分析那樣,邏輯回歸是一個預測分析。邏輯回歸是用來描述數據和解釋一個二分的因變量和一個或多個定類變量、定序變量、定距變量和定比變量的關係。
自變量類型
定類變量(nominal variable):比如廣告類別這個變量的值可以是展示廣告、搜索廣告、社交廣告這幾個類型
定序變量(ordinal variable):也就是變量的值不僅能夠代表事物的分類,還能代表事物按某種特性的排序,比如產品評分。
定距變量(interval variable):具有間距特徵的變量,有單位,沒有絕對零點,可以做加減運算但不能做乘除運算。比如,溫度。
定比變量(ratio variable):既有測量單位,也有絕對零點,是數據類別裡可以做最多運算的數據類型。比如:廣告曝光數、網站流量。
邏輯回歸可以解決的問題包括:
在判別分析中,按照一定的判別準則,建立一個或多個判別函數,用研究對象的大量數據確定判別函數中的待定係數,並計算判別指標。然後根據所測量到的特徵值判別新樣本/觀測值應該歸屬到哪個類別。判別分析通常都要設法建立一個判別函數,然後利用此函數來進行批判,判別函數主要有兩種,即線性判別函數(Linear Discriminant Function)和典則判別函數(Canonical Discriminate Function)。
在營銷分析中,一般根據事先確定的因變量(例如產品的主要用戶、普通用戶和非用戶;或是電視觀眾和非電視觀眾)找出相應處理的區別特性。在判別分析中,因變量為定類變量(nominal variable),有多少類別就有多少類別處理組;自變量通常為連續變量(可度量數據)。通過判別分析,可以建立能夠最大限度的區分因變量類別的函數,考查自變量的組間差異是否顯著、判斷哪些自變量對組間差異貢獻最大、評估分類的程度、根據自變量的值將樣本/觀測值歸類。
3. 重複抽樣方法
重複抽樣(Resampling)是一種指從原始數據樣本中重複提取樣本的方法。通常被用來解決機器學習中的不平衡分類問題(即某一類別的觀測樣本的數量顯著少於其他類別,尤其在諸如銀行欺詐、客戶終止續訂服務等異常檢測中是非常嚴重的問題)。重複抽樣屬於統計推斷中的一種非參數方法。換句話說,重複抽樣方法不涉及利用一般的統計概率分布表(如下圖)來計算大概的p概率值。
重複抽樣會基於實際數據來生成一個獨特的抽樣分布。它使用實驗性方法而不是分析性的方法來生成這個獨特的抽樣分布。由於重複抽樣是基於研究人員得來數據的所有可能結果的無偏樣本,因此它產生的也是無偏估計。為了理解重複抽樣的概念,你應該先了解自舉法(Bootstrapping)和交叉驗證(Cross-Validation)這兩個術語:
集成方法:是一種將多種機器學習技術整合成一個預測模型,以減少方差、偏差或提高預測,獲得比單個機器學習技術更好的學習效果的機器學習方法。
通常對於線性模型來說,普通最小二乘法(ordinary least square regression,OLS regression)是考慮模型與實際結果擬合程度的主要標準。接下來兩種是其它可以為線性模型的擬合提供更好的預測精確度和模型可解釋性的替代方法。
4. 子集選擇
這種方法指從p個預測變量中挑選出與相應變量相關的變量形成子集,在對縮減後的變量集合使用最小二乘法。
最優子集選擇:對p個預測變量的所有可能組合分別使用普通最小二乘法進行擬合,最後在所有可能模型中選擇一個最優模型。該算法分為兩個階段:(1)擬合包含k個預測變量組合的所有模型。(2)使用交叉驗證預測誤差來選擇單個模型。使用測試集或驗證集的誤差非常重要,而不是訓練集的誤差來評估模型結果。因為RSS和R2會隨著變量的增加單調遞增。最好的方法是交叉驗證並選擇有著最高的R2和最低的RSS的模型。
向前逐步選擇:這個方法從一個比較小的變量子集開始,逐漸增加預測變量。它首先從一個不包含任何預測變量的模型開始,然後往模型裡逐漸加入預測變量,一次一個直到所有預測變量都被加入了模型中。添加變量的順序是先把能夠最大程度提高模型擬合度的變量加進去,直到不能更進一步提高模型準確率為止。
向後逐步選擇:從把所有p個預測變量都放進模型開始,然後逐漸減少變量,把影響較小的變量一次一個地從模型中拿掉。
混合方法:遵從遞增選擇的方法,但是,在添加每個新的變量以後,同時把之前放進模型卻對於提高模型擬合度沒有較大貢獻的變量再拿掉。
5. 收縮
該方法使用所有p個預測變量來進行建模,然而,模型係數會根據最小二乘估計向零收縮。這種收縮也被稱為正則化,通過減少方差來防止模型過度擬合。根據不同類型的收縮,一些係數可能被直接估計為零。因此這種方法也用來進行變量選擇。將係數收縮至零的兩種最知名的方法是嶺回歸(Ridge regression)和套索回歸(Lasso regression)。
本文來源:Medium
作者:James Le
翻譯:Yi, Vivian | MarTechApe
好課推薦
▲《營銷組合建模訓練營》第五期火熱招生,戳圖片了解課程詳情
MarTechApe是一個來自紐約、專注MarTech領域的知識分享|技能學習|求職服務的終身學習平臺。我們提供最專業的Marketing Technology課程。