每個數據科學家都必須了解的5大統計概念

2020-11-01 聞數起舞

統計和數據科學的重要支柱

任何數據科學家都可以從數據集中收集信息-任何優秀的數據科學家都將知道,紮實的統計基礎可以收集有用和可靠的信息。 沒有它,就不可能進行高質量的數據科學。

> Photo by Tachina Lee on Unsplash

但是統計是一個巨大的領域! 我從哪說起呢?

以下是每個數據科學家都應該知道的前五個統計概念:描述性統計概率分布降維過採樣和欠採樣以及貝葉斯統計

讓我們從最簡單的一個開始。

描述性統計

您正坐在數據集的前面。 您如何對自己所擁有的東西有一個高層次的描述? 描述性統計就是答案。 您可能已經聽說過其中的一些:平均值,中位數,眾數,方差,標準差…

這些將快速識別您的數據集的關鍵特徵,並在您執行任務時通知您的方法。 讓我們來看看一些最常見的描述性統計數據。

意思

平均值(也稱為"期望值"或"平均值")是值的總和除以值的數量。 採取以下示例集:

平均值計算如下:

中位數

以升序(或降序)列出您的值。 中位數是將數據分成兩半的點。 如果有兩個中間數字,則中位數是這些數字的平均值。 在我們的示例中:

中位數為4.5。

模式

模式是數據集中最頻繁的值。 在我們的示例中,模式為3。

方差

方差衡量數據集相對於均值的分布。 要計算方差,請從每個值中減去平均值。 平方每個差異。 最後,計算這些結果數字的平均值。 在我們的示例中:

標準偏差

標準差用于衡量總體價差,並通過求出方差的平方根來計算。 在我們的示例中:

其他描述性統計數據包括偏度,峰度和四分位數。

概率分布

概率分布是一種函數,它給出實驗每個可能結果的出現概率。 如果您要繪製鐘形曲線,那您就走對了。 乍一看,它顯示了如何分散隨機變量的值。 隨機變量及其分布可以是離散的也可以是連續的。

離散的

約翰是一名棒球運動員,每次向他投球時,都有50%的隨機擊球機會。 讓我們向約翰投三個球,看看他有多少次擊球。 以下是所有可能結果的列表:

令X為我們的隨機變量,即約翰在三音高實驗中被擊中的次數。 約翰獲得n次點擊的概率由P(X = n)表示。 因此,X可以為0、1、2或3。如果上述所有八個結果均具有相同的可能性,則我們有:

用f代替P,我們就有了概率函數! 讓我們來畫一下。

從圖中可以看出,John獲得1或2次命中比獲得0或3次命中的可能性更大,因為對於那些X值,該圖更高。常見的離散分布包括伯努利,二項式和 泊松

連續

連續情況自然而然地來自離散情況。 除了計算命中率外,我們的隨機變量可能是棒球播出的時間。 我們可以將值設置為3.45秒或6.98457秒,而不僅僅是一秒,兩秒或三秒。

我們正在談論無限多種可能性。 連續變量的其他示例是高度,時間和溫度。 常見的連續分布包括正態,指數和卡方。

降維

如果輸入變量太多或數據計算笨拙,則可以轉向降維。 這是將高維數據投影到低維空間的過程,但是請務必注意不要丟失原始數據集的重要特徵。

例如,假設您正在嘗試確定哪些因素可以最好地預測您最喜歡的籃球隊今晚能否贏得比賽。 您可能會收集數據,例如他們的獲勝百分比,他們在踢球,在哪裡踢球,他們的前鋒是誰,他吃晚餐的時間以及教練穿什麼顏色的鞋子。

您可能會懷疑其中某些功能比其他功能與獲勝的相關性更高。 降維可以使我們放心地刪除不會對預測做出有意義貢獻的信息,同時保留具有最大預測價值的特徵。

主成分分析(PCA)是一種流行的方法,它通過誇大稱為主成分的要素的新組合的方差來工作。 這些新組合是原始數據點到新空間(仍是相同維度)的投影,其中會顯示變化。

通常的想法是,在這些新組件中,變化最小的組件可以最安全地刪除。 刪除單個組件將使原始尺寸減小一倍,刪除兩個組件將使尺寸減小兩個,依此類推。

欠採樣和過採樣

收集的一組觀測值稱為"樣本",而收集觀測值的方式稱為"採樣"。 在需要平等代表少數派和多數派的分類情況下,欠採樣或過採樣可能會有用。 對多數類別進行欠採樣或對少數類別進行過度採樣可以幫助均衡不平衡的數據集。

隨機過採樣(或者,隨機欠採樣)涉及在少數類中隨機選擇和複製觀測值(或在多數類中隨機選擇和刪除觀測值)。

這很容易實現,但是您應謹慎行事:對採樣重複的觀測值進行過採樣加權,如果不加偏見,可能會嚴重影響結果。 同樣,採樣不足會帶來刪除關鍵觀測值的風險。

少數群體過採樣的一種方法是合成少數群體過採樣技術(SMOTE)。 這通過創建現有觀測值的新組合來創建(綜合)少數群體觀測值。 對於少數群體類別中的每個觀察,SMOTE會計算其k個最近的鄰居; 也就是說,它找到最類似於該觀測值的k個少數群體觀測值。

通過將觀察結果視為向量,它可以通過用0到1之間的隨機數對k個最近鄰居中的任何一個加權,並將其添加到原始向量中來創建隨機線性組合。

多數類樣本不足的一種方法是使用聚類質心。 從理論上講,與SMOTE相似,它用k個最近鄰居簇的質心替換向量組。

貝葉斯統計

在統計推斷方面,主要有兩種思想流派:常客統計和貝葉斯統計。 頻繁的統計數據使我們能夠進行有意義的工作,但是在某些情況下,它的工作還不夠。 當您有理由相信您的數據可能無法很好地表示您希望將來觀察到的數據時,貝葉斯統計量會很好。

這使您可以將自己的知識整合到計算中,而不僅僅是依靠樣本。 它還可以讓您在收到新數據後更新對未來的看法。

來看一個例子:A隊和B隊互相比賽10次,A隊贏得9次。 如果今晚兩隊互相比賽,我問你認為誰會贏,你可能會說A隊! 如果我還告訴您B隊賄賂了今晚的裁判怎麼辦? 好吧,那您可能會猜猜B隊會贏。

貝葉斯統計允許您將這些額外的信息納入您的計算中,而常客統計則僅關注10個獲勝百分比中的9個。

貝葉斯定理是關鍵:

給定E的H的條件概率,記為P(H | E),表示當E也出現(或已經發生)時H發生的概率。 在我們的示例中,H是B隊獲勝的假設,E是我為您提供的有關B隊賄賂裁判的證據。

P(H)是常客概率,為10%。 P(E | H)是在B隊獲勝的情況下我對您所說的關於賄賂的信息屬實的概率。 (如果B隊今晚獲勝,您會相信我說的話嗎?)

最後,P(E)是B隊實際上賄賂裁判的概率。 我是值得信賴的信息來源嗎? 您會發現,這種方法不僅包含了兩支球隊之前10場比賽的結果,而且還包含更多信息。

就是今天。 讓我們在下一節中總結一下。

你走之前

學習這5個概念並不能使您掌握統計學或數據科學知識,但是如果您不了解數據科學項目的基本流程,那麼這是一個很好的起點。

如果聽起來還有些高級,我的建議是從小做起。 這是我和其他許多人投票選出的最好的入門級統計書:

最初於2020年8月29日在https://www.betterdatascience.com上發布。

(本文翻譯自Dario Radečić的文章《Top 5 Statistical Concepts Every Data Scientist Must Know》,參考:https://towardsdatascience.com/top-5-statistical-concepts-every-data-scientist-must-know-d4bc8740a55d)

相關焦點

  • 關鍵概念:每個數據科學家都應了解的5個概念
    圖源:unsplash本文將重點介紹一些數據科學領域的關鍵概念,掌握它們對於你今後的職業生涯大有益處。這些概念或許你已經了解,或許你還未掌握。不論你現在是否清楚,筆者的目的是向你專業地解釋為何它們至關重要。
  • 統計知識不容忽視:數據科學家必須了解的統計學
    ,這是必須重視的大問題。這些統計學概念有助於我們更好地理解不同模塊和各種技術,它們是數據科學、機器學習和人工智慧領域很多概念的基礎。1.集中趨勢度量集中趨勢的一個度量是找到一組數據中間位置的數值,用它來描述這一組數值。
  • 人人都需要掌握的 5 個基本統計概念 | 網際網路數據資訊網-199IT |...
    統計中的數學可以幫助我們對數據形成具體的結論,而不僅僅是猜測。通過統計,我們可以獲得更深入、更細緻入微的見解,能夠了解數據的確切結構,並在此基礎上了解如何應用其他數據科學技術來獲取更多信息。今天,我們來看看數據科學家需要掌握的5個基本統計概念及其應用。
  • 數據科學家必須了解的事:中心極限定理
    來源:Pexels數據科學家必須了解的事:中心極限定理。你了解嗎?編碼之前,快速回顧今天,我想重構中心極限定理(CentralLimit Theorem),以及該定理與數據科學家的大量工作之間的關係。回顧直方圖首先,對於任何數據科學家來說,核心工具都是直方圖——一種非常簡單的圖表。雖然我們肯定會看到許多直方圖,但經常會忽略它的重要性。直方圖的核心目的是了解給定數據集的分布。
  • 人人都需要掌握的 5 個基本統計概念
    統計中的數學可以幫助我們對數據形成具體的結論,而不僅僅是猜測。通過統計,我們可以獲得更深入、更細緻入微的見解,能夠了解數據的確切結構,並在此基礎上了解如何應用其他數據科學技術來獲取更多信息。今天,我們來看看數據科學家需要掌握的5個基本統計概念及其應用。
  • 每個數據科學家都應該知道的5種概率分布
    它們允許熟練的數據科學家識別其他完全隨機變量的模式。在某種程度上,大多數其他數據科學或機器學習技能都基於對數據概率分布的某些假設。這使得概率知識成為統計學家構建工具箱的基礎。如果您正在尋找如何成為數據科學家的第一步。不用多說,讓我們切入正題。什麼是概率分布?
  • 面試必備:數據科學家必須掌握的3個統計學概念
    從某些角度上來講,如今的數據科學家基本上等於現代統計學家。在數據科學面試中,我們也少不了要面對統計學相關的知識。以下是數據科學相關面試中最頻繁出現的三種統計學問題,它們是許多數據科學應用程式的基本構建模塊。
  • 數據科學家需要掌握的10個基本統計技術
    【IT168 編譯】無論您在數據的科學性問題上持哪種看法,都無法忽視數據的持續重要性,也不能輕視分析、組織和情境化數據的能力。 根據大量的就業數據和員工反饋信息統計,在「25個最佳美國就業機會」排行榜中,數據科學家排名第一。毫無疑問,數據科學家所做的具體工作內容將會進一步拓展。
  • 提高數據科學家講故事能力的5個小技巧
    隨著時間的推移,講故事的技巧、方法和工具發生了變化,但主要概念和目標保持不變,即有效地吸引你的觀眾,使他們能夠真正地與你所說的聯繫起來。 作為數據科學家,我們也被教導要善於講故事。原因是我們經常需要向不同的利益相關者展示我們的工作。因為他們來自不同的背景,所以我們必須相應地改變我們的語氣。但在任何情況下,你的故事都是一樣的。
  • 劉潤對話吳軍:資訊時代,每個人都必須了解的基本常識
    但是,今天到了資訊時代,關於信息有什麼規律和常識,很多人其實是不了解的。因為不了解,所以就容易產生錯誤的判斷。比如,一個會場的wifi網絡每秒能傳輸10M的數據。吳軍老師是計算機科學家,是自然語言處理技術的先驅者,是谷歌公司的智能搜索科學家,騰訊公司的前副總裁,同時也是矽谷著名的風險投資人、暢銷書作家。 他著有《數學之美》、《浪潮之巔》、《矽谷之謎》、《智能時代》、《文明之光》、《大學之路》、《全球科技通史》、《見識》、《態度》等,本本都是超級暢銷書。
  • 數據科學家們必須知道的5種聚類算法
    翻譯 | 姜波    整理 |  凡江  吳璇聚類是一種關於數據點分組的機器學習技術。給出一組數據點,我們可以使用聚類算法將每個數據點分類到特定的組中。理論上,同一組中的數據點應具有相似的屬性或特徵,而不同組中的數據點應具有相當不同的屬性或特徵(即類內差異小,類間差異大)。
  • 大數據給統計工作帶來的挑戰
    ■ 鄭寶金     隨著雲計算技術概念的提出和發展,社會經濟正邁入大數據時代。所謂的大數據時代就是人們獲取的信息量劇增,獲取信息的渠道也越來越廣泛,信息趨向於網絡化、廣泛化、公開化。每天數據都在以千變萬化的形式展現在我們面前,這也使人們對統計數據的質量越來越關注,大數據給統計工作帶來了前所未有的壓力和挑戰,但同時也帶來了機遇。        大數據的特徵        大數據不簡單等同於「大」的數據,這一概念最初來源於IT界,是一種數據集合,覆蓋範圍廣泛,由海量數據組成,具有極其重要的戰略資源價值。
  • 如何用Julia做數據統計?這裡有一本全面教材(附代碼圖示)
    當時,Julia 語言雖然只是 0.5 版,但已經顯示出強大的功能和適應性。出於這個原因,我們在課程中選擇使用 Julia,因為早期讓學生接觸有關 Julia 的統計知識,可以讓他們在未來的職業生涯中熟練使用 Julia 進行數據科學、數值計算和機器學習任務。這種選擇當時也遭到了一些學生和同事的反對,那時跟現在一樣,R 語言統治著統計世界,Python 主宰著機器學習世界。
  • 入門| 從線性回歸到無監督學習,數據科學家需要掌握的十大統計技術
    本文介紹了數據科學家需要掌握的十大統計技術,包括線性回歸、分類、重採樣、降維、無監督學習等。不管你對數據科學持什麼態度,都不可能忽略分析、組織和梳理數據的重要性。Glassdoor 網站根據大量僱主和員工的反饋數據製作了「美國最好的 25 個職位」榜單,其中第一名就是數據科學家。
  • 2015.09:網際網路大數據在政府統計中的應用路徑研究(「大數據在政府...
    本文以網際網路大數據為背景,結合政府統計工作的特點,提出了網際網路大數據在政府統計中的應用路徑,並以網際網路搜索數據在房價統計方面的應用進行了案例研究,提出了網際網路大數據在政府統計應用中的展望。網際網路大數據在政府統計諸多專業中都具有廣闊的應用前景。如在宏觀層面,網際網路搜索數據能夠為官方統計提供分析、預測與決策支持。   目前,國內最大的搜尋引擎百度已與統計部門、交通運輸部門、教育部門、旅遊部門、工業與信息化部門等官方機構進行了很好合作。
  • 一文了解大數據管理的技術
    簡而言之,我假設來到大數據領域的人已經知道某種程式語言,並且對例如算法、SQL、版本控制(VCS)、系統生命發展周期(SDLC)、網絡、Linux 和 CI/CD 等基礎知識有所了解。無論如何,這些軟體工程的通用實踐都是無處不在的。這是我認為在任何軟體工程領域都需要了解的基礎。如果你不了解它們,那麼請你最好先學習它們。也許你另有高見,也可以與我討論。
  • 數據科學家必備的5種離群點/異常檢測方法
    字幕組雙語原文:數據科學家必備的5種離群點/異常檢測方法英語原文:5 Ways to Detect Outliers/Anomalies That Every Data Scientist Should Know
  • 管理心理學之統計(5)變異性
    心理學家們需要通過統計模型來區分正常和非正常行為。首先,他們需要取一個大樣本並記錄每個人在特定的一天中洗手的次數,結果如下圖:要檢驗王先生的行為是否屬於極端的異常行為,我們需要用到統計中的兩個基本概念:集中趨勢(測量平均數)和變異性(偏離平均數值的測量)。如果王先生的分數處在平均的正常的行為這個區間中,那麼他的行為是正常的。
  • 統計基礎概念及數據分析方法
    描述性統計:分析數據集中度和分散度推斷統計:通過樣本對整體情況作出推斷數據分析方法:聚類、回歸、分類及組件差異。描述數據的兩個關鍵點:數據的中心度,數據集中在哪個區域。常用均值,中位數和眾數來反映均值:也稱為平均數,所有數據除以數據條數,缺點,容易被極大極小值幹擾,難以反饋真實的數據情況。中位數:將數據按照大小排序處於中間位置的數字,比均值更好的反應數據的中心。眾數:數據種出現最多的數字。
  • 不學好數學也想當數據科學家?不存在的
    大數據文摘作品編譯:文明 修竹 高寧 天培數據科學家需不需要有紮實的數學基礎呢?隨著越來越多優秀開源項目的湧現,各類數據科學工具都實現了「半自動化」,數據分析的背後數學原理似乎不再是數據科學家的必備技能。