面試必備:數據科學家必須掌握的3個統計學概念

2020-11-25 TechWeb

 

從某些角度上來講,如今的數據科學家基本上等於現代統計學家。在數據科學面試中,我們也少不了要面對統計學相關的知識。

以下是數據科學相關面試中最頻繁出現的三種統計學問題,它們是許多數據科學應用程式的基本構建模塊。還有一些非常重要的統計學概念本文沒有提到,比如中心極限定理,但是在提及概率分布時它仍然是不可或缺。

接下來就開始吧!

1. 貝葉斯定理/條件概率

你需要理解貝葉斯定理和條件概率,因為最流行的機器學習算法之一——樸素貝葉斯算法就是建立在這兩個概念上的。此外,如果你研究的是在線機器學習,你很可能會需要使用貝葉斯算法。

貝葉斯定理/條件概率

問題示例:你即將登上飛往西雅圖的飛機,想知道是否應該帶把傘。你隨機打電話給3個住在那裡的朋友,分別問他們西雅圖是否在下雨。每一個朋友都有2/3的機會告訴你真相,1/3的機會說謊來攪亂你。結果3個朋友都告訴你「是的,西雅圖在下雨」。那麼西雅圖下雨的概率是多少?

貝葉斯定理

條件概率

答:可以看出這個問題與貝葉斯理論有關,因為最後一個陳述基本遵循了這個結構,即「如果B為真,A為真的概率是多少?」因此,我們需要知道西雅圖某一天下雨的概率。假設這個概率是25%。

P(A) =下雨的概率= 25% P(B) =三個朋友都說下雨的概率 P(A |B)是「假設朋友說下雨,那麼真實下雨」的概率 P(B|A) 是「假設真的在下雨,那麼3個朋友都說在下雨」的概率= (2/3)3 = 8/27

步驟一:求解P(B)

P(A|B) = P(B|A) * P(A) / P(B),可以寫作——P(B) = P(B|A) * P(A) + P(B|非 A) * P(非 A) P(B) = (2/3)3 * 0.25 + (1/3)3 * 0.75 = 0.25*8/27 + 0.75*1/27

步驟二:求解P(A|B)

P(A|B) = 0.25 * (8/27) / ( 0.25*8/27 + 0.75*1/27) P(A|B) = 8 / (8 + 3) = 8/11

因此,如果三個朋友都說下雨了,那麼下雨的概率是8/11。

2. 計算應用

如果你正在從事網絡安全、模式分析、運籌學等工作,那麼組合和排列是極其重要的。讓我們再回顧一下它們的概念:

排列

定義:n個元素的排列是指將這n個元素按照一定的順序排列。排列n個元素有n的階乘種方法。注意,順序很重要!

一次取r的n個事物的排列數被定義為可以從n個不同元素中提取的r元組的數目,它等於以下等式:

例題:一個6位數的車牌有多少種排列方式?

答案

組合

定義:在順序無關緊要的n個對象中選擇r的方法數。

一次取r的n個事物的組合數定義為一個有n個元素的集合中有r個元素的子集的個數,等於:

例題:從52張牌中抽出6張牌的方法有多少種?

答案

這些都是非常簡單的問題,而你真實遇到的可能會比這複雜得多,但萬變不離其宗,所以你要充分理解上面的例子。

3. 概率分布/置信區間

我們很容易在概率分布中感到迷茫,因為概率分布形式實在太多了。如果必須選擇五個主要的分布來介紹,它們會是:

正態分布 泊松分布 二項分布 指數分布 ·均勻分布

問題:蘇格蘭去年的兇殺率從前年的115人下降到99人。這些報導的變化真的值得注意嗎?

答:這是一個泊松分布問題,平均值=λ=方差,這也意味著標準差=平均值的平方根。

95%置信區間意味著z值為1.96。 一個標準差=√115 = 10.724

因此,置信區間=115+/-21.45=[93.55,136.45]。由於99在這個置信區間內,我們可以假設這種變化不是很值得注意。

文中給出的例子看起來都不難,但生動地表達了這些包羅萬象的概念的核心內容,希望能幫助你對這三個重要概念有基本理解。

 

相關焦點

  • 統計知識不容忽視:數據科學家必須了解的統計學
    ,這是必須重視的大問題。這些統計學概念有助於我們更好地理解不同模塊和各種技術,它們是數據科學、機器學習和人工智慧領域很多概念的基礎。1.集中趨勢度量集中趨勢的一個度量是找到一組數據中間位置的數值,用它來描述這一組數值。
  • 數據分析必備——統計學入門基礎知識
    數據之路,與你同行!——數據說·夢想季 導讀:要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。統計學用到了大量的數學及其它學科的專業知識,其應用範圍幾乎覆蓋了社會科學和自然科學的各個領域,而在數據量極大的網際網路領域也不例外,因此紮實的統計學基礎是一個優秀的數據人必備的技能。
  • 數據分析必備——統計學入門基礎知識 - 人人都是產品經理
    編輯導語:不論在什麼崗位,都要懂得本崗位的基礎知識,打牢基礎後面才能穩步發展;數據分析也是如此,數據分析必須要掌握統計學的基礎知識;本文是作者分享的關於統計學入門基礎的知識,我們一起來學習一下吧。要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!
  • 資源| 自學數據科學&機器學習?19個數學和統計學公開課推薦
    後來他想,做點應用數學應該是個有趣的變化。——數學家 John Edensor Littlewood數學和統計學是數據科學和機器學習的基礎。就我所知,大多數成功的數據科學家都來自這些領域——計算機科學、應用數學和統計學、經濟學。如果你想掌握數據科學,你就必須要對基本代數和統計學有很好的了解。但是,對於沒有數學背景的人來說,起步之路可能會舉步維艱。
  • 如果你想轉型數據科學家,可能要掌握這幾個統計學技術
    Glassdoor利用龐大的就業數據和員工反饋信息,統計了美國25個最佳職位排行榜,其中,數據科學家排名第一。這個工作的重要性可見一斑。毫無疑問,數據科學家所做的事情是不斷變化和發展的。隨著機器學習的普遍應用,數據科學家們將繼續在創新和技術進步浪潮中獨領風騷。雖然編碼能力很重要,但數據科學並不都是研究軟體工程的。他們生活在編碼、統計學和批判性思維的交叉點上。
  • 統計學 5 個基本概念,你知道多少?
    從高的角度來看,統計學是一種利用數學理論來進行數據分析的技術。象柱狀圖這種基本的可視化形式,會給你更加全面的信息。但是,通過統計學我們可以以更富有信息驅動力和針對性的方式對數據進行操作。所涉及的數學理論幫助我們形成數據的具體結論,而不僅僅是猜測。
  • DSC:成為一個數據科學家的九個步驟(信息圖)
    但是如何才能成為一個數據科學家呢?首先,每個企業對數據科學家的定義都不同,並沒有統一的概念。但是,一般來講數據科學家結合了軟體工程師和統計學家的技能,以及相關領域的專門知識。約90%的數據科學家至少是本科學歷,有些甚至是博士,但是他們獲得學位的領域非常廣泛。有些招聘單位甚至招募那些可塑性強、有創造力的人文學科人才。除了數據科學學位課程,要成為一個數據科學家還需要哪些步驟呢?提高數學和統計學技能。
  • 零基礎入門數據分析師——你可以做到!
    第二:統計學知識準備數據分析要求數據分析員有一定的統計學基礎,包括對數據進行簡單的統計分析,進而從數據中發現問題解決問題。2.數學思維仍保持在初等數學範疇,導致無法理解課程中的一些概念與公式。3.學過的概念與計算很快就忘掉了,導致以後無法應用這兩天所學的知識。CDA老師給大家提供的解決方案:1.做好預習工作。
  • 每個數據科學家都必須了解的5大統計概念
    統計和數據科學的重要支柱任何數據科學家都可以從數據集中收集信息-任何優秀的數據科學家都將知道,紮實的統計基礎可以收集有用和可靠的信息。 沒有它,就不可能進行高質量的數據科學。以下是每個數據科學家都應該知道的前五個統計概念:描述性統計,概率分布,降維,過採樣和欠採樣以及貝葉斯統計。讓我們從最簡單的一個開始。
  • 梳理數百個問題後,我總結出10個數據科學面試必掌握概念……
    深度學習和神經網絡並不簡單,但好在面試官能測試的數量有限。在梳理了數百個數據科學面試問題之後,本文總結出了10個最常出現的深度學習概念。話不多說,讓我們開始吧!3.反向傳播算法(Backpropagation)反向傳播算法是一種與成本函數密切相關的算法。具體來說,它是一種用於計算成本函數梯度的算法。與其他算法相比,反向傳播速度快、效率高,因而備受歡迎。在這個算法中,梯度的計算從權重的最後一層的梯度開始,然後反向傳播到權重的第一層梯度。因此,第k層的誤差取決於k + 1層。
  • 數據科學家必備的5種離群點/異常檢測方法
    字幕組雙語原文:數據科學家必備的5種離群點/異常檢測方法英語原文:5 Ways to Detect Outliers/Anomalies That Every Data Scientist Should Know
  • 應對程式設計師面試,你必須知道的八大數據結構
    大數據文摘出品編譯:Hope、睡不著的iris、胡笳、雲舟瑞士計算機科學家Niklaus Wirth在1976年寫了一本書,名為《算法+數據結構=編程》。40多年後,這個等式仍被奉為真理。這就是為什麼在面試過程中,需要考察軟體工程師對數據結構的理解。
  • 關於數據科學中數學和統計學的完全指南
    數學和統計學對學習數據科學至關重要,因為這些學科構成了所有機器學習算法的基礎。成為一名數據科學家,除了對程式語言要有很好的了解,還必須要掌握機器學習算法、數據驅動方法。但數據科學並不只涉及這些領域。在本文中,您將了解數學和統計學對數據科學的重要意義以及如何將其用於建立機器學習模型。
  • 大學統計學白讀了?科學家聯名反對「統計學意義」
    統計學白學了?最新一期Nature雜誌發表了三位統計學家的一封公開信,他們號召科學家放棄追求「統計學意義」,並且停止用統計學中常見的P值作為判斷標準。統計學上無顯著的結果並不能「證明」零假設;統計上顯著的結果也沒有「證明」某些其他假設。事實真的是這樣嗎?他們的這篇文章名為《科學家們起來反對統計學意義》。
  • 關鍵概念:每個數據科學家都應了解的5個概念
    圖源:unsplash本文將重點介紹一些數據科學領域的關鍵概念,掌握它們對於你今後的職業生涯大有益處。這些概念或許你已經了解,或許你還未掌握。不論你現在是否清楚,筆者的目的是向你專業地解釋為何它們至關重要。
  • 做實驗需要掌握哪些統計學知識?
    有了總體和樣本的概念,你就知道在面對大規模數據的時候,怎樣去進行抽樣分析。你也可以應用假設檢驗的方法,對一些感性的假設做出更加精確地檢驗。利用回歸分析的方法,你可以對未來的一些數據、缺失的數據做基本的預測。了解統計學的原理之後,你不一定能夠通過工具實現,那麼你需要去對應的找網上找相關的實現方法,也可以看書。
  • 不學好數學也想當數據科學家?不存在的
    隨著越來越多優秀開源項目的湧現,各類數據科學工具都實現了「半自動化」,數據分析的背後數學原理似乎不再是數據科學家的必備技能。雖然我擁有美國一所著名大學的電氣工程博士學位,但在沒有複習一些必須的數學知識的前提下,想要牢固的掌握機器學習或者數據科學技術還是有一些困難。我必須要說的是IT工程師工作內容和長期的培訓使得他們遠離了應用數據領域。他們雖然每天處理大量的數據和信息,卻並沒有對這些數據建立嚴謹的模型。
  • 面試數據分析崗,怎麼提升一倍成功率?讓過來人給你支支招
    除此以外就是看基礎能力,會不會一些數據分析基本技能,比如:Excel、sql、python、R、有統計學知識背景等。其他剩下的一些個人基本信息,愛好啥的,儘量簡潔縮短,自我評價部分要注重凸顯自己的軟實力,比如N 年網際網路數據分析、數據倉庫,N 年團隊管理經驗等等。數據分析師面試指南在數據分析師崗位的面試中,面試的問題一般來說可以分為五個方面:常規面試問題、分析工具問題、分析思維問題、學習能力問題和案例驗證問題。
  • 四象限選拔法:從面試官角度,看數據產品經理的面試和選拔
    近3年,在負責數據產品團隊的時間裡,我進行了社招、校招等面試不下百場,也經常跟其他面試官討論,如何通過面試選拔數據產品經理,以及面試過程中應該問哪些問題是指通過學習、培訓可以快速掌握的知識、技能和經驗。對數據產品經理來講,需要掌握商業知識、數據倉庫、數理統計等專業知識,以及需求調研、產品設計、數據分析等技能。第二象限:通用能力。是指無法通過學習、培訓等方式快速獲取,而必須通過刻意練習、長期錘鍊打磨,才能內化和外顯出來的能力。
  • 統計學的實質是什麼?--寫給所有將要或者正在學習統計學的朋友們
    統計學研究數據,發現數據背後的規律。不過,大部分初學者對這樣的統計學定義依然一知半解。統計學的本質是什麼?統計學是數學嗎?如果不是數學,它和數學有什麼關係?我們統計分析的目的是什麼?它的原理難以理解,如何應用統計原理於數據分析呢?