面試必備:數據科學家必須掌握的3個統計學概念

2020-12-11 TechWeb

 

從某些角度上來講,如今的數據科學家基本上等於現代統計學家。在數據科學面試中,我們也少不了要面對統計學相關的知識。

以下是數據科學相關面試中最頻繁出現的三種統計學問題,它們是許多數據科學應用程式的基本構建模塊。還有一些非常重要的統計學概念本文沒有提到,比如中心極限定理,但是在提及概率分布時它仍然是不可或缺。

接下來就開始吧!

1. 貝葉斯定理/條件概率

你需要理解貝葉斯定理和條件概率,因為最流行的機器學習算法之一——樸素貝葉斯算法就是建立在這兩個概念上的。此外,如果你研究的是在線機器學習,你很可能會需要使用貝葉斯算法。

貝葉斯定理/條件概率

問題示例:你即將登上飛往西雅圖的飛機,想知道是否應該帶把傘。你隨機打電話給3個住在那裡的朋友,分別問他們西雅圖是否在下雨。每一個朋友都有2/3的機會告訴你真相,1/3的機會說謊來攪亂你。結果3個朋友都告訴你「是的,西雅圖在下雨」。那麼西雅圖下雨的概率是多少?

貝葉斯定理

條件概率

答:可以看出這個問題與貝葉斯理論有關,因為最後一個陳述基本遵循了這個結構,即「如果B為真,A為真的概率是多少?」因此,我們需要知道西雅圖某一天下雨的概率。假設這個概率是25%。

P(A) =下雨的概率= 25% P(B) =三個朋友都說下雨的概率 P(A |B)是「假設朋友說下雨,那麼真實下雨」的概率 P(B|A) 是「假設真的在下雨,那麼3個朋友都說在下雨」的概率= (2/3)3 = 8/27

步驟一:求解P(B)

P(A|B) = P(B|A) * P(A) / P(B),可以寫作——P(B) = P(B|A) * P(A) + P(B|非 A) * P(非 A) P(B) = (2/3)3 * 0.25 + (1/3)3 * 0.75 = 0.25*8/27 + 0.75*1/27

步驟二:求解P(A|B)

P(A|B) = 0.25 * (8/27) / ( 0.25*8/27 + 0.75*1/27) P(A|B) = 8 / (8 + 3) = 8/11

因此,如果三個朋友都說下雨了,那麼下雨的概率是8/11。

2. 計算應用

如果你正在從事網絡安全、模式分析、運籌學等工作,那麼組合和排列是極其重要的。讓我們再回顧一下它們的概念:

排列

定義:n個元素的排列是指將這n個元素按照一定的順序排列。排列n個元素有n的階乘種方法。注意,順序很重要!

一次取r的n個事物的排列數被定義為可以從n個不同元素中提取的r元組的數目,它等於以下等式:

例題:一個6位數的車牌有多少種排列方式?

答案

組合

定義:在順序無關緊要的n個對象中選擇r的方法數。

一次取r的n個事物的組合數定義為一個有n個元素的集合中有r個元素的子集的個數,等於:

例題:從52張牌中抽出6張牌的方法有多少種?

答案

這些都是非常簡單的問題,而你真實遇到的可能會比這複雜得多,但萬變不離其宗,所以你要充分理解上面的例子。

3. 概率分布/置信區間

我們很容易在概率分布中感到迷茫,因為概率分布形式實在太多了。如果必須選擇五個主要的分布來介紹,它們會是:

正態分布 泊松分布 二項分布 指數分布 ·均勻分布

問題:蘇格蘭去年的兇殺率從前年的115人下降到99人。這些報導的變化真的值得注意嗎?

答:這是一個泊松分布問題,平均值=λ=方差,這也意味著標準差=平均值的平方根。

95%置信區間意味著z值為1.96。 一個標準差=√115 = 10.724

因此,置信區間=115+/-21.45=[93.55,136.45]。由於99在這個置信區間內,我們可以假設這種變化不是很值得注意。

文中給出的例子看起來都不難,但生動地表達了這些包羅萬象的概念的核心內容,希望能幫助你對這三個重要概念有基本理解。

 

相關焦點

  • 數據科學家超級明星必備的12個技能
    令人驚訝的是,我收到了來自不同行業的許多頂級數據科學家的回應,都分享了他們非常有趣且實用的想法和建議。 為了進一步了解優秀數據科學家和頂級數據科學家之間的主要區別,我一直在網際網路上搜索……直到在KDnuggets上看到本文。 因此,我總結了所有信息並列出了成為頂級數據科學家的必備技能。
  • 2021年數據科學家求職必須掌握的五大新概念
    作為未來的數據科學家,你需要掌握多種技能,才能在數據科學和分析領域有所成就。雖然在完成大學課程時你已經掌握了許多數據科學技能,但還有些技能只有在實際工作中才能學到。這些是最近興起的一些現代數據科學概念,只有踏入工作領域的數據科學家才知道的高級技能。
  • 統計知識不容忽視:數據科學家必須了解的統計學
    圖源:unsplash數據科學初學者們常常會忽視最基礎的統計學知識,這是必須重視的大問題。這些統計學概念有助於我們更好地理解不同模塊和各種技術,它們是數據科學、機器學習和人工智慧領域很多概念的基礎。在擴散程度小的數據集中,所有值都非常靠近均值,於是方差和標準差就會很小。如果一組數據很分散,距均值都很遠,方差和標準差就會很大。3.總體與樣本總體是指全部可用數據值。數據集的一個樣本是總體的一部分,或是它的子集。樣本數量一定比取樣的總體小。舉個例子:一個國家的所有人作為「總體」,它的子集是一個「樣本」,樣本總是小於總體。
  • 想通過數據科學面試,這十個SQL概念你必須掌握
    圖源:samsarSQ是一種資料庫查詢和程序設計語言,用於存取數據以及查詢、更新和管理關係資料庫系統,其功能非常強大,是數據科學面試中繞不過的考點。很多人為了通過面試事無巨細地準備,犄角旮旯都不敢放過。但事實上,在現實面試中大多數公司只測試其少數核心概念。努力學習不如機智學習,以下這10個概念因其在實際中應用最多而最常出現。在準備面試時,你應該主要關注這些概念。1.
  • 掌握這五大統計學知識,讓你笑傲數據科學界
    全文共2456字,預計學習時長5分鐘數據科學家都應該知道如何有效地使用數據並從中獲取信息。下面是每個數據科學家都必須熟知的五大實用型統計概念。只有掌握了這些,你才有可能成為真正的王者!在數據探索中常用的一類非常重要的數學技術是統計學。從實踐層面上講,採用統計學使人們能夠對數據進行具體的數學總結。人們可以使用統計數據來描述部分數據的屬性,而不必試圖描述每個數據點。通常這就足以提取一些關於數據結構和組成的信息。有時候,在聽到「統計學」這個詞時,人們總會想得過於複雜。
  • 數據分析必備——統計學入門基礎知識
    ——數據說·夢想季 導讀:要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。
  • 資源| 自學數據科學&機器學習?19個數學和統計學公開課推薦
    後來他想,做點應用數學應該是個有趣的變化。——數學家 John Edensor Littlewood數學和統計學是數據科學和機器學習的基礎。就我所知,大多數成功的數據科學家都來自這些領域——計算機科學、應用數學和統計學、經濟學。如果你想掌握數據科學,你就必須要對基本代數和統計學有很好的了解。但是,對於沒有數學背景的人來說,起步之路可能會舉步維艱。
  • 【入門】數據分析必備——統計學入門基礎知識
    數據之路,與你同行!——數據說·夢想季導讀:要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。統計學用到了大量的數學及其它學科的專業知識,其應用範圍幾乎覆蓋了社會科學和自然科學的各個領域,而在數據量極大的網際網路領域也不例外,因此紮實的統計學基礎是一個優秀的數據人必備的技能。
  • 如果你想轉型數據科學家,可能要掌握這幾個統計學技術
    Glassdoor利用龐大的就業數據和員工反饋信息,統計了美國25個最佳職位排行榜,其中,數據科學家排名第一。這個工作的重要性可見一斑。毫無疑問,數據科學家所做的事情是不斷變化和發展的。隨著機器學習的普遍應用,數據科學家們將繼續在創新和技術進步浪潮中獨領風騷。
  • 數據分析必備——統計學入門基礎知識 - 人人都是產品經理
    編輯導語:不論在什麼崗位,都要懂得本崗位的基礎知識,打牢基礎後面才能穩步發展;數據分析也是如此,數據分析必須要掌握統計學的基礎知識;本文是作者分享的關於統計學入門基礎的知識,我們一起來學習一下吧。要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!
  • 【翻譯】數據科學面試終極指南(4)
    3)第2條給出的解決方案使用多項式時間求解線性代數問題,需要說這種方式比較複雜;還有一種常見的解決方案,通過觀測可以發現該方程式是凸性的,因此用梯度下降這樣的數值算法求解效率會更高。統計學試題  統計學知識對解決數據科學問題至關重要。統計推理能力和統計學理論測試十分常見。一定要牢記常用的統計學概念,比如I型錯誤、II型錯誤,熟練掌握各種概率分布概念。
  • 一文學會統計學中的顯著性概念
    此時,學生會主席出於對學生健康的考慮,宣稱這項研究的結果證明了減少家庭作業是必須的。另一方面,校長認為這項研究是無稽之談:「在過去,我們能夠每晚睡4個小時就很好了。」但是,你必須決定這是否應該引起重視,這個問題就可以使用統計學的知識來解決。
  • 簡版:統計學的基本概念與入門!
    此時,學生會主席出於對學生健康的考慮,宣稱這項研究的結果證明了減少家庭作業是必須的。另一方面,校長認為這項研究是無稽之談:「在過去,我們能夠每晚睡4個小時就很好了。」但是,你必須決定這是否應該引起重視,這個問題就可以使用統計學的知識來解決。我們經常聽到統計顯著性,但其實並沒有真正理解其含義。
  • 成為一名數據科學家的學習三部曲
    一名數據科學家的新年計劃根據數據科學家一生的三個發展階段,我將這些計劃做了分類。大家可以自己判斷哪些計劃適合自己並按照計劃行動起來。如果你已經成功地完成了現有階段的任務,就可以轉向下一階段。我還列出了現有的有關該主題的最佳課程。為了實現最佳效益,我建議大家逐一學習。
  • 分析了1000多個崗位,2020年公司最希望數據科學家掌握的技能是?
    除了必須掌握數據分析、機器學習和深度學習這些技能之外,一些ETL工具和大數據技術也成了必備技能。這未嘗不可,現在每個公司都有自己對數據科學家的獨特定義,並會根據這一定義招聘人員。想要勝任這一工作崗位,也需掌握一些其他技術,如AWS、Azure和Power BI等。
  • 數據科學家必備的5種離群點/異常檢測方法
    字幕組雙語原文:數據科學家必備的5種離群點/異常檢測方法英語原文:5 Ways to Detect Outliers/Anomalies That Every Data Scientist Should Know
  • 你想成為數據科學家嗎?不要把機器學習當成入門第一課
    所以當我尋找學習數據科學的切入點時,也受其影響。這是我犯過的最大錯誤,也是本文重點:如果想要成為一名數據科學家,請不要從機器學習開始。顯然,要成為一名「真正全能」的數據科學家,最終必須掌握機器學習的概念。但你會驚訝於沒有它你能走多遠。為什麼不從機器學習開始呢?
  • 一名數據科學家的新年計劃
    根據數據科學家一生的三個發展階段,我將這些計劃做了分類。大家可以自己判斷哪些計劃適合自己並按照計劃行動起來。如果你已經成功地完成了現有階段的任務,就可以轉向下一階段。我還列出了現有的有關該主題的最佳課程。為了實現最佳效益,我建議大家逐一學習。什麼是初學者?
  • 數據科學家必備的10大統計技術
    本文介紹了數據科學家需要掌握的十大統計技術,包括線性回歸、分類、重採樣、降維、無監督學習等。不管你對數據科學持什麼態度,都不可能忽略分析、組織和梳理數據的重要性。Glassdoor 網站根據大量僱主和員工的反饋數據製作了 "美國最好的 25 個職位" 榜單,其中第一名就是數據科學家。
  • MySQL 面試,必須掌握的 8 個知識點
    對於程式設計師來說,面試內容一般分為兩個部分:編程面試題部分 + 資料庫面試題部分。據不完全調查,作為資料庫中的主流選擇 MySQL 的薪資待遇正在逐年增加,而且似乎不僅僅是程式設計師在學,就連很多產品經理和運營人也開始學習 MySQL 去分析數據。