056統計基礎中的概率、概率分布及A/B測試

2021-01-09 踐行力

你好,感謝打開產品Desginer

今天是2020年2月16日星期日,農曆正月廿三

今天,與你分享的是統計基礎:概率、概率分布與AB測試

什麼是概率?

前置學習:隨機事件

在一個隨機事件裡,我們知道可能的結果是什麼,但是不知道哪一個特定的結果會發生

概率是統計的一個基本概念,它是一個0到1之間的數字,是對隨機事件發生可能性的測量

P(A)=事件A發生的概率可能性(0 ≤ P(A) ≤ 1)

如何理解概率:如我們可以觀察同樣的隨機事件發生無數次,這個隨機事件某一個結果發生的概率,就是這個特定結果在所有結果中所佔的比

大數定律:在隨機事件中的大量重複出現中,往往呈現幾乎必然規律,這個規律就是大數定律

(通俗地說,這個定律就是,在實驗不變的條件下,重複試驗多次,隨機事件某一個結果(擲硬幣正面朝上)發生的頻率近似於它的概率。偶然中包含著某種必然)

頻率是試驗事實的記錄

例如,擲了100次硬幣,正面朝上的有49次。

我們可以說擲這100次硬幣,正面朝上的頻率是49%

條件概率:是指時間A在另外一個事件B已經發生條件下的發生概率

條件概率表示為:P(A丨B),讀作「在B的條件下A的概率」

P(A丨B)= P(AB)/ P(B)

獨立事件:兩個事件的發生有相互影響的,叫相關事件,沒有影響的是獨立事件

定義:事件B發生或不發生對事件A不產生影響,反之亦然,我們就說兩個事件A和B互為獨立事件。

公式表示,基於:

P(A丨B)= P(A)

P(B丨A)= P(B)

P(A丨B)= P(AB)/ P(B)

可以推出對於兩個獨立事件同時發生概率的計算公式:P(A丨B)= P(A)x P(B)

概率分布

樣本空間:是一次隨機實驗中可能出現的所有結果集合

例如:用戶連續兩次嘗試使用共享單車,兩輛單車故障情況的概率分布是?

S = {1故障&2故障,1故障&2正常,1正常&2故障,1正常&2正常}

概率分布:一個「實驗」的「概率分布」列出樣本空間裡的所有可能結果和其發生概率

例如:用戶連續兩次嘗試使用共享單車,這兩輛單車故障情況的概率分布是?

(假設每次使用單車的故障率為25%&兩次的故障率互為獨立事件)

規則:所有可能的結果沒有交集,每一個結果的概率值在0和100%之間,所有結果的概率值和為100%

A/B測試

定義:統計學裡雙樣品假設檢驗的一個應用

簡單說,就是為了一個目標制定兩個方案,讓一部分用戶使用A方案,另一部分用戶使用B方案,記錄下用戶的使用情況,看哪個方案的效果更好。

實驗組和對照組

事件:9158美女直播APP,操作界面更新,老闆覺得公司使用IOS系統的人較多,想把直播作業系統統一改為IOS版本的

實驗組:是指隨機選擇的實驗對象的子集—安卓用戶使用IOS版的9158直播操作界面

對照組:實驗對象中一個被隨機選擇的子集,其中個體沒有特殊待遇—安卓用戶使用安卓版9158直播操作界面

應用場景:網站設計優化、測試新項目、產品優化(新改進)

A/B測試思路

1、原假設成立—>假設9158美女直播安卓端用戶希望使用IOS的作業系統

2、虛擬實驗—>100安卓用戶使用IOS作業系統一周,100安卓用戶使用Android作業系統一周

3、與觀測結果比較—>使用IOS作業系統的100安卓用戶中,有55人表示不適應,不習慣,操作界面垃圾

4、做判斷—>安卓用戶和IOS用戶,各自使用各自的作業系統為最好結果

相關焦點

  • 從貝葉斯定理到概率分布:綜述概率論基本定義
    本文從最基礎的概率論到各種概率分布全面梳理了基本的概率知識與概念,這些概念可能會幫助我們了解機器學習或開拓視野。這些概念是數據科學的核心,並經常出現在各種各樣的話題上。重溫基礎知識總是有益的,這樣我們就能發現以前並未理解的新知識。簡介在本系列文章中,我想探討一些統計學上的入門概念,這些概念可能會幫助我們了解機器學習或開拓視野。
  • 概率質量函數與累積分布函數()連續) - 圖解概率 05
    概率質量函數與累積分布函數-連續當累積分布函數為連續函數時候, 概率質量函數 PMF 不再適用, 因此就需要用積分(概率密度函數PDF)來計算概率
  • AP統計沒煩惱:解析最經典的三種概率分布|統計概率
    今天我們來科普一下在概率論當中非常典型的三種概率分布:分別叫做伯努利分布、二項分布以及正態分布。通過這三種分布的關係來跟大家分析一下考試好壞到底何天賦有何關係。這三種分布同樣也會出現在AP統計的考試當中,但是作為科普文,今天只重點討論三種分布之間的關係,而不會涉及到過多的計算和證明。(此文章可放心食用)伯努利分布我們先來從伯努利實驗談起。
  • 貝葉斯及概率統計角度
    接下來,幾篇文章介紹的概率分布是構建複雜模型的基礎。討論這些概率分布的一個重要應用就是密度估計(density estimation),即根據有限的觀測數據,去建立模型,然後得到這些隨機變量的樣本所遵循的概率分布。
  • 必考知識點,CFA一級數量分析-常見概率分布-上
    在弄清楚了概率論基本的概念之後,我們又進一步講解了概率的加法和乘法公式,並在乘法公式的基礎上,引出了貝葉斯公式。雖然貝葉斯當時在研究這個公式時,只是想要證明上帝的存在,但是他並沒能找到我們的造物主。反而是在當今,貝葉斯公式已經廣泛應用於數據科學中,無論是天氣預測還是醫藥測試都有貝葉斯公式的應用[1]。
  • 算法工程師的數學基礎|如何理解概率分布函數和概率密度函數
    【算法工程師的數學基礎】系列將會從線性代數、微積分、數值優化、概率論、資訊理論五個方面進行介紹。《算法工程師的數學基礎》已更新:其實在之前的 算法工程師的數學基礎|概率論 章節中簡答涉及了一些變量類型和概率分布的內容,但並沒有進行單獨介紹,本章節將其單領出來進行說明。
  • 「策划進階」遊戲設計中常用的概率分布
    統計學家們總結出了計算概率的一般公式:其中b表示二項分布的概率,n表示試驗次數,x表示出現某個結果的次數。是組合,表示在n次試驗中出現x次結果的可能的次數。如10次試驗,出現0次正面的次數有1次,出現1次正面的次數有10次,……,出現5次正面的次數有252次,等等。
  • 概率統計之《指數分布》相關基本概念、性質與典型例題分析
    一、指數分布  在概率論和統計學中,指數分布(Exponential distribution)是一種連續概率分布,可以用來表示獨立隨機事件發生的時間間隔,比如旅客進機場的時間間隔、中文維基百科新條目出現的時間間隔等等。
  • 考研數學概率與統計公式大全之隨機變量及其分布
    (1)離散型隨機變量的分布律 設離散型隨機變量 的可能取值為Xk(k=1,2,…)且取各個值的概率,即事件(X=Xk)的概率為 P(X=xk)=pk,k=1,2,…, 則稱上式為離散型隨機變量 的概率分布或分布律。
  • scipy 常見統計檢驗與概率分布
    常用函數cdf:隨機變量的累積分布函數,是概率密度函數的積分,即概率值pfit:對一組隨機取樣進行擬合,找出最適合取樣數據的概率密度函數的係數二項分布伯努利試驗(Bernoulli experiment)是在同樣的條件下重複地、相互獨立地進行的一種隨機試驗,其特點是該隨機試驗只有兩種可能結果:發生或者不發生。
  • 通俗理解:概率分布函數、概率密度函數
    需要注意的是,實際操作中梯子的階高可能很小,看起來很像斜坡,需要放大看。概率分布函數和概率密度函數之前,我們先來看看概率函數和概率分布是咋回事。為什麼我們花這麼大的力氣去研究這個概念。因為它實在太重要了,為什麼呢?
  • 一文帶你真正掌握ab-test中的概率統計基礎和疑難問題
    使用某種A / B測試來測試假設是避免盲目猜測和「希望最好」的方法之一。您可以在下面找到一些統計原理和最佳實踐,對於那些希望使用A / B測試的人來說,我認為它們是基礎。希望您會發現它有用!什麼是A / B測試?A / B測試包括兩個可比較的用戶組,並將他們暴露給兩種不同版本的軟體體驗(控制項和變體)。
  • 中考數學加油,統計與概率有關解答題的專題複習
    典型例題分析1:將九年級兩個班男生擲實心球的成績進行整理,並繪製出頻數分布表、扇形統計圖和頻數分布直方圖(不完整).(x表示成績,且規定x≥6.25合格,x≥9.25為優秀)(1)頻數分布表中,a=   ,b=   ,其中成績合格的有   人,請補全頻數分布直方圖;(2)這兩個班男生成績的中位數落在   組,扇形統計圖中E組對應的圓心角是   ;(3)要從成績優秀的學生中
  • 2020年考研數學複習之概率論與數理統計的基礎基本概念
    小編整理了概率論與數理統計基本概念這一部分的總結,希望能夠給準備考研的同學一點點幫助。概率論與數理統計這一部分內容是研究生考試中,廣大考生感到困難同時又是非常重要的一部分。數理統計部分在考研真題形式和所佔比重相對固定,題型一般都是兩個選擇題,一個填空題和兩個解答題總共是34分。縱觀近十年來的考研真題,每年考研數學一的第23題(最後一道壓軸題)都是數理統計的題目。
  • 2019中國科學院大學碩士研究生《概率論與數理統計》考試大綱
    歡迎關注,歡迎轉載,希望對你有用2019中國科學院大學碩士研究生入學考試 《概率論與數理統計》考試大綱本《概率論與數理統計》考試大綱適用於中國科學院大學非數學類的碩士研究生入學考試。概率統計是現代數學的重要分支,在物理、化學、生物、計算機科學等學科有著廣泛的應用。
  • 一道題目重新認識概率與統計
    統計學從圓柱形容器中,逐個不放回的摸出5個小球。據此推斷:圓柱形容器有幾種顏色的球?每種顏色球的個數與比例?概率論如圖,在透明圓柱形容器內,有三個紅球,兩個藍球,一個黑球。現從透明圓柱形容器中摸出兩個小球,手中的兩個球都是紅球的可能性有多大?
  • 常見概率模型在金融市場中的應用
    概率模型簡介  概率模型是一大類模型的統稱,是常規金融模型的概率化表達。通常概率模型會把常規金融模型中的某些參數看作是一個未知的概率分布,這個未知的分布通常會預先給定一個基本假設,即先驗概率,然後再根據具體的觀測數據去推斷或者逐步修正這些假設。一種比較常見的概率模型就是貝葉斯線性回歸模型,這類模型把線性回歸中的係數 和截距等參數作為未知的概率分布。
  • 每個數據科學家都應該知道的5種概率分布
    在某種程度上,大多數其他數據科學或機器學習技能都基於對數據概率分布的某些假設。這使得概率知識成為統計學家構建工具箱的基礎。如果您正在尋找如何成為數據科學家的第一步。不用多說,讓我們切入正題。什麼是概率分布?在概率論和統計學中,隨機變量是一個隨機值的東西,比如「我看到的下一個人的身高」。
  • 概率論和數理統計:必然性的因果關係,遇見多種可能的隨機事件
    但當其中一人贏了 a (a<m)局,另一人贏了 b (b<m)局的時候,賭博中止。問:賭本應該如何分法才合理?1657年,著名的荷蘭天文、物理兼數學家惠更斯企圖單獨解決這一問題,並寫成了最早的概率論著作《論機會遊戲的計算》。近幾十年來,隨著科技的發展,概率論廣泛應用到國民經濟、工農業生產等學科領域。
  • [EXCEL] 5 Excel的統計方法-二項式分布概率的計算過程
    在每次試驗中只有兩種可能的結果,而且兩種結果發生與否互相對立,並且相互獨立,與其它各次試驗結果無關,事件發生與否的概率在每一次獨立試驗中都保持不變,則這一系列試驗總稱為n重伯努利實驗,當試驗次數為1時,二項分布服從0-1分布。二項分布是顯著性差異的二項試驗的基礎。