我們常聽說的置信區間與置信度到底是什麼?

2020-12-05 機器之心Pro

選自TowardsDataScienceR

作者：Dima Shulga

機器之心編譯

參與：程耀彤、思源

機器學習本質上是對條件概率或概率分布的估計，而這樣的估計到底有多少是置信度？這裡就涉及到統計學裡面的置信區間與置信度，本文簡要介紹了置信區間這一核心概念，它有助於我們從直觀上理解評價估計優劣的度量方法。

本文討論了統計學中的一個基本術語：置信區間。我們僅以一種非常友好的方式討論一般概念，沒有太多花哨的統計術語，同時還會使用 Python 完成簡單的實現！儘管這個術語是非常基礎的，但我們有時很難完全理解置信區間到底是什麼，為什麼我們需要它。

假設你想知道美國有多少人熱愛足球。為了得到 100％正確的答案，你可以做的唯一一件事是向美國的每一位公民詢問他們是否熱愛足球。根據維基百科，美國有超過 3.25 億的人口。與 3.25 億人談話並不現實，因此我們必須通過問更少的人來得到答案。

我們可以通過在美國隨機抽取一些人（與更少人交談）並獲得熱愛足球的人的百分比來做到這一點，但是我們不能 100％確信這個數字是正確的，或者這個數字離真正的答案有多遠。所以，我們試圖實現的是獲得一個區間，例如，對這個問題的一個可能的答案是：「我 95％相信在美國足球愛好者的比例是 58％至 62％」。這就是置信區間名字的來源，我們有一個區間，並且我們對它此一定的信心。

非常重要的是我們的樣本是隨機的，我們不能只從我們居住的城市中選擇 1000 人，因為這樣就不能很好地代表整個美國。另一個不好的例子是，我們不能給這 1000 個隨機用戶發 Facebook 消息，這樣我們就會得到美國 Facebook 用戶的喜愛趨勢，因為並不是所有的美國公民都使用 Facebook。

因此，假設我們隨機抽取了 1000 個美國人的樣本，我們發現，在 1000 人中有 63% 的人喜歡足球，我們能假設（推斷）出整個美國人口的情況嗎？

為了回答這個問題，我希望我們以一個不同的方式來看待它。假設我們知道（理論上）美國人的確切比例，假設它是 65％，那麼隨機挑選 1000 人只有 63％的人喜歡足球的機會是多少？讓我們用 Python 來探索這個問題！

love_soccer_prop = 0.65 # Real percentage of people who love soccer

total_population = 325*10**6 # Total population in the U.S. (325M)

num_people_love_soccer = int(total_population * love_soccer_prop)

num_people_dont_love_soccer = int(total_population * (1 - love_soccer_prop))

people_love_soccer = np.ones(num_of_people_who_love_soccer)

people_dont_love_soccer = np.zeros(num_

people_dont_love_soccer)

all_people = np.hstack([people_love_soccer, people_dont_love_soccer])

print np.mean(all_people)

# Output = 0.65000000000000002

在這段代碼中，我創建了一個表示 3.25 億人的 NumPy 數組，對於每個人，如果他/她喜歡足球，那麼我會存儲 1，否則就是零。我們可以通過計算它的平均值來得到數組中的百分比，實際上它是 65％。

現在，讓我們取幾組容量為 1000 個樣本的試驗，看看得到的百分比是多少：

for i in range(10):

sample = np.random.choice(all_people, size=1000)

print 'Sample', i, ':', np.mean(sample)

# Output:

Sample 0 : 0.641

Sample 1 : 0.647

Sample 2 : 0.661

Sample 3 : 0.642

Sample 4 : 0.652

Sample 5 : 0.647

Sample 6 : 0.671

Sample 7 : 0.629

Sample 8 : 0.648

Sample 9 : 0.627

對於每組樣本，我們獲得了不同的值，但直覺（和統計理論）表示，大量樣本的平均值應該非常接近真實百分比。讓我們這樣試試！我們取很多樣本，然後看看會發生什麼：

values = []

for i in range(10000):

sample = np.random.choice(all_people, size=1000)

mean = np.mean(sample)

values.append(mean)

print np.mean(values)

# Output = 0.64982259999999992

我們創建了 10K 個樣本，檢查了每個樣本中熱愛足球的人的百分比，然後取平均值，我們得到了 64.98％，這非常接近於實際值 65％。讓我們畫出我們得到的所有值：

這裡你看到的是我們得到的所有樣本值的直方圖，這個直方圖的一個很好的性質是它和正態分布非常相似。正如我所說的，我不想在這裡使用太多的統計術語，但假設如果我們這樣做了很多次（無限次），我們將得到一個非常接近正態分布的直方圖，我們可以知道該分布的參數。用更簡單的話來說，我們會知道這個直方圖的形狀，所以我們可以精確地知道在任意數值範圍內有多少個樣本。

下面是一個例子，我們會多次運行這個模擬（試圖達到無窮大）：

首先，我們可以看到直方圖的中心（平均值）接近 65％，正如我們所預期的，但我們可以通過查看直方圖來得到更多信息，例如，我們可以說，一半樣本都大於 65％，或者我們可以說大約 25％的樣本大於 67％，甚至可以說（大致）只有 2.5％的樣本大於 68％。

在這一點上，很多人可能會問兩個重要的問題：「我怎樣才能取得無數的樣本？」和「它對我有什麼幫助？」。

讓我們回到我們的例子，我們抽取了 1000 人的樣本，得到了 63％，我們想知道，隨機抽樣的 1000 人中有 63％的足球愛好者的概率是多少。使用這個直方圖，我們可以說有（大概）25％的概率，我們會得到一個小於或等於 63％的值。該理論告訴我們，我們實際上並不需要得到無限的樣本，如果我們隨機選擇 1000 人，只有 63％的人喜歡足球是可能發生的。

實際上，為了找到不同數值範圍或區間的概率，我們需要知道或至少估計總體分布的標準差。因為我們想把事情變得簡單一點，因此現在先不討論它。

讓我們回到現實和真正的問題，我不知道美國足球愛好者的實際比例，我只抽取了一個樣本，得到了 63％，這對我有什麼幫助？

所以，我們不知道在美國熱愛足球的人的實際比例。我們所知道的是，如果我們從總體分布取無數個樣本，它將如下所示：

這裡 μ 是總體分布的平均值（我們例子中足球愛好者的實際百分比），σ 是總體分布的標準差。

如果我們知道這一點（並且我們知道標準差），我們可以說約 64％的樣本會落在紅色區域，或者 95％以上的樣品會落在圖中的綠色區域之外：

如果我們在之前假設的實際百分比 65％上使用該圖，那麼 95％以上的樣本將在 62％和 68％之間（+ - 3）。

當然，距離是對稱的，所以如果樣本有 95% 落在在實際百分比 -3 和 +3 之間，那麼真實百分比落在樣本百分比 -3 和 +3 之間的概率為 95％。

如果我們抽取一個樣本，得到了 63％，那麼我們可以說我們 95％確信實際比例在 60％（63-3）和 66％（63 + 3）之間。

這就是置信區間，區間為 63 + -3，置信度為 95％。

我希望大家現在對置信區間有更好的理解，但這個介紹忽略了一些重要的技術性的部分。有很多文章包含了這些部分，因此讀者可繼續閱讀相關的材料加強理解。

原文連結：https://towardsdatascience.com/a-very-friendly-introduction-to-confidence-intervals-9add126e714

相關焦點

線性回歸分析詳解9:顯著性水平、置信度、置信區間及其計算方法

許栩原創專欄《從入門到高手：線性回歸分析詳解》第9章，總體回歸、置信度、置信區間及其計算方法。多元回歸方程求解後，我們分別確認了回歸方程的精度和進行了回歸方程的顯著性驗證，接下來，需要計算置信區間。不過，我們做回歸分析，非常有必要懂得相關置信區間的概念、邏輯和計算方法。所以，本章，我還是對此做些基礎的介紹。（本專欄總目錄如下圖。）置信區間。置信區間（Confidence interval）是指由樣本統計量所構造的總體參數的估計區間。
置信區間與串行數據鏈路如何關聯

ziZednc其中m』是一個可變的整數，m是實際觀察到的誤碼數，BER是鏈路的實際誤碼率，是估計值。ziZednc有誤碼的置信區間如果我們增大觀察間隔會發生什麼？如果觀察間隔足夠大，我們會看到很少的誤碼。這對置信區間有什麼影響呢？在研究這個問題之前，讓我們先看看另一個問題：在表1所示的每一個案例中，我們希望觀察到多少誤碼？ziZednc下面的數學公式可以精確地定義隨機實驗的期望輸出結果：ziZednc
推論統計 | 抽樣分布,中心極限定理和置信區間

它將產生間隔（間隔不一定總是與我們的樣本比例相同），其中包括真實比例，即在95％的時間內人口比例為「 p」。如果我們想縮短間隔，即我們必須降低誤差幅度，即由於標準誤差與n成反比，則必須增加n（樣本大小）。因此，我們用置信區間回答的問題是：對於任何給定的估計（樣本），我們對樣本周圍的一定範圍實際上包含真實人口比例的信心如何？
通俗易懂告訴你:何為95%置信區間?

而找到一個合適的估值範圍，這是置信區間要解決的問題。說到置信區間我們就要說到點估計和區間估計。那麼什麼是點估計?什麼是區間估計呢?但我們不可能期望點估計量能給出總體參數的精確值，所以經常在點估計上加減估計誤差來計算區間估計。即區間估計的一般形式為：點估計±邊際誤差。有一個零部件的長度θ未知，我們通過點估計推測θ為9 cm，這還不足夠。如果我們能知道θ有95%的概率在(8.7cm,9.2cm)，那麼就理想多了。
區間估計、置信區間

點估計與區間估計刮獎猜測點估計就是單猜某一張彩票是大獎，區間估計就是將點估計的範圍擴大，可以一盒一盒、一個區域、一座城市，說白了就是設置一個半徑。下面採用置信區間構造區間估計但是這個區間多大會影響到所有估計中包含真值的比例，比如由樣本均值的抽樣分布可知，在重複抽樣或者無限總體抽樣的情況下，樣本均值的期望等於總體均值。無數個樣本均值最終可以構造成下面的圖形，但是實際中只能有有限個數據。均值與單個值的距離是相對的，如果某個值在均值的半徑範圍內，則均值也在這個值的對應半徑範圍內。
第四十講 R-線性回歸:預測模型及可信區間

那麼，當我們取得了預測模型後，根據該預測模型對新數據進行預測得出的預測值是什麼？這個預測值的可信度如何呢？今天的講解中，我們會給出答案。我們首先建立一個簡單的線性回歸模型，該模型根據速度預測汽車的停車距離。
置信區間t分布

1.陳述t分布的形狀和正態分布之間的差異2.說明t分布的形狀與正態分布之間的差異如何受自由度的影響3.在表格中使用以查找在置信區間中使用的t的值4.使用t計算器查找置信區間中使用的t的值在正態分布的介紹中顯示，95％的正態分布面積在平均值的1.96個標準偏差內。
【乾貨】你明白臨床試驗中的P值和置信區間的含義嗎?

P值或者置信區間上。那麼P值和置信區間代表什麼意思呢？為什麼我們要做計算P值或置信區間來做統計推斷呢？在講P值和置信區間之前，我們先講講樣本與總體。在《醫學統計學》中，根據研究目的而確定的同質觀察單位的全體成為總體。觀察單位，又稱個體，是統計研究中的基本單位，他可以是一個人、一個器官、一個細胞。
[理論+SPSS實戰] 點估計與區間估計詳細解析+把論文寫在抗擊疫情的第一線

比如我們日常見到的案例：一袋食品重量100g±2.5g，這就是一個區間估計得到的結果，其中100g是平均值，2.5g是估計誤差。具體區間[97.5g---102.5g]稱為置信區間。這袋食品重量在[97.5g---102.5g]之間，這個概率是多大呢？
Pytorch貝葉斯庫BLiTZ實現使用LSTM預測時序數據和繪製置信區間

在本文中，我們將解釋貝葉斯長期短期記憶模型（LSTM）是如何工作的，然後通過一個Kaggle數據集進行股票置信區間的預測。貝葉斯LSTM層眾所周知，LSTM結構旨在解決使用標準的循環神經網絡（RNN）處理長序列數據時發生的信息消失問題。
磷酸化位點置信度分析

近期，利物浦大學的蛋白質研究中心和生物化學部，做了一系列工作，從質譜方法和分析軟體這兩個方面對磷酸化位點置信度的分析進行了討論。毫無疑問，提高磷酸化肽段的鑑定效率最有效的採用高分辨的串聯質譜。另外，磷酸化肽的可信度和位點的鑑定可以通過增加二級碎片離子的數量來提高，所以採用多種互補的碎裂模式可以實現這一點。
強化學習實驗裡到底需要多少個隨機種子的嚴格證明

該圖顯示了平均學習曲線與 95％置信區間。學習曲線的每個點是 10 個評價時段中的獎勵的累積值。該算法性能的度量值是過去 10 個點（即最後 100個評價時段）的平均性能。從圖中可以看出，Algo1 的表現似乎優於 Algo2；而且，越靠近結尾的位置，置信區間的重疊也並不多。當然，我們需要在得出任何結論之前進行統計學的測試。
單維測驗合成信度三種區間估計的比較

有三種方法或途徑可以計算單維測驗合成信度的置信區間, 包括 Bootstrap 法、Delta 法和直接用統計軟體(如 LISREL)輸出的標準誤進行計算。本文通過模擬研究進行比較, 發現 Delta 法與 Bootstrap 法得到的置信區間相當接近, 但用 LISREL輸出的標準誤計算的與 Bootstrap 法得到的結果相差很大。
首次擺脫對梯度的依賴,CMU、武大等開源Score-CAM:基於置信分數的...

本文介紹一篇被CVPRW2020接受的論文，主要是關於一種基於置信分數的視覺可解釋性方法。本文的亮點在於：在CAM系列方法的基礎上，首次提出了一種新的gradient-free的權重表達方式。這裡解釋可以是從數學理論層面進行的先驗解釋，比如對於激活函數的差異分析、模型的泛化能力分析，也可以是對於網絡預測結果的後驗解釋，比如我們訓練好的模型將一張圖片分類為"貓"，我們希望知道網絡是通過什麼因素或特徵將它分類為"貓"這個類別的。本文關注的是後驗解釋，即解釋已有模型的決策。而對於卷積神經網絡，目前最常見的是通過可視化的方式來解釋模型的決策（下文中可解釋性與可視化將不再區分）。

我們常聽說的置信區間與置信度到底是什麼?

相關焦點

線性回歸分析詳解9:顯著性水平、置信度、置信區間及其計算方法

置信區間與串行數據鏈路如何關聯

推論統計 | 抽樣分布,中心極限定理和置信區間

通俗易懂告訴你:何為95%置信區間?

區間估計、置信區間

第四十講 R-線性回歸:預測模型及可信區間

置信區間t分布

【乾貨】你明白臨床試驗中的P值和置信區間的含義嗎?

[理論+SPSS實戰] 點估計與區間估計詳細解析+把論文寫在抗擊疫情的第一線

Pytorch貝葉斯庫BLiTZ實現使用LSTM預測時序數據和繪製置信區間

磷酸化位點置信度分析

強化學習實驗裡到底需要多少個隨機種子的嚴格證明

單維測驗合成信度三種區間估計的比較

首次擺脫對梯度的依賴,CMU、武大等開源Score-CAM:基於置信分數的...