一個問題引發的統計學派之爭

2020-12-05 中科院物理所

一天我偶然刷知乎刷到這樣一個問題，細想之後，覺得值得和大家分享我的理解：

假設某市流行一種病，發病率是0.1% 。在某地的醫院中有一個神醫，特別擅長診斷該病。神醫做出正確判斷的概率是99%。（神醫並不清楚發病率，做出正確判斷的概率實在實驗室得出來的。對於檢查是否患病的人，他的正確率不變。）有一次你去看病，神醫診斷說你有這個病。請問你真正有這個病的概率是多少？

圖1 神醫

圖2 生病的你

大家不妨在往下讀之前可以先自己想想自己的思路，看看自己想的和我後面寫的有沒有相通之處。

問題作者藉此題說了他的貝葉斯模型的思路，並認為這樣想理所當然。我看了以後，覺得貝葉斯確實是一個流行的好想法，但是卻並不是唯一想法，聯想到一些其他思路和對模糊的題意理解方式，我認為有三種學派和理解以及四個不同答案，而且，不僅答案值不一樣，他們相互之間並沒有可比性，因為他們對題中要求的答案的定義都完全不同。

從中我們會回顧從概率統計到機器學習的一些經典模型，希望讀之能有所收穫。

頻率學派

頻率學派認為，自然界的某些性質會保持不變，這些性質被叫作「參數」的東西記錄下來，這個玩意的變量特性是常數，往往是未知而不變的。而這些性質唯一的觀測方式就是由帶有這個性質的系統產生的變量。比如人群的身高期望，硬幣正面向上的概率等，通過抽一群人測身高，扔一堆硬幣，我們可以就可以比較準確的計算人群身高和硬幣正面向上概率這兩個性質。

問題來了，到底測多少人身高算夠？扔多少次硬幣算夠？能夠準確地測量這個參數？

實踐上，對於這種一元變量，測個幾十上百次基本上就比較穩定，可以近似當成真值了。而對於複雜問題，這種平常經驗卻是無效的。比如，你要抽樣多少個對話系統的答案，多少query的搜索結果，所得統計結論才能在多少置信度下提升多少？

頻率學派最重要的思考就是把置信度計算，假設檢驗語言這一套理論說清楚了，而它的大前提是每個量：哪個是參數，是哪個分布的什麼參數，哪個是變量，是哪個分布產生的變量，要定義得一清二楚。在這個條件下，我們可以計算一般意義的點估計，置信區間估計，這兩種套路給了我們兩種回答問題的模式，對應解決問題到兩個程度：

點估計，給出估計值以及性質：參數的極大似然/矩估計值是X，具有無偏/有效/一致等興致：

置信區間估計，給出置信區間以及置信度：參數在A的置信度下的置信區間是[X, Y]；

前者的估計值往往就近似地拿著去做推斷了，但是嚴格來看還要做複雜的推斷結果的分布計算以及置信度計算等；而後者一般就讓人聽著舒服一下，覺得還比較可信和範圍接受就完事了，因為不知道具體值為多少，不好再往下推演了。

但是統計學最基本的，還需要能回答一些老闆關於是還是否的問題：

人口平均身高到底超過170沒有？硬幣向上的概率超過0.6沒有？

其實這些問題和參數值一樣，都不可以直接觀測，偉大的頻率學派學者發明了假設檢驗語言，在上面基礎上，能對任何這類相關的判斷類問題給出答案，並給出所謂檢驗水平來說明答案置信程度（p值法）；

p值法那個p值啊，就是一個評價指標而已，用的是超出假設範圍的隨機變量的可能性大小。

所以，整個頻率學派留下來的精華就是：給出性質不錯的參數值，不信就給個區間和置信度，硬是要我下結論，就假設檢驗好了。而做這些事情的前提是定義清楚參數，變量和分布形式。頻率學派就是這麼一套方法論和建模思路。

在本問題上實踐一下這個建模思路：如果有病與否是個確定的未知參數，那要麼通過對該參數下產生的樣本來估計，要麼有人直接告訴我參數值為多少，或者置信度為何，就像上帝視角一樣給出已知條件。本問題中，並沒有估計樣本，這個參數值也和發病率沒有任何關係，僅能把醫生的判斷作為該未知參數值的1的置信度，即：

結論一：

根據醫生的說法，有病與否這個參數為1的置信度為0.99。

這個置信度，和扔了一堆硬幣樣本算的硬幣正面向上概率在一個區間X內的置信度為Y是一個意思，只不過這裡的向上概率這個[0, 1]範圍的變量為估計參數，問題中有病與否這個bool變量為估計參數。

自然地，這裡還有另外一個思路：得病概率是未知參數，得病結論是唯一的變量。此時，這個變量並不可觀測，頻率學家眼裡，醫生這種不能打保票的話是不予採納的！那得了，這個參數相關分布的變量，得沒得病這件事沒有絕對的觀測，咋辦，不怕啊，上帝告訴我了發病率啊，這個不就是適用每個人的得病概率啊！

結論二：

根據發病率信息，有病與否的概率值為0.001。

怎麼樣，是不是感覺頻率學派有點生硬，無法融合多方信息，非黑即白，結論邏輯通順但是似乎並不那麼好用？

正式這樣，貝葉斯學派才體現它的價值。

貝葉斯學派

貝葉斯同學和他的信徒們清晰地意識到了客觀世界之複雜，變量直接的影響關係往往順序地有好幾個層次，並不像一般地參數-隨機變量這樣單一。而他們的具體建模方式是：一個對象既可以作為某個分布的隨機變量結果，也可以作為下一個分布的參數或到此終止。至於有多少層次和相互的因果關係法則，這要看具體的實際問題假設來構建，頻率學派的一層模型僅僅是最簡單的特例。我們能夠處理估計任何參數值的問題（往往是極大似然估計）以及某變量在所有信息條件下的分布問題。

在這裡，根據題意，構建貝葉斯DAG（有向無環圖）如下：

P1: 得病概率，這裡即是發病率，為已知參數，P1 = 0.001；

X: 是否得病的隨機變量，服從伯努利分布：X ~ B(1, P1)；

Y: 神醫的診斷結果，依據題意，有：(Y==X) ~ B(1, P2)，P2 = 0.99；

在這個模型中，所有的參數都是已知的，不需要做參數估計，一切隨機變量的分布就都可以計算。

故原題所求即為：

結論三：

根據發病率先驗和神醫診斷後驗判斷，由貝葉斯公式，得得病與否的隨機變量的後驗分布仍然為伯努利分布，其分布參數約為0.090。

香農信息學派

這裡泛指熵的引入，以及無向圖模型的系統描述方法等一系列成果。

香農同學在他的碩士研究論文中奠定了直到今天還在沿用的資訊理論基礎，在統計學中的意義即是，統一了市面上給出的幾乎所有的分布表達式的共同源頭：最大熵模型，並且逐漸總結出了指數分布族這樣的工具方便地對任意分布形式進行建模。

貝葉斯的有向圖模型的問題是，無論是否存在，必須假定一個變量間的順序生成過程，這個在一些時空系統中大體成立，可是你要硬說是因為體重重所以身高高還是反過來成立，就怎麼說都有點牽強了。強行構造的因果一定會因為和真實生成過程不符合導致最後的模型效果的偏離啊。有些變量之間是看不見摸不著的相關關係，並沒有誰先誰後的因果關係啊！

於是，我們把所有要研究的認為重要的變量列出來，按照認定其有無直接關係，即在其他變量都已知的條件下，二這是否獨立這件事的答案來決定是否連上一條無向邊，最後找到最大團計算勢函數，根據Hammersley-Clifford定理，得到最後的分布表達式。

我覺得，這些知識的大致邏輯是這樣的：無向圖提供了一種表達關係的方法（因子圖也是，有向圖也是，甚至還包括工程上CRF模型用的特徵模版也是如此。），最大熵模型是一個給定約束條件下求解最佳分布的準則，執行的的最大信息熵目標，達到的是平均來看最小的和真實分布的交叉熵。而Hammersley-Clifford定理，則恰是在無向圖方式限定函數的變量關聯方式條件下最大熵模型的結論形式罷了。

回到我們研究的問題，如果用無向圖模型來理解，其圖示應該是這樣的：

字母含義同貝葉斯模型，且嚴格來說，P1，P2是兩個X，Y分布的約束，而不再是一個分布的固定參數了。

其對應的最大熵模型為：

注意，最後求解答案所用的公式是條件概率公式而已，並不是貝葉斯模型，貝葉斯模型的核心的有向圖加條件概率公式。

這裡所選取的特徵僅有兩個，而且都是給定了特徵函數期望值的，由於沒有真正的樣本，所以沒有很好的條件去使用其他的特徵了，否則這個約束下的最優化問題就沒法給出一個簡單的唯一可行解，也是最優解了。

結論四：

根據最大熵模型準則，在題設條件都成立的條件下，得到的最大熵模型的解，由條件概率公式得，此時得病概率為0.910。

總結

哈哈，一道這麼簡單的問題搞出四個大相逕庭的答案來了，有必要麼，到底信誰的呢？其實啊，這些結論都是在各自的理論下站的住腳的，也是完全不同的世界觀，方法論的推演結果，雖然都是一個數，但他們並無可比性，所代表的含義分別為參數置信度，變量服從分布的參數值，後驗概率以及最大熵的解下的條件概率。他們互相井水不犯河水。

這些思考不能幫助你迅速解決這個問題，但是能幫助提升你的思維能力到一個新的檔次。

來源：MatheMagician

編輯：井上菌

相關焦點

科學史上的各個學派之爭,有佳話也有謊話,當年在法國讀書很不容易的

只有這樣，我們才能覺察到問題之所在。這個問題確實存在於自然之中，尤其存在於人。科學史上學派林立,猶如中原武林。光學上有微粒學派和波動學派。
「中國學派」問題的再思與再認

之所以要建設國際關係理論的「中國學派」，主要是因為基於西方文化基礎之上的西方國際關係理論本身存在著缺陷、不足和局限性，在多年間忽視和看低非西方思想文化，甚至加以排斥。西方國際關係理論由於其局限，解決不了諸多重要的理論和現實問題。
心理十大學派之——人本主義心理學派

以馬斯洛、羅傑斯等人為代表的人本主義心理學派，與精神分析學派和行為主義學派分道揚鑣，猛烈衝擊著當代西方心理學體系，衝擊著在美國很有勢力的精神分析心理學派和行為主義心理學派，代表了當代心理學發展的新方向，從而形成了心理學中的"第三思潮"（在它之前的精神分析學派為"第一思潮"，行為主義學派為"第二思潮"）。人本主義心理學受現象學和存在主義哲學影響比較明顯。
哥本哈根學派的主要觀點有哪些?

哥本哈根學派代表人物海森堡哥本哈根解釋的主要內容是以下幾點，也是這幾個方面存在歷史性的爭議，並且引發出一系列的矛盾和難以接受的結論這個不確定關係引起了物理學界及哲學界的猛烈攻擊，引發了很多的爭議。邏輯實證主義的根據是事實，工具是邏輯思維，得到的結論用數理統計和概率論來進行修正，以達到接近於真實的結果。在邏輯實證主義中，最顯著的特點是：任何不可驗證的陳述既非真，也非假，因為它們沒有實在的意義。邏輯實證主義認為這種科學的方法是認識研究世界的唯一方法，在20世紀30年代末，邏輯實證主義隨著維也納學派的解體也漸漸地瓦解掉了，但是這個學派倡導的邏輯實證主義的精神仍留給後來哲學家作進一步發展與補充。
貝爾不等式:愛因斯坦與哥本哈根學派的最終裁決者

這次的EPR之爭起源於哥本哈根學派的海森堡提出著名的不確定性定理以及量子力學的機率解釋，海森堡通過對確定原子磁矩的斯特恩-蓋拉赫實驗的分析證明，原子穿過偏轉所費的時間△T越長，能量測量中的不確定性△E就越小。
伯明罕學派「主動的受眾」研究之緣起

二、伯明罕學派「受眾觀」的轉向——謳歌大眾在面對上述這樣一個精英文化與大眾文化博弈的時代，伯明罕學派經歷了從創建伊始的文學轉向文化，再到通俗文化，完成了文化研究的演變歷程，突破了英國文化主義面臨的困境。
統計小知識

（一）「統計」一詞的由來「統計」一詞，英語為statistics，用作複數名詞時，意思是統計資料，作單數名詞時，指的是統計學。一般來說，統計這個詞包括三個含義：統計工作、統計資料和統計學。這三者之間存在著密切的聯繫，統計資料是統計工作的成果，統計學來源於統計工作。原始的統計工作即人們收集數據的原始形態已經有幾千年的歷史，而它作為一門科學，還是從17世紀開始的。英語中統計學家和統計員是同一個（statistician），但統計學並不是直接產生於統計工作的經驗總結。
為什麼奧地利學派經濟學總是被邊緣化?

但是和曾經的輝煌相比，奧地利學派仍然徘徊在主流經濟學邊緣。只有到了經濟出現問題的時候，特別是出現危機的時候，才會有人想起還有奧地利學派的經濟學理論。在中國，奧地利學派影響力似乎更加微弱。由於奧地利學派以批評馬克思主義嚴厲而著稱，新中國成立以來，一直視奧地利學派為最反動的資本主義庸俗經濟學。
科學網—波爾與愛因斯坦之爭的由來

二人分別因為解決光電效應問題和量子化原子模型而獲得1921年、1922年的諾貝爾物理學獎。然而，這兩位劃時代的科學家竟在量子論問題上爭論了半個世紀。誕生於實驗室的量子力學理論是迄今為止最成功的理論。在其誕生一百多年來，還沒有任何實驗事實能夠違背這個理論。
一個無理數引發第一次數學危機,這個數學家獻出了寶貴的生命!

被處死的理由極為可笑，竟然是因為希帕索斯發現的「根號2」觸犯了畢達哥拉斯學派「萬物皆數」的信條。「萬物皆數」到底是一個什麼東西，這還得詳細地扒一扒畢達哥拉斯的八卦才能說得清楚。畢達哥拉斯是古希臘著名的數學家、哲學家和音樂理論家。他出身貴族，自小接受了良好的教育。
「施耐德」引發馳名商標保護之爭

原標題：「施耐德」引發馳名商標保護之爭　　一家是施耐德電氣中國公司（下稱施耐德電氣公司），另一家是蘇州施耐德電梯有限公司（下稱施耐德電梯公司），近年來，兩家公司因為商標使用、字號同名等引發了多起智慧財產權糾紛。
解答熱力學與統計物理學三大古老問題,彌補統計物理學局限性

在三層次統計物理模型基礎之上繼往開來,發現能量量子在自然體系表面保守力場方向上的玻爾茲曼分布,就是溝通宏觀與微觀的「橋梁」.不僅可以通過橋梁解答「統計物理學處理互作用粒子系統所遇到的困難」問題,而且橋梁本身就是描述氣、液、固(冰)自然體系的數學原理.定量解析氣、液、固(冰)多種物質多項特性參量(及相變與臨界點參量)的親力親為案例,鮮明地展示了在解決熱力學與統計物理學三大古老問題上所取得的實質性進展
心理十大學派之——行為主義心理學派

行為主義心理學派在心理學發展中的貢獻和局限促進了心理學的客觀研究，擴展了心理學的研究領域。對行為的突出強調，不僅促進了心理學的應用，而且使人們看到新的希望。 20世紀初，美國的資本主義發展已進入壟斷階段，壟斷資本主義迫切要求充分利用人的全部潛力來提高生產效率。行為主義心理學否定意識，認為心理學應該探索行為規律，從而預測和控制人的行為。
南京梧桐樹引發口水戰砍樹「砍」出地域之爭

與此同時，在南京網民中人氣很旺的西祠胡同網站上，一場由梧桐樹引發的「論戰」也開始了。截至12日下午5點，4月上旬陸續發布的4條帖子，得到近4萬次點擊、近千條跟帖。12日還有人開新帖，加入討論。出人意料的是，這場萬人關注的網絡爭論，焦點很快從梧桐樹轉移到「外地人」。眾多網民亮明自己的「南京人」身份，認為想砍樹的是「外地人」，如果不能適應南京的一切，「外地人」就該離開。
影評:張藝謀《影》上映,影片引發故事與意境之爭,解析最後結局

影評：張藝謀《影》上映，影片引發故事與意境之爭，解析最後結局文 / 劉森說娛樂原創首發，轉載請註明老謀子的新片選擇定檔930，直接拉開了今年國慶檔的序幕，而大家對於該劇關注程度也非常之高老謀子不用說，被視為中國電影圈最會導戲的導演，最愛啟用無任何表演基礎的新人，卻總能給人出人意料的驚喜，從鞏俐、子怡，再到周冬雨、倪妮，其看人只準，對演員的影響之大肉眼可見。前兩位已經成為全球影視界最知名的華人演員，冬雨妹妹從一個外表平平的女孩子成長成為90後最厲害的小花，甩其他人一大截，而倪妮演技備受肯定，氣質出眾，也是娛樂圈身價最高，炙手可熱的女演員。
本末之爭與重本抑末

本和末的概念之爭是魏晉文人很喜歡的談論話題。相關的探討爭論可以上溯到春秋時期，老子在《道德經》中反覆探討的「道」就是「本」的意思。末就是「道」衍生出來的萬事萬物。古人的哲學邏輯理解起來有點困難，本末之間的關係可以理解為母子關係。天地萬物都是由本源衍生出來的。也有人認為，本末之間的關係是主次關係。
學派系列|有一群社會學老哥創建了個芝加哥學派讓我們背到頭禿

今天，我們就從大名鼎鼎的「芝加哥學派」講起。知識分子從歐洲向美國遷移也許在今天，很多人都認為美國擁有許多世界一流大學。但在20世紀30年代之前，歐洲的大學無論如何都立於世界之巔，尤其是德國的研究型大學。要知道，在第一次世界大戰之前，就任何領域而言，只要是在一流大學學習，基本上就意味著在歐洲、特別是德國學習。那麼問題來了。
超越定性與定量之爭

在政治學方法論發展的進程中，(KKV，1994)是一部地位獨特的著作，由其出版所引發的方法論大辯論，特別是其中「定量與定性之爭」，帶動了整個政治學界對方法論的深入理解及方法創新。這篇文章圍繞上述「定量與定性之爭」問題，闡述了作者對方法論的理解。具體而言，文章重點批評了一些學者(包括KKV在內)錯誤地認為：「尋求因果解釋」的最重要途徑，就是用定量方法甄別「原因的影響」。
西方經濟學派的燈泡,誰來生產?白話三個經濟學派的思想

故事大概意思是，一個燈泡壞掉了，如果有不同學派的經濟學家來換燈泡，問分別需要多少經濟學家。芝加哥學派給出的答案是，一個也不用，市場機制自然會換了燈泡。新古典經濟學派給出的答案是，要看當時的工資水平。凱恩斯經濟學派給出的答案是，越多越好，增加就業，刺激消費。故事很簡單，但是其中內含的幽默感恐怕只有經濟學界的行內人才能領悟。因為這涉及三個經濟學派對市場的看法。
2020年甘肅教師招聘教育心理學知識點:格式塔學派

為了讓大家更好的備戰甘肅中小學教師招聘考試，甘肅中公教育為廣大考生準備了教師招聘教育心理學知識：格式塔學派，望各位考生及時查看。格式塔學派指創立和繼承格式塔理論的一個心理學學派。1912年，由韋特海墨、考夫卡和苛勒在德國創立，後來得到廣泛傳播和繼續發展。「格式塔」一詞是德國Gestalt的譯音，原意是構成整體。

一個問題引發的統計學派之爭

相關焦點

科學史上的各個學派之爭,有佳話也有謊話,當年在法國讀書很不容易的

「中國學派」問題的再思與再認

心理十大學派之——人本主義心理學派

哥本哈根學派的主要觀點有哪些?

貝爾不等式:愛因斯坦與哥本哈根學派的最終裁決者

伯明罕學派「主動的受眾」研究之緣起

統計小知識

為什麼奧地利學派經濟學總是被邊緣化?

科學網—波爾與愛因斯坦之爭的由來

一個無理數引發第一次數學危機,這個數學家獻出了寶貴的生命!

「施耐德」引發馳名商標保護之爭

解答熱力學與統計物理學三大古老問題,彌補統計物理學局限性

心理十大學派之——行為主義心理學派

南京梧桐樹引發口水戰 砍樹「砍」出地域之爭

影評:張藝謀《影》上映,影片引發故事與意境之爭,解析最後結局

本末之爭與重本抑末

學派系列|有一群社會學老哥創建了個芝加哥學派讓我們背到頭禿

超越定性與定量之爭

西方經濟學派的燈泡,誰來生產?白話三個經濟學派的思想

2020年甘肅教師招聘教育心理學知識點:格式塔學派

南京梧桐樹引發口水戰砍樹「砍」出地域之爭