統計學的實質是什麼?--寫給所有將要或者正在學習統計學的朋友們

2021-01-14 學術嚴選

統計學定義是,通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。統計學研究數據,發現數據背後的規律。不過,大部分初學者對這樣的統計學定義依然一知半解。統計學的本質是什麼?統計學是數學嗎?如果不是數學,它和數學有什麼關係?我們統計分析的目的是什麼?它的原理難以理解,如何應用統計原理於數據分析呢?今年秋季以來,作為一名浙江中醫藥大學的醫學統計學教授,通過不斷地學習與反思,本人總結出一些出關於統計學本質、統計思維的關鍵感悟。特此撰寫長文進行梳理,來幫助學習者來理解統計學。


本篇文字約5000字,閱讀時間為14分鐘。無論你正在、將要或者已經完成學習統計學,我都推薦你們耐心閱讀。


我分5點來介紹統計學的實質

1.統計學的本質;

2.統計學是數學嗎?

3.統計學是抽樣研究;

4.統計學是經濟學;

5.統計學核心是研究變量與變量之間的關係。


現代統計學誕生於19世紀末20世紀初,奠基人Karl.Pearson與其前輩們一起,將統計學方法用來描述事物客觀現象。更準確來說,他們在大規模群體的基礎上,用一種數學的參數(比如均數、標準差)描述事物的狀態。隨後,另外一位取得卓越成就的現代生物統計學大師Fisher認為,統計學可用小樣本的信息來推斷真實世界的事物特徵。他提出了假設檢驗思想,也就是統計學的最為核心的思維與方法。現代統計學的發展直至今日,仍然主要以Fisher的思想體系為基礎。統計學思維認為,客觀世界存在著一些普遍性的規律。這些規律,雖然是確定的,但是不可知的。因為客觀世界的規律是所有群體表現出來的特徵,統計學稱之為總體的特徵。總體特徵可否直接得到?不能。人類能夠聽到的、見到的、感覺到的,只是總體客觀世界的局部反映而已。局部的體現可稱之為樣本的特徵。我們只是盲人摸象、管中窺豹罷了。那麼,管中窺豹,可否全豹?顯然不能,但能見一斑。什麼意思?我們可以看到整體的一部分,即樣本,慶幸的是樣本和總體有一定的相似性。所以Fisher認為,雖然無法直接得知客觀世界的真實地特徵,但是只要局部群體的特徵具有代表性,那麼局部可以反映總體;總體特徵依然可以猜出來的。由此誕生了現代統計學。現代統計學家尋找各種技術與方法猜總體,來實現人類孜孜以求的夙願---發現科學的真諦。為達到這一目的,統計學家首先需要採集一定代表性的樣本,描述樣本的特徵,比如樣本的均數,樣本的率;接著藉助一定統計技術,比如總體參數置信區間估計方法、假設檢驗方法,來判斷總體的特徵,從而發現數據背後存在著的一般性規律。這就是統計學的基本方式:根據小規模的代表性群題的信息,去猜測事物或者數據背後一般的運行規律。醫學研究的統計過程亦是如此。研究者可能想知道藥物的效果,或者想證明某種外科治療手段的價值,或者期望證明適度飲酒對身體有沒有傷害?統計本質而言,都是在探討人類一般規律性的科學問題。任何學者探討的醫學問題,都不是針對觀察到的群體,而是基於觀察得到的表面現象,探討現象背後的本質規律。因此,《赤裸裸的統計學》一書的作者稱,統計學家做的事情就是偵探家做的事情。偵探家,會運用各種偵探技術,根據案發現場的一切可觀察得到的信息,去偵破犯罪的過程。犯罪起因、犯罪目的、最重要是罪犯是誰?為解答這些問題,一系列邏輯思維和縝密的推導過程會展開。統計研究過程何其像呀。案發現場就是的我們能採集的到的樣本,案發現場的蛛絲馬跡便是統計學計算得到的樣本均數。數據背後是什麼?背後必然有相應的規律導致這一現象的發生。醫學研究人員應該為此感到高興。當我們能從一個雜亂無章的現場識別背後的罪犯時,這不是激動人心的時刻嗎?統計學是數學嗎?這是困擾所有學習統計學的人。針對這一問題,有些人認為,統計學分析核心內容均為數學運算,根據數學公式去產生所需要的均數、標準差、百分數;另外則有人認為,統計學就是概率,它總是在討論總體的發生概率(的確,統計學非常重要的指標P值就是關於概率學的概念)。這兩類說法都不是很準確。
統計學並非數學,兩者存在著一定的區別。統計學不是數學,學習難度沒有數學那麼難。概率論確實是數學的一部分,統計學也非常倚重於概率學。但是,統計學並非概率學。一方面,概率論只是基於總體層面進行理論推到和運算,是數學演算和分析,並不涉及樣本及基於樣本推斷總體的邏輯思維。另外一方面,現代統計學誕生的時間比概率論理論早了半個世紀。概率論還在發展萌芽中時,現代統計學就藉助其基本樸素的思想----發生可能性發展了現代統計學的統計推斷思想。數學是一種演繹的思想,從理論的公式來,到理論的公式去,即公式證明公式,最終人類用公式來指導自然科學的發展。比如,愛因斯坦的E=MC2公式。這是20世紀偉大的物理學家愛因斯坦基於其它數學和物理學理論演繹出來的新的真理性的公式。它揭示客觀世界的一個規律是質量乘以光速的平方等於能量。這一公式具有跨時代的指導意義,它推動了20世紀核工業的發展,譬如核電站的建設與發展,核武器的研究與發展。因此,數學的公式意味著真理,它科學地反映了客觀世界的規律。它具有指導性,是現代自然科學發展的根本性源泉。但是,絕大多數客觀世界的規律不像數學「1+1=2」恆等不變。比如,天氣預報對於明天的判斷、高血壓治療藥物對於一名高血壓患者的治療效果,都是確定的。可能所有人高血壓患者中, 55.0%的比例有效果,但是將近一半的患者藥物效果不佳。這一總體人群的治療效果無法用公式推導產生,也無法直接測量,只能被猜測,基於樣本的特徵推斷產生。因此,統計學與數學之間存在著非常明顯的區別。統計學是一種歸納。它無法直接計算,但它往往通過匯總真實的數據(而非理論公式)來猜測總體的信息(而非計算),而歸納的總體存在著一定不確定性。數學和統計學上述區別導致兩者在應用上存在著明顯的差異。數學主要用於宏觀的指導,比如愛因斯坦的公式,它能夠揭示核物質的理論產能結果。但是,實際上,一公斤的核物質,產生的能量不嚴格等於MC2,其實每個類型的核反應堆產生的能量是不確定的,但相同類型的核反應堆產生的能量遵守一定的自然規律,它可以通過統計分析探究得到。因此,統計學在應用層面更為細緻和微觀。統計學作為發現事件真相的科學方法,其整個過程和抽樣這一動作緊密結合,難以分割。統計學過程實際上很大程度上是一個抽樣過程,任何的統計研究都是如此。統計學研究利用了一小部分群體,也就是基於樣本推斷總體。這一過程看似是研究人員順手看到信息來猜測總體,似乎很簡單。實際則不然,統計學過程存在著一個複雜的抽樣過程。要去猜總體,一個重要的舉措就是精心準備的樣本。我們看得的,順手拿到的,其實不是好的樣本。因此,高質量的統計研究,首先就是要拿到高質量的樣本。任何統計研究項目,其核心內容就是抽樣研究。既然是抽樣研究,研究人員需要認真考慮:什麼是好的樣本?好的樣本,指的是,能夠代表總體的樣本。統計研究核心任務是猜測總體,「卡脖子」的情況便是樣本是否有代表性。具有代表性的樣本,則推斷產生的總體和實際情況相差無幾;沒有代表性的樣本,則將得到有偏的總體。但是,好的樣本就需要精心準備,精心設計,精心實施,都非易事。因此,統計研究不是那麼輕鬆、簡單的數據工作,而是一項複雜的系統工程。為實現樣本的代表性,統計研究需要解決兩個關鍵問題。第一,什麼方式抽樣才能得到代表性樣本;第二,樣本量是多大。這兩個問題,是當前任何統計學研究都無法迴避的事情。任何的統計研究,研究的對象必然要千挑萬選,考慮包括且不僅限於以下內容:抽樣的方法、具體抽樣的過程、抽樣的誤差、各亞組人群的比例、等比例還是等誤差?抽樣的分層數、隨機數字的產生方法等。整個過程嚴謹細緻,其抽樣結果真正代表統計研究希望探討的目標總體群體。同樣重要的是樣本量的考慮。樣本量的多少直接決定整個研究項目的成功與否。若研究者未採納相對科學的樣本量測算方法,則會陷入迷思:我的研究項目到底需要多少樣本量。因為,過低的樣本量,會導致統計分析很可能得不到所期望的陽性結果(P<0.05), 意味著整個項目半途而廢;過高的樣本量,那麼項目的人財物投入將面臨嚴重的考驗。因此,一個高質量的統計研究,樣本量是無法繞開的坎。根本而言,考慮統計分析不僅是要認真考慮分析技術的問題,更重要的是,必須認識它本身不僅是一個數據分析問題,更是抽樣研究的問題。這一思維必須建立起來,否則任何研究都將失去統計學的真正內涵。統計學是經濟學的理念,是目前學習統計學的人基本缺乏的基本思維方式。統計學為什麼和經濟學劃等號了呢?經典的經濟學主要是理性主義經濟學,它是一門研究人類如何將有限或者稀缺資源進行合理配置,從而實現資源價值最大化的科學。統計學研究亦是如此,它是合理分配科研人員的智力、時間和資金來有效發現事物運行規律,實現發掘真理的過程。統計學不是數學。數學研究者只要一紙一筆,甚至是評價大腦思考就能完成它的偉大證明過程,甚至計算機都不需要。近幾年,一個非常著名的華人科學家張益唐(1955-),他初步證明了困擾全世界科學家幾十年的「弱孿生素數猜想」。據其介紹,這一證明的主要思考過程,是他在朋友家院子裡等待觀看野生梅花鹿現身的時間內完成。英國數學家安德魯.懷爾茲,躲在自家閣樓15年,經過長年的思考和演算最終成功完成費馬大定理的證明。然而,統計學必須藉助於龐大的客觀世界,將人、動物、環境、計算機等元素整合在一起,才能完成統計過程。它與其它社會運動一樣,整個過程將會產生諸多成本,這些成本是必須的,是真相發現過程必須支付的,統計學研究須在人力、物力、財力的共同支撐下才能實現。因此,統計學研究必須要儘量控制成本,用儘量小的成本來發現事物背後的真相,它是具有較好成本效益的一種方法學。統計學控制成本的方式便是抽樣,它基於小規模樣本而不是直接探討總體。它的思維方式是,採用研究需要的最小樣本量,實現發現社會的運作規律的目標。這與經濟學思維方式不謀而合。為了實現這一目標,統計學研究必須要妥善分配資源,想方設法採取合理簡約的方式來實現抽樣和數據採集,採用精緻的模型來規避由於簡易化抽樣調查過程帶來的一些缺陷。因此,統計學學習人員,必須要了解甚至是掌握一些精緻的統計學方法。這有利於減少成本而仍然實現相應的統計分析目標。很遺憾的是,當前一些研究沒把統計學研究視為一種經濟學過程,而是認定為一種醫學過程的點綴。舉個例子,近幾年,有國內醫學研究團隊基於全國大範圍50萬人群隊列進行研究與分析,探討影響中國人群健康的主要飲食、環境、行為因素。由於人群規模極其龐大,研究成果連續在國際頂級期刊《新英格蘭醫學雜誌》、《柳葉刀》雜誌發表了多篇學術論文。學界和人民為之驕傲、感動,這是中國原創性的成果。然而,從經濟學角度來看,這並非值得提倡的事情,這是違背統計學研究思維的事情。為什麼?從發表論文角度,醫學研究人群規模越大,耗費資金越多,錄用雜誌等級將越高。50萬的人群規模,數以億計的科研經費,全世界範圍都屈指可數,必然有大概率的機會刊登頂級雜誌。但是,從研究結果來看,10000規模人群、1000萬人民幣的投入同樣可以獲得相似的結果,差別在於錄用論文的期刊,不再是《柳葉刀》,而是《柳葉刀》子刊。看起來雜誌有差別,但是統計效果完全一樣。發表《柳葉刀》雜誌,不是說就能夠有跟高概率獲得諾貝獎,實際上大多數諾貝獎都沒有頂級雜誌錄用的論文作為支撐。從經濟學角度來看,50萬人群的研究項目,只不過是浪費國家資源,不屬於真正的統計學研究。這些學者只不過是在積累和提升個人榮譽,迎合國內虛榮膨脹的學術氛圍罷了。統計學分析的主要目標是發現真相,探索世界事物運行的規律,常規的方法包括假設檢驗、回歸分析兩大類。這些統計方法發現了何種真相,探索獲得了哪些規律?總結來說,醫學統計學期望在其它學科的共同努力下,闡釋事物屬性(變量)與屬性(變量)之間的關係,特別是是因果關係。無論是利用假設檢驗方法評價差異性,還是利用回歸技術探討影響因素,統計學無不在證明兩類屬性或變量之間到底有沒有關係,甚至是因果關係。譬如,評價人群適度飲酒(100g-200g酒精每周)與不飲酒人群在十年內全人群死亡率的差異。比較兩類人群的差別,探討兩組率的差異性,採用的統計學方法是卡方檢驗。實際上,這一差異性的探討,是在進行關聯性的探討,也就是論證兩個變量----飲酒量和死亡情況----因果關係。我們可能會學習道卡方檢驗是用來探討組間差異性,t檢驗、F檢驗都是如此,其實他們都是在探討變量和變量的關聯性。相關與回歸分析方法,其關聯性研究的意圖更為直接。相關分析主要探討變量與變量的關聯性強度,而回歸分析則是單方向探討原因變量對結局變量的影響程度。譬如,我們可以將人群的健康結局(死亡情況)作為結局變量,飲酒作為原因變量,構建統計回歸分析模型,探討飲酒量是否是一個影響因素。換言之,適度飲酒和不飲酒人群相比,其對死亡率的影響影響程度多大。因此,作為統計學兩大分析方法,差異性的假設檢驗方法和關聯性方法都從各自角度探討變量與變量之間的關聯性。在更多的場合下,結合醫學科研設計方法,利用複雜的統計技術,在探討醫學措施、醫學有關因素與健康結局的因果關係。統計學學習者一定要清醒認識到,當大部分的醫學研究都在探討因果關聯性情況下,在你面臨醫學研究問題時,你的統計學方法可否有效排除幹擾,嚴謹、科學地證實它們的因果關係呢?如果不能,研究結論必然不可信、不可靠、無說服力,也缺乏科學價值。本篇到此結束,感謝諸位內心閱讀,有關切的問題可以留言或者加微信號。歡迎分享本人長篇原創!

歡迎關注本公眾號,我們是資源的搬運工,所有科研資源全部免費下載:

1.  醫學統計學習全套視頻,妙趣+高級+SPSS+測試題,讓你從入門到精通!

2.  重磅資源:100本「臨床試驗與統計學方法」英文書籍大放送!

3.《中國統計年鑑》1978-2019,巨量呈現40年全國各行業指標(包括衛生、人口在內)!

4.  最新!2019年衛生健康統計年鑑來了!2006-2019中國衛生統計年鑑合集下載

5.  公共衛生研究必備:5次國家衛生服務調查100萬居民分析報告

6.  重磅推薦:全網最全的醫學統計相關軟體,免費下載,均已破解。

7.  如何製作與分析量表?中英文權威書籍來幫忙。

8. 絕對乾貨滿滿!「2019年真實世界研究杭州培訓班」 6講PPT可以下載了!

9. 最新Win和MAC版統計軟體SPSS 26.0、Stata16.0和Graphpad prism8.0

10.精選R語言入門學習資源:視頻+文檔,初學者者必備!


相關焦點

  • 統計學是什麼?| 統計學七支柱
    下文節選自《統計學七支柱》, 已獲人郵圖靈許可, [遇見數學] 特此表示感謝「統計學是什麼?」早在1838年就有人提出過這個問題(與英國皇家統計學會有關),此後這個問題又被反覆提起。多年來,鐵打的問題和流水的答案已成為該討論的特點。綜合問題和答案可以看出,持續的疑問源於,統計學並不是一個單一學科。
  • 你真的懂了什麼是統計學嗎?其實統計學也是科學思維的訓練
    七年之後,為了不再繼續大學時代的噩夢以及洗刷多年來的恥辱,伴隨著碩士研究生公共基礎課網絡教學新試點的步伐,我成為了一個完全意義上的統計學「自學人」,這聽起來難免有那麼點諷刺。這期間,看視頻、做習題和與小夥伴兒的互相討論成為了我學習的日常,在接近兩個月的學習過程中我似乎又重拾了對於醫學統計學的信心。
  • 2001.6:關於統計學的性質與發展問題
    「什麼是統計學,怎樣發展統計學」在我國統計學界是一個有爭議的問題。統計學者對統計學的性質問題歷來眾說紛紜,遠在1869年的第七次國際統計會議上,在討論關於統計學的定義時,據說竟有180餘種之多。
  • 機器學習與統計學的爭論,有意義嗎?
    與其他任意背景下的進化一樣,用於機器學習的統計學方法,其進化史也是在「物競天擇」的壓力下所形成的。 與統計學家相比,機器學習研究者往往很少關注:理解算法背後所執行的所有具體動作。這一點其實非常重要,並且越來越重要。
  • 統計學專業介紹,專業說
    ,統計學是個什麼樣的專業、需要學習哪些課程、以後就業前景如何。作為一個高度跨學科的專業,統計學具有很強的交叉性,幾乎所有的科學領域都有統計學應用的身影,同時各種科學領域的研究問題也促進了統計理論的發展和新方法的產生。同時,它的應用性也很強,統計學的研究通常從實際應用問題開始,經過加工提鍊形成概率統計模型,最終能夠指導實踐。一個問題的完整解決往往需要設計試驗、數據處理分析、撰寫總結報告等。
  • 統計學公開課大盤點
    2.2 可汗學院公開課:統計學 這門課是統計學入門課程,將涵蓋統計學所有的主要知識,包括:隨機變量、均值方差標準差、統計圖表、概率密度、二項分布、泊松分布、正態分布、大數定律、中心極限定理、樣本和抽樣分布、參數估計、置信區間、伯努利分布、假設檢驗和p值、方差分析、回歸分析等內容。
  • 「超智·挖坑」簡單談談統計學
    統計學是一門關於收集數據、分析數據、並根據數據進行推斷的科學和藝術。學習統計學,了解統計學思想,就能夠對於這些現象有更清晰的認識。2、統計學,指導我們改造世界的實踐工作對很多人的工作來說,會用Excel就可以了,很多人也會說「我會統計,我懂統計學」。為此,你需要了解一個基礎知識:統計學到底研究什麼?
  • 「深度學習與統計學理論」研討會成功舉辦
    「深度學習與統計學理論」研討會成功舉辦 2020-11-26 17:30 來源:澎湃新聞·澎湃號·政務
  • 統計學知識大梳理(終極篇)
    現在職場上的人們,誰不要給領導匯報工作,或者團隊之間討論問題。當你匯報和討論的時候,光說,「我覺得」,「我保證」,「根據我的經驗」,這些個詞太沒有信服力了。必須說數據,擺事實。利用清晰的數據傳達具有強有力說服的信息。體驗一種與眾不同的思維方式。很多人的思維方式,非黑即白。但世界上的很多事物並不是非黑即白。統計學的思維就是永遠不肯定這個世界到底是什麼樣子的。
  • AP統計學是什麼?看這個就知道
    許多同學對ap統計學知道的都不多,三立小編現在就要向我們介紹ap統計學的具體內容和學習辦法 。ap統計學數據分析 整理收集到的數據。這些數據在沒有收拾前許多又雜亂。要用合適的圖表對數據進行分類處理,讓數據變得愈加直觀、可視化。
  • 大學統計學白讀了?科學家聯名反對「統計學意義」
    一般認為P≤0.05或者P≤0.01就有顯著性差異,研究就有統計意義。統計學上無顯著的結果並不能「證明」零假設;統計上顯著的結果也沒有「證明」某些其他假設。事實真的是這樣嗎?他們的這篇文章名為《科學家們起來反對統計學意義》。
  • 【統計學】讓人糾結的P值
    計算什麼,計算這兩組因為抽樣誤差產生這種差異的概率不超過5%(任何小於5%的概率)。統計學經過大量研究認為,5%是一種小概率事件,因為相同的概率不超過5%,屬於小概率事件,那麼我們就說這兩組數據存在顯著(顯著只是統計學機率,不是相差多少)差異。請注意,統計學分析的結果是兩組差異的可能性P值大小,並不是相差的多少,但是我們現在對P值非常認真。
  • 大數據下的「應用統計學」與「經濟統計學」,如何抉擇?
    本文,將對與統計學有關的「應用統計學」與「經濟統計學」兩個專業進行對比分析。應用統計學是研究現象總體數量關係的方法論科學,是對搜集得到的數據進行分析整理、從而得出所需要的有效信息的數學類學科,是理學門類統計學學科下的一個專業。應用統計學專業研究如何有針對性地收集、整理和分析大量的數據,研究數據變化所涵蓋的真正含義,把大量雜亂無章的數字轉化成圖表等更為直接和一目了然的記錄方式,由此發揮數據真正的價值。
  • 院校篇丨統計學類:精準識別統計學的優勢領域
    寫在前面統計學專業主要在綜合類、財經類、師範類和理工類院校,專業類院校的統計學優勢與專業基本一致,綜合類院校的統計學優勢先看院系再看師資。這一講我們開始介紹統計學專業的院校情況。統計學專業在實際應用中是一種工具性應用,需要與各行各業的具體工作相結合。
  • 機器學習才不只是統計學的美化!
    整個課程中,我的同學和我成功地訓練了癌組織圖像分割,神經網絡機器翻譯,基於字符的文本生成和圖像樣式轉換,所有這些都只使用了過去幾年發明的機器學習的最新技術。但是,如果你問我,或是那個班級的大多數學生,如何計算人口方差,或者定義邊緣概率,我們對此一無所知。這似乎就與人工智慧僅僅是對古老統計技術的重塑的說法有些不符了。
  • 你需要掌握的AP統計學答題事項
    前往美國留學的同學一般都不會錯過了解AP考試的機會,AP考試也就是AP統計學考試對於大家申請國外大學的還是很有幫助的, AP考試對於申請或者說對於大家學習又有什麼優勢,>三立小編整理相關關於AP考試也就是AP統計學答題事項的內容,幫助大家更好地了解和進行AP考試課程的學習。
  • 乾貨|統計學的P值危機
    今年3月份Nature發表了三個統計學家的一封公開信《科學家們起來反對統計學意義》(Scientists rise up against statistical significance),標題如戰鬥檄文令人振奮。
  • 徵服統計學01|什麼是統計分布?
    ❝之前讀書期間學的概率統計什麼的都忘得七七八八了,工作中也常在用,一直想系統再學習下,苦於無好的教材,最近發現了一個有趣的統計學課程(「 StatQuest!」 )現在決定站在巨人的肩膀上系統梳理一遍統計學基礎知識,希望能學到最後~~~。 StatQuest!
  • 資源| 自學數據科學&機器學習?19個數學和統計學公開課推薦
    現在就開始學習吧!什麼樣的課程適合你?為了幫助你瀏覽這些課程,我將課程分為初級、中級以及高級三類,分別針對不同學習者。在深入學習前,請選擇你的數學專業水平。我添加了修習每個課程之前必須做的功課,以資參考。學習完預備課程才能更好地理解後續課程,這樣的課程很少。所以,你一定要確定了解這些課程主題或者上過這些課。
  • 做數據分析不懂統計學很可怕!
    原標題:做數據分析不懂統計學很可怕! 做數據分析最最最基礎的就是統計學,工具的操作只是幫你快速業務流程梳理出關鍵性的分析和指標體系,那麼這些體系和指標的度量和之間的關係就要依靠統計學去界定和規範 我們經常看到某某行業,某某公司的平均工資是每年20萬什麼的,然後如果恰恰自己又在這個行業中,看看自己的工資條,有些人會不會感到有點迷惑和不滿?