1. 數理統計
數理統計是伴隨著概率論的發展而發展起來的一個數學分支,研究如何有效的收集、整理和分析受隨機因素影響的數據,並對所考慮的問題作出推斷或預測,為採取某種決策和行動提供依據或建議。
根據上面描述,數理統計可分為描述統計和推斷統計。描述統計的任務是搜集資料,進行整理、分組,編制次數分配表,繪製次數分配曲線,計算各種特徵指標,以描述資料分布的集中趨勢、離中趨勢和次數分布的偏斜度等,主要內容包括:數據採集、數據整理及數據描述三個部分。推斷統計是在描述統計的基礎上,根據樣本資料歸納出的規律性,對總體進行推斷或預測,其中推斷方法包括參數估計、假設檢驗和方差分析,預測方法包括回歸分析和時間序列分析。
簡單地說,參數估計是對總體分布中的某個未知參數進行(如正態分布的均值)估計的方法,主要有矩估計法和最大似然估計法;假設檢驗是對參數或者分布先提出一個假設,然後用小概率原理(小概率事件在一次實驗中是不會發生的)檢驗假設是否成立;方差分析是檢驗多個(大於等於2)總體的均值之間是否存在顯著差異,包含單因素方差分析和多因素方差分析;回歸分析是研究兩個或兩個以上變量之間關係的方法,按照自變量和因變量之間的關係類型,可分為線性回歸分析和非線性回歸分析;時間序列分析是將同一變數的一組觀察值,按時間順序加以排列,構成統計的時間序列,然後運用一定的數字方法使其向外延伸,預計未來的發展變化趨勢。
數理統計的的路線圖如下:首先將要研究一個隨機現象(如考察某個湖泊中某種🐟的含汞量)看作一個總體,它對應一個隨機變量X。在實際中,總體的分布是未知的或者知道它具有某種形式(如正態分布),但包含了未知參數(均值或方差)。為了研究總體,可以通過從總體中抽取一部分個體(抽樣或稱數據採集),根據採集的數據,對其進行整理和歸納(統計量)。而在特定假設下,一些統計量往往具有某種分布,如卡方分布,t分布或者F分布(抽樣)。推斷統計就是在上面理論的基礎上對參數進行估計或者先提出假設,再驗證假設是否成立,最後根據抽樣結果進行決策或者預測。
2. 數理統計與概率論
概率論是一門數學學科,是一套公理化的純數學理論,它有嚴格的公理基礎,裡面的結論都是用嚴格的數學推導做出來的,如果可能的話大概全部可以轉化為形式邏輯的符號語句。
相對來說,統計學就更像一門經驗科學了,它主要是對現實生活中的數據進行分析,找規律,然後對總體進行推斷或者預測。在找規律的過程中,有時候就可以用概率論的語言去描述,比如一堆數據滿足什麼分布,或者看上去像是某個概率分布,然後用一些檢驗方法(如z檢驗法,t分布檢驗法,卡方檢驗法等)去檢驗所採集數據是否服從該分布,或者參數是否滿足某個範圍。比如,卡方檢驗法用來檢驗某正態分布的方差是否等於或者大於等於某個值。統計學的核心是利用觀測數據(樣本)去推測總體分布或者總體的參數。
CMU大學統計和數據分析及機器學習系的Larry Wasserman教授在他的統計學巨作All of Statistics的序言裡有說過概率論和統計推斷的區別,如下圖所示。
它們之間的區別包括:
打個比方,概率論研究的是一個白箱子,你知道這個箱子的構造(裡面有幾個紅球、幾個白球,也就是所謂的分布函數),然後計算下一個摸出來的球是紅球的概率。而統計學面對的是一個黑箱子,你只看得到每次摸出來的是紅球還是白球,然後需要猜測這個黑箱子的內部結構,例如紅球和白球的比例是多少?(參數估計)能不能認為紅球40%,白球60%?(假設檢驗)。
概率論中的許多定理與結論,如大數定理、中心極限定理等保證了統計推斷的合理性。做統計推斷一般都需要對那個黑箱子做各種各樣的假設,這些假設都是概率模型,統計推斷實際上就是在估計這些模型的參數。
概率論就好比是給你一個模型,你可以知道這個模型會產生什麼樣的數據;而統計則是給你一些數據,你來判斷是由什麼樣的模型產生的。
再從小概率事件看看兩者的關係:概率論會說小概率事件必然發生。因為隨著試驗次數的增多,該事件會發生的期望終會為1。統計則傾向於忽略小概率事件或者認為小概率事件不會發生。例如最大似然估計,估計的就是一個以假設值代替真實值的過程,這個過程一個自然的思想便是認為小概率不會發生,所以我們有充足的理由認為估計是可接受的。
3. 教材推薦
陳希孺院士《概率論與數理統計》(中科大版)為本科非數學、統計類專業編寫,這本書是一本公認的好書。用最直白甚至最日常的語言解釋統計概念與思想,也儘量兼顧了廣度與深度。陳希孺還有一本《數理統計學簡史》值得推薦。
浙江大學 盛驟 謝式千 潘承毅 概率論與數理統計(第四版) /2008-06-01 /7-04
華東師範大學 茆詩松、程依明和濮曉龍《概率論與數理統計教程》(高教版)為本科數學、統計類專業編寫。這本教材的優點是內容非常詳細,缺點則是內容特別詳細。太過詳細的教材對初學者是個坑,很容易陷進細節半天出不來。而且內容太多根本沒有時間全部消化。
George Casella與Roger L. Berger合著的《Statistical Inference》機械工業出版社。從古典概率講起,對基礎概率論、統計推斷、方差分析與回歸模型等都有較細緻的講解,內容非常全面,也有一定的理論深度,並且注意了對當代統計新方法的介紹。這本書是美國很多統計專業graduate school以及本科高年級的教材。起點不是很高,但是內容詳實、全面。例題和習題都很經典,有完整的exercise solution manual。
Peter J. Bickel等著的《Mathematical Statistics——Basic Ideas and Selected Topics》在理論上更深一些,同樣是一本經典著作。