統計學知識闖關

2020-08-09 數據派THU

來源:數據分析1480

本文長度為2800字,建議閱讀8分鐘

闖下這十關,收穫新知識!

第1關:自由度是什麼?怎樣確定?

答:(定義)構成樣本統計量的獨立的樣本觀測值的數目或自由變動的樣本觀測值的數目。用df表示。

自由度的設定是出於這樣一個理由:在總體平均數未知時,用樣本平均數去計算離差(常用小s)會受到一個限制——要計算標準差(小s)就必須先知道樣本平均數,而樣本平均數和n都知道的情況下,數據的總和就是一個常數了。

所以,「最後一個」樣本數據就不可以變了,因為它要是變,總和就變了,而這是不允許的。

通俗點說,一個班上有50個人,我們知道他們語文成績平均分為80,現在只需要知道49個人的成績就能推斷出剩下那個人的成績。你可以隨便報出49個人的成績,但是最後一個人的你不能瞎說,因為平均分已經固定下來,自由度少一個。

第2關:正態分布檢驗中自由度問題

答:在正態分布檢驗中,這裡的M(三個統計量)為:N(總數)、平均數和標準差。

因為我們在做正態檢驗時,要使用到平均數和標準差以確定該正態分布形態,此外,要計算出各個區間的理論次數,我們還需要使用到N。

所以在正態分布檢驗中,自由度為K-3。

第3關:t檢驗

答:t檢驗適用於兩個變量均數間的差異檢驗,多於兩個變量間的均數比較要用方差分析。

無論哪種類型的t檢驗,都必須在滿足特定的前提條件下: 正態性和方差齊性,應用才是合理的。這是因為必須在這樣的前提下所計算出的t統計量才服從t分布,而t檢驗正是以t分布作為其理論依據的檢驗方法。

t檢驗是目前醫學研究中使用頻率最高,醫學論文中最常見到的處理定量資料的假設檢驗方法。

第4關:統計學意義(P值)

答:結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,P值為結果可信程度的一個遞減指標,P值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠指標。

P值是將觀察結果認為有效即具有總體代表性的犯錯概率。如P=0.05提示樣本中變量關聯有5%的可能是由於偶然性造成的。即假設總體中任意變量間均無關聯。

我們重複類似實驗,會發現約20個實驗中有1個實驗,我們所研究的變量關聯將等於或強於我們的實驗結果。(這並不是說如果變量間存在關聯,我們可得到5%或95%次數的相同結果,當總體中的變量存在關聯,重複研究和發現關聯的可能性與設計的統計學效力有關。)

在許多研究領域,0.05的P值通常被認為是可接受錯誤的邊界水平。

第5關:如何判定結果具有真實的顯著性?

答:在最後結論中判斷什麼樣的顯著性水平具有統計學意義,不可避免地帶有武斷性。換句話說,認為結果無效而被拒絕接受的水平的選擇具有武斷性。

實踐中,最後的決定通常依賴於數據集比較和分析過程中結果是先驗性還是僅僅為均數之間的兩兩比較,依賴於總體數據集裡結論一致的支持性證據的數量,依賴於以往該研究領域的慣例。

通常,許多的科學領域中產生P值的結果≤0.05被認為是統計學意義的邊界線,但是這顯著性水平還包含了相當高的犯錯可能性。結果 0.05≥P>0.01被認為是具有統計學意義,而0.01≥P≥0.001被認為具有高度統計學意義。但要注意這種分類僅僅是研究基礎上非正規的判斷常規。

第6關:所有的檢驗統計都是正態分布的嗎?

答:並不完全如此,但大多數檢驗都直接或間接與之有關,可以從正態分布中推導出來,如t檢驗、F檢驗或卡方檢驗。這些檢驗一般都要求:所分析變量在總體中呈正態分布,即滿足所謂的正態假設。許多觀察變量的確是呈正態分布的,這也是正態分布是現實世界的基本特徵的原因。

隨著樣本量的增加,樣本分布形狀趨於正態,即使所研究的變量分布並不呈正態。

第7關:假設檢驗的內涵及步驟

答:在假設檢驗中,由於隨機性我們可能在決策上犯兩類錯誤。

一類是假設正確,但我們拒絕了假設,這類錯誤是「棄真」錯誤,被稱為第一類錯誤;

一類是假設不正確,但我們沒拒絕假設,這類錯誤是「取偽」錯誤,被稱為第二類錯誤。

一般來說,在樣本確定的情況下,任何決策無法同時避免兩類錯誤的發生,即在避免第一類錯誤發生機率的同時,會增大第二類錯誤發生的機率;或者在避免第二類錯誤發生機率的同時,會增大第一類錯誤發生的機率。人們往往根據需要選擇對那類錯誤進行控制,以減少發生這類錯誤的機率。大多數情況下,人們會控制第一類錯誤發生的概率。

發生第一類錯誤的概率被稱作顯著性水平,一般用α表示,在進行假設檢驗時,是通過事先給定顯著性水平α的值而來控制第一類錯誤發生的概率。

在這個前提下,假設檢驗按下列步驟進行:

  • 確定假設;
  • 進行抽樣,得到一定的數據;
  • 根據假設條件下,構造檢驗統計量,並根據抽樣得到的數據計算檢驗統計量在這次抽樣中的具體值;
  • 依據所構造的檢驗統計量的抽樣分布和給定的顯著性水平確定拒絕域及其臨界值;
  • 比較這次抽樣中檢驗統計量的值與臨界值的大小,如果檢驗統計量的值在拒絕域內,則拒絕假設。

到這一步,假設檢驗已經基本完成,但是由於檢驗是利用事先給定顯著性水平的方法來控制犯錯概率的,所以對於兩個數據比較相近的假設檢驗,我們無法知道那一個假設更容易犯錯,即我們通過這種方法只能知道根據這次抽樣而犯第一類錯誤的最大概率(即給定的顯著性水平),而無法知道具體在多大概率水平上犯錯

計算 P值有效的解決了這個問題,P值其實就是按照抽樣分布計算的一個概率值,這個值是根據檢驗統計量計算出來的。通過直接比較P值與給定的顯著性水平α的大小就可以知道是否拒絕假設,顯然這就代替了比較檢驗統計量的值與臨界值的大小的方法。

而且通過這種方法,我們還可以知道在p值小於α的情況下犯第一類錯誤的實際概率是多少,p=0.03<α=0.05,那麼拒絕假設,這一決策可能犯錯的概率是0.03。需要指出的是,如果P>α,那麼假設不被拒絕,在這種情況下,第一類錯誤並不會發生。

第8關:卡方檢驗的結果,值是越大越好,還是越小越好?

答:與其它檢驗一樣,所計算出的統計量越大,在分布中越接近分布的尾端,所對應的概率值越小。如果試驗設計合理、數據正確,顯著或不顯著都是客觀反映。沒有什麼好與不好

第9關:在比較兩組數據的率是否相同時,二項分布和卡方檢驗有什麼不同?

答:卡方分布主要用於多組多類的比較,是檢驗研究對象總數與某一類別組的觀察頻數和期望頻數之間是否存在顯著差異,要求每格中頻數不小於5,如果小於5則合併相鄰組。

二項分布則沒有這個要求。如果分類中只有兩類還是採用二項檢驗為好。如果是2*2表格可以用fisher精確檢驗,在小樣本下效果更好。

第10關:如何比較兩組數據之間的差異性?

答:從三個方面來回答:

  • 設計類型是完全隨機設計兩組數據比較,不知道數據是否是連續性變量?
  • 比較方法:如果數據是連續性數據,且兩組數據分別服從正態分布和方差齊性檢驗,則可以採用t檢驗,如果不服從以上條件可以採用其他檢驗。
  • 想知道兩組數據是否有明顯差異?不知道這個明顯差異是什麼意思?是問差別有無統計學意義(即差別的概率有多大)還是兩總體均數差值在哪個範圍波動?如果是前者則可以用第2步可以得到P值,如果是後者,則是用均數差值的置信區間來完成的。

作者:黎嫣

整理自:https://www.cnblogs.com/Acceptyly/p/3930006.html

本文為轉載分享,若侵權請聯繫後臺刪除

編輯:黃繼彥

校對:楊學俊

—完—

想要獲得更多數據科學領域相關動態,誠邀關注清華-青島數據科學研究院官方微信公眾平臺「 數據派THU 」。

相關焦點

  • 統計學知識大梳理(終極篇)
    既然統計學這麼厲害,這麼牛逼,這麼重要。作為統計學專業的我,我就忍不住要給大家好好梳理下統計學的知識框架,並且帶著大家一點一點的學習下統計學和概率論的知識。在今後的關於統計學的文章中,我努力實現以下幾個小目標。
  • 深圳國防知識闖關大賽即將開賽
    來源:讀特深圳國防教育教育促進會9月1日宣布,受疫情影響,原本以越野對抗賽為主第四屆全民軍體賽將有重大調整,大型戶外活動將改為以國防知識闖關大賽為主的線上活動,國防知識闖關大賽定於本月19日正式開賽。據了解,此次挑選了以往全民軍體賽中最需要理論知識儲備的「軍事理論知識考核」科目獨立作為線上國防知識闖關大賽。
  • 統計學基礎知識
    本篇歸納統計學基礎知識,包括一些基礎理論、概念、方法等,作為數據分析的前置知識。
  • 「上財四史」知識競答等你來闖關!
    「上財四史」知識競答等你來闖關!進入答題界面,7個章節共15道知識競答闖關等你來! (小貼士:仔細讀題,答案也許就藏在題幹中)知識競答闖關成功後,提交500字以上的主題感言(告訴我們自己的學習感受,或是身邊的相關小故事等等),與我們分享吧!
  • 想學統計學需要掌握哪些知識?
    前期需要:微積分統計學知識較深,用的地方非常廣,還是希望說一下您想做什麼用。是在工程上用?還是在臨床試驗上用?還是基因組排序上用?處理金融資產實現無風險套利時用?亦或是在法律統計上用?曾經統計過我們這一級同學對這類問題的回答,大多數都回答「統計是工具,是一種思維方式,需要和其他的知識或領域結合……巴啦巴啦」(當然這也是由於我們這一級的傢伙,80多個人,有50多人選修了第二專業,為了側面烘託自己的優勢也會這麼去說).
  • 數據分析必備——統計學入門基礎知識
    ——數據說·夢想季 導讀:要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。
  • 線下「闖關」線上答題樂學網絡安全知識
    線下「闖關」線上答題樂學網絡安全知識     樂學習  本報訊(記者 付真卿)在博覽會上,眾多科研機構和科技公司展示了網絡安全技術,但「網絡安全靠人民」,要有效防範各類網絡安全違法犯罪行為,還得提高個人網絡安全知識水平和防範意識。
  • 健偉教育:流行病學和醫學統計學基本知識
    流行病學和醫學統計學是預防醫學中的主幹學科,其基本概念、基本知識和基本技能的學習和掌握對健康管理師科學思維方式的培養、知識結構的完善和專業工作能力的提高有重要意義。落腳點是為預防和控制疾病,促進健康提供科學的決策依據流行病學思維導圖對於第一節流行病學的基本知識的學習,同學們重點掌握流行病學的基本概念;常用指標中發病率、患病率、死亡率的計算、相對危險度的意義這幾個部分。
  • 【入門】數據分析必備——統計學入門基礎知識
    ——數據說·夢想季導讀:要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。
  • 申請英美研究生你必須知道的知識——統計學
    統計學的分支統計學的研究大致可以分為兩類,一類偏向於理論統計學,另一類偏向於應用統計學。其中:1.1 理論統計學理論統計學從純理論的角度,對統計方法加以推導論證,核心是統計推斷問題,實質是以歸納方法研究隨機變量的一般規律。
  • 陌陌新上線「答題闖關」對戰小遊戲 漲知識得現金紅包
    原標題:陌陌新上線「答題闖關」對戰小遊戲 漲知識得現金紅包   3月19日,移動社交平臺陌陌上線「答題闖關拿紅包」對戰遊戲。用戶參與答題對戰,闖關成功即可參與瓜分百萬獎金。
  • 統計學知識梳理
    學習知識亦是如此,一個概念衍生出兩個概念,兩個概念演化出更小的子概念,接著衍生出整個知識體系。筆者結合自己對統計學和概率論知識的理解寫了這篇文章,有以下幾個目標目標一:構建出可以讓人理解的知識架構,讓讀者對這個知識體系一覽無餘目標二:盡l量闡述每個知識在數據分析工作中的使用場景及邊界條件
  • 看包拯如何利用統計學知識斷案——觀《開封奇案》有感
    我個人一直認為,不要把統計學只作為一門學科看待,統計學是一種方法、技術、藝術,在所有的日常生活、管理、科研、工作等等幾乎都能用到。
  • 經濟統計學屬於經濟學類還是統計學類?
    是屬於經濟學類還是統計學類呢?就業前景和形勢又是怎樣的呢?下面一起來解讀經濟統計學專業吧!  經濟統計學屬於經濟學類專業,將經濟學與統計學結合在一起。統計學是收集、描述、分析和研究經濟數據的理論和方法。經濟統計是統計學在經濟領域中的應用。
  • 統計學基本知識
    (二)統計學中的重要概念  1.變量  研究者對每個觀察單位的某項特徵進行觀察和測量,這種特徵稱為變量,變量的測得值叫變量值(也叫觀察值)。統計學中的許多結論是帶有概率性質的,通常一個事件的發生小於5%,就叫小概率事件。  6.誤差  統計上所說的誤差泛指測量值與真值之差,樣本指標與總體指標之差。主要有以下兩種:  (1)系統誤差  指數據搜集和測量過程中由於儀器不準確、標準不規範等原因,造成觀察結果呈傾向性的偏大或偏小,這種誤差稱為系統誤差。  特點:具有累加性。
  • 「神獸的暑假」|才智小天地--「思維魔方」邏輯知識大闖關
    闖關答題模式,共計30關(30題),每關一題,全部題目回答正確即「闖關成功」,闖關成功可獲得一次抽獎機會,每個讀者證及同一手機號只能領獎一次,獎品數量有限,先到先得。微信端1.掃描下方二維碼,觀看《思維魔方》小視頻。
  • 統計學知識詳解,數據分析也可以很簡單
    點擊關注 異步圖書,置頂公眾號每天與你分享 IT好書 技術乾貨 職場知識
  • 數據分析必備——統計學入門基礎知識 - 人人都是產品經理
    編輯導語:不論在什麼崗位,都要懂得本崗位的基礎知識,打牢基礎後面才能穩步發展;數據分析也是如此,數據分析必須要掌握統計學的基礎知識;本文是作者分享的關於統計學入門基礎的知識,我們一起來學習一下吧。要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!
  • 統計學|統計學考研就業到底怎麼樣?
    其中用到了大量的數學及其它學科的專業知識,它的使用範圍幾乎覆蓋了社會科學和自然科學的各個領域。統計學有兩個學科門類招生:經濟學和理學我先說經濟學下面統計學,它分一級學科招生和二級學科招生。從各大招生單位來看,統計學招生單位集中在哪?主要集中在!
  • 全區毒品預防知識網絡挑戰賽等你來闖關
    為落實自治區禁毒辦《關於舉辦2020年全區毒品預防知識網絡挑戰賽活動的通知》,提高全區群眾禁毒知識知曉率和參與度,依託「中國禁毒」微信平臺,商都縣禁毒辦於12月1日到12月15日,在「內蒙古禁毒」微信平臺舉辦毒品預防知識網絡挑戰賽活動。