兩種分析方法,求解「用樣本估計總體」問題,大數據時代實用技能

2020-12-13 高考自主學習課堂

1. 知識要點

統計廣泛應用於工作、生活中,如生產管理、影響管理,具有實用性強的特點。即使在當今的大數據時代,統計學的方法仍是數據分析的靈魂。

高中階段學了用樣本估計整體的兩種方法,它們在整個統計過程的位置與作用見下圖:

① (直觀的)頻率分布法——分布表、直方圖、折線圖、莖葉圖

② (量化的)數字特徵法——眾數、中位數、極差、平均數、方差

2. 基本問題說明

一般地,用樣本估計總體的基本問題有:

① 根據已知樣本數據,求解頻率分布表和/或畫出直方圖、折線圖、莖葉圖,以此估計總體的情況。;

② 根據已知樣本數據,求解眾數、中位數、極差、平均數、方差等數字特徵,以此估計總體的情況。

3. 解決問題的一般方法

1) 熟練掌握頻率分布表、直方圖、折線圖、莖葉圖等概念及其求解一般方法

① 畫頻率分布直方圖的一般方法

a) 確定橫坐標

求極差(即一組數據中最大值與最小值的差);定分組數;得每組數據(即組距。注意,兩組之間的邊界值歸入上或下一組都行,但通常不會同時被包含或不被包含!)b) 確定縱坐標

統計頻數;算出頻率;得出縱坐標(即頻率/組距);c) 列頻率分布表(在解答填空或選擇題時,在草稿紙上簡捷完成即可,目的是為了方便檢查和避免犯錯)

統計頻數;計算頻率。d) 畫頻率分布直方圖。

提示1:頻率分布直方圖中小矩形的面積=組距×矩形高度(頻率/組距)=頻率。

提示2:各組頻率之和為1(可利用此點來演算)。

② 莖葉圖的作圖步驟及要求

a) 先莖後葉;

b) 莖有序,葉無序(按數據出現先後順序依次填入即可)

2) 熟練掌握眾數、中位數、極差、平均數、方差等數字特徵的概念與公式。

4. 典型例題

例1 在生產過程中,測得纖維產品的纖度(表示纖維粗細的一種量)共有 100 個數據,將數據分組如表。

(1)完成頻率分布表,並畫出頻率分布直方圖。

(2)估計纖度落在[1.38, 1.50]中的概率及纖度小於1.40的概率是多少?

(3)統計方法中,同一組數據常用該組區間的中點值(例如區間[1.30, 1.34]的中點值是1.32)作為代表.據此,估計纖度的期望。

:(1)頻率分布表如下(提示:注意分組邊界處為一開一閉):

頻率分布直方圖如下:

(2)纖度落在[1.38, 1.50]中的概率約為:

0.30+0.29+0.10 =0.69;

纖度小於1.40的概率約為:

0.04+0.25+0.5×0.30=0.44;

(3)總體數據的期望約為:

1.32×0.04+1.36×0.25+1.40×0.30+1.44×0.29+1.48×0.10+1.52×0.02=1.4088.

講解

① 如還未學到數學期望的概念,可跳過最後一問。不過,也可參照基礎知識中的「加權平均數」概念現學現賣:當統計對象為樣本值、權為其頻率時,此時的加權平均數成為數學期望。

例2 (山東文14)如圖是根據部分城市某年6月份的平均氣溫(單位: "C)數據得到的樣本頻率分布直方圖,其中平均氣溫的範圍是[20.5, 26.5], 樣本數據的分組為[20.5, 21.5), [21.5, 22.5), [22.5, 23.5), [23.5, 24.5), [24.5, 25.5), [25.5, 26.5]. 已知樣本中平均氣溫低於22.5"C 的城市個數為11, 則樣本中平均氣溫不低於25.5"C 的城市個數為___

解:平均氣溫低於22.5℃的頻率,即最左邊兩個矩形面積之和為:

0.10×1+0.12×1=0.22,

所以總城市數(樣本容量)為:

11÷0.22=50,

平均氣溫不低於25.5℃的頻率即為最右面矩形面積為:

0.18×1=0.18,

所以平均氣溫不低於25.5℃的城市個數為:

50×0.18=9.

故所求城市個數為9。

講解

① 本題考查頻率分布直方圖的應用能力,即根據已知頻率分布直方圖,閱讀並利用圖形及其數據來分析和解決問題的能力。

② 根據已知的頻率分布直方圖,可得到以下關係式:

關係式1:頻率=小矩形的面積=組距×矩形高度(頻率/組距)關係式2:頻數=頻率×樣本容量。關係式3:各組頻率之和為1(這點除了用來解題,還可用以驗算)。本題的解題一般方法

逆用關係式「頻數=頻率×樣本容量」先求出樣本容量,再正用該關係式求出所求頻數。提示1:由「頻數=頻率×樣本容量」可變形為「樣本容量=頻數/頻率」,即不同組的頻數/頻率值相等。所以本題也可簡潔地列出以下等式進行求解:11/0.22 = x/0.18。提示2:出題人也可以逆用其它關係式如各組頻率之和為1來進行題設,分析、求解方法與本題類似。因此,只要熟練掌握頻率分布直方圖的概念和特性,無論正用或逆用,均能靈活應用、觸類旁通。本文就不應用舉例了。

例3在最近的10次數學考試中,甲同學的成績分別為82,85,73,65,74,91,83,76, 93, 88;乙同學的成績分別為75,68,73,74,84,83,66,87,77,85, 根據以上數據做甲乙兩個人成績的莖葉圖。

:如圖。

講解

① 莖葉圖的特性

a) 能讀出原始數據(莖葉拼在一起即可)

b) 莖葉圖逆時針旋轉90度,就成了另類直方圖了

c) 莖葉圖具有易修改、易增添、有原始數據等優點(但不適用於數據量大的情形而直方圖適用)

d) 直觀

例4甲、乙兩人在10天中每天加工零件的個數用莖葉圖表示如下圖,中間一列的數字表示零件個數的十位數,兩邊的數字表示零件個數的個位數,則這10天甲、乙兩人日加工零件的平均數分別為___和___。

:(提示:已知莖葉圖的應用,只要能讀懂圖即可解出來。屬送分題,千萬不能算出)

由莖葉圖知,甲加工零件個數的平均數為:

(19+18+20×2+21+22+23+31×2+35)/10=24

乙加工零件個數的平均數為:

(19+17+11+21+22+24×2+30×2+32)/10 = 23

故答案為:24;23.

講解

① 本題為統計數字特徵的基礎應用題型。

② 無論何種解法,都必須先掌握準確理解相關基本概念及其應用的一般思路和方法,然後再根據題意靈活選取合適解題路徑或思路。

③ 本題結論意為:=α+(1-α),即與、之間的接近程度不是由其平均值大小決定的,而是由兩組樣本的數量大小決定。

講解

① 熟練掌握數字特徵公式及其應用與逆用。

例7由正整數組成的一組數據x1,x2,x3,x4,其平均數和中位數都是2,且標準差等於1,則這組數據為______.(從小到大排列)

解得x4=1(捨去)或x4=3,符合題意,由此可得x1=1

故答案為1,1,3,3

溫馨提示:關注百家號「輕快學習課堂」,可查閱更多精彩文章與視頻。

相關焦點

  • 大數據信息分析的方法與工具
    ,不幸的是所有大數據的屬性,包括數量、速度、多樣性等等都是描述了資料庫不斷增長的複雜性。那麼大數據給我們帶來了什麼好處呢?大數據最大的好處在於能夠讓我們從這些數據中分析出很多智能的、深入的、有價值的信息。
  • 高中數學必修三,用樣本估計總體知識點及題型精講精練
    【答案:a=0.30,3.6萬】考法(一) 樣本的數字特徵與頻率分布直方圖交匯1. (2019·遼寧師範大學附屬中學模擬)某校初三年級有400名學生,隨機抽查了40名學生測試1分鐘仰臥起坐的成績(單位:次),將數據整理後繪製成如圖所示的頻率分布直方圖.用樣本估計總體,下列結論正確的是
  • 統計學常用的數據分析方法大總結!
    描述統計是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特徵和隨機變量之間關係進行估計和描述的方法。描述統計分為集中趨勢分析和離中趨勢分析和相關分析三大部分。集中趨勢分析主要靠平均數、中數、眾數等統計指標來表示數據的集中趨勢。例如被試的平均成績多少?是正偏分布還是負偏分布?
  • 教學研討|9.2.4總體離散程度的估計(2019版新教材)
    如果一組數據是總體中全部個體的觀測值,那麼這組數據的方差、標準差和極差就稱為總體的方差、標準差和極差,如果這組數據是樣本觀測值,那麼這組數據的方差、標準差和極差就是樣本的方差、標準差和極差,與用樣本均值估計總體均值的思想類似,可以用樣本方差、標準差和極差估計總體方差、標準差和極差,根據上述分析,確定本節課教學重點:方差和標準差的意義與計算;已知兩組數據的觀測個數、平均數和標準差或方差時
  • 乾貨|統計學常用的數據分析方法大總結
    描述統計描述統計是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特徵和隨機變量之間關係進行估計和描述的方法。描述統計分為集中趨勢分析和離中趨勢分析和相關分析三大部分。實際上,相關關係唯一不研究的數據關係,就是數據協同變化的內在根據——即因果關係。獲得相關係數有什麼用呢?簡而言之,有了相關係數,就可以根據回歸方程,進行A變量到B變量的估算,這就是所謂的回歸分析,因此,相關分析是一種完整的統計研究方法,它貫穿於提出假設,數據研究,數據分析,數據研究的始終。
  • 必考知識點,CFA一級數量分析-抽樣與估計
    這篇文章主要的內容為抽樣和估計,通過從總體中抽取樣本獲得樣本統計量進行分析,從而反推總體的參數,對其進行估計。引言現實生活中,特別是在金融領域,我們每分每秒都在形成大量的交易數據。我們如何通過這麼多的數據來評判整個全球市場的運行情況呢?近期頻上熱門的「熔斷」想必大家都聽說過吧。
  • 史上最全的,統計學常用的數據分析方法大總結
    描述統計描述統計是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特徵和隨機變量之間關係進行估計和描述的方法。描述統計分為集中趨勢分析和離中趨勢分析和相關分析三大部分。△集中趨勢分析集中趨勢分析主要靠平均數、中數、眾數等統計指標來表示數據的集中趨勢。例如被試的平均成績多少?
  • 第四節 樣本含量的估計
    所謂重複,是指各處理組(對照在實驗研究中也被看作是一種處理,而且是必不可少的)的受試對象都應有一定的數量,例數不能太少,所以在抽樣調查、臨床觀察或實驗研究中,首先總要考慮樣本含量(或叫樣本大小)問題。樣本太小,使應有的差別不能顯示出來,難以獲得正確的研究結果,結論也缺乏充分的依據;但樣本太大,會增加實際工作中的困難,對實驗條件的嚴格控制也不易做到,並且造成不必要的浪費。
  • 教學研討|9.2.2總體百分位數的估計(2019版新教材)
    教科書在9.2.1的問題1的基礎上,使問題具體化,提出了問題2,明確要使80%的居民用戶不受影響,如何給出月均用水量標準的建議,隨著問題2的解決,結合此實例得到第80百分位數,在此基礎上再給出百分位數的一般定義以及計算方法,最後通過兩個例題讓學生掌握一組數據的百分位數的計算方法.百分位數的定義中所有的不等關係都是帶有等號的,即用「小於等於」「大於等於」「至少有」描述.
  • 小白學Python數據分析-Python初識和t分布實例
    [編者按] Python是大數據分析的常用技術之一,用Python進行數據分析的眾多優勢使得越來越多的人開始走上Python數據分析之路。
  • 極大似然估計詳解
    問題引出        但是在實際問題中並不都是這樣幸運的,我們能獲得的數據可能只有有限數目的樣本數據,而先驗概率根據僅有的樣本數據進行分類時,一種可行的辦法是我們需要先對先驗概率和類條件概率進行估計,然後再套用貝葉斯分類器。        先驗概率的估計較簡單,1、每個樣本所屬的自然狀態都是已知的(有監督學習);2、依靠經驗;3、用訓練樣本中各類出現的頻率估計。
  • 參數估計之點估計和區間估計
    作者 | CDA數據分析師參數估計(parameter estimation)是根據從總體中抽取的樣本估計總體分布中包含的未知參數的方法。人們常常需要根據手中的數據,分析或推斷數據反映的本質規律。即根據樣本數據如何選擇統計量去推斷總體的分布或數字特徵等。統計推斷是數理統計研究的核心問題。所謂統計推斷是指根據樣本對總體分布或分布的數字特徵等作出合理的推斷。它是統計推斷的一種基本形式,分為點估計和區間估計兩部分。一、點估計點估計是依據樣本估計總體分布中所含的未知參數或未知參數的函數。
  • 數據分析淺談 | 基礎篇
    一般情況下,如果樣本的偏度接近於0,而峰度接近於3,就可以大致判斷總體的分布已經接近於正態分布。繪製統計圖:用圖形的形式來表達數據,比用文字表達更清晰、更簡明。在SPSS軟體裡,很容易繪製各個變量的統計圖形,包括條形圖、餅圖和折線圖等。
  • Logistic回歸分析-分類因變量最常用且首先考慮的分析方法
    三)模型整體的顯著性檢驗  logistic過程提供了三種方法,分別為似然比檢驗(likelihood ratio),評分檢驗(score)與wald檢驗,統計量為χ2 第一種方法較其他兩種更可靠,尤其小樣本數據。
  • 參數估計(一):點估計
    所謂點估計,就是用一個參數點θhat來估計另外一個未知參數θ。它區別於區間估計。它主要有矩估計法、極大似然估計法和貝葉斯法。A. 矩估計法(K·皮爾遜)這個方法的思想非常簡單,在任意一本概率論與數理統計課本中都能找到其表述。思想是用樣本矩(sample moments)來估計總體矩。
  • 推斷統計基礎:點估計與區間估計
    推斷性統計學:抽樣設計;通俗解釋「大數據」及推斷性統計學:抽樣分布均值的抽樣分布;抽樣分布:詳述均值的抽樣分布及中心極限定理;抽樣分布:t分布;切比雪夫(Chebyshev)定理;參數估計參數估計:就是根據樣本統計量的數值對總體參數進行估計的過程。
  • 經驗貼 | Excel中的數據統計與分析
    儘管早就知道Excel是個數據統計分析的最基本的工具,但是聽說過很多道理,依然「做不了分析」,核心還是沒有自己實際操作過。正所謂,進一寸有一寸的歡喜(你看,這裡竟然也有數字……)。描述統計是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特徵和隨機變量之間關係進行估計和描述的方法。描述統計分為集中趨勢分析和離中離散程度和相關分析三大部分。
  • R 語言之數據分析「Resampling」
    Fisher 建立的,但是由於這個方法的計算量過大、且計算機技術也未成熟,他最後放棄了這個方法。但是,數十年後的今天,計算機技術的高速發展,這個方法終於能夠實現並發揮其價值。89          88                    78          76                    93          79                    81          82                    77原假設H_{0} :兩種方案的總體均值相等 ;備擇假設H_{a}:兩種方案的總體均值不等這種問題,用參數方法來解決你應該是很熟悉的
  • 常用的數據分析工具
    它將數據從數據約束中解放出來,方便地把數據分成兩組,建立可控制的模型及表達式進行非線性模型的參數估計,能夠建立比簡單線性回歸模型更好的預測模型;4、SPSS Trends:用強有力的時間序列分析工具做更好的預測。
  • 統計學最常用的「數據分析方法」清單(一)
    經常會有朋友問到一個朋友,數據分析常用的分析方法有哪些,我需要學習哪個等等之類的問題,今天數據分析精選給大家整理了十六種常用的數據分析方法,供大家參考學習。  一、描述統計  描述統計是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特徵和隨機變量之間關係進行估計和描述的方法。描述統計分為集中趨勢分析和離中趨勢分析和相關分析三大部分。  1. 集中趨勢分析  集中趨勢分析主要靠平均數、中數、眾數等統計指標來表示數據的集中趨勢。