兩種分析方法,求解「用樣本估計總體」問題,大數據時代實用技能

2021-01-09 高考自主學習課堂

1. 知識要點

統計廣泛應用於工作、生活中,如生產管理、影響管理,具有實用性強的特點。即使在當今的大數據時代,統計學的方法仍是數據分析的靈魂。

高中階段學了用樣本估計整體的兩種方法,它們在整個統計過程的位置與作用見下圖:

① (直觀的)頻率分布法——分布表、直方圖、折線圖、莖葉圖

② (量化的)數字特徵法——眾數、中位數、極差、平均數、方差

2. 基本問題說明

一般地,用樣本估計總體的基本問題有:

① 根據已知樣本數據,求解頻率分布表和/或畫出直方圖、折線圖、莖葉圖,以此估計總體的情況。;

② 根據已知樣本數據,求解眾數、中位數、極差、平均數、方差等數字特徵,以此估計總體的情況。

3. 解決問題的一般方法

1) 熟練掌握頻率分布表、直方圖、折線圖、莖葉圖等概念及其求解一般方法

① 畫頻率分布直方圖的一般方法

a) 確定橫坐標

求極差(即一組數據中最大值與最小值的差);定分組數;得每組數據(即組距。注意,兩組之間的邊界值歸入上或下一組都行,但通常不會同時被包含或不被包含!)b) 確定縱坐標

統計頻數;算出頻率;得出縱坐標(即頻率/組距);c) 列頻率分布表(在解答填空或選擇題時,在草稿紙上簡捷完成即可,目的是為了方便檢查和避免犯錯)

統計頻數;計算頻率。d) 畫頻率分布直方圖。

提示1:頻率分布直方圖中小矩形的面積=組距×矩形高度(頻率/組距)=頻率。

提示2:各組頻率之和為1(可利用此點來演算)。

② 莖葉圖的作圖步驟及要求

a) 先莖後葉;

b) 莖有序,葉無序(按數據出現先後順序依次填入即可)

2) 熟練掌握眾數、中位數、極差、平均數、方差等數字特徵的概念與公式。

4. 典型例題

例1 在生產過程中,測得纖維產品的纖度(表示纖維粗細的一種量)共有 100 個數據,將數據分組如表。

(1)完成頻率分布表,並畫出頻率分布直方圖。

(2)估計纖度落在[1.38, 1.50]中的概率及纖度小於1.40的概率是多少?

(3)統計方法中,同一組數據常用該組區間的中點值(例如區間[1.30, 1.34]的中點值是1.32)作為代表.據此,估計纖度的期望。

解:(1)頻率分布表如下(提示:注意分組邊界處為一開一閉):

頻率分布直方圖如下:

(2)纖度落在[1.38, 1.50]中的概率約為:

0.30+0.29+0.10 =0.69;

纖度小於1.40的概率約為:

0.04+0.25+0.5×0.30=0.44;

(3)總體數據的期望約為:

1.32×0.04+1.36×0.25+1.40×0.30+1.44×0.29+1.48×0.10+1.52×0.02=1.4088.

講解:

① 如還未學到數學期望的概念,可跳過最後一問。不過,也可參照基礎知識中的「加權平均數」概念現學現賣:當統計對象為樣本值、權為其頻率時,此時的加權平均數成為數學期望。

例2 (山東文14)如圖是根據部分城市某年6月份的平均氣溫(單位: "C)數據得到的樣本頻率分布直方圖,其中平均氣溫的範圍是[20.5, 26.5], 樣本數據的分組為[20.5, 21.5), [21.5, 22.5), [22.5, 23.5), [23.5, 24.5), [24.5, 25.5), [25.5, 26.5]. 已知樣本中平均氣溫低於22.5"C 的城市個數為11, 則樣本中平均氣溫不低於25.5"C 的城市個數為___

解:平均氣溫低於22.5℃的頻率,即最左邊兩個矩形面積之和為:

0.10×1+0.12×1=0.22,

所以總城市數(樣本容量)為:

11÷0.22=50,

平均氣溫不低於25.5℃的頻率即為最右面矩形面積為:

0.18×1=0.18,

所以平均氣溫不低於25.5℃的城市個數為:

50×0.18=9.

故所求城市個數為9。

講解:

① 本題考查頻率分布直方圖的應用能力,即根據已知頻率分布直方圖,閱讀並利用圖形及其數據來分析和解決問題的能力。

② 根據已知的頻率分布直方圖,可得到以下關係式:

關係式1:頻率=小矩形的面積=組距×矩形高度(頻率/組距)關係式2:頻數=頻率×樣本容量。關係式3:各組頻率之和為1(這點除了用來解題,還可用以驗算)。③ 本題的解題一般方法

逆用關係式「頻數=頻率×樣本容量」先求出樣本容量,再正用該關係式求出所求頻數。提示1:由「頻數=頻率×樣本容量」可變形為「樣本容量=頻數/頻率」,即不同組的頻數/頻率值相等。所以本題也可簡潔地列出以下等式進行求解:11/0.22 = x/0.18。提示2:出題人也可以逆用其它關係式如各組頻率之和為1來進行題設,分析、求解方法與本題類似。因此,只要熟練掌握頻率分布直方圖的概念和特性,無論正用或逆用,均能靈活應用、觸類旁通。本文就不應用舉例了。

例3在最近的10次數學考試中,甲同學的成績分別為82,85,73,65,74,91,83,76, 93, 88;乙同學的成績分別為75,68,73,74,84,83,66,87,77,85, 根據以上數據做甲乙兩個人成績的莖葉圖。

解:如圖。

講解:

① 莖葉圖的特性

a) 能讀出原始數據(莖葉拼在一起即可)

b) 莖葉圖逆時針旋轉90度,就成了另類直方圖了

c) 莖葉圖具有易修改、易增添、有原始數據等優點(但不適用於數據量大的情形而直方圖適用)

d) 直觀

例4甲、乙兩人在10天中每天加工零件的個數用莖葉圖表示如下圖,中間一列的數字表示零件個數的十位數,兩邊的數字表示零件個數的個位數,則這10天甲、乙兩人日加工零件的平均數分別為___和___。

解:(提示:已知莖葉圖的應用,只要能讀懂圖即可解出來。屬送分題,千萬不能算出)

由莖葉圖知,甲加工零件個數的平均數為:

(19+18+20×2+21+22+23+31×2+35)/10=24

乙加工零件個數的平均數為:

(19+17+11+21+22+24×2+30×2+32)/10 = 23

故答案為:24;23.

講解:

① 本題為統計數字特徵的基礎應用題型。

② 無論何種解法,都必須先掌握準確理解相關基本概念及其應用的一般思路和方法,然後再根據題意靈活選取合適解題路徑或思路。

③ 本題結論意為:=α+(1-α),即與、之間的接近程度不是由其平均值大小決定的,而是由兩組樣本的數量大小決定。

講解:

① 熟練掌握數字特徵公式及其應用與逆用。

例7由正整數組成的一組數據x1,x2,x3,x4,其平均數和中位數都是2,且標準差等於1,則這組數據為______.(從小到大排列)

解得x4=1(捨去)或x4=3,符合題意,由此可得x1=1

故答案為1,1,3,3

溫馨提示:關注百家號「輕快學習課堂」,可查閱更多精彩文章與視頻。

相關焦點

  • 大數據信息分析的方法與工具
    ,不幸的是所有大數據的屬性,包括數量、速度、多樣性等等都是描述了資料庫不斷增長的複雜性。那麼大數據給我們帶來了什麼好處呢?大數據最大的好處在於能夠讓我們從這些數據中分析出很多智能的、深入的、有價值的信息。
  • 高中數學必修三,用樣本估計總體知識點及題型精講精練
    【答案:a=0.30,3.6萬】考法(一) 樣本的數字特徵與頻率分布直方圖交匯1. (2019·遼寧師範大學附屬中學模擬)某校初三年級有400名學生,隨機抽查了40名學生測試1分鐘仰臥起坐的成績(單位:次),將數據整理後繪製成如圖所示的頻率分布直方圖.用樣本估計總體,下列結論正確的是(  )【答案:C】A.該校初三學生1分鐘仰臥起坐的次數的中位數為
  • 參數估計之點估計和區間估計
    作者 | CDA數據分析師參數估計(parameter estimation)是根據從總體中抽取的樣本估計總體分布中包含的未知參數的方法。人們常常需要根據手中的數據,分析或推斷數據反映的本質規律。即根據樣本數據如何選擇統計量去推斷總體的分布或數字特徵等。統計推斷是數理統計研究的核心問題。所謂統計推斷是指根據樣本對總體分布或分布的數字特徵等作出合理的推斷。它是統計推斷的一種基本形式,分為點估計和區間估計兩部分。一、點估計點估計是依據樣本估計總體分布中所含的未知參數或未知參數的函數。
  • QB期刊 |RNA-seq數據計算方法大匯總
    為了回答各種生物問題,十年來不同領域的研究者已為第二代RNA-seq數據分析提出了超過2000種計算與分析方法。該綜述文章從四個層面(樣本,基因,轉錄本,和外顯子)對RNA-seq數據的分析方法進行了總結,旨在歸納看似不同的方法背後共通的統計假設和模型。
  • Eviews估計方法匯總
    在利用樣本估計係數時依舊是使得總體殘差最小化,但是WLS會給每個殘差平方和一個權重wi=1/δi。這樣,當δi^2越小,wi越大;反之,δi^2越大,wi越小。Eviews的WLS沒有要求權重因子必須是1/δi。
  • 數據產品經理之數據分析與挖掘
    作為如今網際網路+過程中最火熱的關鍵詞之一,大數據越來越火,隨之而來的數據倉庫、數據安全、數據分析、數據挖掘等圍繞大數據的商業價值發掘利用相關的技術和知識越來越引起政府、企業和求職者的重視。一、基本概念(1)數據分析數據分析是指根據分析目的,用適當的統計分析方法及工具,對收集來的數據進行處理與分析,提取有價值的信息,發揮數據的作用。(2)數據挖掘數據挖掘是指從大量的、有噪聲的、不完全的、模糊的和隨機的數據中,通過統計學、人工智慧、機器學習等方法,挖掘出未知的、有價值的信息和知識的過程。
  • 數據分析淺談 | 基礎篇
    意義:不受偏大或偏小數據的影響,有時可以用它代表全體數據的一般水平更合適,但數據的敏感性較低。 3、眾數定義:(又稱複數,Mode)是詞素的其中一種,是指在數據中發生頻率最高的數據值。其把數據出現的頻次統計出來,然後找出出現次數最多的那個數。意義:反映一組數據的一般多數的水平。
  • 數據分析必讀乾貨:簡單而實用的3大分析方法
    來源:大數據DT 本文約3300字,建議閱讀8分鐘 數據分析師需要哪些「專業技能」? 本文主要講解日常數據分析中,最常用的三大數據分析方法。內容雖然簡單,但是其中充滿了大量的細節方面的實用技巧。
  • 蒙特卡洛梯度估計方法(MCGE)簡述
    其中,對於函數期望類目標問題,最常見的是基於蒙特卡洛採樣的方法。背景知識要了解基於蒙特卡洛採樣的梯度估計方法,首先先了解蒙特卡洛採樣方法和隨機優化方法。MCS 是一種經典的求解積分方法,公式(1)中的問題通常可以用 MCS 近似求解如下:
  • R 語言之數據分析「Resampling」
    Fisher 建立的,但是由於這個方法的計算量過大、且計算機技術也未成熟,他最後放棄了這個方法。但是,數十年後的今天,計算機技術的高速發展,這個方法終於能夠實現並發揮其價值。89          88                    78          76                    93          79                    81          82                    77原假設H_{0} :兩種方案的總體均值相等 ;備擇假設H_{a}:兩種方案的總體均值不等這種問題,用參數方法來解決你應該是很熟悉的
  • 大數據時代的社會科學研究新範式
    然而,大數據時代的到來為彌補這一缺陷提供了潛在的解決方案。隨著全球新一輪科技革命與產業變革的加速演進,數據來源、數據處理以及數據分析等數據相關技術發展迅速,特別是以統計學習、機器學習、深度學習乃至更為廣泛意義的人工智慧為代表的數據分析手段,正在帶來新的認知方式,為形成數據驅動的社會科學研究新範式提供有力支撐。
  • 大數據分析與數據分析的根本區別在哪裡?
    如今大數據分析和數據分析火爆,要說時機,可謂處處都是時機,關鍵要明了的一點是,大數據分析和數據分析兩者的根本區別在哪裡,只有真正了解了,才會知曉更加適合自己的領域是大數據分析師還是數據分析師。畢竟職場如戰場,時間就是生活,不容兒戲,更不容怠慢。下面我來好好告訴大家兩者的本質區別到底是什麼!大數據分析:指無法在可承受的時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合。
  • 大數據時代:你用什麼來做數據分析
    數據規模的持續增長早已是行業定律,據了解,網際網路上每一秒鐘傳輸的視頻,需要花費一個人5年的時間才能看完。可見數據量之大,數據增長之快已經越來越超乎我們的想像。商業決策也開始越來越依賴數據的分析,如此,建立正確的數據聯繫,形成準確的數據分析就成為抓住時代機遇的關鍵。  近日,筆者從外媒看到幾款實用的大數據模型工具,部分筆者親測好用哦!
  • 【原創】參數估計與假設檢驗(一)-- 參數估計之點估計
    例如,在前面文章中,已經分析了某個湖裡種類為「Bream」的魚類的寬度樣本數據,通過樣本數據的計算得知,Bream的寬度的樣本均值為15.18,樣本標準差為1.96。那麼,這裡的樣本均值15.18就可以作為整個湖中所有Bream魚的寬度均值的一個估計。
  • 用Excel求解回歸方程的3種方法:LINEST、散點圖和數據分析工具
    求解一元線性回歸方程。上圖我模擬了一組數據,記錄了回歸火鍋店冬天的氣溫和銷售業績。上圖中氣溫和銷售業績是一組數據,是一個數據集。回歸分析其實就是尋找一條最能「擬合」這組數據的直線,尋找一條最佳直線。(所謂「擬合」,在回歸分析中,是指找出一條穿過數據集的,並且使這組數據集上的每個數據點到直線距離最近的直線。)這個最佳的直線就是我們需要求解的線性回歸直線y=ax+b,即我們需要求出回歸方程中回歸係數a和截距b分別為多少。
  • 線性回歸分析詳解9:顯著性水平、置信度、置信區間及其計算方法
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第9章,總體回歸、置信度、置信區間及其計算方法。多元回歸方程求解後,我們分別確認了回歸方程的精度和進行了回歸方程的顯著性驗證,接下來,需要計算置信區間。不過,我們做回歸分析,非常有必要懂得相關置信區間的概念、邏輯和計算方法。所以,本章,我還是對此做些基礎的介紹。(本專欄總目錄如下圖。)置信區間。置信區間(Confidence interval)是指由樣本統計量所構造的總體參數的估計區間。
  • 多元回歸分析中消除多重共線性的3個實用方法
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第六章,多重共線性:消除多重共線性的3個簡單並實用的方法。前五章,我講述了回歸分析的相關概念和分類,以及一元線性回歸與多元線性回歸的基礎模型(回歸方程與求解回歸方程),但在實際需求預測中,回歸方程本身還存在較多的不確定性,不宜直接以求解回歸方程得出預測結果。
  • Excel數據分析兩大利器,趨勢預測與規劃求解
    數據分析工具千千萬,怎麼又能少得了Excel~ 01 預測工作表 預測工作表是Excel2016版添加的一個新功能,預測使用基於現有時間的數據和指數平滑
  • 總結|臨床研究常見統計方法與統計問題
    重複測量的方差分析的思想是總變異分解成個體內變異和個體間變異,需要滿足正態性、方差齊性和球形的前提假設,但數據中存在缺失時,分析會將存在缺失的研究對象數據全部刪除,有效樣本量大大降低。混合效應模型和廣義估計模型採用縱向數據格式,能有效利用樣本的信息,根據不同的協方差矩陣結構保證分析結果更加準確保守,同時能對時變因素進行多重比較[23,24]。
  • 數據分析的方法(一)
    至今,數據分析師的行業依然很火熱,但是大部分人還是不清楚數據分析的目的是什麼,分析的步驟、方法都有哪一些。數據分析主要就是為了從海量的數據中提取有用的信息和形成結論,從而對數據加以詳細的研究和概括總結。