第七節 描述性統計與分位數回歸

2021-02-19 數據科學麼麼噠
上節回顧

時間序列分析
1、Arima,藉助自相關圖和偏相關圖識別自相關AR和移動平均MA的階數
2、藉助ADF檢驗識別差分階數,然後回歸。解釋模型含義
3、VAR模型,(1)模型前檢驗識別模型階數;(2)回歸
4、格蘭傑因果檢驗評價var結果
5、用脈衝響應分析評價結果

本節內容

1、所學、所用的整體大圖景,回歸的目的是為了從現象中走出來,關注其中規律性的東西——參數、關係、模擬、學習,從低維的學習走向高維學習。
2、各組作業展示
3、如何展示數據,數據樣本量多大,均值多少,方差多少,有幾個變量等等,方便學界溝通。
4、分位數回歸,除了普通OLS,如果各部分特徵不符合正態分布,或者存在長尾效應,則OLS回歸結論有偏,分位數回歸更能揭示真理

統計學知識的維度

1、驗證理論
2、從數據中提煉知識
3、機器學習
4、人工智慧

思考:如何能獲取統計學學習的成果

作業展示

分別採用ARIMA模型和VAR模型對韓國、日本與美國生產函數數據進行統計分析

無論課堂還是課後作業都要求按照作業要求完成,最後的分值按照作業要求給出。
只要做了都有分,但不按照要求的話,分就相應要低一些
充分利用小組合作,而不要單打獨鬥

課堂練習:中國股市方程

找到1990-2018年10月27日股市數據。(漲跌幅、成交量等),利用時間序列方法,找出股市方程,並利用該方程預測明日(周一)股市漲跌和成交情況。練習時間:30分鐘。

描述性統計

描述性統計

維基百科的定義是:「描述性統計是一種匯總統計,用於定量描述或總結信息集合的特徵」。從這個定義,我們不難看出,描述性統計包含兩個重要的特徵,描述和總結。

通常情況下,我們把描述性統計分為兩大類:離散趨勢和集中趨勢,兩種分類常見的統計量如下:

一般情況下,我們首先將收集到的大量數據歸納整理到一張表格,我們把這張表格稱之為數據集,數據集一般包含很多類型的數據。通過描述性統計,我們可以根據自己的研究需要,從大量不同類型的數據中,篩選出具有代表性的數據來進行初步的研究分析。

數據導入

stata軟體實操

首先,導入數據集auto.dta通過存儲文件打開該數據的stata命令為:use "D:\你自己存放auto.dta文件的路徑 \auto.dta"。

或者打開stata軟體自帶的數據集。相應的Stata命令為sysuse auto,clear出現這樣的結果表示數據導入成功。

數據導入成功以後,可先輸入stata命令:

describe查看數據集的大致信息

從上圖我們可以發現,該數據集有74個數據(obs),12個變量(vars)。

描述統計之stata實現

接下來,我們根據自己的研究需要,選擇具體的變量或者全部的變量進行描述性分析。

Stata的操作演示如下:
第一種方法,

輸入stata命令:summarize (或sum)
summarize後可以跟具體變量的名稱,如果不跟變量名稱,則默認對全部變量進行描述性分析,兩種結果如下:(1)輸入命令:summarize,得到全部變量的描述性統計結果。

結果如下:

(2)輸入命令:summarize price mpg rep78 headroom,得到部分變量的描述性統計結果。如下圖所示。

導出結果到word

(也可以使用qq工具 「contr+Alt+A",然後選擇對號,複製並粘貼使用)。

提示:如果沒有outreg2的命令,需要先安裝該命令,相應的安裝命令為 ssc install outreg2。

導出描述性統計結果的Stata命令為:

outreg2 using 描述性統計結果1.doc, replace sum(log) title(Decriptive statistics)

得到下圖。

打開描述性統計結果1.doc文件,得到下圖。

對其進行整理,使之符合論文的要求以及更美觀,得到如下圖

描述統計第二種方法

輸入stata命令:

tabstat price mpg rep78 headroom trunk weight length turn displacement gear_ratio foreign,s(N mean p50 sd min max) f(%12.3f) c(s)

結果如下:

需要注意
s(N mean p50 sd min max)括號裡面可以根據自己的需要增加刪除相應的統計量,相應統計量的代碼如下圖所示:

導出描述性統計結果到word

提示:如果沒有logout的命令,需要先安裝該命令,相應的安裝命令為 ssc install logout

導入結果的命令如下:

logout,save(描述性統計結果2)word replace:tabstat price mpg rep78 headroom trunk weight length turn displacement gear_ratio foreign,s(N mean p50 sd min max range) f(%12.3f) c(s)。

結果如下:

打開描述性統計結果2.rtf

對其進行整理,使之符合論文的要求以及更美觀,得到如下圖:

分位數與OLS

1、OLS 回歸關注的是因變量的條件均值函數。然而,實證中,研究者可能對 y|x 分布的其它重要分位數感興趣。

2、分位數回歸不考慮同方差、正態分布的假設,具有異常點抗耐性、捕捉分布尾部特徵等特點,更加穩健。

3、與 OLS 不同,分位數回歸估計的是解釋變量 x 與被解釋變量y的分位數之間線性關係。OLS回歸以殘差平方最小化作為目標,中位數回歸則目標最小化離差絕對值 。對於分位數回歸,其目標為最小化非對稱性絕對值殘值。

4、 相較於 OLS, 分位數回歸的優點主要是:更全面描述解釋變量 x 和被解釋變量 y 的關係。實際上,在不同分位數上,因為解釋變量 x 對被解釋變量 y 可能影響不同,因此分位數回歸係數和OLS的回歸係數不同。這些是分位數回歸的一些基本思想,這僅僅只涉及到基本的分位數線性回歸,還有較為複雜的核回歸在隨後的研究中再進行更新。

下面我們來看一下代碼實現

1. 分位數回歸基本命令:qreg

分位數回歸最基本的命令為 qreg

命令實現
>統計——線性模型及相關——分位數回歸

加載數據和包

 sysuse auto,clear

回歸結果如下:

系統默認是對50%分位點的回歸,如果希望得到較低或較高價格點處的分位數,可以修改默認分位點數,比如可以對20%價格處的分位數進行回歸,得到,

我們想知道在所有分位點處,自變量的圖形表現,但是在stata圖形中沒有專門的命令,需要使用外部命令"grqreg"實現。

ssc install grqreg,replace 

grqreg,ci title(Fig.1a Fig.1b)

也可以默認不加title

grqreg

得到,

課堂練習

使用分位數回歸
The nlswork data frame contains data about 4711 young working women who had an age of 14–26 years in 1968. These data are collected within the "National Longitudinal Survey" over the years 1968-1988 (with gaps). There are 28534 observations in total.

 webuse nlswork, clear

練習時間,10分鐘。

課後作業

小組內討論各自學科主題;確定一個問題(理論),找到相應的數據,採用統計學方法加以驗證。下節課展示。

本節回顧

1、課程展示
2、股市方程
3、描述性統計的實現
4、分位數回歸的實現

相關焦點

  • 描述性統計與分位數回歸
    描述性統計與分位數回歸上節回顧多元線性回歸模型設定的效應生產函數資本數據計算與整理作業展示分別採用生產函數模型對中國、內蒙古本與二連的生產函數數據進行統計分析練習時間:30分鐘。只要做了都有分,但不按照要求的話,分就相應要低一些充分利用小組合作,相互分享相互學習描述性統計描述性統計,維基百科的定義是:「描述性統計是一種匯總統計,用於定量描述或總結信息集合的特徵」。
  • R描述性統計
    這裡就是描述性統計分析,下面看看描述性統計分析在R中的實現。」      導入數據,這裡我通過choose.files()命令調出複選框選擇我存在電腦中的mydata.csv文件,colClasses是對數據框列類型進行設置,這裡我設置mydata數據前4列為字符型,後8列為數值型。
  • SAS統計分析系列:描述性統計分析 (三)-- 描述性統計量
    描述性統計量。本文介紹描述數據分布形態的描述性統計量。在進行統計分析時,通常需要假設樣本服從某種分布。所以在進行分析之前有必要對數據的分布形態進行初步的了解,檢查數據是否大致服從某種分布,然後再運用統計理論去進行假設檢驗。描述數據分布形態有兩種基本方法,一種是計算統計量,一種是作圖。百分位數是一種位置指標。
  • 統計學之描述性統計 | Descriptive Statistics
    「統計學就像比基尼,你所看到的就是真實顯露的,但隱藏起來的才是至關重要的」——無名氏統計是有一些枯燥,但同時也可以很有趣,不是麼?我們知道統計學包括描述性統計和推論統計,而今天的主題是描述性統計的介紹。
  • 不可不知的描述性統計 | Descriptive Statistics
    我們知道統計學包括描述性統計和推論統計,而今天的主題是描述性統計的介紹。什麼是描述性統計呢?中文翻譯:描述性統計是一種匯總統計,用於定量描述或總結信息集合的特徵。這裡把關鍵詞勾劃一下:1、Describe-描述2、Summarize-總結注意:描述性統計的對象既可以是總體,也可以總體的一部分即是樣本。
  • 統計學-描述性統計 | 生物統計學基礎系列課
    故此,小編即日起為大家推出「生物統計學基礎」相關知識系列課,和大家一起探索這本書裡的珍貴知識,今日推送第二課:統計學-描述性統計!問題:樣本點從總體P中抽出,利用樣本怎麼推斷總體P?而概括或者描述一批樣數據的測度形式可以用樣本中心或中間值表示,這就是位置測度法。
  • 機器學習數學基礎:數理統計與描述性統計
    當然分布本身可能比較複雜, 尤其是概率密度函數, 到時候會有表可查。描述性統計數據集中趨勢的度量1. 平均數是表示一組數據集中趨勢的量數,是指在一組數據中所有數據之和再除以這組數據的個數。2. 中位數是指在一組數據,按順序排列後,居於中間位置的數。
  • 圖解統計學:簡單易懂的基礎概率&描述性統計
    今天這篇文章就簡單說一下我近期學習到的統計學中的描述性統計分析以及基礎概率知識。統計性描述分析是作為統計分析的第一步,在日常的數據分析中其實我們經常使用一些特徵值,尤其是我們做周報或者月報的分析時,這些描述性的統計分析特徵值對於我們有一定的幫助,描述性統計分析是進行正確的統計推斷的先決條件。
  • 描述性統計分析指標介紹
    描述性統計分析對調查總體所有變量的有關數據進行統計性描述,主要包括數據的頻數分析、集中趨勢分析、離散程度分析、分布以及一些基本的統計圖形。下面介紹一些常用統計描述指標。一、分類變量的常用描述指標頻數:在一組依大小順序排列的測量值中,當按一定的組距將其分組時出現在各組內的測量值的數目,分類變量的頻數即落在各類別中的數據個數。
  • 統計學入門級-描述性統計理論
    ㈢ 分位數也許大家都比較熟悉十分位數,百分位數,但對於四分位數就沒那麼了解了吧。四分位數是一組數據排序後處於25%(下四分位數)和75%(上四分位數)位置上的值。箱線圖就是利用數據中的五個統計量:最小值、上四分位數、中位數、下四分位數與最大值來描述數據的一種圖。額,箱線圖經常應用在識別檢測異常值方面。㈣ 平均數平均數也稱為均值,是一組數據相加後除以數據個數得到的結果。
  • 6.數據分析(1) --描述性統計量和線性回歸(2)
    昨天分享了描述性統計量相關內容
  • 分組進行描述性統計的小技巧 --astx命令介紹
    前言在Stata的初學者進行實證研究時,會遇到各種各樣的小問題,而如何對手中的數據進行分組描述性統計應該是大多數初學者都會頭疼的問題。在中文網際網路上,關於這個問題有不少的解決方法,其中最方便的就是使用tabstat命令。但是,tabstat命令不能把結果輸出到外部的文件之中,所以今天我們要介紹一個很好用的命令--astx命令,來幫助實現結果輸出。
  • 小白快速上手數據分析模型10 | 描述性統計案例
    ○輸入:單列或者多列定量數據○輸出:對總體的各項統計指標(欄位)進行整體描述分析,包括樣本量、最大值、最小值等統計量描述性統計(又稱敘述統計)用於對調查總體所有變量的有關數據進行統計性描述。○ Step1: 對總體的各項統計指標進行整體描述分析○ Step2: 對異常的或者表現得較為突出的指標進行分析,例如高方差,高平均值等某平臺收集了50位顧客對兩家餐館的評分,最高分數可能是10分,分數越高,說明了顧客給的評分越高。某顧客在選擇餐館時難以決定,希望通過簡單的對比得出兩家餐館的評分綜合指標。
  • python描述性統計之dataframe.describe
    描述性統計使用df.describe()描述性統計,即概括性度量。是用來概括、表述事物整體狀況以及事物間關聯、類屬關係的統計方法。通過統計處理可以簡潔地用幾個統計值來表示一組數據地集中性和離散型 (波動性大小)。集中趨勢指一組數據向某一中心靠攏的程度,反映了一組數據中心點的位置所在。
  • Excel進行描述性統計分析
    今天介紹Excel中如何完成描述性統計。一、使用Excel自帶數據分析工具    先介紹自帶的分析工具,可一次性輸出一些統計項的數值,樣例數據85行6列。添加好加載項後,使用步驟如下:點擊「數據」-右側找到「數據分析」,彈出的窗口中,分析工具選擇「描述統計」;
  • Stata+R:分位數回歸一文讀懂
    分位數回歸初識3. 分位數回歸模型與 Stata 實現3.1 生成隨機模擬數據3.2 分位數模型估計及 Stata 實現3.3 Wald 檢驗3.4 係數可視化4. 面板分位數回歸5. 更多參考資料 1.
  • 第四講:SAS編程PROC步——描述性統計量分析
    chart和gchart與plot和gplot的區別則體現在不同的作圖功能,前兩個過程可以繪製出的圖形主要有條形圖(包括橫條和豎條)、圓圖、環形圖和星形圖等,後兩個過程通常用一個記錄中的兩個變量值表示點的坐標來繪製圖形,如散點圖和線圖等。
  • 【每天學點應用軟體】SAS編程PROC步——描述性統計量分析
    chart和gchart與plot和gplot的區別則體現在不同的作圖功能,前兩個過程可以繪製出的圖形主要有條形圖(包括橫條和豎條)、圓圖、環形圖和星形圖等,後兩個過程通常用一個記錄中的兩個變量值表示點的坐標來繪製圖形,如散點圖和線圖等。
  • 描述性統計分析
    本文繼續引用微信公眾號中案例數據中的pgdat數據集,手把手教你學會使用R實現基本的描述性統計分析
  • 《中華醫學統計百科全書. 描述性統計分冊》
    描述性統計分冊》 作者 總主編:徐天和   分冊主編:田考聰書號 ISBN 978-7-5037- 6468-4開本 16開裝幀 平裝出版時間 2012年4月定價 38元內容簡介:    《中華醫學統計百科全書》是一部醫學統計參考工具書,讀者對象主要是醫學統計工作者、醫療衛生機構的統計信息工作者和醫學院校的師生