時間序列分析
1、Arima,藉助自相關圖和偏相關圖識別自相關AR和移動平均MA的階數
2、藉助ADF檢驗識別差分階數,然後回歸。解釋模型含義
3、VAR模型,(1)模型前檢驗識別模型階數;(2)回歸
4、格蘭傑因果檢驗評價var結果
5、用脈衝響應分析評價結果
1、所學、所用的整體大圖景,回歸的目的是為了從現象中走出來,關注其中規律性的東西——參數、關係、模擬、學習,從低維的學習走向高維學習。
2、各組作業展示
3、如何展示數據,數據樣本量多大,均值多少,方差多少,有幾個變量等等,方便學界溝通。
4、分位數回歸,除了普通OLS,如果各部分特徵不符合正態分布,或者存在長尾效應,則OLS回歸結論有偏,分位數回歸更能揭示真理
1、驗證理論
2、從數據中提煉知識
3、機器學習
4、人工智慧
思考:如何能獲取統計學學習的成果
作業展示分別採用ARIMA模型和VAR模型對韓國、日本與美國生產函數數據進行統計分析
無論課堂還是課後作業都要求按照作業要求完成,最後的分值按照作業要求給出。
只要做了都有分,但不按照要求的話,分就相應要低一些
充分利用小組合作,而不要單打獨鬥
找到1990-2018年10月27日股市數據。(漲跌幅、成交量等),利用時間序列方法,找出股市方程,並利用該方程預測明日(周一)股市漲跌和成交情況。練習時間:30分鐘。
描述性統計描述性統計,
維基百科的定義是:「描述性統計是一種匯總統計,用於定量描述或總結信息集合的特徵」。從這個定義,我們不難看出,描述性統計包含兩個重要的特徵,描述和總結。
通常情況下,我們把描述性統計分為兩大類:離散趨勢和集中趨勢,兩種分類常見的統計量如下:
一般情況下,我們首先將收集到的大量數據歸納整理到一張表格,我們把這張表格稱之為數據集,數據集一般包含很多類型的數據。通過描述性統計,我們可以根據自己的研究需要,從大量不同類型的數據中,篩選出具有代表性的數據來進行初步的研究分析。
數據導入stata軟體實操
首先,導入數據集auto.dta通過存儲文件打開該數據的stata命令為:use "D:\你自己存放auto.dta文件的路徑 \auto.dta"。
或者打開stata軟體自帶的數據集。相應的Stata命令為sysuse auto,clear出現這樣的結果表示數據導入成功。
數據導入成功以後,可先輸入stata命令:
describe查看數據集的大致信息
從上圖我們可以發現,該數據集有74個數據(obs),12個變量(vars)。
描述統計之stata實現接下來,我們根據自己的研究需要,選擇具體的變量或者全部的變量進行描述性分析。
Stata的操作演示如下:
第一種方法,
輸入stata命令:summarize (或sum)
summarize後可以跟具體變量的名稱,如果不跟變量名稱,則默認對全部變量進行描述性分析,兩種結果如下:(1)輸入命令:summarize,得到全部變量的描述性統計結果。
結果如下:
(2)輸入命令:summarize price mpg rep78 headroom,得到部分變量的描述性統計結果。如下圖所示。
(也可以使用qq工具 「contr+Alt+A",然後選擇對號,複製並粘貼使用)。
提示:如果沒有outreg2的命令,需要先安裝該命令,相應的安裝命令為 ssc install outreg2。
導出描述性統計結果的Stata命令為:
outreg2 using 描述性統計結果1.doc, replace sum(log) title(Decriptive statistics)
得到下圖。
打開描述性統計結果1.doc文件,得到下圖。
對其進行整理,使之符合論文的要求以及更美觀,得到如下圖
輸入stata命令:
tabstat price mpg rep78 headroom trunk weight length turn displacement gear_ratio foreign,s(N mean p50 sd min max) f(%12.3f) c(s)
結果如下:
需要注意
s(N mean p50 sd min max)括號裡面可以根據自己的需要增加刪除相應的統計量,相應統計量的代碼如下圖所示:
提示:如果沒有logout的命令,需要先安裝該命令,相應的安裝命令為 ssc install logout
導入結果的命令如下:
logout,save(描述性統計結果2)word replace:tabstat price mpg rep78 headroom trunk weight length turn displacement gear_ratio foreign,s(N mean p50 sd min max range) f(%12.3f) c(s)。
結果如下:
打開描述性統計結果2.rtf
對其進行整理,使之符合論文的要求以及更美觀,得到如下圖:
1、OLS 回歸關注的是因變量的條件均值函數。然而,實證中,研究者可能對 y|x 分布的其它重要分位數感興趣。
2、分位數回歸不考慮同方差、正態分布的假設,具有異常點抗耐性、捕捉分布尾部特徵等特點,更加穩健。
3、與 OLS 不同,分位數回歸估計的是解釋變量 x 與被解釋變量y的分位數之間線性關係。OLS回歸以殘差平方最小化作為目標,中位數回歸則目標最小化離差絕對值 。對於分位數回歸,其目標為最小化非對稱性絕對值殘值。
4、 相較於 OLS, 分位數回歸的優點主要是:更全面描述解釋變量 x 和被解釋變量 y 的關係。實際上,在不同分位數上,因為解釋變量 x 對被解釋變量 y 可能影響不同,因此分位數回歸係數和OLS的回歸係數不同。這些是分位數回歸的一些基本思想,這僅僅只涉及到基本的分位數線性回歸,還有較為複雜的核回歸在隨後的研究中再進行更新。
下面我們來看一下代碼實現
1. 分位數回歸基本命令:qreg分位數回歸最基本的命令為 qreg
命令實現
>統計——線性模型及相關——分位數回歸加載數據和包
sysuse auto,clear回歸結果如下:
系統默認是對50%分位點的回歸,如果希望得到較低或較高價格點處的分位數,可以修改默認分位點數,比如可以對20%價格處的分位數進行回歸,得到,
我們想知道在所有分位點處,自變量的圖形表現,但是在stata圖形中沒有專門的命令,需要使用外部命令"grqreg"實現。
ssc install grqreg,replacegrqreg,ci title(Fig.1a Fig.1b)也可以默認不加title
grqreg得到,
課堂練習使用分位數回歸
The nlswork data frame contains data about 4711 young working women who had an age of 14–26 years in 1968. These data are collected within the "National Longitudinal Survey" over the years 1968-1988 (with gaps). There are 28534 observations in total.webuse nlswork, clear練習時間,10分鐘。
課後作業小組內討論各自學科主題;確定一個問題(理論),找到相應的數據,採用統計學方法加以驗證。下節課展示。
本節回顧1、課程展示
2、股市方程
3、描述性統計的實現
4、分位數回歸的實現