【從零開始學統計】2.可決係數真的決定一切麼?

2021-03-01 CDA數據分析師

一如既往,如果大家有好的文章,歡迎發送至2964335736@qq.com 郵箱前幾天逛知乎的時候看到一個帖子,學計量的和學統計的在爭論關於anova裡的可決係數的問題。突然萌生了一個念頭,想聽聽大家對這個R2是怎麼理解的。(引用的知乎連結,大家可以前去看看http://www.zhihu.com/question/22935472;當然本壇裡也展開過一個關於計量和統計兩學科區別的討論,大家也可看看http://bbs.pinggu.org/thread-2930588-1-1.html)
那我先來說說我對這個R2的理解吧:R2是什麼?它就是可決係數(coefficient of determination),也被稱為擬合優度。說到擬合優度一般理解為回歸直線與觀測值的一個擬合程度,請看圖:如果樣本回歸線對樣本觀測值擬合程度越好,各樣本觀測點與回歸線靠得越近,由樣本回歸做出解釋的離差平方和與總離差平方和越相近;反之,擬合程度越差,相差越大。(說的更簡單點,R2越大,自變量對因變量的解釋程度越高,自變量引起的變動佔總變動的百分比高。觀察點在回歸直線附近越密集)。既然是平方那麼可決係數的取值範圍在0到1之間,它是一個非負統計量。試想如果所有的點都在直線上,一點也沒有離開直線,那就說明擬合度很好,是1。就是能夠完全解釋。而現實情況肯定沒有這樣的。就比如你的努力程度和歷次考試成績,雖然越努力成績越好,但是你不能保證自己沒有失誤啊。這個失誤就是殘差,但是失誤肯定不是主要部分,所以R2還是很大的。R2沒有很明確的界限,說什麼就是好什麼就是不好,有的時候時間序列的擬合程度都不是很好,甚至只有0.3到0.4,所以要綜合來看,沒有很確定的界限。例如,考慮這樣一個例子。在冬季的幾個月裡,人們經常通過燃油取暖,因為取暖用的燃油在冬季的銷售額比在夏天的銷售額要高。同樣,滑雪設備的銷售額在冬季也比夏天要高。事實上,如果我們打算運行一個以滑雪設備的銷售額作為自變量x以及取暖用的燃油的銷售額作為因變量y的回歸模型,那麼產生的模型將是很好的模型,並具有很高的R2數值。不過,我們知道滑雪設備的銷售額並沒有造成人們購買更多的家用取暖的燃油。當然還有其他情況,比如當回歸直線是平行於x軸,並且與原始數據的散點圖擬合度也非常高,但R2=0.說明一個低的R2數值,並不一定意味著回歸模型缺乏可信度。(極端舉例)又或者,一個高的R2數值但原始數據的散點圖表明因變量y的觀測值用一條曲線擬合比用一條直線擬合的效果可能會更好。(這是我們也會考慮參考其他擬合指標,比如AIC準則……)so,樓主覺得R2數值有時會給出有關線性回歸模型對數據擬合程度好的誤導信息。一般說來,較高的R2數值比較低的R2數值要好。接受回歸模型足夠好的R2數值的決定因素主要取決於這個模型的應用目的以及經驗和良好的管理知識。還是有區別的,擬合優度是指這個模型對於數據來說,解釋變量能夠解釋被解釋變量的程度,F說明的是整個模型中所有的解釋變量的顯著程度,和T值是對應的。撇開平方不說,R指的是線性相關係數,也就是說因變量和自變量之間的線性相關程度(注意強調的是線性!),如果兩者關係很大,那麼自然用他們做出的模型當然比較好用自變量解釋因變量。(當然這又要引申出多重共線的問題了……這就不深究了)樓主也希望聽聽大家的見解,特別是看到知乎上的那位學計量的高票答案,有些確實說的有道理,但可能作為學統計的我,確實有些地方也不太能完全贊同吧,不知大家怎樣覺得?

相關焦點

  • 統計諮詢:決定係數(R方)是否越大越好?
    回覆:決定係數(coefficient of determination,R2)是反映模型擬合優度的重要的統計量,為回歸平方和與總平方和之比。R2取值在0到1之間,且無單位,其數值大小反映了回歸貢獻的相對程度,即在因變量Y的總變異中回歸關系所能解釋的百分比。
  • 俞章盛: 為中國生物統計 推開一扇窗
    出國探索統計應用之路  從大學開始,俞章盛就對統計學科的應用充滿了困惑。  1992年,俞章盛從小山村考到華東師範大學統計系專業,開始了20年的統計職業生涯。但畢業後俞章盛並沒能找到與專業對口的工作,只是找了份技術銷售工作。這讓他意識到,傳統統計教育與應用嚴重脫節。
  • 7省新高考選科統計出爐!學科難度係數爆冷
    這其實不是一句空話,而是一個高考難度係數的規定之一,也就是高考考題得分係數不得低於0.2,換句話說就是得分率不得低於20%。那麼高度難度係數到底是如何劃定的呢?  據了解,高考難度係數是根據考試的成績來決定的。一般情況下, 難度係數的劃分是在考試之後才能知道,考試之前的劃分僅僅只是一種猜測而已。
  • 回歸分析解釋之——決定係數(R^2)
    CFA複習day4:決定係數(the coefficient of determination )能夠由自變量解釋的變異程度佔總的變異程度的比例。考綱要求:會計算並解釋。:(The coefficient of determination does exactly this: It measures the fraction of the total variation in the dependent variable that is explained by the independent variable. )怎麼理解決定係數
  • 山東財經大學考研——21年應用統計考前最後衝刺複習建議
    第二章:2.2統計分組,統計分組原則; 組距數列編制,開口組組距(隱含在計算題中);2.3各種統計圖表示什麼類型的數據?它們各有哪些功能?6.1總體和樣本的關係,樣本間的關係,給定分布會寫出似然函數6.2參數、統計量的定義?
  • 什麼是決定係數?用Python如何實現?
    決定係數:即 R 平方值,也稱判定係數、擬合優度。反應因變量的全部變異能通過回歸關係被自變量解釋的比例。如R平方為0.8,則表示回歸關係可以解釋因變量80%的變異。如某學生在某智力量表上所得的 IQ 分與其學業成績的相關係數 r=0.66,則決定係數 R^2=0.4356,即該生學業成績約有 44%可由該智力量表所測的智力部分來說明或決定。
  • 數學建模筆記——相關係數
    相關係數,其實就是衡量兩個變量之間相關性的大小的指標,常用的相關係數有兩種,一種是pearson相關係數,也就是《概率論與數理統計》這本書裡提到的,平時最為常用的相關係數。另一種稱之為spearman相關係數,我也是在清風老師的課中第一次聽說,它衡量的是兩個變量的依賴性,唔,也可以理解為單調性啦。
  • 是真的難麼?還是沒認真學?
    模擬電子技術真的很難麼?還是你並沒有認真學?我也是過來人,大學生真正花在學習上的時間並不多,大部分人都是快期末考試了突擊複習一下。我承認模電確實有點難度,但是以你們能夠考上大學的智商,只要花點心思認真學習,也不至於學不會。
  • 數據的分布形態:偏態係數與峰態係數
    根據分組數據計算偏態係數,可採用下面的公式:利用Excel中的SKEW函數可以計算一組數值型數據的偏態係數。如果一組數據的分布是對稱的,則偏態係數等於O; 如果偏態係數明顯不等於0,表明分布是非對稱的。偏態係數為正,則為右偏分布;偏態係數為負,則為左偏分布。偏態係數越接近0,偏斜程度就越小。
  • 上海將適時公布基尼係數,完善對高收入群體收入統計
    楊深來 澎湃資料       基尼係數是衡量社會收入分配差距的重要統計指數。澎湃新聞(www.thepaper.cn)記者獲悉,上海市人大代表、臺盟上海市委副主委王中此前提出「率先發布上海市基尼係數的建議」日前得到上海市統計局、市發展改革委等多部門「解決採納」的答覆:上海將會適時公布基尼係數,並探索既反映居民本身內部收入差距、又反映城鄉收入差距的基尼係數,尤其將完善對高收入人群收入狀況的統計。
  • 【R語言教程】線性回歸決定係數R方的計算方法及具體意義 ——【醫學和生物統計】
    決定係數(coefficient ofdetermination),有的書上翻譯為判定係數,也稱為擬合優度。
  • 統計專業學什麼?美國大學統計專業本科常見課程,你了解嗎?
    以加州大學伯克利分校的統計專業為例,要想進入統計專業學習,還需要先完成以下先修課程:  MATH 1A&1B CALCULUS 微積分1&2  該課程研究函數的微分(Differentiation)、積分(Integration)以及有關概念和應用的數學分支。
  • 基因決定不了一切
    因為我們相信生命的種族、血型、孕育、生長、凋亡等等一切,全記錄在基因裡面,我們的生、長、衰、病、老、死等一切生命現象是基因決定的。以為只要對基因進行改變,我們就百病不患,甚至可以長生不老。當有人告訴你,基因決定不了一切!你可能和我一樣,會被這句話顛覆得懷疑人生。
  • 美國統計學會權威發布:P值應該這麼用,學界有錯須改正
    我們基於一系列的假設建立的模型稱為原假設;我們同時還會建立零假設(null hypothsis),即指某種我們想要檢測的效應不存在,例如兩組無差,或者某個因子與結果無關。P值越小,說明數據與零假設之間越不相容。這裡的不相容,可以解釋為對零假設的存疑程度。2. P值不能衡量某假設為真的概率,也不能衡量數據僅由隨機因素造成的概率。
  • 兩分鐘帶你學金融|基尼係數
    基尼係數最大為「1」、最小為「0」,數值越低,表明財富在社會成員之間的分配越均勻。國際慣例把0.2以下視為收入絕對平均,0.2-0.3視為收入比較平均;0.3-0.4視為收入相對合理;0.4-0.5視為收入差距較大,當基尼係數達到0.5以上時,則表示收入懸殊。
  • 官方民間數據 哪個基尼係數更靠譜?【2】
    世界上大多數國家統計的是收入的分布,並且將收入界定為稅後的可支配收入,但也有一些國家統計的是消費支出的分布,比如印度。由於邊際消費傾向遞減的因素,用消費支出計算的基尼係數會明顯低於用收入計算的基尼係數,比如,2005年世界銀行公布的印度基尼係數是0.33,但如果用收入指標衡量將超過0.6;反之,如果用消費支出法計算中國的基尼係數,則2005年中國基尼係數將只有0.26。
  • 回歸係數顯著性t檢驗 - CSDN
    回歸方程的顯著性檢驗  t 檢驗(回歸係數的檢驗)  F 檢驗(回歸方程的檢驗)  相關係數的顯著性檢驗  樣本決定係數  三種檢驗的關係)  拒絕原假設也有兩種情況,一種是直線模型就是合適的,如圖 3,另一種情況為存在 x 對 y 的線性影響,也可通過 x 的高階多項式得到更好的結果,如圖 4。
  • 哥德爾:邏輯的邊界,一切都可證偽.
    中醫的特點,(我一定要講出自己的特色來麼?是否一定要將自己的理論建立在別人的錯誤上呢?  能不能在別人的偏性之上。你把你能說清楚的講清楚就可以了。   關於「九型人格」,是否真的像我說的那樣。我是否真的了解了「九型人格」了呢。「九型人格理論」有什麼優點呢?我想最大的優點就是易學。或者說易學,因為易學所以難用,理論的設計與構架充分的便宜了理論的明晰度問題。
  • 協方差(covariance)與相關係數(2)
    2. 相關係數與協方差的區別與聯繫「協方差計算相關係數」協方差的計算公式:相關係數與p值、預測能力如果兩個變量具有相關性,比如說他們的相關係數為0.8,那麼他們之間的相關性是真實的嗎?回答這個問題,也就是回答他們間的相關係數是否具有統計顯著性,而統計中判斷統計顯著性的方法就是求p值。「相關係數的p值:數據越多,p值越小,置信度越高。」
  • 博時FM|《從0開始學資產配置》:另類投資要做嗎?
    博時FM《從0開始學資產配置》三個階段系列課程,從基礎到實踐,通俗易懂讓您學會資產配置!大家好,歡迎收聽從零開始學習資產配置。我是博時基金的陳奧。今天這一集講到的是另類投資到底要不要做?首先我們要定義一下什麼叫做另類投資?說白了只要不是平時大家常見的投資方式,都可以把它歸到另類投資。