一友讀北大管院大數據課程,昨日問起一題,關於數據分析中的overfitting來,與之答惑之後,思之良多,overfitting:過度擬合,亦或是「過猶不及」,或是「一葉障目」,或是「管中窺豹」。現實中,很多事情莫不如此,中庸之道,或許真的挺好。
以回歸模型來解釋過度擬合問題,下圖非常直觀的說明了這個問題:
一般來講,建模有兩個用途,一是解釋當前樣本的特徵,換句話說就是用最簡練的話來對這個樣本群進行概述;或者另外一個樣本是否應該屬於這個樣本群;再就是預測未來的某個樣本發生的概率。那麼,通過上圖我們可以看出,underfitting:能夠描述樣本群的特徵,但比較粗糙,精度不夠,用咱們統計專業術語來講,就是信度很高,效度不夠,置信區間太大;overfitting:表面上看起來,對於數據的擬合度很高,似乎效度很高,但是,這個藍色線條的數學表達式,恐怕是較為複雜,我們用它解釋起來,也非常費勁,其實,更為可怕的是,它的預測準確性很弱。
統計,真的是和生活息息相關,我們從小受到的教育,很多時候是非黑即白,小時候的抗戰電影尤為如此,英雄,濃眉大眼,浩然正氣(沒想到你朱時茂這濃眉大眼的也會叛變革命);敵人賊眉鼠眼,身軀佝僂。但現實世界中,除了黑白定性,還有黑白之間的定量——灰。在黑白的世界裡,英雄活得很累,壞蛋活得更累,英雄被描寫成高大全,容不得半點道德瑕疵,而壞蛋被扣上這頂「壞蛋」的帽子之後,其所具備的其它優點也被掩蓋了。郭德綱吃大蒜,只是口氣不太好聞,但人家說得相聲還是蠻有意思的嘛!幹嘛總是去聞那種味道而放棄聽有趣的相聲呢?
最後,引用一下尊敬的王靜龍老師幾頁PPT作為結束:
一起大數據:
數據分析& 挖掘愛好者學習、交流、分享社區。
(掃碼訪問 http://www.17bigdata.com)
微博:一起大數據 http://weibo.com/17bigdata
投稿& 諮詢& 求職& 招聘& 交流 請聯繫 QQ:23683716 微信:L23683716