作者|唐毓財
後臺回復「唐毓財」
查看益者往期文章
全文總計2604字,需閱讀7分鐘,以下為今天的益者原創:
在對數據進行分析的時候,首先要對數據進行描述統計分析,這樣我們就可以對感興趣的變量的分布特徵以及內部結構獲得一個直觀的感性認識,以決定採取何種分析方法,更加深入地揭示變量的統計規律。由於統計學的概念比較枯燥,以圖表的形式來解釋統計學的概念,容易理解。§均值 :指在一組數據中所有數據之和再除以數據的個數§頻數又稱"次數"。指變量值中代表某種特徵的數(標誌值)出現的次數。§中位數: 中位數(又稱中值,英語:Median),統計學中的專有名詞,代表一個樣本、種群或概率分布中的一個數值,其可將數值集合劃分為相等的上下兩部分。§百分位數: 將一組數據從小到大排序,並計算相應的累計百分位,則某一百分位所對應數據的值就稱為這一百分位的百分位數。§95%置信區間:置信區間是指由樣本統計量所構造的總體參數的估計區間。置信區間給出的是被測量參數的測量值的可信程度,即前面所要求的"一個概率"。這個概率被稱為置信水平。置信水平0.95上的置信空間也可以表達為:95%置信區間。
通過平均數的數值,報告群體某一方面的水平高低,通過標準差的大小,報告群體這一方面的數據以平均數為中心的範圍。如果,群體中個體的差異不大,那麼,平均數就具有真實意義,可以有效地描述群體的水平。如果,群體中個體的差異較大,甚至,群體可以分為幾個明顯的子群體,那麼平均數的意義就不大,需要增加新的數據進行描述。在個體差異較大時,群體的標準差的數值也會較大,當標準差的數值達到平均數絕對值的 10% 時,根據實際經驗,此時,平均數的實際意義就不存在[1]。
數據→數據分析→描述統計:
![]()
圖2描述性統計分析
![]()
圖3《新白娘子傳奇》當中,許仙給徐乾介紹自己的娘子時,有一個誇自己娘子的唱段:「婀娜多姿俏紅顏, 更勝仙女下凡間溫婉嫻淑人稱羨,她那醫術超群不待言,婀娜多姿俏紅顏,更勝仙女下凡間,溫婉嫻淑人稱羨,醫術超群不待言,譽滿蘇城杏林間咳咳呦。。。」
![]()
徐乾聽這個唱段倒沒有被驚豔到,可他看到許仙為了給林捕頭按圖找人而畫的白娘子的畫像時,感覺很美, 不敢相信世上有這麼美的人,
![]()
由此,我們可以看出,用圖形展示比語言描述更加具有衝擊力!在統計分析中,統計圖形作為數據描述的主要方法之一,主要是通過點、線、條、面積等的位置與大小的變化來表現或者說明所研究的問題的變化及其規律。可以直觀展示數據的分布情況、運行趨勢、相互關係以及其它信息,因此在數據分析中,圖形分析也是一個非常重要的工具。描述統計常用的圖形,根據使用的目的可以分為:考察數據分布圖形、考察數據隨時間變化的圖形、考察變量之間的關係的圖形,如圖6所示 。
![]()
考察數據分布圖形,根據數據類型、顯示方式等,一般可分為圖形化匯總、直方圖、柏拉圖、箱線圖、條形圖等。如圖4所示。
![]()
考察數據隨時間變化的圖形:根據數據類型、取樣方式等,一般可分為時間序列圖、單值移動極差圖、均值極差圖、均值標準差圖、P圖、U圖等。如圖8所示。
![]()
![]()
( 提供PPT演示繪製步驟,輔助理解和數據練習;後續單獨發一篇文章)
在統計分析中,統計圖形作為數據描述的主要方法之一,統計圖的優點是便於分析研究各類問題。在未知數據特徵的情況下,能夠直觀反映變量的數量差異,便於比較數量差異,研究數量差異問題。以一個商場銷售某種商品為例,使用是否買該商品作為銷售記錄表當中的一個欄位,以購買者的每一個主要特徵作為每一個欄位。如性別、收入、年齡等,使用條形圖來展示該商品購買者的發布的情況,如圖10所示。
![]()
如要給該商品發傳單做廣告,在商場附近看到美女過來,就不要給她派發傳單了。從這裡可以看出,簡單的圖形在我們做決策時能夠給以一定的幫助。可是,簡單的圖形,隱含的信息不全面,也可能會誤導我們。從圖10這張圖上,我們可能認為購買該商品的一定是男性。在派發傳單的時候,都給男性同胞派發。可結果呢,我們會受到打擊。為啥?先來看看圖11所示,這是經過變換的一個條形圖。
![]()
我們把同一性別的圖形按照買/不買擺放到一起,可以看出,雖然男性購買多,但是男性當中,不購買的比率也高啊。我們派發傳單給的男性,可能是那些沒有購買意願的人。
那該如何更好的找出男性當中哪些消費者會在商場購買該商品呢?如圖12,圖上紅色的點代表購買,大部分分布在男性消費者當中,女性幾乎不買,在男性購買者當中,在收入大概16000以下的是購買的主要人群。
![]()
在我們做廣告宣傳時候,看到美女過來,就不要給她派發傳單啦,同時,那些開奔馳過來的男性,別給他派發傳單或者塞傳單到車雨刮那裡了。到此,我們可以看出,合理利用統計圖形,是可以幫助我們分析過去發生的情況,進基於圖形展示的信息,作簡單判斷。但是,由於圖形簡單的不全面,有可能會誤導我們。因此,需要我們多嘗試不同的圖形展示,來獲取信息。如果有更好的圖形,也許,我們會很快獲取更清楚的信息。甚至,在多個特徵影響的情況下,如圖12也只能展示3個特徵(性別、年收入、年齡等)而已。圖13,我們使用決策樹來展示,可一目了然的看出,854個消費者當中,購買該商品的有146個,這些購買者主要是年收入在16950以下的男性(與圖12當中紅色點截的位置接近),高收入消費者很少購買,低收入女性幾乎不買,低收入男性84%購買,還是年齡大於25.5歲的。
通過使用描述性統計,分析「過去」很重要, 不管是數值分析結果,還是圖形展示,可以讓我們了解的數據和研究對象的特徵,進而幫助我們更好的了解進一步的統計分析結果。有些問題只用描述統計就可很好的得出結論,並不是所用的統計方法越高明,越難越好。正如:在江湖上流傳一種功夫,沒有花哨的架子,沒有呼風喚雨的磅礴,但有庖丁解牛般遊刃有餘,身未動,刀未動,人更未動,但敵人已倒地的簡單絕技。(借李時學老師課堂總結的一句話)[1]劉煜琦.統計學在社會調查中的應用[J].科技經濟導刊,2017(03):260.
|益者往期精彩文章回顧|
-任正非:為什麼國家如此重視統計學?
-白話統計學(三)
-白話統計學(二)
-白話統計學(四) 如何讓統計在企業質量管理當中發揮作用?
-項目管理進度計劃表製作及甘特圖繪製方法
-原創 | 淺談統計過程控制
-大神之作:基於EXCEl的規劃求解選擇中央倉庫(燒腦之文,慎入!)
-[精益觀點]男怕入錯行。。。(跳槽是門技術活)
-5S實踐培訓:從現場實踐中重新正確認識5S
-基於多變量約束的運輸問題決策優化及LOGWARE實現
資料來源:標杆精益·益者
文章編輯:Blean
投稿方式:wangyj@benchmarklean.cn