很多時候我們走的走的就會忘記當初為什麼而出發。就像數據分析一樣,現在被炒的很熱,但是數據分析究竟在分析些什麼呢?很多新人可能被唬住了,其實這些在我們以前的統計學中都學過。
不管是用Python還是R,其實和用Excel一樣,只不過現在之所以用Python、R是因為大數據時代麼,數據太多,Excel的處理能力跟不上,但是這些都只是一個工具而已,核心還是圍繞統計學不變的。
今天就來聊聊我們該從哪些方向去分析(描述)數據。
總體概覽指標又稱統計絕對數,是反映某一數據指標的整體規模大小,總量多少的指標。
比如當日銷售額60萬,當日訂單量2萬,購買人數1.5萬,這些都是一些概覽指標,用來反映某個時間段內某項業務的某些指標的絕對量。
我們把經常關注的總體概覽指標稱為關鍵性指標,這些指標的數值將會直接決定公司的盈利情況。
對比指標是說明現象之間數量對比關係的指標,常見的就是同比、環比、差這幾個指標。
同比是相鄰時間段內某一共同時間點內指標的對比,環比就是相鄰時間段內指標的對比;差就是兩個時間段內的指標直接做差即可,差的絕對值就是兩個時間段內指標的變化量。
比如說當日與昨天比較、本周與上周、本月與上月比較都是環比;當日與上周同期、本周與上月同期、本月與去年同月比較都是同比。
集中趨勢指標是用來反映某一現象在一定時間段內所達到的一般水平。用平均指標來表示,比如平均工資水平、平均年齡、平均房價等。平均指標分為數值平均和位置平均。
數值平均是統計數列中所有變量值平均的結果。有普通平均數和加權平均數兩種。
位置平均時基於某種特殊位置上或者是普遍出現的標誌值作為整體一般水平的代表值。有眾數、中位數兩種。
眾數是被研究總體中出現次數最多的變量值,他是總體中最普遍的值,因此可以用來代表一般水平。如果數據可以分為多組,則為每組找出一個眾數。注意:眾數只有在總體內單位充分多時才有意義。
中位數是將總體中各單位標誌值按大小順序排列,處於中間位置的變量值就是中位數。因為處於中間位置,有一半變量值大於該值,一半小於該值,所以可以用這樣的中等水平來表示整體的一般水平。
離散程度指標是用來表示總體分布的離散(波動)情況的指標,如果這個指標較大,說明數據波動比較大,反之則說明數據相對比較穩定。
全距(又稱極差)、方差、標準差等幾個指標是用來衡量數值的離散情況。
全距(極差):平均數讓我們知道了某一指標的集中趨勢,但是無法知道數據的變動情況。比如網上報導說XX公司員工的平均月薪為7萬,這個7萬是什麼意思呢?是大多數人的工資都是7萬左右還是少數幾個高管的工資特別高,導致均值特別高呢?如果單從均值是無法獲取更多信息的。所以引入了全距,全距的計算方法是用數據集中最大數(上界)減去數據集中最小數(下界)。
全距存在的問題:
對於問題1我們引入四分位距的概念。四分位數將一些數值從小到大排列,然後一分為四,最小的四分位數為下四分位數,最大的四分位數為上四分位數,中間的四分位數為中位數。
對於問題2我們引入了方差和標準差兩個概念來度量數據的分散性。
方差是每個數值與均值距離的平方的平均值,方差越小說明各數值與均值之間的差距越小,數值越穩定。
X為變量,μ為總體均值,N為數據個數。
標準差是方差的開方。表示數值與均值距離的平均值。你可能會說有方差了為啥還要標準差呢?因為標準差與實際指標的單位是一致的。更具有實際意義。
上面提到的幾個維度是對數據整體的情況進行描述,但是我們有的時候想看一下數據整體內的變量之間存在什麼關係,一個變化時會引起另一個怎麼樣的變化,我們把用來反映這種關係的指標叫做相關係數,常用r來表示。
其中,Cov(X,Y)為X與Y的協方差,Var[X]為X的方差,Var[Y]為Y的方差
關於相關係數需要注意幾點:
相關關係不等於因果關係,相關只能說明兩件事情有關聯,而因果關係的話,是說明一件事情導致了另一件事情的發生。不要把這兩個關係混淆使用。
比如啤酒和尿布是具有相關關係的,但是不具有因果關係。但是流感疾病和關鍵詞檢索量上漲是具有因果關係的。
喜歡文章的話,點個「在看」哦