至今,數據分析師的行業依然很火熱,但是大部分人還是不清楚數據分析的目的是什麼,分析的步驟、方法都有哪一些。數據分析主要就是為了從海量的數據中提取有用的信息和形成結論,從而對數據加以詳細的研究和概括總結。
數據分析的步驟主要是以下幾步:
1、確定數據的準確性
2、明確影響數據的因素
3、重視長期的數據檢測
4、保持客觀的視角
5、注意剔除幹擾項
在分析過程中主要運用的方法有以下16種:
—
—
描述統計
描述統計主要是通過圖表或者數學方法,對已有的數據資料進行整理、分析,把數據的分布狀態、數字特徵和隨機變量三者之間的關係進行估計和描述呈現。描述統計主要集中在趨勢分析、離中趨勢分析和相關分析三個部分。
我們舉一個簡單的例子,環境會影響植物的生長,那麼如何增加植物的增長高度呢?我們需要把不同的溫度、溼度、光照時間、降水量等環境因素進行排列組合,然後把每一種環境作為實驗單獨進行處理,從而用因素分析法找出與植物增長的相關係數最高的環境因素。
—
—
假設檢驗
1、參數檢驗
2、非參數檢驗
假設檢驗一般分為三個步驟:建立假設,確定檢驗水平;選擇檢驗方法,計算統計量大小;根據統計量確定P值,做出推斷統計。假設檢驗的方法主要分為t-檢驗、z-檢驗和F-檢驗,與此相關的統計學知識也是數據分析師需要學習掌握的。
—
—
信度分析
數據分析中的信度分析主要多用於SPSS中,那其實就是信度檢驗和效度檢驗。這兩種檢驗方式相互獨立但是檢驗結果相輔相成。SPSS也是數據分析中一個非常重要的軟體,信度分析是需要各位數據分析師好好掌握的一種分析方法。
—
—
列聯表分析
列聯表是指對一組觀察對象分別觀察其兩種分類變量的表現,歸納成雙向交叉排列的統計表,這一類統計表用的描述行變量和列變量之間的關係就叫做列聯表或者交叉表。
—
—
相關分析
相關分析作為數據分析的一個基本的方法,常用語發現不用的變量之間的關聯性,也就是相似性,從而可以幫助我們預測未來。
—
—
方差分析
方差分析也叫做單因素方差分析,一種因素是認為可以控制的測量出來的因素,另一種就是不可控的隨機因素。而因素所在的狀態則稱為因素的水平,那麼如果在試驗的過程中,只有一個因素在改變,就稱此實驗為單因素試驗。方差分析主要是用來驗證兩組及以上不同的樣本中的樣本均值是否有顯著性的差異。
舉個例子來首,一共有6臺機器用來生產規格相同的鋁合金銅板,鋁合金銅板的厚度就是實驗的指標,機器就是因素,不同的6臺機器是因素的6個水平。那這個實驗的目的就是考察每臺機器生產出來的鋁合金銅板的厚度是不是有非常明顯的差異。
今天就先介紹上面6中數據分析的常見方法,剩下的幾種我們下一篇再繼續。
+End+