我們討論的數據分組不是程式語言中的數據分組,只是我們在Excel數據處理中經常要用到的數據分組。
什麼是數據分組?
將100名學生分成3個班級,這個過程就叫分組;把學生成績分成不及格、及格、優秀這個過程叫做分組;把試題判對、錯,這個過程叫分組;所以分組是是解決問題的一個過程,一種方法,一種思維。
為什麼要分組?
人腦不喜歡雜亂,希望看到整齊有序的結果,分組就是從雜亂數據到整潔有序結果的一個必須的過程。簡單來說數據分組就是為了使雜亂的數據變得可讀。
分組的原則:
窮盡原則:一個都不能少排他原則:非此即彼分組操作的過程中一定要遵循這兩個原則,對於任何一組數據,分組後的結果,一定是每一行都會有一個對應的分組條目結果,而且同樣特徵的兩行數據,分組結果必須相同。(在60分及格的條件下,58分與59分的分組結果都應該是「不及格」)
分組的類型:
根據數據類型的不同,分組的方法與類型也不同,
數值:100名同學分班,會用隨機抽取的方法,也可以根據序號等距分組;學生的成績分組就是典型的階梯分組;文本:就要複雜一些,比如:時間序列(年月日)、地域(國家、地區、省市)這些是固有的約定俗成的分組;工作中還需要很多自定義的分組,比如:常見地區域劃分,將某幾個省份劃分到一個區域,諸如此類;分組輔助表:
在實際工作中,分組過程大多會是不斷重複的工作,最好的方法是維護一個分組的輔助表,這個有點類似數學題中的窮舉法,所有的分組答案都在這個輔助表中,任何時候想要分組,只需要到這個表裡使用VLOOKUP函數查詢就可以了。
關於數值分組,也同樣會需要一個分組輔助表,通LOOKUP函數查詢分組結果。
建立與維護分組輔助表:
手工操作:數據規律性差,只能耐心點,用關鍵字篩選慢慢的處理,首次建立比較麻煩,後期維護就會好些,技術要求不高,需要的是耐心。公式法:數據有規律,或者條件明確,可以直接編寫公式進行分組。Power Query 查詢:將原始數據通過Power Query處理得到分組的輔助表,這個輔助表不需要加載,保存在查詢中即可,每次可以通過刷新,自動更新,可以通過合併查詢直接使用。Power Pivot 查詢:使用EVALUATE查詢生成一個超級表,這也是一個可以自動刷新的分組輔助表,可以再連結回Power Pivot中作為數據模型的一部分。分組的用途:
編寫公式:再Excel中做數據統計時,如果有了清晰的分組,公式編寫將會變的非常簡單;數據透視:無論是數據透視表、數據透視圖,都依賴於簡潔的數據分組;切片器:切片器同樣依賴於簡潔的分組,未分組的數據冗長,不適合用做切片器;數據模型:數據模型中的維度分析,其實質就是分組分析,很多時候可能還需要對某一維度冗長的數據進行再分組;
注意事項:數據分組是為了產生簡潔清晰的結果,所以分組的條目不宜過多,條目太多就會影響報告的可讀性。