Excel是數據分析師最常用的一種工具,可以搞定絕大多數數據分析工作,對於數據分析初學者來說,最好先從Excel函數開始學習,通過Excel函數感受Excel的強大與神奇。
關於Excel函數,可以分為5大類。
數據清洗類關聯匹配類邏輯運算類計算統計類時間序列類本文將會講解第1類:數據清洗類,在開始講解函數之前,需要先了解以下一些關於Excel的基礎知識。
1、我們可以在 Excel 中進行加、減、乘、除、冪等運算,無需使用任何函數。只需使用基本運算符:+(加)、-(減)、*(乘)、/(除)、^(冪)。
2、Excel是一個二維表格,由行、列組成,行採用數字編號,列採用字母編號。共有一百多萬行和 16,000 多列
3、公式可包含常數、運算符及單元格引用。
注意:所有公式均以等號開頭。
在了解了以上基礎知識後,就可以正式開始Excel函數的學習了。
1、TRIM
功能:去除單元格兩端的空格。
用法:=TRIM(text)。
例如,單元格B2前後有空格(紅色框線所示),通過trim函數作用後,空格被去除了。
說明:TRIM公式並不是去除所有空格,只是去除單元格前後的空格。
2、&符號
功能:字符串拼接
在Excel中,有一個特殊符號很有用,&(讀作and連接符),可以連接字符串及單元格中的內容。
例如,將單元格A1和B1進行連接,直接使用公式:=A1&B1,即可得到結果。
3、CONCAT
功能:連接單元格的內容。
用法:= CONCAT(text1, [text2],…)
例如,通過CONCAT將單元格A1和B1進行連接,如下圖所示。
說明:老版本公式為CONCATENATE。
4、MID
功能:提取字符串中間的字符串
用法:= MID(text, start_num, num_chars)
參數說明:
第1個參數text:提取的目標字符串第2個參數start_num:從第一個字符開始提取第3個參數num_chars:提取幾個字符例如,從身份證號中提取出生年月(圖中標紅的部分),可以通過MID函數實現,提取目標為A2單元格,從第7個字符開始提取,提取個數為8。
5、LEFT
功能:提取字符串左邊的字符串
用法:= LEFT(text, [num_chars])
參數說明:
第1個參數text:要提取的目標字符串第2個參數 [num_chars](可預設):提取幾個字符。說明:用中括號括起來的參數表示該參數可以不寫,即預設。
例如,通過LEFT函數從前面提取出來的年月日中提取年份,從左邊開始,提取4個字符,如下圖所示。
6、RIGHT
功能:提取字符串右邊的字符串
用法:=RIGHT(text,[num_chars])
參數說明:
第1個參數text:要提取的目標字符串第2個參數[num_chars]:提取幾個字符。RIGHT用法與LEFT類似,只是從字符串右邊開B始提取。例如,從年月日中提取月日,如下圖所示。
7、REPLACE
功能:替換字符串中的連續幾個字符或者某個字符
用法:= REPLACE(old_text, start_num, num_chars, new_text)
參數說明:
第1個參數old_text:被替換的原始字符串第2個參數start_num:從第幾個字符開始替換第3個參數num_chars:要替換幾個字符第4個參數new_text:替換後的新字符串例如,用REPLACE函數將手機號的後4位均替換為星號(*),替換的原始字符串為單元格A2,從第8個字符開始替換,替換4個字符,替換為4個星號,如下圖所示。
8、SUBSTITUTE
功能:替換字符串中的連續幾個字符或者某個字符
用法:=SUBSTITUTE(text, old_text, new_text, [instance_num])
參數說明:
第1個參數text:被替換的原始字符串第2個參數old_text:原始字符串中被替換的部分第3個參數new_text:替換後的新字符串第4個參數[instance_num]:從第幾個字符開始替換,可預設。SUBSTITUTE可以實現與REPLACE相同的效果,只是用法有所差異。
例如,用SUBSTITUTE將手機號的後4位均替換為星號,要替換的原始字符串為A2單元格中的手機號,原始字符串中被替換的部分為後4位(通過RIGHT函數獲取,前面已經介紹了RIGHT函數),替換後字符串為4個星號,如下圖所示。
9、求字符串長度:LEN
功能:返回文本字符串中的字符個數。
用法:=LEN(text)
說明:還有另外一個函數LENB,也可以求字符串的長度。
10、求字符串長度:LENB
功能:返回文本字符串中的字符個數。
用法:=LENB(text)
LEN和LENB的區別在於,對於len來說,一個中文字符的長度計算為1,對於lenb來說,一個中文字符的長度計算為2,對於英文字符或者數字則沒有差異。
例如,通過LEN和LENB分別獲取字符串的長度,對於英文、數字沒有差異,對於中文有差異,如下圖所示。
總結:以上是Excel數據分析中常用的10個數據清洗類函數。