對於剛進入數據分析行業新手來說,EXCEL可以被當做一款入門的軟體。在學習R或Python前,事先掌握一定的EXCEL知識是百利而無一害。EXCEL憑藉其功能強大的函數、可視化圖表、以及整齊排列的電子表格功能,使你能夠快速而深入的洞察到數據不輕易為人所知的一面。
但與此同時,EXCEL也有它的一些不足之處,即它無法非常有效的處理大型數據。這是我曾經遇到的這個問題。當我嘗試使用EXCEL處理含有20萬行數據的數據集時,就會發現EXCEL運行的非常吃力。EXCEL並不適用於處理海量數據,雖然在某種程度上,可以通過一些其他的方法讓EXCEL處理大型數據集,但我更推薦使用R或Python去處理,而不是EXCEL。
在這篇文章中,我將會提到一些關於EXCEL使用方面的小技巧,從而可以節省你寶貴的時間。
01 常用的函數
1. Vlooup():它可以幫助你在表格中搜索並返回相應的值。讓我們來看看下面Policy表和Customer表。在Policy表中,我們需要根據共同欄位 「Customer id」將Customer表內City欄位的信息匹配到Policy表中。這時,我們可以使用Vlookup()函數來執行這項任務。
對於上面的問題,我們可以在F4單元格中輸入公式「=VLOOKUP(B4, $H$4:$L$15, 5, 0)」。按回車鍵後,在City欄位下將會返回所有Customer id為1的城市名稱,然後將公式複製到其他單元格中,從而匹配所有對應的值。
提示:在複製公式中請別忘記使用符號「$」,來鎖定Customer表的查詢範圍。這被稱之為絕對引用,也是經常容易出錯的地方。
2. CONCATINATE():這個函數可以將兩個或更多單元格的內容進行聯接並存入到一個單元格中。例如:我們希望通過聯接Host Name和Request path欄位來創建一個新的URL欄位。
上面的問題可以通過使用公式「 =concatenate(B3,C3)」 並且下拉複製公式來解決。
提示:相對於「concatenate」函數,我更傾向於使用連接符「&」來解決上述問題,公式為「= B3&C3」。
3. LEN():這個公式可以以數字的形式返回單元格內數據的長度,包括空格和特殊符號。
示例:=Len(B3) =23
4. LOWER(), UPPER() and PROPER():這三個函數用以改變單元格內容的小寫、大寫以及首字母大寫(即每個單詞的第一個字母)。
在數據分析的項目中,這些函數對於將不同大小寫形式的內容轉換成統一的形式將會非常有用。否則,處理這些具有不同特徵的內容將會非常麻煩。
下面的截圖中,A列有五種形式的內容,而B列只有兩種,這是因為我們已經將內容轉換成了小寫。
5. TRIM():這是一個簡單方便的函數,可以被用於清洗具有前綴或後綴的文本內容。通常,當你將資料庫中的數據進行轉儲時,這些正在處理的文本數據將會保留字符串內部作為詞與詞之間分隔的空格。並且,如果你對這些內容不進行處理,後面的分析中將產生很多麻煩。
6. If():我認為在EXCEL眾多函數之中最有用的一個。當特定的事件在某個條件下為真,並且另一個條件為假時,可以使用這個公式來進行條件運算。例如:你想對每個銷售訂單進行評級,「高級」和「低級」。假設銷售額大於或等於5000,則標記為「高級」,否則被標記為「低級」。
02 由數據得出結論
1. 數據透視表:每當你在處理公司的數據時,你需要從「北區分公司貢獻的收入是多少?」或「客戶購買產品A訂單的平均價格是多少?」以及許多類似的其它問題中尋找答案。
EXCEL的數據透視表將會幫你輕鬆的找到這些問題的答案。數據透視表是一款用於匯總如:計數,求平均值,求和,以及其他依據相關選擇進行特徵計算的功能。它可以將數據錶轉換為反應數據結論的表格,從而幫助你做出決策。請看下面的截圖:
從上圖可以看出,左邊的表格中有銷售產品的細節內容,即以區域分布和產品的對應關係匹配到每一個客戶。在右邊的表格中,我們按不同區域進行了匯總,並且幫助我們得出了南區有著最高銷售額的結論。
創建數據透視表的方法:
第一步:點擊數據列表內的任何區域,選擇:插入—數據透視表。EXCEL將會自動選擇包含數據的區域,包括標題名稱。如果系統自動選擇的區域不正確,則可人為的進行修改。建議將數據透視表創建到新的工作表,點擊New Worksheet(新工作表),然後點擊OK。
第二步:現在,你可以看到數據透視表的選項板了,包含了所有已選的欄位。你要做的就是把他們放在選項板的過濾器中,就可以看到在左邊生成相應的數據透視表。
從上圖可以看到,我們將「Region」放入行,「Productid」放入列中,「Premium」放入值中。現在,數據透視表中展示了「Premium」按照不同區域、不同產品費用的匯總情況。你也可以選擇計數、平均值、最小值、最大值以及其他的統計指標。
2.創建圖表:在EXCEL裡面創建一個圖表,你只要選擇相應的數據,然後按F11,就會自動生成系統默認的圖表。除此之外,你可以手工改變不同的圖表類型。如果你傾向於在當前工作表中生成圖表,可以按ALT+F1,而不是F11。
當然,在任何一種情況下,只要你創建了圖表,就可以通過定義特定數據源來展示期望的信息。
04 數據清洗
1.刪除重複值:EXCEL有內置的功能,可以刪除表中的重複值。它可以刪除所選列中所含的重複值,也就是說,如果選擇了兩列,就會查找兩列數據的相同組合,並刪除。
如上圖所示,可以看到A001 和 A002有重複的值,但是如果同時選定「ID」和「Name」列,將只會刪除重複值(A002,2)。
按照下列步驟操作可以刪除重複值:選擇所需數據-轉到數據面板-刪除重複值
2.文本分列:假設你的數據存儲在一列中,如下圖所示:
如上如所示,我們可以看到A列中單元格內容被「;」所區分。我們需要將其進行分列,建議使用EXCEL的文本分列功能。按照下面的步驟可以實現分列:
1)選擇A1:A6
2)點擊:數據—分列
上圖中,有兩個選項,「分隔符號」和「固定寬度」。我選擇「分隔符號」是因為有分隔符「;」。如果我們希望按照寬度分列,例如:前四個字符為第一列,第五到第十個字符為第二列,則可以選擇按固定寬度分列。
3)點擊下一步—點擊「分號」,然後下一步,然後點擊完成。
05 基本的快捷鍵
通過快捷鍵來瀏覽單元格或更快速地輸入公式的是最佳的途徑。下面列出了最常用的幾種快捷鍵:
1.按Ctrl + [向下|向上箭頭]:移動到當前列的最底部或最頂部,按Ctrl + [向左|向右箭頭],移動到當前行的最左端和最右端。
2.按Ctrl + Shift +向下/向上箭頭:選擇包括從當前單元格直到最頂部或最底部範圍內的數據。
3.Ctrl + Home:定位到單元格A1
4.Ctrl + End:導航到包含數據的最右下角的單元格
5.ALT + F1:創建基於所選數據集的圖表。
6.按Ctrl + Shift + L:激活自動篩選數據功能。
7.Alt +向下箭頭:打開下拉自動篩選的菜單。
8.ALT + D + S:要排序的數據集
9.按Ctrl + O:打開一個新的工作簿
10.按Ctrl + N:創建一個新的工作簿
11.F4:選擇範圍,並且按F4鍵,可以將數據引用改為絕對引用,混合引用,相對引用。
注意:這不是一個詳盡的清單,從字面上講,我使用快捷鍵完成了平日工作的80%。
EXCEL作為使用最廣泛的數據統計分析軟體,無論你是小白還是資深用戶,總會有一些東西值得你去學習。
最後推薦一門愛數圈開發的excel課程
課程概況:
這門課一共120多節
一次購買,永久免費學習,不限制期限,還有售後答疑
PC和移動端均可學習,還配有數據案例練習
特點