經常會有數據新人問小九一個問題,那就是數據分析工作到底在做什麼?其實每個公司的數據分析師其職責都是不太相同的,大公司對數據分析師要求更細化,而初創公司的要求就是需要數據分析師是個多面手。另外不同領域的數據分析師需要擅長的工具和工作細則也是不同的。那麼問題來了,到底什麼是標準的數據分析師工作啊?
數據分析師的日常工作
我們來看下預設中的數據分析師的一些工作場景,看看數據分析師核心的工作價值有什麼?
收集數據數據分析師的工作第一步就是收集數據,如果是內部數據,可以用SQL進行取數,如果是要獲取外部數據,數據的可靠真實性和全面性其實很難保證。在所有獲取外部數據的渠道中,網絡採集越來越受到大家的關注。網絡採集最常用的方法是通過爬蟲獲取數據,相比較而言,編寫爬蟲程序獲取到的海量數據更為真實、全面,在信息繁榮的網際網路時代更為行之有效。如果是分布式系統的大數據,使用Hadoop和Apache Spark兩者進行選取和清理。
可以看出,光是收集數據就要用到各種不同的計算機語言和知識了。如果一個數據分析師只會SQL取數是不夠的,會逐漸被市場淘汰。因為SQL資料庫無法支持大量的數據流量,無法支持SparkStreaming的實時數據採集。
數據清洗數據清洗, 是整個數據分析過程中不可缺少的一個環節,其結果質量直接關係到模型效果和最終結論。在實際操作中,數據清洗通常會佔據分析過程的50%—80%的時間。國外有些學術機構會專門研究如何做數據清洗,相關的書籍也不少。需要進行處理的數據大概分成以下幾種:缺失值、重複值、異常值和數據類型有誤的數據。
數據可視化數據可視化是為了準確且高效、精簡而全面地傳遞出數據帶來的信息和知識。可視化能將不可見的數據現象轉化為可見的圖形符號,能將錯綜複雜、看起來沒法解釋和關聯的數據,建立起聯繫和關聯,發現規律和特徵,獲得更有商業價值的洞見和價值。在利用了合適的圖表後,直截了當且清晰而直觀地表達出來,實現了讓數據說話的目的。人類右腦記憶圖像的速度比左腦記憶抽象的文字快100萬倍,這也就是為什麼數據可視化能夠加深和強化受眾對於數據的理解和記憶。小九在商業數據分析推薦使用Tableau, 5分鐘出數據可視化,無腦開掛了解一下?
所處行業的數據方向建設和規劃不同行業和領域的側重點是不同的,好比小九的專業領域是商業,可以是商業策略,也可以是市場營銷,是不固定的,要依據公司的戰略發展走。許多行業都是需要數據分析師的存在,像金融、製藥、生物、政治、歷史、經濟、新聞傳媒、物流、時尚、旅遊、環保……對一個領域有了充分的理解和在該領域深入從事的經驗,進而體現在數據分析上時,能夠更好地發現並定義出實際的問題,也就可以在數據分析之後更符合行業發展規律地去改進問題。
數據報告展示在小九看來,最可以體現數據分析師價值的點就在於通過數據給業務帶來價值。數據分析師作為業務與IT的橋梁,與業務的需求溝通是其實是數據分析師每日工作的重中之重。在明確了分析方向之後,能夠讓數據分析師的分析更有針對性。如果沒和業務溝通好,數據分析師就開始擼起袖子幹活了,往往會是白做了。最後結果的匯總體現也非常重要,不管是PPT、郵件還是監控看板,選擇最合適的展示手段,將分析結果展示給業務團隊。
小九想說數據分析師是個很大的概念,不等同於商業數據分析師,商業只是許多值得關注的領域中,需求量非常大,也是薪資相對較高的行業之一。如果你以為一個數據分析師只是在公司裡負責某一商業業務的輔助工作,那些搞金融、生物基因、宏觀經濟、國際關係的數據分析師怎麼說呢?
這裡小九要說明,什麼是商業數據分析師?為業務服務的分析師都叫商業數據分析師或者是業務型數據分析師。可以理解為服務於產品、運營、市場、廣告等等業務部門、提供數據支持。作為商業數據分析師,崗位職責和崗位要求是相呼應的,深入業務、了解完整的商業數據分析流程,給業務提出建議。
可以說數據分析是一個工具,就好像統計也好,數學也好,計算機技術也好……都是我們在工作時手上的武器,無論什麼樣的武器最終目的都是為了可以更了自己所處的領域,並用武器從數據中洞察出問題,運用分析思維,去解決實際問題,這才是數據分析師的價值。