數據科學家是當前全球商業環境中令人夢寐以求的工作,成為一名數據科學家需要付出很多努力。作為未來的數據科學家,你需要掌握多種技能,才能在數據科學和分析領域有所成就。雖然在完成大學課程時你已經掌握了許多數據科學技能,但還有些技能只有在實際工作中才能學到。
這些是最近興起的一些現代數據科學概念,只有踏入工作領域的數據科學家才知道的高級技能。作為一名剛剛嶄露頭角的數據科學家,你只有在整個職業生涯中不斷學習,才能在職場中快速成長。對於當今的數據科學家或正在尋求在所屬行業中有所突破的人來說,都必須把技能訓練當成一種習慣。例如考取一些廣泛認可的數據科學資格證書,對發展新技能有很大幫助。
以下是當今數據科學家事業成功必須具備的五項技能。
「Multicollinear」這一單詞由兩部分組成——「multi」表示多個,「collinear」表示線性相關。Multicollinearity表示兩個或多個變量描述相似的信息,或者在回歸模型中緊密相關。這一概念引起重視是有原因的。
Multicollinearity可能導致某些模型過度擬合,性能下降。為了檢測multicollinearity,數據科學家通常使用以下兩種方法:
熱圖 (Heatmaps)
方差膨脹因子 (VIF)
VIF的值越高,可用於回歸建模的特徵就越少。
One-Hot Encoding是建模過程中特徵轉換的一種方法。通過one-Hot Encoding,數據科學家可以把類別特徵轉換成數值形式。每個類別特徵可以有很多個值,通過one-Hot Encoding,每一個值都會變成一個新的特徵。新的特徵只能取 「1」 或 「0」 兩個值。鑑於這種方法可以把所有類別特徵或字符串以數值的形式表示出來,當你有很多這類特徵但需要數值特徵來建模時,就會發現它的巨大作用。
當數據嚴重匱乏時,可以使用過採樣 (Oversampling) 的方式。假設你正在做分類問題,並且數據集包含少數類,比如下面這樣:
類別1= 100行
類別2= 1000行
類別3= 1100行
這裡類別1樣本數量很少,數據集不平衡,因此類別1被稱作「少數類 (Minority class)」。過採樣有很多方式。其中之一就是SMOTE (Synthetic Minority Over-Sampling Technique)。SMOTE採用kNN技術尋找少數類樣本的近鄰,以此構造新的少數類樣本,補充訓練集。還有很多類似於SMOTE的其他技術,使用相反的方法進行欠採樣 (Under sampling)。
當回歸數據或分類類別中有異常值時,這些方法都非常有效,可以使採集的樣本更符合未來將投入模型的數據。
不管是回歸模型還是分類模型中,都有很多數據科學領域的error metrics。根據scikit-learn庫,以下是最適合回歸模型的error metrics:
metrics.mean_gamma_deviance
metrics.r2_score
metrics.explained_variance_score
metrics.median_absolute_error
metrics.mean_squared_log_error
metrics.mean_poisson_deviance
metrics.mean_squared_error
metrics.max_error
metrics.mean_absolute_error
其中,最受歡迎的兩個error metrices是RMSE和MSE。
Storytelling大概是最被低估的數據科學概念或技能,但實際上,它可能是你為了成為數據科學家可以獲得的最強大的技能。在數據科學的世界中,storytelling意味著你與公司中的團隊成員和高層管理人員交流解決問題的策略的能力。很多時候,數據科學家過多地關注模型的準確性,但卻不了解整個業務流程的具體要求。
整個業務流程包括以下元素和變量:
以上任何一點可能都不會導致模型準確性的明顯進步。但了解這些可以幫助你了解如何使用數據來有效解決公司的業務問題。每一個數據科學家都應該花些時間與利益相關者和非技術同事溝通,因為可能有一天你會需要與他們合作,並且直接或間接的需要他們的服務。
你還可能與產品經理合作,需要他們幫助確定問題。你還會需要數據工程師來獲得相關數據。之後,你還要向高級管理層的人員做報告和演示,他們將最終評估你的模型。因此,成為一名優秀的溝通者會讓你的工作事半功倍。
原文作者:Palak Sharma
翻譯作者:Haoran Qiu
美工編輯:過兒
校對審稿:Dongdong
原文連結:https://palakdatascientist.medium.com/5-current-concepts-data-science-professionals-must-master-in-2021-26625f7ed28e
往期精彩回顧
點擊「閱讀原文」查看數據應用學院核心課程