全文共2196字,預計學習時長6分鐘
本文將重點介紹一些數據科學領域的關鍵概念,掌握它們對於你今後的職業生涯大有益處。這些概念或許你已經了解,或許你還未掌握。不論你現在是否清楚,筆者的目的是向你專業地解釋為何它們至關重要。
多重共線性、獨熱編碼、欠採樣和過採樣、誤差度量以及敘事能力,這是筆者在想到專業數據科學家日常工作時首先想到的關鍵概念。敘事能力或許算是技能和概念的結合,但筆者在此還是想強調它在數據科學家工作中的重要性。我們開始吧!
多重共線性
多重共線性雖然看起來又長又拗口,拆開來看還是易於理解的。「多重」指數量多,「共線性」則意味著線性相關。多重共線性可以描述為在回歸模型中,兩個或多個解釋變量解釋相似信息或高度相關。這一概念之所以引起關注,有以下幾個原因。
對於某些建模技術來說,多重共線性可能導致過擬合,最終降低模型性能。冗餘數據時有出現,模型中的所有特徵或屬性並非都是有必要的。因此,可以採用某些方法來找到應該被刪除的特徵,正是它們導致了多重共線性。
· 方差膨脹係數(VIF)
· 相關矩陣
數據科學家們經常使用這兩種技術,尤其是相關矩陣和相關圖——通常用某種熱圖進行可視化,而VIF則不太為人所知。VIF值越高,該特徵對回歸模型的用處就越小。
獨熱編碼
獨熱編碼是模型中的一種特徵轉換形式,你可以通過編碼來數值化地體現類別特徵。儘管類別特徵本身有文本值,但是獨熱編碼會將這些信息轉置,以便每個值都成為特徵,行中的觀察值記為0或1。例如,假設我們有分類變量gender,獨熱編碼後的數字表示如下(之前表示為gender,之後表示為male/female):
如果你不僅要使用數位化的特徵,還需要使用文本/類別特徵創建數字表示,那麼此轉換非常有用。
採樣
當你擁有的數據不足時,可以使用過採樣作為一種補償。假設在處理一個分類問題時,有一個如下例所示的少數類:
class_1 = 100 rows
class_2 = 1000 rows
class_3 = 1100 rows
如你所見,class_1的類只有少量數據,這意味著你的數據集是不平衡的,也就是所謂的少數類。
有幾種過採樣方法。其中一種叫做SMOTE,即合成少數類過採樣技術(Synthetic Minority Over-samplingTechnique)。SMOTE的實現方式之一是採用K近鄰(K-neighbor)算法來找到最近的點以合成樣本。也有類似的技術反其道而行之,進行欠採樣。
當類或回歸數據中有離群值時,如果你希望確保模型運行在最能體現數據集的採樣結果之上,那麼這些技術便能派上用場。
誤差度量
在數據科學中,有很多用於分類模型和回歸模型的誤差度量。以下是一些可以專門用於回歸模型的方法:
metrics.explained_variance_score
metrics.max_error
metrics.mean_absolute_error
metrics.mean_squared_error
metrics.mean_squared_log_error
metrics.median_absolute_error
metrics.r2_score
metrics.mean_poisson_deviance
metrics.mean_gamma_deviance
對回歸模型來說,上述誤差度量中最常用的兩種是MSE(均方誤差)和RMSE(均方根誤差):
· MSE:平均絕對誤差回歸損失(引自sklearn)
· RMSE:均方根誤差回歸損失(引自sklearn)
對於分類模型來說,可以用精度和ROC曲線下的面積(AUC,Area Under the Curve)來評價模型的性能。
敘事能力
敘事概念的重要性怎麼強調都不為過。它可以被定義成一種概念或技能,但定義本身並不重要。重要的是,如何在商業環境中展現出自己解決問題的能力。許多數據科學家總是只關注模型的精度,但卻無法理解整個商業過程。該過程包括:
· 業務是什麼?
· 問題是什麼?
· 為何需要數據科學?
· 數據科學在其中的目標是什麼?
· 何時能得到可用結果?
· 如何應用我們的結果?
· 我們的結果有什麼影響?
· 如何分享我們的結果和整個過程?
上述問題與模型本身或提升精度無關,重點是如何使用數據來解決公司的問題。與利益相關者和非技術領域的同事相熟對此是大有助益的,在運行基礎模型之前,你需要和產品經理一道評估問題,和數據工程師一起收集數據。在模型過程結束時,你將向關鍵人員介紹結果,這些人最喜歡看可視化結果,因此掌握呈現和交流的技能也是有益的。
對於數據科學家和機器學習工程師來說,有許多需要掌握的關鍵概念。本文介紹的5點,你了解了嗎?
留言點讚關注
我們一起分享AI學習與發展的乾貨
如轉載,請後臺留言,遵守轉載規範