關鍵概念:每個數據科學家都應了解的5個概念

2021-01-09 讀芯術

全文共2196字,預計學習時長6分鐘

圖源:unsplash

本文將重點介紹一些數據科學領域的關鍵概念,掌握它們對於你今後的職業生涯大有益處。這些概念或許你已經了解,或許你還未掌握。不論你現在是否清楚,筆者的目的是向你專業地解釋為何它們至關重要。

多重共線性、獨熱編碼、欠採樣和過採樣、誤差度量以及敘事能力,這是筆者在想到專業數據科學家日常工作時首先想到的關鍵概念。敘事能力或許算是技能和概念的結合,但筆者在此還是想強調它在數據科學家工作中的重要性。我們開始吧!

多重共線性

多重共線性雖然看起來又長又拗口,拆開來看還是易於理解的。「多重」指數量多,「共線性」則意味著線性相關。多重共線性可以描述為在回歸模型中,兩個或多個解釋變量解釋相似信息或高度相關。這一概念之所以引起關注,有以下幾個原因。

對於某些建模技術來說,多重共線性可能導致過擬合,最終降低模型性能。冗餘數據時有出現,模型中的所有特徵或屬性並非都是有必要的。因此,可以採用某些方法來找到應該被刪除的特徵,正是它們導致了多重共線性。

· 方差膨脹係數(VIF)

· 相關矩陣

數據科學家們經常使用這兩種技術,尤其是相關矩陣和相關圖——通常用某種熱圖進行可視化,而VIF則不太為人所知。VIF值越高,該特徵對回歸模型的用處就越小。

圖源:unsplash

獨熱編碼

獨熱編碼是模型中的一種特徵轉換形式,你可以通過編碼來數值化地體現類別特徵。儘管類別特徵本身有文本值,但是獨熱編碼會將這些信息轉置,以便每個值都成為特徵,行中的觀察值記為0或1。例如,假設我們有分類變量gender,獨熱編碼後的數字表示如下(之前表示為gender,之後表示為male/female):

獨熱編碼處理前後對比

如果你不僅要使用數位化的特徵,還需要使用文本/類別特徵創建數字表示,那麼此轉換非常有用。

採樣

當你擁有的數據不足時,可以使用過採樣作為一種補償。假設在處理一個分類問題時,有一個如下例所示的少數類:

class_1 = 100 rows

class_2 = 1000 rows

class_3 = 1100 rows

如你所見,class_1的類只有少量數據,這意味著你的數據集是不平衡的,也就是所謂的少數類。

有幾種過採樣方法。其中一種叫做SMOTE,即合成少數類過採樣技術(Synthetic Minority Over-samplingTechnique)。SMOTE的實現方式之一是採用K近鄰(K-neighbor)算法來找到最近的點以合成樣本。也有類似的技術反其道而行之,進行欠採樣。

當類或回歸數據中有離群值時,如果你希望確保模型運行在最能體現數據集的採樣結果之上,那麼這些技術便能派上用場。

誤差度量

在數據科學中,有很多用於分類模型和回歸模型的誤差度量。以下是一些可以專門用於回歸模型的方法:

metrics.explained_variance_score

metrics.max_error

metrics.mean_absolute_error

metrics.mean_squared_error

metrics.mean_squared_log_error

metrics.median_absolute_error

metrics.r2_score

metrics.mean_poisson_deviance

metrics.mean_gamma_deviance

對回歸模型來說,上述誤差度量中最常用的兩種是MSE(均方誤差)和RMSE(均方根誤差):

· MSE:平均絕對誤差回歸損失(引自sklearn)

· RMSE:均方根誤差回歸損失(引自sklearn)

對於分類模型來說,可以用精度和ROC曲線下的面積(AUC,Area Under the Curve)來評價模型的性能。

圖源:unsplash

敘事能力

敘事概念的重要性怎麼強調都不為過。它可以被定義成一種概念或技能,但定義本身並不重要。重要的是,如何在商業環境中展現出自己解決問題的能力。許多數據科學家總是只關注模型的精度,但卻無法理解整個商業過程。該過程包括:

· 業務是什麼?

· 問題是什麼?

· 為何需要數據科學?

· 數據科學在其中的目標是什麼?

· 何時能得到可用結果?

· 如何應用我們的結果?

· 我們的結果有什麼影響?

· 如何分享我們的結果和整個過程?

上述問題與模型本身或提升精度無關,重點是如何使用數據來解決公司的問題。與利益相關者和非技術領域的同事相熟對此是大有助益的,在運行基礎模型之前,你需要和產品經理一道評估問題,和數據工程師一起收集數據。在模型過程結束時,你將向關鍵人員介紹結果,這些人最喜歡看可視化結果,因此掌握呈現和交流的技能也是有益的。

對於數據科學家和機器學習工程師來說,有許多需要掌握的關鍵概念。本文介紹的5點,你了解了嗎?

留言點讚關注

我們一起分享AI學習與發展的乾貨

如轉載,請後臺留言,遵守轉載規範

相關焦點

  • 每個數據科學家都必須了解的5大統計概念
    統計和數據科學的重要支柱任何數據科學家都可以從數據集中收集信息-任何優秀的數據科學家都將知道,紮實的統計基礎可以收集有用和可靠的信息。 沒有它,就不可能進行高質量的數據科學。以下是每個數據科學家都應該知道的前五個統計概念:描述性統計,概率分布,降維,過採樣和欠採樣以及貝葉斯統計。讓我們從最簡單的一個開始。
  • 數據科學家必須了解的事:中心極限定理
    來源:Pexels數據科學家必須了解的事:中心極限定理。你了解嗎?編碼之前,快速回顧今天,我想重構中心極限定理(CentralLimit Theorem),以及該定理與數據科學家的大量工作之間的關係。回顧直方圖首先,對於任何數據科學家來說,核心工具都是直方圖——一種非常簡單的圖表。雖然我們肯定會看到許多直方圖,但經常會忽略它的重要性。直方圖的核心目的是了解給定數據集的分布。
  • 獨家 | 熵–數據科學初學者必知的關鍵概念(附連結)
    熵是機器學習的關鍵概念之一。對於任何機器學習愛好者來說,這都是必知的,但許多人對此概念仍感到困惑。本文的重點是,通過探究概率論的基本概念、公式的邏輯與意義、以及其對決策樹算法的重要性來了解熵的作用。那麼對於決策樹算法,應如何選擇特徵?在該特徵中以什麼閾值來構建樹?為了回答這個問題,我們繼續學習機器學習算法中損失函數(loss function)的概念。決策樹算法通過優化損失函數從數據集中創建樹。在分類問題的情況下,損失函數用以度量根節點的目標列中的不純度(impurity)。不純度是指我們在上述討論的信息中可獲得的驚奇度或不確定度。
  • 人人都需要掌握的 5 個基本統計概念 | 網際網路數據資訊網-199IT |...
    統計中的數學可以幫助我們對數據形成具體的結論,而不僅僅是猜測。通過統計,我們可以獲得更深入、更細緻入微的見解,能夠了解數據的確切結構,並在此基礎上了解如何應用其他數據科學技術來獲取更多信息。今天,我們來看看數據科學家需要掌握的5個基本統計概念及其應用。
  • 面試必備:數據科學家必須掌握的3個統計學概念
    從某些角度上來講,如今的數據科學家基本上等於現代統計學家。在數據科學面試中,我們也少不了要面對統計學相關的知識。以下是數據科學相關面試中最頻繁出現的三種統計學問題,它們是許多數據科學應用程式的基本構建模塊。
  • 作戰概念研發應注重「四性」
    隨著人工智慧、雲計算、大數據等技術在軍事領域的廣泛運用,戰爭形態、作戰樣式等正在加速演變,能否準確把握戰爭發展趨勢,推出既能支撐備戰打仗,又能牽引部隊建設發展的新型作戰概念,已成為軍事研究的關鍵領域。做好作戰概念研發工作,具體來講,應注重「四性」。
  • 人人都需要掌握的 5 個基本統計概念
    統計中的數學可以幫助我們對數據形成具體的結論,而不僅僅是猜測。通過統計,我們可以獲得更深入、更細緻入微的見解,能夠了解數據的確切結構,並在此基礎上了解如何應用其他數據科學技術來獲取更多信息。今天,我們來看看數據科學家需要掌握的5個基本統計概念及其應用。
  • 機器學習從入門到進階丨統計學習的關鍵概念
    在本系列的第一篇文章中,談及了數據科學的關鍵概念和過程。在這篇文章中,會更深入一點。首先,將定義什麼是統計學習(Statistical Learning )。然後,將深入到統計學習的關鍵概念,了解統計學習。
  • 每個業務分析專家應具備的9個關鍵技能
    本文為大家介紹了每個業務分析專家應具備的9個關鍵技能,並對每個技能做了簡單的介紹。當前,還有最傑出的一種,每個人都可以輕鬆學習的Microsoft Excel。MS Excel是一種電子表格,可以幫助你分析和繪製數據,它還能執行許多複雜的數學和統計功能。你所要做的就是編寫公式,並且設定要計算的參數的數據範圍。
  • 每個數據科學家都應該知道的5種概率分布
    它們允許熟練的數據科學家識別其他完全隨機變量的模式。在某種程度上,大多數其他數據科學或機器學習技能都基於對數據概率分布的某些假設。這使得概率知識成為統計學家構建工具箱的基礎。如果您正在尋找如何成為數據科學家的第一步。不用多說,讓我們切入正題。什麼是概率分布?
  • 4 個每個人都應該知道的物理學概念
    看起來似乎答案是否定的,但事實是,了解物理學的基礎知識對任何人都很重要。了解基本的物理概念可以讓你變得聰明,也可以讓你更好地解決工作、生活中出現的問題。今天,我們將與您分享 4 個最基本的物理概念,以幫助您理解這一主題。一、經典力學(運動定律)你可能已經聽過艾薩克·牛頓坐在蘋果樹下並制定基本運動定律的故事。 雖然故事部分是偽造的,但有一些道理。
  • 用概念激活向量 (CAVs) 理解深度網絡
    知識表達vs理解,性能vs可說明性,效率vs.簡單程度……任何模稜兩可的事物,都可以通過在準確性和可解釋性之間進行權衡來解釋。你關心的是獲得較好的結果還是理解這些結果是如何產生的?這是數據科學家在每一個深度學習場景中都需要回答的問題。許多深度學習技術在本質上是複雜的,儘管它們在許多場景中都非常精確,但它們可能變得難以解釋。
  • 提高數據科學家講故事能力的5個小技巧
    隨著時間的推移,講故事的技巧、方法和工具發生了變化,但主要概念和目標保持不變,即有效地吸引你的觀眾,使他們能夠真正地與你所說的聯繫起來。 作為數據科學家,我們也被教導要善於講故事。原因是我們經常需要向不同的利益相關者展示我們的工作。因為他們來自不同的背景,所以我們必須相應地改變我們的語氣。但在任何情況下,你的故事都是一樣的。
  • 理解資料庫與數據模型的概念
    2、理解資料庫資料庫可以理解為存儲數據的倉庫,每個數據項在數據倉庫中都有編號,通過編號就可以找到該數據項。例如,圖書館就是存儲圖書的倉庫,在圖書館存儲的每本圖書都有一個編號,編號表示了書的類別和順序號,同類別的書放在一個書架上,便於圖書管理員和讀者查找圖書。圖書館存儲的是圖書,資料庫存儲的是數據,每條數據稱為數據項。
  • 統計知識不容忽視:數據科學家必須了解的統計學
    這些統計學概念有助於我們更好地理解不同模塊和各種技術,它們是數據科學、機器學習和人工智慧領域很多概念的基礎。1.集中趨勢度量集中趨勢的一個度量是找到一組數據中間位置的數值,用它來描述這一組數值。· 所有數據點(總體均值為μ)的方差,每個數據點都用Xi表示,除以數據個數N。
  • 物理學中5個關鍵概念及其基本的解釋
    今天,我將和你們分享10個基本物理概念的一個非常簡單的解釋。重力重力(引力)是宇宙中自然存在的四種力之一。它是兩個有質量的物體之間的引力。任何兩個有質量的物體都會相互吸引。然而,另一個有趣的想法是,因為我們有質量,所以我們必須稍微吸引一些物體。這是一個微不足道的力,但是每一個有質量的物體,無限遠的物體,都對你有一個輕微的吸引力,但是這個力小到無法形容,看看引力公式就知道了。
  • 數據結構基本概念
    數據元素:是數據的基本單位(例如,A班中的每個學生記錄都是一個數據元素),也就是說數據元素是組成數據的、有一定意義的基本單位,在計算機中通常作為整體處理數據項:是具有獨立含義的數據最小單位,也稱為成員或域(例如,A班中每個數據元素即學生記錄是由學號、姓名、性別和班號等數據項組成)。
  • 數據模型概念及類型劃分
    數據模型包括資料庫數據的結構部分、資料庫數據的操作部分和資料庫數據的約束條件  內容  數據模型所描述的內容包括三個部分:數據結構、數據操作、數據約束。  1)數據結構:數據模型中的數據結構主要描述數據的類型、內容、性質以及數據間的聯繫等。數據結構是數據模型的基礎,數據操作和約束都建立在數據結構上。不同的數據結構具有不同的操作和約束。
  • 對基本概念理解到位是解題關鍵
    結論5 有第二類間斷點的函數可以有原函數。 結論6 變限積分表示的函數不一定是原函數。 基本知識點的重要性 典型2:2005-(10)題: 設 [解析與點評1] 採用二重積分的坐標變換(變量替換)解答此題,數學上的結論可取,但方法與概念嚴重超過國家考試大綱要求,暫且不說解答過程需要較長時間(至少5分鐘),對考生準確理解大綱也是一個誤導,並且,如若此題真必須用二重積分的坐標變換解答,則可以說此考題嚴重超綱,命題不合格。事實上,國家考試中心命題處的老師設計的這個考題有很高的質量,且在考綱要求之內,所用知識點非常基本。
  • 讀書 | 讓你更聰明的5個科學概念
    Edge網站每年邀請一批知名科學家回答一個年度問題。2011年的年度問題是:哪些科學概念能讓你更聰明?(直譯是:哪些科學概念能改進所有人的認知工具箱?)它可以出自邏輯學、經濟學等任何學科,但必須精煉且具有廣泛的適用性。於是各種效應和法則被揪了出來,如哥白尼原則、比較優勢法則、定勢效應、路徑依賴。