數據科學家應該知道的頂級機器學習算法

2021-01-10 智能甄選

機器學習算法簡介

有兩種方法可以對您可能在現場遇到的機器學習算法進行分類。

首先是按照學習風格對算法進行分組。第二個是通過形式或功能上的相似性對算法進行分組。通常，兩種方法都是有用的。但是，我們將專注於通過相似性進行算法分組，並瀏覽各種不同的算法類型。

按學習風格分組的機器學習算法

算法可以用多種方式對問題進行建模，因為它涉及與體驗的交互。但是，無論我們要如何調用輸入數據都沒有關係。而且，算法在機器學習和人工智慧中很流行教科書。也就是說，首先要考慮一種算法可以適應的學習方式。通常，機器學習算法只能具有幾種主要的學習方式。而且，我們還將通過它們。另外，我們很少有適合他們的算法和問題類型的例子。基本上，這種組織機器學習算法的方法非常有用。因為它迫使您考慮輸入數據的角色和模型準備過程。另外，選擇最適合您的問題的方法以獲得最佳結果。讓我們看一下機器學習算法中的三種不同的學習風格：

監督學習

基本上，在此監督式機器學習中，輸入數據稱為訓練數據，並且一次具有已知標籤或結果，例如垃圾郵件/非垃圾郵件或股票價格。在此，通過訓練過程準備了模型。另外，在此需要做出預測。並在這些預測錯誤時進行糾正。訓練過程將繼續進行，直到模型達到所需的水平。

示例問題是分類和回歸。示例算法包括邏輯回歸和反向傳播神經網絡。無監督學習

在此無監督機器學習中，輸入數據未標記並且沒有已知結果。我們必須通過推導輸入數據中存在的結構來準備模型。這可能是提取一般規則。可以通過數學過程來減少冗餘。

示例問題包括聚類，降維和關聯規則學習。示例算法包括Apriori算法和k-Means。半監督學習

輸入數據是帶標籤和未帶標籤的示例的混合。存在期望的預測問題。但是模型必須學習組織數據的結構以及做出預測。

示例問題是分類和回歸。示例算法是對其他靈活方法的擴展。這就假設了如何對未標記的數據建模。按相似度分組的算法

ML算法通常在功能方面按相似性分組。例如，基於樹的方法和受神經網絡啟發的方法。我認為這是對機器學習算法進行分組的最有用的方法，也是我們將在此處使用的方法。這是一種有用的分組方法，但並不完美。仍然有一些算法可以輕鬆地適用於多個類別。例如學習向量量化。那都是神經網絡方法和基於實例的方法。也有具有相同名稱的類別。那描述了問題和算法的類別。例如回歸和聚類。我們可以通過兩次列出ML算法來處理這些情況。通過選擇主觀上最適合的組。我喜歡後一種方法，即不重複算法以保持簡單。

回歸算法

回歸算法與建模變量之間的關係有關。我們使用模型進行的預測中的誤差度量進行細化。

這些方法是統計工作的主力軍。此外，已被選入統計機器學習。這可能令人困惑，因為我們可以使用回歸來指代問題的類別和算法的類別。最受歡迎的回歸算法是：

普通最小二乘回歸（OLSR）線性回歸邏輯回歸逐步回歸多元自適應回歸樣條（MARS）局部估計的散點圖平滑（LOESS）基於實例的算法

該模型是實例訓練數據的決策問題。這被認為對模型很重要或必需。這樣的方法建立了示例數據的資料庫。並且它需要將新數據與資料庫進行比較。為了進行比較，我們使用相似性度量來找到最佳匹配並做出預測。因此，基於實例的方法也稱為贏家通吃方法和基於內存的學習。重點放在存儲實例的表示上。因此，實例之間使用相似性度量。最受歡迎的基於實例的算法是：

k最近鄰居（kNN）學習矢量量化（LVQ）自組織圖（SOM）本地加權學習（LWL）正則化算法

對另一種方法的擴展。那是懲罰與複雜性有關的模型。同樣，更喜歡更易於泛化的簡單模型。我在這裡列出了正則化算法，因為它們很流行，功能強大。通常對其他方法進行簡單的修改。最受歡迎的正則化算法是：

嶺回歸最小絕對收縮和選擇算子（LASSO）彈性網最小角度回歸（LARS）決策樹算法

決策樹方法可構建決策模型。這是基於數據中屬性的實際值進行的。決策將分支到樹結構中，直到為給定記錄做出預測決策為止。對決策樹進行有關分類和回歸問題的數據訓練。決策樹通常快速，準確，並且在機器學習中大受歡迎。最受歡迎的決策樹算法是：

分類和回歸樹（CART）迭代二分頻器3（ID3）C4.5和C5.0（功能強大的方法的不同版本）卡方自動互動檢測（CHAID）決策樹樁M5條件決策樹貝葉斯算法

這些方法是將貝葉斯定理應用於問題的方法。如分類和回歸。最受歡迎的貝葉斯算法是：

樸素貝葉斯高斯樸素貝葉斯多項式樸素貝葉斯平均一依賴估計量（AODE）貝葉斯信仰網絡（BBN）貝葉斯網絡（BN）聚類算法

像回歸一樣，聚類描述問題的類別和方法的類別。聚類方法是通過建模方法（例如基於質心和層次結構）組織的。所有方法都與使用數據中的固有結構有關。有必要將數據最好地組織成具有最大共性的組。最受歡迎的聚類算法是：

k均值k中位數期望最大化（EM）層次聚類關聯規則學習算法

關聯規則學習方法提取規則。最好地解釋了觀察到的數據變量之間的關係。這些規則可以在大型多維數據集中發現重要和有用的關聯。組織可以利用這一點。最受歡迎的關聯規則學習算法是：

Apriori算法離散算法人工神經網絡算法

這些模型受到生物神經網絡結構的啟發。它們是一類模式匹配。我們用於回歸和分類問題。雖然，有一個巨大的子欄位。由於它結合了數百種算法和變體。最受歡迎的人工神經網絡算法是：

感知器反向傳播霍普菲爾德網絡徑向基函數網絡（RBFN）深度學習算法

深度學習方法是對人工神經網絡的現代更新。那就是利用大量廉價的計算。他們關注建立更大，更複雜的神經網絡。最受歡迎的深度學習算法是：

深玻爾茲曼機（DBM）深度信仰網絡（DBN）卷積神經網絡（CNN）堆疊式自動編碼器降維算法

像聚類方法一樣，降維在數據中尋找固有的結構。雖然，在這種情況下，要進行總結。

通常，可視化尺寸數據可能很有用。另外，我們可以在監督學習方法中使用它。我們採用的許多方法都用於分類和回歸。

主成分分析（PCA）主成分回歸（PCR）偏最小二乘回歸（PLSR）薩蒙地圖多維縮放（MDS）投影追蹤線性判別分析（LDA）混合判別分析（MDA）二次判別分析（QDA）彈性判別分析（FDA）合奏算法

基本上，這些方法是由較弱模型組成的模型。同樣，由於對它們進行了訓練並以某種方式組合了其預測以進行預測。而且，要對哪種類型的弱學習者進行組合以及將其組合的方式進行大量的努力。因此，這是一類非常強大的技術，因此非常受歡迎。

助推自舉聚合（裝袋）AdaBoost堆疊概括（混合）梯度提升機（GBM）梯度增強回歸樹（GBRT）隨機森林常見機器學習算法列表

樸素貝葉斯分類器機器學習算法

通常，對網頁，文檔，電子郵件進行分類將是困難且不可能的。此外，其他冗長的文本注釋也需要手動進行。這就是樸素貝葉斯分類器機器學習算法的用武之地。同樣，分類器是分配總體元素值的函數。例如，垃圾郵件過濾是樸素貝葉斯算法的一種流行應用。因此，這裡的垃圾郵件過濾器是為所有電子郵件分配標籤「垃圾郵件」或「非垃圾郵件」的分類器。基本上，它是按相似性分組的最受歡迎的學習方法之一。這適用於流行的貝葉斯概率定理。這是單詞的簡單分類。另外，還定義了用於內容的主觀分析。

K均值聚類機器學習算法

通常，K-means是一種用於聚類分析的無監督機器學習算法。同樣，K-Means是一種不確定的迭代方法。此外，該算法通過預先定義的簇數k對給定的數據集進行運算。因此，K Means算法的輸出是k個簇，輸入數據在簇之間是分開的。

支持向量機學習算法

基本上，它是用於分類或回歸問題的有監督的機器學習算法。這樣，數據集就向SVM教授有關類的信息。這樣SVM可以對任何新數據進行分類。而且，它通過查找一行將數據分類為不同的類來工作。我們用來將訓練數據集分為幾類。而且，存在許多這樣的線性超平面。此外，在這種情況下，SVM試圖最大化各個類之間的距離。這就涉及到這一點，這被稱為餘量最大化。另外，如果確定了最大化類之間距離的線。然後，增加了很好地泛化到看不見的數據的可能性。SVM分為兩類：

線性SVM-基本上，在線性SVM中，訓練數據即必須通過超平面將分類器分開。非線性SVM-基本上，在非線性SVM中，不可能使用超平面分離訓練數據。Apriori機器學習算法

基本上，它是一種無監督的機器學習算法。我們用來根據給定的數據集生成關聯規則。同樣，關聯規則意味著，如果出現項目A，則項目B也將以一定概率出現。而且，生成的大多數關聯規則都是IF_THEN格式。例如，如果人們購買了iPad，那麼他們還購買了iPad保護套。Apriori機器學習算法的基本原理是：如果一個項目集頻繁出現，那麼該項目集的所有子集也會頻繁出現。如果項目集很少出現。這樣，項目集的所有超集都很少出現。

線性回歸機器學習算法

它顯示了兩個變量之間的關係。此外，還顯示了一個變量的變化如何影響另一個變量。基本上，該算法顯示了對因變量的影響。這取決於更改自變量。因此，自變量作為解釋變量。當他們解釋因素影響因變量時。此外，因變量通常類似於關注因子或預測因子。

決策樹機器學習算法

基本上，決策樹是圖形表示。這利用分支方法來舉例說明決策的所有可能結果。基本上，在決策樹中，內部節點表示對該屬性的測試。因為樹的每個分支都代表測試的結果。葉節點也代表特定的類標籤。即在計算所有屬性後做出的決定。此外，我們必須通過從根到葉節點的路徑來表示分類。

隨機森林機器學習算法

這是機器學習的首選算法。我們使用裝袋法來創建一堆帶有隨機數據子集的決策樹。雖然，我們必須在數據集的隨機樣本上訓練模型幾次。這需要從隨機森林算法中獲得良好的預測性能。同樣，在這種集成學習方法中，我們必須組合所有決策樹的輸出。那就是做出最終的預測。此外，我們通過輪詢每個決策樹的結果來得出最終預測。

Logistic回歸機器學習算法

通常，此算法的名稱可能會有些混亂。由於Logistic回歸算法僅用於分類任務，而不用於回歸問題。同樣，名稱「回歸」在這裡意味著線性模型適合特徵空間。此外，該算法將邏輯函數應用於特徵的線性組合。這需要預測分類因變量的結果。此外，它基於預測變量。描述單個試驗結果的概率被建模為函數。還有，解釋變量的功能。

結論

我們研究了機器學習算法，並且還了解了機器學習算法的分類：回歸算法，基於實例的算法，正則化算法，決策樹算法，貝葉斯算法，聚類算法，關聯規則學習算法，人工神經網絡算法，深度學習學習算法，降維算法，集合算法，監督學習，無監督學習，半監督學習，樸素貝葉斯分類器算法，K均值聚類算法，支持向量機算法，Apriori算法，線性回歸和Logistic回歸。我們還使用了易於理解的機器學習算法圖像。此外，如果您有任何疑問，請在評論部分提問。

數據科學家應該知道的頂級機器學習算法

相關焦點

每個數據科學家都應該知道的10種機器學習方法

10大機器學習算法,看懂你就是數據科學家

新手必看的十種機器學習算法

常見的機器學習算法,你知道幾個?

算法工程師和數據科學家處理大規模的交易數據

機器學習初學者必須知道的十大算法

入門| 機器學習新手必看10大算法

十大機器學習算法之旅已啟程

數據科學和機器學習的最佳Python庫

流行的機器學習算法總結,幫助你開啟機器學習算法學習之旅

機器學習算法的新女王——XGBoost

分享最適合新手入門的10種機器學習算法

機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用...

機器學習算法基礎(使用Python代碼)

數據科學家們必須知道的5種聚類算法

量子機器學習``量子數據''

機器學習在合成生物學:一種新的生物工程算法

機器學習萌新必學的Top10算法

2020年 Top 20 機器學習和數據科學網站

五分鐘了解機器學習十大算法