數據科學家應該知道的頂級機器學習算法

2021-01-10 智能甄選

機器學習算法簡介

有兩種方法可以對您可能在現場遇到的機器學習算法進行分類。

首先是按照學習風格對算法進行分組。第二個是通過形式或功能上的相似性對算法進行分組。通常,兩種方法都是有用的。但是,我們將專注於通過相似性進行算法分組,並瀏覽各種不同的算法類型。

按學習風格分組的機器學習算法

算法可以用多種方式對問題進行建模,因為它涉及與體驗的交互。但是,無論我們要如何調用輸入數據都沒有關係。而且,算法在機器學習和人工智慧中很流行教科書。也就是說,首先要考慮一種算法可以適應的學習方式。通常,機器學習算法只能具有幾種主要的學習方式。而且,我們還將通過它們。另外,我們很少有適合他們的算法和問題類型的例子。基本上,這種組織機器學習算法的方法非常有用。因為它迫使您考慮輸入數據的角色和模型準備過程。另外,選擇最適合您的問題的方法以獲得最佳結果。讓我們看一下機器學習算法中的三種不同的學習風格:

監督學習

基本上,在此監督式機器學習中,輸入數據稱為訓練數據,並且一次具有已知標籤或結果,例如垃圾郵件/非垃圾郵件或股票價格。在此,通過訓練過程準備了模型。另外,在此需要做出預測。並在這些預測錯誤時進行糾正。訓練過程將繼續進行,直到模型達到所需的水平。

示例問題是分類和回歸。示例算法包括邏輯回歸和反向傳播神經網絡。無監督學習

在此無監督機器學習中,輸入數據未標記並且沒有已知結果。我們必須通過推導輸入數據中存在的結構來準備模型。這可能是提取一般規則。可以通過數學過程來減少冗餘。

示例問題包括聚類,降維和關聯規則學習。示例算法包括Apriori算法和k-Means。半監督學習

輸入數據是帶標籤和未帶標籤的示例的混合。存在期望的預測問題。但是模型必須學習組織數據的結構以及做出預測。

示例問題是分類和回歸。示例算法是對其他靈活方法的擴展。這就假設了如何對未標記的數據建模。按相似度分組的算法

ML算法通常在功能方面按相似性分組。例如,基於樹的方法和受神經網絡啟發的方法。我認為這是對機器學習算法進行分組的最有用的方法,也是我們將在此處使用的方法。這是一種有用的分組方法,但並不完美。仍然有一些算法可以輕鬆地適用於多個類別。例如學習向量量化。那都是神經網絡方法和基於實例的方法。也有具有相同名稱的類別。那描述了問題和算法的類別。例如回歸和聚類。我們可以通過兩次列出ML算法來處理這些情況。通過選擇主觀上最適合的組。我喜歡後一種方法,即不重複算法以保持簡單。

回歸算法

回歸算法與建模變量之間的關係有關。我們使用模型進行的預測中的誤差度量進行細化。

這些方法是統計工作的主力軍。此外,已被選入統計機器學習。這可能令人困惑,因為我們可以使用回歸來指代問題的類別和算法的類別。最受歡迎的回歸算法是:

普通最小二乘回歸(OLSR)線性回歸邏輯回歸逐步回歸多元自適應回歸樣條(MARS)局部估計的散點圖平滑(LOESS)基於實例的算法

該模型是實例訓練數據的決策問題。這被認為對模型很重要或必需。這樣的方法建立了示例數據的資料庫。並且它需要將新數據與資料庫進行比較。為了進行比較,我們使用相似性度量來找到最佳匹配並做出預測。因此,基於實例的方法也稱為贏家通吃方法和基於內存的學習。重點放在存儲實例的表示上。因此,實例之間使用相似性度量。最受歡迎的基於實例的算法是:

k最近鄰居(kNN)學習矢量量化(LVQ)自組織圖(SOM)本地加權學習(LWL)正則化算法

對另一種方法的擴展。那是懲罰與複雜性有關的模型。同樣,更喜歡更易於泛化的簡單模型。我在這裡列出了正則化算法,因為它們很流行,功能強大。通常對其他方法進行簡單的修改。最受歡迎的正則化算法是:

嶺回歸最小絕對收縮和選擇算子(LASSO)彈性網最小角度回歸(LARS)決策樹算法

決策樹方法可構建決策模型。這是基於數據中屬性的實際值進行的。決策將分支到樹結構中,直到為給定記錄做出預測決策為止。對決策樹進行有關分類和回歸問題的數據訓練。決策樹通常快速,準確,並且在機器學習中大受歡迎。最受歡迎的決策樹算法是:

分類和回歸樹(CART)迭代二分頻器3(ID3)C4.5和C5.0(功能強大的方法的不同版本)卡方自動互動檢測(CHAID)決策樹樁M5條件決策樹貝葉斯算法

這些方法是將貝葉斯定理應用於問題的方法。如分類和回歸。最受歡迎的貝葉斯算法是:

樸素貝葉斯高斯樸素貝葉斯多項式樸素貝葉斯平均一依賴估計量(AODE)貝葉斯信仰網絡(BBN)貝葉斯網絡(BN)聚類算法

像回歸一樣,聚類描述問題的類別和方法的類別。聚類方法是通過建模方法(例如基於質心和層次結構)組織的。所有方法都與使用數據中的固有結構有關。有必要將數據最好地組織成具有最大共性的組。最受歡迎的聚類算法是:

k均值k中位數期望最大化(EM)層次聚類關聯規則學習算法

關聯規則學習方法提取規則。最好地解釋了觀察到的數據變量之間的關係。這些規則可以在大型多維數據集中發現重要和有用的關聯。組織可以利用這一點。最受歡迎的關聯規則學習算法是:

Apriori算法離散算法人工神經網絡算法

這些模型受到生物神經網絡結構的啟發。它們是一類模式匹配。我們用於回歸和分類問題。雖然,有一個巨大的子欄位。由於它結合了數百種算法和變體。最受歡迎的人工神經網絡算法是:

感知器反向傳播霍普菲爾德網絡徑向基函數網絡(RBFN)深度學習算法

深度學習方法是對人工神經網絡的現代更新。那就是利用大量廉價的計算。他們關注建立更大,更複雜的神經網絡。最受歡迎的深度學習算法是:

深玻爾茲曼機(DBM)深度信仰網絡(DBN)卷積神經網絡(CNN)堆疊式自動編碼器降維算法

像聚類方法一樣,降維在數據中尋找固有的結構。雖然,在這種情況下,要進行總結。

通常,可視化尺寸數據可能很有用。另外,我們可以在監督學習方法中使用它。我們採用的許多方法都用於分類和回歸。

主成分分析(PCA)主成分回歸(PCR)偏最小二乘回歸(PLSR)薩蒙地圖多維縮放(MDS)投影追蹤線性判別分析(LDA)混合判別分析(MDA)二次判別分析(QDA)彈性判別分析(FDA)合奏算法

基本上,這些方法是由較弱模型組成的模型。同樣,由於對它們進行了訓練並以某種方式組合了其預測以進行預測。而且,要對哪種類型的弱學習者進行組合以及將其組合的方式進行大量的努力。因此,這是一類非常強大的技術,因此非常受歡迎。

助推自舉聚合(裝袋)AdaBoost堆疊概括(混合)梯度提升機(GBM)梯度增強回歸樹(GBRT)隨機森林常見機器學習算法列表

樸素貝葉斯分類器機器學習算法

通常,對網頁,文檔,電子郵件進行分類將是困難且不可能的。此外,其他冗長的文本注釋也需要手動進行。這就是樸素貝葉斯分類器機器學習算法的用武之地。同樣,分類器是分配總體元素值的函數。例如,垃圾郵件過濾是樸素貝葉斯算法的一種流行應用。因此,這裡的垃圾郵件過濾器是為所有電子郵件分配標籤「垃圾郵件」或「非垃圾郵件」的分類器。基本上,它是按相似性分組的最受歡迎的學習方法之一。這適用於流行的貝葉斯概率定理。這是單詞的簡單分類。另外,還定義了用於內容的主觀分析。

K均值聚類機器學習算法

通常,K-means是一種用於聚類分析的無監督機器學習算法。同樣,K-Means是一種不確定的迭代方法。此外,該算法通過預先定義的簇數k對給定的數據集進行運算。因此,K Means算法的輸出是k個簇,輸入數據在簇之間是分開的。

支持向量機學習算法

基本上,它是用於分類或回歸問題的有監督的機器學習算法。這樣,數據集就向SVM教授有關類的信息。這樣SVM可以對任何新數據進行分類。而且,它通過查找一行將數據分類為不同的類來工作。我們用來將訓練數據集分為幾類。而且,存在許多這樣的線性超平面。此外,在這種情況下,SVM試圖最大化各個類之間的距離。這就涉及到這一點,這被稱為餘量最大化。另外,如果確定了最大化類之間距離的線。然後,增加了很好地泛化到看不見的數據的可能性。SVM分為兩類:

線性SVM-基本上,在線性SVM中,訓練數據即必須通過超平面將分類器分開。非線性SVM-基本上,在非線性SVM中,不可能使用超平面分離訓練數據。Apriori機器學習算法

基本上,它是一種無監督的機器學習算法。我們用來根據給定的數據集生成關聯規則。同樣,關聯規則意味著,如果出現項目A,則項目B也將以一定概率出現。而且,生成的大多數關聯規則都是IF_THEN格式。例如,如果人們購買了iPad,那麼他們還購買了iPad保護套。Apriori機器學習算法的基本原理是:如果一個項目集頻繁出現,那麼該項目集的所有子集也會頻繁出現。如果項目集很少出現。這樣,項目集的所有超集都很少出現。

線性回歸機器學習算法

它顯示了兩個變量之間的關係。此外,還顯示了一個變量的變化如何影響另一個變量。基本上,該算法顯示了對因變量的影響。這取決於更改自變量。因此,自變量作為解釋變量。當他們解釋因素影響因變量時。此外,因變量通常類似於關注因子或預測因子。

決策樹機器學習算法

基本上,決策樹是圖形表示。這利用分支方法來舉例說明決策的所有可能結果。基本上,在決策樹中,內部節點表示對該屬性的測試。因為樹的每個分支都代表測試的結果。葉節點也代表特定的類標籤。即在計算所有屬性後做出的決定。此外,我們必須通過從根到葉節點的路徑來表示分類。

隨機森林機器學習算法

這是機器學習的首選算法。我們使用裝袋法來創建一堆帶有隨機數據子集的決策樹。雖然,我們必須在數據集的隨機樣本上訓練模型幾次。這需要從隨機森林算法中獲得良好的預測性能。同樣,在這種集成學習方法中,我們必須組合所有決策樹的輸出。那就是做出最終的預測。此外,我們通過輪詢每個決策樹的結果來得出最終預測。

Logistic回歸機器學習算法

通常,此算法的名稱可能會有些混亂。由於Logistic回歸算法僅用於分類任務,而不用於回歸問題。同樣,名稱「回歸」在這裡意味著線性模型適合特徵空間。此外,該算法將邏輯函數應用於特徵的線性組合。這需要預測分類因變量的結果。此外,它基於預測變量。描述單個試驗結果的概率被建模為函數。還有,解釋變量的功能。

結論

我們研究了機器學習算法,並且還了解了機器學習算法的分類:回歸算法,基於實例的算法,正則化算法,決策樹算法,貝葉斯算法,聚類算法,關聯規則學習算法,人工神經網絡算法,深度學習學習算法,降維算法,集合算法,監督學習,無監督學習,半監督學習,樸素貝葉斯分類器算法,K均值聚類算法,支持向量機算法,Apriori算法,線性回歸和Logistic回歸。我們還使用了易於理解的機器學習算法圖像。此外,如果您有任何疑問,請在評論部分提問。

相關焦點

  • 每個數據科學家都應該知道的10種機器學習方法
    機器學習算法(也稱為模型)是表示問題上下文中的數據的數學表達式,通常是業務問題。目標是從數據到洞察。例如,如果在線零售商想要預測下一季度的銷售額,他們可能會使用機器學習算法,根據過去的銷售額和其他相關數據預測這些銷售額。類似地,風車製造商可以通過視覺監控重要設備並通過訓練識別危險裂縫的算法來提供視頻數據。
  • 10大機器學習算法,看懂你就是數據科學家
    想成為數據科學家?你得是個博聞強識,又對新鮮事物保持好奇心的人。正因為如此,數據科學家會掌握幾乎所有的常見算法,並精通其中一門,這樣可以快速適應新領域的問題。今天我們就來聊聊,每一位數據科技家都應該了解的10大機器學習算法。
  • 新手必看的十種機器學習算法
    例如,你不能說神經網絡就一定比決策樹好,反之亦然。要判斷算法優劣,數據集的大小和結構等眾多因素都至關重要。所以,你應該針對你的問題嘗試不同的算法。然後使用保留的測試集對性能進行評估,選出較好的算法。當然,算法必須適合於你的問題。就比如說,如果你想清掃你的房子,你需要吸塵器,掃帚,拖把。而不是拿起鏟子去開始挖地。
  • 常見的機器學習算法,你知道幾個?
    誕生於1956年的人工智慧,由於受到智能算法、計算速度、存儲水平等因素的影響,在六十多年的發展過程中經歷了多次高潮和低谷。最近幾年,得益於數據量的上漲、運算力的提升,特別是機器學習新算法的出現,人工智慧迎來了大爆發的時代。提到機器學習這個詞時,有些人首先想到的可能是科幻電影裡的機器人。
  • 算法工程師和數據科學家處理大規模的交易數據
    計算機視覺,機器學習和深度學習是計算機科學中最重要的研究領域之一。任何一個不可描述的領域都將需要大量需要工程師來實現複雜算法。算法工程師和數據科學家處理大規模的交易數據,以及現有算法的客戶端部署,是計算機視覺和機器學習的使命。不僅如此,算法工程師也是數據科學家和機器學習工程師之間溝通的中介人。如何從「鐵打的營盤流水的兵」到建立強大而透明的服務平臺?是你自動駕駛技術和交通領域的未來發展的關鍵。
  • 機器學習初學者必須知道的十大算法
    還在為不知道學什麼算法入門機器學習感到頭疼?本文作者通過自身的學習向初學者介紹十大機器學習(ML)算法,並附有數字和實例以便於理解。哈佛商業評論稱數據科學家是21世紀最性感的工作。所以,對於那些ML剛剛開始的人來說,這篇博客機器學習算法工程師需要知道的十大算法是非常有用的。ML算法是可以從數據中學習並從中改進的算法,無需人工幹預。
  • 入門| 機器學習新手必看10大算法
    因此,你應該針對具體問題嘗試多種不同算法,並留出一個數據「測試集」來評估性能、選出優勝者。 當然,你嘗試的算法必須適合你的問題,也就是選擇正確的機器學習任務。打個比方,如果你需要打掃房子,你可能會用吸塵器、掃帚或拖把,但是你不會拿出鏟子開始挖土。
  • 十大機器學習算法之旅已啟程
    因此,你應該為你的問題嘗試許多不同的算法,同時使用數據的「測試集」來評估性能並選擇勝出者。  當然,你嘗試的算法必須適合你的問題,這就是選擇正確的機器學習任務的地方。打一個比方,如果你需要清理你的房子,你可以使用真空吸塵器、掃帚或拖把,但是你不會用一個鏟子來挖掘。
  • 數據科學和機器學習的最佳Python庫
    數據科學是從數據中提取有用信息以解決實際問題的過程。機器學習是使機器學習如何通過提供大量數據來解決問題的過程。這兩個域是高度互連的。機器學習是數據科學的一部分,它利用ML算法和其他統計技術來了解數據如何影響和發展業務。
  • 流行的機器學習算法總結,幫助你開啟機器學習算法學習之旅
    AI的ML領域是為實現非常精確的目標而創建的,它引入了多種算法,從而可以更順暢地進行數據處理和決策。什麼是機器學習算法?機器學習算法是任何模型背後的大腦,可讓機器學習並使其更智能。這些算法的工作方式是,為它們提供第一批數據,並且隨著時間的流逝和算法的準確性的提高,額外的數據也被引入到算法中。
  • 機器學習算法的新女王——XGBoost
    你只需要知道回歸模型就行了!」我當時在想,「我知道這個!」。我知道回歸模型、線性回歸和邏輯回歸。老闆的說法是對的,在任期內我僅僅建立了基於回歸的統計模型。在那個時候,回歸建模是預測分析無可爭議的女王。15年後,回歸建模的時代已經結束。遲暮的女王已經退場,取而代之的是名字時髦、活力滿滿的新女王XGBoost(Exterme Gradient Boosting,極限梯度提升)。
  • 分享最適合新手入門的10種機器學習算法
    首要原則 然而,在為監督式機器學習創建預測模型之前,要記得一條最重要的原則: 機器學習算法可以看做學習一種目標函數(f),該函數是輸入變量(X)到輸出變量(Y)的完美映射:Y=f(X) 這是一個通用的學習任務,我們希望用新輸入的變量(X)能輸出預測變量(Y)。我們不知道函數(f)是什麼樣子的,或者什麼形式的。
  • 機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用...
    原標題:機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用高級研修班通信和信息技術創新人才培養工程項目辦公室 通人辦〔2018〕 第5號 機器學習、深度學習算法原理與案例實踐暨Python
  • 機器學習算法基礎(使用Python代碼)
    對於我這樣的人來說,這段時期真的是讓人興奮和著迷的,因為隨著技術的發展,各種工具和技術都實現了飛躍化,現在歡迎人類來到數據科學的世界!今天,作為一名數據科學家,我可以用每小時幾美元的成本,用複雜算法構建數據處理機器。但是實現這並不容易!因為我需要面臨度過無數個黑暗的日日夜夜。
  • 數據科學家們必須知道的5種聚類算法
    翻譯 | 姜波    整理 |  凡江  吳璇聚類是一種關於數據點分組的機器學習技術。給出一組數據點,我們可以使用聚類算法將每個數據點分類到特定的組中。理論上,同一組中的數據點應具有相似的屬性或特徵,而不同組中的數據點應具有相當不同的屬性或特徵(即類內差異小,類間差異大)。
  • 量子機器學習``量子數據''
    Skoltech的科學家表明,量子增強的機器學習可用於量子數據(與經典數據相反),克服了這些應用程式所存在的顯著速度下降,並為「開發量子系統的計算見解提供了沃土」。已經開發出量子算法來增強一系列不同的計算任務;最近,它已經包括量子增強的機器學習。量子機器學習部分是由Skoltech駐地量子信息處理實驗室首創的,該實驗室由本文的研究者Jacob Biamonte領導。他說:「機器學習技術已經成為查找數據模式的強大工具。量子系統產生的非典型模式被認為無法有效地產生於經典系統,因此在計算機學習任務上量子計算機的性能要優於傳統計算機也就不足為奇了。」
  • 機器學習在合成生物學:一種新的生物工程算法
    為了快速預測新的生物系統,合成生物學需要人工智慧的機器學習。但是,傳統的機器學習算法越來越不適應需要,由於缺乏大量的質量數據而受到阻礙,科學家需要更有效的在細胞的生物工程中的機器算法。勞倫斯·伯克利國家實驗室(Berkeley Lab)的科學家最近開發出了一種新的工具,可將機器學習算法適應合成生物學的需求,從而系統地指導開發生物工程,這一新的機器學習方法可加速生物工程,比目前的預測途逕行為的方法快得多。
  • 機器學習萌新必學的Top10算法
    機器學習的任務就是找出係數B0和B1。從數據中建立線性回歸的模型有不同的方法,比方說線性代數的最小二乘法、梯度下降優化。線性回歸已經存在了200多年,相關研究已經很多了。用這個算法關鍵在於要儘可能地移除相似的變量以及清洗數據。對算法萌新來說,是最簡單的算法了。
  • 2020年 Top 20 機器學習和數據科學網站
    #6 Distill蒸餾聲稱提供清晰,動態和生動的機器學習研究。雖然它在科學家中並不流行,但它確實提供了很好的素材。那裡的絕大多數文章都有有趣的研究和發現——但最重要的是——所有的東西都是由在開放人工智慧、蘋果和特斯拉等公司工作的頂級專家撰寫和編輯的。
  • 五分鐘了解機器學習十大算法
    本文為有志於成為數據科學家或對此感興趣的讀者們介紹最流行的機器學習算法。機器學習是該行業的一個創新且重要的領域。我們為機器學習程序選擇的算法類型,取決於我們想要實現的目標。現在,機器學習有很多算法。因此,如此多的算法,可能對於初學者來說,是相當不堪重負的。