流行的機器學習算法總結,幫助你開啟機器學習算法學習之旅

2021-01-11 deephub

機器學習算法概述

「機器智能是人類永遠需要的一項發明。」— Nick Bostrom.

如果您可以回顧幾年前的AI並將其與現在的AI進行比較,您會驚訝地發現AI的發展速度隨著時間的增長呈指數級增長。

它已擴展到各種領域,例如ML,Expert Systems,NLP等數十個領域。

儘管AI的思路是構建可以自行思考和執行的更智能的系統,但仍然需要對其進行訓練。

AI的ML領域是為實現非常精確的目標而創建的,它引入了多種算法,從而可以更順暢地進行數據處理和決策。

什麼是機器學習算法?

機器學習算法是任何模型背後的大腦,可讓機器學習並使其更智能。

這些算法的工作方式是,為它們提供第一批數據,並且隨著時間的流逝和算法的準確性的提高,額外的數據也被引入到算法中。

定期將算法應用於新數據和新經驗的過程可提高機器學習的整體效率。

機器學習算法對於與分類,預測建模和數據分析相關的各種任務至關重要。

「機器學習方面的突破將價值十個微軟。」- Bill Gates

機器學習算法的類型

在本節中,我們將重點介紹現有的各種ML算法。 ML算法的三個主要範例是:

監督學習

顧名思義,監督算法通過定義一組輸入數據和預期結果來工作。 通過在訓練數據上迭代執行功能並讓用戶輸入控制參數來改進模型。 如果發現其映射的預測正確,則認為該算法是成功的。

監督學習

無監督學習

在監督算法在用戶標記的數據上進行輸出預測時,將這些訓練結果在沒有用戶幹預的情況下來訓練未標記數據。

這個算法可以對數據進行分類和分組,以識別一些隱藏或未發現的類別,通常用作監督學習的初步步驟。

無監督學習

強化學習

強化學習算法旨在在探索和開發之間找到完美的平衡,而無需標記數據或用戶幹預。

這些算法通過選擇一個動作並觀察結果來工作,在此基礎上,它了解結果的準確程度。 反覆重複此過程,直到算法選擇正確的策略為止。

流行的機器學習算法

在熟悉了幾種類型的ML算法之後,我們繼續演示一些流行的算法。

1.線性回歸

線性回歸是一種監督型ML算法,可幫助找到點集合的近似線性擬合。

線性回歸的核心是識別兩個變量之間關係的線性方法,其中兩個值之一是從屬值,另一個是獨立的。

其背後的原理是要理解一個變量的變化如何影響另一個變量,從而導致正或負的相關關係。

線性回歸以y = a + bx的形式表示為一條線

該線稱為回歸線,由線性方程Y = a * X + b表示。

在此等式中:

Y —因變量a —坡度X-自變量b-截距該算法適用於預測輸出是連續的並且具有恆定斜率的情況,例如:

估算銷售額評估風險天氣數據分析預測分析客戶調查結果分析優化產品價格

Logistic回歸Logistic回歸算法通常用於二進位分類問題,在這些情況下,事件通常會導致通過或失敗,正確或錯誤這兩個值中的任何一個。

最適合需要預測因變量將屬於兩類之一的概率的情況。

該算法的常見用例是確定給定的筆跡是否與所討論的人匹配,或未來幾個月的油價是否會上漲。

通常,回歸可用於實際應用中,例如:

信用評分癌症檢測地理圖像處理手寫識別圖像分割與分類衡量營銷活動的成功率預測某種產品的收入特定日子會發生地震嗎?

決策樹決策樹算法屬於監督型機器學習,用於解決回歸和分類問題。 目的是使用決策樹從觀察並處理每個級別的結果。

決策樹是一種自上而下的方法,其中從訓練數據中選擇最合適的屬性作為根,並對每個分支重複該過程。 決策樹通常用於:

建立知識管理平臺選擇要旅行的航班預測酒店的入住高峰日期向客戶建議要買什麼車預測預測並確定各個領域的可能性

決策樹算法

Apriori機器學習算法它是幾種在線平臺上經常推薦的算法。

它通過在數據集中搜索通用的數據進行操作,然後在它們之間建立關聯。

它通常用於數據挖掘和從關係資料庫學習關聯規則。

該算法背後的思想是保持相關項目儘可能擴展到更大的集合,以創建更有用的關聯。

該算法的應用包括突出顯示市場中的購買趨勢。

此外,它更易於實現,並且可以用於大型數據集。

樸素貝葉斯樸素貝葉斯分類器被歸類為高效的監督ML算法,並且是最簡單的貝葉斯網絡模型之一。

它通過對數據應用貝葉斯定理,並假設給定變量的值的情況下,每對特徵之間都具有條件獨立性。

樸素貝葉斯分類

簡而言之,考慮到事件B已經發生,用它來找到事件A發生的可能性。 樸素貝葉斯最適合-

過濾垃圾郵件推薦系統,例如Netflix對有關技術,政治或體育的新聞文章進行分類社交媒體上的情感分析面部識別軟體人工神經網絡仿照人腦建模的人工神經網絡實現了神經元的巨大迷宮,或者說簡化並模擬了節點之間相互傳遞信息的過程。

這些相互連接的節點通過邊緣將數據瞬時傳遞給其他節點,以進行快速處理,從而使學習更加順暢。

人工神經網絡從數據集中學習,而不是通過一組特定的規則進行編程。 能夠對非線性過程進行建模,它們可以在以下領域中實施:

模式識別網絡安全數據挖掘檢測患者的癌症種類

人工神經網絡算法

K-Means聚類k-均值聚類是一種迭代的無監督學習算法,可將n個觀察值劃分為k個簇,每個觀察值均屬於最近的簇均值。

K-means算法的步驟

簡而言之,該算法基於數據點的相似性來聚合數據點的集合。 它的應用範圍包括在Python,SciPy,Sci-Kit Learn和data mining等程式語言和庫中聚集相似和相關的網絡搜索結果。

K均值聚類的實際應用-

識別假新聞垃圾郵件檢測和過濾按類型對書籍或電影進行分類規劃城市時的熱門交通路線

支持向量機支持向量機被歸類為監督機器學習算法,主要用於分類和回歸分析。

該算法通過建立一個可以將新示例和新數據分配給一個類別的模型來工作,每個類別間可以容易地區別開來。

在維數大於樣本數的情況下,SVM非常有效,並且存儲效率極高。

高效的支持向量機算法

SVM應用程式可以在以下領域找到:

人臉檢測影像分類文本和超文本分類手寫識別藥物療法的發現生物信息學-蛋白質,基因,生物學或癌症分類。

K近鄰算法K近鄰是一種用於回歸和分類問題的監督ML算法。

通常用於模式識別,該算法首先存儲並使用距離函數識別數據中所有輸入之間的距離,選擇最接近中心點的k個指定輸入並輸出:

最經常出現的標籤(用於分類)k個最近鄰居的平均值(用於回歸)

K近鄰算法

該算法的實際應用包括:

指紋檢測信用評級預測股市分析洗錢銀行破產匯率降維算法降維算法通過使用兩種主要方法(特徵選擇或特徵提取)之一減少數據集中的維度空間或隨機變量的數量來工作。

此算法通常用於預處理數據集並刪除冗餘特徵,從而使算法更容易訓練模型。

此算法還具有一些不錯的好處,例如:

內儲需求低所需的計算能力更少精度更高降低噪音一些著名的降維算法是:

主成分分析線性判別分析局部線性嵌入多維縮放主成分分析主成分分析是ML的無監督算法之一,主要用於通過使用特徵消除或特徵提取來縮小特徵空間的維數。

它也是探索性數據分析和建立預測模型的工具。 需要標準化的數據,PCA可以作為幫助:

圖像處理電影推薦系統計算數據協方差矩陣對協方差矩陣執行特徵值分解優化多個通信通道中的功率分配

主成分分析法

PCA旨在減少數據集中的冗餘,使其更簡單而又不影響準確性。 它通常部署在圖像處理和風險管理領域。

隨機森林隨機森林通過實現決策樹使用多種算法來解決分類,回歸和其他類似問題。

它的工作方式是,創建帶有隨機數據集的決策樹堆,並在其上反覆訓練模型以獲得接近準確的結果。

最後,將來自這些決策樹的所有結果組合在一起,以識別出最常出現在輸出中的最合適的結果。

隨機森林

可以在以下領域找到「隨機森林」應用程式:

銀行帳戶,信用卡欺詐檢測檢測並預測藥物的藥物敏感性通過分析患者的病歷來識別患者的疾病預測購買特定股票時的估計損失或利潤梯度增強和Ada增強增強是一種用於集成ML算法的技術,可將弱學習者轉換為強學習者。 當數據豐富時,需要使用增強算法,並且我們試圖減少監督學習中的偏差和方差。 以下是兩種流行的增強算法。

梯度增強通常以迭代方式(例如決策樹)構建預測模型,將梯度增強算法用於分類和回歸問題。 通過對強者的錯誤進行培訓,從而提高了弱者的學習能力,從而獲得了一個比較準確的學習者。

Ada增強AdaBoost是Adaptive Boosting的縮寫,當弱學習者失敗時,它會改進模型。 它通過修改附加到樣本中實例的權重以將精力更多地集中在困難實例上來實現,然後,弱學習者的輸出將被合併以形成加權總和,並被視為最終的提升後的輸出。

結論:

機器學習算法對於數據科學家來說至關重要,因為它們在現實世界中的應用日益廣泛。 使用上述各種算法,您可以找到最適合解決問題的算法。 儘管這些算法有有監督也有無監督,但它們可以處理各種任務,並且能夠與其他算法同步工作。

作者:Claire D.

deephub翻譯組:孟翔傑

相關焦點

  • 十大機器學習算法之旅已啟程
    如果這樣做,我們會直接使用它,不需要使用機器學習算法從數據中學習它。  最常見的機器學習類型是學習映射Y = f(X)來預測新的X。這被稱為預測建模或預測分析,我們的目標是使最準確的預測成為可能。  對於渴望了解機器學習基礎知識的機器學習新手,請瀏覽數據科學家使用的前10位的機器學習算法。
  • 五分鐘了解機器學習十大算法
    本文為有志於成為數據科學家或對此感興趣的讀者們介紹最流行的機器學習算法。機器學習是該行業的一個創新且重要的領域。我們為機器學習程序選擇的算法類型,取決於我們想要實現的目標。現在,機器學習有很多算法。因此,如此多的算法,可能對於初學者來說,是相當不堪重負的。
  • 機器學習算法盤點:人工神經網絡、深度學習
    機器學習算法盤點:人工神經網絡、深度學習 佚名 發表於 2016-08-01 16:26:33   機器學習無疑是當前數據分析領域的一個熱點內容。很多人在平時的工作中都或多或少會用到機器學習的算法。
  • 機器學習十大算法都是何方神聖?
    跟我們生活息息相關的最常見機器學習算法包括電影推薦算法、圖書推薦算法。這些算法都是基於你的電影觀看記錄或圖書購買記錄來給你做推薦的。James Le在KDnuggets上發布了一篇文章,介紹了他是如何入門機器學習的。此外,他在其中摸索出十大常用的機器學習算法,並逐一進行介紹。雷鋒網編譯如下,未經許可不得轉載。如果你想學機器學習,那怎麼入門呢?
  • 新手必看的十種機器學習算法
    然而,在眾多的機器學習算法中,哪些是又上手快捷又功能強大、適合新手學習的呢?Towards Data Science 上一篇文章就介紹了十種新手必看的機器學習算法,雷鋒網 AI 科技評論全文編譯如下。大的原則不過,對於預測建模來說,有一條通用的原則適用於所有監督學習算法。機器學習算法可以描述為學習一個目標函數 f,它能夠最好地映射出輸入變量 X 到輸出變量 Y。有一類普遍的學習任務。我們要根據輸入變量 X 來預測出 Y。我們不知道目標函數 f 是什麼樣的。
  • 數據科學家應該知道的頂級機器學習算法
    機器學習算法簡介有兩種方法可以對您可能在現場遇到的機器學習算法進行分類。首先是按照學習風格對算法進行分組。第二個是通過形式或功能上的相似性對算法進行分組。通常,兩種方法都是有用的。但是,我們將專注於通過相似性進行算法分組,並瀏覽各種不同的算法類型。
  • 入門| 機器學習新手必看10大算法
    如果我們知道的話,我們將會直接使用它,不需要用機器學習算法從數據中學習。 最常見的機器學習算法是學習映射 Y = f(X) 來預測新 X 的 Y。這叫做預測建模或預測分析,我們的目標是儘可能作出最準確的預測。 對於想了解機器學習基礎知識的新手,本文將概述數據科學家使用的 top 10 機器學習算法。
  • 常見的機器學習算法,你知道幾個?
    誕生於1956年的人工智慧,由於受到智能算法、計算速度、存儲水平等因素的影響,在六十多年的發展過程中經歷了多次高潮和低谷。最近幾年,得益於數據量的上漲、運算力的提升,特別是機器學習新算法的出現,人工智慧迎來了大爆發的時代。提到機器學習這個詞時,有些人首先想到的可能是科幻電影裡的機器人。
  • 機器學習十大算法都是何方神聖?看完你就懂了
    大數據原本在工業界中就已經炙手可熱,而基於大數據的機器學習則更加流行,因為其通過對數據的計算,可以實現數據預測、為公司提供決策依據。跟我們生活息息相關的最常見機器學習算法包括電影推薦算法、圖書推薦算法。這些算法都是基於你的電影觀看記錄或圖書購買記錄來給你做推薦的。James Le 在 KDnuggets 上發布了一篇文章,介紹了他是如何入門機器學習的。
  • 機器學習算法匯總:人工神經網絡、深度學習及其它
    【編者按】機器學習的算法很多。很多時候困惑人們都是,很多算法是一類算法,而有些算法又是從其他算法中延伸出來的。這裡,我們從兩個方面來給大家介紹,第一個方面是學習的方式,第二個方面是算法的類似性。本文來自IT經理網。
  • 分享最適合新手入門的10種機器學習算法
    如果我們知道的話就直接使用了,不需要再用機器學習算法從大量的數據中學習它。 最常見的機器學習類型是學習映射Y=f(X),用它來預測Y的值。這被稱為預測建模或預測分析,我們的目標是做出最準確的預測。 對於想了解機器學習基礎知識的新手,以下是數據科學家最常用的10種機器學習算法。
  • 算法應用|機器學習python應用,簡單機器學習項目實踐
    上一篇文章中介紹了機器學習的簡單知識,還有python中進行機器學習實踐需要的生態環境,接下來將會通過鳶尾花分類這個例子對機器學習做一個簡要的介紹。通過一步一步地實現這個項目來介紹以下內容。導入和使用python中機器學習的各個方面的類庫。導入數據,並通過描述性分析、可視化等對數據進行分析。創建六個模型,並從中選擇準確度最高的模型。
  • 機器學習萌新必學的Top10算法
    原作 James LeRoot 編譯自 KDuggets量子位 報導 | 公眾號 QbitAI在機器學習領域裡,不存在一種萬能的算法可以完美解決所有問題,尤其是像預測建模的監督學習裡。所以,針對你要解決的問題,最好是嘗試多種不同的算法。並借一個測試集來評估不同算法之間的表現,最後選出一個結果最好的。當然,你要選適合解決你問題的算法來嘗試。比方說,要打掃房子,你會用真空吸塵器,掃把,拖把;你絕對不會翻出一把鏟子來開始挖坑,對吧。
  • 機器學習入門必讀:6種簡單實用算法及學習曲線、思維導圖
    作者 | 盧譽聲來源 | 大數據DT(ID:hzdashuju)大部分的機器學習算法主要用來解決兩類問題——分類問題和回歸問題。在本文當中,我們介紹一些簡單但經典實用的傳統機器學習算法,讓大家對機器學習算法有一個基本的感性認識。有的人說機器學習入門並不難,有的人會覺得機器學習難以理解。那麼該如何去學習機器學習這種技術與方法呢?
  • 口語評分——英語學習中的機器學習算法
    口語評分——英語學習中的機器學習算法 作者:有道口語大師技術團隊 發布時間: 2014-11-26 07:00
  • 盤點:十大機器學習算法及其應用
    毫無疑問,過去兩年中,機器學習和人工智慧的普及度得到了大幅提升。如果你想學習機器算法,要從何下手呢?以我為例,我是在哥本哈根留學期間,學習AI課程入門的。我們用的教科書是一本AI經典:《Peter Norvig’s Artificial Intelligence?—?A Modern Approach》。
  • 教程| 初學者如何選擇合適的機器學習算法(附速查表)
    選自sas機器之心編譯參與:黃小天、蔣思源、吳攀本文主要的目標讀者是機器學習愛好者或數據科學的初學者,以及對學習和應用機器學習算法解決實際問題抱有濃厚興趣的讀者。面對大量的機器學習算法,初學者通常會問自己一個典型的問題:「我該使用哪一種算法?」
  • 「機器學習」機器學習算法優缺點對比(匯總篇)
    作者 | 杜博亞來源 | 阿澤的學習筆記「本文的目的,是務實、簡潔地盤點一番當前機器學習算法」。文中內容結合了個人在查閱資料過程中收集到的前人總結,同時添加了部分自身總結,在這裡,依據實際使用中的經驗,將對此模型優缺點及選擇詳加討論。
  • 機器學習算法基礎(使用Python代碼)
    今天,作為一名數據科學家,我可以用每小時幾美元的成本,用複雜算法構建數據處理機器。但是實現這並不容易!因為我需要面臨度過無數個黑暗的日日夜夜。機器學習算法類型從廣義上講,有3種類型的機器學習算法。2.無監督學習工作原理:在此算法中,我們沒有任何目標或結果變量來進行預測/估計。它用於將人群進行聚類到不同群體中,廣泛用於將客戶劃分到不同的群體中去並進行具體的幹預。無監督學習的例子:Apriori算法,K-means。
  • 盤點| 機器學習入門算法:從線性模型到神經網絡
    幾十年來,機器學習實際上已經變成了一門獨立的領域。由於現代計算能力的進步,我們最近才能夠真正大規模地利用機器學習。而實際上機器學習是如何工作的呢?答案很簡單:算法(algorithm)。 機器學習是人工智慧(artificial intelligence)的一種,其本質上講,就是計算機可以在無需編程的情況下自己學習概念(concept)。