文科生慎入!機器學習十大算法都是何方神聖?

2020-12-18 網易科技

雷鋒網(公眾號:雷鋒網)按:機器學習與人工智慧變得越來越熱。大數據原本在工業界中就已經炙手可熱,而基於大數據的機器學習則更加流行,因為其通過對數據的計算,可以實現數據預測、為公司提供決策依據。跟我們生活息息相關的最常見機器學習算法包括電影推薦算法、圖書推薦算法。這些算法都是基於你的電影觀看記錄或圖書購買記錄來給你做推薦的。

James Le在KDnuggets上發布了一篇文章,介紹了他是如何入門機器學習的。此外,他在其中摸索出十大常用的機器學習算法,並逐一進行介紹。雷鋒網編譯如下,未經許可不得轉載。

如果你想學機器學習,那怎麼入門呢?對於我來說,我是這樣開始我的機器學習的,首先,我選修了一門人工智慧課程。教我課程的老師是Technical University of Denmark的大學教授,他的研究方向就是邏輯與人工智慧。我們用的教材是人工智慧的經典教材: Peter Norvig's Artificial Intelligence — A Modern Approach。這本書主要講了智能主體、對抗搜索、概率論、多智能系統、AI哲學等等。這門課程我上了三個學期,最後我做了一個簡單的基於搜索的智能系統,這個系統可以完成虛擬環境下的傳輸任務。

通過這門課程我學到了很多知識,在將來我還要繼續學習。最近幾周,我有幸在舊金山的舉辦的機器學習大會上與眾多機器學習大牛交談,我和他們聊了很多關於深度學習雷鋒網(公眾號:雷鋒網)按:機器學習與人工智慧變得越來越熱。大數據原本在工業界中就已經炙手可熱,而基於大數據的機器學習則更加流行,因為其通過對數據的計算,可以實現數據預測、為公司提供決策依據。跟我們生活息息相關的最常見機器學習算法包括電影推薦算法、圖書推薦算法。這些算法都是基於你的電影觀看記錄或圖書購買記錄來給你做推薦的。

James Le在KDnuggets上發布了一篇文章,介紹了他是如何入門機器學習的。此外,他在其中摸索出十大常用的機器學習算法,並逐一進行介紹。雷鋒網編譯如下,未經許可不得轉載。

如果你想學機器學習,那怎麼入門呢?對於我來說,我是這樣開始我的機器學習的,首先,我選修了一門人工智慧課程。教我課程的老師是Technical University of Denmark的大學教授,他的研究方向就是邏輯與人工智慧。我們用的教材是人工智慧的經典教材: Peter Norvig's Artificial Intelligence — A Modern Approach。這本書主要講了智能主體、對抗搜索、概率論、多智能系統、AI哲學等等。這門課程我上了三個學期,最後我做了一個簡單的基於搜索的智能系統,這個系統可以完成虛擬環境下的傳輸任務。

通過這門課程我學到了很多知識,在將來我還要繼續學習。最近幾周,我有幸在舊金山的舉辦的機器學習大會上與眾多機器學習大牛交談,我和他們聊了很多關於深度學習、神經網絡、數據結構的內容。此外,我還在網上選修了一門機器學習入門課程,正巧剛剛修完。在接下來內容中,我將和大家分享我在這門課程中所學到的機器學習常用算法。

機器學習算法分為三類:有監督學習、無監督學習、增強學習。有監督學習需要標識數據(用於訓練,即有正例又有負例),無監督學習不需要標識數據,增強學習介於兩者之間(有部分標識數據)。下面我將向大家具體介紹機器學習中10大算法(只介紹有監督、無監督兩類,暫不介紹增強學習)。

一、有監督學習

算法一:決策樹

決策樹是一種樹形結構,為人們提供決策依據,決策樹可以用來回答yes和no問題,它通過樹形結構將各種情況組合都表示出來,每個分支表示一次選擇(選擇yes還是no),直到所有選擇都進行完畢,最終給出正確答案。

機器學習十大算法都是何方神聖?看完你就懂了

算法二:樸素貝葉斯分類器

樸素貝葉斯分類器基於貝葉斯理論及其假設(即特徵之間是獨立的,是不相互影響的)

機器學習十大算法都是何方神聖?看完你就懂了

P(A|B) 是後驗概率, P(B|A) 是似然,P(A)為先驗概率,P(B) 為我們要預測的值。

具體應用有:垃圾郵件檢測、文章分類、情感分類、人臉識別等。

算法三:最小二乘法

如果你對統計學有所了解,那麼你必定聽說過線性回歸。最小均方就是用來求線性回歸的。如下圖所示,平面內會有一系列點,然後我們求取一條線,使得這條線儘可能擬合這些點分布,這就是線性回歸。這條線有多種找法,最小二乘法就是其中一種。最小二乘法其原理如下,找到一條線使得平面內的所有點到這條線的歐式距離和最小。這條線就是我們要求取得線。

機器學習十大算法都是何方神聖?看完你就懂了

線性指的是用一條線對數據進行擬合,距離代表的是數據誤差,最小二乘法可以看做是誤差最小化。

算法四:邏輯回歸

邏輯回歸模型是一個二分類模型,它選取不同的特徵與權重來對樣本進行概率分類,用一各log函數計算樣本屬於某一類的概率。即一個樣本會有一定的概率屬於一個類,會有一定的概率屬於另一類,概率大的類即為樣本所屬類。

機器學習十大算法都是何方神聖?看完你就懂了

具體應用有:信用評級、營銷活動成功概率、產品銷售預測、某天是否將會地震發生。

算法五:支持向量機(SVM)

支持向量機是一個二分類算法,它可以在N維空間找到一個(N-1)維的超平面,這個超平面可以將這些點分為兩類。也就是說,平面內如果存在線性可分的兩類點,SVM可以找到一條最優的直線將這些點分開。SVM應用範圍很廣。

機器學習十大算法都是何方神聖?看完你就懂了

具體應用有:廣告展示、性別檢測、大規模圖像識別等。

算法六:集成學習

集成學習就是將很多分類器集成在一起,每個分類器有不同的權重,將這些分類器的分類結果合併在一起,作為最終的分類結果。最初集成方法為貝葉斯決策,現在多採用error-correcting output coding, bagging, and boosting等方法進行集成。

機器學習十大算法都是何方神聖?看完你就懂了

那麼為什集成分類器要比單個分類器效果好呢?

1.偏差均勻化:如果你將民主黨與共和黨的投票數算一下均值,可定會得到你原先沒有發現的結果,集成學習與這個也類似,它可以學到其它任何一種方式都學不到的東西。

2.減少方差:總體的結果要比單一模型的結果好,因為其從多個角度考慮問題。類似於股票市場,綜合考慮多隻股票可以要比只考慮一隻股票好,這就是為什麼多數據比少數據效果好原因,因為其考慮的因素更多。

3.不容易過擬合。如果的一個模型不過擬合,那麼綜合考慮多種因素的多模型就更不容易過擬合了。

二、無監督學習

算法七:聚類算法

聚類算法就是將一堆數據進行處理,根據它們的相似性對數據進行聚類。

機器學習十大算法都是何方神聖?看完你就懂了

聚類算法有很多種,具體如下:中心聚類、關聯聚類、密度聚類、概率聚類、降維、神經網絡/深度學習。

算法八:主成分分析(PCA)

主成分分析是利用正交變換將一些列可能相關數據轉換為線性無關數據,從而找到主成分。

機器學習十大算法都是何方神聖?看完你就懂了

PCA主要用於簡單學習與可視化中數據壓縮、簡化。但是PCA有一定的局限性,它需要你擁有特定領域的相關知識。對噪音比較多的數據並不適用。

算法九:SVD矩陣分解

SVD矩陣是一個複雜的實復負數矩陣,給定一個m行、n列的矩陣M,那麼M矩陣可以分解為M = UΣV。U和V是酉矩陣,Σ為對角陣。

機器學習十大算法都是何方神聖?看完你就懂了

PCA實際上就是一個簡化版本的SVD分解。在計算機視覺領域,第一個臉部識別算法就是基於PCA與SVD的,用特徵對臉部進行特徵表示,然後降維、最後進行面部匹配。儘管現在面部識別方法複雜,但是基本原理還是類似的。

算法十:獨立成分分析(ICA)

ICA是一門統計技術,用於發現存在於隨機變量下的隱性因素。ICA為給觀測數據定義了一個生成模型。在這個模型中,其認為數據變量是由隱性變量,經一個混合系統線性混合而成,這個混合系統未知。並且假設潛在因素屬於非高斯分布、並且相互獨立,稱之為可觀測數據的獨立成分。

機器學習十大算法都是何方神聖?看完你就懂了

ICA與PCA相關,但它在發現潛在因素方面效果良好。它可以應用在數字圖像、檔文資料庫、經濟指標、心裡測量等。

以上就是我對機器學習算法的一些簡單介紹,現在你可以通過我的介紹與你自己的理解,好好思考機器學還可以在我們的日常生活中有哪些應用。

雷鋒網總結:實際上這些機器學習算法並不是全都像想像中一樣複雜,有些還和高中數學緊密相關。不過如何學以致用舉一反三,不僅是機器學習的核心,也同樣是每個人學習的核心要義。

via The 10 Algorithms Machine Learning Engineers Need to Know、神經網絡、數據結構的內容。此外,我還在網上選修了一門機器學習入門課程,正巧剛剛修完。在接下來內容中,我將和大家分享我在這門課程中所學到的機器學習常用算法。

機器學習算法分為三類:有監督學習、無監督學習、增強學習。有監督學習需要標識數據(用於訓練,即有正例又有負例),無監督學習不需要標識數據,增強學習介於兩者之間(有部分標識數據)。下面我將向大家具體介紹機器學習中10大算法(只介紹有監督、無監督兩類,暫不介紹增強學習)。

一、有監督學習

算法一:決策樹

決策樹是一種樹形結構,為人們提供決策依據,決策樹可以用來回答yes和no問題,它通過樹形結構將各種情況組合都表示出來,每個分支表示一次選擇(選擇yes還是no),直到所有選擇都進行完畢,最終給出正確答案。

本文來源:雷鋒網 責任編輯:郭浩_NT5629

相關焦點

  • 機器學習十大算法都是何方神聖?看完你就懂了
    雷鋒網按:機器學習與人工智慧變得越來越熱。大數據原本在工業界中就已經炙手可熱,而基於大數據的機器學習則更加流行,因為其通過對數據的計算,可以實現數據預測、為公司提供決策依據。跟我們生活息息相關的最常見機器學習算法包括電影推薦算法、圖書推薦算法。這些算法都是基於你的電影觀看記錄或圖書購買記錄來給你做推薦的。
  • Avazu艾維邑動開放移動DSP平臺機器學習算法
    實現這一過程的核心,是通過機器學習算法優化廣告投放的效果。精準分析用戶之後定向推送,既幫廣告主減少了不必要的廣告浪費,又提升了媒介購買效率,這種程序化廣告投放幫廣告主找回了浪費的第一步。Avazu通過機器學習算法,自動地為實時流量預估CTR,廣告主只需簡單的將優化目標設置為期望CTR,DSP投放引擎即可為廣告主購買相應的優質流量。
  • 分享最適合新手入門的10種機器學習算法
    如果我們知道的話就直接使用了,不需要再用機器學習算法從大量的數據中學習它。 最常見的機器學習類型是學習映射Y=f(X),用它來預測Y的值。這被稱為預測建模或預測分析,我們的目標是做出最準確的預測。 對於想了解機器學習基礎知識的新手,以下是數據科學家最常用的10種機器學習算法。
  • 數據挖掘領域十大經典算法
    國際權威的學術組織the IEEE International Conference on Data Mining (ICDM) 早前評選出了數據挖掘領域的十大經典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN,
  • 8種常見機器學習算法比較
    簡介機器學習算法太多了,分類、回歸、聚類、推薦、圖像識別領域等等,要想找到一個合適算法真的不容易,所以在實際應用中,我們一般都是採用啟發式學習方式來實驗。通常最開始我們都會選擇大家普遍認同的算法,諸如SVM,GBDT,Adaboost,現在深度學習很火熱,神經網絡也是一個不錯的選擇。
  • 機器學習必修:決策樹算法(Decision Tree)
    決策樹是AI產品經理在工作中經常會用到的一個機器算法,為了更清晰地了解決策樹算法,本文從三個方面全面介紹了決策樹的概念,流程和應用,希望對你有幫助。你是否玩過20個問題的遊戲?如果你玩過這個遊戲,那麼恭喜你,你已經掌握了決策樹算法的應用。是不是非常簡單?一、什麼是決策樹圖表示決策樹所有的機器學習算法中,決策樹應該是最友好的了。它呢,在整個運行機制上可以很容易地被翻譯成人們能看懂的語言,也因此被歸為「白盒模型」。
  • 機器學習十大經典算法之AdaBoost
    Boosting是一族算法,其主要目標為將弱學習器「提升」為強學習器,大部分Boosting算法都是根據前一個學習器的訓練效果對樣本分布進行調整,再根據新的樣本分布訓練下一個學習器,如此迭代M次,最後將一系列弱學習器組合成一個強學習器。而這些Boosting算法的不同點則主要體現在每輪樣本分布的調整方式上。
  • 輕鬆看懂機器學習十大常用算法
    通過本篇文章可以對ML的常用算法有個常識性的認識,沒有代碼,沒有複雜的理論推導,就是圖解一下,知道這些算法是什麼,它們是怎麼應用的,例子主要是分類問題。每個算法都看了好幾個視頻,挑出講的最清晰明了有趣的,便於科普。 以後有時間再對單個算法做深入地解析。
  • Realme的SLED電視又是何方神聖
    根據Realme的說法,這款SLED電視的NTSC色域要比普通的液晶電視和QLED電視都好,能夠帶來更好的色彩表現。同時這款電視還擁有更優秀的護眼功能,獲得了德國萊茵低藍光認證。看到這裡,可能不少人會很奇怪,聽過QLED、OLED,這個SLED又是何方神聖?是一項新技術還是只是營銷噱頭?今天就跟大家簡單科普一下。
  • 開發者入門必讀:最值得看的十大機器學習公開課
    因此,雷鋒網搜集了全世界範圍內最受歡迎的機器學習課程,整理成這份「機器學習十大入門公開課」盤點,集中呈現給各位。這份推薦榜頗費心血,綜合考慮了難易、側重點、時效性等諸多因素,希望能幫助大家找到最適合自己的學習資源。這些課程全部免費開放,但有些需翻牆,有的缺少中文字幕。1. 吳恩達「機器學習」公開課
  • 機器學習算法之K-means算法
    K-means舉例shi'li1 K-means算法簡介k-means算法是一種聚類算法,所謂聚類,即根據相似性原則2 K-means算法原理k-means算法中的k代表類簇個數,means代表類簇內數據對象的均值(這種均值是一種對類簇中心的描述),因此,k-means算法又稱為k-均值算法。
  • 機器學習速查表(cheatsheet)資源匯總分享
    SAS 機器學習算法 The world of machine learning algorithms data iku 機器學習算法 Python Python 速查表 Python
  • AI算法可以消除「馬賽克」?網際網路大廠的算法崗OFFER如何拿到?
    那AI算法真的那麼厲害嗎?想要做算法崗,需要做哪些準備?一、算法工程師是做什麼的?提到算法工程師,大家都知道他的薪資水平比其他開發崗要高,很多大廠都開出了年薪幾十萬的薪資去吸引算法崗的高端人才。來源:知乎-九章算法算法崗是做數據模型進行推薦、分類、識別、預測等,還有一種是做針對性方向的算法研究,包括圖像、語音、文本等,其囊括了在外界看來很智能的人臉識別
  • 機器學習算法與博弈論模型結合 新方法預測細菌耐藥性基因準確率高
    美國華盛頓州立大學研究人員開發出一種預測細菌耐藥性基因的新方法,通過機器學習和博弈論模型,他們能以93%—99%的準確率,預測3種不同類型革蘭氏陰性菌中耐藥基因的存在。研究團隊使用其開發的機器學習算法和博弈論模型,不僅對細菌基因組中簡單的序列相似性進行分析,還深入研究了蛋白質序列結構、理化特徵、進化特徵、組成特徵等多個特徵的相互作用,以求準確預測抗菌素耐藥性基因。他們在9日的《科學報告》上發表研究論文稱,使用新方法預測3種革蘭氏陰性菌——假單胞菌、弧菌和腸桿菌的抗菌素耐藥性基因序列,其準確度達到93%—99%。
  • 機器學習:亟須糾正的4大類「偏差」
    機器學習算法在訓練中嚴格按照其數學構造和數據執行任務,準確完成人類所輸入的內容,因此,機器學習模型的偏差通常是由設計和收集相關數據的人的「偏見」造成的。本文引用地址:http://www.eepw.com.cn/article/201810/393626.htm  數據科學家在構建算法並對機器學習進行訓練時,源自其本身某種程度的偏見會不可避免地蔓延到AI模型中,比較幸運的是,機器學習的偏差能夠被檢測和規避。不過,相關的研究人員仍需保持警惕。本文總結了需要了解和防範的4種不同類型的機器學習偏差以供參考。
  • 機器學習十大經典算法之隨機森林
    它是以決策樹為基礎,用隨機的方式排列建立的,森林裡每個決策樹之間都是沒有關聯的。 在得到森林之後,當有一個新的輸入樣本進入的時候,就讓森林中的每一棵決策樹分別進行一下判斷,看看這個樣本應該屬於哪一類(對於分類算法),然後看看哪一類被選擇最多,就預測這個樣本為那一類。隨機森林可以用來進行無監督學習聚類和異常點檢測。
  • OpML 2019提前看:模型表現預測與分布式機器學習
    ParallelM(https://www.parallelm.com)是一家幫助工業界在生產環境使用機器學習算法的公司。其突出產品 MCenter 是一個幫助工業界使用、管理生產過程中機器學習算法的軟體。MCenter 可以直接導入寫好的機器學習算法,將數據連結,即可在算法可能出現問題的時候進行預警。內置的管理系統可允許算法迭代並且根據管理規定篩選算法。
  • 這是一份文科生都能看懂的線性代數簡介
    線性代數的概念對於理解機器學習背後的原理非常重要,尤其是在深度學習領域中。它可以幫助我們更好地理解算法內部到底是怎麼運行的,藉此,我們就能夠更好的做出決策。所以,如果你真的希望了解機器學習具體算法,就不可避免需要精通這些線性代數的概念。這篇文章中,我們將向你介紹一些機器學習中涉及的關鍵線性代數知識。
  • Python機器學習的迷你課程(14天教學)
    這意味著你知道機器學習的基礎知識,比如交叉驗證、一些算法和偏方差權衡。這並不意味著你是一個機器學習博士,只是你知道地標或者知道去哪裡查找它們。這個迷你課程既不是關於Python的教科書,也不是關於機器學習的教科書。
  • 慕課網Python課程帶你入門機器學習
    這一個個數字不斷刷新的秘密武器,便是人工智慧領域的機器學習。根據《2018中國人工智慧發展報告》相關數據顯示,人工智慧行業的融資規模呈上升趨勢。在火熱的人工智慧領域裡,機器學習作為該領域的核心技術,對於人工智慧的現實應用具有重要意義。對於IT從業人員來說,跟著人工智慧的發展也能為自身職業發展帶來機遇。而在機器學習開發當中,python當屬最佳的語言。