文科生慎入!機器學習十大算法都是何方神聖?

2020-12-06 網易科技

雷鋒網(公眾號:雷鋒網)按:機器學習與人工智慧變得越來越熱。大數據原本在工業界中就已經炙手可熱,而基於大數據的機器學習則更加流行,因為其通過對數據的計算,可以實現數據預測、為公司提供決策依據。跟我們生活息息相關的最常見機器學習算法包括電影推薦算法、圖書推薦算法。這些算法都是基於你的電影觀看記錄或圖書購買記錄來給你做推薦的。

James Le在KDnuggets上發布了一篇文章,介紹了他是如何入門機器學習的。此外,他在其中摸索出十大常用的機器學習算法,並逐一進行介紹。雷鋒網編譯如下,未經許可不得轉載。

如果你想學機器學習,那怎麼入門呢?對於我來說,我是這樣開始我的機器學習的,首先,我選修了一門人工智慧課程。教我課程的老師是Technical University of Denmark的大學教授,他的研究方向就是邏輯與人工智慧。我們用的教材是人工智慧的經典教材: Peter Norvig's Artificial Intelligence — A Modern Approach。這本書主要講了智能主體、對抗搜索、概率論、多智能系統、AI哲學等等。這門課程我上了三個學期,最後我做了一個簡單的基於搜索的智能系統,這個系統可以完成虛擬環境下的傳輸任務。

通過這門課程我學到了很多知識,在將來我還要繼續學習。最近幾周,我有幸在舊金山的舉辦的機器學習大會上與眾多機器學習大牛交談,我和他們聊了很多關於深度學習雷鋒網(公眾號:雷鋒網)按:機器學習與人工智慧變得越來越熱。大數據原本在工業界中就已經炙手可熱,而基於大數據的機器學習則更加流行,因為其通過對數據的計算,可以實現數據預測、為公司提供決策依據。跟我們生活息息相關的最常見機器學習算法包括電影推薦算法、圖書推薦算法。這些算法都是基於你的電影觀看記錄或圖書購買記錄來給你做推薦的。

James Le在KDnuggets上發布了一篇文章,介紹了他是如何入門機器學習的。此外,他在其中摸索出十大常用的機器學習算法,並逐一進行介紹。雷鋒網編譯如下,未經許可不得轉載。

如果你想學機器學習,那怎麼入門呢?對於我來說,我是這樣開始我的機器學習的,首先,我選修了一門人工智慧課程。教我課程的老師是Technical University of Denmark的大學教授,他的研究方向就是邏輯與人工智慧。我們用的教材是人工智慧的經典教材: Peter Norvig's Artificial Intelligence — A Modern Approach。這本書主要講了智能主體、對抗搜索、概率論、多智能系統、AI哲學等等。這門課程我上了三個學期,最後我做了一個簡單的基於搜索的智能系統,這個系統可以完成虛擬環境下的傳輸任務。

通過這門課程我學到了很多知識,在將來我還要繼續學習。最近幾周,我有幸在舊金山的舉辦的機器學習大會上與眾多機器學習大牛交談,我和他們聊了很多關於深度學習、神經網絡、數據結構的內容。此外,我還在網上選修了一門機器學習入門課程,正巧剛剛修完。在接下來內容中,我將和大家分享我在這門課程中所學到的機器學習常用算法。

機器學習算法分為三類:有監督學習、無監督學習、增強學習。有監督學習需要標識數據(用於訓練,即有正例又有負例),無監督學習不需要標識數據,增強學習介於兩者之間(有部分標識數據)。下面我將向大家具體介紹機器學習中10大算法(只介紹有監督、無監督兩類,暫不介紹增強學習)。

一、有監督學習

算法一:決策樹

決策樹是一種樹形結構,為人們提供決策依據,決策樹可以用來回答yes和no問題,它通過樹形結構將各種情況組合都表示出來,每個分支表示一次選擇(選擇yes還是no),直到所有選擇都進行完畢,最終給出正確答案。

機器學習十大算法都是何方神聖?看完你就懂了

算法二:樸素貝葉斯分類器

樸素貝葉斯分類器基於貝葉斯理論及其假設(即特徵之間是獨立的,是不相互影響的)

機器學習十大算法都是何方神聖?看完你就懂了

P(A|B) 是後驗概率, P(B|A) 是似然,P(A)為先驗概率,P(B) 為我們要預測的值。

具體應用有:垃圾郵件檢測、文章分類、情感分類、人臉識別等。

算法三:最小二乘法

如果你對統計學有所了解,那麼你必定聽說過線性回歸。最小均方就是用來求線性回歸的。如下圖所示,平面內會有一系列點,然後我們求取一條線,使得這條線儘可能擬合這些點分布,這就是線性回歸。這條線有多種找法,最小二乘法就是其中一種。最小二乘法其原理如下,找到一條線使得平面內的所有點到這條線的歐式距離和最小。這條線就是我們要求取得線。

機器學習十大算法都是何方神聖?看完你就懂了

線性指的是用一條線對數據進行擬合,距離代表的是數據誤差,最小二乘法可以看做是誤差最小化。

算法四:邏輯回歸

邏輯回歸模型是一個二分類模型,它選取不同的特徵與權重來對樣本進行概率分類,用一各log函數計算樣本屬於某一類的概率。即一個樣本會有一定的概率屬於一個類,會有一定的概率屬於另一類,概率大的類即為樣本所屬類。

機器學習十大算法都是何方神聖?看完你就懂了

具體應用有:信用評級、營銷活動成功概率、產品銷售預測、某天是否將會地震發生。

算法五:支持向量機(SVM)

支持向量機是一個二分類算法,它可以在N維空間找到一個(N-1)維的超平面,這個超平面可以將這些點分為兩類。也就是說,平面內如果存在線性可分的兩類點,SVM可以找到一條最優的直線將這些點分開。SVM應用範圍很廣。

機器學習十大算法都是何方神聖?看完你就懂了

具體應用有:廣告展示、性別檢測、大規模圖像識別等。

算法六:集成學習

集成學習就是將很多分類器集成在一起,每個分類器有不同的權重,將這些分類器的分類結果合併在一起,作為最終的分類結果。最初集成方法為貝葉斯決策,現在多採用error-correcting output coding, bagging, and boosting等方法進行集成。

機器學習十大算法都是何方神聖?看完你就懂了

那麼為什集成分類器要比單個分類器效果好呢?

1.偏差均勻化:如果你將民主黨與共和黨的投票數算一下均值,可定會得到你原先沒有發現的結果,集成學習與這個也類似,它可以學到其它任何一種方式都學不到的東西。

2.減少方差:總體的結果要比單一模型的結果好,因為其從多個角度考慮問題。類似於股票市場,綜合考慮多隻股票可以要比只考慮一隻股票好,這就是為什麼多數據比少數據效果好原因,因為其考慮的因素更多。

3.不容易過擬合。如果的一個模型不過擬合,那麼綜合考慮多種因素的多模型就更不容易過擬合了。

二、無監督學習

算法七:聚類算法

聚類算法就是將一堆數據進行處理,根據它們的相似性對數據進行聚類。

機器學習十大算法都是何方神聖?看完你就懂了

聚類算法有很多種,具體如下:中心聚類、關聯聚類、密度聚類、概率聚類、降維、神經網絡/深度學習。

算法八:主成分分析(PCA)

主成分分析是利用正交變換將一些列可能相關數據轉換為線性無關數據,從而找到主成分。

機器學習十大算法都是何方神聖?看完你就懂了

PCA主要用於簡單學習與可視化中數據壓縮、簡化。但是PCA有一定的局限性,它需要你擁有特定領域的相關知識。對噪音比較多的數據並不適用。

算法九:SVD矩陣分解

SVD矩陣是一個複雜的實復負數矩陣,給定一個m行、n列的矩陣M,那麼M矩陣可以分解為M = UΣV。U和V是酉矩陣,Σ為對角陣。

機器學習十大算法都是何方神聖?看完你就懂了

PCA實際上就是一個簡化版本的SVD分解。在計算機視覺領域,第一個臉部識別算法就是基於PCA與SVD的,用特徵對臉部進行特徵表示,然後降維、最後進行面部匹配。儘管現在面部識別方法複雜,但是基本原理還是類似的。

算法十:獨立成分分析(ICA)

ICA是一門統計技術,用於發現存在於隨機變量下的隱性因素。ICA為給觀測數據定義了一個生成模型。在這個模型中,其認為數據變量是由隱性變量,經一個混合系統線性混合而成,這個混合系統未知。並且假設潛在因素屬於非高斯分布、並且相互獨立,稱之為可觀測數據的獨立成分。

機器學習十大算法都是何方神聖?看完你就懂了

ICA與PCA相關,但它在發現潛在因素方面效果良好。它可以應用在數字圖像、檔文資料庫、經濟指標、心裡測量等。

以上就是我對機器學習算法的一些簡單介紹,現在你可以通過我的介紹與你自己的理解,好好思考機器學還可以在我們的日常生活中有哪些應用。

雷鋒網總結:實際上這些機器學習算法並不是全都像想像中一樣複雜,有些還和高中數學緊密相關。不過如何學以致用舉一反三,不僅是機器學習的核心,也同樣是每個人學習的核心要義。

via The 10 Algorithms Machine Learning Engineers Need to Know、神經網絡、數據結構的內容。此外,我還在網上選修了一門機器學習入門課程,正巧剛剛修完。在接下來內容中,我將和大家分享我在這門課程中所學到的機器學習常用算法。

機器學習算法分為三類:有監督學習、無監督學習、增強學習。有監督學習需要標識數據(用於訓練,即有正例又有負例),無監督學習不需要標識數據,增強學習介於兩者之間(有部分標識數據)。下面我將向大家具體介紹機器學習中10大算法(只介紹有監督、無監督兩類,暫不介紹增強學習)。

一、有監督學習

算法一:決策樹

決策樹是一種樹形結構,為人們提供決策依據,決策樹可以用來回答yes和no問題,它通過樹形結構將各種情況組合都表示出來,每個分支表示一次選擇(選擇yes還是no),直到所有選擇都進行完畢,最終給出正確答案。

本文來源:雷鋒網 責任編輯:郭浩_NT5629

相關焦點

  • 機器學習十大算法都是何方神聖?看完你就懂了
    大數據原本在工業界中就已經炙手可熱,而基於大數據的機器學習則更加流行,因為其通過對數據的計算,可以實現數據預測、為公司提供決策依據。跟我們生活息息相關的最常見機器學習算法包括電影推薦算法、圖書推薦算法。這些算法都是基於你的電影觀看記錄或圖書購買記錄來給你做推薦的。James Le 在 KDnuggets 上發布了一篇文章,介紹了他是如何入門機器學習的。
  • 機器學習初學者必須知道的十大算法
    還在為不知道學什麼算法入門機器學習感到頭疼?本文作者通過自身的學習向初學者介紹十大機器學習(ML)算法,並附有數字和實例以便於理解。哈佛商業評論稱數據科學家是21世紀最性感的工作。所以,對於那些ML剛剛開始的人來說,這篇博客機器學習算法工程師需要知道的十大算法是非常有用的。ML算法是可以從數據中學習並從中改進的算法,無需人工幹預。
  • 光聽到名字就想笑的生物都是何方神聖?
    光聽到名字就想笑的生物都是何方神聖? 來源:2016-10-12 16:52:41 查看數0 在自然界中,有這麼一種名為「二球懸鈴木」的植物,聽上去它的名字就像罵人,但其實這種植物很多人都見過,就是英國梧桐,它的親戚就是「三球懸鈴木」法國梧桐。
  • 五分鐘了解機器學習十大算法
    本文為有志於成為數據科學家或對此感興趣的讀者們介紹最流行的機器學習算法。機器學習是該行業的一個創新且重要的領域。我們為機器學習程序選擇的算法類型,取決於我們想要實現的目標。現在,機器學習有很多算法。因此,如此多的算法,可能對於初學者來說,是相當不堪重負的。
  • 盤點:十大機器學習算法及其應用
    毫無疑問,過去兩年中,機器學習和人工智慧的普及度得到了大幅提升。如果你想學習機器算法,要從何下手呢?以我為例,我是在哥本哈根留學期間,學習AI課程入門的。我們用的教科書是一本AI經典:《Peter Norvig’s Artificial Intelligence?—?A Modern Approach》。
  • 【技術必備】解讀 2016 年十大機器學習算法及其應用
    原標題:【技術必備】解讀 2016 年十大機器學習算法及其應用 新智元編譯 來源:kdnuggets 【新智元導讀】 機器學習領域都有哪些常用算法?本文帶來盤點。 毫無疑問,過去兩年中,機器學習和人工智慧的普及度得到了大幅提升。 如果你想學習機器算法,要從何下手呢?
  • 十大機器學習算法之旅已啟程
    因此,你應該為你的問題嘗試許多不同的算法,同時使用數據的「測試集」來評估性能並選擇勝出者。  當然,你嘗試的算法必須適合你的問題,這就是選擇正確的機器學習任務的地方。打一個比方,如果你需要清理你的房子,你可以使用真空吸塵器、掃帚或拖把,但是你不會用一個鏟子來挖掘。
  • 文科生如何入門機器學習:先看看這篇零基礎教程,再多算幾遍
    他們在普遍缺乏大學數學知識的情況下,就不能入門機器學習了嗎?最近有位Reddit網友David Code,他也是一名文科生,曾經在脫口秀節目《周六夜現場》工作過。後來他經過兩年「地獄式」的自學,十幾次的挫敗,最終掌握了機器學習的知識,並把他的經驗寫成了一個長篇博客。
  • 2016考研英語:「語感」究竟是何方神聖
    語感究竟是何方神聖   摘要:
  • 史上最全十大機器學習算法,入門必看!
    1介紹關於機器學習算法的研究已經獲得了巨大的成功,哈佛商業評論甚至將數據科學家稱為二十一世紀最具誘惑力的工作。機器學習算法是在沒有人為幹涉的情況下,從大量的數據和歷史經驗中學習數據的結構並提升對某一目標的估計的算法。
  • 2018.12十大機器學習熱門網文
    作為一個為專業人員提供評文章測服務的團隊,我們非常關注文章的質量,以便確保您閱讀的都是高質量的文章。為此,我們使用Mybridge AI這個機器學習算法,通過分享數與閱讀時間這兩個維度來對文章進行綜合考量。這是一個競爭很激烈的文章列表,你會發現很多機器學習大牛分享的經驗與技巧。
  • 流行的機器學習算法總結,幫助你開啟機器學習算法學習之旅
    AI的ML領域是為實現非常精確的目標而創建的,它引入了多種算法,從而可以更順暢地進行數據處理和決策。什麼是機器學習算法?機器學習算法是任何模型背後的大腦,可讓機器學習並使其更智能。這些算法的工作方式是,為它們提供第一批數據,並且隨著時間的流逝和算法的準確性的提高,額外的數據也被引入到算法中。
  • 文科生如何入門機器學習:先看看這篇零基礎教程,再多算幾遍吧
    曉查 發自 凹非寺量子位 出品 | 公眾號 QbitAIAI技術變得越來越熱門,很多人開始轉行進入這一領域,其中當然也不乏文科生。他們在普遍缺乏大學數學知識的情況下,就不能入門機器學習了嗎?最近有位Reddit網友David Code,他也是一名文科生,曾經在脫口秀節目《周六夜現場》工作過。
  • 新手必看的十種機器學習算法
    然而,在眾多的機器學習算法中,哪些是又上手快捷又功能強大、適合新手學習的呢?Towards Data Science 上一篇文章就介紹了十種新手必看的機器學習算法,雷鋒網 AI 科技評論全文編譯如下。如果早就知道,我們就可以直接使用它,而不需要再通過機器學習算法從數據中進行學習了。最常見的機器學習就是學習 Y=f(X) 的映射,針對新的 X 預測 Y。這叫做預測建模或預測分析。我們的目標就是讓預測更加精確。針對希望對機器學習有個基本了解的新人來說,下面將介紹數據科學家們最常使用的 10 種機器學習算法。1.
  • 指靜脈識別究竟是何方神聖?
    #生物識別#可能很多人都是第一次聽說指靜脈識別,那麼指靜脈識別究竟是何方神聖?
  • Realme的SLED電視又是何方神聖
    根據Realme的說法,這款SLED電視的NTSC色域要比普通的液晶電視和QLED電視都好,能夠帶來更好的色彩表現。同時這款電視還擁有更優秀的護眼功能,獲得了德國萊茵低藍光認證。看到這裡,可能不少人會很奇怪,聽過QLED、OLED,這個SLED又是何方神聖?是一項新技術還是只是營銷噱頭?今天就跟大家簡單科普一下。
  • 算法應用|機器學習python應用,簡單機器學習項目實踐
    可以說這並不是一個正式的項目,只是用來做一個簡單的展示,用於給初次接觸機器學習的讀者快速了解機器學習的過程和結果。1 機器學習中的Hello World頂目學習編程時,往往我們的第一句代碼就是print(「Hello World」),而接下來的這個數據集,可以說得上是機器學習中的Hello World頂目,入門學習機器學習的過程中最常見的一個數據集。
  • 小年溯源:小年都有哪些習俗?民間祭拜的灶王又是何方神聖?
    小年溯源:小年都有哪些習俗?民間祭拜的灶王又是何方神聖?一覺醒來,雖然北京的天空依然沒有飄下一片雪花,但春節的腳步卻是越來越近了!今日是臘月二十三,也就是我國北方俗稱的「小年」。雖然關於「小年」的確切日期上,南北雙方都各執一詞,但有一點可以肯定的是,在「小年」這一天,家家戶戶的百姓都要祭灶王。那麼,小年都有哪些習俗?民間祭拜的這個灶王又是何方神聖?雖說小年是每年都過,但這兩個問題,可能多數人都搞不清楚!一、灶王是誰?小年這天,也是民間祭灶的日子。
  • 數據科學家應該知道的頂級機器學習算法
    機器學習算法簡介有兩種方法可以對您可能在現場遇到的機器學習算法進行分類。首先是按照學習風格對算法進行分組。第二個是通過形式或功能上的相似性對算法進行分組。通常,兩種方法都是有用的。但是,我們將專注於通過相似性進行算法分組,並瀏覽各種不同的算法類型。
  • 文科生都能看懂的機器學習教程:梯度下降、線性回歸、邏輯回歸
    本文試圖將機器學習這本深奧的課程,以更加淺顯易懂的方式講出來,讓沒有理科背景的讀者都能看懂。  把複雜的東西簡單化,讓非專業人士也能短時間內理解,並露出恍然大悟的表情,是一項非常厲害的技能。  舉個例子。你正在應聘機器學習工程師,面對的是文科出身的HR,如果能在最短時間內讓她了解你的專業能力,就能極大地提升面試成功率。