機器學習十大算法都是何方神聖?看完你就懂了

2021-01-10 雷鋒網

雷鋒網(公眾號:雷鋒網)按:機器學習與人工智慧變得越來越熱。大數據原本在工業界中就已經炙手可熱,而基於大數據的機器學習則更加流行,因為其通過對數據的計算,可以實現數據預測、為公司提供決策依據。跟我們生活息息相關的最常見機器學習算法包括電影推薦算法、圖書推薦算法。這些算法都是基於你的電影觀看記錄或圖書購買記錄來給你做推薦的。

James Le 在 KDnuggets 上發布了一篇文章,介紹了他是如何入門機器學習的。此外,他在其中摸索出十大常用的機器學習算法,並逐一進行介紹。雷鋒網編譯如下,未經許可不得轉載。

如果你想學機器學習,那怎麼入門呢?對於我來說,我是這樣開始我的機器學習的,首先,我選修了一門人工智慧課程。教我課程的老師是Technical University of Denmark的大學教授,他的研究方向就是邏輯與人工智慧。我們用的教材是人工智慧的經典教材: Peter Norvig's Artificial Intelligence — A Modern Approach。這本書主要講了智能主體、對抗搜索、概率論、多智能系統、AI哲學等等。這門課程我上了三個學期,最後我做了一個簡單的基於搜索的智能系統,這個系統可以完成虛擬環境下的傳輸任務。

通過這門課程我學到了很多知識,在將來我還要繼續學習。最近幾周,我有幸在舊金山的舉辦的機器學習大會上與眾多機器學習大牛交談,我和他們聊了很多關於深度學習、神經網絡、數據結構的內容。此外,我還在網上選修了一門機器學習入門課程,正巧剛剛修完。在接下來內容中,我將和大家分享我在這門課程中所學到的機器學習常用算法。

機器學習算法分為三類:有監督學習、無監督學習、增強學習。有監督學習需要標識數據(用於訓練,即有正例又有負例),無監督學習不需要標識數據,增強學習介於兩者之間(有部分標識數據)。下面我將向大家具體介紹機器學習中10大算法(只介紹有監督、無監督兩類,暫不介紹增強學習)。

一、有監督學習
算法一:決策樹

決策樹是一種樹形結構,為人們提供決策依據,決策樹可以用來回答yes和no問題,它通過樹形結構將各種情況組合都表示出來,每個分支表示一次選擇(選擇yes還是no),直到所有選擇都進行完畢,最終給出正確答案。

算法二:樸素貝葉斯分類器

樸素貝葉斯分類器基於貝葉斯理論及其假設(即特徵之間是獨立的,是不相互影響的)

P(A|B) 是後驗概率, P(B|A) 是似然,P(A)為先驗概率,P(B) 為我們要預測的值。

具體應用有:垃圾郵件檢測、文章分類、情感分類、人臉識別等。

算法三:最小二乘法

如果你對統計學有所了解,那麼你必定聽說過線性回歸。最小均方就是用來求線性回歸的。如下圖所示,平面內會有一系列點,然後我們求取一條線,使得這條線儘可能擬合這些點分布,這就是線性回歸。這條線有多種找法,最小二乘法就是其中一種。最小二乘法其原理如下,找到一條線使得平面內的所有點到這條線的歐式距離和最小。這條線就是我們要求取得線。

線性指的是用一條線對數據進行擬合,距離代表的是數據誤差,最小二乘法可以看做是誤差最小化。

算法四:邏輯回歸

邏輯回歸模型是一個二分類模型,它選取不同的特徵與權重來對樣本進行概率分類,用一各log函數計算樣本屬於某一類的概率。即一個樣本會有一定的概率屬於一個類,會有一定的概率屬於另一類,概率大的類即為樣本所屬類。

具體應用有:信用評級、營銷活動成功概率、產品銷售預測、某天是否將會地震發生。

算法五:支持向量機(SVM)

支持向量機是一個二分類算法,它可以在N維空間找到一個(N-1)維的超平面,這個超平面可以將這些點分為兩類。也就是說,平面內如果存在線性可分的兩類點,SVM可以找到一條最優的直線將這些點分開。SVM應用範圍很廣。

具體應用有:廣告展示、性別檢測、大規模圖像識別等。

算法六:集成學習

集成學習就是將很多分類器集成在一起,每個分類器有不同的權重,將這些分類器的分類結果合併在一起,作為最終的分類結果。最初集成方法為貝葉斯決策,現在多採用error-correcting output coding, bagging, and boosting等方法進行集成。

那麼為什集成分類器要比單個分類器效果好呢?

1.偏差均勻化:如果你將民主黨與共和黨的投票數算一下均值,可定會得到你原先沒有發現的結果,集成學習與這個也類似,它可以學到其它任何一種方式都學不到的東西。

2.減少方差:總體的結果要比單一模型的結果好,因為其從多個角度考慮問題。類似於股票市場,綜合考慮多隻股票可以要比只考慮一隻股票好,這就是為什麼多數據比少數據效果好原因,因為其考慮的因素更多。

3.不容易過擬合。如果的一個模型不過擬合,那麼綜合考慮多種因素的多模型就更不容易過擬合了。

二、無監督學習算法七:聚類算法

聚類算法就是將一堆數據進行處理,根據它們的相似性對數據進行聚類。

聚類算法有很多種,具體如下:中心聚類、關聯聚類、密度聚類、概率聚類、降維、神經網絡/深度學習。

算法八:主成分分析(PCA)

主成分分析是利用正交變換將一些列可能相關數據轉換為線性無關數據,從而找到主成分。

PCA主要用於簡單學習與可視化中數據壓縮、簡化。但是PCA有一定的局限性,它需要你擁有特定領域的相關知識。對噪音比較多的數據並不適用。

算法九:SVD矩陣分解

SVD矩陣是一個複雜的實復負數矩陣,給定一個m 行、n列的矩陣M,那麼M矩陣可以分解為M = UΣV。U和V是酉矩陣,Σ為對角陣。

PCA實際上就是一個簡化版本的SVD分解。在計算機視覺領域,第一個臉部識別算法就是基於PCA與SVD的,用特徵對臉部進行特徵表示,然後降維、最後進行面部匹配。儘管現在面部識別方法複雜,但是基本原理還是類似的。

算法十:獨立成分分析(ICA)

ICA是一門統計技術,用於發現存在於隨機變量下的隱性因素。ICA為給觀測數據定義了一個生成模型。在這個模型中,其認為數據變量是由隱性變量,經一個混合系統線性混合而成,這個混合系統未知。並且假設潛在因素屬於非高斯分布、並且相互獨立,稱之為可觀測數據的獨立成分。

ICA與PCA相關,但它在發現潛在因素方面效果良好。它可以應用在數字圖像、檔文資料庫、經濟指標、心裡測量等。

以上就是我對機器學習算法的一些簡單介紹,現在你可以通過我的介紹與你自己的理解,好好思考機器學還可以在我們的日常生活中有哪些應用。

雷鋒網總結:實際上這些機器學習算法並不是全都像想像中一樣複雜,有些還和高中數學緊密相關。不過如何學以致用舉一反三,不僅是機器學習的核心,也同樣是每個人學習的核心要義。

via The 10 Algorithms Machine Learning Engineers Need to Know

【兼職召集令!】

如果你對未來充滿憧憬,喜歡探索改變世界的科技進展,look no further!

我們需要這樣的你:

精通英語,對技術與產品感興趣,關注人工智慧學術動態的蘿莉&萌妹子&技術宅;

文字不求妙筆生花,但希望通俗易懂;

在這裡,你會收穫:

一群來自天南地北、志同道合的小夥伴;

前沿學術科技動態,每天為自己充充電;

更高的生活品質,翻翻文章就能掙到零花錢;

有意向的小夥伴們把個人介紹/簡歷發至 guoyixin@leiphone.com,如有作品,歡迎一併附上。

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 茶杯犬賣3萬元一隻,它到底是「何方神聖」看完你懂了嗎?
    茶杯犬賣3萬元一隻, 它到底是「何方神聖」看完你懂了嗎?說到寵物狗,相信大家一定都非常喜歡,校長也非常喜歡狗狗,每次看到朋友家養的小狗,都會忍不住想要抱一抱。相信很多女生也都非常喜歡寵物狗,而且不同性格的女生也會養不同類型的狗狗,有的女生喜歡養大狗,有的女生則喜歡養小狗,不過還有的人喜歡養迷你的小狗,這就是茶杯犬,我們一起來了解一下吧。這種狗狗長得非常可愛,其外形和貴賓犬長得很像,整個一縮小版的貴賓。不過售價卻比貴賓犬高得多,我們大家都知道,買一隻貴賓犬也就是千來塊的樣子。
  • 回歸、分類與聚類:三大方向剖解機器學習算法的優缺點(附Python和R...
    選自EliteDataScience機器之心編譯參與:蔣思源、晏奇在本教程中,作者對現代機器學習算法進行一次簡要的實戰梳理。雖然類似的總結有很多,但是它們都沒有真正解釋清楚每個算法在實踐中的好壞,而這正是本篇梳理希望完成的。因此本文力圖基於實踐中的經驗,討論每個算法的優缺點。而機器之心也在文末給出了這些算法的具體實現細節。
  • 超簡單機器學習入門好書推薦
    人工智慧(AI)和機器學習(ML)是全球業務、技術和研究人員都感興趣的話題,關於它的書籍、視頻課程也非常的多,前天發布的文章中就有推薦bilibili上面很火爆的機器學習課程。想要深入學習,可以先系統的看看相關的書籍和視頻課程,機器學習可以從兩個方向說起:學習算法和應用領域,如果你有足夠的機器學習知識,並對特定的領域有良好的理解,在職場供求中你肯定可以站在優勢的那一邊,以下為你推薦5本入門好書!1、周志華《機器學習理論導引》這本書為有志於學習和研究機器學習理論的讀者提供導引。
  • AI Time 第二期:論道自動機器學習與可解釋機器學習
    這裡可以用數學公式來定義,簡單來說,對於你給定的一個任務,希望機器能夠自動學習模型的結構和設置,並能達到最優層級。舉個例子,過去大家用得比較多的是 ResNet 或者 DesNet,這些網絡結構都是通過經驗,人為設計出來的。現在談到 AutoML,我們希望網絡結構的設計變成一個優化問題,由機器學習出來。
  • 機器學習特徵選擇常用算法
    (2) 為什麼要做特徵選擇在機器學習的實際應用中,特徵數量往往較多,其中可能存在不相關的特徵,特徵之間也可能存在相互依賴,容易導致如下的後果:特徵個數越多,分析特徵、訓練模型所需的時間就越長。特徵個數越多,容易引起「維度災難」,模型也會越複雜,其推廣能力會下降。
  • 一路火爆的貓跟鞋,究竟是何方神聖?
    「女人的鞋櫃裡始終都會少一雙鞋」,春暖花開的日子女孩子們又要開啟買買買的模式了……今天小編就給大家排憂解難,推薦一雙幾乎可以包攬所有風格與場合的鞋子,讓你穿搭起來省心又省力,它就是從心到腳都透著優雅的貓跟鞋!一、一路火爆的貓跟鞋,究竟是何方神聖?
  • 機器學習:入門方法與學習路徑 (附資料)
    引言 也許你和這個叫『機器學習』的傢伙一點也不熟,但是你舉起iphone手機拍照的時候,早已習慣它幫你框出人臉;也自然而然點開今日頭條推給你的新聞;也習慣逛淘寶點了找相似之後貨比三家;亦或喜聞樂見微軟的年齡識別網站結果刷爆朋友圈。恩,這些功能的核心算法就是機器學習領域的內容。
  • Realme的SLED電視又是何方神聖
    根據Realme的說法,這款SLED電視的NTSC色域要比普通的液晶電視和QLED電視都好,能夠帶來更好的色彩表現。同時這款電視還擁有更優秀的護眼功能,獲得了德國萊茵低藍光認證。 看到這裡,可能不少人會很奇怪,聽過QLED、OLED,這個SLED又是何方神聖?
  • 資料| 《 機器學習數學基礎 》
    一旦得到恰當的形式化,我們就可以使用數學工具推導出機器學習算法設計的選擇結果。這幫助我們理解正在解決的任務,同時了解智能的本質。全球數學專業的學生常見的一種抱怨是數學話題似乎與實際問題沒有什麼相關。我們認為機器學習是促使人們學習數學的直接動力。本書旨在作為構建現代機器學習基礎的大量數學文獻的指南。我們通過直接指出數學概念在基礎機器學習問題中的有用性來促進對數學概念學習的需求。
  • 那麼周叔究竟是何方神聖?
    那麼周叔究竟是何方神聖?首先我們來說說是什麼,讓一個死而復生的周叔再次出現?大家都知道,扶搖是周叔從小看著長大的孩子,比自己的親生骨肉還要好,還要寵幸,有什麼好東西也會給扶搖,比如在玄元山玄幽部,雖然說每個人都是奴婢,侍奉人是奴婢的本分,但是卻有一個人是例外,那就是扶搖,扶搖可以「胡作非為」,任性頑皮,每當扶搖闖了禍,周叔都會儘自己最大的力量,哪怕是犧牲自己的生命,都要幫助扶搖度過危難。而在日常生活中,周叔有時候也會給扶搖開「小灶」,為了不讓扶搖吃苦。
  • 全職獵人:小傑的媽媽究竟是何方神聖?
    小夥伴的從相識到相知,包括念的解析和故事性的環環相扣,但是讀者和粉絲大多都迷人,很少有人挖掘獨創的「獵人文字」,而且現在的巨坑留著如果填的合理和連貫應該很精彩,但是留下的太多了。目前我所了解的的巨坑。奇美拉女王落難來到世界地圖範圍,但是有是什麼物種滅了當時的奇美拉蟻小傑的媽媽是何方神聖。帕裡斯通是否會念,還是他是個無念但極致的領導者,黑暗大陸不存在一對一的強者,但還是要前去帶回希望,感染的人不多吧?如果世界地圖有黑暗大陸的災難,是不是應該先解決再去攻略呢,感覺獵人協會幾乎傾巢而出(貌似小傑和奇牙沒去)。說的了,不知道各位怎麼看。
  • 魚缸菌膜是何方神聖?對觀賞魚有害嗎?你該知道的,都在這裡了
    很多觀賞魚新手都見過菌膜,就是魚缸裡長出來的一種白色半透明的附著物,粘粘的,通常附著在魚缸裡的塑料管上,或者沉木上。這個菌膜到底是何方神聖?對觀賞魚有沒有傷害?我們應該如何處理它呢?好了,同學們請躺好,聽譁仔再來說一段兒!
  • 慶餘年:神秘莫測的「影子大人」到底是何方神聖?他居然也和四顧劍...
    例如劇中神秘莫測的「影子大人」,從頭到尾都沒有露過臉,他到底是何方神聖,長什麼樣子。這個問題,想必很多觀眾都非常好奇。今天,小編就帶大家揭秘下,《慶餘年》裡的影子大人的真身。 從始至終,連臉都沒有路過。出現雖然只有寥寥幾次,但是給人留下了非常深刻的印象。從劇中的線索我們可以知道,「影子大人」是六處的主辦,專門負責刺殺。平時蒙著臉,沒有人看過他的真正面目。是陳萍萍最信任的人之一,也是陳萍萍最好的助手。
  • 美國德州農工大學胡俠教授:機器學習的可解釋性與自動機器學習 |...
    基於用戶的機器學習主要分兩方面:一、機器學習的入口。機器學習廣泛應用於各行各業,但要用好一個機器學習系統,把效果提升上去,就必須要有數據科學的背景。這大大阻礙了機器學習在各行各業的落地前景。二、數據的入口。如何做好自動的機器學習,即給定一個數據,系統自動推薦相應的深度學習算法,這是我想講的第二個問題。
  • 重磅開源 | 機器學習聖經《模式識別與機器學習》中文版PDF!
    2021-01-09 11:14:31 來源: 機器學習與Python社區 舉報
  • 最入門級別的機器學習圖書:Chris Bishop發布在線新書
    「我的問題看起來不能用任何標準算法解決。」機器學習對於入門者而言是令人畏懼的在本書中,作者從一個新的視角審視機器學習,即基於模型的機器學習。從這個視角來看,我們會更系統、清晰地了解創建高效機器學習解決方案的過程。本教程適應於全方位了解機器學習技術和應用,並有助於大家構建成功的機器學習解決方案。
  • 山區叮人的小黑蟲到底是何方神聖?
    你看的是不是就這樣的小黑蟲,體長不到兩毫米,比芝麻粒還要小,飛行幾乎無聲,不經意時已經停在你的裸露皮膚處,即使你在運動它都宛如泰山般死死的叮住你,被小黑蟲咬後奇癢無比甚至引發成片過敏反應。
  • 優秀機器學習和AI課程推薦,帶你從入門到精通
    字幕組雙語原文:最棒的免費機器學習和AI課程,讓你從入門到精通英語原文:Awesome Machine Learning and AI Courses翻譯:雷鋒字幕組(明明知道)這是一個精心策劃、超讚的、免費的機器學習和人工智慧課程與視頻講座清單。
  • 一個簡單的案例帶你了解支持向量機算法(Python代碼)
    介紹掌握機器學習算法並不是一個不可能完成的事情。大多數的初學者都是從學習回歸開始的。是因為回歸易於學習和使用,但這能夠解決我們全部的問題嗎?當然不行!因為,你要學習的機器學習算法不僅僅只有回歸!把機器學習算法想像成一個裝有斧頭,劍,刀,弓箭,匕首等等武器的軍械庫。你有各種各樣的工具,但你應該學會在正確的時間和場合使用它們。
  • 心理測試:選一面最喜歡的鏡子,測你未來老公是何方神聖?
    心理測試:選一面最喜歡的鏡子,測你未來老公是何方神聖?ABCDA:你未來的老公將會是跟你門當戶對的人。事實上,你狀況而也是比較良好的,所以你身邊大多數異性也都是條件不錯的人。你未來的丈夫是你的合適人選,他的各種條件都很好,跟你也很匹配,你們的朋友們都會認為你們是郎才女貌的一對,所以你也不會有你父母反對你們在一起的情況,如果你是所有方面都非常好的白富美,那你將來的丈夫也非常有可能會是高富帥。B:你未來的老公很有可能會是高富帥。