三張圖讀懂機器學習:基本概念、五大流派與九種常見算法

2021-01-10 36kr

編者按:本文由機器之心編譯自PwC,作者:Alan Morrison、Anand Rao,參與:吳攀、晏奇;36氪經授權發布。

機器學習正在進步,我們似乎正在不斷接近我們心中的人工智慧目標。語音識別、圖像檢測、機器翻譯、風格遷移等技術已經在我們的實際生活中開始得到了應用,但機器學習的發展仍還在繼續,甚至被認為有可能徹底改變人類文明的發展方向乃至人類自身。但你了解現在正在發生的這場變革嗎?四大會計師事務所之一的普華永道(PwC)近日發布了多份解讀機器學習基礎的圖表,其中介紹了機器學習的基本概念、原理、歷史、未來趨勢和一些常見的算法。為便於讀者閱讀,機器之心對這些圖表進行了編譯和拆分,分三大部分對這些內容進行了呈現,其中也加入了一些擴展連結,希望能幫助你進一步擴展閱讀。

一、機器學習概覽

1. 什麼是機器學習?

機器通過分析大量數據來進行學習。比如說,不需要通過編程來識別貓或人臉,它們可以通過使用圖片來進行訓練,從而歸納和識別特定的目標。

2. 機器學習和人工智慧的關係

機器學習是一種重在尋找數據中的模式並使用這些模式來做出預測的研究和算法的門類。機器學習是人工智慧領域的一部分,並且和知識發現與數據挖掘有所交集。更多解讀可參閱《一文讀懂機器學習、數據科學、人工智慧、深度學習和統計學之間的區別》。


3. 機器學習的工作方式

①選擇數據:將你的數據分成三組:訓練數據、驗證數據和測試數據

②模型數據:使用訓練數據來構建使用相關特徵的模型

③驗證模型:使用你的驗證數據接入你的模型

④測試模型:使用你的測試數據檢查被驗證的模型的表現

⑤使用模型:使用完全訓練好的模型在新數據上做預測

⑥調優模型:使用更多數據、不同的特徵或調整過的參數來提升算法的性能表現

4. 機器學習所處的位置

①傳統編程:軟體工程師編寫程序來解決問題。首先存在一些數據→為了解決一個問題,軟體工程師編寫一個流程來告訴機器應該怎樣做→計算機遵照這一流程執行,然後得出結果

②統計學:分析師比較變量之間的關係

③機器學習:數據科學家使用訓練數據集來教計算機應該怎麼做,然後系統執行該任務。首先存在大數據→機器會學習使用訓練數據集來進行分類,調節特定的算法來實現目標分類→該計算機可學習識別數據中的關係、趨勢和模式

④智能應用:智能應用使用人工智慧所得到的結果,如圖是一個精準農業的應用案例示意,該應用基於無人機所收集到的數據

5. 機器學習的實際應用

機器學習有很多應用場景,這裡給出了一些示例,你會怎麼使用它?

快速三維地圖測繪和建模:要建造一架鐵路橋,PwC 的數據科學家和領域專家將機器學習應用到了無人機收集到的數據上。這種組合實現了工作成功中的精準監控和快速反饋。

增強分析以降低風險:為了檢測內部交易,PwC 將機器學習和其它分析技術結合了起來,從而開發了更為全面的用戶概況,並且獲得了對複雜可疑行為的更深度了解。

預測表現最佳的目標:PwC 使用機器學習和其它分析方法來評估 Melbourne Cup 賽場上不同賽馬的潛力。

二、機器學習的演化

幾十年來,人工智慧研究者的各個「部落」一直以來都在彼此爭奪主導權,參閱機器之心文章《華盛頓大學教授 Pedro Domingos:機器學習領域五大流派(附演講 ppt)》。現在是這些部落聯合起來的時候了嗎?他們也可能不得不這樣做,因為合作和算法融合是實現真正通用人工智慧(AGI)的唯一方式。這裡給出了機器學習方法的演化之路以及未來的可能模樣。擴展閱讀《深度 | 深度學習與神經網絡全局概覽:核心技術的發展歷程》。

1. 五大流派

①符號主義:使用符號、規則和邏輯來表徵知識和進行邏輯推理,最喜歡的算法是:規則和決策樹

②貝葉斯派:獲取發生的可能性來進行概率推理,最喜歡的算法是:樸素貝葉斯或馬爾可夫

③聯結主義:使用概率矩陣和加權神經元來動態地識別和歸納模式,最喜歡的算法是:神經網絡

④進化主義:生成變化,然後為特定目標獲取其中最優的,最喜歡的算法是:遺傳算法

⑤Analogizer:根據約束條件來優化函數(儘可能走到更高,但同時不要離開道路),最喜歡的算法是:支持向量機

2. 演化的階段

1980 年代

主導流派:符號主義

架構:伺服器或大型機

主導理論:知識工程

基本決策邏輯:決策支持系統,實用性有限

1990 年代到 2000 年

主導流派:貝葉斯

架構:小型伺服器集群

主導理論:概率論

分類:可擴展的比較或對比,對許多任務都足夠好了

2010 年代早期到中期

主導流派:聯結主義

架構:大型伺服器農場

主導理論:神經科學和概率

識別:更加精準的圖像和聲音識別、翻譯、情緒分析等

3. 這些流派有望合作,並將各自的方法融合到一起

2010 年代末期

2020 年代+

2040 年代+

三、機器學習的算法

你應該使用哪種機器學習算法?這在很大程度上依賴於可用數據的性質和數量以及每一個特定用例中你的訓練目標。不要使用最複雜的算法,除非其結果值得付出昂貴的開銷和資源。這裡給出了一些最常見的算法,按使用簡單程度排序。更多內容可參閱機器之心的文章《機器學習算法集錦:從貝葉斯到深度學習及各自優缺點》和《經驗之談:如何為你的機器學習問題選擇合適的算法?》

1. 決策樹(Decision Tree):在進行逐步應答過程中,典型的決策樹分析會使用分層變量或決策節點,例如,可將一個給定用戶分類成信用可靠或不可靠。

2. 支持向量機(Support Vector Machine):基於超平面(hyperplane),支持向量機可以對數據群進行分類。


3. 回歸(Regression):回歸可以勾畫出因變量與一個或多個因變量之間的狀態關係。在這個例子中,將垃圾郵件和非垃圾郵件進行了區分。


4. 樸素貝葉斯分類(Naive Bayes Classification):樸素貝葉斯分類器用於計算可能條件的分支概率。每個獨立的特徵都是「樸素」或條件獨立的,因此它們不會影響別的對象。例如,在一個裝有共 5 個黃色和紅色小球的罐子裡,連續拿到兩個黃色小球的概率是多少?從圖中最上方分支可見,前後抓取兩個黃色小球的概率為 1/10。樸素貝葉斯分類器可以計算多個特徵的聯合條件概率。


5. 隱馬爾可夫模型(Hidden Markov model):顯馬爾可夫過程是完全確定性的——一個給定的狀態經常會伴隨另一個狀態。交通信號燈就是一個例子。相反,隱馬爾可夫模型通過分析可見數據來計算隱藏狀態的發生。隨後,藉助隱藏狀態分析,隱馬爾可夫模型可以估計可能的未來觀察模式。在本例中,高或低氣壓的概率(這是隱藏狀態)可用於預測晴天、雨天、多雲天的概率。


6. 隨機森林(Random forest):隨機森林算法通過使用多個帶有隨機選取的數據子集的樹(tree)改善了決策樹的精確性。本例在基因表達層面上考察了大量與乳腺癌復發相關的基因,並計算出復發風險。


7. 循環神經網絡(Recurrent neural network):在任意神經網絡中,每個神經元都通過 1 個或多個隱藏層來將很多輸入轉換成單個輸出。循環神經網絡(RNN)會將值進一步逐層傳遞,讓逐層學習成為可能。換句話說,RNN 存在某種形式的記憶,允許先前的輸出去影響後面的輸入。


8. 長短期記憶(Long short-term memory,LSTM)與門控循環單元神經網絡(gated recurrent unit nerual network):早期的 RNN 形式是會存在損耗的。儘管這些早期循環神經網絡只允許留存少量的早期信息,新近的長短期記憶(LSTM)與門控循環單元(GRU)神經網絡都有長期與短期的記憶。換句話說,這些新近的 RNN 擁有更好的控制記憶的能力,允許保留早先的值或是當有必要處理很多系列步驟時重置這些值,這避免了「梯度衰減」或逐層傳遞的值的最終 degradation。LSTM 與 GRU 網絡使得我們可以使用被稱為「門(gate)」的記憶模塊或結構來控制記憶,這種門可以在合適的時候傳遞或重置值。


9. 卷積神經網絡(convolutional neural network):卷積是指來自後續層的權重的融合,可用於標記輸出層。

原文連結1,原文連結2,原文連結3

相關焦點

  • Pedro Domingos深度解析機器學習五大流派中主算法精髓
    機器學習五大流派(主要算法)相信填補現有知識的空白的反向傳播的基本理念是十分直觀的,舉例來說,理想輸出應該是1,但是實際輸出確是0.2,需要將其增大。問題三:怎樣調整權重才能讓其增大?通過後續的神經元向前序神經元進行反饋,一層一層向後直到得到的值接近真實值,這就是反向傳播算法(也是深度學習的核心所在)。
  • 6張圖讀懂西方哲學發展史和流派
    原標題:6張圖讀懂西方哲學發展史和流派哲學史展現的是高尚心靈的更迭,思想英雄的較量。——趙敦華古希臘羅馬哲學包括自然哲學、形上學和倫理哲學三個階段,為西方哲學的理性思辨和形上學打下了傳統根基。它提出了邏各斯、存在、實體等成為西方哲學的經典命題,而柏拉圖和亞里斯多德關於共相性質的爭論開啟了中世紀基督教哲學關於唯名論和實在論的爭論。
  • 讀懂概率圖模型:你需要從基本概念和參數估計開始
    文章從基礎的概念開始談起,並加入了基礎的應用示例來幫助初學者理解概率圖模型的實用價值。機器之心對該文章進行了編譯介紹。第一部分:基本術語和問題設定機器學習領域內很多常見問題都涉及到對彼此相互獨立的孤立數據點進行分類。比如:預測給定圖像中是否包含汽車或狗,或預測圖像中的手寫字符是 0 到 9 中的哪一個。事實證明,很多問題都不在上述範圍內。
  • 乾貨丨Pedro Domingos深度解析機器學習五大流派中主算法精髓
    Pedro Domingos是華盛頓大學計算機科學與工程學教授,也是國際機器學習協會的聯合創始人之一。本文是Pedro Domingos在Google所作的機器學習演講內容整理。讓我們首先從一個簡單的問題開始,知識到底是從哪裡來的?以前已知的三個來源有:1.
  • 機器學習入門必讀:6種簡單實用算法及學習曲線、思維導圖
    作者 | 盧譽聲來源 | 大數據DT(ID:hzdashuju)大部分的機器學習算法主要用來解決兩類問題——分類問題和回歸問題。在本文當中,我們介紹一些簡單但經典實用的傳統機器學習算法,讓大家對機器學習算法有一個基本的感性認識。有的人說機器學習入門並不難,有的人會覺得機器學習難以理解。那麼該如何去學習機器學習這種技術與方法呢?
  • 一文介紹機器學習中基本的數學符號
    在機器學習中,你永遠都繞不過數學符號。通常,只要有一個代數項或一個方程符號看不懂,你就完全看不懂整個過程是怎麼回事了。這種境況非常令人沮喪,尤其是對於那些正在成長中的機器學習初學者來說更是如此。如果你能了解一些基本的數學符號以及相關的小技巧,那你就在看懂機器學習方法的論文或書籍描述上前進了一大步。
  • 入門 | 一文介紹機器學習中基本的數學符號
    如果你能了解一些基本的數學符號以及相關的小技巧,那你就在看懂機器學習方法的論文或書籍描述上前進了一大步。在本教程中,你將學到機器學習技術描述中遇到的基本數學符號。在學完整個教程後,你會知道:讓我們開始學習吧!
  • 常見的機器學習算法,你知道幾個?
    誕生於1956年的人工智慧,由於受到智能算法、計算速度、存儲水平等因素的影響,在六十多年的發展過程中經歷了多次高潮和低谷。最近幾年,得益於數據量的上漲、運算力的提升,特別是機器學習新算法的出現,人工智慧迎來了大爆發的時代。提到機器學習這個詞時,有些人首先想到的可能是科幻電影裡的機器人。
  • 8種常見機器學習算法比較
    簡介機器學習算法太多了,分類、回歸、聚類、推薦、圖像識別領域等等,要想找到一個合適算法真的不容易,所以在實際應用中,我們一般都是採用啟發式學習方式來實驗。通常最開始我們都會選擇大家普遍認同的算法,諸如SVM,GBDT,Adaboost,現在深度學習很火熱,神經網絡也是一個不錯的選擇。
  • 小白學數據28張小抄放送 Python,R,大數據,機器學習
    小抄表是很實用的辦法,那麼今天我們就為大家送出一份大殺器:28張小抄表合輯!不管你是Python或R的初學者,還是SQL或機器學習的入門者,或者準備學習Hadoop,這裡都有能滿足你的資料。5. Panda庫小抄表
  • 算法應用|機器學習python應用,簡單機器學習項目實踐
    可以說這並不是一個正式的項目,只是用來做一個簡單的展示,用於給初次接觸機器學習的讀者快速了解機器學習的過程和結果。1 機器學習中的Hello World頂目學習編程時,往往我們的第一句代碼就是print(「Hello World」),而接下來的這個數據集,可以說得上是機器學習中的Hello World頂目,入門學習機器學習的過程中最常見的一個數據集。
  • 盤點:十大機器學習算法及其應用
    毫無疑問,過去兩年中,機器學習和人工智慧的普及度得到了大幅提升。如果你想學習機器算法,要從何下手呢?以我為例,我是在哥本哈根留學期間,學習AI課程入門的。我們用的教科書是一本AI經典:《Peter Norvig’s Artificial Intelligence?—?A Modern Approach》。
  • 機器學習中決策樹的原理與算法 | 科普
    我們知道,在機器學習中有兩類十分重要的問題,一類是分類問題,一類是回歸問題。我們今天所要探討的就是在分類和回歸問題中所用到的一種非常基本的方法,叫決策樹。決策樹也是重要的標籤學習方法。這篇文章裡面的部分內容來自於 AI 慕課學院的《機器學習理論與實戰高級特訓班》課程筆記。
  • Python機器學習10:機器學習中的六種分類算法及實現(上)
    在機器學習中,可以使用多種算法模型解決同一個問題,那麼如何從中選擇出最佳的算法模型呢?當然,這個問題沒有一種固定的答案,需要根據不同的問題,嘗試使用多種機器學習方法,比較各種算法模型在該問題上的效果,最終才能決定究竟選擇哪一種模型。
  • 機器學習十大算法都是何方神聖?
    跟我們生活息息相關的最常見機器學習算法包括電影推薦算法、圖書推薦算法。這些算法都是基於你的電影觀看記錄或圖書購買記錄來給你做推薦的。James Le在KDnuggets上發布了一篇文章,介紹了他是如何入門機器學習的。此外,他在其中摸索出十大常用的機器學習算法,並逐一進行介紹。雷鋒網編譯如下,未經許可不得轉載。如果你想學機器學習,那怎麼入門呢?
  • 行業前沿:結合邏輯和神經網絡的ILP,具備了兩大流派的優點
    人工智慧研究者佩德羅·多明戈斯在其著作《大師算法》(The Master Algorithm)一書中提出了單一算法的概念,該算法可以結合機器學習的主要流派。毫無疑問,這個想法非常雄心勃勃,但我們已經看到過很多類似的想法。
  • 五大維度揭秘機器學習技術「附下載...
    並在 1956 年正式提出了「機器學習」這一概念。本期的智能內參,我們推薦清華人工智慧研究院的研究報告《人工智慧之機器學習》,從機器學習的發展史、技術特點、人才概況、行業應用和未來趨勢五大維度剖析機器學習技術。本期內參來源:清華人工智慧研究院原標題:《人工智慧之機器學習 》作者:未註明一、什麼是機器學習?
  • 17個機器學習的常用算法!
    在機器學習或者人工智慧領域,人們首先會考慮算法的學習方式。在機器學習領域,有幾種主要的學習方式。將算法按照學習方式分類是一個不錯的想法,這樣可以讓人們在建模和算法選擇的時候考慮能根據輸入數據來選擇最合適的算法來獲得最好的結果。1. 監督式學習:
  • 機器學習算法的基本知識(使用Python和R代碼)
    本指南能夠使你在研究機器學習問題的過程中獲取經驗。 我提供了關於各種機器學習算法以及R&Python代碼的高級理解以及運行它們,這些應該足以使你得心順手。加強學習示例:馬爾可夫決策過程  常見機器學習算法  以下是常用機器學習算法的列表。
  • 五分鐘了解機器學習十大算法
    本文為有志於成為數據科學家或對此感興趣的讀者們介紹最流行的機器學習算法。機器學習是該行業的一個創新且重要的領域。我們為機器學習程序選擇的算法類型,取決於我們想要實現的目標。現在,機器學習有很多算法。因此,如此多的算法,可能對於初學者來說,是相當不堪重負的。