想入門機器學習?機器之心為你準備了一份中文資源合集

2021-01-08 機器之心Pro

機器之心整理

參與:機器之心編輯部

機器學習日益廣為人知,越來越多的計算機科學家和工程師投身其中。不幸的是,理論、算法、應用、論文、書籍、視頻等信息如此之多,很容易讓初學者迷失其中,不清楚如何才能提升技能。本文作者依據自身經驗給出了一套快速上手的可行方法及學習資源的分類匯總,機器之心在其基礎上做了增益,希望對讀者有所幫助。

先決條件

機器學習的基礎是數學。數學並非是一個可選可不選的理論方法,而是不可或缺的支柱。如果你是一名計算機工程師,每天使用 UML、ORM、設計模式及其他軟體工程工具/技術,那麼請閉眼一秒鐘,忘掉一切。這並不是說這些概念不重要,絕不是!但是機器學習需要一種不同的方法。如今 Python 如此流行的原因之一是其「原型設計速度」。在機器學習中,一種使用幾行代碼即可建模算法的語言絕對是必要的。

微積分、線性代數、概率論在機器學習幾乎所有算法中不可或缺。如果你的數學背景很紮實,請跳過這一章節。如若不然,那麼重新溫習一下這些重要概念也不錯。考慮到理論的數量,我並不建議大家從大部頭開始。儘管一開始可以用它查詢具體概念,但是初學者先關注簡單的話題比較好。網上有很多好的在線資源(比如 Coursera、可汗學院或優達學城),實用且適合各種背景的人群。但是我建議從提綱之類的簡明書籍上手,其中所有核心概念均被涉及,次要概念可在需要的時候自行查詢。這種方法雖然不夠系統,但卻避免了這樣的缺陷:大量晦澀概念使得沒有紮實理論背景的人望而卻步。

初學者最好先學習下列內容:

概率論

離散型和連續型隨機變量

主要分布(伯努利分布、二項式分布、正態分布、 指數分布、 泊松分布、Beta 和 Gamma 分布)

矩估計和最大似然估計

貝葉斯統計

相關性係數和協方差(Correlation and Covariance)

線性代數

向量和矩陣

矩陣的行列式

特徵向量和特徵值

矩陣分解(如 SVD)

微積分

極限與導數

微分和積分

數值計算與最優化方法

網上有很多免費資源,比如

《概率論入門》,Grinstead、Snell 著(https://www.dartmouth.edu/~chance/teaching_aids/books_articles/probability_book/amsbook.mac.pdf)

《線性代數入門》,Wise、Gallagher 著(http://www.stat.columbia.edu/~liam/teaching/4315-spr06/LinAlg.pdf)

《微積分入門》,Heinbockel 著(http://www.math.odu.edu/~jhh/Volume-1.PDF)

維基百科上也有很多好資源,對方程、定理等進行了清晰易懂的解釋。

機器之心也介紹過許多數學基礎與概念:

基礎入門:深度學習矩陣運算的概念和代碼實現

想了解概率圖模型?你要先理解圖論的基本定義與形式

深度神經網絡中的數學,對你來說會不會太難?

Reddit 熱門話題:如何閱讀並理解論文中的數學內容?

機器學習主要需要的數學基礎就是微積分、線性代數、概率論,我們感覺只需要掌握大學中常見的高數、線性代數、概率論與數理統計三門課程,基本上概念的理解就沒什麼問題了。如果再學一點數值計算和最優化等,我們基本上就能理解機器學習的學習過程推導。

機器學習方法建議(面向初學者)

特徵工程

開始機器學習的第一步是理解如何評估和改進數據集的質量。管理特徵的類別和缺失、歸一化和降維(PCA、ICA、NMF)是大幅提高算法性能的基本技術,而且還有助於研究如何將數據集分割成訓練集和測試集、如何採取交叉驗證來取代傳統的測試方法。

機器之心也曾詳解過特徵工程如 PCA 降維算法的詳細理論與推導,當然我們還介紹了其它有關特徵的概念:

從特徵分解到協方差矩陣:詳細剖析和實現PCA算法

基於TensorFlow理解三大降維技術:PCA、t-SNE 和自編碼器

似乎沒區別,但你混淆過驗證集和測試集嗎?

Numpy:Python 數值計算之王!

使用 Python 時,Numpy 不僅僅是一個庫。它是幾乎所有機器學習實現的基礎,因此了解它的工作原理、關注向量化和廣播(broadcasting)是非常必要的。這些技術可以幫助加速大多數算法的學習過程,利用多線程和 SIMD、MIMD 架構的力量。

官方文檔已經很完整了,不過,我還建議大家看一下以下資源:

《Python 數據科學手冊:數據使用的核心工具》,VanderPlas J. 著

《Python 科學編程入門書》,LangTangen P. H. 著

維度、廣播操作與可視化:如何高效使用TensorFlow

數據可視化

Matplotlib 即使不是純粹的機器學習話題,了解如何可視化數據集也很重要。Matplotlib 可能是最廣泛使用的解決方案:Matplotlib 易用,允許繪製不同種類的圖表。Bokeh 和 Seaborne 提供了有趣的替代方案。不必要徹底了解所有包,但是了解每一個包的優點和弱點還是很有用的,可以幫助你選擇合適的包。

了解 Matplotlib 細節的資源:《掌握 Matplotlib》,McGreggor D. 著

線性回歸

線性回歸是最簡單的模型之一,可以把它作為一個優化問題來研究,該問題可通過最小化均方誤差而得到求解。該方法雖然有效,但是限制了可利用的可能性。我建議還可以把它當作貝葉斯問題,使用之前的可能性展示參數(比如,高斯分布),優化變成了最大似然估計(Maximum Likelihood Estimation,MLE)。即使這看起來更加複雜,但該方法提供了一個可供幾十個其他複雜模型共享的新方法。

Coursera 上介紹貝葉斯統計的課程:

《貝葉斯統計:從概念到數據分析》(https://www.coursera.org/learn/bayesian-statistics/)

《貝葉斯統計:技術與模型》(https://www.coursera.org/learn/mcmc-bayesian-statistics)

以及這兩本書:

《思考貝葉斯》,Downey B. A. 著

《黑客的貝葉斯方法》Davidson-Pilon C. 著

包括線性回歸在內,機器之心曾介紹了一些解決回歸問題的方法(後文提供了 CART 算法進行回歸分析):

初學TensorFlow機器學習:如何實現線性回歸?

回歸、分類與聚類:三大方向剖解機器學習算法的優缺點(附Python和R實現)

線性分類

通常情況下,Logistic 回歸是最佳起始點,也是研究資訊理論進而了解信息熵、交叉熵和互信息的好機會。類別交叉熵(Categorical cross-entropy)是深度學習分類中最穩定、使用最廣泛的代價函數,一個簡單的 logistic 回歸可以展示它是如何加速學習過程的(與均方差相比)。另一個重要的話題是正則化(Ridge、Lasso 和 ElasticNet)。很多情況下,人們認為它是一種提高模型準確率的深奧方式,但是它的真實意義是更準確,在具體實例的幫助下變得易於理解。我還建議剛開始的時候,把 logistic 回歸當作一個簡單的神經網絡,可視化(以 2D 實例為例)權重向量在學習過程中的移動軌跡。

我還建議本節應包括超參數網格搜索。網格搜索不在沒有完整了解的情況下嘗試不同的值,而是評估不同的超參數集的性能。因此,工程師可以將注意力集中在可達到最高準確率的組合上。當然還有更加強大的貝葉斯優化方法,即利用先驗知識逼近未知目標函數的後驗分布從而調節超參數的方法。

從頭開始:用Python實現帶隨機梯度下降的Logistic回歸

如何通過牛頓法解決Logistic回歸問題

擬合目標函數後驗分布的調參利器:貝葉斯優化

支持向量機(SVM)

支持向量機提供了不同的分類方法(包括線性和非線性方法)。該算法非常簡單,具備基礎幾何知識的人也可以學會。不過,了解核支持向量機的工作原理非常有用,因為它會在線性方法失敗的時候展示出其真正實力。

一些有用的免費資源:

《支持向量機簡明教程》,Law 著

核函數方法,維基百科詞條

詳解支持向量機SVM:快速可靠的分類算法

詳解支持向量機(附學習資源)

決策樹

決策樹提供了另一種分類和回歸的方法。通常,它們不是解決複雜問題的首選,但它們提供了完全不同的方法,即使是非技術人員也可以很容易理解,該方法還可以在會議或演示中可視化。

教程 | 從頭開始:用Python實現決策樹算法

從決策樹到隨機森林:樹型算法的原理與實現

集成學習一覽

在理解了決策樹的動態特性以後,研究集成訓練樹的集(集成)來提高整體準確率的方法很有用。隨機森林、梯度樹提升和 AdaBoost 都是強大的算法,且複雜度較低。對比簡單的樹和提升方法與 bagging 方法採用的樹的學習過程挺有趣的。Scikit-Learn 提供了最常見的實現方法,但是如果你想更好地駕馭這些方法,我還是建議你在 XGBoost 上多花些時間,XGBoost 是一個既適用於 CPU 又適用於 GPU 的分布式框架,即使在較大的數據集上也能加速學習過程。

從Boosting到Stacking,概覽集成學習的方法與性能

聚類

當開始聚類方法的學習時,我的建議是從高斯混合算法(基於期望最大化/EM)學起。雖然 K-均值聚類要更加簡單易懂(也是必須要學習的),但是高斯混合算法為我們提供了純粹的貝葉斯方法,在其他類似任務中也十分實用。其它必學的算法還有層次聚類(Hierarchical Clustering)、譜聚類(Spectral Clustering)和 DBSCAN。這對你了解基於實例的學習或研究 K-近鄰算法(既適用於有監督又適用於無監督任務)也是有幫助的。譜聚類的一個有用的免費資源是:

《譜聚類教程》,Von Luxburg U 著

聚類算法是無監督學習中的代表,機器之心也曾詳細地介紹過各種聚類方法與實現:

機器理解大數據的秘密:聚類算法深度詳解

綜述分類、聚類和信息提取算法在文本挖掘領域內的應用

如何用Python和機器學習炒股賺錢?

神經網絡入門

神經網絡是深度學習的基礎,你可以在單獨的課程中學習神經網絡。但是,我認為理解感知機、多層感知機以及反向傳播算法的概念也很有幫助。Scikit-Learn 提供了一個實現神經網絡的簡單方法,但是,開始探索 Keras 也是一個好主意,Keras 是一個基於 Tensorflow、Theano 或 CNTK 的高級架構,允許使用最少的努力對神經網絡進行建模和訓練。開始神經網絡學習的一些好資源:

《人工神經網絡基礎》Hassoun M 著

《Keras 深度學習》Gulli A.、 Pal S. 著

目前最好的深度學習書籍可能就是:

《深度學習》,Goodfellow I.、 Bengio Y.、Courville A. 著

最全的DNN概述論文:詳解前饋、卷積和循環神經網絡技術

機器之心GitHub項目:從零開始用TensorFlow搭建卷積神經網絡

深度神經網絡全面概述:從基本概念到實際模型和硬體基礎

訓練的神經網絡不工作?一文帶你跨過這37個坑

TensorFlow從基礎到實戰:一步步教你創建交通標誌分類神經網絡

神經網絡快速入門:什麼是多層感知器和反向傳播?

教程 | 如何用30行JavaScript代碼編寫神經網絡異或運算器

神經網絡調試手冊:從數據集與神經網絡說起

神經網絡基礎:七種網絡單元,四種層連接方式

如何從信號分析角度理解卷積神經網絡的複雜機制?

神經網絡架構演進史:全面回顧從LeNet5到ENet十餘種架構(附論文)

麻省理工解讀神經網絡歷史,三篇論文剖析基礎理論

最後,我們將介紹部分機器之心曾發過的綜述性技術文章或論文,並希望這些文章能對大家全面理解各種方法有所幫助:

自動駕駛計算機視覺研究綜述:難題、數據集與前沿成果

一文幫你發現各種出色的GAN變體

深度強化學習綜述:從AlphaGo背後的力量到學習資源分享

從FPS到RTS,一文概述遊戲人工智慧中的深度學習算法

視覺問答全景概述:從數據集到技術方法

神經風格遷移研究概述:從當前研究到未來方向

從語言學到深度學習NLP,一文概述自然語言處理

遷移學習全面概述:從基本概念到相關研究

一文綜述所有用於推薦系統的深度學習方法

一文讀懂遺傳算法工作原理(附Python實現)

從自編碼器到生成對抗網絡:一文縱覽無監督學習研究現狀

從入門到進階,來試試「人工智慧系列課程之深度強化學習」,點擊「閱讀原文」,立即報名。

相關焦點

  • 機器學習吧面向ai的中文機器學習資源與分享平臺
    關於自動化機器學習的研究很早以前就有過非常系統化的論文和書籍,如果你感興趣我推薦一下孫向祥的機器學習分析,然後是西方機器學習理論,英文版的如果你沒時間翻的話國內有很多人翻譯過譯作,如果你時間多可以看coursera的opendatamlcourse如果你時間有限我推薦你這門early-resolutionmachinelearning
  • 關於機器學習,這可能是目前最全面最無痛的入門路徑和資源!
    最近有不少童鞋給李傑克留言,說自己對機器學習很感興趣卻無從下手,想知道我的學習路徑,也希望我可以分享一些適合入門的學習資源給到大家。 雲盤中三份之二資源,是李傑克已經看過並且覺得對於大家有幫助才放進去的,那些對現階段的大家沒有太大幫助的資料我都過濾掉了,畢竟為了看起來全而各種塞大家可能永遠都不會用上的資源沒有任何意義,我想做的是降低大家篩選學習資源的成本。
  • 開發者入門必讀:最值得看的十大機器學習公開課
    這份推薦榜頗費心血,綜合考慮了難易、側重點、時效性等諸多因素,希望能幫助大家找到最適合自己的學習資源。這些課程全部免費開放,但有些需翻牆,有的缺少中文字幕。1.這門課程十分用心細緻,內容比吳恩達老師的入門課程稍稍充實一些。林老師表示,針對頂級機器學習公開課全是英語授課的現狀,不少學生反映英語教學有不易吸收之處。因此,借推出這門課程,希望幫助漢語為母語的學生減少入門難度。針對如何讓學生接受枯燥的算法,林老師說道:「我們的課程設計中,大家會看到我們把對算法與數學式的推導,以『解決問題』的過程方式呈現。
  • 機器之心專訪吳恩達,深度學習課程項目Deeplearning.ai正式發布
    今日,機器之心獲得消息,Deeplearning.ai 項目正式發布。在發布前夕,吳恩達接受了機器之心的專訪,對該項目進行了更為詳細的解讀。機器之心:你曾經提及將會推出計算機視覺的課程,可以透露更多信息嗎?吳恩達:我們本次計劃推出的課程有五大部分,都是基於如何將神經網絡應用到各個領域中的。其中包括計算機視覺、自然語言處理、序列到序列模型等等。其中值得一提的是,新課程將注重於引導應用機器學習的方向。它會為人們提供一個深度學習的「模擬器」。
  • 機器學習應該準備哪些數學預備知識?
    《機器學習應該準備哪些數學預備知識?》回答:利益相關:樓主@Robin Shen以本科應用數學和碩士運籌學、優化理論的背景轉到德國海德堡大學讀博,主要從事機器學習、計算機視覺的研究,希望自己的一些經驗可以對想入門機器學習的朋友們有點借鑑作用。此回答的部分答案摘自我另外一個相關回答:Robin Shen:想轉專業機器學習(人工智慧)需要學哪些課程?
  • 機器之心獨家對話百度 NLP:先解決語義理解,再談機器翻譯取代人類
    為此,機器之心專訪百度自然語言處理部技術負責人吳華、高級總監吳甜,就神經網絡機器翻譯系統的優缺點、如何獲得高質量訓練數據及百度翻譯目前進展展開話題。同時也藉此機會了解百度自然語言處理部及其開展的 NLP 技術研發工作。以下為採訪內容整理,以饗讀者。NMT、SMT 的優與缺機器之心:能請您先介紹一下百度 NLP 部門嗎?
  • 阿里雲機器學習怎麼玩?這本新手入門指南揭秘了
    想知道我是怎樣免費在阿里雲上玩機器學習的嗎?不慌,這就告訴你答案~它來了--阿里雲向個人免費開放雲端深度學習開發環境DSW(DataScienceWorkshop),還有免費GPU資源可以使用,實驗的數據還會免費保存30天!更有新手玩法指南帶你入坑不迷路!
  • CDA承接的全球頂級機器學習Scikit-learn 中文社區上線啦!
    Scikit-learn作為機器學習的入門工具庫,深受初學者的喜愛。但是由於官方文檔是英文撰寫,限制了很多機器學習愛好者的學習過程。因此,專業、規範、實時的Scikit-learn中文學習社區,一直以來都是國內學習者所急需。
  • 如何入門機器學習?這裡有一份來自英偉達計算機科學家的課程清單
    ,如果有一份好的 學習教程尤其是學習視頻,學習效果無疑會事半功倍。就職於英偉達人工智慧應用團隊的計算機科學家 Chip Huyen 根據自己多年的教學和工程經驗,總結了一份適合按順序依次學習的機器學習課程清單,具體清單如下文。
  • 只需十四步:從零開始掌握Python機器學習(附資源)
    選自kdnuggets作者:Matthew Mayo機器之心編譯參與:黃小天、吳攀、晏奇、蔣思源Python 可以說是現在最流行的機器學習語言,而且你也能在網上找到大量的資源。你現在也在考慮從 Python 入門機器學習嗎?
  • 人工智慧新手入門學習路線!附學習資源合集
    有段時間沒跟大家分享編程資源福利了!今天為大家整理了人工智慧新手入門學習路線,同時附700分鐘的學習資源合集,相信這套福利可以幫你順利入行AI!文末領取全部資料。如果你想轉行、或者投身AI行業,但是不知從何學起,那這裡推薦你學習CSDN【人工智慧視覺工程師特訓營】。更容易入行,就業前景廣闊。
  • B站學強化學習?港中文周博磊變身up主,中文課程已上線
    機器之心報導機器之心編輯部眾所周知,B 站是一個學習網站。在看完羅翔老師的刑法課之後,是時候探索人工智慧了。新冠疫情還未退散,目前國內很多大學仍然沒有返校開學的計劃,不過留在家中的我們已經可以獲得越來越多的線上學習內容。此前有很多國內外學校已經把自家的 AI 課程搬到了線上。
  • 只需7步:從零開始掌握Python機器學習(附資源)
    Python 可以說是現在最流行的機器學習語言,而且你也能在網上找到大量的資源。你現在也在考慮從 Python 入門機器學習嗎?本教程或許能幫你成功上手,從 0 到 1 掌握 Python 機器學習,至於後面再從 1 到 100 變成機器學習專家,就要看你自己的努力了。
  • 機器之心年度盤點:2018年重大研究與開源項目
    它們為深度學習開拓了新方向,也為未來提供了更多選擇。在這篇文章中,機器之心從想法到實踐介紹了 2018 年令人矚目的研究工作,它們共同構建了機器學習的當下。我們主要按領域從模型到開源工具展開,其中算法或模型的選擇標準主要是效果和潛力,而開源工具的選擇主要憑藉 GitHub 的收藏量與效果。
  • 你離開學只差這個視頻:李宏毅機器學習2020版正式開放上線
    機器之心報導參與:思、Jamin2020 年的機器學習和過去有一些不一樣的地方:首先,這一門課增加了很多作業。臺大李宏毅老師的機器學習課程可以說是最具代表性的中文公開課之一,已成為大量國內初學者的首選。由於最近新冠疫情爆發,臺大的課程也全面轉為線上,今年的《機器學習》有了不小的變化。
  • 從線性代數到Kaggle競賽:這份免費機器學習資源火了
    乾明 發自 凹非寺 量子位 報導 | 公眾號 QbitAI有一份適合按順序依次學習的免費機器學習資源,在Twitter上火了。一天之間便獲得5.9K點讚和1.5K轉發。評論區中,」Thanks for sharing「此起彼伏,還有不少人呼朋喚友來觀看。那麼,這到底是一份什麼樣的資源?
  • 「網際網路+機器翻譯」時代,繼續學習英語的目的是什麼?
    換句話說,沒有中文,我們就根本「不懂」那句英語「什麼意思」。可是,我們別忘了,現在是「網際網路+」時代,「網際網路+」時代,有著強大的英譯漢翻譯機器,如「百度翻譯」,如果你僅僅是「想知道」那句英語的「中文是什麼?」,你根本不需要「懂」英語,直接複製粘貼,一切「不懂」的英語通通搞掂。因此,我們還需要用中文學英語嗎?
  • 吳恩達機器學習入門2018高清視頻公開,還有習題解答和課程拓展
    賈浩楠 發自 凹非寺量子位 報導 | 公眾號 QbitAI機器學習入門課程哪家最強?斯坦福吳恩達的CS229稱第二,恐怕沒人敢稱第一。最近,吳恩達在斯坦福的最新CS229 2018課程,已經完成YouTube上傳——高清哦。沒有高糊勸退,還附送課題討論總結、課後習題和解答參考等珍貴資源,簡直讓你找不到不學的理由!
  • 快速入門:什麼是機器學習?
    複雜的情況數不勝數,機器可無法做到自行判斷。但是,通過機器學習,程式設計師除了告訴計算機要做什麼外,還為其提供了與任務相關的數據集以及用於分析該數據集的方法然後,他們根據正反饋或負反饋給它時間從數據集中學習出一個算法。在之後,如果新數據與經過訓練的數據相似,機器就可以通過這個算法對先前未遇到的數據得出更加準確的應對方案。
  • 幫初學者快速上手機器學習,這有一份Colab資源大全
    曉查 發自 凹非寺 量子位 報導 | 公眾號 QbitAIGoogle Colab是幫你快速了解Python代碼的利器,你可以直接在上面運行一些好玩好用的Jupyter Notebook項目。對於初學機器學習的人,即使你沒有很好的硬體,也可以利用谷歌的免費資源來跑程序。如果有人能把Colab資源全部匯總起來就好了。最近,有人發動了一個項目讓大家把他們都集中起來,名字就叫「Awesome Google Colab」。