python機器學習預測分析核心算法.pdf

2021-03-06 機器學習AI算法工程





向AI轉型的程式設計師都關注了這個號👇👇👇

人工智慧大數據與深度學習  公眾號:datayx

PDF 獲取方式:

分享本文到朋友圈

關注微信公眾號 datayx  然後回復 機器學習  即可獲取。

AI項目體驗地址 https://loveai.tech

《Python機器學習 預測分析核心算法》

內容簡介

  在學習和研究機器學習的時候,面臨令人眼花繚亂的算法,機器學習新手往往會不知所措。本書從算法和Python語言實現的角度,幫助讀者認識機器學習。
  本書專注於兩類核心的「算法族」,即懲罰線性回歸和集成方法,並通過代碼實例來展示所討論的算法的使用原則。全書共分為7章,詳細討論了預測模型的兩類核心算法、預測模型的構建、懲罰線性回歸和集成方法的具體應用和實現。本書主要針對想提高機器學習技能的Python開發人員,幫助他們解決某一特定的項目或是提升相關的技能。

機器學習關注於預測,其核心是一種基於數學和算法的技術,要掌握該技術,需要對數學及統計概念有深入理解,能夠熟練使用R 語言或者其他程式語言。
  

本書通過集中介紹兩類可以進行有效預測的機器學習算法,展示了如何使用Python 程式語言完成機器學習任務,從而降低機器學習難度,使機器學習能夠被更廣泛的人群掌握。
  作者利用多年的機器學習經驗帶領讀者設計、構建並實現自己的機器學習方案。本書儘可能地用簡單的術語來介紹算法,避免複雜的數學推導,同時提供了示例代碼幫助讀者迅速上手。讀者會很快深入了解模型構建背後的原理,不論簡單問題還是複雜問題,讀者都可以學會如何找到問題的解決算法。書中詳細的示例,給出了具體的可修改的代碼,展示了機器學習機理,涵蓋了線性回歸和集成方法,幫助理解使用機器學習方法的基本流程。
  本書為不具備數學或統計背景的讀者量身打造,詳細介紹了如何:
  ● 針對任務選擇合適算法;● 對不同目的應用訓練好的模型;
  ● 學習數據處理機制,準備數據;● 評估模型性能以保證應用效果;
  ● 掌握Python 機器學習核心算法包;● 使用示例代碼設計和構建你自己的模型;
  ● 構建實用的多功能預測模型。

第 1 章 關於預測的兩類核心

算法 1

1.1 為什麼這兩類算法如此有用  1

1.2 什麼是懲罰回歸方法  6

1.3 什麼是集成方法  8

1.4 算法的選擇  9

1.5 構建預測模型的流程  11

1.5.1 構造一個機器學習問題 12

1.5.2 特徵提取和特徵工程 14

1.5.3 確定訓練後的模型的性能 15

1.6 各章內容及其依賴關係  15

1.7 小結  17

1.8 參考文獻  17

第 2 章 通過理解數據來了解

問題 19

2.1 「解剖」一個新問題  19

2.1.1 屬性和標籤的不同類型

決定模型的選擇  21

2.1.2 新數據集的注意事項 22

2.2 分類問題:用聲納發現未

爆炸的水雷   23

2.2.1 「 巖石vs 水雷」數據集的

物理特性  23

2.2.2 「 巖石vs 水雷」數據集統計

特徵  27

2.2.3 用分位數圖展示異常點 30

2.2.4 類別屬性的統計特徵 32

2.2.5 利用Python Pandas 對「巖石

vs 水雷」數據集進行統計

分析  32

2.3 對「巖石vs 水雷數據集」屬性的

可視化展示   35

2.3.1 利用平行坐標圖進行可視化

展示  35

2.3.2 屬性和標籤的關係可視化 37

2.3.3 用熱圖(heat map)展示

屬性和標籤的相關性  44

2.3.4 對「巖石vs. 水雷」數據集

探究過程小結  45

2.4 基於因素變量的實數值預測-

鮑魚的年齡   45

2.4.1 回歸問題的平行坐標圖- 鮑魚

問題的變量關係可視化  51

2.4.2 回歸問題如何使用關聯熱

圖-鮑魚問題的屬性對關

系的可視化  55

2.5 用實數值屬性預測實數值目標:

評估紅酒口感   57

2.6 多類別分類問題:它屬於哪種

玻璃   63

小結   68

參考文獻   69

第3 章 預測模型的構建:平衡性

能、複雜性以及大數據  71

3.1 基本問題:理解函數逼近  71

3.1.1 使用訓練數據 72

3.1.2 評估預測模型的性能 73

3.2 影響算法選擇及性能的因素——

複雜度以及數據   74

3.2.1 簡單問題和複雜問題的

對比  74

3.2.2 一個簡單模型與複雜模型的

對比  77

3.2.3 影響預測算法性能的因素 80

3.2.4 選擇一個算法:線性或者

非線性  81

3.3 度量預測模型性能  81

3.3.1 不同類型問題的性能評價

指標  82

3.3.2 部署模型的性能模擬 92

3.4 模型與數據的均衡  94

3.4.1 通過權衡問題複雜度、模型

複雜度以及數據集規模來選

擇模型  94

3.4.2 使用前向逐步回歸來控制過

擬合  95

3.4.3 評估並理解你的預測模型 101

3.4.4 通過懲罰回歸係數來控制

過擬合——嶺回歸  103

小結   112

參考文獻   112

第4 章 懲罰線性回歸模型 113

4.1 為什麼懲罰線性回歸方法如此

有效   113

4.1.1 足夠快速地估計係數 114

4.1.2 變量的重要性信息 114

4.1.3 部署時的預測足夠快速 114

4.1.4 性能可靠 114

4.1.5 稀疏解 115

4.1.6 問題本身可能需要線性

模型  115

4.1.7 什麼時候使用集成方法 115

4.2 懲罰線性回歸:對線性回歸進行

正則化以獲得**優性能   115

4.2.1 訓練線性模型:**小化錯誤

以及更多  117

4.2.2 向OLS 公式中添加一個

係數懲罰項  118

4.2.3 其他有用的係數懲罰項:

Manhattan 以及ElasticNet 118

4.2.4 為什麼套索懲罰會導致稀疏的

係數向量  119

4.2.5 ElasticNet 懲罰項包含套索

懲罰項以及嶺懲罰項  120

4.3 求解懲罰線性回歸問題  121

4.3.1 理解**小角度回歸與前向逐步

回歸的關係  121

4.3.2 LARS 如何生成數百個不同

複雜度的模型  125

4.3.3 從數百個LARS 生成結果中

選擇**佳模型  127

4.3.4 使用Glmnet :非常快速

並且通用  133

4.4 基於數值輸入的線性回歸方法的

擴展   140

4.4.1 使用懲罰回歸求解分類

問題  140

4.4.2 求解超過2 種輸出的分類

問題  145

4.4.3 理解基擴展:使用線性方法來

解決非線性問題  145

4.4.4 向線性方法中引入非數值

屬性  148

小結   152

參考文獻   153

第5 章 使用懲罰線性方法來

構建預測模型  155

5.1 懲罰線性回歸的Python 包  155

5.2 多變量回歸:預測紅酒口感  156

5.2.1 構建並測試模型以預測紅酒

口感  157

5.2.2 部署前在整個數據集上進行

訓練  162

5.2.3 基擴展:基於原始屬性擴展

新屬性來改進性能  168

5.3 二分類:使用懲罰線性回歸來

檢測未爆炸的水雷   172

5.3.1 構建部署用的巖石水雷

分類器  183

5.4 多類別分類- 分類犯罪現場的

玻璃樣本   196

小結   201

參考文獻   202

第6 章 集成方法 203

6.1 二元決策樹  203

6.1.1 如何利用二元決策樹進行

預測  205

6.1.2 如何訓練一個二元決策樹 207

6.1.3 決策樹的訓練等同於

分割點的選擇  211

6.1.4 二元決策樹的過擬合 214

6.1.5 針對分類問題和類別特徵

所做的修改  218

6.2 自舉集成:Bagging 算法  219

6.2.1 Bagging 算法是如何

工作的  219

6.2.2 Bagging 算法小結 230

6.3 梯度提升法(Gradient

Boosting)   230

6.3.1 梯度提升法的基本原理 230

6.3.2 獲取梯度提升法的**佳

性能  234

6.3.3 針對多變量問題的梯度

提升法  237

6.3.4 梯度提升方法的小結 241

6.4 隨機森林  241

6.4.1 隨機森林:Bagging 加上隨機

屬性子集  246

6.4.2 隨機森林的性能 246

6.4.3 隨機森林小結 247

6.5 小結  248

6.6 參考文獻  248

第7 章 用Python 構建集成

模型  251

7.1 用Python 集成方法工具包解決

回歸問題   251

7.1.1 構建隨機森林模型來預測

紅酒口感  251

7.1.2 用梯度提升預測紅酒品質 258

7.2 用Bagging 來預測紅酒口感  266

7.3 Python 集成方法引入非數值

屬性   271

7.3.1 對鮑魚性別屬性編碼引入

Python 隨機森林回歸

方法  271

7.3.2 評估性能以及變量編碼的

重要性  274

7.3.3 在梯度提升回歸方法中引入

鮑魚性別屬性  276

7.3.4 梯度提升法的性能評價以及

變量編碼的重要性  279

7.4 用Python 集成方法解決二分類

問題   282

7.4.1 用Python 隨機森林方法探測

未爆炸的水雷  282

7.4.2 構建隨機森林模型探測未

爆炸水雷  283

7.4.3 隨機森林分類器的性能 288

7.4.4 用Python 梯度提升法探測

未爆炸水雷  289

7.4.5 梯度提升法分類器的性能 296

7.5 用Python 集成方法解決多類別

分類問題   300

7.5.1 用隨機森林對玻璃進行

分類  300

7.5.2 處理類不均衡問題 304

7.5.3 用梯度提升法對玻璃進行

分類  306

7.5.4 評估在梯度提升法中使用隨機

森林基學習器的好處  311

7.6 算法比較  313

小結   315

參考文獻   315

閱讀過本文的人還看了以下文章:

TensorFlow 2.0深度學習案例實戰

基於40萬表格數據集TableBank,用MaskRCNN做表格檢測

《基於深度學習的自然語言處理》中/英PDF

Deep Learning 中文版初版-周志華團隊

【全套視頻課】最全的目標檢測算法系列講解,通俗易懂!

《美團機器學習實踐》_美團算法團隊.pdf

《深度學習入門:基於Python的理論與實現》高清中文PDF+源碼

特徵提取與圖像處理(第二版).pdf

python就業班學習視頻,從入門到實戰項目

2019最新《PyTorch自然語言處理》英、中文版PDF+源碼

《21個項目玩轉深度學習:基於TensorFlow的實踐詳解》完整版PDF+附書代碼

《深度學習之pytorch》pdf+附書源碼

PyTorch深度學習快速實戰入門《pytorch-handbook》

【下載】豆瓣評分8.1,《機器學習實戰:基於Scikit-Learn和TensorFlow》

《Python數據分析與挖掘實戰》PDF+完整源碼

汽車行業完整知識圖譜項目實戰視頻(全23課)

李沐大神開源《動手學深度學習》,加州伯克利深度學習(2019春)教材

筆記、代碼清晰易懂!李航《統計學習方法》最新資源全套!

《神經網絡與深度學習》最新2018版中英PDF+源碼

將機器學習模型部署為REST API

FashionAI服裝屬性標籤圖像識別Top1-5方案分享

重要開源!CNN-RNN-CTC 實現手寫漢字識別

yolo3 檢測出圖像中的不規則漢字

同樣是機器學習算法工程師,你的面試為什麼過不了?

前海徵信大數據算法:風險概率預測

【Keras】完整實現『交通標誌』分類、『票據』分類兩個項目,讓你掌握深度學習圖像分類

VGG16遷移學習,實現醫學圖像識別分類工程項目

特徵工程(一)

特徵工程(二) :文本數據的展開、過濾和分塊

特徵工程(三):特徵縮放,從詞袋到 TF-IDF

特徵工程(四): 類別特徵

特徵工程(五): PCA 降維

特徵工程(六): 非線性特徵提取和模型堆疊

特徵工程(七):圖像特徵提取和深度學習

如何利用全新的決策樹集成級聯結構gcForest做特徵工程並打分?

Machine Learning Yearning 中文翻譯稿

螞蟻金服2018秋招-算法工程師(共四面)通過

全球AI挑戰-場景分類的比賽源碼(多模型融合)

斯坦福CS230官方指南:CNN、RNN及使用技巧速查(列印收藏)

python+flask搭建CNN在線識別手寫中文網站

中科院Kaggle全球文本匹配競賽華人第1名團隊-深度學習與特徵工程

不斷更新資源

深度學習、機器學習、數據分析、python

 搜索公眾號添加: datayx  

機大數據技術與機器學習工程

 搜索公眾號添加: datanlp

長按圖片,識別二維碼

相關焦點

  • 開源《Python 機器學習》-Python Machine Learning第一版+第二版(附電子版 pdf)
    》,機器學習與預測分析正在改變企業和其他組織的運作方式,本書將帶領讀者進入預測分析的世界。全書共16章,除了簡要介紹機器學習及Python在機器學習中的應用,還系統講述了數據分類、數據預處理、模型優化、集成學習、回歸、聚類、神經網絡、深度學習等內容。本書將機器學習背後的基本理論與應用實踐聯繫起來,通過這種方式讓讀者聚焦於如何正確地提出問題、解決問題。本書講解了如何使用Python的核心元素以及強大的機器學習庫,同時還展示了如何正確使用一系列統計模型。
  • 《Python 機器學習》-Python Machine Learning(附電子版 pdf)
    》,機器學習與預測分析正在改變企業和其他組織的運作方式,本書將帶領讀者進入預測分析的世界。全書共16章,除了簡要介紹機器學習及Python在機器學習中的應用,還系統講述了數據分類、數據預處理、模型優化、集成學習、回歸、聚類、神經網絡、深度學習等內容。本書將機器學習背後的基本理論與應用實踐聯繫起來,通過這種方式讓讀者聚焦於如何正確地提出問題、解決問題。本書講解了如何使用Python的核心元素以及強大的機器學習庫,同時還展示了如何正確使用一系列統計模型。
  • Spark機器學習.pdf
    AI項目體驗地址 https://loveai.tech《Spark機器學習》內容提要彭特裡思著的《Spark機器學習》每章都設計了 案例研究,以機器學習算法為主線,結合實例探討了 spark的實際應用。
  • 《Python 機器學習》-Python Machine Learning第一版+第二版(附電子版 pdf)
    」,選擇「星標」公眾號第一時間獲取價值內容《Python Machine Learning》有兩版,中文譯為《Python 機器學習》,機器學習與預測分析正在改變企業和其他組織的運作方式,本書將帶領讀者進入預測分析的世界。
  • 《Python 機器學習》第一版+第二版(附電子版 pdf)
    》,機器學習與預測分析正在改變企業和其他組織的運作方式,本書將帶領讀者進入預測分析的世界。全書共16章,除了簡要介紹機器學習及Python在機器學習中的應用,還系統講述了數據分類、數據預處理、模型優化、集成學習、回歸、聚類、神經網絡、深度學習等內容。本書將機器學習背後的基本理論與應用實踐聯繫起來,通過這種方式讓讀者聚焦於如何正確地提出問題、解決問題。本書講解了如何使用Python的核心元素以及強大的機器學習庫,同時還展示了如何正確使用一系列統計模型。
  • python必備書籍pdf下載
    7004 集體智慧編程-python算法應用《集體智慧編程》內容翔實,包括協作過濾技術(實現關聯產品推薦功能)、集群數據分析(在大規模數據集中發掘相似的數據子集)、搜尋引擎核心技術(爬蟲、索引、查詢引擎、PageRank算法等)、搜索海量信息並進行分析統計得出結論的優化算法、貝葉斯過濾技術(垃圾郵件過濾、文本過濾)、用決策樹技術實現預測和決策建模功能、社交網絡的信息匹配技術、機器學習和人工智慧應用等。
  • 算法應用|機器學習python應用,初識機器學習是怎樣滴感受?
    每個算法模型都介紹其較為通用且實用的建模過程,力爭使基礎較差的讀者也能無障礙利用python來使用機器學習算法。1 初識機器學習1.1 什麼是機器學習?一般是在數據組中包含最終結果(0 , 1),通過算法讓機器自己減少誤差。這一類學習主要應用於分類和預測(Regression &Classify) 。監督學習從給定的訓練數據集中學習出一個目標函數,當新的數據到來時,可以根據這個函數預測結果。監督學習的訓練集要求包括輸入和輸出,也可以說包括特徵和目標,訓練集中的目標是由人標註的。常見的監督學習算法包括回歸分析和統計分類。
  • python人工智慧項目實戰,PDF+源碼
    本書涵蓋了AI所有核心學科項目的詳細實施。我們首先介紹如何使用機器學習和深度學習技術創建智能系統的基礎知識。您將吸收各種神經網絡架構,如CNN,RNN,LSTM,以解決關鍵的新世界挑戰。您將學習如何訓練模型以檢測人眼中的糖尿病視網膜病變狀況,並創建用於執行視頻到文本翻譯的智能系統。您將在醫療保健領域中使用轉移學習技術,並使用GAN實施樣式轉移。
  • 機器學習數據分析極簡思路及sklearn算法實踐小試
    機器學習數據分析極簡思路機器學習擁有龐大的知識體系,這裡對機器學習的數據分析的整個思路和流程作最最簡單的歸納。
  • 《Python機器學習實踐指南》高清PDF
    本書適合Python 程式設計師、數據分析人員、對算法感興趣的讀者、機器學習領域的從業人員及科研人員閱讀。機器學習是近年來漸趨熱門的一個領域,同時Python 語言經過一段時間的發展也已逐漸成為主流的程式語言之一。本書結合了機器學習和Python 語言兩個熱門的領域,通過利用兩種核心的機器學習算法來將Python 語言在數據分析方面的優勢發揮到極致。
  • Python大數據綜合應用 :零基礎入門機器學習、深度學習算法原理與案例
    共4天8節,講解機器學習和深度學習的模型理論和代碼實踐,梳理機器學習、深度學習、計算機視覺的技術框架,從根本上解決如何使用模型、優化模型的問題;每次課中,首先闡述算法理論和少量公式推導,然後使用真實數據做數據挖掘、機器學習、深度學習的數據分析、特徵選擇、調參和結果比較。
  • 史上最全300本Python電子書免費分享
    和數據分析.pdf圖解機器學習.pdf凸優化.pdf數據科學入門.pdf數據結構與算法__Python語言描述_裘宗燕編著_北京:機械工業出版社_,_2016.01_P346.pdf神經網絡與深度學習.pdf深入Python3中文版.pdf深度學習-無水印-中文版.pdf社交網站的數據挖掘與分析_中文版.pdf輕量級Django_,Julia_Elman_,P218_,2016.10.pdf強化學習精要
  • 機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用...
    原標題:機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用高級研修班通信和信息技術創新人才培養工程項目辦公室 通人辦〔2018〕 第5號 機器學習、深度學習算法原理與案例實踐暨Python
  • Python300本電子書免費送
    輕量級Django_,Julia_Elman_,P218_,2016.10.pdf27. 強化學習精要 核心算法與TensorFlow實現(pdf+源碼).zip28. 模式分類 Richard O.Duda 中譯本.pdf29. 面向對象的思考過程.pdf30. 碼農 第8期.pdf31.
  • 我的機器學習算法之路
    掌握人工智慧技術,需要從基礎的機器學習算法開始學習,逐漸建立機器學習知識體系。本篇文章 :1.帶大家克服心理上對於機器學習的敬畏,繞開彎路(本人入過很多坑),進入機器學習領域。2.從基本概念和機器學習的應用領域入手,幫助大家建立機器學習的概念模型。3.用最基本的線性回歸和邏輯回歸算法,讓大家掌握機器學習神秘的「三板斧」方法論。
  • 機器學習中常見4種學習方法、13種算法和27張速查表
    在建立預測模型的時候,監督式學習建立一個學習過程,將預測結果與「訓練數據」的實際結果進行比較,不斷的調整預測模型,直到模型的預測結果達到一個預期的準確率。監督式學習的常見應用場景如分類問題和回歸問題。常見算法有邏輯回歸(Logistic Regression)和反向傳遞神經網絡(Back Propagation Neural Network)。
  • 2018AI學習清單丨150個最好的機器學習和Python教程
    機器學習的簡易指南 (monkeylearn.com)https://monkeylearn.com/blog/a-gentle-guide-to-machine-learning/ 如何選擇機器學習算法?
  • 算法應用|機器學習python應用,簡單機器學習項目實踐
    上一篇文章中介紹了機器學習的簡單知識,還有python中進行機器學習實踐需要的生態環境,接下來將會通過鳶尾花分類這個例子對機器學習做一個簡要的介紹。通過一步一步地實現這個項目來介紹以下內容。導入和使用python中機器學習的各個方面的類庫。
  • 【乾貨】Python機器學習機器學習項目實戰3——模型解釋與結果分析(附代碼)
    用python完成一個完整的機器學習項目:第三部分——Interpreting a machine learning model and presenting results本系列的第一部分【1】中,討論了數據清理、數據分析、特徵工程和特徵選擇。
  • 乾貨| 請收下這份2018學習清單:150個最好的機器學習,NLP和Python...
    機器學習1、機器學習就是這麼好玩!>機器學習的簡易指南 (monkeylearn.com)https://monkeylearn.com/blog/a-gentle-guide-to-machine-learning/如何選擇機器學習算法?