Spark機器學習.pdf

2021-02-16 機器學習AI算法工程





向AI轉型的程式設計師都關注了這個號👇👇👇

人工智慧大數據與深度學習  公眾號:datayx

PDF 獲取方式

關注微信公眾號 datayx  然後回復 spark  即可獲取。

AI項目體驗地址 https://loveai.tech

《Spark機器學習》

內容提要

彭特裡思著的《Spark機器學習》每章都設計了 案例研究,以機器學習算法為主線,結合實例探討了 spark的實際應用。書中沒有讓人抓狂的數據公式, 而是從準備和正確認識數據開始講起,全面涵蓋了推 薦系統、回歸、聚類、降維等經典的機器學習算法及 其實際應用。
     本書適合網際網路公司從事數據分析的人員,以及 高校數據挖掘相關專業的師生閱讀參考。

目錄

**章 Spark 的環境搭建與運行
1.1 Spark 的本地安裝與配置
1.2 Spark 集群
1.3 Spark 編程模型
1.3.1 SparkContext類與SparkConf類
1.3.2 Spar
1.3.3 彈性分布式數據集
1.3.4 廣播變量和累加器
1.4 Spark Scala 編程入門
1.5 Spark Java 編程入門
1.6 Spark Python 編程入門
1.7 在*** EC2 上運?
1.8 小結
第2章 設計機器學習系統
2.1 MovieStream 介紹
2.2 機器學習系統商業用例
2.2.1 個性化
2.2.2 目標營銷和客戶細分
2.2.3 預測建模與分析
2.3 機器學習模型的種類
2.4 數據驅動的機器學習系統的組成
2.4.1 數據獲取與存儲
2.4.2 數據清理與轉換
2.4.3 模型訓練與測試迴路
2.4.4 模型部署與整合
2.4.5 模型監控與反饋
2.4.6 批處理或實時方案的選擇
2.5 機器學習系統架構
2.6 小結
第3章 Spark 上數據的獲取、處理與準備
3.1 獲取公開數據集
3.2 探索與可視化數據
3.2.1 探索用戶數據
3.2.2 探索電影數據
3.2.3 探索評級數據
3.3 處理與轉換數據
3.4 從數據中提取有用特徵
3.4.1 數值特徵
3.4.2 類別特徵
3.4.3 派生特徵
3.4.4 文本特徵
3.4.5 正則化特徵
3.4.6 用軟體包提取特徵
3.5 小結
第4章 構建基於Spark的推薦引擎
4.1 推薦模型的分類
4.1.1 基於內容的過濾
4.1.2 協同過濾
4.1.3 矩陣分解
4.2 提取有效特徵
4.3 訓練推薦模型
4.3.1 使用MovieLens 100k數據集訓練模型
4.3.2 使用隱式反饋數據訓練模型
4.4 使用推薦模型
4.4.1 用戶推薦
4.4.2 物品推薦
4.5 推薦模型效果的評估
4.5.1 均方差
4.5.2 K 值平均準確率
4.5.3 使用MLlib內置的評估函數
4.6 小結
第5章 Spark構建分類模型
5.1 分類模型的種類
5.1.1 線性模型
5.1.2 樸素貝葉斯模型
5.1.3 決策樹
5.2 從數據中抽取合適的特徵
5.3 訓練分類模型
5.4 使用分類模型
5.5 評估分類模型的性能
5.5.1 預測的正確率和錯誤率
5.5.2 準確率和召回率
5.5.3 ROC曲線和
5.6 改進模型性能以及參數調優
5.6.1 特徵標準化
5.6.2 其他特徵
5.6.3 使用正確的數據格式
5.6.4 模型參數調優
5.7 小結
第6章 Spark構建回歸模型
6.1 回歸模型的種類
6.1.1 *小二乘回歸
6.1.2 決策樹回歸
6.2 從數據中抽取合適的特徵
6.3 回歸模型的訓練和應用
6.4 評估回歸模型的性能
6.4.1 均方誤差和均方根誤差
6.4.2 平均**誤差
6.4.3 均方根對數誤差
6.4.4 R-平方係數
6.4.5 計算不同度量下的性能
6.5 改進模型性能和參數調優
6.5.1 變換目標變量
6.5.2 模型參數調優
6.6 小結
第7章 Spark構建聚類模型
7.1 聚類模型的類型
7.1.1 K-均值聚類
7.1.2 混合模型
7.1.3 層次聚類
7.2 從數據中提取正確的特徵
7.3 訓練聚類模型
7.4 使用聚類模型進行預測
7.5 評估聚類模型的性能
7.5.1 內部評價指標
7.5.2 外部評價指標
7.5.3 在MovieLens數據集計算性能
7.6 聚類模型參數調優
7.7 小結
第8章 Spark應用於數據降維
8.1 降維方法的種類
8.1.1 主成分分析
8.1.2 奇異值分解
8.1.3 和矩陣分解的關係
8.1.4 聚類作為降維的方法
8.2 從數據中抽取合適的特徵
8.3 訓練降維模型
8.4 使用降維模型
8.4.1 在LFW數據集上使用PCA投影數據
8.4.2 PCA和SVD模型的關係
8.5 評價降維模型
8.6 小結
第9章 Spark **文本處理技術
9.1 處理文本數據有什麼特別之處
9.2 從數據中抽取合適的特徵
9.2.1 短語加權表示
9.2.2 特徵哈希
9.2.3 從20 新聞組數據集中提取TF-IDF 特徵
9.3 使用TF-IDF模型
9.3.1 20 Newsgroups數據集的文本相似度和TF-IDF特徵
9.3.2 基於20 Newsgroups 數據集使用TF-IDF訓練文本分類器
9.4 評估文本處理技術的作用
9.5 Word2Vec 模型
9.6 小結
**0章 Spark Streaming在實時機器學習上的應用
10.1 在線學習
10.2 流處理
10.2.1 Spark Streaming介紹
10.2.2 使用Spark Streaming緩存和容錯
10.3 創建Spark Streaming應用
10.3.1 消息生成端
10.3.2 創建簡單的流處理程序
10.3.3 流式分析
10.3.4 有狀態的流計算
10.4 使用Spark Streaming進行在線學習
10.4.1 流回歸
10.4.2 一個簡單的流回歸程序
10.4.3 流K-均值
10.5 在線模型評估
10.6 小結

閱讀過本文的人還看了以下文章:

TensorFlow 2.0深度學習案例實戰

基於40萬表格數據集TableBank,用MaskRCNN做表格檢測

《基於深度學習的自然語言處理》中/英PDF

Deep Learning 中文版初版-周志華團隊

【全套視頻課】最全的目標檢測算法系列講解,通俗易懂!

《美團機器學習實踐》_美團算法團隊.pdf

《深度學習入門:基於Python的理論與實現》高清中文PDF+源碼

特徵提取與圖像處理(第二版).pdf

python就業班學習視頻,從入門到實戰項目

2019最新《PyTorch自然語言處理》英、中文版PDF+源碼

《21個項目玩轉深度學習:基於TensorFlow的實踐詳解》完整版PDF+附書代碼

《深度學習之pytorch》pdf+附書源碼

PyTorch深度學習快速實戰入門《pytorch-handbook》

【下載】豆瓣評分8.1,《機器學習實戰:基於Scikit-Learn和TensorFlow》

《Python數據分析與挖掘實戰》PDF+完整源碼

汽車行業完整知識圖譜項目實戰視頻(全23課)

李沐大神開源《動手學深度學習》,加州伯克利深度學習(2019春)教材

筆記、代碼清晰易懂!李航《統計學習方法》最新資源全套!

《神經網絡與深度學習》最新2018版中英PDF+源碼

將機器學習模型部署為REST API

FashionAI服裝屬性標籤圖像識別Top1-5方案分享

重要開源!CNN-RNN-CTC 實現手寫漢字識別

yolo3 檢測出圖像中的不規則漢字

同樣是機器學習算法工程師,你的面試為什麼過不了?

前海徵信大數據算法:風險概率預測

【Keras】完整實現『交通標誌』分類、『票據』分類兩個項目,讓你掌握深度學習圖像分類

VGG16遷移學習,實現醫學圖像識別分類工程項目

特徵工程(一)

特徵工程(二) :文本數據的展開、過濾和分塊

特徵工程(三):特徵縮放,從詞袋到 TF-IDF

特徵工程(四): 類別特徵

特徵工程(五): PCA 降維

特徵工程(六): 非線性特徵提取和模型堆疊

特徵工程(七):圖像特徵提取和深度學習

如何利用全新的決策樹集成級聯結構gcForest做特徵工程並打分?

Machine Learning Yearning 中文翻譯稿

螞蟻金服2018秋招-算法工程師(共四面)通過

全球AI挑戰-場景分類的比賽源碼(多模型融合)

斯坦福CS230官方指南:CNN、RNN及使用技巧速查(列印收藏)

python+flask搭建CNN在線識別手寫中文網站

中科院Kaggle全球文本匹配競賽華人第1名團隊-深度學習與特徵工程

不斷更新資源

深度學習、機器學習、數據分析、python

 搜索公眾號添加: datayx  

機大數據技術與機器學習工程

 搜索公眾號添加: datanlp

長按圖片,識別二維碼

相關焦點

  • 經典用例,精彩教程之Spark MLlib - Apache Spark的機器學習庫
    Spark MLlib是Apache Spark的機器學習組件。
  • Spark機器學習的關鍵技巧
    我之前寫文章說,Spark-Shell 是個偉大的創新,加上牛逼的Scala語言,寫spark程序就和寫普通的shell腳本(或者類似python程序)一樣容易。問題是,原來的shell,python只能在單機工作,現在你寫的每一行代碼,都被放到了一個幾百臺,幾千臺的規模上去做了。
  • 大數據機器學習庫spark mllib基礎及應用案例
    近日,飛馬網邀請業內資深大數據研發專家董西成為大家在線講解了大數據機器學習庫spark mllib基礎及應用案例。
  • 怎樣用Spark機器學習使用戶數據可視化?
    本篇討論將流數據與機器學習和快速存儲相結合的數據管道的體系結構。在第一部分中,我們將探索使用Spark機器學習數據管道進行情感分析。我們將使用一個Amazon產品評論數據集,並構建一個機器學習模型來將評論分為正面和負面。
  • AutoML:機器學習的下一波浪潮
    AutoML 使真正意義上的機器學習成為可能,即使對於沒有該領域專業知識的人也是如此。本文介紹了一些流行的 AutoML 框架,這些框架的趨勢是自動化部分或整個機器學習的管道。,利用遺傳算法來優化機器學習管道。
  • 機器學習實踐指南
    [18]: 研討會 - http://www.math.pitt.edu/%7Esiam/workshops/python10/python.pdf[19]: SymPy 軟體包 - http://docs.sympy.org/latest/tutorial/calculus.html[20]: 機器學習教程 - http://www.cs.cmu.edu/
  • 用Spark-NLP建立文本分類模型
    但在機器學習方面,大數據系統和機器學習工具之間仍然存在差距。流行的機器學習python庫,如scikit-learn和Gensim,經過高度優化,可以在單節點計算機上執行,而不是為分布式環境設計的。Apache Spark MLlib是許多幫助彌合這一差距的工具之一,它提供了大多數機器學習模型,如線性回歸、Logistic回歸、支持向量機、隨機森林、K-means、LDA等,以執行最常見的機器學習任務。
  • 2小時入門Spark之MLlib
    第二是提供機器學習模型的候選baseline。眾所周知,目前工業界應用最主流的機器學習模型是xgboost,lightgbm,以及深度學習那一套。遺憾的是,MLlib原生並不帶xgboost和lightgbm,對深度學習的支持也不多。
  • RDD和SparkSQL綜合應用
    import findspark#指定spark_home為剛才的解壓路徑,指定python路徑spark_home = "/Users/liangyun/ProgramFiles/spark-3.0.1-bin-hadoop3.2"python_path = "/Users/liangyun/anaconda3
  • python機器學習預測分析核心算法.pdf
    AI項目體驗地址 https://loveai.tech《Python機器學習 預測分析核心算法》內容簡介  在學習和研究機器學習的時候,面臨令人眼花繚亂的算法,機器學習新手往往會不知所措。本書從算法和Python語言實現的角度,幫助讀者認識機器學習。
  • 簡化TensorFlow和Spark互操作性:LinkedIn開源Spark-TFRecord
    這家網際網路巨頭長期以來一直是 Spark 技術的廣泛採用者,並且也一直是 TensorFlow 和機器學習開源社區的積極貢獻者。在內部,LinkedIn 工程團隊經常嘗試在 TensorFlow 的原生 TFRecord 格式和 Spark 的內部格式(如 Avro 或 Parquet)之間實現轉換。
  • 《機器學習數學基礎》發布,417頁PDF免費下載
    》「Mathematics for Machine Learning」 最新版417頁pdf版本已經放出,作者表示撰寫這本書旨在激勵人們學習數學概念。然而,這帶來了一些風險,即實踐者不知道設計決策,因此不知道機器學習算法的局限性。有興趣了解機器學習算法背後機制的實踐者需要具備如下的先驗知識:數學和統計學知識,以及機器學習是如何基於這些知識構建的在大學裡,關於機器學習的入門課程往往會在課程的早期部分涉及到以上這些先驗知識。由於歷史原因,機器學習的課程傾向於在計算機科學系進行授課。
  • 最新版《機器學習數學基礎》發布,417頁PDF免費下載
    》最新版 417 頁 pdf 版本已經放出,本書旨在激勵人們學習數學概念,包括數學基礎知識和使用數學基礎知識進行機器學習算法示例兩部分,值得收藏學習!由 Marc Peter Deisenroth,A Aldo Faisal 和 Cheng Soon Ong 撰寫的《機器學習數學基礎》「Mathematics for Machine Learning」 最新版 417 頁 pdf 版本已經放出,作者表示撰寫這本書旨在激勵人們學習數學概念。這本書並不打算涵蓋前沿的機器學習技術,因為已經有很多書這樣做了。
  • 《Python 機器學習》第二版(附電子版 pdf)
    今天給大家推薦一本不錯的 Python 機器學習教程,言簡意賅,通俗易懂!就是這本《Python Machine Learning》(2nd),中文譯為《Python 機器學習》(第二版)。,包括在 Scipy 的機器學習教程。
  • 『 Spark 』2. spark 基本概念解析
    過程中的理解記錄 + 對參考文章中的一些理解 + 個人實踐spark過程中的一些心得而來。寫這樣一個系列僅僅是為了梳理個人學習spark的筆記記錄,並非為了做什麼教程,所以一切以個人理解梳理為主,沒有必要的細節就不會記錄了。若想深入了解,最好閱讀參考文章和官方文檔。其次,本系列是基於目前最新的 spark 1.6.0 系列開始的,spark 目前的更新速度很快,記錄一下版本好還是必要的。1.
  • Spark簡介
    Spark的通用性體現在Spark包含了上述五大模塊,這五大模塊使得開發者可以在同一個應用程式實現批作業處理,流式計算、SQL、機器學習還有圖計算。換句話來說,如果你的系統需要使用到離線處理,流式計算、機器學習以及圖計算,那麼Spark的生態棧就可以滿足你的所有要求,這樣我們就不需為了實現一個功能而引入新的組件,從而增加運維負擔。
  • Spark機器學習快速入門
    一.機器學習簡介機器學習【Machine Learning ML】是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科。機器學習理論主要是設計和分析一些讓計算機可以自動「學習」的算法。
  • Spark-TFRecord: Spark將全面支持TFRecord
    簡介:在機器學習領域,Apache Spark 由於其支持 SQL 類型的操作以及高效的數據處理,被廣泛的用於數據預處理流程,同時 TensorFlow 作為廣受歡迎的深度學習框架被廣泛的用於模型訓練。儘管兩個框架有一些共同支持的數據格式,但是,作為 TFRecord—TensorFlow 的原生格式,並沒有被 Spark 完全支持。
  • Spark與深度學習框架——H2O、deeplearning4j、SparkNet
    $ export Spark_HOME=/path/to/your/spark3.啟動sparkling-shell,這個接口與spark-shell類似。機器學習算法能以向量格式處理所有數據。所有的圖片、音頻及文本數據必須用某種方法轉換為向量。雖然訓練機器學習模型是十分常見的工作,但它會重新造輪子還會引起bug。Canova能為你做這種轉換。
  • 開源《Python 機器學習》-Python Machine Learning第一版+第二版(附電子版 pdf)
    》,機器學習與預測分析正在改變企業和其他組織的運作方式,本書將帶領讀者進入預測分析的世界。全書共16章,除了簡要介紹機器學習及Python在機器學習中的應用,還系統講述了數據分類、數據預處理、模型優化、集成學習、回歸、聚類、神經網絡、深度學習等內容。本書將機器學習背後的基本理論與應用實踐聯繫起來,通過這種方式讓讀者聚焦於如何正確地提出問題、解決問題。本書講解了如何使用Python的核心元素以及強大的機器學習庫,同時還展示了如何正確使用一系列統計模型。