向AI轉型的程式設計師都關注了這個號👇👇👇
人工智慧大數據與深度學習 公眾號:datayx
PDF 獲取方式
關注微信公眾號 datayx 然後回復 spark 即可獲取。
AI項目體驗地址 https://loveai.tech
《Spark機器學習》
內容提要彭特裡思著的《Spark機器學習》每章都設計了 案例研究,以機器學習算法為主線,結合實例探討了 spark的實際應用。書中沒有讓人抓狂的數據公式, 而是從準備和正確認識數據開始講起,全面涵蓋了推 薦系統、回歸、聚類、降維等經典的機器學習算法及 其實際應用。
本書適合網際網路公司從事數據分析的人員,以及 高校數據挖掘相關專業的師生閱讀參考。
**章 Spark 的環境搭建與運行
1.1 Spark 的本地安裝與配置
1.2 Spark 集群
1.3 Spark 編程模型
1.3.1 SparkContext類與SparkConf類
1.3.2 Spar
1.3.3 彈性分布式數據集
1.3.4 廣播變量和累加器
1.4 Spark Scala 編程入門
1.5 Spark Java 編程入門
1.6 Spark Python 編程入門
1.7 在*** EC2 上運?
1.8 小結
第2章 設計機器學習系統
2.1 MovieStream 介紹
2.2 機器學習系統商業用例
2.2.1 個性化
2.2.2 目標營銷和客戶細分
2.2.3 預測建模與分析
2.3 機器學習模型的種類
2.4 數據驅動的機器學習系統的組成
2.4.1 數據獲取與存儲
2.4.2 數據清理與轉換
2.4.3 模型訓練與測試迴路
2.4.4 模型部署與整合
2.4.5 模型監控與反饋
2.4.6 批處理或實時方案的選擇
2.5 機器學習系統架構
2.6 小結
第3章 Spark 上數據的獲取、處理與準備
3.1 獲取公開數據集
3.2 探索與可視化數據
3.2.1 探索用戶數據
3.2.2 探索電影數據
3.2.3 探索評級數據
3.3 處理與轉換數據
3.4 從數據中提取有用特徵
3.4.1 數值特徵
3.4.2 類別特徵
3.4.3 派生特徵
3.4.4 文本特徵
3.4.5 正則化特徵
3.4.6 用軟體包提取特徵
3.5 小結
第4章 構建基於Spark的推薦引擎
4.1 推薦模型的分類
4.1.1 基於內容的過濾
4.1.2 協同過濾
4.1.3 矩陣分解
4.2 提取有效特徵
4.3 訓練推薦模型
4.3.1 使用MovieLens 100k數據集訓練模型
4.3.2 使用隱式反饋數據訓練模型
4.4 使用推薦模型
4.4.1 用戶推薦
4.4.2 物品推薦
4.5 推薦模型效果的評估
4.5.1 均方差
4.5.2 K 值平均準確率
4.5.3 使用MLlib內置的評估函數
4.6 小結
第5章 Spark構建分類模型
5.1 分類模型的種類
5.1.1 線性模型
5.1.2 樸素貝葉斯模型
5.1.3 決策樹
5.2 從數據中抽取合適的特徵
5.3 訓練分類模型
5.4 使用分類模型
5.5 評估分類模型的性能
5.5.1 預測的正確率和錯誤率
5.5.2 準確率和召回率
5.5.3 ROC曲線和
5.6 改進模型性能以及參數調優
5.6.1 特徵標準化
5.6.2 其他特徵
5.6.3 使用正確的數據格式
5.6.4 模型參數調優
5.7 小結
第6章 Spark構建回歸模型
6.1 回歸模型的種類
6.1.1 *小二乘回歸
6.1.2 決策樹回歸
6.2 從數據中抽取合適的特徵
6.3 回歸模型的訓練和應用
6.4 評估回歸模型的性能
6.4.1 均方誤差和均方根誤差
6.4.2 平均**誤差
6.4.3 均方根對數誤差
6.4.4 R-平方係數
6.4.5 計算不同度量下的性能
6.5 改進模型性能和參數調優
6.5.1 變換目標變量
6.5.2 模型參數調優
6.6 小結
第7章 Spark構建聚類模型
7.1 聚類模型的類型
7.1.1 K-均值聚類
7.1.2 混合模型
7.1.3 層次聚類
7.2 從數據中提取正確的特徵
7.3 訓練聚類模型
7.4 使用聚類模型進行預測
7.5 評估聚類模型的性能
7.5.1 內部評價指標
7.5.2 外部評價指標
7.5.3 在MovieLens數據集計算性能
7.6 聚類模型參數調優
7.7 小結
第8章 Spark應用於數據降維
8.1 降維方法的種類
8.1.1 主成分分析
8.1.2 奇異值分解
8.1.3 和矩陣分解的關係
8.1.4 聚類作為降維的方法
8.2 從數據中抽取合適的特徵
8.3 訓練降維模型
8.4 使用降維模型
8.4.1 在LFW數據集上使用PCA投影數據
8.4.2 PCA和SVD模型的關係
8.5 評價降維模型
8.6 小結
第9章 Spark **文本處理技術
9.1 處理文本數據有什麼特別之處
9.2 從數據中抽取合適的特徵
9.2.1 短語加權表示
9.2.2 特徵哈希
9.2.3 從20 新聞組數據集中提取TF-IDF 特徵
9.3 使用TF-IDF模型
9.3.1 20 Newsgroups數據集的文本相似度和TF-IDF特徵
9.3.2 基於20 Newsgroups 數據集使用TF-IDF訓練文本分類器
9.4 評估文本處理技術的作用
9.5 Word2Vec 模型
9.6 小結
**0章 Spark Streaming在實時機器學習上的應用
10.1 在線學習
10.2 流處理
10.2.1 Spark Streaming介紹
10.2.2 使用Spark Streaming緩存和容錯
10.3 創建Spark Streaming應用
10.3.1 消息生成端
10.3.2 創建簡單的流處理程序
10.3.3 流式分析
10.3.4 有狀態的流計算
10.4 使用Spark Streaming進行在線學習
10.4.1 流回歸
10.4.2 一個簡單的流回歸程序
10.4.3 流K-均值
10.5 在線模型評估
10.6 小結
閱讀過本文的人還看了以下文章:
TensorFlow 2.0深度學習案例實戰
基於40萬表格數據集TableBank,用MaskRCNN做表格檢測
《基於深度學習的自然語言處理》中/英PDF
Deep Learning 中文版初版-周志華團隊
【全套視頻課】最全的目標檢測算法系列講解,通俗易懂!
《美團機器學習實踐》_美團算法團隊.pdf
《深度學習入門:基於Python的理論與實現》高清中文PDF+源碼
特徵提取與圖像處理(第二版).pdf
python就業班學習視頻,從入門到實戰項目
2019最新《PyTorch自然語言處理》英、中文版PDF+源碼
《21個項目玩轉深度學習:基於TensorFlow的實踐詳解》完整版PDF+附書代碼
《深度學習之pytorch》pdf+附書源碼
PyTorch深度學習快速實戰入門《pytorch-handbook》
【下載】豆瓣評分8.1,《機器學習實戰:基於Scikit-Learn和TensorFlow》
《Python數據分析與挖掘實戰》PDF+完整源碼
汽車行業完整知識圖譜項目實戰視頻(全23課)
李沐大神開源《動手學深度學習》,加州伯克利深度學習(2019春)教材
筆記、代碼清晰易懂!李航《統計學習方法》最新資源全套!
《神經網絡與深度學習》最新2018版中英PDF+源碼
將機器學習模型部署為REST API
FashionAI服裝屬性標籤圖像識別Top1-5方案分享
重要開源!CNN-RNN-CTC 實現手寫漢字識別
yolo3 檢測出圖像中的不規則漢字
同樣是機器學習算法工程師,你的面試為什麼過不了?
前海徵信大數據算法:風險概率預測
【Keras】完整實現『交通標誌』分類、『票據』分類兩個項目,讓你掌握深度學習圖像分類
VGG16遷移學習,實現醫學圖像識別分類工程項目
特徵工程(一)
特徵工程(二) :文本數據的展開、過濾和分塊
特徵工程(三):特徵縮放,從詞袋到 TF-IDF
特徵工程(四): 類別特徵
特徵工程(五): PCA 降維
特徵工程(六): 非線性特徵提取和模型堆疊
特徵工程(七):圖像特徵提取和深度學習
如何利用全新的決策樹集成級聯結構gcForest做特徵工程並打分?
Machine Learning Yearning 中文翻譯稿
螞蟻金服2018秋招-算法工程師(共四面)通過
全球AI挑戰-場景分類的比賽源碼(多模型融合)
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(列印收藏)
python+flask搭建CNN在線識別手寫中文網站
中科院Kaggle全球文本匹配競賽華人第1名團隊-深度學習與特徵工程
不斷更新資源
深度學習、機器學習、數據分析、python
搜索公眾號添加: datayx
機大數據技術與機器學習工程
搜索公眾號添加: datanlp
長按圖片,識別二維碼