R語言基礎及數據挖掘應用培訓
8月15-17日?北京
R是一套完整的數據處理、計算和製圖軟體系統,R是一種數學計算的環境,它可以提供一些集成的統計工具,但更大量的是它提供各種數學計算、統計計算的函數,從而使使用者能靈活機動的進行數據分析,甚至創造出符合需要的新的統計計算方法。在R網站上提供了統計及各個有關應用領域幾乎所有最新的成果和代碼公開的軟體包。截至2012年7月底,CRAN庫中的R包已經超過3900個,例如僅僅空間統計一個方向的軟體包就有20多個。應廣大R軟體愛好者的需求,科學軟體學習網和SupStat公司聯合舉辦R語言基礎及數據挖掘應用培訓班,由SupStat公司資深R軟體講師主講。
主講老師
陳堰平,曾擔任新華社國家金融信息中心指數研究院研發部負責人,主要從事經濟指數、金融衍生品方面的研究。2013年加入北京數博思達信息科技有限公司(SupStat?Inc.),主要從事統計諮詢、金融數據分析、開發基於R語言的定製化統計軟體,曾給惠普中國研發中心、花旗銀行、東方航空、中國電信做過培訓和諮詢,多次在中國R語言會議上發表演講,2013?Oracle技術嘉年華演講嘉賓。現在同時也是統計之都管理團隊成員,中國R語言會議理事會成員,曾獲CQF國際數量金融認證,譯作有《R語言編程藝術》,目前還參加其他幾本R語言圖書的編寫和翻譯。
培訓時間:2014年8月15-17日(三天)
培訓地點:北京
培訓費用:2000元一人(7月20日前報名並繳費的學員可享有8折優惠,8月10日前報名並繳費的學員可享9折優惠)
課程詳細介紹:
1.1基礎語法入門?9:00-12:00 | * 什麼是 R * 如何學習 R * 如何得到幫助,相關資源和書籍 * RStudio,擴展包,工作空間 * 數據對象 * 向量化操作 * 函數和控制語句 |
摘要:講解R的基本操作知識,了解R的特點、資源獲取方式,並掌握基本的程序編寫 | |
案例和練習:使用R語言完成若干歐拉項目(euler project) | |
1.2數據獲取?13:00-14:00 | * 本地文檔的讀寫 * 連接資料庫 * Web數據抓取 * API數據源 * 其它數據資源 |
摘要:R語言如何從各種方式讀取數據,通過基本的WEB知識進行網頁抓取,連接資料庫,通過sql語句調用數據,從本地讀取excel等各種文件數據。 | |
案例和練習:使用網頁抓取和API獲得豆瓣網站上的數據。 | |
1.3數據整理?? 14:00-15:30 | * 數據變換 * 數據重塑 * 拆分合併 * 匯總數據 * 字符串操作 * 日期操作 |
摘要:講解R語言如何操作數據,能對數據進行自由的操作轉換,特別是對於字符串和日期的操作處理。 | |
案例和練習:分析NBA數據,判斷金融市場中的一月效應,找出QQ群中的話嘮 | |
1.4數據可視化?? 15:30-17:30 | * R 語言中的可視化函數 * 單變量的特徵 * 比例的構成 * 多變量的關係 * 展現時間的變化 * 地理信息 |
摘要:講解R語言中基礎繪圖函數和高級繪圖包的使用,理解可視化探索的各種方法 | |
案例和練習:使用圖形來對之前的NBA數據進行分析 |
2.1數據挖掘工業流程??? 9:00-10:00 | |
摘要:講解數據挖掘的主要任務,各挖掘方法的簡要介紹和應用場景,典型的工作流步驟,以及R和數據挖掘之間的關係。 | |
2.2先修統計知識????? 10:00-11:00 | * 描述統計 * 推斷統計 * 統計模擬計算 |
摘要:講解必要的統計學知識,了解各種概率分布、統計描述函數,以及學習假設檢驗的原理和應用 | |
案例和練習:報攤進貨決策 | |
2.3挖掘預處理?????? 11:00-12:00 | * 數據的類型 * 數據的可能問題 * 數據預處理的方法 |
摘要:講解分析前的數據處理工作,包括如何識別數據中可能的問題,如數據缺失和數據噪聲,如何解決這些問題。 | |
2.4線性回歸?????? 13:00-15:00 | * 簡單線性回歸 * 回歸診斷 * 多元回歸 * 非參數回歸 |
摘要:講解最經典的回歸分析方法,即對連續數值進行預測,學習其基本原理和前提假設,以及如何在R中實施回歸 | |
案例和練習:葡萄酒的定價分析 | |
2.5 logistic回歸???? 15:00-16:00 | * logstic回歸原理 * 實現原理 * 輸出解釋 |
摘要:講解logistic回歸,即對離散的類別數據進行預測,了解係數解釋和模型的意義 | |
案例和練習:是否能升入大學的數據預測 | |
2.6模型評價???? 16:00-17:30 | * 回歸模型評價 * 分類模型評價 * underfit和overfit |
摘要:講解如何對分類模型和回歸模型進行評價,學習過度擬合與擬合不足的區別,並如何規避這些陷阱 |
3.1 K近鄰方法???? 9:00-10:00 | * 最近鄰分類器原理 * 各種距離的定義 * 使用KNN對乳腺癌數據分析 |
摘要:學習KNN分類方法的原理和實現過程,它的優點缺點,以及如何在R中的函數應用 | |
3.2決策樹方法和集成學習?? ?10:00-12:00 | * 理解決策樹算法 * 決策樹和回歸的結合 * 隨機森林 * 提升算法 |
摘要:學習決策樹分類器,以及在其基礎上的裝袋算法、提升算法、隨機森林 | |
3.3 K均值聚類???? 13:00-14:00 | * K-means聚類 * 改進算法 * K的選擇 |
摘要:學習用kmeans來進行無監督學習,了解其原理和改進方法,並了掌握如何選擇關鍵參數 | |
案例和練習:對青少年群體進行分群 | |
3.4推薦算法??? 14:00-15:00 | * 協同過濾算法簡介 * 奇異值分解 |
摘要:介紹基本的協同過濾方法,並使用奇異值分解來避免高維問題 | |
3.5文本挖掘入門???? 15:00-17:30 | * 文本挖掘的基礎術語 * 樸素貝葉斯方法 * 文本挖掘案例:垃圾郵件過濾、紅樓夢文本分析、航空公司滿意度分析 |
摘要:介紹基於R環境的文本挖掘入門,如何處理將文本這種非結構化數據轉為結構化數據,並使用bayes進行分析。 |
版權與免責聲明:
① 凡本網註明"來源:中國教育裝備採購網"的所有作品,版權均屬於中國教育裝備採購網,未經本網授權不得轉載、摘編或利用其它方式使用。已獲本網授權的作品,應在授權範圍內使用,並註明"來源:中國教育裝備採購網"。違者本網將追究相關法律責任。
② 本網凡註明"來源:XXX(非本網)"的作品,均轉載自其它媒體,轉載目的在於傳遞更多信息,並不代表本網贊同其觀點和對其真實性負責,且不承擔此類作品侵權行為的直接責任及連帶責任。如其他媒體、網站或個人從本網下載使用,必須保留本網註明的"稿件來源",並自負版權等法律責任。
③ 如涉及作品內容、版權等問題,請在作品發表之日起兩周內與本網聯繫,否則視為放棄相關權利。