R語言及數據挖掘應用培訓 8月15-17日北京開班

2020-11-25 中國教育裝備採購網

R語言基礎及數據挖掘應用培訓

8月15-17日?北京

R是一套完整的數據處理、計算和製圖軟體系統,R是一種數學計算的環境,它可以提供一些集成的統計工具,但更大量的是它提供各種數學計算、統計計算的函數,從而使使用者能靈活機動的進行數據分析,甚至創造出符合需要的新的統計計算方法。在R網站上提供了統計及各個有關應用領域幾乎所有最新的成果和代碼公開的軟體包。截至2012年7月底,CRAN庫中的R包已經超過3900個,例如僅僅空間統計一個方向的軟體包就有20多個。應廣大R軟體愛好者的需求,科學軟體學習網和SupStat公司聯合舉辦R語言基礎及數據挖掘應用培訓班,由SupStat公司資深R軟體講師主講。

主講老師

陳堰平,曾擔任新華社國家金融信息中心指數研究院研發部負責人,主要從事經濟指數、金融衍生品方面的研究。2013年加入北京數博思達信息科技有限公司(SupStat?Inc.),主要從事統計諮詢、金融數據分析、開發基於R語言的定製化統計軟體,曾給惠普中國研發中心、花旗銀行、東方航空、中國電信做過培訓和諮詢,多次在中國R語言會議上發表演講,2013?Oracle技術嘉年華演講嘉賓。現在同時也是統計之都管理團隊成員,中國R語言會議理事會成員,曾獲CQF國際數量金融認證,譯作有《R語言編程藝術》,目前還參加其他幾本R語言圖書的編寫和翻譯。


培訓時間:2014年8月15-17日(三天)

培訓地點:北京

培訓費用:2000元一人(7月20日前報名並繳費的學員可享有8折優惠,8月10日前報名並繳費的學員可享9折優惠)

課程詳細介紹:


第一天:R語言基礎

1.1基礎語法入門?9:00-12:00

* 什麼是 R

* 如何學習 R

* 如何得到幫助,相關資源和書籍

* RStudio,擴展包,工作空間

* 數據對象

* 向量化操作

* 函數和控制語句

摘要:講解R的基本操作知識,了解R的特點、資源獲取方式,並掌握基本的程序編寫

案例和練習:使用R語言完成若干歐拉項目(euler project)

1.2數據獲取?13:00-14:00

* 本地文檔的讀寫

* 連接資料庫

* Web數據抓取

* API數據源

* 其它數據資源

摘要:R語言如何從各種方式讀取數據,通過基本的WEB知識進行網頁抓取,連接資料庫,通過sql語句調用數據,從本地讀取excel等各種文件數據。

案例和練習:使用網頁抓取和API獲得豆瓣網站上的數據。

1.3數據整理?? 14:00-15:30

* 數據變換

* 數據重塑

* 拆分合併

* 匯總數據

* 字符串操作

* 日期操作

摘要:講解R語言如何操作數據,能對數據進行自由的操作轉換,特別是對於字符串和日期的操作處理。

案例和練習:分析NBA數據,判斷金融市場中的一月效應,找出QQ群中的話嘮

1.4數據可視化?? 15:30-17:30

* R 語言中的可視化函數

* 單變量的特徵

* 比例的構成

* 多變量的關係

* 展現時間的變化

* 地理信息

摘要:講解R語言中基礎繪圖函數和高級繪圖包的使用,理解可視化探索的各種方法

案例和練習:使用圖形來對之前的NBA數據進行分析

第二天:R數據挖掘(一)

2.1數據挖掘工業流程??? 9:00-10:00

摘要:講解數據挖掘的主要任務,各挖掘方法的簡要介紹和應用場景,典型的工作流步驟,以及R和數據挖掘之間的關係。

2.2先修統計知識????? 10:00-11:00

* 描述統計

* 推斷統計

* 統計模擬計算

摘要:講解必要的統計學知識,了解各種概率分布、統計描述函數,以及學習假設檢驗的原理和應用

案例和練習:報攤進貨決策

2.3挖掘預處理?????? 11:00-12:00

* 數據的類型

* 數據的可能問題

* 數據預處理的方法

摘要:講解分析前的數據處理工作,包括如何識別數據中可能的問題,如數據缺失和數據噪聲,如何解決這些問題。

2.4線性回歸?????? 13:00-15:00

* 簡單線性回歸

* 回歸診斷

* 多元回歸

* 非參數回歸

摘要:講解最經典的回歸分析方法,即對連續數值進行預測,學習其基本原理和前提假設,以及如何在R中實施回歸

案例和練習:葡萄酒的定價分析

2.5 logistic回歸???? 15:00-16:00

* logstic回歸原理

* 實現原理

* 輸出解釋

摘要:講解logistic回歸,即對離散的類別數據進行預測,了解係數解釋和模型的意義

案例和練習:是否能升入大學的數據預測

2.6模型評價???? 16:00-17:30

* 回歸模型評價

* 分類模型評價

* underfit和overfit

摘要:講解如何對分類模型和回歸模型進行評價,學習過度擬合與擬合不足的區別,並如何規避這些陷阱

第三天:R數據挖掘(二)

3.1 K近鄰方法???? 9:00-10:00

* 最近鄰分類器原理

* 各種距離的定義

* 使用KNN對乳腺癌數據分析

摘要:學習KNN分類方法的原理和實現過程,它的優點缺點,以及如何在R中的函數應用

3.2決策樹方法和集成學習?? ?10:00-12:00

* 理解決策樹算法

* 決策樹和回歸的結合

* 隨機森林

* 提升算法

摘要:學習決策樹分類器,以及在其基礎上的裝袋算法、提升算法、隨機森林

3.3 K均值聚類???? 13:00-14:00

* K-means聚類

* 改進算法

* K的選擇

摘要:學習用kmeans來進行無監督學習,了解其原理和改進方法,並了掌握如何選擇關鍵參數

案例和練習:對青少年群體進行分群

3.4推薦算法??? 14:00-15:00

* 協同過濾算法簡介

* 奇異值分解

摘要:介紹基本的協同過濾方法,並使用奇異值分解來避免高維問題

3.5文本挖掘入門???? 15:00-17:30

* 文本挖掘的基礎術語

* 樸素貝葉斯方法

* 文本挖掘案例:垃圾郵件過濾、紅樓夢文本分析、航空公司滿意度分析

摘要:介紹基於R環境的文本挖掘入門,如何處理將文本這種非結構化數據轉為結構化數據,並使用bayes進行分析。


版權與免責聲明:

① 凡本網註明"來源:中國教育裝備採購網"的所有作品,版權均屬於中國教育裝備採購網,未經本網授權不得轉載、摘編或利用其它方式使用。已獲本網授權的作品,應在授權範圍內使用,並註明"來源:中國教育裝備採購網"。違者本網將追究相關法律責任。

② 本網凡註明"來源:XXX(非本網)"的作品,均轉載自其它媒體,轉載目的在於傳遞更多信息,並不代表本網贊同其觀點和對其真實性負責,且不承擔此類作品侵權行為的直接責任及連帶責任。如其他媒體、網站或個人從本網下載使用,必須保留本網註明的"稿件來源",並自負版權等法律責任。

③ 如涉及作品內容、版權等問題,請在作品發表之日起兩周內與本網聯繫,否則視為放棄相關權利。

相關焦點

  • 「基於R語言統計分析方法」培訓課程開班
    為了讓研究所相關生態學、環境科學及其他相關領域的科研人員和研究生更好的了解、掌握R語言,實現多元數據的數量分析,4月25至27日,應中國科學院青年促進會新疆生態與地理研究所小組的邀請,中科院植物研究所博士賴江山赴新疆生地所主講「基於R語言統計分析方法」培訓課程。新疆生地所副所長張元明參加了開班儀式。  50餘位研究員、副研究員、博士研究生參加了此次培訓。
  • 中國地球物理學會「Python 語言學習培訓班」正式開班
    2020年8月22日,由中國地球物理學會信息技術專業委員會和繼續教育工作委員會主辦、山東省煤田地質規劃勘察研究院承辦的「Python語言學習培訓班」網上公益培訓正式開班。
  • 民航無人機駕駛員培訓8月4日開班,現在報名贈送無人機實用課程
    依據中國民用航空局《民用無人機駕駛員管理規定(2016-7-11)》、《一般運行和飛行規則》等有關規章的要求,為規範無人駕駛航空器系統(以下簡稱無人機)駕駛員和機長的飛行訓練工作,翼飛鴻天無人機學院以民用無人機駕駛員的訓練合格審定資質機構的名義,開展無人機駕駛員培訓班,面向社會公開招生開班。
  • 1月24-26日SPSS Modeler複雜數據分析與建模
    SPSS Modeler強大的數據挖掘功能將複雜的統計方法和機器學習技術應用到數據當中,幫助客戶揭示了隱藏在交易系統或企業資源計劃(ERP)、結構資料庫和普通文件中的模式和趨勢,讓客戶始終站在行業發展的前端,顯著的投資回報率使得SPSS Modeler在業界久負盛譽,同那些僅僅著重於模型的外在表現而忽略了數據挖掘在整個業務流程中的應用價值的其它數據挖掘
  • 短期氣候預測方法國際培訓班開班
    短期氣候預測方法國際培訓班開班 來源:中國氣象報社   發布時間:2012年03月27日16:00
  • 培訓 | 北京市神經外科研究所第四期生物信息學培訓班 9月10日
    培訓通知神外前沿課程介紹新一代測序和基因晶片等高通量分子生物學技術產生了海量的、多層面組學數據,並廣泛應用於人類複雜疾病的研究中。如何有效地對這些寶貴資源進行分析、整合,揭示疾病機制,是生物醫學科研人員面臨的重大挑戰。
  • 數據挖掘技術在中醫證候學中的應用
    數據挖掘作為一種通用技術,可以應用於任何類型的數據,包括資料庫、數據倉庫、web信息以及其他信息存儲資料庫和動態的流入系統的數據等。1.2 常用的數據挖掘算法1.2.1 關聯規則  關聯分析用於發現隱藏在數據集中的有意義的聯繫,所發現的特徵變量之間的聯繫可以用關聯規則或頻繁項集的形式表示。
  • 市大數據運營業務培訓班開班
    1月5日上午,市大數據運營業務培訓班在市新聞傳媒集團多功能廳開班,旨在提高培訓人員理論水平和專業技能,增強技術創新能力和服務意識,切實加快培育發掘我市數據要素市場,更快更好發展以數字經濟為代表的新型經濟,助推全市經濟社會高質量發展。
  • 7G R語言乾貨教程,視頻加書籍免費領!
    >R語言視頻教程: 1. R語言書籍大合集:高質量課題與文章專家一對一輔導為幫助廣大初學者和具有一定基礎的研究者能更好掌握生信分析,回顧性臨床研究,網絡藥理,科研作圖,基因編輯,m6a等套路與常用技能, 考慮目前在疫情期間的實際情況,我們決定召開下面10多門在線實操學習班(每個月輪迴開班),為了保證學習效果,我們採用Zoom網絡會議平臺授課,可回放,互動體驗效果好!
  • 大數據_數據挖掘技術分類及應用
    同時,這裡所說的數據挖掘,不是要求發現放之四海而皆準的真理,也不是要去發現嶄新的自然科學定理和純數學公式,更不是什麼機器定理證明。所有發現的知識都是相對的,是有特定前提和約束條件、面向特定領域的,同時還要能夠易於被用戶理解,最好能用自然語言表達發現結果。因此數據挖掘的研究成果是很講求實際的。
  • R語言有多強大?十個你不知道的功能
    十個你不知道的功能 2019-04-01 15:50:29  來源:大數據文摘搶沙發 2019-04-01 15:50:29  來源:大數據文摘通過使用R語言的dplyr/dbplyr,幾乎各種資料庫都可以連接   使用dbplyr包,用R語言連接各種資料庫,無論是本地的還是遠程的,都非常方便。這個功能使R語言用戶可以不用擔心底層的資料庫,而獨立地從主流資料庫中抽取數據。R語言的bigrquery包還可以直接利用BigQuery和其他大規模數據存儲。
  • 雲衣時代是服裝搭配培訓學校,2017年春季服裝學院再開班
    雲衣時代商學院在全國推出的《服裝定製師—形象管理課程》培訓,於3月16日—22日在北京服裝學院開班。這一舉動標誌著雲衣時代商學院《2017服裝定製崗位人才提升培訓計劃》正式啟動。圖為:雲衣時代商學院創始人王飛先生講話在3月16日上午舉辦的開班式上,雲衣時代商學院創始人、北京雲衣時代科技有限公司董事長王飛先生與雲衣時代商學院王進倉院長分別作了簡短致辭
  • 研招網:中科院上海應用物理研究所2019考研成績2月15日17:00公布
    研招網:中科院上海應用物理研究所2019考研成績2月15日17:00公布由廣東研究生考試網考試快訊欄目由提供,更多關於中科院上海應用物理研究所2019考研成績,研招網,廣東研究生考試快訊的內容,請關注廣東研究生考試頻道/廣東人事考試網!
  • 數據分析與挖掘 - 08圖形繪製
    階梯圖經常使用在時間序列的數據的可視化任務中,比如商品的日銷量、月銷量,企業中每月的員工數量的變化等,這樣我們能夠很容易發現時序數據的波動周期和規律。我們知道數據可以分為連續型數據和離散型數據,這裡我們可以對它們進行總結。直方圖擅長總結和描述連續型數據的分布,而柱狀圖更加的擅長描述和總結離散型數據的分布,所以你在未來的應用場景中,首先判斷數據的特點,然後再決定使用什麼圖形去描述這些數據。
  • r語言有什麼優劣勢及R語言的未來發展趨勢_R語言在現實中的應用
    r語言有什麼優劣勢分析 R語言擁有強大的軟體包生態系統與圖表優勢這種語言的設計局限有時候會令大規模數據集處理工作遇到難題,他強調稱。因為數據必須被保存在物理內存當中——但隨著計算機內存容量的不斷提升,這個問題已經在很大程度上得到了解決,Peng指出。 安全等相關功能並沒有被內置在R語言當中,Peng指出。此外,R語言無法被嵌入到網絡瀏覽器當中,Peng表示。「我們不能利用它開發Web類或者網際網路類應用程式。」
  • R語言筆記1:數據類型(向量、數組、矩陣、 列表和數據框)
    而對OTU表開始的組間比較、網絡分析、機器學習等會有上百種方法和展示方式,每一篇優秀的文章,都是數據反覆咀嚼上百次優化出來的結果(3個月-3年),而這一漫長的科研之路有R語言技能的相伴,可將統計分析可視化操作一網打盡,定能助你事半功倍。前期公眾號己分享了擴增子、宏基因組分析流程及可視化文章上百篇,但一直缺少基礎入門的知識。
  • 微信、微博數據這麼多,如何從中挖掘潛在信息? | CCF-ADL 87期
    12月22日-24日,由中國計算機學會(CCF)主辦的第87期CCF學科前沿講習班(CCF-ADL)將以《社交網絡和數據挖掘》為主題,邀請數位來自國內外該領域重量級的專家學者對這些問題做一系列主題報告。雷鋒網作為獨家合作媒體,也將到場聆聽大牛分享,並對講習班內容進行全程報導。
  • 全國生物多樣性與生態系統監測數據培訓班在植物所古田山站舉辦
    10月27日,浙江省開化縣副縣長王若磊,中科院生物多樣性委員會秘書長、植物所研究員馬克平與中國生態系統研究網絡科學委員會秘書長於秀波出席開班儀式並致辭。  本次培訓班課程由CForBio團隊青年骨幹人員共同教學,並邀請了中山大學教授儲誠進和華東師範大學教授張健為培訓班講課。
  • 【新書推薦】《機器學習及R應用》目錄
    2.1為何使用R語言  2.2 R與RStudio的安裝  2.3計算器與賦值  2.4向量  2.5缺失值與空值  2.6因子  2.7矩陣  2.8數組  2.9列表  2.10數據框  2.11描述性統計
  • KDnuggets:2013年數據分析/數據挖掘/數據科學使用語言排行榜
    這也是最近一次的KDnuggets調查關注的重點,我們諮詢:在2013年中,什麼樣的程序或者統計語言你是在做分析、挖掘、科學計算的時候所需要的?基於超過對700名會員的調查,最受歡迎的仍然是R語言(61%的調研會員在用),python(39%),SQL(37%),平均每個調研對象使用2.3種語言。