使用R語言劍指商業數據分析

2021-02-20 經管之家

今天給大家介紹一款在開源世界裡集萬千寵愛於一身的軟體——R語言

這個問題相信不用我多說了,簡單粗暴的說:R 是一個有著統計分析功能及強大作圖功能的軟體系統。我們一般使用R-Studio作為它的編輯環境。

 

認識一種語言,我們要從它的歷史說起。

那就得先從另一款語言S談起,(嗨不是你們腦海裡的大S,小S啦!)S語言是由 AT&T貝爾實驗室John Chambers等人開發的一種用來統計編程的語言。S語言目前有兩種實現版本,一種是現在由TIBCO經營的商業軟體 S-plus, 另一種就是免費開源的R語言。

1992年,Auckland大學的Robert Gentleman 和 Ross Ihaka 為了能夠更有效地開展大學裡的統計入門課程的教學,他倆決定引入S語言來開發一套軟體,1994年該軟體最初版本基本成型。這就是後來我們用到的R的雛形啦。

對,這就是它的爸爸們啦,

這下知道我們的明星語言為什麼要姓R了吧

 

1.   物美價廉——作圖顏值高,且完全免費


說它物美,主要是指它卓越的作圖功能。

可以說,點圖線圖柱狀圖直方圖,R語言樣樣精通,而且設計感滿滿,絕對可以在這個看臉的世界裡獨擋一面。比如你可以畫這樣的圖:

如果對R中基本圖形稍作修飾,你還能畫成這樣:

還能這樣(上海地區工商銀行分布核密度圖):

2. 兼收並蓄——算法覆蓋廣,擴展易


作為統計分析工具,它幾乎覆蓋整個統計領域的前沿算法。

從火到根本停不下來的的神經網絡(就是那隻下圍棋的機器狗腦袋裡的東西),到經典了一百多年還熠熠生輝的基礎回歸,數千個R包,上萬種算法,你都能找到可直接調用的函數實現。


3. 軟體擴展易


作為一款軟體系統,它有極方便的擴展性。你的數據原來存在Oracle 裡?沒問題,輕鬆導入;你的數據在MySQL 裡?沒問題, 照樣解決。文本文件、資料庫管理系統,統計軟體,專門的數據倉庫都可兼容。它同樣可以將數據輸出並寫入到這些系統中。

同時它還可以輕鬆於各種語言完成互調,比如大數據系統Hadoop,商業軟體SPSS、SPSSModeler,你曾經愛的python,都可無縫對接。


4. 集千萬力量於一身——強大的社區支持


作為一個開源軟體,R背後有一個強大的社區和大量的開放源碼支持,獲取幫助非常容易。

比如國外比較活躍的社區有GitHub和 Stack Overflow等,通常R包的開發者會先將代碼放到GitHub,接受世界各地的使用者提出問題,修改代碼等操作,等代碼成熟後再放到CRAN上發布;

而Stack Overflow 則是一個優質的IT技術問答網站,當你在Google上搜索R問題時,通常會看到該網站的回答會排在首位,足可見該網站的搜索熱度有多高!

而國內如經管之家論壇-五區 【R語言論壇】等都是優秀的R語言社區。

如何系統學習和進階R語言數據分析?

CDA數據分析集訓班
R語言方向開課

歡迎參加!

數據是資訊時代的「新能源」。從金融到零售,從電商到體育,數據科學都成為成功決策的基礎,廣泛應用在營銷優化、風險控制、客戶關係等商業領域。

 

【CDA數據分析師周末集訓-R語言】以CDA數據分析師標準大綱要求從資料庫管理(Mysql)—統計理論方法—數據分析軟體應用(R)—數據挖掘和機器學習(R)—數據可視化(ggplot,echartR等)整套數據分析流程技術系統講解,還將結合量化投資、金融、銀行、電信等行業真實需求出發全部用實際案例教學來使所學項目課程更能符合企業要求。

 

時間:2018年6月09日~9月02日

地點:北京現場& 全國直播

授課安排:現場班9900元遠程班7900元

 

01章R語言編程基礎和R SQL

01-01商業數據分析與行業介紹

01-02使用R演示數據分析全流程

01-03R語言數據類型與數據結構

01-04R語言程序控制與函數

01-05SQL語言與R SQL實現

01-06使用SQL進行數據匯總

01-07使用ggplot進行基礎繪圖

01-08案例:汽車行業貸款違約預測

 

02章Mysql資料庫基礎

01-01Mysql資料庫知識介紹

01-02Mysql資料庫的基本操作

01-03Mysql數據表的基本操作

01-04數據類型和約束條件

01-05數據的CRUD操作之增加、刪除、修改數據表

01-06SQL資料庫單表查詢和聯合查詢

01-07SQL操作符和函數

01-08SQL綜合案例:彩票數據核對練習

01-09SQL綜合案例:電商數據查詢練習

 

03章 數據分析之統計學基礎

01-01數據分析行業與知識簡介

01-02概率論基礎知識

01-03描述性統計分析

01-04統計量與抽樣分布

01-05參數估計:點估計和區間估計

01-06假設檢驗方法

01-07方差分析的基本原理和操作

 

04章 R語言進行統計分析和數據清洗

01-01使用R語言進行數據整合與數據清洗

01-02使用R語言進行數據分組和抽樣

01-03使用R語言進行描述性統計分析

01-04使用R語言進行參數估計和假設檢驗

01-05使用R語言進行單樣本和兩樣本T檢驗

01-06使用R語言進行方差分析和相關分析

01-07轉化漏鬥與A/B對比測試

 

05章 R語言進行回歸分析和降維分析

01-01使用線性回歸做客戶價值預測

01-02使用邏輯回歸做客戶流失預警

01-03連續變量關係探索與變量壓縮:主成分、因子分析

01-04聚類分析與客戶分群

01-05市場分析其他工具:對應分析與多維尺度分析

01-06案例:電信公司消費偏好聚類

01-07案例:汽車品牌客戶感知圖

 

06章 R語言進行時間序列和綜合案例分析

01-01簡單時間序列分析法:平滑算法

01-02平穩時間序列(ARMA)模型設定與識別

01-03非平穩時間序列(ARIMA)模型

01-04時間序列建模步驟

01-05綜合案例:使用R語言進行信用卡產能指標趨勢預測與監控

01-06綜合案例:使用R語言進行電信公司離網用戶預警

 

07章 R語言數據可視化

01-01繪圖思想的基本原理

01-02R語言數據可視化包-GGplot2包介紹與圖形繪製

01-03R語言數據可視化包-Lattice包與GGvis包介紹與圖形繪製

01-04R語言數據可視化包-EchartsR介紹與圖形繪製

01-05分析結果展示與報告展現

 

08章 期中項目作業與答辯

01-01課題1:電商客戶價值預測

01-02課題2:網站流量數據分析

01-03課題3:信用卡客戶流失預警

01-04課題4:銀行電話營銷響應分析

01-05以上課題僅供參考

 

09章 R語言數據挖掘基礎與進階數據處理技術

01-01R語言數據挖掘簡介

01-02數據挖掘方法論CRISP-DM介紹

01-03數據挖掘技術概述

01-04數據前處理技術與方法

01-05關鍵變量發掘技術

 

10章 R語言進行預測型數據挖掘

01-01樸素貝葉斯與最近領域

01-02決策樹算法

01-03神經網絡

01-04支持向量機

01-05集成學習: Bagging,Boosting,RandomForest

01-06特徵工程

 

11章R語言進行描述性數據挖掘與進階應用

01-01聚類分析

01-02關聯規則

01-03序列模式

01-04文本挖掘

01-05社會網絡分析

 

1. 在線填寫報名信息

 2. 給予反饋,確認報名信息

3. 網上繳費

4. 開課前一周發送電子版課件和教室路線圖

徐剛

CDA數據分析師講師/數據分析總監

具有深厚的數理統計與應用數據分析專業背景,上海某金融機構數據分析部門高級數據總監,具有八年數據分析、數據挖掘的從業經驗,曾就職零售企業、諮詢公司等,獨立或帶團隊完成零售、電信、金融等多個大型數據挖掘項目。

 

曾珂

管理科學工程碩士/CDA數據分析研究院講師

從事數據分析與數據挖掘的研究與教學,研究方向為網際網路、電子商務數據分析與挖掘,擅長基於客戶關係管理的數據挖掘、數據可視化、文本挖掘。

 

李御璽

臺灣銘傳大學教授/中華數據挖掘協會理事

臺灣大學博士,在其相關研究領域已發表超過260篇以上的研究論文,同時也是國科會與教育部多個相關研究計劃的主持人。 其還兼任廈門大學數據挖掘中心顧問,中國人民大學數據挖掘中心顧問,IBM SPSS-China顧問。服務過的客戶包括:中國工商局、中信銀行、臺新銀行等。

 

課程顧問:陳老師

18010006628(微信) 

郵箱:chenwenjing@pinggu.org

相關焦點

  • 知識分享 | R語言——大數據分析的一把利劍
    有些人問我是否應該學習在學R語言的同時學習Python。我的答案基本上是否定的,除非你需要使用一種以上的語言,否則你應該選擇一種語言進行學習。專注於一種程式語言的原因是,你需要更多地關注過程和技術,而不是語法。你需要掌握如何通過數據科學工具來分析數據,以及如何解決問題。事實證明,R語言是最佳的選擇。
  • 為什麼做數據分析首選R語言?
    先來了解一下數據分析,就是以商業目的為驅動,所開展的獲取數據、處理數據、分析數據、展示數據和撰寫數據結構報告的一系列科學過程。R 是一種免費的、開源的語言和操作環境,其初衷是為了統計計算和畫圖,但是 R語言現在能夠做的事情已經遠遠地超出了其初衷,可以在諸多領域進行應用,比如,數據挖掘、機器學習、社交網絡、生物信息、金融數據分析等。同時,R 提供了成千上萬的專業模塊和實用工具,是從大數據中獲取有用信息的絕佳工具。許多研究院,公司和大學已經使用 R。
  • RStudio|用R Markdown生成你的R語言數據分析報告
    個人公眾號:數據科學家養成記 (微信ID:louwill12)R Markadown 作為一款通過R語言創建動態文檔的寫作排版工具,為數據科學提供了現成的寫作框架。通過 R Markdown 不僅可以運行和保存R代碼,還可以生成高質量的數據分析報告並以HTML、PDF或者word的形式分享。
  • R語言-安裝使用指南
    R語言 概述R語言是用於統計分析,圖形表示和報告的程式語言和軟體環境。
  • 基於R語言的主成分和因子分析
    4)僅在變量層面上分析可能會忽略變量之間的潛在聯繫。例如幾個預測變量的綁定才可以反映數據某一方面特徵。主成分分析過程1)數據預處理,可以直接使用原始數據也可以使用相關係數矩陣;2)選擇主成分的個數(可有三種方法參考,1:保留特徵值大於1的主成分;2:碎石圖,在圖形變化最大處之上的主成分均可保留;3:平行分析,將真實數據的特徵值與模擬數據的特徵值進行比較,保留真實數據的特徵值大於模擬數據的特徵值的主成分
  • R語言-初識與數據結構
    S語言:1976年貝爾實驗室發展起來的數據交互分析系統;是一種高級程序語言,很好地統計應用快速開發系統。本人所使用的是3.6.3版本,R語言版本發展較快,通常幾個月就會發布新的版本。不但包括對象而且包含了對象的系統環境;當一次使用完畢要關閉R時,R會詢問是否保存工作空間軟體包 (Package): : 執行一定功能的函數、數據等的集合,一些內置於R系統內,大部分外置於網絡。4,R語言的工作方式命令行輸入按回車鍵執行。
  • 一文了解R語言數據分析 ----主成分分析
    PCA也是解決數據間存在共線性問題的一種方式。PCA的唯一缺點是它以無監督的方式生成主成分,也就是與數據的標籤沒有任何關係。如果最終的目的是構建模型的話,選出來的主成分不一定對於標籤或者說因變量有很好的預測能力。在本章節會介紹PCA的一些基本概念,並且使用R語言進行實現。1.
  • 數據科學養成記 之 R語言基礎(2)——關於R包
    在上一節的學習中,我們已經學習了如何將數據導入R中進行數據分析。R作為一種主力的分析語言有著其獨特的優勢:大量的R包可供大家使用,提供方便快捷的數據分析,挖掘。目前有上千個R包(R package)可供大家使用,可從cran-r 下載。
  • R語言中使用subset函數對數據進行分類管理操作
    我們在SCI論文中常常可以見到這樣的表格,是根據分類來做出統計結果的,如下圖,是根據患者是否存活把患者分成了兩類倖存的和死亡的做分別統計,然後得出各類統計結果那麼,R語言是怎麼做出這樣的表格呢首先我們要把數據進行分割,得到一個倖存的數據表和一個死亡的數據表,然後再分別統計,我們今天利用R語言自帶的subset函數來演示這一功能,這是一個非常重要的功能,為今後我們對數據進一步分析做準備。
  • R 語言之數據分析高級方法「主成分分析」和「因子分析」
    本節主要總結「數據分析」的「主成分分析」和「因子分析」的思想。通過學習《 R 語言實戰 》關於這兩種方法的解釋,我們很容易理解這兩種方法其存在的意義。——降維。我們將要面對的數據實在是太大,變量實在太多,因此計算機所承受的壓力也會越來越大。信息過度複雜是多變量數據最大的挑戰之一,特別是在還要考慮變量間交互關係的時候,變量增加時交互關係的量是按階乘關係在往上漲的,所以降維在很多時候能夠起到減少大量工作量的作用,是數據分析很重要的一個思想。以上是「主成分分析」與「因子分析」聯繫,有共同的目的。
  • R語言 | 數據操作dplyr包
    [更新~] Python網絡爬蟲與文本數據分析公眾號只帶著Python字眼,卻分享著R語言,不務正業,任性了~dplyr簡介dplyr是R語言的數據分析包,很像python中的pandas,能對dataframe
  • R vs. Python,數據分析中誰與爭鋒?
    作者丨Sunil Kappal譯者丨安翔R和Python兩者誰更適合數據分析領域?在某些特定情況下誰會更有優勢?還是一個天生在各方面都比另一個更好?當我們想要選擇一種程式語言進行數據分析時,相信大多數人都會想到R和Python——但是從這兩個非常強大、靈活的數據分析語言中二選一是非常困難的。
  • R語言實戰(14)——主成分分析和因子分析
    往期回顧:R語言實戰(4) ——數據管理R語言實戰(5) ——高級數據管理R語言實戰(6)——
  • 【數據管理】Tidyverse:R 語言學習之旅的新起點
    它是由 RStudio 選出多個數據科學應用套件的集合,只要使用者了解呼叫函數與 pipe 運算子 %>% 就能夠進行相當實用的數據處理與視覺化,這些應用套件包含:數據視覺化的王者 ggplot2數據處理的利器 dplyr長寬表格轉換的專家 tidyr數據載入的 readr循環的加速器 purrr強化數據框 tibble
  • 數據分析學習入門寶典 狗熊會《R語言:從數據思維到數據實戰》
    近日,數據產業高端智庫,狗熊會推出又一教材力作——《R語言:從數據思維到數據實戰》。這本書可以作為高等院校數據科學相關專業教學的通用教材,也是新手學習的入門寶典。全書採用實例講解,新穎有趣,深入淺出,把R語言簡單靈活、包羅萬象的特點體現得淋漓盡致。無論讀者數據分析基礎如何,都能通過這本書快速上手,提升實戰能力。
  • R語言-stringr-字符串處理
    R包stringr處理字符相對簡單,尤其是我常用Power BI,但是對M語言不熟悉,不會處理字符數據,往往我就先利用R清洗字符數據列。本文記錄工作中常用的字符處理函數,部分案例照搬R for Data Science的字符部分。
  • R 語言之數據分析「Resampling」
    ‍‍‍‍‍‍‍‍‍本節主要總結「數據分析」的「Resampling」重抽樣思想,並通過 R 語言實現。有一種東西叫作「傳統」,它在很多時候很有用,但會讓你思維固化,在新的環境下讓你出錯。在總結回歸分析和方差分析的時候 ④R語言之數據分析「初章」,我總是會在模型的建立之前提到「統計假設」,在模型建立之後進行「假設檢驗」,原因想必大家都能理解,就是因為這些「統計假設」是我們模型建立思想的基礎,是支撐我們模型正確性的「必要條件」。但是,不可否認的是,這些「必要條件」最終會成為我們「數據分析」的局限,讓我們對「不滿足條件的數據集」束手無策。
  • 中了數據可視化的毒:BBC如何使用R語言繪製數據圖表?
    BBC(英國廣播公司)近日分享了他們的視覺與數據新聞團隊使用 R 語言繪製新聞圖表的經驗。為了簡化流程,他們創建了一個 bbplot 軟體包和一份參考手冊,並也已將它們開源。過去一年裡,BBC 視覺與數據新聞(Visual and Data Journalism)團隊的數據記者已經從根本上改變了他們繪製發表在 BBC 新聞網站上的數據圖表的方式。
  • R語言數據分析利器——data.table包
    簡介R語言data.table包是自帶包data.frame的升級版
  • 全國高校R語言大數據分析與機器學習核心技術高級研修班
    二、培訓目標(1)讓學員儘快掌握R語言的基本用法,掌握如何利用R豐富的網上資料和幫助系統,學會基本的編程方法。(2)結合統計分析的思想和實際案例,深入淺出地講解如何使用R語言進行實際數據分析,讓學員不僅掌握R語言的使用,同時學會統計分析的思想。(3)學完本課程後,使學員可以熟練的運用R語言進行實際的數據挖掘分析工作。