《R語言使用者的Python教程——數據科學方法》

2021-02-19 一起學統計工具

今天推薦一本英文版好書《R語言使用者的Python教程——數據科學方法(Pythonfor R Users A Data Science Approach)》,該書售價69.95美元,某出版社計劃引進該書,其中文版售價將在100元以內,將只有外文版1/8的價格,受出版社委託做一個市場調查,請各位網友踴躍投票,非常感謝!

《R語言使用者的Python教程——數據科學方法》

出版日期: Dec 2017

  

購買理由:

本書為學生和從業人員可以輕鬆從R語言切換到Python,並從Python切換到R語言提供全面的參考。

 

作者簡歷:

Ajay Ohri是分析性初創企業Decisionstats.com的創始人,曾在諾克斯維爾田納西大學攻讀研究生課程,並完成了印度管理學院的碩士學位。他還擁有德裡工程學院的機械工程學位。當前的研究領域包括傳播開源碼分析,利用機制設計分析社交媒體操作,簡化雲計算接口,調查氣候變化和知識流。目前,他為多家初創公司提供境外分析、分析服務和分析教育方面的建議,並利用社交媒體來提升分析產品的熱度。著作包括《商業分析R語言》(R for Business Analytics)(施普林格出版社,2012)和《雲計算R語言》(R for Cloud Computing)(施普林格出版社,2014)。

 

銷售亮點:

•提供R語言到Python的命令轉換,反之亦然

•包含兩種程式語言的示例和應用

•包含所附的幻燈片網站,可用於教授和學習其中任何一種軟體

•有益於懂一種語言並想學習另一種語言的從業者和學生

 

主題/技術簡介:

R語言是一種用於統計計算和圖形的開源程式語言和軟體環境。統計學家和數據挖掘者廣泛應用R語言進行統計軟體開發和數據分析。

 

Python是一種使用廣泛的強調代碼可讀性的通用高級程式語言。該語言的設計旨在實現大小規模的清晰程序。Python支持多種編程範式,包括對象驅動、命令式和函數式編程或過程式樣式。它具有動態類型系統和自動內存管理特點,並擁有大型綜合標準庫。

 

市場概述

一級市場:計算機科學家和數據科學家等從業者,他們了解R語言並想學習Python,或者熟悉Python並想學習R語言。

二級市場:計算機科學或統計學專業的學生。

 

圖書簡介:

本書為熟悉R語言的學生和從業者輕鬆學習如何使用Python進行編程,以及熟悉Python的學生和從業者輕鬆學習如何使用R語言提供參考,即使他們是第二語言的初學者。本書是第一本此種類型的書籍。它還為不熟悉的讀者分別提供了各語言的詳細介紹和概述。雖然R語言具有更好的統計和圖形工具,但是Python具有良好的機器學習工具,事實證明,Python是更有用的大數據分析軟體。本書的獨特之處在於,它還為數學、可視化和機器學習技術提供了R語言和Python之間的命令轉換。目標讀者是試圖學習R語言和Python或二者之一的統計學從業者和數據科學家,以及熟悉其中一種語言的學生。

圖書目錄

Preface xi

Acknowledgments xv

Scope xvii

Purpose xix

Plan xxi

The Zen of Python xxiii

1 Introduction to Python Rand Data Science 1

1.1 What Is Python? 1

1.2 What Is R? 2

1.3 What Is Data Science? 3

1.4 The Future for Data Scientists 3

1.5 What Is Big Data? 4

1.6 Business Analytics Versus Data Science6

1.6.1 Defining Analytics 6

1.7 Tools Available to Data Scientists7

1.7.1 Guide to Data Science CheatSheets 7

1.8 Packages in Python for DataScience 8

1.9 Similarities and Differencesbetween Python and R 9

1.9.1 Why Should R Users Learn More about Python?10

1.9.2 Why Should Python Users Learn Moreabout R? 10

1.10 Tutorials 10

1.11 Using R and Python Together 11

1.11.1 Using R Code for Regressionand Passing to Python 11

1.12 Other Software and Python 15

1.13 Using SAS with Jupyter 15

1.14 How Can You Use Pythonand R for Big Data Analytics? 15

1.15 What Is Cloud Computing? 16

1.16 How Can You Use Python and Ron the Cloud? 17

1.17 Commercial Enterpriseand Alternative Versions of Python and R 18

1.17.1 Commonly Used Linux Commandsfor Data Scientists 20

1.17.2 Learning Git 20

1.18 Data?]Driven Decision Making:A Note 38

1.18.1 Strategy Frameworks in BusinessManagement: A Refresher for Non?]MBAs and MBAs Who Haveto Make Data?]Driven Decisions 39

1.18.2 Additional Frameworks for BusinessAnalysis 45

Bibliography 49

2 Data Input 51

2.1 Data Input in Pandas 51

2.2 Web Scraping Data Input 54

2.2.1 Request Data from URL 55

2.3 Data Input from RDBMS 60

2.3.1 Windows Tutorial 62

2.3.2 137 Mb Installer 63

2.3.3 Configuring ODBC 65

3 Data Inspection and Data Quality77

3.1 Data Formats 77

3.1.1 Converting Strings to Date Timein Python 78

3.1.2 Converting Data Frame to NumPyArrays and Back in Python 81

3.2 Data Quality 84

3.3 Data Inspection 88

3.3.1 Missing Value Treatment 91

3.4 Data Selection 92

3.4.1 Random Selection of Data 94

3.4.2 Conditional Selection 95

3.5 Data Inspection in R 98

3.5.1 Diamond Dataset from ggplot2Package in R 106

3.5.2 Modifying Date Formatsand Strings in R 113

3.5.3 Managing Strings in R 116

Bibliography 118

4 Exploratory Data Analysis 119

4.1 Group by Analysis 119

4.2 Numerical Data 119

4.3 Categorical Data 121

5 Statistical Modeling 139

5.1 Concepts in Regression 139

5.1.1 OLS 140

5.1.2 R?]Squared 141

5.1.3 p?]Value 141

5.1.4 Outliers 141

5.1.5 Multicollinearityand Heteroscedascity 142

5.2 Correlation Is Not Causation 142

5.2.1 A Note on Statisticsfor Data Scientists 143

5.2.2 Measures of Central Tendency 145

5.2.3 Measures of Dispersion 145

5.2.4 Probability Distribution 147

5.3 Linear Regression in Rand Python 154

5.4 Logistic Regression in Rand Python 187

5.4.1 Additional Concepts 194

5.4.2 ROC Curve and AUC 194

5.4.3 Bias Versus Variance 194

References 196

6 Data Visualization 197

6.1 Concepts on Data Visualization 197

6.1.1 History of Data Visualization197

6.1.2 Anscombe Case Study 200

6.1.3 Importing Packages 201

6.1.4 Taking Means and StandardDeviations 202

6.1.5 Conclusion 204

6.1.6 Data Visualization 204

6.1.7 Conclusion 207

6.2 Tufte's Work on Data Visualization207

6.3 Stephen Few on Dashboard Design208

6.3.1 Maeda on Design 209

6.4 Basic Plots 210

6.5 Advanced Plots 219

6.6 Interactive Plots 223

6.7 Spatial Analytics 223

6.8 Data Visualization in R 224

6.8.1 A Note of Sharing Your R Code byRStudio IDE 232

6.8.2 A Note on Sharing Your JupyterNotebook 233

Bibliography 235

6.8.3 Special Note: A Complete Wingto Wing Tutorial on Python 236

7 Machine Learning Made Easier 251

7.1 Deleting Columns We Dont Needin the Final Decision Tree Model 259

7.1.1 Decision Trees in R 276

7.2 Time Series 294

7.3 Association Analysis 301

7.4 Cleaning Corpus and Making Bagof Words 316

7.4.1 Cluster Analysis 319

7.4.2 Cluster Analysis in Python 319

8 Conclusion and Summary 331

Index333

【一起學統計工具小tips】本公眾號有海量的統計學習素材,輸入統計專業術語或問題短語(如方差分析、標準差、ROC曲線、偏倚等),可智能檢索各種統計文章。如果檢索結果不滿意,可變換檢索的方式,如加長或縮短檢索短語的長度等。重要乾貨和文章,請訪問訂閱號底部菜單。獲取各種學習資料下載,請回復如下關鍵詞:method|open|pair|ROC|R語言|JMP|悟空|SUMS|數據|問卷星|百度雲|號內搜 |視頻|電子書|epidata|epiinfo| minitab |SPSS|pair|MedCalc|Prism| 臨床試驗 |gpower|OpenEpi|SPSS24|minitab17| empower|文獻|SPSS12|minitab14| 統計諮詢 |統計方法。如需要免費諮詢,請回復「統計諮詢」並嚴格按照提示的方法諮詢。

本公眾號長期從事各類統計軟體應用研究及統計分析工作,主編或參編SPSS、MINITAB、STATISTICA多個統計軟體教材共8本。

代表作

1、《MedCalc常用統計分析教程》(暫名,待出版)

2、《SPSS常用統計分析教程(SPSS 22.0中英文版)(第4版)》

3、《Minitab 統計分析方法及應用(第2 版)》

4、《PASW/SPSS Statistics中文版統計分析教程(第3版)》

相關焦點

  • 深度| R vs Python:R是現在最好的數據科學語言嗎?
    Sharp Sight Labs 近日在 r-bloggers 上發表了一篇文章,論述了為什麼當今的數據科學工作者應該學習 R 語言的原因。為了給大家提供一個明晰的對比,我們在後面補充了 2016 年初的一篇文章:R vs.Python。
  • 數據科學中的Python與R
    具體涉及到獲取一些什麼的數據、對獲取的數據怎麼處理、用什麼模型對數據進行建模、模型如何編程實現、如何評估、模型的領域解釋是什麼等。    從思想方法上,數據科學研究繼承了統計學的一些思想,例如在大量數據上做統計性的搜索、比較、聚類或分類分析歸納,其結論是一種相關性,而非一定是一種因果關係。
  • 數據科學探索(python 與 R 的比較)
    這一期主要應用python和R 這2種工具對某真實信貸數據進行分析,通過數據的讀取、清洗、探索、模型構建等,比較2種方法在機器學習數據科學上的實現
  • 帶你和Python與R一起玩轉數據科學: 探索性數據分析(附代碼)
    本系列將介紹如何在現在工作中用兩種最流行的開源平臺玩轉數據科學。先來看一看數據分析過程中的關鍵步驟 – 探索性數據分析。內容簡介本系列將介紹如何在現在工作中用兩種最流行的開源平臺玩轉數據科學。因此你可以接著數據框相關教程繼續這個章節,或者重新學習數據準備教程 (https://www.codementor.io/python/tutorial/python-vs-r-for-data-science-data-frames-i)。我們要回答的問題在任何的數據分析過程中,總有一個或多個問題是我們要回答的。
  • rPython:在R語言中調用python命令
    2本文要介紹的rPython包則實現了相反的功能,即在R語言中調用Python命令。通過發揮rPython的作用,可以很好的將Python與R語言結合在一起,兩者相輔相成,使數據分析工作更加得心應手。目錄      rPython簡介      rPython安裝介紹      rPython使用介紹rPython簡介rPython包用於在R語言環境中調用Python命令。
  • 數據科學大Battle,你站Python還是R
    在數據科學工作中,你可能也經常遇到這個選擇困難問題。本文作者Brian Ray基於數十年的Python和R在數據科學領域的使用檢驗,分享了自己的看法,希望能夠幫大家做出更好的選擇。希望這篇文章能幫助那些在數據科學中糾結於選擇Python還是R的小夥伴們。
  • 教程|Python語言做數據分析教程
    作為一名數據科學家,我正在尋找其他有用的工具!幸運的是,我很快就決定了——Python是我的開胃菜。我一直有編寫代碼的傾向。這是做我真正熱愛的事情的時候。代碼。事實證明,編寫代碼實際上非常簡單!我在一周內學會了Python的基礎知識。從那時起,我不僅深入地探索了這門語言,而且幫助了很多人學習這門語言。Python是一種通用語言。
  • [原]深入對比數據科學工具箱:Python和R 非結構化數據的結構化
    對於這些非結構化數據,最常見的數據結構就是JSON,而對應的資料庫就是MongoDB。利用MongoDB這樣的NoSQL資料庫,我們可以把異構的數據源整合到若干個collection中,通過key-value的形式對數據進行增刪改查。雖然MongoDB在數據聚合上有天然的優勢,但是在事務處理(OLTP)與數據分析(OLAP)上的表現卻不盡人意。
  • R數據科學--初見
    你想學點生信,搜了「初學者教程」,滿眼儘是高大上,沒有一句能看懂。   終於你跨越茫茫宇宙,來到生信星球,發現了初學者的新大陸前些天豆豆花花各入手一本學R必備的神書《R數據科學》,花花完結了零基礎入門R語言系列和ggplot系列。現在開始跟著這本書的思路走,仔細端詳R語言。如果你還不了解這本書,👇看這裡。
  • IT工程師數據科學方向,該選擇Python語言還是R語言?
    伴隨著你的網頁點擊,亞馬遜推薦你感興趣的產品,LinkedIn自動給你推送匹配工作......這些聰明、精準而實時的決策背後,都是數據科學。數據科學大勢所趨,想要從事相關工作,應該選擇Pyhon還是R程式語言?
  • 教程|R語言學習與實踐教程
    我創建了R語言微信群,定位:R語言學習與實踐,要進群的朋友,添加我微信:luqin360。本文的外部連結,請點擊閱讀原文進入到數據人網後,就可以訪問和查看了。在這個內核中,我收集了我所寫的所有R語言教程,按級別劃分。初學者:在這個級別,我假設你沒有編程背景或剛剛開始使用R.
  • python數據科學系列:numpy入門詳細教程
    python數據科學基礎庫主要是三劍客:numpy,pandas以及matplotlib,每個庫都集成了大量的方法接口,配合使用功能強大。平時雖然一直在用,也看過很多教程,但紙上得來終覺淺,還是需要自己系統梳理總結才能印象深刻。本篇先從numpy開始,對numpy常用的方法進行思維導圖式梳理,多數方法僅拉單列表,部分接口輔以解釋說明及代碼案例。最後分享了個人關於axis和廣播機制的理解。本文知識要點一級菜單
  • 為初學者提供的63個免費的數據科學學習資源
    連結:http://www.pythonchallenge.com/如何學習數據科學的Python,自學方式:詳細地介紹了一些資源。連結:http://r4ds.had.co.nz/introduction.htmlSwirl (交互式R包):非常酷的R包,你可以直接從RStudio(用於運行R語言的最常見的接口)中安裝和學習語言。連結:http://swirlstats.com/用R語言介紹數據科學(視頻系列):幫助那些通過觀察別人而學得更好的人進階。
  • 推薦: 一本「高顏值」的Python語言數據可視化圖書
    現在python語言越來越流行,尤其是在機器視覺、機器學習與深度學習等領域。但是數據可視化一直是其短板,特別相比較R語言而言。R語言以ggplot2包及其拓展包人性化的繪圖語法大受用戶的喜愛,特別是生物信息與醫學研究者。
  • 數據領域最強程式語言Python和R要合作了!
    AI 前線導讀: 是的,你沒有看錯,數據科學領域從業者最離不開的兩大程式語言,當紅炸子雞 Python 和「過氣網紅」R 真的要展開合作了。近日,URSA 實驗室宣布,R 和 Python 正攜手合作,旨在讓使用不同程式語言的數據科學家能夠更輕鬆地協作,避免不同語言開發人員的過多重複工作,這或許會成為今年最雄心勃勃的交叉事件。
  • python教程
    分布式爬蟲打造搜尋引擎4002Python高效編程技巧Python工程師主要從事爬蟲開發、Web開發及數據分析工作,隨著人工智慧的崛起,Python作為最好的工具語言,已經被廣泛的大量使用。作為一門可「連接」其他語言的膠水語言,他是工程師的最愛的效率工具,因其龐大的類庫,讓你的項目能夠快速的完成試錯,隨著大數據和AI時代的開啟,Python 成為數據專家和AI工程師必備的技能之一。課程概覽本課程主要向大家介紹了Python工程師的職業背景、行業前景,以及Python工程師在團隊項目中的定位及應具備的技能,並從各個職業的角度,深入淺出的分析從事Python開發的優勢和劣勢。
  • 做數據分析,Python和R究竟哪個更強?
    幾十年來,研究人員和開發人員一直在爭論,對於進行數據科學和數據分析,Python和R語言哪個才是更好的選擇?近年來,數據科學在生物技術、金融和社交媒體等多個行業迅速發展。數據科學的重要性不僅得到了業內人士的認可,而且還得到了許多學術機構的認可,目前越來越多的學校都開始設立數據科學學位。
  • 【知識】使用Python來學習數據科學的完整教程
    對於數據科學工作中各個環節都有合適的解決方案。由於缺少Python數據科學資源,我決定創建本教程,旨在幫助大家快速入門。在本教程中,我們將討論如何使用Python來進行數據分析,在實踐中總結方法。Python數據分析基礎為什麼要學習使用Python來進行數據分析?
  • 用R也可以跑Python了
    如果你主要從事數據分析、統計建模和可視化,R大概是你的不二之選。但如果你還想來搞點深度學習,整個自然語言處理,那你可還真得用Python。如果你處於交叉領域,很可能就需要兩種語言切換。最近的KDnuggets Analytics的軟體調查中,Python和R位居數據科學和機器學習軟體的前兩名。如果你真的想提高你在數據科學領域的能力,這兩種語言你確實都應該學習。
  • 學python?不是一個python入門教程就行,學之前你必須知道這些
    不管是阿拉伯數據還是說字符串,都是數據的一種。經常試試需要講某些指標量化成數據據。機器學習:這也是python最有魅力的地方,善於做圖形分析,算法建模等等。所以python在人工智慧,機器學習的領域有著讀到的優勢。