今天推薦一本英文版好書《R語言使用者的Python教程——數據科學方法(Pythonfor R Users A Data Science Approach)》,該書售價69.95美元,某出版社計劃引進該書,其中文版售價將在100元以內,將只有外文版1/8的價格,受出版社委託做一個市場調查,請各位網友踴躍投票,非常感謝!
《R語言使用者的Python教程——數據科學方法》
出版日期: Dec 2017
購買理由:
本書為學生和從業人員可以輕鬆從R語言切換到Python,並從Python切換到R語言提供全面的參考。
作者簡歷:
Ajay Ohri是分析性初創企業Decisionstats.com的創始人,曾在諾克斯維爾田納西大學攻讀研究生課程,並完成了印度管理學院的碩士學位。他還擁有德裡工程學院的機械工程學位。當前的研究領域包括傳播開源碼分析,利用機制設計分析社交媒體操作,簡化雲計算接口,調查氣候變化和知識流。目前,他為多家初創公司提供境外分析、分析服務和分析教育方面的建議,並利用社交媒體來提升分析產品的熱度。著作包括《商業分析R語言》(R for Business Analytics)(施普林格出版社,2012)和《雲計算R語言》(R for Cloud Computing)(施普林格出版社,2014)。
銷售亮點:
•提供R語言到Python的命令轉換,反之亦然
•包含兩種程式語言的示例和應用
•包含所附的幻燈片網站,可用於教授和學習其中任何一種軟體
•有益於懂一種語言並想學習另一種語言的從業者和學生
主題/技術簡介:
R語言是一種用於統計計算和圖形的開源程式語言和軟體環境。統計學家和數據挖掘者廣泛應用R語言進行統計軟體開發和數據分析。
Python是一種使用廣泛的強調代碼可讀性的通用高級程式語言。該語言的設計旨在實現大小規模的清晰程序。Python支持多種編程範式,包括對象驅動、命令式和函數式編程或過程式樣式。它具有動態類型系統和自動內存管理特點,並擁有大型綜合標準庫。
市場概述
一級市場:計算機科學家和數據科學家等從業者,他們了解R語言並想學習Python,或者熟悉Python並想學習R語言。
二級市場:計算機科學或統計學專業的學生。
圖書簡介:
本書為熟悉R語言的學生和從業者輕鬆學習如何使用Python進行編程,以及熟悉Python的學生和從業者輕鬆學習如何使用R語言提供參考,即使他們是第二語言的初學者。本書是第一本此種類型的書籍。它還為不熟悉的讀者分別提供了各語言的詳細介紹和概述。雖然R語言具有更好的統計和圖形工具,但是Python具有良好的機器學習工具,事實證明,Python是更有用的大數據分析軟體。本書的獨特之處在於,它還為數學、可視化和機器學習技術提供了R語言和Python之間的命令轉換。目標讀者是試圖學習R語言和Python或二者之一的統計學從業者和數據科學家,以及熟悉其中一種語言的學生。
圖書目錄
Preface xi
Acknowledgments xv
Scope xvii
Purpose xix
Plan xxi
The Zen of Python xxiii
1 Introduction to Python Rand Data Science 1
1.1 What Is Python? 1
1.2 What Is R? 2
1.3 What Is Data Science? 3
1.4 The Future for Data Scientists 3
1.5 What Is Big Data? 4
1.6 Business Analytics Versus Data Science6
1.6.1 Defining Analytics 6
1.7 Tools Available to Data Scientists7
1.7.1 Guide to Data Science CheatSheets 7
1.8 Packages in Python for DataScience 8
1.9 Similarities and Differencesbetween Python and R 9
1.9.1 Why Should R Users Learn More about Python?10
1.9.2 Why Should Python Users Learn Moreabout R? 10
1.10 Tutorials 10
1.11 Using R and Python Together 11
1.11.1 Using R Code for Regressionand Passing to Python 11
1.12 Other Software and Python 15
1.13 Using SAS with Jupyter 15
1.14 How Can You Use Pythonand R for Big Data Analytics? 15
1.15 What Is Cloud Computing? 16
1.16 How Can You Use Python and Ron the Cloud? 17
1.17 Commercial Enterpriseand Alternative Versions of Python and R 18
1.17.1 Commonly Used Linux Commandsfor Data Scientists 20
1.17.2 Learning Git 20
1.18 Data?]Driven Decision Making:A Note 38
1.18.1 Strategy Frameworks in BusinessManagement: A Refresher for Non?]MBAs and MBAs Who Haveto Make Data?]Driven Decisions 39
1.18.2 Additional Frameworks for BusinessAnalysis 45
Bibliography 49
2 Data Input 51
2.1 Data Input in Pandas 51
2.2 Web Scraping Data Input 54
2.2.1 Request Data from URL 55
2.3 Data Input from RDBMS 60
2.3.1 Windows Tutorial 62
2.3.2 137 Mb Installer 63
2.3.3 Configuring ODBC 65
3 Data Inspection and Data Quality77
3.1 Data Formats 77
3.1.1 Converting Strings to Date Timein Python 78
3.1.2 Converting Data Frame to NumPyArrays and Back in Python 81
3.2 Data Quality 84
3.3 Data Inspection 88
3.3.1 Missing Value Treatment 91
3.4 Data Selection 92
3.4.1 Random Selection of Data 94
3.4.2 Conditional Selection 95
3.5 Data Inspection in R 98
3.5.1 Diamond Dataset from ggplot2Package in R 106
3.5.2 Modifying Date Formatsand Strings in R 113
3.5.3 Managing Strings in R 116
Bibliography 118
4 Exploratory Data Analysis 119
4.1 Group by Analysis 119
4.2 Numerical Data 119
4.3 Categorical Data 121
5 Statistical Modeling 139
5.1 Concepts in Regression 139
5.1.1 OLS 140
5.1.2 R?]Squared 141
5.1.3 p?]Value 141
5.1.4 Outliers 141
5.1.5 Multicollinearityand Heteroscedascity 142
5.2 Correlation Is Not Causation 142
5.2.1 A Note on Statisticsfor Data Scientists 143
5.2.2 Measures of Central Tendency 145
5.2.3 Measures of Dispersion 145
5.2.4 Probability Distribution 147
5.3 Linear Regression in Rand Python 154
5.4 Logistic Regression in Rand Python 187
5.4.1 Additional Concepts 194
5.4.2 ROC Curve and AUC 194
5.4.3 Bias Versus Variance 194
References 196
6 Data Visualization 197
6.1 Concepts on Data Visualization 197
6.1.1 History of Data Visualization197
6.1.2 Anscombe Case Study 200
6.1.3 Importing Packages 201
6.1.4 Taking Means and StandardDeviations 202
6.1.5 Conclusion 204
6.1.6 Data Visualization 204
6.1.7 Conclusion 207
6.2 Tufte's Work on Data Visualization207
6.3 Stephen Few on Dashboard Design208
6.3.1 Maeda on Design 209
6.4 Basic Plots 210
6.5 Advanced Plots 219
6.6 Interactive Plots 223
6.7 Spatial Analytics 223
6.8 Data Visualization in R 224
6.8.1 A Note of Sharing Your R Code byRStudio IDE 232
6.8.2 A Note on Sharing Your JupyterNotebook 233
Bibliography 235
6.8.3 Special Note: A Complete Wingto Wing Tutorial on Python 236
7 Machine Learning Made Easier 251
7.1 Deleting Columns We Dont Needin the Final Decision Tree Model 259
7.1.1 Decision Trees in R 276
7.2 Time Series 294
7.3 Association Analysis 301
7.4 Cleaning Corpus and Making Bagof Words 316
7.4.1 Cluster Analysis 319
7.4.2 Cluster Analysis in Python 319
8 Conclusion and Summary 331
Index333
【一起學統計工具小tips】本公眾號有海量的統計學習素材,輸入統計專業術語或問題短語(如方差分析、標準差、ROC曲線、偏倚等),可智能檢索各種統計文章。如果檢索結果不滿意,可變換檢索的方式,如加長或縮短檢索短語的長度等。重要乾貨和文章,請訪問訂閱號底部菜單。獲取各種學習資料下載,請回復如下關鍵詞:method|open|pair|ROC|R語言|JMP|悟空|SUMS|數據|問卷星|百度雲|號內搜 |視頻|電子書|epidata|epiinfo| minitab |SPSS|pair|MedCalc|Prism| 臨床試驗 |gpower|OpenEpi|SPSS24|minitab17| empower|文獻|SPSS12|minitab14| 統計諮詢 |統計方法。如需要免費諮詢,請回復「統計諮詢」並嚴格按照提示的方法諮詢。
本公眾號長期從事各類統計軟體應用研究及統計分析工作,主編或參編SPSS、MINITAB、STATISTICA多個統計軟體教材共8本。
代表作
1、《MedCalc常用統計分析教程》(暫名,待出版)
2、《SPSS常用統計分析教程(SPSS 22.0中英文版)(第4版)》
3、《Minitab 統計分析方法及應用(第2 版)》
4、《PASW/SPSS Statistics中文版統計分析教程(第3版)》