新書速遞 | Python數據科學實踐

2021-02-20 狗熊會

能夠拿起這本書的讀者至少應該聽說了數據科學的名字,知道Python是計算機語言。並且更深入的應該知道數據科學深刻的改變著科學研究的範式,商業社會的規則等等。那些講述數據科學之偉大,Python語言之優美,兩者結合之於實踐的文章已經有很多,這裡就不再贅述。我以自己的經歷來講講這方面的感受。

初識Python。2011年,我有幸能在加州大學伯克利分校和一群有趣且瘋狂的人度過了美好的一年,當然還有我當時的女朋友Kino(如今的妻子)。其中十分有趣的一位朋友就是學神級人物,Siqi Wu。Siqi雖為統計系博士,和我在課堂上經常一個討論組,卻時常鼓勵我一定要把計算機系的課程都修完。雖然我懵懵懂懂,但是學神發話,我也和他一起走上了不歸路。學神瘋狂到從計算機系的本科最核心的課開始學習,竟然真的把本科與研究生的計算機系核心課程都拿到了學分,讓我佩服不已。他介紹我一定要學習的第一門課程CS61a(https://cs61a.org/),這個課等價於國內本科生計算機系的算法基礎。我進入教室就震撼了,500多人的大教室坐滿了人,居然講的是Python。對,我懵了。這是因為我讀本科在國內的時候講這些都是用的C,難以理解為什麼用Python。就這樣我覺得大致內容我都知道,所以也沒有堅持學習這門課,與Python第一次擦肩而過。

再識Python。2012年,我繼續在伯克利的校園晃蕩。這時候接觸的項目中需要處理大量的文本。系裡面就有人建議我不要用R處理文本數據,應該選擇更加靈活的Python。我硬著頭皮去選了一門天文系開設的Python課程。這門課十分神奇,每次講課的人都不一樣,不僅講授Python的基礎內容,同時每個人講自己參與開發的Python模塊。後來我才發現,這些人中有大量的大家現在每天都在使用的各種Python的模塊的主要貢獻者。早知道當時就應該挨個要籤名了。雖然課堅持下來了,但是後面其實Python用的不多,漸漸的印象開始模糊。

三識Python。2014年起,所有人周圍都被大數據,數據科學等詞所包圍。在業界,眾多企業也開始招聘數據科學家,數據分析師等等各種職位,Python成為要求的基本技能。這就催生了非常大的教學方面的需求,即利用Python去講授數據科學。之後幾年,我也在西安交通大學管理學院給研究生,MBA與MEM等學員講授與數據科學相關的課程,這當然就繞不過Python的使用。所以逼迫自己又重新拾起來。直到最近人工智慧的熱潮到來,深度學習的幾大架構TensorFlow,PyTorch,MXNet等都給出了Python的靈活使用接口。這一下子使得Python具有了自己獨特的在這個時代的優勢。

現在回頭看起來這些經歷,其實也是很有意思。利用Python去講授算法基礎,其實省去了很多C中的繁瑣內容,能夠讓學生更容易理解算法基礎的核心知識,而不是拘泥於語言的限制。更深層次的Python的課程其實是在講授Python在各個領域的快速發展,不同的模塊的搭建能夠讓Python迅速成為各個領域的開發利器。最後的教學經歷讓我感受到Python本身作為數據科學的工具,各種與數據科學相關的模塊飛速的發展,已經到了學不過來的程度。所以,講述Python語言講不完,講述Python的數據科學相關的模塊也是講授不完的,那麼什麼是核心而不變的?這就是本書要講解的。

本書並不是一本介紹Python的大而全的手冊(我當然能力有限也寫不出來)。本書是利用Python語言去講述數據科學中最基本的核心理念是如何實現的一本手冊。狗熊會一直倡導的數據價值理念,應該從理解業務問題出發,獲取數據,清洗數據,探索性數據分析,構建變量體系,建立模型,模型評估等都在本書中利用Python的不同模塊給予了講解。如果想要深刻理解本書中的所有內容,可以首先去學習狗熊會的《數據思維:從數據分析到商業價值》這本書,理解如何真的利用數據去解決業務問題。其次,可以去學習狗熊會的《數據思維實踐》這本書,理解實踐數據思維的基本過程。最後,應該真的實踐的時候到了,Python將會成為你數據科學實踐的有力武器。

本書能夠完成應該感謝很多人。首先,應該感謝北京大學光華管理學院的王漢生教授,即熊大。如果沒有熊大的鼓(壓)勵(榨),我是沒有勇氣能夠完成這本書的。還記得那是一個風和日麗,陽光明媚的下午,我接到了熊大的電話,然後他告訴我,就這麼定了,你負責寫一下Python與數據科學的書。我欣(懵)然接受!其次,應該感謝曾智億,本書的第二作者。曾智億是狗熊會人才計劃第一期的畢業學員。他思想活躍,幹勁十足,並且熱愛Python。本書的大部分內容的初始構想雖然是我思考的,但是執行力最強的智億同學,在非常多的章節都執筆突飛猛進。從某種意義上講他對本書的貢獻多過我。當然還要感謝李春豔同學,程茜老師也都參與了本書完成的大量工作。最後,應該感謝Kino與Moon(是誰你們猜)陪伴我在西雅圖完成了這本書的初稿,沒有和你們在一起的歡聲笑語,我也無法支持在這裡無聊的日子。這裡還應該感謝我和Kino的雙方父母,大力支(包)持(含)著看似長大了,還任性的我們。特別地,應該感謝華盛頓大學西雅圖分校,工業與系統工程系的黃帥教授。他給與我在華盛頓大學工作的機會,促使我更好地思考並完成這本書。感謝狗熊會所有小夥伴們的鼓(互)勵(懟)。感謝統計之都(COS)所有小夥伴們為數據科學付出的努力,特別是雲伯伯的含辛茹苦。感謝在MD Group互幫(掐)互助(吹)群中的科研知己,妖哥,波神,韓哥與屁孩。

目前,Python數據科學實踐在京東和噹噹有售,歡迎大家購買。

京東

噹噹

此外,政委在狗熊會開設了Python數據分析入門的在線實習項目,趕緊點擊閱讀原文來參與吧!

相關焦點

  • Python數據科學實踐 | 資料庫1
    大家好,基於Python的數據科學實踐課程又到來了,大家盡情學習吧。本期內容主要由智億同學與政委聯合推出。資料庫永遠是數據管理上最值得使用的工具。而把所收集的大量數據放入資料庫之後再處理是數據科學實踐項目中必不可少的一步。
  • Python數據科學實踐 | 初步搭建數據科學工作環境
    ⽆⼈否認,在⽇新⽉異的現代社會,「⼤數據」時代已經悄然降臨。由於其在多個⾏業和學科領域中的⾼度滲透,並且在不同專業領域的數據研究中表現出⾼度融合的趨勢,⼤數據已經成為包含計算機科學和統計學在內的多個學科領域的新研究⽅向。同時,由於在⼤數據⽅⾯的研究尚且存在諸多誤區,⼈們迫切地需要對「⼤數據」時代的新現象、 理論、⽅法、技術、⼯具和實踐進⾏系統的研究。因⽽,「數據科學」應運⽽⽣。
  • 新書速遞:《現代漢語通論》(第三版)
    新書速遞:《現代漢語通論》(第三版) 2016年11月03日 09:52 來源:中國社會科學網 作者:語言學頻道綜合 字號 內容摘要:新書速遞:《現代漢語通論》(第三版)。
  • 【下載】Scikit-learn作者新書《Python機器學習導論》, 教程+代碼手把手帶你實踐機器學習算法
    Müller同時也是著名機器學習Python包scikit-learn的主要貢獻者 Andreas Muller 和 Reonomy 公司數據科學家 Sarah Guido 的新書《Python機器學習導論》(Introduction to machine learning with Python)從實戰角度出髮帶你用Python快速上手機器學習方法。
  • Python數據科學實踐 | 統計建模1
    大家好,基於Python的數據科學實踐課程又到來了,大家盡情學習吧。本期內容主要由程茜與政委聯合推出。在實際數據科學項目中,繼數據清洗與整理、描述分析之後,要進行深入的分析,建模是必不可少的非常重要的環節。Python 中統計建模分析的核心模塊是Statsmodels。
  • Python數據科學實踐 | 文本分析2
    大家好,基於Python的數據科學實踐課程又到來了,大家盡情學習吧。本期內容主要由智億同學與政委聯合推出。通過上周的推文(連結),我們已經掌握了文本分析的最基本的思路。這次推文主要學習如何利用Python實踐這些思路。
  • 數據科學探索(python 與 R 的比較)
    這一期主要應用python和R 這2種工具對某真實信貸數據進行分析,通過數據的讀取、清洗、探索、模型構建等,比較2種方法在機器學習數據科學上的實現
  • 機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用...
    講授者同時在多家企業任職首席或顧問,有豐富的工業經驗,能夠保證聽者儘快了解數據挖掘、機器學習、深度學習的本質和實踐應用。 尹老師,數據科學家,浙江大學物理學博士,浙江某高校數據科學專業負責人,兼任某網絡科技上市公司大數據總監,受聘擔任多家大數據教學機構主講教師,開發多套python高級編程、機器學習、網絡爬蟲與文本挖掘系列課程,10+年python軟體開發數據產品經驗,熟悉R Java等多種程式語言,具有豐富的python統計建模、數據挖掘、大數據技術教學經驗,先後為中國交通銀行,平安保險公司等數十家知名機構主講
  • 新書速遞:野火集
    (責編:趙雪晨) (原標題:新書速遞:野火集)
  • Python數據科學實踐 | 爬蟲1
    大家好,基於Python的數據科學實踐課程又到來了,大家盡情學習吧。本期內容主要由智億同學與政委聯合推出。前面幾章大家學習了如何利用Python處理與清洗數據,如何探索性數據分析,以及如何利用統計與機器學習方法進行建模。但是,很明顯我們忽視了一個最原始的問題:數據從何而來。沒有數據,這就好比,你學了十八般武藝,可是沒有讓你施展的地方一樣難受。
  • 手把手 | 數據科學速成課:給Python新手的實操指南
    數據科學團隊在持續穩定的發展壯大,這也意味著經常會有新的數據科學家和實習生加入團隊。只有對那些較寬鬆的統計模型我們有時會將Python和R結合使用,其中Python執行大量的數據處理工作和R進行統計建模。我的理念是通過實踐來學習,因此為了幫助新數據科學家使用Python進行數據科學研究,我們創建了Python數據科學(速成)課(Python Data Science (Crash) Course)。
  • 數據科學中的Python與R
    對於這種現象,很多人可能和我們一樣,都對數據科學心存懷疑,到底什麼是數據科學?它是一門新生事物,還是新瓶子裡裝了統計學的舊酒?5)數據挖掘與分析    這類行業主要領域為統計學、計算機科學、人工智慧、可視化、信息經濟學、網絡科學、哲學社會科學、決策科學等,主要工作為對大數據進行價值挖掘,包括對數據統計結果的甄別與分析,對數據分析結果的評估與展示,對用戶數據需求的判斷與反饋。6)數據科學    數據科學是不同團隊之間的協作行為,是數學+計算機科學+領域知識的人才協作。
  • python數據分析專題 (7):python數據分析模塊
    也就是這些python的擴展包讓python可以做數據分析,主要包括numpy,scipy,pandas,matplotlib,scikit-learn等等諸多強大的模塊,在結合上ipython交互工具 ,以及python強大的爬蟲數據獲取能力,字符串處理能力,讓python成為完整的數據分析工具。
  • 使用Visual Studio 和 python 設置自己的數據科學工作區
    雷鋒網 AI 開發者按,新手在剛剛開始數據科學的學習時會遇到很多問題,而往往最簡單的問題也最容易犯錯。其中,管理 python 環境可能是一件讓人頭疼的事情。,搭建一個好的工作空間將讓你避免很多不必要的麻煩。
  • Python數據科學實踐 | Conda的使用
    大家好,基於Python的數據科學實踐課程第二期又到來了,大家盡情學習吧。本期內容主要由春豔同學與政委聯合推出。上一節,我們主要介紹了如何界面化的使用Anaconda中的Navigtor(回顧戳這裡)。本節將會帶領大家進入更加真實的數據科學家工作環境。
  • 用Python構建數據科學Web應用程式
    在本文中,我將向你展示如何使用streamlit python庫快速構建一個簡單的數據驅動web應用程式,只需幾行代碼。作為一名數據科學家或機器學習工程師,能夠部署我們的數據科學項目是很重要的。傳統的使用Django或Flask這樣的框架來部署機器學習模型可能是一項艱巨和/或耗時的任務。
  • 2017年數據科學15個最好用的Python庫
    導讀:隨著近幾年Python已成為數據科學行業中大火的程式語言,我們將根據以往的經驗來為大家總結一下數據科學家和工程師幾個最實用的python庫。因為所有的python庫都是開源的,所以我們還列出了每個庫的提交次數、貢獻者人數和其他一些來自Github可以代表Python庫流行度的指標。1. NumPy(Github提交次數:15980,貢獻者人數:522)在用Python處理科學任務時,我們常常需要使用Python的SciPy Stack。
  • 為什麼入門大數據選擇Python而不是Java?
    java和python,都可以運行於linux作業系統,但很多linux可以原生支持python,java需要自行安裝。java和python強於c#的原因大於支持linux,支持osx,支持unix,支持arm。java和python比c++受歡迎的原因在於不需要指針。不少想學習大數據的零基礎學員都知道,學大數據部分課程之前要先學習一種計算機程式語言。
  • 數據科學中一些不常用但很有用的Python庫
    導讀提到數據科學的python包,大家想到的估計是numpy,pandas,scikit-learn之類的,這裡給大家介紹一些不常用,但是非常有用的python包,就像是痒痒撓,雖然大部分時間用不上,但是真要用起來,還是挺爽的。
  • B站最強學習資源匯總(Python,數據科學,機器學習)
    強調在知識的廣度、深度和趣味性之間尋找最佳平衡點,在生動幽默中講述數據挖掘的核心思想、關鍵技術以及一些在其它相關課程和教科書中少有涉及的重要知識點,適合對大數據和數據科學感興趣的各專業學生以及工程技術人員學習。