能夠拿起這本書的讀者至少應該聽說了數據科學的名字,知道Python是計算機語言。並且更深入的應該知道數據科學深刻的改變著科學研究的範式,商業社會的規則等等。那些講述數據科學之偉大,Python語言之優美,兩者結合之於實踐的文章已經有很多,這裡就不再贅述。我以自己的經歷來講講這方面的感受。
初識Python。2011年,我有幸能在加州大學伯克利分校和一群有趣且瘋狂的人度過了美好的一年,當然還有我當時的女朋友Kino(如今的妻子)。其中十分有趣的一位朋友就是學神級人物,Siqi Wu。Siqi雖為統計系博士,和我在課堂上經常一個討論組,卻時常鼓勵我一定要把計算機系的課程都修完。雖然我懵懵懂懂,但是學神發話,我也和他一起走上了不歸路。學神瘋狂到從計算機系的本科最核心的課開始學習,竟然真的把本科與研究生的計算機系核心課程都拿到了學分,讓我佩服不已。他介紹我一定要學習的第一門課程CS61a(https://cs61a.org/),這個課等價於國內本科生計算機系的算法基礎。我進入教室就震撼了,500多人的大教室坐滿了人,居然講的是Python。對,我懵了。這是因為我讀本科在國內的時候講這些都是用的C,難以理解為什麼用Python。就這樣我覺得大致內容我都知道,所以也沒有堅持學習這門課,與Python第一次擦肩而過。
再識Python。2012年,我繼續在伯克利的校園晃蕩。這時候接觸的項目中需要處理大量的文本。系裡面就有人建議我不要用R處理文本數據,應該選擇更加靈活的Python。我硬著頭皮去選了一門天文系開設的Python課程。這門課十分神奇,每次講課的人都不一樣,不僅講授Python的基礎內容,同時每個人講自己參與開發的Python模塊。後來我才發現,這些人中有大量的大家現在每天都在使用的各種Python的模塊的主要貢獻者。早知道當時就應該挨個要籤名了。雖然課堅持下來了,但是後面其實Python用的不多,漸漸的印象開始模糊。
三識Python。2014年起,所有人周圍都被大數據,數據科學等詞所包圍。在業界,眾多企業也開始招聘數據科學家,數據分析師等等各種職位,Python成為要求的基本技能。這就催生了非常大的教學方面的需求,即利用Python去講授數據科學。之後幾年,我也在西安交通大學管理學院給研究生,MBA與MEM等學員講授與數據科學相關的課程,這當然就繞不過Python的使用。所以逼迫自己又重新拾起來。直到最近人工智慧的熱潮到來,深度學習的幾大架構TensorFlow,PyTorch,MXNet等都給出了Python的靈活使用接口。這一下子使得Python具有了自己獨特的在這個時代的優勢。
現在回頭看起來這些經歷,其實也是很有意思。利用Python去講授算法基礎,其實省去了很多C中的繁瑣內容,能夠讓學生更容易理解算法基礎的核心知識,而不是拘泥於語言的限制。更深層次的Python的課程其實是在講授Python在各個領域的快速發展,不同的模塊的搭建能夠讓Python迅速成為各個領域的開發利器。最後的教學經歷讓我感受到Python本身作為數據科學的工具,各種與數據科學相關的模塊飛速的發展,已經到了學不過來的程度。所以,講述Python語言講不完,講述Python的數據科學相關的模塊也是講授不完的,那麼什麼是核心而不變的?這就是本書要講解的。
本書並不是一本介紹Python的大而全的手冊(我當然能力有限也寫不出來)。本書是利用Python語言去講述數據科學中最基本的核心理念是如何實現的一本手冊。狗熊會一直倡導的數據價值理念,應該從理解業務問題出發,獲取數據,清洗數據,探索性數據分析,構建變量體系,建立模型,模型評估等都在本書中利用Python的不同模塊給予了講解。如果想要深刻理解本書中的所有內容,可以首先去學習狗熊會的《數據思維:從數據分析到商業價值》這本書,理解如何真的利用數據去解決業務問題。其次,可以去學習狗熊會的《數據思維實踐》這本書,理解實踐數據思維的基本過程。最後,應該真的實踐的時候到了,Python將會成為你數據科學實踐的有力武器。
本書能夠完成應該感謝很多人。首先,應該感謝北京大學光華管理學院的王漢生教授,即熊大。如果沒有熊大的鼓(壓)勵(榨),我是沒有勇氣能夠完成這本書的。還記得那是一個風和日麗,陽光明媚的下午,我接到了熊大的電話,然後他告訴我,就這麼定了,你負責寫一下Python與數據科學的書。我欣(懵)然接受!其次,應該感謝曾智億,本書的第二作者。曾智億是狗熊會人才計劃第一期的畢業學員。他思想活躍,幹勁十足,並且熱愛Python。本書的大部分內容的初始構想雖然是我思考的,但是執行力最強的智億同學,在非常多的章節都執筆突飛猛進。從某種意義上講他對本書的貢獻多過我。當然還要感謝李春豔同學,程茜老師也都參與了本書完成的大量工作。最後,應該感謝Kino與Moon(是誰你們猜)陪伴我在西雅圖完成了這本書的初稿,沒有和你們在一起的歡聲笑語,我也無法支持在這裡無聊的日子。這裡還應該感謝我和Kino的雙方父母,大力支(包)持(含)著看似長大了,還任性的我們。特別地,應該感謝華盛頓大學西雅圖分校,工業與系統工程系的黃帥教授。他給與我在華盛頓大學工作的機會,促使我更好地思考並完成這本書。感謝狗熊會所有小夥伴們的鼓(互)勵(懟)。感謝統計之都(COS)所有小夥伴們為數據科學付出的努力,特別是雲伯伯的含辛茹苦。感謝在MD Group互幫(掐)互助(吹)群中的科研知己,妖哥,波神,韓哥與屁孩。
目前,Python數據科學實踐在京東和噹噹有售,歡迎大家購買。
京東
噹噹
此外,政委在狗熊會開設了Python數據分析入門的在線實習項目,趕緊點擊閱讀原文來參與吧!