來源:中國統計網
作者:Python中文社區(中國統計網特邀認證作者)
作者吳軍大家都很熟悉。以極為通俗的語言講述了數學在機器學習和自然語言處理等領域的應用。
2.《Programming Collective Intelligence》(《集體智慧編程》)
這本書最大的優勢就是裡面沒有理論推導和複雜的數學公式,是很不錯的入門 書。目前中文版已經脫銷,對於有志於這個領域的人來說,英文的pdf是個不錯的選擇,因為後面有很多經典書的翻譯都較差,只能看英文版,不如從這個入手。
還有,這本書適合於快速看完,因為據評論,看完一些經典的帶有數學推導的書後會發現這本書什麼都沒講,只是舉了很多例子而已。
3.《Algorithms of the Intelligent Web》(《智能web算法》)
作者Haralambos Marmanis、Dmitry Babenko。這本書中的公式比《集體智慧編程》要略多一點,裡面的例子多是網際網路上的應用,看名字就知道。不足的地方在於裡面的配套代碼是 BeanShell而不是python或其他。總起來說,這本書還是適合初學者,與上一本一樣需要快速讀完,如果讀完上一本的話,這一本可以不必細看代 碼,了解算法主要思想就行了。
4.《統計學習方法》
作者李航,是國內機器學習領域的幾個大家之一,曾在MSRA任高級研究員,現在華為諾亞方舟實驗室。書中寫了十個算法,每個算法的介紹都很乾脆,直接上公式,是徹頭徹尾的「乾貨書」。每章末尾的參考文獻也方便了想深入理解算法的童鞋直接查到經典論文;本書可以與上面兩本書互為輔助閱讀。
5.《Machine Learning》(《機器學習》)
作 者Tom Mitchell是CMU的大師,有機器學習和半監督學習的網絡課程視頻。這本書是領域內翻譯的較好的書籍,講述的算法也比《統計學習方法》的範圍要大很多。據評論這本書主要在於啟發,講述公式為什麼成立而不是推導;不足的地方在於出版年限較早,時效性不如PRML。但有些基礎的經典還是不會過時的,所以這本書現在幾乎是機器學習的必讀書目。
6.《Mining of Massive Datasets》(《大數據》)
作 者Anand Rajaraman、Jeffrey David Ullman,Anand是Stanford的PhD。這本書介紹了很多算法,也介紹了這些算法在數據規模比較大的時候的變形。但是限於篇幅,每種算法都 沒有展開講的感覺,如果想深入了解需要查其他的資料,不過這樣的話對算法進行了解也足夠了。還有一點不足的地方就是本書原文和翻譯都有許多錯誤,勘誤表比較長,讀者要用心了。
7.《Data Mining: Practical Machine Learning Tools and Techniques》(《數據挖掘:實用機器學習技術》)
作者Ian H. Witten 、Eibe Frank是weka的作者、紐西蘭懷卡託大學教授。他們的《ManagingGigabytes》[4]也是信息檢索方面的經典書籍。這本書最大的特點 是對weka的使用進行了介紹,但是其理論部分太單薄,作為入門書籍還可,但是,經典的入門書籍如《集體智慧編程》、《智能web算法》已經很經典,學習的話不宜讀太多的入門書籍,建議只看一些上述兩本書沒講到的算法。
8.《機器學習及其應用》
周志華、楊強主編。來源於「機器學習及其應用研討會」的文集。該研討會由復旦大學智能信息處理實驗室發起,目前已舉辦了十屆,國內的大牛如李航、項亮、王海峰、劉鐵巖、餘凱等都曾在該會議上做過講座。這本書講了很多機器學習前沿的具體的應用,需要有基礎的才能看懂。如果想了解機器學習研究趨勢的可以瀏覽一下這本書。關注領域內的學術會議是發現研究趨勢的方法嘛。
信息檢索不錯的書。
10.《Modern Information Retrieval》
Ricardo Baeza-Yates et al. 1999。貌似第一本完整講述IR的書。可惜IR這些年進展迅猛,這本書略有些過時了。翻翻做參考還是不錯的。另外,Ricardo同學現在是Yahoo Research for Europe and Latin Ameria的頭頭。
11.《推薦系統實踐》
項亮,不錯的入門讀物
1.《Pattern Classification》(《模式分類》第二版)
作者Richard O. Duda[5]、Peter E. Hart、David。模式識別的奠基之作,但對最近呈主導地位的較好的方法SVM、Boosting方法沒有介紹,被評「掛一漏萬之嫌」。
2.《Pattern Recognition And Machine Learning》
作 者Christopher M. Bishop[6];簡稱PRML,側重於概率模型,是貝葉斯方法的扛鼎之作,據評「具有強烈的工程氣息,可以配合stanford 大學 Andrew Ng 教授的 Machine Learning 視頻教程一起來學,效果翻倍。」
3.《The Elements of Statistical Learning : Data Mining, Inference, andPrediction》,(《統計學習基礎:數據挖掘、推理與預測》第二版)
作 者RobertTibshirani、Trevor Hastie、Jerome Friedman。「這本書的作者是Boosting方法最活躍的幾個研究人員,發明的Gradient Boosting提出了理解Boosting方法的新角度,極大擴展了Boosting方法的應用範圍。
這本書對當前最為流行的方法有比較全面深入的介紹,對工程人員參考價值也許要更大一點。另一方面,它不僅總結了已經成熟了的一些技術,而且對尚在發展中的一些議題也有簡明扼要的論述。讓讀者充分體會到機器學習是一個仍然非常活躍的研究領域,應該會讓學術研究人員也有常讀常新的感受。」
4.《Data Mining:Concepts andTechniques》(《數據挖掘:概念與技術》第三版)
作 者(美)Jiawei Han[8]、(加)Micheline Kamber、(加)Jian Pei,其中第一作者是華裔。本書毫無疑問是數據挖掘方面的的經典之作,不過翻譯版總是被噴,沒辦法,大部分翻譯過來的書籍都被噴,想要不吃別人嚼過的東 西,就好好學習英文吧。
5.《AI, Modern Approach 2nd》
Peter Norvig,無爭議的領域經典。
6.《Foundations of Statistical Natural Language Processing》
自然語言處理領域公認經典。
7.《Information Theory:Inference and Learning Algorithms》
8.《Statistical Learning Theory》
Vapnik的大作,統計學界的權威,本書將理論上升到了哲學層面,他的另一本書《The Nature ofStatistical Learning Theory》也是統計學習研究不可多得的好書,但是這兩本書都比較深入,適合有一定基礎的讀者。
1.《矩陣分析》
Roger Horn。矩陣分析領域無爭議的經典
2.《概率論及其應用》
威廉·費勒。極牛的書,可數學味道太重,不適合做機器學習的
3.《All Of Statistics》
機器學習這個方向,統計學也一樣非常重要。推薦All of statistics,這是CMU的一本很簡潔的教科書,注重概念,簡化計算,簡化與Machine Learning無關的概念和統計內容,可以說是很好的快速入門材料。
4.《Nonlinear Programming, 2nd》
最優化方法,非線性規劃的參考書。
5.《Convex Optimization》
Boyd的經典書籍,被引用次數超過14000次,面向實際應用,並且有配套代碼,是一本不可多得的好書。
6.《Numerical Optimization》
第二版,Nocedal著,非常適合非數值專業的學生和工程師參考,算法流程清晰詳細,原理清楚。
7.《Introduction to Mathematical Statistics》
第六版,Hogg著,本書介紹了概率統計的基本概念以及各種分布,以及ML,Bayesian方法等內容。
8.《An Introduction to Probabilistic Graphical Models》
Jordan著,本書介紹了條件獨立、分解、混合、條件混合等圖模型中的基本概念,對隱變量(潛在變量)也做了詳細介紹,相信大家在隱馬爾科夫鏈和用Gaussian混合模型來實現EM算法時遇到過這個概念。
9.《Probabilistic Graphical Models-Principles and Techniques》
Koller著,一本很厚很全面的書,理論性很強,可以作為參考書使用