在正式學習之前,你所需要的預備知識(主要是數學)應該包括:
微積分:偏導數、梯度等。
概率論與數理統計:如極大似然估計、中央極限定理、大數法則等。
最優化方法:如梯度下降、牛頓-拉普什方法、變分法(歐拉-拉格朗日方程)、凸優化等。
如果你對其中的某些名詞感到陌生,那麼還是打道回府吧。這說明你尚不具備深入開展數據挖掘算法學習的能力。你會發現到處都是門檻,很難繼續進行下去。
第1條路線
(基於普通最小二乘法的)簡單線性回歸→線性回歸中的新進展(嶺回歸和LASSO回歸) → (此處可以插入Bagging和AdaBoost的內容) → Logistic回歸 →支持向量機(SVM) →感知機學習→神經網絡(初學者可先主要關注BP算法) →深度學習
之所以把它們歸為一條線路,是因為所有這些算法都是圍繞著 y = Σxiβi這樣一條簡單的公式展開的,如果你抓住這條線索,不斷探索下去,就算是抓住它們之間的繩索了。
基於普通最小二乘的線性回歸是統計中一種有著非常悠久歷史的方法,它的使用甚至可以追溯到高斯的時代。但是它對數據有諸多要求,例如特徵之間不能有多重共線性。嶺回歸和LASSO是對這些問題的修正。
當沿著第一條路線學完的時候,其實你已經攻克機器學習的半壁江山了!
第二條路線
K-means →EM → 樸素貝葉斯→貝葉斯網絡→隱馬爾科夫模型(基本模型、前向算法、維特比算法、前向-後向算法) →卡爾曼濾波
這條線路所涉及的基本都是那些各種畫來畫去的圖模型,學術名詞稱為 PGM 。
這條線的思路和第一條是截然不同的!
貝葉斯網絡、HMM(隱馬爾科夫模型),是這個線路中的核心內容。K-means 和 EM 具有與生俱來的聯繫,認識到這一點才能說明你真正讀懂了它們。而EM算法要在HMM的模型訓練中用到,所以你要先學EM才能深入學習HMM。所以儘管在EM中看不到那種畫來畫去的圖模型,但它還在這條線路中。
樸素貝葉斯裡面的很多內容在貝葉斯網絡和HMM裡都會用到,如貝葉斯定理、先驗和後驗概率、邊緣分布等(主要是概念性的)。
最後,卡爾曼濾波可以作為HMM學習的後續擴展。儘管很多機器學習的書裡沒把它看做是一種機器學習算法(或許那些作者認為它應該是信號處理中的內容),但是它的確可以被看成是一種機器學習技術。
用於數據挖掘的工具
應用層面,R、MATLAB和Python都是做數據挖掘的利器,另外一個基於Java的免費數據挖掘工具是Weka,這個就只要點點滑鼠,甚至不用編代碼了。
給一個軟體界面的截圖如下:
必讀的5本書
中文版(含翻譯版):
1. 《統計學習方法》
作者:李航
2. 《數據挖掘導論》
作者:Pang-Ning Tan、 Michael Stein-bach 、 Vipin Kumar
3. 《機器學習實踐》
作者:Peter Harrington
英文版:
4.《Artificial Intelligence : A Modern Approach(Third Edition)》
作者:Stuart Russell、Peter Norvig
5.《The Elements of Statistical Learning:Data Mining, Inference, and Prediction》
作者:Trevor Hastie、Robert Tibshi-rani、Jerome Friedman
(人工智慧愛好者俱樂部)
在智能觀獲取乾貨的2條路徑:
想知道AI加教育領域有哪些最新研究成果?請在智能觀(zhinengguanym)對話界面回復「 論文 」; 想要AI領域更多的乾貨?請在對話界面回復「 乾貨 」; 想了解更多專家的「智能觀」,請在對話界面回復「 觀點 」,去獲取你想要的內容吧。關於我們朋友說,智能觀是幾個女文青在做科技的事情。 哪裡,我們充其量是幾個對AI和教育有無限好奇與情懷的偽文青。我們以獨特的視角觀察AI給教育帶來的變化,從國內到國外,從清華到麻省,從小學到大學,從有志於此的小團隊以及個人到巨頭,都是我們關注的對象。我們希望用心、用準確的信息介紹業內的最新研究成果、進展、願景與觀點,希望對關注這個領域的你有所幫助,希望跟你一起發現更多潛能。PS:我們團隊還是有理性大叔的~[筆芯]