機器學習算法的基本知識(使用Python和R代碼)

2021-01-06 電子產品世界

　　本篇文章是原文的譯文，然後自己對其中做了一些修改和添加內容(隨機森林和降維算法)。文章簡潔地介紹了機器學習的主要算法和一些偽代碼，對於初學者有很大幫助，是一篇不錯的總結文章，後期可以通過文中提到的算法展開去做一些實際問題。

本文引用地址：http://www.eepw.com.cn/article/201710/370117.htm

　　引言

　　Google 的自駕車和機器人得到了很多新聞，但公司的真正未來是機器學習，這種技術使計算機變得更智能，更個性化。-Eric Schm id t (Google Chair man)

　　我們可能生活在人類歷史上最具影響力的時期——計算從大型主機到PC移動到雲計算的時期。但是使這段時期有意義的不是發生了什麼，而是在未來幾年裡我們的方式。

　　這個時期令像我這樣的一個人興奮的就是，隨著計算機的推動，工具和技術的民主化。今天，作為數據科學家，我可以每小時為幾個玩偶構建具有複雜算法的數據處理機。但到達這裡並不容易，我已經度過了許多黑暗的日日夜夜。

　　誰可以從本指南中獲益最多

　　我今天發布的可能是我創造的最有價值的指南。

　　創建本指南背後的理念是簡化全球有抱負的數據科學家和機器學習愛好者的旅程。本指南能夠使你在研究機器學習問題的過程中獲取經驗。我提供了關於各種機器學習算法以及R&Python代碼的高級理解以及運行它們，這些應該足以使你得心順手。

　　machine learning

　　我故意跳過了這些技術背後的統計數據，因為你不需要在開始時就了解它們。所以，如果你正在尋找對這些算法的統計學理解，你應該看看別的文章。但是，如果你正在尋找並開始構建機器學習項目，那麼這篇文章給你帶來極大好處。

　　3類機器學習算法(廣義上)

　　監督學習

　　工作原理：該算法由一組目標/結果變量(或因變量)組成，該變量將根據給定的一組預測變量(獨立變量)進行預測。使用這些變量集，我們生成一個將輸入映射到所需輸出的函數。訓練過程繼續進行執行，直到模型達到培訓數據所需的準確度水平。監督學習的例子：回歸，決策樹，隨機森林，KNN，邏輯回歸等

　　無監督學習

　　如何工作：在這個算法中，我們沒有任何目標或結果變量來預測/估計。用於不同群體的群體聚類和用於不同群體的客戶進行特定幹預。無監督學習的例子：Apriori算法，K-means。

　　加強學習：

　　工作原理：使用這種算法，機器受到學習和訓練，作出具體決定。它以這種方式工作：機器暴露在一個環境中，它連續不斷地使用試錯。該機器從過去的經驗中學習，並嘗試捕獲最好的知識，以做出準確的業務決策。加強學習示例：馬爾可夫決策過程

　　常見機器學習算法

　　以下是常用機器學習算法的列表。這些算法幾乎可以應用於任何數據問題：

　　線性回歸

　　邏輯回歸

　　決策樹

　　SVM

　　樸素貝葉斯

　　KNN

　　K-Means

　　隨機森林

　　降維算法

　　Gradient Boost&Adaboost

　　1.線性回歸

　　它用於基於連續變量來估計實際價值(房屋成本，電話數量，總銷售額等)。在這裡，我們通過擬合最佳線來建立獨立變量和因變量之間的關係。這個最佳擬合線被稱為回歸線，由線性方程Y = a * X + b表示。

　　理解線性回歸的最好方法是回想童年的經歷。比如，你要求五年級的孩子通過體重來從小到大排序班裡的學生，而事先不告訴學生們的體重!你認為孩子會做什麼?他/她很可能在身高和體格上分析人物的體重，並使用這些可視參數的組合進行排列。這是現實生活中的線性回歸!孩子實際上已經弄清楚，身高和體格將有一個關係與體重相關聯，看起來就像上面的等式。

　　在這個方程式中：

　　Y-因變量

　　a – 斜率

　　X – 自變量

　　b – 截距

　　這些係數a和b是基於最小化數據點和回歸線之間的距離的平方差之和導出的。

　　看下面的例子。這裡我們確定了線性方程y = 0.2811x + 13.9的最佳擬合線。現在使用這個方程，我們可以找到一個人(身高已知)的體重。

　　線性回歸

　　線性回歸主要有兩種類型：簡單線性回歸和多元線性回歸。簡單線性回歸的特徵在於一個自變量。而且，多元線性回歸(顧名思義)的特徵是多個(多於1個)自變量。在找到最佳擬合線的同時，可以擬合多項式或曲線回歸線，這些被稱為多項式或曲線回歸。

　　Python Code

　　#Import Library

　　#Import other necessary libraries like pandas, numpy...

　　from sklearn import linear_model

　　import numpy as np

　　#Load Train and Test datasets

　　#Identify feature and response variable(s) and values must be numeric and numpy arrays

　　# x_train=input_variables_values_training_datasets

　　x_train=np.random.rand(4,4)

　　print(x_train)

　　# y_train=target_variables_values_training_datasets

　　y_train=np.random.rand(4,4)

　　print(y_train)

　　# x_test=input_variables_values_test_datasets

　　x_test=np.random.rand(4,4)

　　print(x_test)

　　# Create linear regression object

　　linear = linear_model.LinearRegression()

　　# Train the model using the training sets and check score

　　linear.fit(x_train, y_train)

　　linear.score(x_train, y_train)

　　#Equation coefficient and Intercept

　　print('Coefficient: /n', linear.coef_)

　　print('Intercept: /n', linear.intercept_)

　　#Predict Output

　　predicted= linear.predict(x_test)

　　print('predicted:/n',predicted)

　　[[ 0.98267731 0.23364069 0.35133775 0.92826309]

　　[ 0.80538991 0.05637806 0.87662175 0.3960776 ]

　　[ 0.54686738 0.6816495 0.99747716 0.32531085]

　　[ 0.19189509 0.87105462 0.88158122 0.25056621]]

　　[[ 0.55541608 0.56859636 0.40616234 0.14683524]

　　[ 0.09937835 0.63874553 0.92062536 0.32798326]

　　[ 0.87174236 0.779044 0.79119392 0.06912842]

　　[ 0.87907434 0.53175367 0.01371655 0.11414196]]

　　[[ 0.37568516 0.17267374 0.51647046 0.04774661]

　　[ 0.38573914 0.85335136 0.11647555 0.0758696 ]

　　[ 0.67559384 0.57535368 0.88579261 0.26278658]

　　[ 0.13829782 0.28328756 0.51170484 0.04260013]]

　　Coefficient:

　　[[ 0.55158868 1.45901817 0.31224322 0.49538173]

　　[ 0.6995448 0.40804135 0.59938423 0.09084578]

　　[ 1.79010371 0.21674532 1.60972012 -0.046387 ]

　　[-0.31562917 -0.53767439 -0.16141312 -0.2154683 ]]

　　Intercept:

　　[-0.89705102 -0.50908061 -1.9260686 0.83934127]

　　predicted:

　　[[-0.25297601 0.13808785 -0.38696891 0.53426883]

　　[ 0.63472658 0.18566989 -0.86662193 0.22361739]

　　[ 0.72181277 0.75309881 0.82170796 0.11715048]

　　[-0.22656611 0.01383581 -0.79537442 0.55159912]]

　　R Code

　　#Load Train and Test datasets

　　#Identify feature and response variable(s) and values must be numeric and numpy arrays

　　x_train <- input_variables_values_training_datasets

　　y_train <- target_variables_values_training_datasets

　　x_test <- input_variables_values_test_datasets

　　x <- cbind(x_train,y_train)

　　# Train the model using the training sets and check score

　　linear <- lm(y_train ~ ., data = x)

　　summary(linear)

　　#Predict Output

　　predicted= predict(linear,x_test)

　　2.邏輯回歸

　　不要因為它的名字而感到困惑，邏輯回歸是一個分類算法而不是回歸算法。它用於基於給定的一組自變量來估計離散值(二進位值，如0/1，是/否，真/假)。簡單來說，它通過將數據擬合到lo git 函數來預測事件發生的概率。因此，它也被稱為logit回歸。由於它預測概率，其輸出值在0和1之間(如預期的那樣)。

　　再次，讓我們通過一個簡單的例子來嘗試理解這一點。

　　假設你的朋友給你一個難題解決。只有2個結果場景 - 你能解決和不能解決。現在想像，你正在被許多猜謎或者簡單測驗，來試圖理解你擅長的科目。這項研究的結果將是這樣的結果 - 如果給你一個10級的三角形問題，那麼你有70%可能會解決這個問題。另外一個例子，如果是五級的歷史問題，得到答案的概率只有30%。這就是邏輯回歸為你提供的結果。

　　對數學而言，結果的對數機率被建模為預測變量的線性組合。

　　odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence ln(odds) = ln(p/(1-p)) logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk

　　以上，p是感興趣特徵的概率。它選擇最大化觀察樣本值的可能性的參數，而不是最小化平方誤差的總和(如在普通回歸中)。

　　現在，你可能會問，為什麼要採用log? 為了簡單起見，讓我們來說，這是複製階梯函數的最好的數學方法之一。我可以進一步詳細介紹，但這將會打破這篇文章的目的。

　　邏輯回歸

　　Python Code

　　#Import Library

　　from sklearn.linear_model import LogisticRegression

　　#Assumed you have, X (predictor) and Y (target) for training data set and x_test(predictor) of test_dataset

　　# Create logistic regression object

　　model = LogisticRegression()

　　# Train the model using the training sets and check score

　　model.fit(X, y)

　　model.score(X, y)

　　#Equation coefficient and Intercept

　　print('Coefficient: /n', model.coef_)

　　print('Intercept: /n', model.intercept_)

　　#Predict Output

　　predicted= model.predict(x_test)

　　R Code

　　x <- cbind(x_train,y_train)

　　# Train the model using the training sets and check score

　　logistic <- glm(y_train ~ ., data = x,family='binomial')

　　summary(logistic)

　　#Predict Output

　　predicted= predict(logistic,x_test)

　　3.決策樹

　　這是我最喜歡的算法之一，我經常使用它。它是一種主要用於分類問題的監督學習算法，令人驚訝的是，它可以適用於分類和連·續因變量。在該算法中，我們將群體分為兩個或多個均勻集合。這是基於最重要的屬性/自變量來做出的並將它們分為不同的組。關於決策樹的更多細節，你可以閱讀決策樹簡介

　　決策樹

　　在上圖中，您可以看到根據多個屬性將群體分為四個不同的群組，以確定用戶「是否可以玩」。為了將人口分為不同的特徵群體，它使用了諸如Gini，信息增益，卡方，熵等各種技術。

　　JezzBall

　　了解決策樹如何運作的最佳方法是播放Jezzball - 微軟的經典遊戲(下圖)。大體上就是，來一起在屏幕上滑動手指，築起牆壁，掩住移動的球吧。

　　Python Code

　　#Import Library

　　#Import other necessary libraries like pandas, numpy...

　　from sklearn import tree

　　#Assumed you have, X (predictor) and Y (target) for training data set and x_test(predictor) of test_dataset

　　# Create tree object

　　model = tree.DecisionTreeClassifier(criterion='gini')

　　# for classification, here you can change the algorithm as gini or entropy (information gain) by default it is gini

　　# model = tree.DecisionTreeRegressor() for regression

　　# Train the model using the training sets and check score

　　model.fit(X, y)

　　model.score(X, y)

　　#Predict Output

　　predicted= model.predict(x_test)

　　R Code

　　library(rpart)

　　x <- cbind(x_train,y_train)

　　# grow tree

　　fit <- rpart(y_train ~ ., data = x,method="class")

　　summary(fit)

　　#Predict Output

　　predicted= predict(fit,x_test)

　　4.SVM(支持向量機)

　　這是一種分類方法。在這個算法中，我們將每個數據項目繪製為n維空間中的一個點(其中n是擁有的特徵數)，每個特徵的值是特定坐標的值。

　　例如，如果我們有一個人的「高度」和「頭髮長度」這兩個特徵，我們首先將這兩個變量繪製在二維空間中，其中每個點都有兩個坐標(這些坐標稱為支持向量)

　　支持向量機

　　現在，我們將找到一些可以將數據分割成兩類的線。而我們想要的線，就是使得兩組數據中最近點到分割線的距離最長的線。

　　最佳分割直線

　　在上述示例中，將數據分成兩個不同分類的組的線是黑線，因為兩個最接近的點距離線最遠(紅線也可以，但不是一最遠)。這條線是我們的分類器，然後根據測試數據位於線路兩邊的位置，我們可以將新數據分類為什麼類別。

　　Python Code

　　#Import Library

　　from sklearn import svm

　　#Assumed you have, X (predictor) and Y (target) for training data set and x_test(predictor) of test_dataset

　　# Create SVM classification object

　　model = svm.svc() # there is various option associated with it, this is simple for classification. You can refer link, for mo# re detail.

　　# Train the model using the training sets and check score

　　model.fit(X, y)

　　model.score(X, y)

　　#Predict Output

　　predicted= model.predict(x_test)

　　R Code

　　library(e1071)

　　x <- cbind(x_train,y_train)

　　# Fitting model

　　fit <-svm(y_train ~ ., data = x)

　　summary(fit)

　　#Predict Output

　　predicted= predict(fit,x_test)

　　5. 樸素貝葉斯

　　它是基於貝葉斯定理的分類技術，假設預測因子之間是獨立的。簡單來說，樸素貝葉斯分類器假設類中特定特徵的存在與任何其他特徵的存在無關。例如，如果果實是紅色，圓形，直徑約3英寸，則果實可能被認為是蘋果。即使這些特徵依賴於彼此或其他特徵的存在，一個樸素的貝葉斯分類器將考慮的是所有屬性來單獨地貢獻這個果實是蘋果的概率。

　　樸素貝葉斯模型易於構建，對於非常大的數據集尤其有用。除了簡單之外，樸素貝葉斯也被稱為超高級分類方法。

　　貝葉斯定理提供了一種由P(c)，P(x)和P(x | c)計算概率P(c | x)的方法。看下面的等式

　　樸素貝葉斯

　　其中：

　　P(c | x)是在x條件下c發生的概率。

　　P(c)是c發生的概率。

　　P(x | c)在c條件下x發生的概率。

　　P(x)是x發生的概率。

　　示例：

　　讓我們用一個例子來理解它。下面我有一個天氣和相應的目標變量「玩遊戲」的訓練數據集。現在，我們需要根據天氣條件對玩家是否玩遊戲進行分類。我們按照以下步驟執行。

　　步驟1：將數據集轉換為頻率表

　　步驟2：通過發現像「Overcast」概率= 0.29和播放概率為0.64的概率來創建似然表。

　　例子

　　步驟3：現在，使用樸素貝葉斯方程來計算每個類的概率。其中概率最高的情況就是是預測的結果。

　　問題：

　　如果天氣晴朗，玩家會玩遊戲，這個說法是正確的嗎?

　　我們可以使用上述方法解決，所以P(Yes | Sunny) = P( Sunny | Yes) * P(Yes) / P (Sunny)

　　這裡，P(Sunny | Yes)= 3/9 = 0.33，P(Sunny)= 5/14 = 0.36，P(Yes)= 9/14 = 0.64

　　現在，P(Yes | Sunny)= 0.33 * 0.64 / 0.36 = 0.60，該事件發生的概率還是比較高的。

　　樸素貝葉斯使用類似的方法根據各種屬性預測不同分類的概率，該算法主要用於文本分類和具有多個類的問題。

　　Python Code

　　#Import Library

　　from sklearn.naive_bayes import GaussianNB

　　#Assumed you have, X (predictor) and Y (target) for training data set and x_test(predictor) of test_dataset

　　# Create SVM classification object model = GaussianNB()

　　# there is other distribution for multinomial classes like Bernoulli Naive Bayes, Refer link

　　# Train the model using the training sets and check score

　　model.fit(X, y)

　　#Predict Output

　　predicted= model.predict(x_test)

　　R Code

　　library(e1071)

　　x <- cbind(x_train,y_train)

　　# Fitting model

　　fit <-naiveBayes(y_train ~ ., data = x)

　　summary(fit)

　　#Predict Output

　　predicted= predict(fit,x_test)

　　6. KNN (K-近鄰算法)

　　它可以用於分類和回歸問題, 然而，它在行業中被廣泛地應用於分類問題。 K-近鄰算法用於存儲所有訓練樣本集(所有已知的案列)，並通過其k個鄰近數據多數投票對新的數據(或者案列)進行分類。通常，選擇k個最近鄰數據中出現次數最多的分類作為新數據的分類。

　　這些計算機的距離函數可以是歐幾裡德，曼哈頓，閔可夫斯基和漢明距離。前三個函數用於連續函數，第四個函數用於分類變量。如果K = 1，則簡單地將該情況分配給其最近鄰的類。有時，選擇K在執行KNN建模時是一個難點。

　　K-近鄰算法

　　KNN可以輕鬆映射到我們的現實生活中。如果你想了解一個人，你沒有任何信息，你可能想知道先去了解他的親密的朋友和他活動的圈子，從而獲得他/她的信息!

　　選擇KNN之前要考慮的事項：

　　KNN在計算上是昂貴的

　　變量應該被歸一化，否則更高的範圍變量可以偏移它

　　在進行KNN之前，預處理階段的工作更像去除離群值、噪聲值

　　Python Code

　　#Import Library

　　from sklearn.neighbors import KNeighborsClassifier

　　#Assumed you have, X (predictor) and Y (target) for training data set and x_test(predictor) of test_dataset

　　# Create KNeighbors classifier object model

　　KNeighborsClassifier(n_neighbors=6) # default value for n_neighbors is 5

　　# Train the model using the training sets and check score

　　model.fit(X, y)

　　#Predict Output

　　predicted= model.predict(x_test)

　　R Code

　　library(knn)

　　x <- cbind(x_train,y_train)

　　# Fitting model

　　fit <-knn(y_train ~ ., data = x,k=5)

　　summary(fit)

　　#Predict Output

　　predicted= predict(fit,x_test)

　　7. K-Means

　　它是解決聚類問題的一種無監督算法。其過程遵循一種簡單而簡單的方式，通過一定數量的聚類(假設k個聚類)對給定的數據集進行分類。集群內的數據點與對等組是同構的和異構的。

　　嘗試從油墨印跡中找出形狀?(見下圖) k means 與這個活動相似，你通過墨水漬形狀來判斷有多少群體存在!

　　K-Means

　　下面兩點感覺原文解釋的不是很清楚，自己然後查了下國內的解釋方法

　　K-means如何形成集群

　　(1) 從 n個數據對象任意選擇 k 個對象作為初始聚類中心;

　　(2) 根據每個聚類對象的均值(中心對象)，計算每個對象與這些中心對象的距離;並根據最小距離重新對相應對象進行劃分;

　　(3) 重新計算每個(有變化)聚類的均值(中心對象)

　　(4) 循環(2)到(3)直到每個聚類不再發生變化為止參考

　　例子

　　K-Means例子

　　從上圖中，我們可以看到，A，B，C，D，E是五個在圖中點。而灰色的點是我們的種子點，也就是我們用來找點群的點。有兩個種子點，所以K=2。

　　然後，K-Means的算法如下：

　　隨機在圖中取K(這裡K=2)個種子點。

　　然後對圖中的所有點求到這K個種子點的距離，假如點Pi離種子點Si最近，那麼Pi屬於Si點群。(上圖中，我們可以看到A，B屬於上面的種子點，C，D，E屬於下面中部的種子點)

　　接下來，我們要移動種子點到屬於他的「點群」的中心。(見圖上的第三步)

　　然後重複第2)和第3)步，直到，種子點沒有移動(我們可以看到圖中的第四步上面的種子點聚合了A，B，C，下面的種子點聚合了D，E)。參考

　　K值如何確定

　　在實際應用中，由於Kmean一般作為數據預處理，或者用於輔助分聚類貼標籤。所以k一般不會設置很大。可以通過枚舉，令k從2到一個固定值如10，在每個k值上重複運行數次kmeans(避免局部最優解)，並計算當前k的平均輪廓係數，最後選取輪廓係數最大的值對應的k作為最終的集群數目。參考

　　我們知道隨著群集數量的增加，該值不斷減少，但是如果繪製結果，則可能會發現平方距離的總和急劇下降到k的某個值，然後再慢一些。在這裡，我們可以找到最佳聚類數。

　　k值

　　Python Code

　　#Import Library

　　from sklearn.cluster import KMeans

　　#Assumed you have, X (attributes) for training data set and x_test(attributes) of test_dataset

　　# Create KNeighbors classifier object model

　　k_means = KMeans(n_clusters=3, random_state=0)

　　# Train the model using the training sets and check score

　　model.fit(X)

　　#Predict Output

　　predicted= model.predict(x_test)

　　R Code

　　library(cluster)

　　fit <- kmeans(X, 3) # 5 cluster solution

　　8. Random Forest(隨機樹林)

　　隨機森林(Random Forest)是一個包含多個決策樹的分類器，其輸出的類別由個別樹輸出類別的眾數而定。(相當於許多不同領域的專家對數據進行分類判斷，然後投票)

　　隨機樹林

　　感覺原文沒有將什麼實質內容，給大家推進這一篇 Random Forest入門

　　9. 降維算法

　　在過去的4-5年中，數據挖掘在每個可能的階段都呈指數級增長。公司/政府機構/研究機構不僅有新的來源，而且他們正在非常詳細地挖掘數據。

　　例如：電子商務公司正在捕獲更多關於客戶的細節，例如人口統計，網絡爬網歷史，他們喜歡或不喜歡的內容，購買歷史記錄，反饋信息等等，給予他們個性化的關注，而不是離你最近的雜貨店主。

　　作為數據科學家，我們提供的數據還包括許多功能，這對建立良好的穩健模型是非常有用的，但是有一個挑戰。你如何識別出1000或2000年高度重要的變量? 在這種情況下，維數降低算法可以幫助我們與決策樹，隨機森林，PCA，因子分析，基於相關矩陣，缺失值比等的其他算法一起使用。

　　要了解更多有關此算法的信息，您可以閱讀「 Beginners Guide To Learn Dimension Reduction Techniques 「.

　　Python Code

　　#Import Library

　　from sklearn import decomposition

　　#Assumed you have training and test data set as train and test

　　# Create PCA obeject pca= decomposition.PCA(n_components=k) #default value of k =min(n_sample, n_features)

　　# For Factor analysis

　　#fa= decomposition.FactorAnalysis()

　　# Reduced the dimension of training dataset using PCA

　　train_reduced = pca.fit_transform(train)

　　#Reduced the dimension of test dataset

　　test_reduced = pca.transform(test)

　　For more detail on this, please refer this link.

　　R Code

　　library(stats)

　　pca <- princomp(train, cor = TRUE)

　　train_reduced <- predict(pca,train)

　　test_reduced <- predict(pca,test)

　　10. Gradient Boosting & AdaBoost

　　當我們處理大量數據以預測高預測能力時，GBM&AdaBoost是更加強大的算法。 Boosting是一種綜合學習算法，它結合了幾個基本估計器的預測，以提高單個估計器的魯棒性。它將多個弱或平均預測值組合到一個強大的預測變量上。這些提升算法在數據科學比賽中總是能夠很好地運行，如Kaggle，AV Hackathon，CrowdAnalytix。

　　More: Know about Gradient and AdaBoost in detail

　　Python Code

　　#Import Library

　　from sklearn.ensemble import GradientBoostingClassifier

　　#Assumed you have, X (predictor) and Y (target) for training data set and x_test(predictor) of test_dataset

　　# Create Gradient Boosting Classifier object

　　model= GradientBoostingClassifier(n_estimators=100, learning_rate=1.0, max_depth=1, random_state=0)

　　# Train the model using the training sets and check score

　　model.fit(X, y)

　　#Predict Output

　　predicted= model.predict(x_test)

　　R Code

　　library(caret)

　　x <- cbind(x_train,y_train)

　　# Fitting model

　　fitControl <- trainControl( method = "repeatedcv", number = 4, repeats = 4)

　　fit <- train(y ~ ., data = x, method = "gbm", trControl = fitControl,verbose = FALSE)

　　predicted= predict(fit,x_test,type= "prob")[,2]

　　結束語

　　現在我相信，你會有一個常用的機器學習算法的想法。我在寫這篇文章和提供R和Python中的代碼的唯一意圖就是讓你馬上開始。如果您想要掌握機器學習，請將算法運用實際問題，體會其中的樂趣

機器學習算法的基本知識(使用Python和R代碼)

相關焦點

機器學習算法基礎(使用Python代碼)

算法應用|機器學習python應用,初識機器學習是怎樣滴感受?

算法應用|機器學習python應用,簡單機器學習項目實踐

搞機器學習,Python 和 R 哪個更合適?

機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用...

6行代碼搞定基本的RL算法,速度圍觀Reddit高贊帖

回歸、分類與聚類:三大方向剖解機器學習算法的優缺點(附Python和R...

...分類與聚類:三大方向剖解機器學習算法的優缺點(附Python和R實現)

使用單行代碼評估回歸模型的Python包

機器學習 | 算法筆記（四）- 決策樹算法以及代碼實現

Python還是R語言?怎樣學數學?機器學習的徵程從這裡開始……

python機器學習之k-means聚類算法(1)

用R也可以跑Python了

Minitab中的機器學習和Python集成

跟著吳恩達老師學習機器學習,Python筆記分享!

機器學習 | 算法筆記（三）- 支持向量機算法以及代碼實現

《python深度學習·pdf》不缺的就是代碼示例和分析

Python之父Guido van Rossum:教你用「膠水語言」實現辦公自動化

通過Python在Excel中使用機器學習

63種機器學習算法