使用Scikit Learn的分類器探索Iris數據集

2021-01-15 人工智慧遇見磐創

暫時,想像一下你不是一個花卉專家(如果你是專家,那對你很好!)。你能區分三種不同的鳶尾屬植物嗎?剛毛鳶尾屬,花色鳶尾屬和維吉尼亞鳶尾屬(setosa, versicolor, virginica)?

我知道我不能…

但是,如果我們有一個包含這些物種實例的數據集,以及它們的萼片和花瓣的測量結果呢?

換言之,我們能從這個數據集中學到什麼來幫助我們區分這三個物種嗎?

目錄

我們為什麼選擇這個數據集?我們想回答什麼問題?在這個數據集中我們能找到什麼?我們正在構建哪些分類器?下一步該怎麼辦?數據集

在這篇博文中,我將探索UCI機器學習庫中的Iris數據集。它摘自其網站,據說這可能是模式識別文獻中最著名的資料庫。此外,Jason Brownlee,機器學習社區創建者,他稱該數據集為機器學習的「Hello World」。

我將把這個數據集推薦給那些對數據科學感興趣並渴望構建第一個ML模型的人。它的一些優良特性見下文:

150個具有4個屬性的實例(相同的單位,全部為數字)均衡的階級分布無缺失數據如你所見,這些特性有助於將你在數據準備過程中花費的時間減至最少,這樣你就可以專注於構建你的第一個ML模型。

並不是說準備階段不重要。相反,這個過程是如此的重要,以至於對於一些初學者來說,這可能是非常耗時的,而且他們在開始模型開發之前可能會把自己壓得喘不過氣來。

例如,來自Kaggle的流行數據集House Prices:Advanced returnation Techniques有大約80個特徵,其中超過20%包含某種程度的缺失數據。在這種情況下,你可能需要花費一些時間來理解屬性並填充缺失的值。

目標

在研究了這個數據集之後,我們希望能夠回答兩個問題,這在分類問題中非常典型:

預測-給定新的數據點,模型預測其類(物種)的準確度如何?推斷-哪些預測因素可以有效地幫助預測?分類

分類是一類有監督的機器學習問題,其中目標(響應)變量是離散的。給定包含已知標籤的訓練數據,分類器從輸入變量(X)到輸出變量(Y)近似一個映射函數(f)。

現在是時候寫一些代碼了!請參閱我的Github頁面以獲取完整的Python代碼(在Jupyter Notebook中編寫)。

連結:https://github.com/terryz1/explore-iris

導入庫並加載數據集

首先,我們需要導入庫:pandas(加載數據集)、numpy(矩陣操作)、matplotlib和seaborn(可視化)以及sklearn(構建分類器)。在導入它們之前,請確保它們已經安裝(請參閱此處的安裝程序包指南)。

import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom pandas.plotting import parallel_coordinatesfrom sklearn.tree import DecisionTreeClassifier, plot_treefrom sklearn import metricsfrom sklearn.naive_bayes import GaussianNBfrom sklearn.discriminant_analysis import LinearDiscriminantAnalysis, QuadraticDiscriminantAnalysisfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.svm import SVCfrom sklearn.linear_model import LogisticRegression要加載數據集(也可以在我的Github頁面中找到),我們可以使用pandas的read_csv函數(我的代碼還包括通過url加載的選項)。

data = pd.read_csv('data.csv')加載數據後,我們可以通過head查看前幾行:

data.head(5)

註:所有四個測量單位均為釐米。

數值摘要

首先,讓我們通過「describe」來查看每個屬性的數值摘要:

data.describe()

我們還可以使用groupby和size檢查類分布:

data.groupby('species').size()

我們可以看到每個類都有相同數量的實例。

訓練集測試集拆分

現在,我們可以將數據集分成訓練集和測試集。通常,我們還應該有一個驗證集,用來評估每個分類器的性能,進行微調,並確定最佳模型。測試集主要用於報告。然而,由於這個數據集的規模很小,我們可以通過使用測試集來滿足驗證集的目的來簡化它。

此外,我還使用了分層保持方法來估計模型精度。我會在以後的博客中討論減少偏差的方法。

train, test = train_test_split(data, test_size = 0.4, stratify = data[『species』], random_state = 42)注意:我設置了40%的數據作為測試集,以確保有足夠的數據點來測試模型。

探索性數據分析

在我們分割數據集之後,我們可以繼續探索訓練數據。matplotlib和seaborn都有很好的繪圖工具,我們可以用來可視化。

讓我們首先創建一些單變量圖。為每個特徵創建直方圖:

n_bins = 10fig, axs = plt.subplots(2, 2)axs[0,0].hist(train['sepal_length'], bins = n_bins);axs[0,0].set_title('Sepal Length');axs[0,1].hist(train['sepal_width'], bins = n_bins);axs[0,1].set_title('Sepal Width');axs[1,0].hist(train['petal_length'], bins = n_bins);axs[1,0].set_title('Petal Length');axs[1,1].hist(train['petal_width'], bins = n_bins);axs[1,1].set_title('Petal Width');# 添加一些間距fig.tight_layout(pad=1.0);

請注意,對於花瓣長度和花瓣寬度,似乎有一組數據點的值比其他數據點小,這表明此數據中可能存在不同的組。

接下來,讓我們嘗試一些箱線圖:

fig, axs = plt.subplots(2, 2)fn = ["sepal_length", "sepal_width", "petal_length", "petal_width"]cn = ['setosa', 'versicolor', 'virginica']sns.boxplot(x = 'species', y = 'sepal_length', data = train, order = cn, ax = axs[0,0]);sns.boxplot(x = 'species', y = 'sepal_width', data = train, order = cn, ax = axs[0,1]);sns.boxplot(x = 'species', y = 'petal_length', data = train, order = cn, ax = axs[1,0]);sns.boxplot(x = 'species', y = 'petal_width', data = train, order = cn, ax = axs[1,1]);# 添加一些間距fig.tight_layout(pad=1.0);

底部的兩個圖表明我們前面看到的那組數據點是setosas。它們的花瓣尺寸比其他兩個物種更小,分布也更少。與其他兩個物種相比,versicolor的平均值比virginica 低。

小提琴圖是另一種可視化方式,它結合了直方圖和方框圖的優點:

sns.violinplot(x="species", y="petal_length", data=train, size=5, order = cn, palette = 'colorblind');

現在我們可以使用seaborn的pairplot函數繪製所有成對屬性的散點圖:

sns.pairplot(train, hue="species", height = 2, palette = 'colorblind');

請注意,有些變量似乎高度相關,例如花瓣長度和花瓣寬度。另外,花瓣的測量比萼片的分離更好。

接下來,我們製作一個相關矩陣來定量檢查變量之間的關係:

corrmat = train.corr()sns.heatmap(corrmat, annot = True, square = True);

主要的結論是花瓣的大小有高度的正相關,而萼片的測量是不相關的。注意花瓣特徵與萼片長度也有較高的相關性,但與萼片寬度無關。

另一個很酷的可視化工具是 parallel coordinate plot,它將每一行表示為一條直線。

parallel_coordinates(train, "species", color = ['blue', 'red', 'green']);

正如我們之前所見,花瓣的測量比萼片的能更好地區分物種。

構建分類器

現在我們準備建立一些分類器

為了讓我們的生活更輕鬆,讓我們把類標籤和特徵分開:

X_train = train[['sepal_length','sepal_width','petal_length','petal_width']]y_train = train.speciesX_test = test[['sepal_length','sepal_width','petal_length','petal_width']]y_test = test.species決策樹

我想到的第一個分類器是一個稱為決策樹。原因是我們可以看到分類規則,而且很容易解釋。

讓我們使用sklearn(文檔)構建一個,最大深度為3,我們可以在測試數據上檢查它的準確性:

mod_dt = DecisionTreeClassifier(max_depth = 3, random_state = 1)mod_dt.fit(X_train,y_train)prediction=mod_dt.predict(X_test)print(『The accuracy of the Decision Tree is』,」{:.3f}」.format(metrics.accuracy_score(prediction,y_test)))---The accuracy of the Decision Tree is 0.983.決策樹正確預測了98.3%的測試數據。該模型的一個優點是,你可以通過每個因子的feature-importances屬性來查看其特徵重要性:

mod_dt.feature_importances_---array([0. , 0. , 0.42430866, 0.57569134])從輸出結果和基於四個特徵的索引,我們知道前兩個特徵(萼片度量)並不重要,只有花瓣特徵被用來構建這棵樹。

決策樹的另一個優點是我們可以通過plot_tree可視化分類規則:

plt.figure(figsize = (10,8))plot_tree(mod_dt, feature_names = fn, class_names = cn, filled = True);

此樹中的分類規則(對於每個拆分,左->是,右->否)

除了每個規則(例如,第一個標準是花瓣寬度≤0.7),我們還可以看到每個拆分、指定類別等的基尼指數。請注意,除了底部的兩個「淺紫色」框外,所有終端節點都是純的。對於這兩類情況,表示沒有信心。

為了證明對新數據點進行分類是多麼容易,假設一個新實例的花瓣長度為4.5cm,花瓣寬度為1.5cm,那麼我們可以根據規則預測它是versicolor。

由於只使用花瓣特徵,因此我們可以可視化決策邊界並以二維形式繪製測試數據:

在60個數據點中,59個被正確分類。另一種顯示預測結果的方法是通過混淆矩陣:

disp = metrics.plot_confusion_matrix(mod_dt, X_test, y_test, display_labels=cn, cmap=plt.cm.Blues, normalize=None)disp.ax_.set_title('Decision Tree Confusion matrix, without normalization');

通過這個矩陣,我們看到有一種花色,我們預測是virginica。

構建一棵樹的一個缺點是它的不穩定性,這可以通過諸如隨機森林、boosting等集成技術來改善。現在,讓我們繼續下一個模型。

高斯樸素貝葉斯分類器

最流行的分類模型之一是樸素貝葉斯。它包含了「Naive」一詞,因為它有一個關鍵的類條件獨立性假設,這意味著給定的類,每個特徵的值都被假定獨立於任何其他特徵的值(請參閱此處)。

我們知道,這裡顯然不是這樣,花瓣特徵之間的高度相關性證明了這一點。讓我們用這個模型來檢查測試精度,看看這個假設是否可靠:

The accuracy of the Guassian Naive Bayes Classifier on test data is 0.933如果我們只使用花瓣特徵,結果如何:

The accuracy of the Guassian Naive Bayes Classifier with 2 predictors on test data is 0.950有趣的是,僅使用兩個特徵會導致更正確的分類點,這表明在使用所有特徵時可能會過度擬合。看起來我們樸素貝葉斯分類器做得不錯。

線性判別分析

如果我們使用多元高斯分布來計算類條件密度,而不是使用一元高斯分布的乘積(在樸素貝葉斯中使用),我們將得到一個LDA模型。LDA的關鍵假設是類之間的協方差相等。我們可以使用所有特徵和僅花瓣特徵檢查測試精度:

The accuracy of the LDA Classifier on test data is 0.983The accuracy of the LDA Classifier with two predictors on test data is 0.933使用所有特徵可以提高我們的LDA模型的測試精度。

為了在二維可視化決策邊界,我們可以僅使用花瓣的LDA模型,並繪製測試數據:

四個測試點被錯誤分類-三個virginica和一個versicolor。

現在假設我們要用這個模型對新的數據點進行分類,我們只需在圖上畫出點,然後根據它所屬的顏色區域進行預測。

二次判別分析

LDA和QDA的區別在於QDA不假設類間的協方差相等,它被稱為「二次型」,因為決策邊界是一個二次函數。

The accuracy of the QDA Classifier is 0.983The accuracy of the QDA Classifier with two predictors is 0.967在所有特徵的情況下,它與LDA具有相同的精度,並且僅使用花瓣時,它的性能稍好一些。

類似地,讓我們繪製QDA(只有花瓣的模型)的決策邊界:

KNN分類器

現在,讓我們換個角度,看看一個名為KNN的非參數模型。它是一個十分流行的模型,因為它相對簡單和易於實現。然而,我們需要意識到當特徵的數量變大時我們會受到維度詛咒。

讓我們用K的不同選擇繪製測試精度:

我們可以看到,當K為3或在7到10之間時,精確度最高(約為0.965)。與以前的模型相比,分類新的數據點不那麼直接,因為我們需要在四維空間中觀察它的K個最近的鄰居。

其他模型

我還研究了其他模型,如logistic回歸、支持向量機分類器等。

注意SVC(帶線性內核)的測試精度達到了100%!

我們現在應該很有信心,因為我們的大多數模型的準確率都超過了95%。

下一步

以下是一些未來研究的想法:

對這些模型進行交叉驗證,並比較它們之間的平均精確度。找到其他數據源,包括其他鳶尾屬物種及其萼片/花瓣測量值(如果可能,也包括其他屬性),並檢查新的分類精度。製作一個交互式的web應用程式,根據用戶輸入的測量值來預測物種。結尾

我們研究了Iris數據集,然後使用sklearn構建了一些流行的分類器。我們發現花瓣的測量值比萼片的測量值更有助於分類實例。此外,大多數模型的測試精度都在95%以上。

參考文獻

Dua, D. and Graff, C. (2019). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science.Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. (2013). An introduction to statistical learning : with applications in R. New York :Springer.

相關焦點

  • 使用Scikit Learn的分類器探索Iris數據集
    數據集在這篇博文中,我將探索UCI機器學習庫中的Iris數據集。它摘自其網站,據說這可能是模式識別文獻中最著名的資料庫。此外,Jason Brownlee,機器學習社區創建者,他稱該數據集為機器學習的「Hello World」。
  • 開源機器學習框架:Scikit-learn API簡介
    這主要體現在兩個方面:一是Scikit-learn從來不做除機器學習領域之外的其他擴展,二是Scikit-learn從來不採用未經廣泛驗證的算法。Scikit-learn的六大功能Scikit-learn的基本功能主要被分為六大部分:分類,回歸,聚類,數據降維,模型選擇和數據預處理。
  • Python機器學習5:使用scikit-learn實現三種集成學習Bagging算法
    本系列文章將講解常見的三種集成學習算法Bagging,Boosting和Majority Voting,並演示集成模型是如何提升在數據集上的準確性。這三種算法的大致含義為:Bagging:將多種無依賴的弱學習器進行綜合,形成一個強學習器。Boosting: 將多種有相互依賴的弱學習器進行綜合,形成一個強學習器。
  • 利用Spark 和 scikit-learn 將你的模型訓練加快 100 倍
    這些模型為我們的推薦系統、搜尋引擎、定價優化引擎、數據質量等提供動力。它們在與我們的行動應用程式交互時為數百萬用戶做出預測。當我們使用 Spark 進行數據處理時,我們首選的機器學習框架是 scikit-learn。隨著計算機變得越來越便宜,機器學習解決方案的上市時間變得越來越關鍵,我們探索了加快模型訓練的各種方法。
  • Scikit-learn玩得很熟了?這些功能你都知道嗎?
    此庫希望在生產中使用時,能具有很好的穩健性和支撐性,所以它的著重點在易用性,代碼質量,協同工作,文檔生成和性能等問題上。不管是對機器學習的初學者還是經驗豐富的專業人士來說,Scikit-learn庫都是應該熟練掌握的優秀軟體包。然而,即使是有經驗的機器學習從業者可能也沒有意識到這個包中所隱藏的一些特性,這些特性可以輕鬆地幫助他們完成任務。
  • 以鳶尾花數據集為例,用Python對決策樹進行分類
    · 分類樹如何進行預測· 如何使用scikit-learn(Python)製作分類樹· 超參數調整現在,讓我們開始吧!什麼是分類樹?換句話說,它是開始進行分類的節點。葉節點(綠色),也稱為終端節點,是沒有子節點的節點。葉節點是通過多數投票分配類的地方。分類樹到三種花種之一的分類(鳶尾花數據集)如何使用分類樹要使用分類樹,請從根節點(棕色)開始,然後一直進行分類,直到到達葉(終端)節點。
  • CDA承接的全球頂級機器學習Scikit-learn 中文社區上線啦!
    (注:scikit-learn的官網是www.scikit-learn.org,CDA承接的中文社區網址是www.scikit-learn.org.cn,這同時也標誌著CDA與全球頂級深度學習和機器學習框架更進一步融合,CDA認證更加得到全球頂級技術框架的認可!
  • Python機器學習之K近鄰分類器
    KNN現在,如果我們有一個分類任務。需要用到scikit-learn庫的分類器對象。分類器要完成的任務是,給定一種鳶尾花卉的測量數據,為這種花卉分類。最簡單的分類器是近鄰分類器。近鄰算法搜索訓練集,尋找與用作測試的新個體最相似的觀測記錄。講到這裡,弄清楚訓練集和測試集這兩個概念很重要。如果確實只有一個數據集,也沒關係,重要的是不要使用同一份數據同時用於訓練和測試。鑑於此,把數據集分為兩部分:一部分專門用於訓練算法,另一部分用於驗證算法。
  • 小白學數據:教你用Python實現簡單監督學習算法
    >在學習步驟中,分類模型通過分析訓練集數據建立一個分類器。在分類步驟中,分類器對給定的數據進行分類。用於分析的數據集(包含數據和其對應的標籤)被劃分為訓練集和測試集。訓練集從分析用的數據集中隨機抽取。剩下的數據集構成測試集。測試集和訓練集相互獨立,即測試集中的數據不會被構建於分類器。測試集用於評價分類器的預測精度。
  • 使用Scikit-Learn了解決策樹分類
    這將使用基尼雜質。讓我們從「 Outlook」特徵開始。重要的是要注意,當「 Outlook」是overcast時,結果總是Yes。該節點只有一類樣本(如下圖所示)。由於這些是分類變量,因此如果我們要應用決策樹分類器並擬合數據,則首先需要創建虛擬變量。
  • Scikit-Learn 學得如何?程式設計師不容錯過十大實用功能來襲
    隨著時間的推移,該項目發展出了許多便捷的功能,變得越來越容易使用。在本文中,我將介紹你可能不太熟悉的10個最實用的功能。Scikit-learn擁有內置數據集Scikit-learnAPI內置了各種實驗以及真實的數據集。只需一行代碼即可訪問這些數據集,如果你正在學習或者想快速嘗試新功能,那麼這些數據集能助你一臂之力。
  • 來看看如何生成測試數據集吧!
    測試數據集是小型的專用數據集,它可以讓你測試一個機器學習算法或測試工具。數據集中的數據有完整的定義(例如線性或非線性)使你可以探索特定的算法行為。scikit-learn Python 庫提供一套函數,用於從可配置測試問題中生成樣本來進行回歸和分類在本教程中,你將學習測試問題及如何在 Python 中使用 scikit-learn 進行測試。
  • Python粉都應該知道的開源機器學習框架:Scikit-learn入門指南
    Scikit-learn的六大功能Scikit-learn的基本功能主要被分為六大部分:分類,回歸,聚類,數據降維,模型選擇和數據預處理。分類是指識別給定對象的所屬類別,屬於監督學習的範疇,最常見的應用場景包括垃圾郵件檢測和圖像識別等。
  • python實現高斯樸素貝葉斯分類器
    python實現高斯樸素貝葉斯分類器    在這篇文章中,我們將使用我最喜歡的機器學習庫scikit-learn在Python中實現樸素貝葉斯分類器。接下來,我們將使用經過訓練的樸素貝葉斯(監督分類法)模型來預測人口收入。
  • 機器學習中不平衡數據集分類示例:乳腺鉬靶微鈣化攝影數據集分類
    在本教程中,您將發現如何開發和評估乳腺癌鉬靶攝影數據集的不平衡分類模型。完成本教程後,您將知道:如何加載和探索數據集,並從中獲得預處理數據與選擇模型的靈感。如何使用代價敏感算法評估一組機器學習模型並提高其性能。
  • WePay機器學習反欺詐實踐:Python+scikit-learn+隨機森林
    他們常常使用各種各樣的技術來隱藏自己的身份和逃避偵測。由於shellselling是一個普遍的難題,而且很難被發現,所以我們決定建立一個機器學習算法來幫助抓住它。構建機器學習算法注意事項在WePay,我們採用Python建立整個機器學習的流程,採用流行的scikit-learn開源學習機器學習工具包。
  • 基於 Python 實現動態分類器集成學習
    如何使用scikit-learn API開發和評估用於分類任務的動態分類器選擇模型。如何探索動態分類器選擇模型超參數對分類準確性的影響。動態分類器選擇使用Scikit-Learn進行動態分類器選擇具有整體本地精度(OLA)的DCS具有本地分類精度(LCA)的DCSDCS的超參數調整在k最近鄰居中探索k探索分類器池的算法多個分類器系統是指機器學習算法的一個領域,該算法使用多個模型來解決分類預測建模問題
  • 怎樣使用python進行PLS-DA建模
    PLS-DA是計算化學中一種常見的分類算法,那麼它在python中如何實現呢?這裡我們使用scikit-learn包首先,導入需要的package:import pandas as pdfrom sklearn.datasets import load_irisfrom sklearn.metrics import accuracy_scorefrom sklearn.cross_decomposition import PLSRegression