作者:陳穎祥、楊子晗
編譯:AI有道
經過數據預處理和特徵選擇,我們已經生成了一個很好的特徵子集。但是有時該子集可能仍然包含過多特徵,導致需要花費太多的計算能力用以訓練模型。在這種情況下,我們可以使用降維技術進一步壓縮特徵子集。但這可能會降低模型性能。
同時,如果我們沒有太多時間進行特徵選擇,我們也可以在數據預處理之後直接應用降維方法。我們可以使用降維算法來壓縮原始特徵空間直接生成特徵子集。
具體來說,我們將分別介紹PCA和LDA(線性判別分析)。
項目地址:
https://github.com/YC-Coder-Chen/feature-engineering-handbook/blob/master/%E4%B8%AD%E6%96%87%E7%89%88.md
本文將介紹特徵工程中的特徵降維。
目錄:
1.1 Unsupervised Methods 非監督方法
1.1.1 PCA (Principal Components Analysis) 主成分分析
主成分分析(PCA)是一種無監督機器學習模型,其目標為利用線性變換將原始特徵投影為一系列線性不相關的單位向量,而同時保留儘可能多的信息(方差)。您可以從我們在Github中編寫的repo中查看更多數學細節。
https://github.com/YC-Coder-Chen/Unsupervised-Notes/blob/master/PCA.md
import numpy as npimport pandas as pdfrom sklearn.decomposition import PCA
# 直接載入數據集from sklearn.datasets import fetch_california_housingdataset = fetch_california_housing()X, y = dataset.data, dataset.target # 利用 california_housing 數據集來演示
# 選擇前15000個觀測點作為訓練集# 剩下的作為測試集train_set = X[0:15000,:]test_set = X[15000:,]train_y = y[0:15000]
# 在使用主成分分析前,我們需要先對變量進行縮放操作,否則PCA將會賦予高尺度的特徵過多的權重from sklearn.preprocessing import StandardScalermodel = StandardScaler()model.fit(train_set) standardized_train = model.transform(train_set)standardized_test = model.transform(test_set)
# 開始壓縮特徵compressor = PCA(n_components=0.9) # 將n_components設置為0.9 =># 即要求我們從所有主成分中選取的輸出主成分至少能保留原特徵中90%的方差# 我們也可以通過設置n_components參數為整數直接控制輸出的變量數目
compressor.fit(standardized_train) # 在訓練集上訓練transformed_trainset = compressor.transform(standardized_train) # 轉換訓練集 (20000,5)# 即我們從8個主成分中選取了前5個主成分,而這前5個主成分可以保證保留原特徵中90%的方差
transformed_testset = compressor.transform(standardized_test) # 轉換測試集assert transformed_trainset.shape[1] == transformed_testset.shape[1] # 轉換後訓練集和測試集有相同的特徵數# 可視化 所解釋的方差與選取的主成分數目之間的關係
import matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']%matplotlib inline
plt.plot(np.array(range(len(compressor.explained_variance_ratio_))) + 1, np.cumsum(compressor.explained_variance_ratio_))plt.xlabel('選取的主成分數目')plt.ylabel('累計所解釋的方差累')plt.show(); # 前5個主成分可以保證保留原特徵中90%的方差1.2 Supervised Methods 監督方法
1.2.1 LDA (Linear Discriminant Analysis) 線性判別分析
與主成分分析(PCA)不同的是,線性判別分析(LDA)是一種有監督機器學習模型,旨在找到特徵子集以最大化類線性可分離性,即希望投影望同一種類別數據的投影點儘可能的接近,而不同類別的數據的類別中心之間的距離儘可能的大。線性判別分析僅適用於分類問題,其假設各個類別的樣本數據符合高斯分布,並且具有相同的協方差矩陣。
可以在sklearn的官方網站上了解更多原理方面的詳細信息。LDA會將原始變量壓縮為(K-1)個,其中K是目標變量類別數。但是在sklearn中,通過將主成分分析的思想合併到LDA中,其可以進一步壓縮變量。
import numpy as npimport pandas as pdfrom sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA
# LDA僅適用於分類問題# 載入數據集from sklearn.datasets import load_irisiris = load_iris()X, y = iris.data, iris.target
# iris 數據集使用前需要被打亂順序np.random.seed(1234)idx = np.random.permutation(len(X))X = X[idx]y = y[idx]
# 選擇前100個觀測點作為訓練集# 剩下的50個觀測點測試集
train_set = X[0:100,:]test_set = X[100:,]train_y = y[0:100]test_y = y[100:,]
# 在使用主成分分析前,我們需要先對變量進行縮放操作# 因為LDA假定數據服從正態分布
from sklearn.preprocessing import StandardScaler # 我們也可以採用冪次變換model = StandardScaler()model.fit(train_set) standardized_train = model.transform(train_set)standardized_test = model.transform(test_set)
# 開始壓縮特徵compressor = LDA(n_components=2) # 將n_components設置為2# n_components <= min(n_classes - 1, n_features)
compressor.fit(standardized_train, train_y) # 在訓練集上訓練transformed_trainset = compressor.transform(standardized_train) # 轉換訓練集 (20000,2)transformed_testset = compressor.transform(standardized_test) # 轉換測試集assert transformed_trainset.shape[1] == transformed_testset.shape[1]# 轉換後訓練集和測試集有相同的特徵數# 可視化 所解釋的方差與選取的特徵數目之間的關係import matplotlib.pyplot as pltplt.plot(np.array(range(len(compressor.explained_variance_ratio_))) + 1, np.cumsum(compressor.explained_variance_ratio_))plt.xlabel('選取的特徵數目')plt.ylabel('累計所解釋的方差累')plt.show(); # LDA將原始的4個變量壓縮為2個,這2個變量即能解釋100%的方差中文版 Jupyter 地址:
https://github.com/YC-Coder-Chen/feature-engineering-handbook/blob/master/%E4%B8%AD%E6%96%87%E7%89%88/3.%20%E7%89%B9%E5%BE%81%E9%99%8D%E7%BB%B4.ipynb
至此,基於 Jupyter 的特徵工程專欄已全部更新完畢,歷史文章匯總如下:專欄 | 基於 Jupyter 的特徵工程手冊:數據預處理(一)
專欄 | 基於 Jupyter 的特徵工程手冊:數據預處理(二)
專欄 | 基於 Jupyter 的特徵工程手冊:數據預處理(三)
專欄 | 基於 Jupyter 的特徵工程手冊:數據預處理(四)
專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(一)
專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(二)
專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(三)
專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(四)
專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(五)
算法工程師必備!
AI有道年度技術文章電子版PDF來啦!
掃描下方二維碼,添加 AI有道小助手微信,可申請入群,並獲得2020完整技術文章合集PDF(一定要備註:入群 + 地點 + 學校/公司。例如:入群+上海+復旦。
長按掃碼,申請入群
(添加人數較多,請耐心等待)
最新 AI 乾貨,我在看