對於數據科學家來說,處理丟失的數據是數據清理和模型開發過程中的一個重要部分。通常情況下,真實數據包含多個稀疏欄位或包含錯誤值的欄位。在這篇文章中,我們將討論如何建立可以用來填補數據中缺失或錯誤值的模型。
出於我們的目的,我們將使用可以在這裡找到的葡萄酒數據集:https://www.kaggle.com/zynicide/wine-reviews
import pandas as pddf = pd.read_csv("winemag-data-130k-v2.csv")接下來,讓我們輸出前五行數據:
print(df.head())
讓我們從這些數據中隨機抽取500條記錄。這將有助於加快模型訓練和測試,儘管讀者可以很容易地對其進行修改:
import pandas as pddf = pd.read_csv("winemag-data-130k-v2.csv").sample(n=500, random_state = 42)現在,讓我們列印與數據對應的信息,這將使我們了解哪些列缺少值:
print(df.info())
有幾個列的非空值小於500,這與缺少的值相對應。首先,讓我們考慮建立一個模型,用「points」來估算缺失的「price」值。首先,讓我們列印「price」和「points」之間的相關性:
print("Correlation: ", df['points'].corr(df['price']))
我們看到了一個微弱的正相關。讓我們建立一個線性回歸模型,用「points」來預測「price」。首先,讓我們從「scikit learn」導入「LinearRegresssion」模塊:
from sklearn.linear_model import LinearRegression現在,讓我們為訓練和測試拆分數據。我們希望能夠預測缺失值,但我們應該使用真實值「price」來驗證我們的預測。讓我們通過只選擇正價格值來篩選缺少的值:
import numpy as np df_filter = df[df['price'] > 0].copy()我們還可以初始化用於存儲預測和實際值的列表:
y_pred = []y_true = []我們將使用K-fold交叉驗證來驗證我們的模型。讓我們從「scikit learn」導入「KFolds」模塊。我們將使用10折來驗證我們的模型:
from sklearn.model_selection import KFoldkf = KFold(n_splits=10, random_state = 42)for train_index, test_index in kf.split(df_filter): df_test = df_filter.iloc[test_index] df_train = df_filter.iloc[train_index]我們現在可以定義我們的輸入和輸出:
for train_index, test_index in kf.split(df_filter): ... X_train = np.array(df_train['points']).reshape(-1, 1) y_train = np.array(df_train['price']).reshape(-1, 1) X_test = np.array(df_test['points']).reshape(-1, 1) y_test = np.array(df_test['price']).reshape(-1, 1)並擬合我們的線性回歸模型:
for train_index, test_index in kf.split(df_filter): ... model = LinearRegression() model.fit(X_train, y_train)現在讓我們生成並存儲我們的預測:
for train_index, test_index in kf.split(df_filter): ... y_pred.append(model.predict(X_test)[0]) y_true.append(y_test[0])現在讓我們評估一下模型的性能。讓我們用均方誤差來評估模型的性能:
print("Mean Square Error: ", mean_squared_error(y_true, y_pred))
並不太好。我們可以通過訓練平均價格加上一個標準差來改善這一點:
df_filter = df[df['price'] <= df['price'].mean() + df['price'].std() ].copy()...print("Mean Square Error: ", mean_squared_error(y_true, y_pred))
雖然這大大提高了性能,但其代價是無法準確估算葡萄酒的price。與使用單一特徵的回歸模型預測價格不同,我們可以使用樹基模型,例如隨機森林模型,它可以處理類別和數值變量。
讓我們建立一個隨機森林回歸模型,使用「country」、「province」、「variety」、「winery」和「points」來預測葡萄酒的「price」。首先,讓我們將分類變量轉換為可由隨機森林模型處理的分類代碼:
df['country_cat'] = df['country'].astype('category')df['country_cat'] = df['country_cat'].cat.codesdf['province_cat'] = df['province'].astype('category')df['province_cat'] = df['province_cat'].cat.codesdf['winery_cat'] = df['winery'].astype('category')df['winery_cat'] = df['winery_cat'].cat.codesdf['variety_cat'] = df['variety'].astype('category')df['variety_cat'] = df['variety_cat'].cat.codes讓我們將隨機樣本大小增加到5000:
df = pd.read_csv("winemag-data-130k-v2.csv").sample(n=5000, random_state = 42)接下來,讓我們從scikit learn導入隨機森林回歸器模塊。我們還可以定義用於訓練模型的特徵列表:
from sklearn.ensemble import RandomForestRegressorfeatures = ['points', 'country_cat', 'province_cat', 'winery_cat', 'variety_cat']讓我們用一個隨機森林來訓練我們的模型,它有1000個估計量,最大深度為1000。然後,讓我們生成預測並將其附加到新列表中:
for train_index, test_index in kf.split(df_filter): df_test = df_filter.iloc[test_index] df_train = df_filter.iloc[train_index] X_train = np.array(df_train[features]) y_train = np.array(df_train['price']) X_test = np.array(df_test[features]) y_test = np.array(df_test['price']) model = RandomForestRegressor(n_estimators = 1000, max_depth = 1000, random_state = 42) model.fit(X_train, y_train) y_pred_rf.append(model.predict(X_test)[0]) y_true_rf.append(y_test[0])最後,讓我們評估隨機森林和線性回歸模型的均方誤差:
print("Mean Square Error (Linear Regression): ", mean_squared_error(y_true, y_pred))print("Mean Square Error (Random Forest): ", mean_squared_error(y_pred_rf, y_true_rf))
我們看到隨機森林模型具有優越的性能。現在,讓我們使用我們的模型預測缺失的價格值,並顯示price預測:
df_missing = df[df['price'].isnull()].copy()X_test_lr = np.array(df_missing['points']).reshape(-1, 1)X_test_rf = np.array(df_missing[features])X_train_lr = np.array(df_filter['points']).reshape(-1, 1) y_train_lr = np.array(df_filter['price']).reshape(-1, 1)X_train_rf = np.array(df_filter[features])y_train_rf = np.array(df_filter['price'])model_lr = LinearRegression()model_lr.fit(X_train_lr, y_train_lr)print("Linear regression predictions: ", model_lr.predict(X_test_lr)[0][0])model_rf = RandomForestRegressor(n_estimators = 1000, max_depth = 1000, random_state = 42)model_rf.fit(X_train_rf, y_train_rf)print("Random forests regression predictions: ", model_rf.predict(X_test_rf)[0])
我就到此為止,但我鼓勵你嘗試一下特徵選擇和超參數調整,看看是否可以提高性能。此外,我鼓勵你擴展此數據進行插補模型,以填補「region_1」和「designation」等分類欄位中的缺失值。在這裡,你可以構建一個基於樹的分類模型,根據分類和數值特徵來預測所列類別的缺失值。
結論
總而言之,在這篇文章中,我們討論了如何建立機器學習模型,我們可以用來填補數據中的缺失值。首先,我們建立了一個線性回歸模型,用以預測葡萄酒的價格。然後,我們建立了一個隨機森林模型,用「points」和其他分類變量來預測葡萄酒價格。我們發現,隨機森林模型顯著優於基於線性回歸的數據插補模型。本文中的代碼可以在GitHub上找到。謝謝你的閱讀!
Github連結:https://github.com/spierre91/medium_code/blob/master/machine_learning/predict_missing_data.py