面向Kaggle 和離線比賽實用工具庫 nyaggle,解決特徵工程與驗證兩...

2021-01-08 雷鋒網

雷鋒網 AI 開發者按：在大多數機器學習競賽中，特診工程的質量通常決定著整個作品的得分與排名，也是參賽者們非常看重的一部分。在 GitHub 上，作者 Nomi（專注於計算機視覺與嵌入式技術，也是 tiny-dnn 的原作者）向我們介紹了一個面向 kaggle 數據科學和離線競賽的實用工具庫 nyaggle，可供開發者專用於特徵工程與驗證。

作者簡介來源：Nomi

工具庫 nyaggle

在機器學習和模式識別中，特徵工程的好壞將會影響整個模型的預測性能。其中特徵是在觀測現象中的一種獨立、可測量的屬性。選擇信息量大、有差別性、獨立的特徵是模式識別、分類和回歸問題的關鍵一步，可以幫助開發者最大限度地從原始數據中提取特徵以供算法和模型使用。

數據科學思維導圖來源：網絡

而 nyaggle 就是一個特定於 Kaggle 和離線比賽的實用工具庫，它主要作用於四個部分，即：特徵工程、模型驗證、模型實驗以及模型融合，尤其在特徵工程和模型驗證方面有較強的性能。

其中，在特徵工程方面，nyaggle 包含了 K 個特徵目標編碼和 BERT 句子向量化。目標編碼使用的是目標變量的均值編碼類別變量，為訓練集中的每個分組計算目標變量的統計量，之後會合併驗證集、測試集以捕捉分組和目標之間的關係。BERT 句子向量化則是對 Bert 模型的輸入做一個向量化，提取詞句的三維信息。

BERT 詞句向量化示例來源：網絡

nyaggle GitHub 地址：

https://github.com/nyanp/nyaggle

nyaggle 實驗指南

API 詳情說明：nyaggle.experiment 類，實現模型實驗的各個功能

classnyaggle.experiment.Experiment(logging_directory, overwrite=False, custom_logger=None, with_mlflow=False, mlflow_run_id=None, logging_mode='w')

nyaggle.experiment.add_leaderboard_score(logging_directory, score)

nyaggle.experiment.average_results(source_files, output_filename, weight=None, input_format='csv', sample_submission_filename=None)

nyaggle.experiment.find_best_lgbm_parameter(base_param, X, y, cv=None, groups=None, time_budget=None, type_of_target='auto')

nyaggle.experiment.run_experiment（model_params，X_train，y，X_test = None，logging_directory ='output / {time}'，overwrite = False，eval_func = None，algorithm_type ='lgbm'，fit_params = None，cv = None，groups = None，categorical_feature = None，sample_submission = None，submission_filename = None，type_of_target ='auto'，feature_list = None，feature_directory = None，with_auto_hpo = False，with_auto_prep = False，with_mlflow = False）

實驗詳細代碼

在典型的表格數據競賽中，開發者可能會通過交叉驗證重複進行評估，並記錄參數和結果以跟蹤實驗。

其中，run_experiment（）正是用於此類交叉驗證實驗的高級 API，它在指定目錄下輸出參數、指標、異常預測、測試預測、功能重要性和 Submitting.csv。

它可以與 mlflow 跟蹤結合使用，如果使用 LightGBM 作為模型，則代碼將非常簡單如下所示：

import pandas as pdfrom nyaggle.experiment import run_experimentfrom nyaggle.experiment import make_classification_df

INPUT_DIR = '../input'target_column = 'target'

X_train = pd.read_csv(f'{INPUT_DIR}/train.csv')X_test = pd.read_csv(f'{INPUT_DIR}/test.csv')sample_df = pd.read_csv(f'{INPUT_DIR}/sample_submission.csv') # OPTIONAL

y = X_train[target_column]X_train = X_train.drop(target_column, axis=1)

lightgbm_params = {

'max_depth': 8}

result = run_experiment(lightgbm_params,

X_train,

X_test,

sample_submission=sample_df)

值得注意的是，默認的驗證策略是包含了 5 個特徵的計算機視覺，開發者可以通過傳遞 cv 參數來更改此行為（可參閱 API 參考，https://nyaggle.readthedocs.io/en/latest/source/nyaggle.html#）。

之後，run_experiment API 執行交叉驗證後，會將工件存儲到日誌目錄。輸出文件存儲如下：

output

└── 20200130123456 # yyyymmssHHMMSS

├── params.txt # Parameters

├── metrics.txt # Metrics (single fold & overall CV score)

├── oof_prediction.npy # Out of fold prediction

├── test_prediction.npy # Test prediction

├── 20200130123456.csv # Submission csv file

├── importances.png # Feature importance plot

├── log.txt # Log file

└── models # The trained models for each fold

├── fold1

├── fold2

├── fold3

├── fold4

└── fold5

而如果要使用 XGBoost、CatBoost 或其他 sklearn 估計器，則需要在代碼開頭指定算法類型，其中的參數將傳遞給 sklearn API 的構造函數（例如 LGBMClassifier）。

# CatBoostcatboost_params = {

'eval_metric': 'Logloss',

'loss_function': 'Logloss',

'depth': 8,

'task_type': 'GPU'}result = run_experiment(catboost_params,

X_train,

X_test,

algorithm_type='cat')

# XGBoostxgboost_params = {

'objective': 'reg:linear',

'max_depth': 8}result = run_experiment(xgboost_params,

X_train,

X_test,

algorithm_type='xgb')

# sklearn estimatorfrom sklearn.linear_model import Ridgerigde_params = {

'alpha': 1.0}result = run_experiment(rigde_params,

X_train,

X_test,

algorithm_type=Ridge)

如果想讓 GUI 儀錶板管理實驗，開發者則可以通過只設置 with_mlfow = True 來將 run_experiment 與 mlflow 一起使用（需要預先安裝 mlflow）。然後在與執行腳本相同的目錄中，運行即可。

result = run_experiment(params,

X_train,

X_test,

with_mlflow=True)

然後在與執行腳本相同的目錄中，運行即可，相關結果（帶有 CV 得分和參數的實驗列表）可在 http：// localhost：5000 頁面上查看。

mlflow 結果頁面示例

注意：如果要自定義日誌記錄的行為，可以在 mlflow run 上下文中調用 run_experiment；如果正在運行，則 run_experiment 將使用當前正在運行的運行，而不是創建新的運行。

mlflow.set_tracking_uri('gs://ok-i-want-to-use-gcs')

with mlflow.start_run(run_name='your-favorite-run-name'):

mlflow.log_param('something-you-want-to-log', 42)

result = run_experiment(params,

X_train,

X_test,

with_mlflow=True)

其它 API 說明

nyaggle.feature 類——以特徵格式管理運行系列功能

nyaggle.feature.category_encoder

其中，Kfold 包裝器用於類似 sklearn 的界面；此類包裝器的 TransformerMixIn 具有 fit / transform / fit_transform 方法的對象，並以 K 個特徵方式進行調用。而對於不同分類特徵的目標編碼運行方式如下：

對於分類目標 將特徵替換為給定特定分類值的目標後驗概率與所有訓練數據上目標的先驗概率的混合。

對於連續目標 用給定特定分類值的目標期望值和所有訓練數據上目標的期望值的混合替換特徵。

Class

nyaggle.feature.category_encoder.KFoldEncoderWrapper（base_transformer，cv = None，return_same_type = True，groups = None）

Class

nyaggle.feature.nlp.BertSentenceVectorizer（lang ='en'，n_components = None，text_columns = None，pooling_strategy ='reduce_mean'，use_cuda = False，tokenizer = None，model = None，return_same_type = True，column_format ='{col } _ {idx}'）

nyaggle.feature_store 類——sklearn 兼容特徵生成器

nyaggle.feature_store.cached_feature（feature_name，directory ='。/ features /'，ignore_columns = None）

nyaggle.feature_store.load_feature（feature_name，directory ='。/ features /'，ignore_columns = None）

nyaggle.feature_store.load_features（base_df，feature_names，directory ='。/ features /'，ignore_columns = None，create_directory = True，rename_duplicate = True）

nyaggle.feature_store.save_feature（df，feature_name，directory ='。/ features /'，with_csv_dump = False，create_directory = True，reference_target_variable = None，overwrite = True）

nyaggle.validation 類——對抗性驗證，其中的驗證拆分器與 sklearn 兼容

classnyaggle.validation.SlidingWindowSplit(source, train_from, train_to, test_from, test_to, n_windows, stride)

classnyaggle.validation.Take(n, base_validator)

classnyaggle.validation.TimeSeriesSplit(source, times=None)

nyaggle.validation.adversarial_validate(X_train, X_test, importance_type='gain', estimator=None, cat_cols=None, cv=None)

nyaggle.validation.cross_validate(estimator, X_train, y, X_test=None, cv=None, groups=None, predict_proba=False, eval_func=None, logger=None, on_each_fold=None, fit_params=None, importance_type='gain', early_stopping=True, type_of_target='auto')

nyaggle.util 類

nyaggle.util.plot_importance(importance, path=None, top_n=100, figsize=None, title=None)

nyaggle.hyper_parameters 類——從以往的解決方案中選取 Hypara 相關參數

nyaggle.hyper_parameters.get_hyperparam_byname（name，gbdt_type ='lgbm'，with_metadata = False）

nyaggle.hyper_parameters.list_hyperparams（gbdt_type ='lgbm'，with_metadata = False）

雷鋒網 AI 開發者雷鋒網(公眾號：雷鋒網)

雷鋒網原創文章，未經授權禁止轉載。詳情見轉載須知。

面向Kaggle 和離線比賽實用工具庫 nyaggle,解決特徵工程與驗證兩...

相關焦點

Kaggle比賽入門——房價預測

Kaggle亞馬遜比賽冠軍專訪:利用標籤相關性來處理分類問題

我是如何成為Kaggle全網第一的?

深度高能粒子對撞追蹤:Kaggle TrackML粒子追蹤挑戰賽亞軍訪談

這幾個常用的python庫你需要知道

吸引7198 支隊伍參賽,看 Kaggle 信用預估比賽冠軍方案

2019年必知的10大頂級Python庫

數據分析秘籍在這裡:Kaggle 六大比賽最全面解析(上)

226個造價工程最實用計算工具,簡單實用省事

機器學習:特徵選擇和降維實例

深度體驗搜狗翻譯寶:離線翻譯+實景拍照翻譯很實用

碩博研究生必備的論文網站和實用科研工具

數值數據的特徵工程

正則表達式生成工具,小白有這兩個工具就夠了

Kaggle比賽冠軍經驗分享:如何用 RNN 預測維基百科網絡流量

50個實用的JavaScript工具

圖像特徵工程:HOG特徵描述子介紹

開發者必備的15個實用Javascript庫

Python學習120課 pandas簡介kaggle下載數據及pandas讀取外部數據