XGBoost n_estimator參數調節

XGBoost 是 處理結構化數據常用的機器學習框架之一,其中的 n_estimator 參數決定着模型的複雜度和訓練速度,這篇文章將從多個方面詳細闡述 n_estimator 參數的調節方法和效果。

一、參數簡介

XGBoost 中的 n_estimator 參數是指決策樹的數量,也就是集成方法中弱分類器的個數。增加 n_estimator 往往能夠提升模型的精度,但是也會增加模型的計算時間和內存佔用。

二、調節方法

1. 網格搜索

網格搜索是一種通過排列組合參數的方式來尋找最優超參數的方法,可以通過 Scikit-learn 中的 GridSearchCV 類進行實現:

import xgboost as xgb
from sklearn.model_selection import GridSearchCV

parameters = {'n_estimators': [100, 200, 500]}
xgb_model = xgb.XGBClassifier()
grid_search = GridSearchCV(estimator=xgb_model, param_grid=parameters, scoring='accuracy', cv=5)
grid_search.fit(X_train, y_train)

best_parameters = grid_search.best_params_
print(best_parameters)

2. 交叉驗證

交叉驗證是一種在模型選擇和超參數調節過程中常用的技術,可以有效地減小過擬合和提升模型的泛化能力。可以通過 XGBoost 中的 cv 函數進行實現:

import xgboost as xgb

params = {'n_estimators': 500, 'max_depth': 6, 'learning_rate': 0.1, 'subsample': 0.8, 'min_child_weight': 1}
cv_results = xgb.cv(dtrain=dtrain, params=params, nfold=5, num_boost_round=100, metrics="rmse", early_stopping_rounds=10, stratified=False)
cv_results.head()

3. 單個參數變化

使用單個變量來逐一嘗試不同的 n_estimator 值,可以得到一個局部最優解,但是這種方法不一定能夠找到全局最優解。下面是一個簡單的演示:

import xgboost as xgb

params = {'max_depth': 6, 'learning_rate': 0.1, 'subsample': 0.8, 'min_child_weight': 1}
eval_set = [(X_test, y_test)]
n_estimators = [50, 100, 200, 300]

for n_est in n_estimators:
    xgb_model = xgb.XGBClassifier(n_estimators=n_est, **params)
    xgb_model.fit(X_train, y_train, eval_metric=["error", "logloss"], eval_set=eval_set, early_stopping_rounds=10, verbose=True)

三、效果評估

在了解 n_estimator 的調節方法後,需要進行效果評估。下面是一個簡單的演示,使用分類準確率和 F1-score 評價模型效果:

import xgboost as xgb
from sklearn.metrics import accuracy_score, f1_score

params = {'n_estimators': 500, 'max_depth': 6, 'learning_rate': 0.1, 'subsample': 0.8, 'min_child_weight': 1}
xgb_model = xgb.XGBClassifier(**params)
xgb_model.fit(X_train, y_train)

y_pred = xgb_model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
f1score = f1_score(y_test, y_pred, average='macro')

print("Accuracy:", accuracy)
print("F1-score:", f1score)

四、總結

通過對 XGBoost 中 n_estimator 參數的詳細闡述,我們可以發現選擇最優的 n_estimator 參數對於提升模型表現是非常有必要的。使用網格搜索、交叉驗證和單個參數變化這三種方式可逐一驗證不同的 n_estimator 的值,最後可以通過評價指標來選擇最優值。

原創文章,作者:OXHOP,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/374917.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
OXHOP的頭像OXHOP
上一篇 2025-04-28 13:17
下一篇 2025-04-28 13:17

相關推薦

  • 三星內存條參數用法介紹

    本文將詳細解釋三星內存條上面的各種參數,讓你更好地了解內存條並選擇適合自己的一款。 一、容量大小 容量大小是內存條最基本的參數,一般以GB為單位表示,常見的有2GB、4GB、8GB…

    編程 2025-04-29
  • Python3定義函數參數類型

    Python是一門動態類型語言,不需要在定義變量時顯示的指定變量類型,但是Python3中提供了函數參數類型的聲明功能,在函數定義時明確定義參數類型。在函數的形參後面加上冒號(:)…

    編程 2025-04-29
  • Spring Boot中發GET請求參數的處理

    本文將詳細介紹如何在Spring Boot中處理GET請求參數,並給出完整的代碼示例。 一、Spring Boot的GET請求參數基礎 在Spring Boot中,處理GET請求參…

    編程 2025-04-29
  • Python input參數變量用法介紹

    本文將從多個方面對Python input括號里參數變量進行闡述與詳解,並提供相應的代碼示例。 一、基本介紹 Python input()函數用於獲取用戶輸入。當程序運行到inpu…

    編程 2025-04-29
  • Hibernate日誌打印sql參數

    本文將從多個方面介紹如何在Hibernate中打印SQL參數。Hibernate作為一種ORM框架,可以通過打印SQL參數方便開發者調試和優化Hibernate應用。 一、通過配置…

    編程 2025-04-29
  • Python函數名稱相同參數不同:多態

    Python是一門面向對象的編程語言,它強烈支持多態性 一、什麼是多態多態是面向對象三大特性中的一種,它指的是:相同的函數名稱可以有不同的實現方式。也就是說,不同的對象調用同名方法…

    編程 2025-04-29
  • Python Class括號中的參數用法介紹

    本文將對Python中類的括號中的參數進行詳細解析,以幫助初學者熟悉和掌握類的創建以及參數設置。 一、Class的基本定義 在Python中,通過使用關鍵字class來定義類。類包…

    編程 2025-04-29
  • 全能編程開發工程師必知——DTD、XML、XSD以及DTD參數實體

    本文將從大體介紹DTD、XML以及XSD三大知識點,同時深入探究DTD參數實體的作用及實際應用場景。 一、DTD介紹 DTD是文檔類型定義(Document Type Defini…

    編程 2025-04-29
  • Python可變參數

    本文旨在對Python中可變參數進行詳細的探究和講解,包括可變參數的概念、實現方式、使用場景等多個方面,希望能夠對Python開發者有所幫助。 一、可變參數的概念 可變參數是指函數…

    編程 2025-04-29
  • Python中的SVD函數參數用法介紹

    在本篇文章中將詳細介紹Python中的SVD函數,分析其參數的作用及如何調整這些參數以獲取最佳效果。 一、SVD函數概述 SVD是奇異值分解(Singular Value Deco…

    編程 2025-04-28

發表回復

登錄後才能評論