在lightgbm中進行超參數調優的指南

一、LightGBM調參過程圖

在開始具體介紹如何在LightGBM中進行超參數調優之前,我們先來看一下整個調參過程的圖示:

根據上圖,我們可以分為以下幾步進行LightGBM調參:

二、LightGBM調色

對於LightGBM的超參數調優,在確定好超參數範圍之後,我們可以使用Grid Search, Random Search和Bayesian optimization等方式進行搜索。在這裡,我們先介紹一下Grid Search和Random Search。

Grid Search 和 Random Search 的對比

Grid Search 和 Random Search 是兩種相對簡單和常用的網格搜索和隨機搜索方法。在 LightGBM中,網格搜索常常能取得不錯效果,而隨機搜索在一些場景下更為適用。

我們這裡主要介紹 Grid Search 和 Random Search 分別的優缺點。

Grid Search

Grid Search 是將超參數的可能取值按照一定網格分布,然後對每一組可能參數值都進行模型訓練和評價,最後選出最優的一組參數值。其優點是遍歷所有可能的參數值,簡單易行,能保證找到全局最優解,但同時也存在顯著的計算開銷較大的問題,網格不均勻時可能會出現局部最優問題。

Random Search

Random Search 是基於隨機的搜索方法,將超參數的可能取值隨機分布,再針對每一組可能的隨機參數值進行模型訓練和評價,最終選出最優的一組參數值。其優點是能夠在參數空間中更廣泛地探查,相對於 Grid Search 對參數空間分割的更加均勻和全面。同時,計算開銷比 Grid Search 相對較小。

LightGBM調色參數選取

其實,參數調優是一個相對比較苦的活,靠經驗積累和足夠的實驗。我們這裡主要從以下幾個方面介紹在LightGBM中,需要進行調參的主要參數:

學習率(learning rate)

學習率是調整每次模型迭代時的步長,其過大容易出現收斂困難,甚至不收斂的問題;而過小則需要很長的訓練時間。 LightGBM 默認的學習率為 0.1,通常這也可作為一個默認值。如果需要嘗試其他學習率時,建議從 [0.001, 0.1]這個範圍開始。

樹的深度(max_depth)

max_depth一般減小至3-8,能有效防止過擬合。然而,它應該在模型中更嚴格地約束葉子節點數量相對於樹的深度的大小。

葉子節點個數(num_leaves)

num_leaves 是 LightGBM 中非常重要的超參數之一,它決定了一棵樹上至多能夠存在的葉子節點數目。num_leaves 值越大,則模型複雜度越高,且容易出現過擬合;反之,模型可能欠擬合。 初始 num_leaves 的取值可以根據訓練集中樣本數量的大小 (N)進行計算,即 num_leaves = 2^(max_depth) ≤ N。

防止過擬合(min_data_in_leaf和\ max_bin)

max_bin:特徵值離散化的最大數量;

min_data_in_leaf:一個葉節點的最小樣本數量;

帶著這些參數去跑起來,你會發現:這樣一來可以初步探索哪些參數比較重要,然後接下來就可以針對重要的參數進行調整和優化。

三、目標函數

對於 LightGBM 中的目標函數,其默認是 Regression,在分類問題中默認使用 Cross-Entropy。

如果你需要進行目標函數的更改,可以在調用函數中使用 objective 參數,例如:

objective = 'multiclassova'
num_class = 10

上述代碼中,我們對 objective 進行了更改,使其適用於多分類問題,這裡 num_class = 10 指定了分類的類別數目。

四、訓練數據

最後,我們來考慮一下在 LightGBM 調整中需要注意的訓練數據情況。對於訓練數據來說,我們需要考慮以下幾個方面:

數據格式

LightGBM 支持的數據格式包括 libsvm 格式數據和二進位數據。對於 libsvm 格式數據,其每行格式可以使用以下格式:

其中 label 是數據的標籤,index 是特徵的索引(從1開始,0表示數據中沒有對應的特徵),value 是特徵的值。舉個例子 ,圖中所示的樣本,使用 libsvm 格式表示為:

3 1:0.55 3:0.23 11:0.75 14:0.12 ... 23:0.9 39:0.17

在 LightGBM 訓練時,使用這個數據格式:

train_data = lgb.Dataset(X_train, y_train, free_raw_data=False, silent=True,
                              feature_name=feature_cols, categorical_feature=cate_cols)

類別型數據 (categorical features)

最後要注意的是類別型特徵。LightGBM 默認採用 k-means 演算法來將連續型特徵轉變為離散化類別特徵。如果一個很高的精度需要這個模型在沒有達到精度上的性能損失條件下,你可以覆蓋默認的 k-means 實現。但是,對一些固定的、有限的類別型特徵(如花的顏色),默認的 k-means 轉換可能不足以滿足需求。

總結

LightGBM 是一個高效的並行決策樹構造演算法,能夠在較大數據集或高維數據上高效地處理。

在超參數調優時,我們可以採用 Grid Search 和 Random Search 進行搜索,並對學習率、樹的深度和葉子節點個數等重要參數進行細緻調整。此外,在訓練數據方面需要注意數據格式,以及類別型數據的處理。

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/285437.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2024-12-22 15:44
下一篇 2024-12-22 15:44

相關推薦

  • Java JsonPath 效率優化指南

    本篇文章將深入探討Java JsonPath的效率問題,並提供一些優化方案。 一、JsonPath 簡介 JsonPath是一個可用於從JSON數據中獲取信息的庫。它提供了一種DS…

    編程 2025-04-29
  • 運維Python和GO應用實踐指南

    本文將從多個角度詳細闡述運維Python和GO的實際應用,包括監控、管理、自動化、部署、持續集成等方面。 一、監控 運維中的監控是保證系統穩定性的重要手段。Python和GO都有強…

    編程 2025-04-29
  • Python應用程序的全面指南

    Python是一種功能強大而簡單易學的編程語言,適用於多種應用場景。本篇文章將從多個方面介紹Python如何應用於開發應用程序。 一、Web應用程序 目前,基於Python的Web…

    編程 2025-04-29
  • Python wordcloud入門指南

    如何在Python中使用wordcloud庫生成文字雲? 一、安裝和導入wordcloud庫 在使用wordcloud前,需要保證庫已經安裝並導入: !pip install wo…

    編程 2025-04-29
  • Python小波分解入門指南

    本文將介紹Python小波分解的概念、基本原理和實現方法,幫助初學者掌握相關技能。 一、小波變換概述 小波分解是一種廣泛應用於數字信號處理和圖像處理的方法,可以將信號分解成多個具有…

    編程 2025-04-29
  • Python字元轉列表指南

    Python是一個極為流行的腳本語言,在數據處理、數據分析、人工智慧等領域廣泛應用。在很多場景下需要將字元串轉換為列表,以便於操作和處理,本篇文章將從多個方面對Python字元轉列…

    編程 2025-04-29
  • 三星內存條參數用法介紹

    本文將詳細解釋三星內存條上面的各種參數,讓你更好地了解內存條並選擇適合自己的一款。 一、容量大小 容量大小是內存條最基本的參數,一般以GB為單位表示,常見的有2GB、4GB、8GB…

    編程 2025-04-29
  • Python3定義函數參數類型

    Python是一門動態類型語言,不需要在定義變數時顯示的指定變數類型,但是Python3中提供了函數參數類型的聲明功能,在函數定義時明確定義參數類型。在函數的形參後面加上冒號(:)…

    編程 2025-04-29
  • Python初學者指南:第一個Python程序安裝步驟

    在本篇指南中,我們將通過以下方式來詳細講解第一個Python程序安裝步驟: Python的安裝和環境配置 在命令行中編寫和運行第一個Python程序 使用IDE編寫和運行第一個Py…

    編程 2025-04-29
  • FusionMaps應用指南

    FusionMaps是一款基於JavaScript和Flash的互動式地圖可視化工具。它提供了一種簡單易用的方式,將複雜的數據可視化為地圖。本文將從基礎的配置開始講解,到如何定製和…

    編程 2025-04-29

發表回復

登錄後才能評論