python中lightgbm（Python 中）

本文目錄一覽：

1、lightgbm怎麼導入到python
2、LightGBM 如何確定最佳迭代次數？
3、lightgbm演算法的python實現是哪一年提出的
4、如何看待微軟新開源的LightGBM
5、比XGBOOST更快–LightGBM介紹

lightgbm怎麼導入到python

Numpy是Python的一個科學計算的庫，提供了矩陣運算的功能，一般與Scipy、matplotlib一起使用。導入numpy的範例如下:import numpy as npprint np.version.version1.6.2

LightGBM 如何確定最佳迭代次數？

LightGBM中實現了哪些梯度增強方法，它們有什麼區別?一般來說，哪些參數是重要的?哪些正則化參數需要調整?如何調整lightGBM參數在python?梯度提升的方法

使用LightGBM，你可以運行不同類型的漸變增強提升方法。你有:GBDT、DART和GOSS，這些可以通過「boosting」參數指定。

在下一節中，我將對這些方法進行解釋和比較。

梯度提升決策樹(GBDT)

該方法是本文首先提出的傳統梯度提升決策樹，也是XGBoost和pGBRT等優秀庫背後的演算法。

由於其精度高、效率高、穩定性好，目前已得到廣泛的應用。你可能知道gbdt是一個決策樹的集合模型但是它到底是什麼意思呢?

讓我來告訴你要點。

它基於三個重要原則:

弱學習者(決策樹)梯度優化提升技術所以在gbdt方法中，我們有很多決策樹(弱學習者)。這些樹是按順序構建的:

首先，樹學習如何適應目標變數第二棵樹學習如何適合殘差(差異)之間的預測，第一棵樹和地面真相第三棵樹學習如何匹配第二棵樹的殘差，以此類推。所有這些樹都是通過傳播整個系統的誤差梯度來訓練的。

gbdt的主要缺點是，在每個樹節點中找到最佳分割點非常耗時，而且會消耗內存。其他的提升方法試圖解決這個問題。

DART梯度提升

在這篇優秀的論文中(arxiv/1505.01866)，你可以學習所有關於DART梯度提升的東西，這是一種使用dropout(神經網路中的標準)的方法，來改進模型正則化和處理一些其他不太明顯的問題。

也就是說，gbdt存在過度專門化(over-specialization)的問題，這意味著在以後的迭代中添加的樹往往只會影響對少數實例的預測，而對其餘實例的貢獻則可以忽略不計。添加dropout會使樹在以後的迭代中更加難以專門化那些少數的示例，從而提高性能。

lgbm goss基於梯度的單邊採樣

事實上，將該方法命名為lightgbm的最重要原因就是使用了基於本文的Goss方法。Goss是較新的、較輕的gbdt實現(因此是「light」gbm)。

標準的gbdt是可靠的，但在大型數據集上速度不夠快。因此goss提出了一種基於梯度的採樣方法來避免搜索整個搜索空間。我們知道，對於每個數據實例，當梯度很小時，這意味著不用擔心數據是經過良好訓練的，而當梯度很大時，應該重新訓練。這裡我們有兩個方面，數據實例有大的和小的漸變。因此，goss以一個大的梯度保存所有數據，並對一個小梯度的數據進行隨機抽樣(這就是為什麼它被稱為單邊抽樣)。這使得搜索空間更小，goss的收斂速度更快。

讓我們把這些差異放在一個表格中:

注意:如果你將增強設置為RF，那麼lightgbm演算法表現為隨機森林而不是增強樹! 根據文檔，要使用RF，必須使用baggingfraction和featurefraction小於1。

正則化

在這一節中，我將介紹lightgbm的一些重要的正則化參數。顯然，這些是您需要調優以防止過擬合的參數。

您應該知道，對於較小的數據集(10000條記錄)，lightGBM可能不是最佳選擇。在這裡，調優lightgbm參數可能沒有幫助。

此外，lightgbm使用葉向樹生長演算法，而xgboost使用深度樹生長演算法。葉向方法使樹的收斂速度更快，但過擬合的幾率增加。

注意:如果有人問您LightGBM和XGBoost之間的主要區別是什麼?你可以很容易地說，它們的區別在於它們是如何實現的。

根據lightGBM文檔，當面臨過擬合時，您可能需要做以下參數調優:

使用更小的max_bin使用更小的num_leaves使用mindatainleaf和minsumhessianin_leaf通過設置baggingfraction和baggingfreq使用bagging_freq通過設置feature_fraction使用特徵子採樣使用更大的訓練數據嘗試lambdal1、lambdal2和mingainto_split進行正則化嘗試max_depth以避免樹的深度增長在下面的部分中，我將更詳細地解釋這些參數。

lambda_l1

Lambdal1(和lambdal2)控制l1/l2，以及mingainto_split用於防止過擬合。我強烈建議您使用參數調優(在後面的小節中討論)來確定這些參數的最佳值。

num_leaves

numleaves無疑是控制模型複雜性的最重要參數之一。通過它，您可以設置每個弱學習者擁有的葉子的最大數量。較大的numleaves增加了訓練集的精確度，也增加了因過度擬合而受傷的幾率。根據文檔，一個簡單的方法是numleaves = 2^(maxdepth)但是，考慮到在lightgbm中葉狀樹比層次樹更深，你需要小心過度擬合!因此，必須同時使用maxdepth調優numleaves。

子採樣

通過子樣例(或bagging_fraction)，您可以指定每個樹構建迭代使用的行數百分比。這意味著將隨機選擇一些行來匹配每個學習者(樹)。這不僅提高了泛化能力，也提高了訓練速度。

我建議對基線模型使用更小的子樣本值，然後在完成其他實驗(不同的特徵選擇，不同的樹結構)時增加這個值。

feature_fraction

特徵分數或子特徵處理列採樣，LightGBM將在每次迭代(樹)上隨機選擇特徵子集。例如，如果將其設置為0.6,LightGBM將在訓練每棵樹之前選擇60%的特性。

這個功能有兩種用法:

可以用來加速訓練嗎可以用來處理過擬合嗎

max_depth

該參數控制每棵經過訓練的樹的最大深度，將對:

num_leaves參數的最佳值模型的性能訓練時間注意，如果您使用較大的max_depth值，那麼您的模型可能會對於訓練集過擬合。

max_bin

裝箱是一種用離散視圖(直方圖)表示數據的技術。Lightgbm在創建弱學習者時，使用基於直方圖的演算法來尋找最優分割點。因此，每個連續的數字特性(例如視頻的視圖數)應該被分割成離散的容器。

此外，在這個GitHub repo(huanzhang12/lightgbm-gpu)中，你可以找到一些全面的實驗，完全解釋了改變max_bin對CPU和GPU的影響。

如果你定義maxbin 255，這意味著我們可以有255個唯一的值每個特性。那麼，較小的maxbin會導致更快的速度，較大的值會提高準確性。

訓練參數

當你想用lightgbm訓練你的模型時，一些典型的問題可能會出現:

訓練是一個耗時的過程處理計算複雜度(CPU/GPU RAM約束)處理分類特徵擁有不平衡的數據集定製度量的需要需要對分類或回歸問題進行的調整在本節中，我們將嘗試詳細解釋這些要點。

num_iterations

Num_iterations指定增強迭代的次數(要構建的樹)。你建立的樹越多，你的模型就越精確，代價是:

較長的訓練時間過擬合的可能性更高從較少的樹開始構建基線，然後當您想從模型中擠出最後的%時增加基線。

建議使用更小的learningrate和更大的numiteration。此外，如果您想要更高的numiteration，那麼您應該使用earlystopping_rounds，以便在無法學習任何有用的內容時停止訓練。

earlystoppingrounds

如果驗證度量在最後一輪停止後沒有改進，此參數將停止訓練。這應該與一些迭代成對地進行定義。如果你把它設置得太大，你就增加了過擬合的變化(但你的模型可以更好)。

經驗法則是讓它佔num_iterations的10%。

lightgbm categorical_feature

使用lightgbm的優勢之一是它可以很好地處理分類特性。是的，這個演算法非常強大，但是你必須小心如何使用它的參數。lightgbm使用一種特殊的整數編碼方法(由Fisher提出)來處理分類特徵

實驗表明，該方法比常用的單熱編碼方法具有更好的性能。

它的默認值是「auto」，意思是:讓lightgbm決定哪個表示lightgbm將推斷哪些特性是絕對的。

它並不總是工作得很好，我強烈建議您簡單地用這段代碼手動設置分類特性

cat_col = dataset_name.select_dtypes(『object』).columns.tolist()

但是在幕後發生了什麼，lightgbm是如何處理分類特徵的呢?

根據lightgbm的文檔，我們知道樹學習器不能很好地使用一種熱編碼方法，因為它們在樹中深度生長。在提出的替代方法中，樹形學習器被最優構造。例如，一個特徵有k個不同的類別，有2^(k-1) -1個可能的劃分，通過fisher方法，可以改進到k * log(k)，通過找到分類特徵中值排序直方圖的最佳分割方式。

isunbalance vs scalepos_weight

其中一個問題，你可能面臨的二分類問題是如何處理不平衡的數據集。顯然，您需要平衡正/負樣本，但如何在lightgbm中做到這一點呢?

lightgbm中有兩個參數允許你處理這個問題，那就是isunbalance和scalepos_weight，但是它們之間有什麼區別呢?

當您設置Is_unbalace: True時，演算法將嘗試自動平衡佔主導地位的標籤的權重(使用列集中的pos/neg分數)

如果您想改變scaleposweight(默認情況下是1，這意味著假設正負標籤都是相等的)，在不平衡數據集的情況下，您可以使用以下公式來正確地設置它

sample_pos_weight = number of negative samples / number of positive samples

lgbm函數宏指令(feaval)

有時你想定義一個自定義評估函數來測量你的模型的性能，你需要創建一個「feval」函數。

Feval函數應該接受兩個參數:

preds 、train_data

並返回

evalname、evalresult、ishigherbetter

讓我們一步一步地創建一個自定義度量函數。

定義一個單獨的python函數

def feval_func(preds, train_data): # Define a formula that evaluates the results return (‘feval_func_name’, eval_result, False)

使用這個函數作為參數:

print(‘Start training…’) lgb_train = lgb.train(…, metric=None, feval=feval_func)

注意:要使用feval函數代替度量，您應該設置度量參數 metric 「None」。

分類參數與回歸參數

我之前提到的大多數事情對於分類和回歸都是正確的，但是有些事情需要調整。

具體你應該:

lightgbm最重要的參數

我們已經在前面的部分中回顧並了解了有關lightgbm參數的知識，但是如果不提及Laurae令人難以置信的基準測試，那麼關於增強樹的文章將是不完整的。

您可以了解用於lightGBM和XGBoost的許多問題的最佳默認參數。

你可以查看這裡，但一些最重要的結論是:

注意：絕對不要理會任何參數值的默認值，並根據您的問題進行調整。也就是說，這些參數是超參數調整演算法的一個很好的起點。

Python中的Lightgbm參數調整示例

最後，在解釋完所有重要參數之後，該進行一些實驗了！

我將使用最受歡迎的Kaggle競賽之一：Santander Customer Transaction Prediction. 交易預測

我將使用本文介紹如何在任何腳本中的Python中運行超參數調整。

在開始之前，一個重要的問題！我們應該調整哪些參數？

請注意您要解決的問題，例如，Santander 數據集高度不平衡，在調整時應考慮到這一點！

一些參數是相互依賴的，必須一起調整。例如，mindatainleaf取決於訓練樣本和numleaves的數量。

注意：為超參數創建兩個字典是一個好主意，一個字典包含您不想調整的參數和值，另一個字典包含您想要調整的參數和值範圍。

SEARCH_PARAMS = {‘learning_rate’: 0.4, ‘max_depth’: 15, ‘num_leaves’: 20, ‘feature_fraction’: 0.8, ‘subsample’: 0.2} FIXED_PARAMS={‘objective’: ‘binary’, ‘metric’: ‘auc’, ‘is_unbalance’:True, ‘boosting’:’gbdt’, ‘num_boost_round’:300, ‘early_stopping_rounds’:30}

lightgbm演算法的python實現是哪一年提出的

那是當然。python是一個通用語言。這一點難不倒它。除非演算法是依賴特定的軟硬體環境。否則全部都可以實現。現在大部分演算法都集中在大數據與人工智慧了。基礎的演算法基本上沒有多少人研究了。python在大數據與人工智慧上支撐的庫很多。遊刃有餘。最近在研究語義學習的演算法，用python來實現非常快。通常新演算法先用python來寫，驗證完成後再轉換成其它的語言。

如何看待微軟新開源的LightGBM

作者：柯國霖

鏈接：

來源：知乎

著作權歸作者所有。商業轉載請聯繫作者獲得授權，非商業轉載請註明出處。

10/19/2017 更新：

完整的更新列表可以參考： Microsoft/LightGBM/Key-Events.md

下面列出一些比較大的更新

R-package 已完成

缺失值（missing value）的自動處理

類別特徵(Categorical Feature) 的進一步優化，不再使用類似one-hot coding的分割方式。對於類別數量很多的類別特徵，使用one-vs-other的切分方式會長出很不平衡的樹，不能實現較好的精度。這是樹模型在支持類別特徵的一個痛點。 LightGBM可以找出類別特徵的最優切割，即many-vs-many的切分方式。並且最優分割的查找的時間複雜度可以在線性時間完成，和原來的one-vs-other的複雜度幾乎一致。

cf: NIPS 2017 有什麼值得關注的亮點？

12/17/2016 更新：

完成了python-package，歡迎使用。

直接支持類別特徵(Categorical Feature)，不需要進行0/1展開。相對0/1展開的解決方案，速度快非常多，且精度一致。

大多數機器學習工具都無法直接支持類別特徵作為輸入，一般需要轉換成多維0/1特徵，帶來計算和內存上的額外消耗。LightGBM增加了針對於類別特徵的決策規則，這在決策樹上也很好實現。主要的思想是，在對類別特徵計算分割增益的時候，不是按照數值特徵那樣由一個閾值進行切分，而是直接把其中一個類別當成一類，其他的類別當成另一類。這實際上與0/1展開的效果是一樣的。

—————————————

正好開源了一個月，強答一下。

GBDT 雖然是個強力的模型，但卻有著一個致命的缺陷，不能用類似 mini batch 的方式來訓練，需要對數據進行無數次的遍歷。如果想要速度，就需要把數據都預載入在內存中，但這樣數據就會受限於內存的大小；如果想要訓練更多的數據，就要使用外存版本的決策樹演算法。雖然外存演算法也有較多優化，SSD 也在普及，但在頻繁的 IO 下，速度還是比較慢的。

為了能讓 GBDT 高效地用上更多的數據，我們把思路轉向了分散式 GBDT，然後就有了 LightGBM。設計的思路主要是兩點，1. 單個機器在不犧牲速度的情況下，儘可能多地用上更多的數據；2.

多機並行的時候，通信的代價儘可能地低，並且在計算上可以做到線性加速。

基於這兩個需求，LightGBM 選擇了基於 histogram 的決策樹演算法。相比於另一個主流的演算法 pre-sorted（如 xgboost 中的 exact 演算法），histogram 在內存消耗和計算代價上都有不少優勢。

Pre-sorted 演算法需要的內存約是訓練數據的兩倍(2 * #data * #features

* 4Bytes)，它需要用32位浮點來保存 feature value，並且對每一列特徵，都需要一個額外的排好序的索引，這也需要32位的存儲空間。對於 histogram 演算法，則只需要(#data

* #features * 1Bytes)的內存消耗，僅為 pre-sorted演算法的1/8。因為 histogram 演算法僅需要存儲 feature

bin value (離散化後的數值)，不需要原始的 feature value，也不用排序，而 bin

value 用 uint8_t (256

bins) 的類型一般也就足夠了。

在計算上的優勢則主要體現在「數據分割」。決策樹演算法有兩個主要操作組成，一個是「尋找分割點」，另一個是「數據分割」。從演算法時間複雜度來看，Histogram 演算法和 pre-sorted 演算法在「尋找分割點」的代價是一樣的，都是O(#feature*#data)。而在「數據分割」時，pre-sorted 演算法需要O(#feature*#data)，而 histogram 演算法是O(#data)。因為 pre-sorted 演算法的每一列特徵的順序都不一樣，分割的時候需要對每個特徵單獨進行一次分割。Histogram演算法不需要排序，所有特徵共享同一個索引表，分割的時候僅需對這個索引表操作一次就可以。（更新: 這一點不完全正確，pre-sorted 與 level-wise 結合的時候，其實可以共用一個索引表(row_idx_to_tree_node_idx)。然後在尋找分割點的時候，同時操作同一層的節點，省去分割的步驟。但這樣做的問題是會有非常多隨機訪問，有很大的chche miss，速度依然很慢。）。

另一個計算上的優勢則是大幅減少了計算分割點增益的次數。對於一個特徵，pre-sorted 需要對每一個不同特徵值都計算一次分割增益，而 histogram 只需要計算 #bin (histogram 的橫軸的數量) 次。

最後，在數據並行的時候，用 histgoram 可以大幅降低通信代價。用 pre-sorted 演算法的話，通信代價是非常大的（幾乎是沒辦法用的）。所以 xgoobst 在並行的時候也使用 histogram 進行通信。

當然， histogram 演算法也有缺點，它不能找到很精確的分割點，訓練誤差沒有 pre-sorted 好。但從實驗結果來看， histogram 演算法在測試集的誤差和 pre-sorted 演算法差異並不是很大，甚至有時候效果更好。實際上可能決策樹對於分割點的精確程度並不太敏感，而且較「粗」的分割點也自帶正則化的效果。

在 histogram 演算法之上， LightGBM 進行進一步的優化。首先它拋棄了大多數 GBDT 工具使用的按層生長

(level-wise) 的決策樹生長策略，而使用了帶有深度限制的按葉子生長 (leaf-wise) 演算法。 level-wise 過一次數據可以同時分裂同一層的葉子，容易進行多線程優化，不容易過擬合。但實際上level-wise是一種低效的演算法，因為它不加區分的對待同一層的葉子，帶來了很多沒必要的開銷。因為實際上很多葉子的分裂增益較低，沒必要進行搜索和分裂。leaf-wise則是一種更為高效的策略，每次從當前所有葉子中，找到分裂增益最大(一般也是數據量最大)的一個葉子，然後分裂，如此循環。因此同 level-wise 相比，在分裂次數相同的情況下，leaf-wise 可以降低更多的誤差，得到更好的精度。leaf-wise 的缺點是可能會長出比較深的決策樹，產生過擬合。因此 LightGBM 在leaf-wise 之上增加了一個最大深度的限制，在保證高效率的同時防止過擬合。

另一個比較巧妙的優化是 histogram 做差加速。一個容易觀察到的現象：一個葉子的直方圖可以由它的父親節點的直方圖與它兄弟的直方圖做差得到。通常構造直方圖，需要遍歷該葉子上的所有數據，但直方圖做差僅需遍歷直方圖的 k 個桶。利用這個方法，LightGBM 可以在構造一個葉子的直方圖後，可以用非常微小的代價得到它兄弟葉子的直方圖，在速度上可以提升一倍。

如需要更多的細節，可以參考github上的文檔：

比XGBOOST更快–LightGBM介紹

xgboost的出現，讓數據民工們告別了傳統的機器學習演算法們：RF、GBM、SVM、LASSO……..。現在，微軟推出了一個新的boosting框架，想要挑戰xgboost的江湖地位。筆者嘗試了一下，下面請看來自第一線的報告。

包含以下幾個部分：

一. 基本介紹

二. XGBOOST原理及缺點

三. LightGBM的優化

四. 建模過程（python）

五. 調參

一. 基本介紹

LightGBM 是一個梯度 boosting 框架，使用基於學習演算法的決策樹。它可以說是分散式的，高效的，它有以下優勢：

– 更快的訓練效率

– 低內存使用

– 更好的準確率

– 支持並行學習

– 可處理大規模數據

與常用的機器學習演算法進行比較：

· 速度飛起

二. XGBOOST原理及缺點

1. 原理

1 ) 有監督學習

有監督學習的目標函數是下面這個東東：

其中，第一項稱為誤差函數，常見的誤差函數有平方誤差，logistic誤差等等，第二項稱為正則項，常見的有L1正則和L2正則，神經網路裡面的dropout等等

2）Boosted Tree

i）基學習器：分類樹和回歸樹（CART）

ii ) Tree Ensemble

一個CART往往過於簡單無法有效地預測，因此一個更加強力的模型叫做tree ensemble。

簡而言之，Boosted Tree 就是一種 Tree Ensemble的方法，和RF一樣，只是構造（學習）模型參數的方法不同。

iii）模型學習：additive training

每一次保留原來的模型不變，加入一個新的函數f到我們的模型中。

f 的選擇標準—最小化目標函數！

通過二階泰勒展開，以及（中間省略N步），我們得到了最終的目標函數：

G、H：與數據點在誤差函數上的一階、二階導數有關，T：葉子的個數

iv ) 枚舉所有不同樹結構的貪心演算法

不斷地枚舉不同樹的結構，根據目標函數來尋找出一個最優結構的樹，加入到我們的模型中，再重複這樣的操作。不過枚舉所有樹結構這個操作不太可行，所以常用的方法是貪心法，每一次嘗試去對已有的葉子加入一個分割。對於一個具體的分割方案，我們可以獲得的增益可以由如下公式計算。

對於每次擴展，我們還是要枚舉所有可能的分割方案，如何高效地枚舉所有的分割呢？我假設我們要枚舉所有 x

我們可以發現對於所有的a，我們只要做一遍從左到右的掃描就可以枚舉出所有分割的梯度和GL和GR。然後用上面的公式計算每個分割方案的分數就可以了。

詳細的內容可以看陳天奇大神的文章【3】

2. 缺點

— 在每一次迭代的時候，都需要遍歷整個訓練數據多次。如果把整個訓練數據裝進內存則會限制訓練數據的大小；如果不裝進內存，反覆地讀寫訓練數據又會消耗非常大的時間。

— 預排序方法（pre-sorted）：

首先，空間消耗大。這樣的演算法需要保存數據的特徵值，還保存了特徵排序的結果（例如排序後的索引，為了後續快速的計算分割點），這裡需要消耗訓練數據兩倍的內存。

其次，時間上也有較大的開銷，在遍歷每一個分割點的時候，都需要進行分裂增益的計算，消耗的代價大。

最後，對cache優化不友好。在預排序後，特徵對梯度的訪問是一種隨機訪問，並且不同的特徵訪問的順序不一樣，無法對cache進行優化。同時，在每一層長樹的時候，需要隨機訪問一個行索引到葉子索引的數組，並且不同特徵訪問的順序也不一樣，也會造成較大的cache miss。

三. LightGBM的優化

基於Histogram的決策樹演算法

帶深度限制的Leaf-wise的葉子生長策略

直方圖做差加速

直接支持類別特徵(Categorical Feature)

Cache命中率優化

基於直方圖的稀疏特徵優化

多線程優化

下面主要介紹Histogram演算法、帶深度限制的Leaf-wise的葉子生長策略。

Histogram演算法

直方圖演算法的基本思想是先把連續的浮點特徵值離散化成k個整數，同時構造一個寬度為k的直方圖。在遍曆數據的時候，根據離散化後的值作為索引在直方圖中累積統計量，當遍歷一次數據後，直方圖累積了需要的統計量，然後根據直方圖的離散值，遍歷尋找最優的分割點。

圖：直方圖演算法

帶深度限制的Leaf-wise的葉子生長策略

Level-wise過一次數據可以同時分裂同一層的葉子，容易進行多線程優化，也好控制模型複雜度，不容易過擬合。但實際上Level-wise是一種低效的演算法，因為它不加區分的對待同一層的葉子，帶來了很多沒必要的開銷，因為實際上很多葉子的分裂增益較低，沒必要進行搜索和分裂。

Leaf-wise則是一種更為高效的策略，每次從當前所有葉子中，找到分裂增益最大的一個葉子，然後分裂，如此循環。因此同Level-wise相比，在分裂次數相同的情況下，Leaf-wise可以降低更多的誤差，得到更好的精度。Leaf-wise的缺點是可能會長出比較深的決策樹，產生過擬合。因此LightGBM在Leaf-wise之上增加了一個最大深度的限制，在保證高效率的同時防止過擬合。

四. 建模過程（python）

數據導入

# 接受：libsvm/tsv/csv 、Numpy 2D array、pandas object（dataframe）、LightGBM binary file

# 需要指定 feature names and categorical features

train_data = lgb.Dataset(dtrain[predictors],label=dtrain[target],feature_name=list(dtrain[predictors].columns), categorical_feature=dummies)

test_data = lgb.Dataset(dtest[predictors],label=dtest[target],feature_name=list(dtest[predictors].columns), categorical_feature=dummies)

設置參數

param = {‘max_depth’:6,’num_leaves’:64,’learning_rate’:0.03,’scale_pos_weight’:1,’num_threads’:40,’objective’:’binary’,’bagging_fraction’:0.7,’bagging_freq’:1,’min_sum_hessian_in_leaf’:100}

param[‘is_unbalance’]=’true’

param[‘metric’] = ‘auc’

3. CV

bst=lgb.cv(param,train_data,num_boost_round=1000,nfold=3,early_stopping_rounds=30)

estimators = lgb.train(param,train_data,num_boost_round=len(bst[‘auc-mean’]))

4. 預測

ypred = estimators.predict(dtest[predictors])

四. 實測效果

試了一下90W條記錄*130維的樣本，num_threads設置為40

時間：

2. 準確率：

五. 調參

1. 使用num_leaves

因為LightGBM使用的是leaf-wise的演算法，因此在調節樹的複雜程度時，使用的是num_leaves而不是max_depth

大致換算關係：num_leaves = 2^(max_depth)

2.對於非平衡數據集：可以param[‘is_unbalance’]=’true』

3. Bagging參數：bagging_fraction+bagging_freq（必須同時設置）、feature_fraction

4. min_data_in_leaf、min_sum_hessian_in_leaf

參考文獻

關於LightGBM： ;mid=2650719786idx=3sn=ab1c5a77237dc4b2ee5ae12c7a68ff87chksm=871b0254b06c8b42d5a4fdf3327f7284c9ffbe72fe7911301d368b157024b32923d88401c2a8scene=0open_source=weibo_search

關於XGBOOST：

對數據感興趣的小夥伴，歡迎交流，微信公共號:一白侃數

原創文章，作者：EZZP，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/142536.html