sklearn.ensemble詳解

一、概述

sklearn.ensemble模塊是scikit-learn庫的一個重要子模塊。它提供了一些常用的集成算法，如隨機森林、Bagging、Boosting等。集成算法通過組合多個基分類器（或基回歸模型）來實現更加準確、魯棒的預測結果。sklearn.ensemble模塊封裝了這些算法，方便用戶快速地構建集成學習模型。

二、隨機森林

隨機森林是集成算法中的一種。它將多個決策樹組成一個森林，每個決策樹都是基於從原始數據集中隨機抽取的子樣本和特徵集構建的。隨機森林通過投票機制來確定最終的預測結果。

下面是用隨機森林對iris數據集進行分類的示例：

from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

# 加載數據
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=42)

# 構建模型
rfc = RandomForestClassifier(n_estimators=100, random_state=42)
rfc.fit(X_train, y_train)

# 預測並評估模型
score = rfc.score(X_test, y_test)
print("Accuracy: %f" % score)

在上述代碼中，我們首先加載了iris數據集，並將其分為訓練集和測試集。然後，我們使用RandomForestClassifier類構建了一個隨機森林分類器。在訓練好隨機森林模型後，我們對測試集進行預測，並計算預測準確率。

三、Bagging

Bagging是另一種集成算法，它通過在原始數據集中隨機抽取一部分樣本來構建多個基分類器。每個基分類器都是使用不同的樣本進行訓練的，並且它們的預測結果通過投票機制來決定最終的預測結果。

下面是用Bagging對digits數據集進行分類的示例：

from sklearn.datasets import load_digits
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

# 加載數據
digits = load_digits()
X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target, random_state=42)

# 構建模型
bagging = BaggingClassifier(DecisionTreeClassifier(),
                            n_estimators=100,
                            max_samples=0.8,
                            max_features=0.8,
                            random_state=42)
bagging.fit(X_train, y_train)

# 預測並評估模型
score = bagging.score(X_test, y_test)
print("Accuracy: %f" % score)

在上述代碼中，我們首先加載了digits數據集，並將其分為訓練集和測試集。然後，我們使用BaggingClassifier類構建了一個基於決策樹的Bagging分類器。在訓練好Bagging模型後，我們對測試集進行預測，並計算預測準確率。

四、Boosting

Boosting是另一種集成學習算法，它通過逐步調整樣本的權重來訓練多個弱分類器，並將它們組合成一個強分類器。Boosting算法通常是按順序進行的，即每個新的基分類器都是在之前的分類器的基礎上訓練出來的。通過不斷提高誤分類樣本的權重，Boosting算法最終得到的模型比Bagging算法更加準確。

下面是用AdaBoost對digits數據集進行分類的示例：

from sklearn.datasets import load_digits
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

# 加載數據
digits = load_digits()
X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target, random_state=42)

# 構建模型
ada = AdaBoostClassifier(DecisionTreeClassifier(max_depth=2),
                         n_estimators=600,
                         algorithm="SAMME",
                         learning_rate=0.5,
                         random_state=42)
ada.fit(X_train, y_train)

# 預測並評估模型
score = ada.score(X_test, y_test)
print("Accuracy: %f" % score)

在上述代碼中，我們首先加載了digits數據集，並將其分為訓練集和測試集。然後，我們使用AdaBoostClassifier類構建了一個基於決策樹的AdaBoost分類器。在訓練好AdaBoost模型後，我們對測試集進行預測，並計算預測準確率。

五、總結

sklearn.ensemble模塊提供了常見的集成學習算法，包括隨機森林、Bagging和Boosting。這些算法可以幫助我們構建更加準確、魯棒的預測模型。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hk/n/311217.html