隨機森林回歸是一種機器學習算法,可用於預測數值型變量。在這篇文章中,我們將探討如何使用隨機森林回歸來預測Python相關數據。
一、獲取數據
首先,我們需要獲取用於預測Python相關數據的數據集。在這裡,我們使用Scikit-learn提供的波士頓房價數據集,該數據集包含了波士頓地區的房價數據。使用以下代碼來獲取該數據集:
# 導入波士頓房價數據集
from sklearn.datasets import load_boston
boston = load_boston()
# 查看數據集描述
print(boston.DESCR)
二、數據清洗和準備
一旦我們獲取了數據集,就需要對其進行清洗和準備以便於隨機森林回歸的使用。在這裡,我們將數據集簡單地進行劃分,使用80%的數據進行訓練,使用20%的數據進行測試。我們還使用Pandas和NumPy庫中的函數來清洗和準備數據。以下是樣例代碼:
# 導入必要的庫
import pandas as pd
import numpy as np
# 將數據集轉換為DataFrame格式
df = pd.DataFrame(boston.data, columns=boston.feature_names)
# 添加目標變量
df['target'] = boston.target
# 劃分數據集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df[boston.feature_names], df['target'], test_size=0.2, random_state=0)
# 查看數據
print(X_train.head())
三、訓練模型
現在我們已經準備好數據了,我們將訓練隨機森林回歸模型。在這裡,我們使用scikit-learn庫中的RandomForestRegressor來訓練模型。以下是樣例代碼:
# 導入隨機森林回歸模型
from sklearn.ensemble import RandomForestRegressor
# 訓練模型
rf = RandomForestRegressor(n_estimators=100, random_state=0)
rf.fit(X_train, y_train)
四、評估模型
一旦模型被訓練,我們需要評估它的性能。在這裡,我們將使用均方誤差(MSE)作為評估指標。MSE是目標變量(即真實值)和預測值之間差異的平方和的平均值。以下是樣例代碼:
# 導入均方誤差
from sklearn.metrics import mean_squared_error
# 進行預測
y_pred = rf.predict(X_test)
# 計算MSE
mse = mean_squared_error(y_test, y_pred)
# 打印MSE
print(mse)
五、特徵重要性
最後,我們可以利用隨機森林模型的特徵重要性來確定哪些特徵對預測最為重要。以下是樣例代碼:
# 查看特徵重要性
feature_importances = pd.DataFrame(rf.feature_importances_, index=X_train.columns, columns=['importance']).sort_values('importance',ascending=False)
print(feature_importances)
以上就是使用隨機森林回歸預測Python的完整代碼示例。通過清洗和準備數據,訓練模型,評估模型和確定特徵重要性,可以有效地預測Python相關數據,並為決策提供支持。
原創文章,作者:PWBCW,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/374324.html