機器學習之決策樹

一、什麼是決策樹？

決策樹是一種基於樹形結構的機器學習算法，用於進行分類和回歸分析。在分類問題中，決策樹將數據分成不同的類別，每一個葉子節點代表一個類別。在回歸問題中，決策樹用於預測數值型數據。決策樹表現為一棵樹，其中每一個內部節點表示一個在輸入數據中的特徵，每一個分支代表這個特徵可能的結果，而每一個葉子節點代表一個類別（或者一個數值）。

決策樹的生成主要通過一種自頂向下的遞歸分治方法，方法是根據不同的特徵對數據集進行劃分，從而生成樹形分類模型。對於每一個分支節點，算法選擇對數據集進行最大化的增益（或最小化的不純度）的劃分。這個過程會不斷重複，直到所有數據都被分到葉子節點為止。

二、決策樹算法原理

決策樹的核心原理是分治策略。它將一個大問題分成數個小問題，每個小問題的解決對應樹中一步的執行。決策樹的生成主要分為兩個步驟：節點的分裂和停機。

節點的分裂是指將已有節點劃分為多個子節點，通過這種方式，可以使得每個節點的規模變小，從而更加容易處理。對於每一個分裂，需要選擇一個特徵，使得通過這個特徵可以最好地區分不同的樣本。

停機是指對決策樹生成的停止條件。通常情況下，停止條件可以有三種，分別是：所有樣本都屬於同一類，無法分裂節點，達到指定的樹的深度。判斷是否停止生成可以根據不同的算法有不同的方式。

三、使用決策樹進行分類

下面通過一個實例來展示如何使用決策樹進行分類。我們有以下的數據集：

Outlook,Temperature,Humidity,Windy,PlayTennis
sunny,hot,high,false,No
sunny,hot,high,true,No
overcast,hot,high,false,Yes
rainy,mild,high,false,Yes
rainy,cool,normal,false,Yes
rainy,cool,normal,true,No
overcast,cool,normal,true,Yes
sunny,mild,high,false,No
sunny,cool,normal,false,Yes
rainy,mild,normal,false,Yes
sunny,mild,normal,true,Yes
overcast,mild,high,true,Yes
overcast,hot,normal,false,Yes
rainy,mild,high,true,No

每個樣本有四個屬性，分別為 Outlook、Temperature、Humidity 和 Windy。我們使用決策樹對樣本進行分類。

首先我們計算數據集中每個屬性的信息熵和信息增益，然後用信息增益來選擇最好的節點進行分裂。運用這個方法，我們獲得以下的決策樹：

Outlook?
|   sunny?
|   |   Humidity?
|   |   |   high: No (2)
|   |   |   normal: Yes (1)
|   |   windy?
|   |   |   false: Yes (1)
|   |   |   true: No (1)
|   |   overcast: Yes (1)
|   overcast: Yes (4)
|   rainy?
|   |   Windy?
|   |   |   false: Yes (2)
|   |   |   true: No (1)
|   |   |   Humidity?
|   |   |   |   high: No (1)
|   |   |   |   normal: Yes (1)
|   |   mild?
|   |   |   Humidity?
|   |   |   |   high: No (1)
|   |   |   |   normal: Yes (1)
|   |   cool: Yes (1)

通過這個決策樹，我們可以對新樣本進行分類判斷，具體的分類方法是，從根節點開始，依次將樣本按照節點的屬性進行判斷，直到葉子節點，最終判斷出樣本屬於哪個類別。

四、優缺點分析

優點

決策樹具有如下優點：

決策樹易於實現和理解。決策樹生成的過程容易理解，得到的結果易於解釋，並且可以可視化展示。
決策樹可以處理離散型和連續型數據、多輸出問題、缺失數據和錯誤數據，因此具有很高的適用性。
決策樹的計算複雜度低，速度快。

缺點

決策樹具有如下缺點：

決策樹容易過擬合，因此需要進行剪枝操作。
決策樹的性能受到數據集含有噪聲和不一致數據的影響很大。
決策樹的結果可能不是最優解。
當數據很少，決策樹容易過度訓練，導致產生高方差模型。

五、代碼示例

下面是使用Python實現決策樹分類的代碼示例：

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree.export import export_text
 
# 加載Iris數據集
iris = load_iris()
X = iris['data']
Y = iris['target']
 
# 構建決策樹模型
clf = DecisionTreeClassifier(random_state=0, max_depth=2)
clf.fit(X, Y)
 
# 輸出決策樹模型
r = export_text(clf, feature_names=iris['feature_names'])
print(r)

原創文章，作者：VKCKV，如若轉載，請註明出處：https://www.506064.com/zh-hk/n/331900.html