一、定義
校正決定係數(Adjusted R-squared)是經過修正的決定係數(R-squared),它是用於解釋因變量(dependent variable)的變異量的模型擬合程度的統計量。
在統計模型中,校正決定係數表示的是因變量中可被解釋部分所佔總方差的百分比,即擬合優度。數值越接近1,說明模型越擬合數據。
二、計算方法
假設變量個數為p,樣本數量為n,y表示因變量,y_hat表示回歸值,y_bar表示y的平均值。
校正決定係數的計算方法如下:
SS_res = sum((y - y_hat)^2) # sum of squared residuals SS_tot = sum((y - y_bar)^2) # total sum of squares n = number of samples p = number of predictors R_squared = 1 - (SS_res / SS_tot) Adjusted_R_squared = 1 - (1 - R_squared) * (n - 1) / (n - p - 1)
三、優點
校正決定係數比簡單的決定係數更加準確地評估模型的擬合度,因為它考慮了模型所使用的變量數量和樣本數量的影響。
校正決定係數還可以用來比較不同模型的預測能力。在比較時,應該選擇具有更高校正決定係數的模型。
四、局限性
校正決定係數存在一些局限性,如:
1. 可能會過度擬合,因為校正決定係數值只會增加或不變,即使加入的變量對模型沒有貢獻。
2. 只適用於線性回歸模型。
五、應用實例
下面是一個使用python中的scikit-learn庫進行線性回歸分析的實例:
from sklearn.linear_model import LinearRegression from sklearn.metrics import r2_score # Load dataset X = [[1, 2], [2, 4], [3, 6], [4, 8]] y = [2, 4, 6, 8] # Fit the model model = LinearRegression().fit(X, y) # Make predictions y_pred = model.predict(X) # Compute R-squared and adjusted R-squared r2 = r2_score(y, y_pred) adj_r2 = 1 - (1 - r2) * (len(y) - 1) / (len(y) - len(X[0]) - 1) print("R-squared:", r2) print("Adjusted R-squared:", adj_r2)
原創文章,作者:EGGMG,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/372928.html