PCA參數解釋

本文將從多個方面介紹PCA(Principal Components Analysis,主成分分析)參數,包括如何選擇主成分個數、選擇特徵值大小的閾值和如何對原始數據進行歸一化處理。

一、主成分個數確定

主成分個數指在進行PCA降維時,需要從數據的若干個方向中選擇幾個作為新的基準方向。一般來說,會選擇方差較大的前幾個方向作為主成分。但是如何確定具體選擇幾個主成分呢?

有兩種方法可以進行選擇:

1.根據經驗或者業務需求確定主成分個數

在某些場景下,根據業務需求或者經驗,可以確定主成分個數。比如,如果進行壓縮圖片,在不損失太多畫質的情況下,可以選擇前10個主成分進行壓縮。

2.通過累計特徵值貢獻率選擇主成分個數

特徵值是PCA方法的一個重要參數,表示在不同方向上數據的離散程度。特徵值越大,說明在該方向上數據的離散程度越大。累計特徵值貢獻率表示前k個主成分所包含的方差佔總方差的比例。通常選擇累計特徵值貢獻率大於0.9時的主成分個數。

二、特徵值大小的閾值選擇

雖然選擇主成分個數比較容易,但是選擇特徵值大小的閾值卻比較困難。因為不同數據集中的特徵值大小相差甚遠,如果直接按照大小進行選擇,可能會損失一些重要信息。

因此,可以通過畫出特徵值大小和主成分個數的折線圖,通過直觀判斷選擇合適的特徵值閾值。一般來說,隨著主成分個數的增加,特徵值會呈現下降趨勢。可以選擇特徵值折線圖中的「拐點」處的特徵值作為閾值。

三、原始數據歸一化處理

在進行PCA分析時,需要對原始數據進行歸一化處理。這是因為不同特徵之間的度量單位不同,如果不進行歸一化處理,可能會導致結果不準確。

常用的歸一化方法為Z-score標準化,即將數據減去均值,再除以標準差。假設原始數據為$m$行$n$列的矩陣$X=\left[x_{i,j}\right]$,那麼進行歸一化處理後得到的數據矩陣$X’$的表達式為:

$$
x'_{i,j} = \frac{x_{i,j} - \mu_j}{\sigma_j}
$$

其中,$\mu_j$為第$j$列的均值,$\sigma_j$為第$j$列的標準差。

四、代碼實現

下面是Python中使用sklearn庫進行PCA分析的示例代碼:

from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# 載入數據
X = ...

# 數據歸一化處理
sc = StandardScaler()
X_std = sc.fit_transform(X)

# 選擇主成分個數
pca = PCA(n_components=0.9)
X_pca = pca.fit_transform(X_std)

# 列印特徵值、特徵向量和主成分貢獻率
print('Explained variance ratio:', pca.explained_variance_ratio_)
print('Eigenvalues:', pca.explained_variance_)
print('Eigenvectors:', pca.components_)

原創文章,作者:PRGXV,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/374685.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
PRGXV的頭像PRGXV
上一篇 2025-04-28 13:17
下一篇 2025-04-28 13:17

相關推薦

  • 三星內存條參數用法介紹

    本文將詳細解釋三星內存條上面的各種參數,讓你更好地了解內存條並選擇適合自己的一款。 一、容量大小 容量大小是內存條最基本的參數,一般以GB為單位表示,常見的有2GB、4GB、8GB…

    編程 2025-04-29
  • Python3定義函數參數類型

    Python是一門動態類型語言,不需要在定義變數時顯示的指定變數類型,但是Python3中提供了函數參數類型的聲明功能,在函數定義時明確定義參數類型。在函數的形參後面加上冒號(:)…

    編程 2025-04-29
  • Python input參數變數用法介紹

    本文將從多個方面對Python input括弧里參數變數進行闡述與詳解,並提供相應的代碼示例。 一、基本介紹 Python input()函數用於獲取用戶輸入。當程序運行到inpu…

    編程 2025-04-29
  • Spring Boot中發GET請求參數的處理

    本文將詳細介紹如何在Spring Boot中處理GET請求參數,並給出完整的代碼示例。 一、Spring Boot的GET請求參數基礎 在Spring Boot中,處理GET請求參…

    編程 2025-04-29
  • Hibernate日誌列印sql參數

    本文將從多個方面介紹如何在Hibernate中列印SQL參數。Hibernate作為一種ORM框架,可以通過列印SQL參數方便開發者調試和優化Hibernate應用。 一、通過配置…

    編程 2025-04-29
  • Python Class括弧中的參數用法介紹

    本文將對Python中類的括弧中的參數進行詳細解析,以幫助初學者熟悉和掌握類的創建以及參數設置。 一、Class的基本定義 在Python中,通過使用關鍵字class來定義類。類包…

    編程 2025-04-29
  • Python函數名稱相同參數不同:多態

    Python是一門面向對象的編程語言,它強烈支持多態性 一、什麼是多態多態是面向對象三大特性中的一種,它指的是:相同的函數名稱可以有不同的實現方式。也就是說,不同的對象調用同名方法…

    編程 2025-04-29
  • 全能編程開發工程師必知——DTD、XML、XSD以及DTD參數實體

    本文將從大體介紹DTD、XML以及XSD三大知識點,同時深入探究DTD參數實體的作用及實際應用場景。 一、DTD介紹 DTD是文檔類型定義(Document Type Defini…

    編程 2025-04-29
  • Python可變參數

    本文旨在對Python中可變參數進行詳細的探究和講解,包括可變參數的概念、實現方式、使用場景等多個方面,希望能夠對Python開發者有所幫助。 一、可變參數的概念 可變參數是指函數…

    編程 2025-04-29
  • XGBoost n_estimator參數調節

    XGBoost 是 處理結構化數據常用的機器學習框架之一,其中的 n_estimator 參數決定著模型的複雜度和訓練速度,這篇文章將從多個方面詳細闡述 n_estimator 參…

    編程 2025-04-28

發表回復

登錄後才能評論