PCA降維原理及步驟詳解

一、PCA簡介

PCA全稱為Principal Component Analysis，是一種線性降維方法。PCA算法利用降維來解決高維數據中存在的問題。

在高維數據集中，往往存在很多冗餘和噪聲信息，而PCA算法可以通過找到數據最重要的主成分，從而去除冗餘和噪聲信息，保留數據的主要特徵。

二、PCA原理

PCA算法的核心思想是將高維數據映射到一個低維空間中，使得映射後的數據仍能保持原有的特徵。

在PCA算法中，我們需要尋找最佳的線性投影方式，使得數據的方差儘可能大。

將數據投影到方差最大的方向上，可以保留更多的信息，同時丟棄方差較小的方向所包含的信息，從而實現降維的目的。

三、PCA步驟

1. 數據歸一化

對數據進行歸一化處理，將數據縮放到標準正態分布。這一步可以避免數據中某些維度數據的數量級對PCA計算結果造成影響。

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

2. 計算協方差矩陣

協方差矩陣反映了不同特徵之間的相關性程度。在PCA算法中，我們需要計算出數據集的協方差矩陣，以便後面進行特徵值分解。

import numpy as np
features = X_train.T
covariance_matrix = np.cov(features)

3. 計算特徵值和特徵向量

對協方差矩陣進行特徵值分解，得到特徵值和對應的特徵向量。特徵向量即為我們需要保留的主成分方向，特徵值反映了各個主成分的重要程度。

eigenvalues, eigenvectors = np.linalg.eig(covariance_matrix)
# 對特徵向量進行排序，以獲得方差最大的特徵向量
eigenvectors = eigenvectors.T
idx = eigenvalues.argsort()[::-1]   
eigenvectors = eigenvectors[idx]
eigenvalues = eigenvalues[idx]

4. 選擇主成分

選擇前k個特徵向量作為主成分，其中k為需要降維的維度，即目標低維空間的維度。

k = 2 #假設要降維到2維
principal_components = eigenvectors[0:k]

5. 數據變換

將原始數據集投影到新的低維空間上，得到降維後的數據。

new_dim = np.dot(X_train, principal_components.T)

四、總結

通過上述步驟，我們可以使用PCA算法對高維數據進行降維處理，以達到去除冗餘和噪聲信息，保留數據主要特徵的目的。PCA算法的優點在於能夠使得數據維度降低，同時儘可能保留數據原有的信息，從而提高後續處理的效率。

原創文章，作者：RVAXY，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/369543.html