本文目錄一覽:
python怎麼數據進行pca
基本步驟:
對數據進行歸一化處理(代碼中並非這麼做的,而是直接減去均值)
計算歸一化後的數據集的協方差矩陣
計算協方差矩陣的特徵值和特徵向量
保留最重要的k個特徵(通常k要小於n),也可以自己制定,也可以選擇一個閾值,然後通過前k個特徵值之和減去後面n-k個特徵值之和大於這個閾值,則選擇這個k
找出k個特徵值對應的特徵向量
將m * n的數據集乘以k個n維的特徵向量的特徵向量(n * k),得到最後降維的數據。
其實PCA的本質就是對角化協方差矩陣。有必要解釋下為什麼將特徵值按從大到小排序後再選。首先,要明白特徵值表示的是什麼?在線性代數裡面我們求過無數次了,那麼它具體有什麼意義呢?對一個n*n的對稱矩陣進行分解,我們可以求出它的特徵值和特徵向量,就會產生n個n維的正交基,每個正交基會對應一個特徵值。然後把矩陣投影到這N個基上,此時特徵值的模就表示矩陣在該基的投影長度。
特徵值越大,說明矩陣在對應的特徵向量上的方差越大,樣本點越離散,越容易區分,信息量也就越多。因此,特徵值最大的對應的特徵向量方向上所包含的信息量就越多,如果某幾個特徵值很小,那麼就說明在該方向的信息量非常少,我們就可以刪除小特徵值對應方向的數據,只保留大特徵值方向對應的數據,這樣做以後數據量減小,但有用的信息量都保留下來了。PCA就是這個原理。
python 求教做主成分分析
主成分分析(PCA)是一種基於變數協方差矩陣對數據進行壓縮降維、去噪的有效方法。
PCA的思想是將n維特徵映射到k維上(kn),這k維特徵稱為主元,是舊特徵的線性組合,這些線性組合最大化樣本方差,盡量使新的k個特徵互不相關。
怎麼理解鳶尾花的python主成分分析結果
Python 實現主成分分析
主成分分析(Principal Component Analysis,PCA)是最常用的一種降維方法,通常用於高維數據集的探索與可視化,還可以用作數據壓縮和預處理等。
矩陣的主成分就是其協方差矩陣對應的特徵向量,按照對應的特徵值大小進行排序,最大的特徵值就是第一主成分,其次是第二主成分,以此類推。
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/196900.html