一、hcluster函數
hcluster(d, method = "complete", members = NULL)
hcluster是hierarchical clustering的簡稱,是R語言中用於層次聚類分析的函數。
該函數的第一個參數d為待聚類的距離矩陣或者相似性矩陣,必要參數;第二個參數method為hclust閾值聚類算法,表示使用何種聚類方式,默認值為”complete”,即最大距離法。
members參數為一個向量,表示哪些數據單位應該被聚類在一起,這一參數通常給默認空值就行了。
二、hclust method
hclust method代表聚類的方法,一共有六種實現方法,它們分別是:
- complete:最大距離法,即連兩個聚類的最大距離
- average:平均距離法,即連兩個聚類的平均距離
- single:最小距離法,即連兩個聚類中距離最近的觀測值
- ward.D:把兩個離最近的聚類合併的離差平方和減少數最多法
- ward.D2:把兩個離最近的聚類合併的離差平方和(D2)減少數最多法
三、hclust聚類分析
hclust函數可以應用於層次聚類分析,該函數可以直接將距離矩陣或相似性矩陣輸入,並根據聚類算法得到聚類結果。下面以一個實例進行說明:
#生成數據 set.seed(123) d <- data.frame(matrix(rnorm(100), ncol = 10)) #生成距離矩陣 dist.d <- dist(d) #聚類 hc <- hclust(dist.d) #可視化聚類結果 plot(hc)
本例中,我們先使用rnorm(100)函數生成一個100個數據的隨機向量,然後使用矩陣轉換函數matrix將向量轉化為10列的矩陣。
然後再利用dist函數生成距離矩陣,然後將該距離矩陣傳入hclust函數,得到hr擬合係數矩陣,最後可視化聚類結果,如下圖所示:
四、hclust在r語言中的含義
hclust函數是R語言中用於實現層次聚類分析的函數,可以根據輸入的距離矩陣進行聚類分析,並返回聚類結果。
五、hclust函數method怎麼選
對於hclust函數method參數的選擇,根據不同的問題和實驗結果不同,需要對不同的聚類方法進行嘗試,以便得到合適的聚類結果。
原創文章,作者:SPSWZ,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/368096.html