聚類和分類的區別「7種常用的聚類方法有哪些」

典型聚類算法

基於劃分的方法

代表:kmeans算法

集成聚類系列(二):常用的聚類算法及聚類算法評價指標

基於層次的方法

代表:CURE算法

集成聚類系列(二):常用的聚類算法及聚類算法評價指標

基於網格的方法

代表:STING算法

將數據集合X劃分多層網格結構,從某一層開始計算查詢該層網格間的屬性值,計算屬性值與閾值的關係,判定網格間的相關情況,不相關的網格不作考慮如果網格相關,則進入下一層的相關區域繼續第二步,直到下一層為最底層返回相關網格結果

基於密度的方法

代表:DBSCAN算法

輸入數據集合X,隨機選取一點,並找出這個點的所有高密度可達點遍歷此點的所有 ε 鄰域內的點,並尋找這些密度可達點,判定某點 ε− 鄰域內的點,並尋找這些點密度可達點,判定某點的 ε− 鄰域內的點數是否超過閾值點數,超過則構成核心點掃描數據集,尋找沒有被聚類的數據點,重複第二步輸出劃分的類,並輸出異常值點(不和其他密度相連)

神經網絡的方法

代表:SOM算法

集成聚類系列(二):常用的聚類算法及聚類算法評價指標

基於圖的聚類方法

代表:譜聚類算法

集成聚類系列(二):常用的聚類算法及聚類算法評價指標

聚類算法的評價指標

一個好的聚類方法可以產生高品質簇,是的簇內相似度高,簇間相似度低。一般來說,評估聚類質量有兩個標準,內部質量評價指標和外部評價指標。

內部質量評價標準

內部評價指標是利用數據集的屬性特徵來評價聚類算法的優劣。通過計算總體的相似度,簇間平均相似度或簇內平均相似度來評價聚類質量。評價聚類效果的高低通常使用聚類的有效性指標,所以目前的檢驗聚類的有效性指標主要是通過簇間距離和簇內距離來衡量。這類指標常用的有CH(Calinski-Harabasz)指標等

CH指標

CH指標定義為:

集成聚類系列(二):常用的聚類算法及聚類算法評價指標
集成聚類系列(二):常用的聚類算法及聚類算法評價指標

簇的凝聚度

簇內點對的平均距離反映了簇的凝聚度,一般使用組內誤差平方(SSE)表示:

集成聚類系列(二):常用的聚類算法及聚類算法評價指標

簇的鄰近度

簇的鄰近度用組間平方和(SSB)表示,即簇的質心 C_i 到簇內所有數據點的總平均值 c 的距離的平方和

外部質量評價標準

外部質量評價指標是基於已知分類標籤數據集進行評價的,這樣可以將原有標籤數據與聚類輸出結果進行對比。外部質量評價指標的理想聚類結果是:具有不同類標籤的數據聚合到不同的簇中,具有相同類標籤的數據聚合相同的簇中。外部質量評價準則通常使用熵,純度等指標進行度量。

熵:

簇內包含單個類對象的一種度量。對於每一個簇,首先計算數據的類分布,即對於簇 i ,計算簇 i 的成員屬於類 j 的概率

集成聚類系列(二):常用的聚類算法及聚類算法評價指標

其中m_i表示簇 i 中所有對象的個數,而 m_ij 是簇 i中類 j 的對象個數。使用類分布,用標準公式:

集成聚類系列(二):常用的聚類算法及聚類算法評價指標

計算每個簇 i 的熵,其中K是類個數。簇集合的總熵用每個簇的熵的加權和計算即:

集成聚類系列(二):常用的聚類算法及聚類算法評價指標

其中K是簇的個數,而 m 是簇內數據點的總和

純度:

簇內包含單個類對象的另外一種度量。簇 i 的純度為

集成聚類系列(二):常用的聚類算法及聚類算法評價指標

,而聚類總純度為:

集成聚類系列(二):常用的聚類算法及聚類算法評價指標

原創文章,作者:投稿專員,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/255499.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
投稿專員的頭像投稿專員
上一篇 2024-12-15 12:27
下一篇 2024-12-15 12:27

相關推薦

發表回復

登錄後才能評論