典型聚類算法
基於劃分的方法
代表:kmeans算法

基於層次的方法
代表:CURE算法

基於網格的方法
代表:STING算法
將數據集合X劃分多層網格結構,從某一層開始計算查詢該層網格間的屬性值,計算屬性值與閾值的關係,判定網格間的相關情況,不相關的網格不作考慮如果網格相關,則進入下一層的相關區域繼續第二步,直到下一層為最底層返回相關網格結果
基於密度的方法
代表:DBSCAN算法
輸入數據集合X,隨機選取一點,並找出這個點的所有高密度可達點遍歷此點的所有 ε 鄰域內的點,並尋找這些密度可達點,判定某點 ε− 鄰域內的點,並尋找這些點密度可達點,判定某點的 ε− 鄰域內的點數是否超過閾值點數,超過則構成核心點掃描數據集,尋找沒有被聚類的數據點,重複第二步輸出劃分的類,並輸出異常值點(不和其他密度相連)
神經網絡的方法
代表:SOM算法

基於圖的聚類方法
代表:譜聚類算法

聚類算法的評價指標
一個好的聚類方法可以產生高品質簇,是的簇內相似度高,簇間相似度低。一般來說,評估聚類質量有兩個標準,內部質量評價指標和外部評價指標。
內部質量評價標準
內部評價指標是利用數據集的屬性特徵來評價聚類算法的優劣。通過計算總體的相似度,簇間平均相似度或簇內平均相似度來評價聚類質量。評價聚類效果的高低通常使用聚類的有效性指標,所以目前的檢驗聚類的有效性指標主要是通過簇間距離和簇內距離來衡量。這類指標常用的有CH(Calinski-Harabasz)指標等
CH指標
CH指標定義為:


簇的凝聚度
簇內點對的平均距離反映了簇的凝聚度,一般使用組內誤差平方(SSE)表示:

簇的鄰近度
簇的鄰近度用組間平方和(SSB)表示,即簇的質心 C_i 到簇內所有數據點的總平均值 c 的距離的平方和
外部質量評價標準
外部質量評價指標是基於已知分類標籤數據集進行評價的,這樣可以將原有標籤數據與聚類輸出結果進行對比。外部質量評價指標的理想聚類結果是:具有不同類標籤的數據聚合到不同的簇中,具有相同類標籤的數據聚合相同的簇中。外部質量評價準則通常使用熵,純度等指標進行度量。
熵:
簇內包含單個類對象的一種度量。對於每一個簇,首先計算數據的類分佈,即對於簇 i ,計算簇 i 的成員屬於類 j 的概率

其中m_i表示簇 i 中所有對象的個數,而 m_ij 是簇 i中類 j 的對象個數。使用類分佈,用標準公式:

計算每個簇 i 的熵,其中K是類個數。簇集合的總熵用每個簇的熵的加權和計算即:

其中K是簇的個數,而 m 是簇內數據點的總和
純度:
簇內包含單個類對象的另外一種度量。簇 i 的純度為

,而聚類總純度為:

原創文章,作者:投稿專員,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/255499.html