一、聚类算法概述
聚类是一种无监督学习方法,其目标是将相似的数据样本自动分组到若干个类别中。聚类分析广泛应用于数据挖掘、图像分析、信号处理等领域。
聚类算法大致可以分为以下几类:
- 层次聚类算法(Hierarchical Clustering)
- 划分聚类算法(Partitioning Clustering)
- 基于密度的聚类算法(Density-based Clustering)
- 基于网格的聚类算法(Grid-based Clustering)
- 模型聚类算法(Model-based Clustering)
下面我们以K-means算法为例进行介绍。
二、K-means算法
K-means算法是一种基于划分的聚类算法,其主要思想是将所有数据点划分到K个集群中,使得同一集群内的样本点是相似的,不同集群内的样本点是不相似的。K-means算法的具体过程如下:
- 随机选取K个数据点作为初始的聚类中心;
- 计算所有数据点到聚类中心的距离,将其归为距离最近的聚类中心所在的集群内;
- 计算每个集群的重心,作为新的聚类中心;
- 重复步骤2和3,直至满足收敛条件。
下面是K-means算法的代码实现:
import numpy as np
class KMeans:
def __init__(self, k=3, max_iters=100):
self.K = k
self.max_iters = max_iters
def fit(self, X):
self.centroids = X[np.random.choice(len(X), self.K, replace=False)]
for i in range(self.max_iters):
clusters = [[] for _ in range(self.K)]
for x in X:
distances = [np.linalg.norm(x-c) for c in self.centroids]
cluster_idx = np.argmin(distances)
clusters[cluster_idx].append(x)
prev_centroids = self.centroids
self.centroids = [np.mean(cluster, axis=0) for cluster in clusters]
if np.all(prev_centroids == self.centroids):
break
self.labels = np.zeros(len(X))
for i, cluster in enumerate(clusters):
for x in cluster:
self.labels[X.tolist().index(x.tolist())] = i
return self.labels
三、K-means算法应用举例
以下是一个简单的数据集,其中包含了40个样本点:
import matplotlib.pyplot as plt
data = np.vstack(((np.random.randn(10, 2) * 0.75 + np.array([1, 0])),
(np.random.randn(10, 2) * 0.25 + np.array([-0.5, 0.5])),
(np.random.randn(10, 2) * 0.5 + np.array([-0.5, -0.5])),
(np.random.randn(10, 2) * 0.5 + np.array([0.5, -0.5])),
(np.random.randn(10, 2) * 0.5 + np.array([0.5, 0.5]))))
plt.scatter(data[:,0], data[:,1])
plt.show()
运行结果如下:
我们可以使用K-means算法将这40个点聚成3类,代码如下:
kmeans = KMeans(k=3, max_iters=100)
labels = kmeans.fit(data)
colors = ['r', 'g', 'b']
for i in range(kmeans.K):
plt.scatter(data[labels==i][:,0], data[labels==i][:,1], color=colors[i])
plt.scatter(kmeans.centroids[:,0], kmeans.centroids[:,1], marker='x', color='black')
plt.show()
运行结果如下:
四、K-means算法的优缺点
K-means算法是一种快速且易于实现的聚类算法,但是也存在一些缺点,如下所示:
- 需要预先指定类别数,如果K值选择不当,会导致聚类性能较差;
- 对于非凸形状或密度不均匀的数据分布,聚类效果较差;
- 算法对初始值非常敏感,不同的初始值可能会得到不同的聚类结果;
- 只能适用于连续型的数值型特征,对于离散型或文本型特征不可使用。
五、总结
聚类分析是一种无监督学习方法,其主要目的是将相似的数据样本自动分组到若干个类别中。本文介绍了K-means算法,并提供了一个简单的代码实现和应用,同时对K-means算法的优缺点进行了分析。在实际应用中,需要根据数据特点选择合适的聚类算法,并选取合适的K值来提高聚类性能。
原创文章,作者:JJGVL,如若转载,请注明出处:https://www.506064.com/n/335006.html
微信扫一扫
支付宝扫一扫