划分聚类

首页 . 理学 . 计算机科学技术 . 人工智能 . 知识发现 . 聚类分析

/partition clustering/

条目作者宗成庆

宗成庆

最后更新 2024-12-04

浏览 194次

最后更新 2024-12-04

浏览 194次

0 意见反馈条目引用

聚类分析中最常见的一类算法，这类算法的主要特点是根据某一目标函数将数据集划分成若干个类。

英文名称: partition clustering

所属学科: 计算机科学技术

典型的划分聚类算法分为两类：基于类中心的K-means、基于代表点的K-medoids。

数据集 $D$ 包含 $n$ 个数据点 $D\mathrm{=\{ {\bf x_1, x_2, …, x_n}} \}$ ，式中 $\mathrm{x}_i$ 为一个 $d$ 维的向量，K-medoids算法将该数据集划分成 $K$ 类， $\mathrm{\boldsymbol C}= \{ \boldsymbol C_1, \boldsymbol C_2, …, \boldsymbol C_k \}$ ，使下列目标函数(Sum-of-Absolute-Errors)最小：

$SAE=\sum^K_{i=1}\sum_{\boldsymbol x\in \boldsymbol C_\boldsymbol i} d(\boldsymbol x,\boldsymbol o_\boldsymbol i)$

式中 $\boldsymbol {o_i}$ 是类 $\boldsymbol {C_i}$ 的代表点， $d(\boldsymbol x,\boldsymbol {o_i})$ 表示 $\boldsymbol x$ 与 $\boldsymbol {o_i}$ 的相异度。

K-medoids算法包括如下几步：定义对象的相异矩阵，选取初始代表点，反复交换代表点与非代表点直至SAE不能减少。K-medoids由于不求类的均值，其相异矩阵的定义则可不使用欧氏距离。初始代表点通常随机选取，也可特别选择。确定一个非代表点 $\boldsymbol o$ 是否可代替代表点 $\boldsymbol {o_i}$ ，对于对象 $\boldsymbol x$ 的重新划分可考虑4种情况：

①如果 $\boldsymbol x \in \boldsymbol {C_i}$ ， $\exists \boldsymbol o_\boldsymbol j d(\boldsymbol x,\boldsymbol {o_j} ) < d(\boldsymbol x,\boldsymbol o)$ 且 $\boldsymbol i \neq \boldsymbol j$ ，那么 $\boldsymbol x$ 分配给 $\boldsymbol {o_j}$ 。

②如果 $\boldsymbol x \in \boldsymbol {C_i}$ ， $\nexists \boldsymbol o_\boldsymbol j d(\boldsymbol x,\boldsymbol {o_j} ) < d(\boldsymbol x,\boldsymbol o)$ 且 $\boldsymbol i \neq \boldsymbol j$ ，那么 $\boldsymbol x$ 分配给 $\boldsymbol o$ 。

③如果 $\boldsymbol x \in \boldsymbol {C_j}$ ， $\boldsymbol i \neq \boldsymbol j$ ，且 $d(\boldsymbol x,\boldsymbol {o_j} ) < d(\boldsymbol x,\boldsymbol o)$ ，那么 $\boldsymbol x$ 仍分配给 $\boldsymbol {o_j}$ 。

④如果 $\boldsymbol x \in \boldsymbol {C_j}$ ， $\boldsymbol i \neq \boldsymbol j$ ，且 $d(\boldsymbol x,\boldsymbol {o_j} ) > d(\boldsymbol x,\boldsymbol o)$ ，那么 $\boldsymbol x$ 分配给 $\boldsymbol o$ 。

K-medoids的典型实现是PAM（Partitioning Around Medoids），其算法描述如下：①在数据集中随机选择 $K$ 个数据点，作为 $K$ 个类的初始代表点。②反复执行交换操作，直到代表点保持不变：对每一个代表点 $\boldsymbol o$ 与每一个非代表点 $\boldsymbol x$ ，用 $\boldsymbol x$ 替换 $\boldsymbol o$ ，重新分配所有对象，并计算SAE，若其减少则确认交换，否则撤销交换。

PAM的改进算法CLARA将采样技术与PAM结合，以处理大数据集。它的缺点是某个采样得到的代表点可能不是最佳的代表点，此时将导致聚类效果变差。CLARANS则是CLARA的变种，它在搜索过程中随机采样，以一定程度上弥补CLARA的缺陷。

相对K-means算法，K-medoids对噪音点比较鲁棒，且易于处理非连续数据，但其时间复杂度较高。

扩展阅读

KAUFMAN L, ROUSSEEUW P J．Finding Groups in Data: an Introduction to Cluster Analysis．[S.l.]：N.Y., John Wiley，1990．
PARK H S, JUN C H．A simple and fast algorithm for K-medoids clustering．Expert Systems with Applications，2009，36(2)：3336-3341．
NG R, HAN J．CLARANS: A Method for Clustering Objects for Spatial Data Mining．IEEE Transactions Knowledge of Data Engineering，2001，14(5)：1003-1016．

划分聚类

宗成庆

扩展阅读

阅读历史

感谢您的反馈

划分聚类

宗成庆

扩展阅读

精选发现

相关条目

阅读历史

感谢您的反馈