首页 . 理学 . 计算机科学技术 . 人工智能 . 知识发现 . 聚类分析

划分聚类

/partition clustering/
条目作者宗成庆

宗成庆

最后更新 2024-12-04
浏览 194
最后更新 2024-12-04
浏览 194
0 意见反馈 条目引用

聚类分析中最常见的一类算法,这类算法的主要特点是根据某一目标函数将数据集划分成若干个类。

英文名称
partition clustering
所属学科
计算机科学技术

典型的划分聚类算法分为两类:基于类中心的K-means、基于代表点的K-medoids。

数据集包含个数据点,式中为一个维的向量,K-medoids算法将该数据集划分成类,,使下列目标函数(Sum-of-Absolute-Errors)最小:


式中是类的代表点,表示的相异度。

K-medoids算法包括如下几步:定义对象的相异矩阵,选取初始代表点,反复交换代表点与非代表点直至SAE不能减少。K-medoids由于不求类的均值,其相异矩阵的定义则可不使用欧氏距离。初始代表点通常随机选取,也可特别选择。确定一个非代表点是否可代替代表点,对于对象的重新划分可考虑4种情况:

①如果,那么分配给

②如果,那么分配给

③如果,且,那么仍分配给

④如果,且,那么分配给

K-medoids的典型实现是PAM(Partitioning Around Medoids),其算法描述如下:①在数据集中随机选择个数据点,作为个类的初始代表点。②反复执行交换操作,直到代表点保持不变:对每一个代表点与每一个非代表点替换重新分配所有对象,并计算SAE,若其减少则确认交换,否则撤销交换。

PAM的改进算法CLARA将采样技术与PAM结合,以处理大数据集。它的缺点是某个采样得到的代表点可能不是最佳的代表点,此时将导致聚类效果变差。CLARANS则是CLARA的变种,它在搜索过程中随机采样,以一定程度上弥补CLARA的缺陷。

相对K-means算法,K-medoids对噪音点比较鲁棒,且易于处理非连续数据,但其时间复杂度较高。

  • KAUFMAN L, ROUSSEEUW P J.Finding Groups in Data: an Introduction to Cluster Analysis.[S.l.]:N.Y., John Wiley,1990.
  • PARK H S, JUN C H.A simple and fast algorithm for K-medoids clustering.Expert Systems with Applications,2009,36(2):3336-3341.
  • NG R, HAN J.CLARANS: A Method for Clustering Objects for Spatial Data Mining.IEEE Transactions Knowledge of Data Engineering,2001,14(5):1003-1016.

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!