首页 . 理学 . 计算机科学技术 . 人工智能 . 知识发现 . 聚类分析

密度聚类

/density clustering/
条目作者于剑

于剑

最后更新 2024-12-04
浏览 222
最后更新 2024-12-04
浏览 222
0 意见反馈 条目引用

聚类分析中一种强大的聚类方法。其通常可发现任意形状、大小不一的类,且不需用户指定聚类个数。

英文名称
density clustering
所属学科
计算机科学技术

其对类描述性的定义如下:一个高密度区域若被低密度区域分隔开,则此高密度区域为一个类。如图所示,左边是一个数据集,右边是此数据集的概率密度分布估计,那么通过此分布可正确地将数据集划分成两个类。具有噪声的基于密度的聚类方法(density-based spatial clustering of applications with noise,DBSCAN)是典型的基于密度的算法。

密度聚类示意图密度聚类示意图

基于密度的聚类算法包括两个核心的组件,即点密度的估计及高密度区域的判别。DBSCAN用领域内点的数量来估计点的密度,如某点p的密度是以其圆心,epsilon为半径的超球内的点数。若点p的邻域内点的数量超过某个阈值MinPts,则称该点为核心点。若点q在核心点p的邻域内,称从pq直接密度可达;若从pq由若干直接密度可达的点对相连,称pq密度可达;若存在一个点与pq密度可达,则称pq密度相连。密度相连的点组成一个高密度区域,即为一个类。此算法需要指定参数epsilon和MinPts,为用户的使用带来困难,且时间复杂度为O(),不适宜用于大数据集的处理。DBSCAN还有另一缺点,由于其参数为全局的,不能处理包含多种密度层次的数据集。OPTICS对DBSCAN的这一缺点进行了改进。

OPTICS(ordering point to identify the cluster structure)是对DBSCAN的一种改进,它对输入参数epsilon与MinPts不敏感。与DBSCAN相比,它定义了另外两个概念:核心距离(core distance)与可达距离(reachability distance),然后将数据点排序,并维持每个数据点的核心距离与可达距离,再从这些信息提取类的结构。

  • ESTER M, KRIEGEL H P, SANDER J, XU X.A density-based algorithm for discovering clusters in large spatial databases with noise.AAAI Press, Oregon, Portland,1996,226-231.
  • ANKERST M, BREUNIG M M, KRIEGEL H P, SANDER J.OPTICS: ordering points to identify the clustering structure.Proceedings of the ACM international Conference on Management of Data (SIGMOD), Philadelphia,PA,1999.

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!