其对类描述性的定义如下:一个高密度区域若被低密度区域分隔开,则此高密度区域为一个类。如图所示,左边是一个数据集,右边是此数据集的概率密度分布估计,那么通过此分布可正确地将数据集划分成两个类。具有噪声的基于密度的聚类方法(density-based spatial clustering of applications with noise,DBSCAN)是典型的基于密度的算法。
首页
[{"ID":42422,"Name":"理学"},{"ID":81272,"Name":"计算机科学技术"},{"ID":81532,"Name":"人工智能"},{"ID":81562,"Name":"知识发现"},{"ID":81564,"Name":"聚类分析"}]
. 理学 . 计算机科学技术 . 人工智能 . 知识发现 . 聚类分析密度聚类
/density clustering/
最后更新 2024-12-04
浏览 222次
聚类分析中一种强大的聚类方法。其通常可发现任意形状、大小不一的类,且不需用户指定聚类个数。
- 英文名称
- density clustering
- 所属学科
- 计算机科学技术
基于密度的聚类算法包括两个核心的组件,即点密度的估计及高密度区域的判别。DBSCAN用领域内点的数量来估计点的密度,如某点p的密度是以其圆心,epsilon为半径的超球内的点数。若点p的邻域内点的数量超过某个阈值MinPts,则称该点为核心点。若点q在核心点p的邻域内,称从p到q直接密度可达;若从p到q由若干直接密度可达的点对相连,称p到q密度可达;若存在一个点与p、q密度可达,则称p与q密度相连。密度相连的点组成一个高密度区域,即为一个类。此算法需要指定参数epsilon和MinPts,为用户的使用带来困难,且时间复杂度为O(),不适宜用于大数据集的处理。DBSCAN还有另一缺点,由于其参数为全局的,不能处理包含多种密度层次的数据集。OPTICS对DBSCAN的这一缺点进行了改进。
OPTICS(ordering point to identify the cluster structure)是对DBSCAN的一种改进,它对输入参数epsilon与MinPts不敏感。与DBSCAN相比,它定义了另外两个概念:核心距离(core distance)与可达距离(reachability distance),然后将数据点排序,并维持每个数据点的核心距离与可达距离,再从这些信息提取类的结构。
条目图册
扩展阅读
- ESTER M, KRIEGEL H P, SANDER J, XU X.A density-based algorithm for discovering clusters in large spatial databases with noise.AAAI Press, Oregon, Portland,1996,226-231.
- ANKERST M, BREUNIG M M, KRIEGEL H P, SANDER J.OPTICS: ordering points to identify the clustering structure.Proceedings of the ACM international Conference on Management of Data (SIGMOD), Philadelphia,PA,1999.