密度聚类

首页 . 理学 . 计算机科学技术 . 人工智能 . 知识发现 . 聚类分析

/density clustering/

条目作者于剑

于剑

最后更新 2024-12-04

浏览 222次

最后更新 2024-12-04

浏览 222次

0 意见反馈条目引用

聚类分析中一种强大的聚类方法。其通常可发现任意形状、大小不一的类，且不需用户指定聚类个数。

英文名称: density clustering

所属学科: 计算机科学技术

其对类描述性的定义如下：一个高密度区域若被低密度区域分隔开，则此高密度区域为一个类。如图所示，左边是一个数据集，右边是此数据集的概率密度分布估计，那么通过此分布可正确地将数据集划分成两个类。具有噪声的基于密度的聚类方法（density-based spatial clustering of applications with noise,DBSCAN）是典型的基于密度的算法。

密度聚类示意图

描述

基于密度的聚类算法包括两个核心的组件，即点密度的估计及高密度区域的判别。DBSCAN用领域内点的数量来估计点的密度，如某点p的密度是以其圆心，epsilon为半径的超球内的点数。若点p的邻域内点的数量超过某个阈值MinPts，则称该点为核心点。若点q在核心点p的邻域内，称从p到q直接密度可达；若从p到q由若干直接密度可达的点对相连，称p到q密度可达；若存在一个点与p、q密度可达，则称p与q密度相连。密度相连的点组成一个高密度区域，即为一个类。此算法需要指定参数epsilon和MinPts，为用户的使用带来困难，且时间复杂度为O( $N^2$ )，不适宜用于大数据集的处理。DBSCAN还有另一缺点，由于其参数为全局的，不能处理包含多种密度层次的数据集。OPTICS对DBSCAN的这一缺点进行了改进。

改进

OPTICS（ordering point to identify the cluster structure）是对DBSCAN的一种改进，它对输入参数epsilon与MinPts不敏感。与DBSCAN相比，它定义了另外两个概念：核心距离（core distance）与可达距离（reachability distance），然后将数据点排序，并维持每个数据点的核心距离与可达距离，再从这些信息提取类的结构。

条目图册

扩展阅读

ESTER M, KRIEGEL H P, SANDER J, XU X．A density-based algorithm for discovering clusters in large spatial databases with noise．AAAI Press, Oregon, Portland，1996，226-231．
ANKERST M, BREUNIG M M, KRIEGEL H P, SANDER J．OPTICS: ordering points to identify the clustering structure．Proceedings of the ACM international Conference on Management of Data (SIGMOD), Philadelphia,PA，1999．

密度聚类

于剑

描述

改进

条目图册

扩展阅读

阅读历史

感谢您的反馈

密度聚类

于剑

描述

改进

条目图册

扩展阅读

精选发现

相关条目

阅读历史

感谢您的反馈