聚类将数据样本划分为一系列子集,使得每个子集中的数据样本尽可能相似,子集与子集间的数据样本差异尽可能大。聚类的基本要求为:类内相似度大,类间相似度小。在聚类分析中,事先并不知道数据的结构及分布,因此需要对聚类结果的有效性和合理性进行评价和验证,这个过程称之为聚类有效性评价。聚类分析是一个无监督学习的过程,聚类分析与分类最大的区别在于没有预先知晓类别信息。因此,无法用分类准确率等评价标准对聚类结果进行评估。
聚类有效性评价过程通过定义聚类有效性函数,对聚类记过进行定量的评价。聚类有效性评价过程包括对聚类结果优劣的评价、寻找最优聚类划分以及确定最优类个数等。聚类有效性分析过程中使用的评价指标称之为聚类有效性指标,聚类有效性指标用于定量的对聚类结果进行评价。通常,聚类有效性指标有外部评价指标、内部评价指标和相对评价指标等。
外部评价指标当人们预先知道数据的“真实”类标时,可以采用外部聚类评价指标对聚类结果进行评价。外部评价基于数据本身的结构,检验聚类结果与已知分类的吻合程度。但实际上,聚类是无监督学习过程,所处理数据样本无类标信息。使用外部评价指标的聚类有效性评价忽略了聚类结果的期望特征,只注重于判断聚类结果是否符合数据的“真实”类标。
内部评价指标如果没有任何关于数据“真实”结构的外部信息,可以采用内部聚类算法指标对聚类结果进行评价。在实际应用中,往往没有诸如类标等这些外部信息,此时,内部聚类算法评估就成为唯一的选择。内部评价指标衡量聚类结果的好坏通过三方面衡量:一是要求同一类中的数据具有较高相似程度,即有较高的类内紧致度;二是要求类与类之间的距离应尽可能的远,应有较高的类间离散度;三是在性能相当的类表示中选用尽可能简单的,即所谓的奥卡姆剃刀准则。使用内部评价指标的聚类有效性评价是综合考虑聚类结果中的类内紧致度、类间离散度的大小以及类表示复杂度,来对聚类结果进行评价。
相对评价指标对同一个数据集合,用不同参数设置下的同一个聚类算法对其进行聚类。对得到的聚类结果,用已定义的聚类有效性指标对其进行评价,通过比较判断最优聚类。相对评价指标通常应用于聚类算法的参数选择以及最佳类别个数的确定等问题。
实际上,并没有任何一种聚类有效性指标适用于所有应用领域。聚类有效性评价方法和聚类有效性评价指标往往与实际应用问题以及采用的聚类算法等因素有关。