“重心”源于物理学中的重心概念,在系统聚类中,重心距离法采用重心之间的距离定义类与类之间的相似程度。当对样本分类时,每一类的重心就是属于该类的样本均值。虽然重心指标对类有很好的代表性,但利用各样本的信息不够充分。
设某一步骤将类和类
合并成一个新类,记为
。
,
和
所包含的样本个数分别为
,
和
(
)。
,
和
的重心分别为
,
和
,则有:
设某一类的重心为
,它与新类
的距离:
如果样本间的距离定义为欧式距离,则有
式(3)为当样本间距离取为欧氏距离时,合并后新类与其他类距离平方的递推公式,如果样本间距离不是欧式距离,则需根据情况计算出相应的递推公式。
与最短距离法与最长距离法等系统聚类方法相比,重心距离法的优点在于用均值取代了极值,在处理异常值时算法较稳健,从而弥补了最短距离法与最长距离法的不足之处,适合于样本间差异比较大的情况下使用。