在进行聚类之前,首先要确定类间距的计算方法,通常类与类之间的距离通过样本之间的距离来确定。常用类间距的计算方法包括最短距离法、最长距离法、重心法、类平均法等。在实际应用中,使用不同的类间距定义方法,可能将得到不同的聚类结果。
表示不同的类,
表示类
和
间的距离,
表示样本
与
之间的距离。
①最短距离法。将类与类之间的距离定义为两类中相距最近的样本之间的距离:
(1) |
②最长距离法。将类与类之间的距离定义为两类中相距最远的样本之间的距离:
(2) |
③重心距离法。将类与类之间的距离定义为两类重心间的距离:
(3) |
式中和
分别为类
和
的样本均值。
④类平均法。两类样本中,所有观测值两两观测间距离的平均作为类间距离:
(4) |
式中和
分别为类
和
中的样本数。