与距离度量相反,相似度度量的值越小,说明个体间相似度越小,差异越大。常用的相似度度量方法有以下几种。
①向量空间余弦相似度(cosine similarity)。余弦相似度利用向量空间中两个向量夹角的余弦值衡量两个个体间差异的大小。相比距离度量,余弦相似度更加注重两个向量在方向上的差异。给定两个向量和
,其公式为:
…(1)
②皮尔逊相关系数(Pearson correlation coefficient)。又称皮尔逊积差相关系数,是用来反映两个变量相似程度的统计量。其公式为:
…(2)
式中分子为两个变量的协方差矩阵;分母为两个变量的标准差的乘积;为数学期望。
③雅卡尔相似系数(Jaccard similarity coefficient)。雅卡尔相似系数主要计算两个集合之间的相似程度。给定两个集合和
,计算公式为:
…(3)