两个随机变量之间的关系可能是线性关系、曲线关系或相互独立,散点图可直观地展示这些关系。对服从二元正态分布的两个连续型随机变量和
,用皮尔逊(Pearson)相关系数
来描述其线性关系的密切程度和方向,定义公式为:
式中、
和
分为
和
的协方差和方差。
,
,
。
,没有量纲。
时为正相关,表示
和
呈正向线性变化趋势,即
随
的增大有增大的趋势;
时称完全正相关,
和
呈精确线性关系,即
绘制的散点恰好在一条直线上。类似地,
时为负相关;
时称完全负相关。
时为零相关,表示
和
之间没有线性关系。显然,
越大,则
和
之间的线性关系越密切。需注意的是,
并不代表两变量没有关系,有可能存在曲线关系。Pearson相关系数简称相关系数,可理解为标准化的协方差。
由于存在抽样误差,即使总体相关系数,样本相关系数不大可能为0。因此,需对样本相关系数进行假设检验,零假设为
。检验统计量
,式中
为
的标准误,且
。
若随机变量、
不服从双变量正态分布或原始数据用等级表示的资料,可采用秩相关分析,也称等级相关,常用统计量有斯皮尔曼(Spearman)相关系数、伽马(Gamma)系数;若随机变量
、
至少有一个为无序分类变量时,可计算关联系数来反映二者的关联程度,常用统计量有:
系数、伽马V系数和皮尔逊列联系数。