对于简单线性回归而言,决定系数即为样本相关系数的平方。当引入其他回归自变量后,决定系数则相应地变为多重相关系数的平方。因此,决定系数的取值为0~1。决定系数的概念首先由遗传学家S.赖特[注]于1921年首次提出。
决定系数是一个多义词,请在下列义项上选择浏览(共2个义项)
在统计学中,用于度量因变量的变异中可由自变量解释的部分所占的比例,以此来判断统计模型的解释能力,记为。又称广义相关系数。
对于简单线性回归而言,决定系数即为样本相关系数的平方。当引入其他回归自变量后,决定系数则相应地变为多重相关系数的平方。因此,决定系数的取值为0~1。决定系数的概念首先由遗传学家S.赖特[注]于1921年首次提出。
假设一数据集包含了共
个观测值,而相对应的模型预测值为
。定义模型的残差为
,观测值均值为
。那么可以定义以下3个重要的平方和:
①总平方和(SST)表示为:
其自由度为。
②回归平方和(SSR)表示为:
其自由度为,其值为自变量的个数。
③偏差平方和(SSE):
其自由度为。
那么决定系数即可定义为:
决定系数代表了回归方程对因变量的解释能力。若所有的样本点都在回归直线上,那么其取值为1。它的值越大,则回归直线拟合得越好。但是,随着回归模型里自变量的增加,决定系数会随之增大,因此,它的值不能够单独用来作为评判一个模型好坏的标准。若要比较两个模型,应采用基于残差平方和的检验统计量,或是采用调整后的决定系数,即根据观测数对模型的自变量数进行调整,它是基于自由度定义的:
调整后的值总是小于,并且可以为负值。与
不同的是,随着自变量数的增加,调整后的值不一定会增大。为了根据样本信息来预测未来结果或检验假设,线性统计模型常被用来拟合数据,而决定系数则提供了模型解释能力的一种度量。