首页 . 理学 . 统计学 . 数理统计 . 预测

Cp准则

/Cp criterion/
条目作者夏寅

夏寅

最后更新 2024-06-14
浏览 244
最后更新 2024-06-14
浏览 244
0 意见反馈 条目引用

将Cp统计量作为选择最优子集的一种标准。

英文名称
Cp criterion
所属学科
统计学

由英国统计学家C.L.马洛斯[注]提出。Cp准则常用于评估使用普通最小二乘估计的回归模型的拟合程度。当线性回归的残差服从高斯分布时,Cp准则已被证明与赤池信息准则是等价的。

通常在模型选择的过程中会使用Cp准则,当存在一系列备选自变量用于预测因变量时,目标是从这些自变量中选取一个子集从而得到最佳模型、达到最佳的预测效果,Cp值越小意味着模型越精准。

如果在个自变量里选取个自变量,那么对应的Cp值可由以下公式计算得到:

式中为包含个自变量的模型误差平方和;为由个自变量得到的预测值的第个分量;为把所有自变量选入模型后得到的残差均方误差;则为样本量。

Cp准则有以下两个局限性:①只适用于大样本。②不能像变量选择方法那样处理复杂的模型集合。 

Cp准则通常用于各种逐步回归法的停止规则。由马洛斯提出的Cp统计量常用于对一系列备选子集进行选择。在模型的拟合没有明显偏差的前提下,Cp统计量的期望值几乎等于;否则,它的期望值大致是加一个正偏差项。尽管如此,即使它的期望大于或等于,在极端情况下,Cp统计量值还是会小于甚至小于0。把所有的自变量子集按的升序排列,通常建议选择Cp值逼近的子集。

基于样本的Cp统计量是均方预测误差的估计值,因此使用Cp统计量进行模型选择可能会出现模型的过度拟合。例如,所选择的模型可能是样本Cp统计量严重低估均方预测误差的模型。

模型选择的统计量(如Cp统计量)通常不能盲目使用,需要考虑模型选择过程中实际应用领域的具体信息、模型的预期用途以及数据中的任何已知的偏差信息。

  • MALLOWS C L.Some Comments onCp.Technometrics,2000,42(1):87-94.

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!