分类回归树

首页 . 理学 . 统计学 . 数理统计 . 统计学习

/classification and regression tree；CART/

条目作者钟威

钟威

最后更新 2024-12-04

浏览 204次

最后更新 2024-12-04

浏览 204次

0 意见反馈条目引用

一种决策树方法，基于树把特征空间划分为一系列的矩形区域，在每一个区域中拟合一个简单的模型。

英文名称: classification and regression tree；CART

所属学科: 统计学

基本原理

分类回归树(CART)模型是由L.布赖曼等人于1984年提出的一种应用广泛的决策树方法，基于树的方法把特征空间划分为一系列的矩形区域，在每一个区域中拟合一个简单的预测模型（如常数模型）。分类回归树(CART)模型由特征选择、树的生成及其剪枝组成，既可以用于分类也可以用于回归。CART是在给定输入特征变量X条件下输出随机变量Y的条件概率分布的学习方法。CART假设决策树是二叉树，内部结点特征取值为“是”或“否”，树每个节点的左分支表示取值为“是”，右分支表示取值为“否”。该算法等价于递归地二分每个特征，将特征空间划分为一系列矩形区域，并在每个区域拟合一个预测模型。例如，左边的图表示利用两个特征变量 $X_1$ 和 $X_2$ 将特征空间分成了5个矩形区域，右边的图表示对应的树模型（见图）。比如，首先生成的树在 $X_1=t_1$ 点进行分叉，如果 $X_1$ 小于等于 $t_1$ ，那就考虑左边的分支；接下来，考虑树在 $X_2=t_2$ 点进行分叉，如果 $X_2$ 大于 $t_2$ ，那就考虑右边的分支，从而落入 $R_2$ 区域。

分类回归树示例图

决策树生成

递归构建二叉决策树，对回归树用平方误差最小的准则，对分类树用基尼指数（Gini Index）最小化准则，进行特征选择，生成二叉树。

回归树的生成

假设 $X$ 和 $Y$ 分别为输入和输出变量，且 $Y$ 为连续变量，将已输入空间划分为 $M$ 个单元 $R_1,R_2,\cdots,R_M$ ， $I$ 为空间划分的示性函数，并且在每个单元 $R_m$ 上有一个固定的输出值 $c_m$ ，建立回归树模型为：

$f(x)=\sum^M_{m=1}c_mI(x\in R_m)\tag*{$\cdots$（1）}$

用平方误差 $\Sigma_{x_i\in R_m} (y_i-f(x_i))^2$ 最小的准则求解每个单元上的最优输出值，即输出单元上样本响应变量的均值：

$\widehat c_m=ave(y_i|x_i\in R_m)\tag*{$\cdots$（2）}$

在选择如何对输入空间进行划分时，选取第 $j$ 个变量 $x^{(j)}$ 和它的取值 $s$ ，作为切分变量和切分点，以此先将输入空间划分为两个区域，分别记为 $R_1(j,s)=\{x|x^{(j)}\leqslant s\}$ ， $R_2(j,s)=\{x|x^{(j)}> s\}$ 。对于给定变量 $x^{(j)}$ ，求解以下最优化问题可以得到最优切分点 $s$ ：

$\mathrm{min}_{j,s}[\mathrm{min}_{c_1}\sum_{x_i\in R_1(j,s)} (y_i-c_1)^2 +\mathrm{min}_{c_2}\sum_{x_i\in R_2(j,s)} (y_i-c_2)^2]\tag*{$\cdots$（3）}$

重复上述划分过程直至满足条件生成一棵回归树，这样的回归树通常称为最小二乘回归树（least squares regression tree）。

分类树的生成

假设有 $K$ 个类，样本点属于第 $k$ 类的概率为 $p_k$ ，则概率分布的基尼系数定义为

$Gini(p)=\sum^K_{i=1}p_k(1-p_k)=1-\sum^K_{i=1}p_k^2\tag*{$\cdots$（4）}$

对于给定样本集合 $D$ ，其基尼系数为：

$Gini(D)=1-\sum^K_{k=1} \left( \frac{|C_k|}{|D|}\right)^2\tag*{$\cdots$（5）}$

式中 $C_k$ 为样本中属于第 $k$ 类的数量， $|D|$ 为样本总量。

如果样本集合 $D$ 根据特征 $A$ 是否取值 $a$ 分成两部分 $D_1$ 和 $D_2$ ，在特征 $A$ 的条件下，集合 $D$ 的基尼系数定义为：

$Gini(D,A)= \frac{|D_1|}{|D|} Gini(D_1) + \frac{|D_2|}{|D|} Gini(D_2) \tag*{$\cdots$（6）}$

基尼系数 $Gini(D)$ 表示集合 $D$ 的不确定性，基尼系数 $Gini(D,A)$ 表示经 $A=a$ 分割后集合 $D$ 的不确定性。基尼系数数值越大，表明样本集合的不确定性越大。

CART分类决策树的生成通过递归地对每个节点进行如下操作得到。首先，对每个特征和其可能的每个取值（假设特征是离散的，如果是连续的就考虑利用二分法切分特征），计算在该特征条件下的样本集合的基尼系数 $Gini(D,A)$ 。然后，在所有特征和所有可能的切分点中选择基尼指数最小的特征及其对应的切分点，并利用该对应的特征及其切分点生成两个子节点，将训练样本依该特征切分点分配到两个子节点中去。最后，对两个子节点递归地调用前面两步，直至满足停止条件，生成分类决策树。

决策树剪枝

CART剪枝算法从“完全生长”的决策树的底端剪去一些子树，使决策树变小（模型变简单），从而避免过拟合，提高模型预测能力。CART剪枝算法由两步组成：首先，从生成算法产生的决策树 $T_0$ 底端开始不断剪枝，直到 $T_0$ 的根节点，形成一个子树序列 $T_0,T_1,\cdots,T_n$ 。然后，通过交叉验证法在独立的验证数据集上对子树序列进行测试，从中选择最优子树。

条目图册

扩展阅读

李航．统计学习方法．北京：清华大学出版社，2012．
HASTIE T，TIBSHIRANI R，FRIEDMAN J．The Elements of Statistical Learning：Data Mining, Inference, and Prediction, Second Edition．New York：Springer，2009．