分类 - 《中国大百科全书》第三版网络版

首页 . 理学 . 地理学 . 地理信息科学 . 计量地理学 . 分类

分类

/classification/

条目作者蔡砥

蔡砥

最后更新 2022-12-23

浏览 401次

最后更新 2022-12-23

浏览 401次

0 意见反馈条目引用

地理学的传统研究方法。

英文名称: classification

所属学科: 地理学

早在2000多年前，地理著作《禹贡》就提出了土地的分类方法，在模式识别理论中往往称有监督分类，是在已知类型特征信息下的分类技术，在知识发现中是一项常见的任务。分类是认识的基础，在中国古代，地理学家就提出了土地分类。在现代科学分析中，分类具有广泛的应用，用于发现如过程类型和空间模式知识等。发现分类的方法可归结为四种类型：贝叶斯分类方法、基于距离的分类方法、决策树分类方法和规则归纳方法。其中，贝叶斯分类是基础。

贝叶斯分类

利用概率统计知识进行分类的算法。在许多场合，朴素贝叶斯（Naïve Bayes; NB）分类算法可以与决策树和神经网络分类算法相媲美，该算法能运用到大型数据库中，且方法简单、分类准确率高、速度快。

贝叶斯分类可以用数学公式的精确方法表示出来。设已知有 $n$ 个类型 $\{A_k\in \Omega\}$ ，这里 $\Omega$ 为类型的集合。进一步地，设类型 $A_k$ 的特征 $x$ 出现的概率为 $P(x|A_k)$ ，则在一次采样中表现出特征 $x$ 的样本属于类型 $A_k$ 的概率为 $P(x|A_k)P(A_k),P(A_k)>0$ 。因此在把表现出特征 $x$ 的样本判别为类型 $A_j$ 的分类时，分类的原则是 $n$

$P(x|A_j)P(A_j) \geq P(x|A_k) P(A_k) \ \ \ (A_j\in \Omega)$ （1）

这个分类方法为贝叶斯分类。贝叶斯分类存在分类错误的风险：

$R_k=\sum_{A_j\in \Omega -A_k}P(x|A_j)P(A_j)$ （2）

在实际的分类中，常常把 $m$ 维变量 $x=(x_1,x_2,\ldots,x_i,\ldots,x_m)^\tau$ 的分布取作 $m$ 维正态分布 $N(\mu_j,\sigma^2_j)$ ，可以证明取判别函数

$y_j=\ln P(A_j)+C_{0j}+C_{1j}x_1+C_{2j}x_2+\ldots+C_{mj}x_m$ （3）

令样本 $x=(x_1,x_2,\ldots,x_m)$ 分到类型 $k$ ，当

$y_k=\max_{A_j\in \Omega}\{y_j\}$ （4）

这里协方差函数

$C_{0j}=-\frac{1}{2}(n-G)(W^{-1}\overline x^j)^\tau \overline x^j$ （5）

$C_{ij}=(n-G) \sum^m_{l=1} W^{(il)}\overline x^{(j)}_l$ （6）

实际上

$C^\tau_j=(n-G)(W^{-1}\overline x^j)^\tau =(C_{1j},C_{2,j},\ldots,C_{mj})^\tau$ （7）

式中， $n$ 为样本数； $G$ 为类型数； $W$ 为 $m\times m$ 的协方差矩阵，它的元素

$w_{i,f}=\sum^G_{j=1}\sum^{n_j}_{l=1}(x^{(j)}_{il}-\overline x^{(j)}_j)(x^{(j)}_{fl}-\overline x_f^{(j)})(i=1\ldots m,f=1\ldots m)$ （8）

$\overline x^{(j)}_i=\frac{1}{n_j}\sum^{n_j}_{k=1}x_{i,k}^{(j)}$ （9）

为第 $j$ 类样本特征 $i$ 的 $n_j$ 次采样得到的数学期望估计。这里

$n=\sum^G_{j=1}n_j$ （10）

对于先验概率 $P(A_j)$ 有两种估计方法，其一是

$P(A_j)=\frac{n_j}{n}$ （11）

即对总样本数为 $n$ 的样本集合，获得 $j$ 类的样本数为 $n_j$ ，观察能够获得某类样本数越多这个类型的先验概率就大。如果认为采样不足，可以把先验概率看成相等的，即

$P(A_j)=\frac{1}{G}$ （12）

关于贝叶斯分类，一般认为具有如下特点：①贝叶斯分类并不把一个对象绝对地指派给某一类，而是通过计算得出属于某一类的概率，具有最大概率的类便是该对象所属的类。②一般情况下在贝叶斯分类中所有的属性都潜在地起作用，即并不是一个或几个属性决定分类，而是所有的属性都参与分类。③贝叶斯分类对象的属性可以是离散的、连续的，也可以是混合的。

决策树分类

以实例为基础的归纳学习算法。它着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。采用自顶向下的递归方式，在决策树的内部节点进行属性比较，根据不同属性判断从该节点向下的分支，在决策树的叶节点得到结论。所以从根到叶节点就对应着一条合取规则，整棵树就对应着一组析取表达式规则。

决策树分类的算法很多，如ID3、C4和EC4.5是建立决策树的常用算法。这里主要介绍ID3算法。

ID3算法是决策树方法的典型代表，利用信息论中的信息增益寻找数据库中具有最大信息量的属性字段，建立决策树的一个节点，并根据该属性字段的不同取值建立树的分枝。ID3算法比较简单，计算速度较快，同时得到的决策树是较为优化的形式。

ID3算法的关键在于如何选取一个决策属性形成决策树的决策节点，并从当前节点形成决策分枝。ID3算法中，决策节点属性的选择主要是运用了信息论中熵的概念来完成的。在这种属性选择方法中，选择具有最大信息增益的属性作为当前节点。通过这种方式选择的节点属性可以保证决策树具有最小的分枝数量，使最终得到的决策树冗余最小。

ID3算法中决策属性信息增益的计算方法如下：

设 $S$ 是训练样本数据集， $S$ 中类别标识属性有 $m$ 个独立取值，也就是说定义了 $m$ 个类 $c_i,i=1,2,\ldots,m$ ， $R_i$ 为数据集 $S$ 中属于 $c_i$ 类的子集，用 $r_i$ 标识子集 $R_i$ 中元组的数量。

集合 $S$ 在分类中的期望信息可以由以下公式给出：

$I(r_1,r_2,\ldots,r_m)=-\sum^m_{i=1}p_i\log _2(p_i)$ （13）

式中， $p_i$ 为任意样本属于 $c_i$ 的概率， $p_i=\frac{r_i}{|S|}$ ，其中 $|S|$ 为训练样本数据集合中的元组数量。

假设属性 $A$ 有 $v$ 个不同的取值分别为 $\{a_1,a_2,\ldots,a_v\}$ ，则通过属性 $A$ 的 $v$ 个取值可以将数据集划分为 $v$ 个子集，其中 $S_j$ 表示数据集 $S$ 中属性 $A$ 的取值为 $a_j$ 的子集， $j=1,2,…v$ 。如果 $A$ 被选作为决策属性，则这些子集将对应该节点的不同分支。

如果用 $s_{ij}$ 表示 $S_j$ 子集中属于 $c_i$ 类的元组的数量，则属性A对于分类 $c_i(i=1,2,\ldots m)$ 的熵可由以下公式计算：

$E(A)=\sum^v_{j=1}\frac{s_{1j}+s_{2j}+\ldots + s_{mj} }{|S|} I(s_{1j},s_{2j},\ldots , s_{mj})$ （14）

令 $w_j=\frac{S_j}{|S|}$ ，则 $w_j$ 为 $S_j$ 子集的权重，表示 $S_j$ 子集在数据集 $S$ 中的比重，而属性 $A$ 的每个取值对分类 $c_j$ 的期望信息量可由下式计算：

$I(s_{1j},s_{2j},\ldots , s_{mj})=-\sum^m_{i=1} p_{ij}\log _2(p_{ij})$ （15）

式中， $p_{ij}=\frac{s_{ij}}{|S_j|}$ ，它表示在 $S_j$ 子集中属于 $c_i$ 类的比重。

通过上述计算准备，可得到对属性A作为决策分类属性的度量值（称为信息增益），由下式给出：

$Gain(A)=I(r_{1},r_{2},\ldots , r_{m})-E(A)$ （16）

ID3算法需要计算每个决策属性的信息增益，具有最大信息增益的属性将作为给定数据集 $s$ 的决策属性节点，并同过该属性的每一个取值建立有该节点引出的分支。ID3算法的过程：①随机选择给定训练子集的子集（称为窗口）。②重复以下步骤：构造一决策树可以解释现有窗口中的所有例子。从其余的例子中寻找改决策树的例外。用当前的窗口和例外的例子形成新的窗口。直到决策树没有发现例外为止。

Fisher分类

其基础Fisher判别法基于投影思想，这个判别思想将待判别数据投影到某一个方向，进而利用一元方差分析思想，使数据投影组与组之间尽可能分开，实现分类分析的目的。

设有k组p维待判别数据，来自组 $\pi_i$ 的p维观测值为 $x_{ij},j=1,2,\ldots ,n_i,i=1,2,\ldots ,k$ ，将其展开即为：

$\pi_1:{\bf x} _1^{(1)},{\bf x} _2^{(1)},\ldots , {\bf x} _{n_1}^{(1)}$

$\pi_k:{\bf x} _1^{(k)},{\bf x} _2^{(k)},\ldots , {\bf x} _{n_k}^{(k)}$

其中， ${\bf x}$ 为p维向量。现将它们共同投影到某一p维常数向量a上，得到的投影点分别对应线性组合

$y_{ij}=a'x_{ij},j=1,2,\ldots ,n_i ,i=1,2,\ldots ,k$

即：

$\pi_1:{\bf a'x} _1^{(1)},{\bf a'x} _2^{(1)},\ldots , {\bf a'x} _{n_1}^{(1)}$

$\pi_k:{\bf a'x} _1^{(k)},{\bf a'x} _2^{(k)},\ldots , {\bf a'x} _{n_k}^{(k)}$

这样，所有的p维观测值就简化为一维观测值，构成一元方差分析的数据。其组间平方和为：

$SSG=\sum^k_{i=1}n_i(\overline y_i-\overline y)^2=\sum^k_{i=1}n_i(a'\overline x_i-a'\overline x)^2=a'Ha'$ （

其中， $\overline x_i$ 和 $\overline y_i$ 为组 $\pi_i$ 的均值； $\overline x$ 和 $\overline y$ 为所有组的总均值； $H=\sum^k_{i=1}n_i(x_i-x)(x_i-x)'$ 为组间平方和及叉积和矩阵。其组内平方和为：

$SSE=\sum^k_{i=1}\sum^{n_i}_{j=1} n_i(y_{ij}-\overline y_i)^2=\sum^k_{i=1}\sum^{n_i}_{j=1} n_i (a'x_{ij}-a'\overline x_i)^2=a'Ea'$

式中， $E=\sum^k_{i=1}(n_i-1)S_i=\sum^k_{i=1}\sum^{n_i}_{j=1} (x_{ij}-\overline x_i)(x_{ij}-\overline x_i)'$ 为组内平方和及叉积和矩阵。若 $k$ 组均值有显著差异，则

$F=\frac{SSG/(k-1)}{SSE/(n-k)}=\frac{n-k}{k-1}\frac{a'Ha}{a'Ea}$

应充分大，故定义如下度量式：

$\Delta(a)=\frac{a'Ha}{a'Ea}$

应选择使 $\Delta(a)$ 达到最大的a，显然这个a并不唯一：对于任意非零常数c，用ca代替a， $\Delta(a)$ 将保持不变。设 $|H-\lambda E|=0$ 的全部非零特征根为： $\lambda_1\geq \lambda_2\geq \ldots \geq \lambda_r>0$ ，对应的特征向量为 $l_1,l_2,\ldots,l_r$ 。当 $a=l_1$ 时，可使 $\Delta(a)$ 达到极大。

由此，Fisher准则下的线性判别函数 $u({\bf x})=a'{\bf x}$ 的解a为最大特征根 $\lambda_1$ 所对应的特征向量 $l_1$ ，且相应的判别效率为 $\Delta(l_1)=\lambda_1$ 。

在有些问题中，仅用一个线性判别函数不能很好区分各个总体，可取 $\lambda_2$ 对应的特征向量 $l_2$ ，建立第二个线性判别函数 $l'_2{\bf x}$ ，如果还不够，可建立第三个线性判别函数 $l'_3{\bf x}$ ，以此类推。一旦取定了分类判别函数，就可以根据它来确定分类规则。

若只有一个判别函数 $u({\bf x})=l'_1{\bf x}$ ，意味着将p维数据投影到一维直线上，以k=2为例，可由两种阈值点 $\overline \mu$ 和 $\mu^*$ 来进行判别：

$\overline \mu=\frac{1}{2}(l'_1{\bf x}^{(1)}+l'_1{\bf x}^{(2)})$

$\mu^*=\frac{ \hat \sigma_2 l'_1{\bf x}^{(1)}+ \hat \sigma_1 l'_1{\bf x}^{(2)} }{\hat \sigma_1+\hat \sigma_2}$

其中， $\hat \sigma_1$ 和 $\hat \sigma_2$ 分别为 $l'_1{\bf x}^{(1)}$ 和 $l'_1{\bf x}^{(2)}$ 的样本方差。相应判别规则为（若 $l'_1{\bf x}^{(1)}< l'_1{\bf x}^{(2)}$ ）

$\begin{cases} {\bf x} \in \pi _1 & 若u({\bf x}) < \overline \mu (或 \mu ^* ) \\ {\bf x} \in \pi _2 & 若u({\bf x}) > \overline \mu (或 \mu ^* ) \\ 待判 & 若u({\bf x}) = \overline \mu (或 \mu ^* ) \\ \end{cases}$

如果有r个判别函数，此时相当于把原来的p个变量综合成r个新变量，由于特征向量相互垂直，这r个变量相互无关，故可用距离判别法作为分类规则。

分类

蔡砥

贝叶斯分类

决策树分类

Fisher分类

阅读历史

感谢您的反馈

分类

蔡砥

贝叶斯分类

决策树分类

Fisher分类

精选发现

相关条目

阅读历史

感谢您的反馈