早在2000多年前,地理著作《禹贡》就提出了土地的分类方法,在模式识别理论中往往称有监督分类,是在已知类型特征信息下的分类技术,在知识发现中是一项常见的任务。分类是认识的基础,在中国古代,地理学家就提出了土地分类。在现代科学分析中,分类具有广泛的应用,用于发现如过程类型和空间模式知识等。发现分类的方法可归结为四种类型:贝叶斯分类方法、基于距离的分类方法、决策树分类方法和规则归纳方法。其中,贝叶斯分类是基础。
地理学的传统研究方法。
早在2000多年前,地理著作《禹贡》就提出了土地的分类方法,在模式识别理论中往往称有监督分类,是在已知类型特征信息下的分类技术,在知识发现中是一项常见的任务。分类是认识的基础,在中国古代,地理学家就提出了土地分类。在现代科学分析中,分类具有广泛的应用,用于发现如过程类型和空间模式知识等。发现分类的方法可归结为四种类型:贝叶斯分类方法、基于距离的分类方法、决策树分类方法和规则归纳方法。其中,贝叶斯分类是基础。
利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(Naïve Bayes; NB)分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,且方法简单、分类准确率高、速度快。
贝叶斯分类可以用数学公式的精确方法表示出来。设已知有个类型
,这里
为类型的集合。进一步地,设类型
的特征
出现的概率为
,则在一次采样中表现出特征
的样本属于类型
的概率为
。因此在把表现出特征
的样本判别为类型
的分类时,分类的原则是
(1)
这个分类方法为贝叶斯分类。贝叶斯分类存在分类错误的风险:
(2)
在实际的分类中,常常把维变量
的分布取作
维正态分布
,可以证明取判别函数
(3)
令样本分到类型
,当
(4)
这里协方差函数
(5)
(6)
实际上
(7)
式中,为样本数;
为类型数;
为
的协方差矩阵,它的元素
(8)
(9)
为第类样本特征
的
次采样得到的数学期望估计。这里
(10)
对于先验概率有两种估计方法,其一是
(11)
即对总样本数为的样本集合,获得
类的样本数为
,观察能够获得某类样本数越多这个类型的先验概率就大。如果认为采样不足,可以把先验概率看成相等的,即
(12)
关于贝叶斯分类,一般认为具有如下特点:①贝叶斯分类并不把一个对象绝对地指派给某一类,而是通过计算得出属于某一类的概率,具有最大概率的类便是该对象所属的类。②一般情况下在贝叶斯分类中所有的属性都潜在地起作用,即并不是一个或几个属性决定分类,而是所有的属性都参与分类。③贝叶斯分类对象的属性可以是离散的、连续的,也可以是混合的。
以实例为基础的归纳学习算法。它着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。采用自顶向下的递归方式,在决策树的内部节点进行属性比较,根据不同属性判断从该节点向下的分支,在决策树的叶节点得到结论。所以从根到叶节点就对应着一条合取规则,整棵树就对应着一组析取表达式规则。
决策树分类的算法很多,如ID3、C4和EC4.5是建立决策树的常用算法。这里主要介绍ID3算法。
ID3算法是决策树方法的典型代表,利用信息论中的信息增益寻找数据库中具有最大信息量的属性字段,建立决策树的一个节点,并根据该属性字段的不同取值建立树的分枝。ID3算法比较简单,计算速度较快,同时得到的决策树是较为优化的形式。
ID3算法的关键在于如何选取一个决策属性形成决策树的决策节点,并从当前节点形成决策分枝。ID3算法中,决策节点属性的选择主要是运用了信息论中熵的概念来完成的。在这种属性选择方法中,选择具有最大信息增益的属性作为当前节点。通过这种方式选择的节点属性可以保证决策树具有最小的分枝数量,使最终得到的决策树冗余最小。
ID3算法中决策属性信息增益的计算方法如下:
设是训练样本数据集,
中类别标识属性有
个独立取值,也就是说定义了
个类
,
为数据集
中属于
类的子集,用
标识子集
中元组的数量。
集合在分类中的期望信息可以由以下公式给出:
(13)
式中,为任意样本属于
的概率,
,其中
为训练样本数据集合中的元组数量。
假设属性有
个不同的取值分别为
,则通过属性
的
个取值可以将数据集划分为
个子集,其中
表示数据集
中属性
的取值为
的子集,
。如果
被选作为决策属性,则这些子集将对应该节点的不同分支。
如果用表示
子集中属于
类的元组的数量,则属性A对于分类
的熵可由以下公式计算:
(14)
令,则
为
子集的权重,表示
子集在数据集
中的比重,而属性
的每个取值对分类
的期望信息量可由下式计算:
(15)
式中,,它表示在
子集中属于
类的比重。
通过上述计算准备,可得到对属性A作为决策分类属性的度量值(称为信息增益),由下式给出:
(16)
ID3算法需要计算每个决策属性的信息增益,具有最大信息增益的属性将作为给定数据集的决策属性节点,并同过该属性的每一个取值建立有该节点引出的分支。ID3算法的过程:①随机选择给定训练子集的子集(称为窗口)。②重复以下步骤:构造一决策树可以解释现有窗口中的所有例子。从其余的例子中寻找改决策树的例外。用当前的窗口和例外的例子形成新的窗口。直到决策树没有发现例外为止。
其基础Fisher判别法基于投影思想,这个判别思想将待判别数据投影到某一个方向,进而利用一元方差分析思想,使数据投影组与组之间尽可能分开,实现分类分析的目的。
设有k组p维待判别数据,来自组的p维观测值为
,将其展开即为:
其中,为p维向量。现将它们共同投影到某一p维常数向量a上,得到的投影点分别对应线性组合
即:
这样,所有的p维观测值就简化为一维观测值,构成一元方差分析的数据。其组间平方和为:
(
其中,和
为组
的均值;
和
为所有组的总均值;
为组间平方和及叉积和矩阵。其组内平方和为:
式中,为组内平方和及叉积和矩阵。若
组均值有显著差异,则
应充分大,故定义如下度量式:
应选择使达到最大的a,显然这个a并不唯一:对于任意非零常数c,用ca代替a,
将保持不变。设
的全部非零特征根为:
,对应的特征向量为
。当
时,可使
达到极大。
由此,Fisher准则下的线性判别函数的解a为最大特征根
所对应的特征向量
,且相应的判别效率为
。
在有些问题中,仅用一个线性判别函数不能很好区分各个总体,可取对应的特征向量
,建立第二个线性判别函数
,如果还不够,可建立第三个线性判别函数
,以此类推。一旦取定了分类判别函数,就可以根据它来确定分类规则。
若只有一个判别函数,意味着将p维数据投影到一维直线上,以k=2为例,可由两种阈值点
和
来进行判别:
其中,和
分别为
和
的样本方差。相应判别规则为(若
)
如果有r个判别函数,此时相当于把原来的p个变量综合成r个新变量,由于特征向量相互垂直,这r个变量相互无关,故可用距离判别法作为分类规则。