展开全部 +
首页 . 理学 . 地理学 . 地理信息科学 . 计量地理学 . 分类

分类

/classification/
条目作者蔡砥

蔡砥

最后更新 2022-12-23
浏览 401
最后更新 2022-12-23
浏览 401
0 意见反馈 条目引用

地理学的传统研究方法。

英文名称
classification
所属学科
地理学

早在2000多年前,地理著作《禹贡》就提出了土地的分类方法,在模式识别理论中往往称有监督分类,是在已知类型特征信息下的分类技术,在知识发现中是一项常见的任务。分类是认识的基础,在中国古代,地理学家就提出了土地分类。在现代科学分析中,分类具有广泛的应用,用于发现如过程类型和空间模式知识等。发现分类的方法可归结为四种类型:贝叶斯分类方法、基于距离的分类方法、决策树分类方法和规则归纳方法。其中,贝叶斯分类是基础。

利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(Naïve Bayes; NB)分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,且方法简单、分类准确率高、速度快。

贝叶斯分类可以用数学公式的精确方法表示出来。设已知有个类型,这里为类型的集合。进一步地,设类型的特征现的概率为,则在一次采样中表现出特征的样本属于类型的概率为。因此在把表现出特征的样本判别为类型的分类时,分类的原则是

 (1)

这个分类方法为贝叶斯分类。贝叶斯分类存在分类错误的风险:

 (2)

在实际的分类中,常常把维变量的分布取作维正态分布,可以证明取判别函数

 (3)

令样本分到类型,当

 (4)

这里协方差函数

 (5)

 (6)

实际上

 (7)

式中,为样本数;为类型数;的协方差矩阵,它的元素

 (8)

 (9)

为第类样本特征次采样得到的数学期望估计。这里

 (10)

对于先验概率有两种估计方法,其一是

 (11)

即对总样本数为的样本集合,获得类的样本数为,观察能够获得某类样本数越多这个类型的先验概率就大。如果认为采样不足,可以把先验概率看成相等的,即

 (12)

关于贝叶斯分类,一般认为具有如下特点:①贝叶斯分类并不把一个对象绝对地指派给某一类,而是通过计算得出属于某一类的概率,具有最大概率的类便是该对象所属的类。②一般情况下在贝叶斯分类中所有的属性都潜在地起作用,即并不是一个或几个属性决定分类,而是所有的属性都参与分类。③贝叶斯分类对象的属性可以是离散的、连续的,也可以是混合的。

以实例为基础的归纳学习算法。它着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。采用自顶向下的递归方式,在决策树的内部节点进行属性比较,根据不同属性判断从该节点向下的分支,在决策树的叶节点得到结论。所以从根到叶节点就对应着一条合取规则,整棵树就对应着一组析取表达式规则。

决策树分类的算法很多,如ID3、C4和EC4.5是建立决策树的常用算法。这里主要介绍ID3算法。

ID3算法是决策树方法的典型代表,利用信息论中的信息增益寻找数据库中具有最大信息量的属性字段,建立决策树的一个节点,并根据该属性字段的不同取值建立树的分枝。ID3算法比较简单,计算速度较快,同时得到的决策树是较为优化的形式。

ID3算法的关键在于如何选取一个决策属性形成决策树的决策节点,并从当前节点形成决策分枝。ID3算法中,决策节点属性的选择主要是运用了信息论中熵的概念来完成的。在这种属性选择方法中,选择具有最大信息增益的属性作为当前节点。通过这种方式选择的节点属性可以保证决策树具有最小的分枝数量,使最终得到的决策树冗余最小。

ID3算法中决策属性信息增益的计算方法如下:

是训练样本数据集,中类别标识属性有个独立取值,也就是说定义了个类为数据集中属于类的子集,用标识子集中元组的数量。

集合在分类中的期望信息可以由以下公式给出:

 (13)

式中,为任意样本属于的概率,,其中为训练样本数据集合中的元组数量。

假设属性个不同的取值分别为,则通过属性个取值可以将数据集划分为个子集,其中表示数据集中属性的取值为的子集,。如果被选作为决策属性,则这些子集将对应该节点的不同分支。

如果用表示子集中属于类的元组的数量,则属性A对于分类的熵可由以下公式计算:

 (14)

,则子集的权重,表示子集在数据集中的比重,而属性的每个取值对分类的期望信息量可由下式计算:

 (15)

式中,,它表示在子集中属于类的比重。

通过上述计算准备,可得到对属性A作为决策分类属性的度量值(称为信息增益),由下式给出:

 (16)

ID3算法需要计算每个决策属性的信息增益,具有最大信息增益的属性将作为给定数据集的决策属性节点,并同过该属性的每一个取值建立有该节点引出的分支。ID3算法的过程:随机选择给定训练子集的子集(称为窗口)。②重复以下步骤:构造一决策树可以解释现有窗口中的所有例子。从其余的例子中寻找改决策树的例外。用当前的窗口和例外的例子形成新的窗口。直到决策树没有发现例外为止。

其基础Fisher判别法基于投影思想,这个判别思想将待判别数据投影到某一个方向,进而利用一元方差分析思想,使数据投影组与组之间尽可能分开,实现分类分析的目的。

设有k组p维待判别数据,来自组的p维观测值为,将其展开即为:


其中,为p维向量。现将它们共同投影到某一p维常数向量a上,得到的投影点分别对应线性组合


即:



这样,所有的p维观测值就简化为一维观测值,构成一元方差分析的数据。其组间平方和为:


其中,为组的均值;为所有组的总均值;为组间平方和及叉积和矩阵。其组内平方和为:


式中,为组内平方和及叉积和矩阵。若组均值有显著差异,则


应充分大,故定义如下度量式:


应选择使达到最大的a,显然这个a并不唯一:对于任意非零常数c,用ca代替a,将保持不变。设的全部非零特征根为:,对应的特征向量为。当时,可使达到极大。

由此,Fisher准则下的线性判别函数的解a为最大特征根所对应的特征向量,且相应的判别效率为

在有些问题中,仅用一个线性判别函数不能很好区分各个总体,可取对应的特征向量,建立第二个线性判别函数,如果还不够,可建立第三个线性判别函数,以此类推。一旦取定了分类判别函数,就可以根据它来确定分类规则。

若只有一个判别函数,意味着将p维数据投影到一维直线上,以k=2为例,可由两种阈值点来进行判别:



其中,分别为的样本方差。相应判别规则为(若


如果有r个判别函数,此时相当于把原来的p个变量综合成r个新变量,由于特征向量相互垂直,这r个变量相互无关,故可用距离判别法作为分类规则。

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!