首页 . 管理学 . 管理科学与工程 . 大数据与知识管理 . 大数据 . 大数据技术 . 数据挖掘算法

数据挖掘算法

/data mining algorithm/
条目作者寇纲

寇纲

最后更新 2022-01-20
浏览 266
最后更新 2022-01-20
浏览 266
0 意见反馈 条目引用

从大量的数据集中通过实施算法搜索去获取隐藏在其中潜在的以及有价值的信息的过程。

英文名称
data mining algorithm
所属学科
管理科学与工程

可分为四个发展阶段:①20世纪70年代开始的电子邮件阶段;②1995年以web技术为代表的信息发布阶段,是数据挖掘在互联网时代的主要应用;③电子商务阶段,互联网的进一步延伸即电子商务时代,这也使得数据挖掘得到进一步的发展;④全程电子商务阶段,未来的数据挖掘会以服务的方式进入互联网,即全程电子商务阶段。

包括五项内容:①分类(classification)。用于预测数据集的类标号,其中提取刻画重要数据类的模型为分类器。数据分类可分为两阶段过程,即构建分类模型(学习阶段)和运用建立的分类模型去预测数据集的类标号(分类阶段)。分类广泛应用于医疗诊断、信誉证实、目标市场, 以及性能预测等实际问题。②聚类 (clustering) 。用于分类没有预先给定类别的数据集,是一种分类算法,常被称为无监督分类算法。类指相似元素的集合,聚类就是把性质相似的一些对象看作一个集合或者簇。聚类方法在实际问题中得到了广泛的应用,如保险、市场销售、土地使用、文档分类等。主要聚类方法包括:划分法、层次法、密度算法,以及模型算法。③关联规则 (association rule)。一种无监督的学习算法,从大量的数据中发现对象之间有价值的关联性,进而可以推断数据集中某些对象出现的规律模式。例如,顾客的购物篮分析是关联规则算法的一个经典应用,通过分析顾客在商场或者超市放入购物篮中的不同商品的关联规律性去推断分析顾客的购买习惯,从而可以帮助零售商去制定相关的物品摆放位置以及顺序规律。④回归(regression)。通过样本数据以及问题的本质去确定其中的因变量和自变量之间的数学关系,从而建立回归模型,可用于预测、控制等问题。⑤离群点检测(outlier detection)。将一些不同于一般的离群对象找到,其在入侵检测、医疗,以及生态系统失调等方面得到了广泛的应用。

①人工神经网络(ANN)。借鉴人的大脑工作原理方式建立的信息处理系统。该算法具有自适应、自组织和实时学习的特点,始于1943的MP模型。②决策树(DT)。通过数据的属性特征建立的一种树状分类模型。在每个节点通过某种规则去分类对象,通常采用信息熵去建立树状结构的模型。常用的决策树算法包括 ID3、C4.5和 随机森林(random forest)。③k最近邻(k-nearest neighbor,KNN)分类算法。1968年由T.M.科弗和P.E.哈特提出。该算法把性质相近的一些对象看作一类,在训练数据集中找到与该例子最邻近的k个例子,若这k个例子的大多数属于某个类别,那么就把该输入例子分类到这个类别中去。④k均值算法(k-means)。一个以距离测度为基础的聚类算法。该算法中一个簇是由与聚类中心相似度高的对象组成,因此把与距离聚类中心接近的对象组成一簇。初始的聚类中心预先设定,通过迭代算法直到聚类中心不再改变算法停止。⑤支持向量机 (support vector machine,SVM)。该算法是建立一个平面(二维空间)或者超平面(高维空间)把不同类别的对象分开。1995年由Corinna Cortes和Vapnik 提出的一种监督式学习方法。对于复杂的数据很难建立平面或者超平面将数据分开。在这种情况下,一个关键的核技术把复杂的数据映射到一个高阶向量空间中,就可以解决这种复杂数据的分类问题。⑥Aprior算法。1994年由Agrawal和Srikant提出,是一种基于关联规则下的层次搜索算法,广泛应用于市场预测和网络检测。⑦最大期望算法 (exception maximization algorithm,EM算法)。1977 年由Dempster、Laind和Rubin 提出。通过极大似然估计的方式求解模型参数。此外,该算法可以处理缺损以及带有噪声的不完全数据集。⑧PageRank 算法。1998年由Larry Page 和Sergey Brin 提出,是Google算法的基础。根据网页链接的次数计算PageRank(PR)值,基于PR值得到网页排名,这是该算法的核心思想。尽管该算法功能强大但也有一些弊端,比如:站内链接不能区分,以及广告链接没有过滤。⑨Adaboost。一种经典的提升算法,其核心思想是根据一系列弱分类器在以往分类的结果下去不断调整它们在下轮分类的权重向量,最终得到一个强分类器算法。通过分类准确率赋予弱分类器在下一轮的权重,也就是说如果元组不正确地分类,则它在下一轮的权重就要增加;如果元组正确分类,则它在下一轮中的权重减少。⑩朴素贝叶斯模型(naive Bayesian model,NBC)。该算法以概率相互独立为基本条件,借助贝叶斯定理基于对象的先验概率计算对象的后验概率。


相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!