根据其适用范围分为专用挖掘工具和通用挖掘工具。专用数据挖掘工具是针对某个特定领域的问题提供解决方案,在涉及算法时充分考虑了数据、需求的特殊性,并作了优化。通用数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型。
数据挖掘工具
从大量的数据集中发现模型和数据关系的工具。
- 英文名称
- data mining tools
- 所属学科
- 管理科学与工程
随着机器学习与数据挖掘技术的发展,大数据分析师、数据科学家和商业实践工程师开发了一系列数据挖掘软件。
新西兰怀卡托(Waikato)大学开发的系统。该系统用Java 语言开发。在Windows、Linux以及Macintosh 操作系统上都可运行。主要有四种使用方式:Explorer、Knowledge Flow、Experimenter和命令行。Explorer是最容易使用的方式,在图形化界面下以交互式的方式执行所有功能,包括数据的预处理、关联分析、分类、聚类、回归分析以及数据可视化等。执行每种功能时,可通过鼠标选择各种方法、选择或输入参数、单击按钮运行算法,即可查看运行结果。在Explore 方式下,数据一经读入都存放在内存,因此,无法处理大量数据。Experimenter方式是通过Java语言调用各种算法,便于利用各种算法进行比较分析,适合研究时做实验测试。命令行的方式是输入文本命令。Weka提供了文档全面的Java函数和类库,便于开发和扩展新的挖掘算法。Weka是机器学习和数据挖掘领域最适合的入门级别开源软件,广泛应用于课堂教学和常规数据分析和数据挖掘。
在机器学习领域,支持向量机(support vector machine,SVM)是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析。其中,LIBSVM是台湾大学林智仁等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包,是全球最受欢迎的SVM软件包之一,不但提供了编译好的可在Windows系列系统的执行文件,还提供了源代码,方便改进、修改以及在其他操作系统上应用;该软件对SVM所涉及的参数调节相对比较少,提供了很多的默认参数,利用这些默认参数可以解决很多问题;并提供了交互检验(cross validation)的功能。该软件可以解决C-SVM、ν-SVM、ε-SVR和ν-SVR等问题,包括基于一对一算法的多类模式识别问题。
使用Java开发,可以调用Weka中的数据挖掘算法等组件。使用树状结构来组织各种分析组件。其用户遍布四五十个国家。可以通过图形化界面、命令行方式以及Java API 的方式使用其丰富的数据处理、分析以及可视化功能,提供的运算符(operator) 多达500多个。可以访问众多的数据源,如Excel、Accsee、Oracle、IBM DB2、Microsoft SQL Server、Sybase、Ingres、MySQL、Postgres、SPSS、dBase及文本文件等。
用Java开发,在Windows、Linux以及Macintosh操作系统上都可以运行。可以调用Weka中的挖掘算法。使用方式类似于Weka中的Knowledge Flow,可通过可视化方式创建数据分析的整个流程。其使用方式也与一些商品化的数据挖掘软件(如IBM SPSS和SAS Enterprise Miner)相似。
一种基于组件的数据挖掘开源软件。通过各种控件设置挖掘步骤,组成挖掘流程。其底层核心由C++开发,用户可以使用脚本语言Python进行扩展开发。在Windows、Linux以及Macintosh操作系统上都可以运行。提供100多个控件(widget),覆盖了绝大多数数据分析功能,使用简单。提供丰富的数据可视化功能,包括散点图、树、直方图、系统树图、网络以及热点地图(heatmaps)等。Orange的统计分析功能不强,但数据挖掘功能强大,可视化功能丰富。
前身为SIPINA。主要实现有监督的学习算法,如决策树。在此之上,Tanagra增加了许多无监督的学习方法,如聚类、关联分析等。其统计分析功能很强,提供了很多的统计检验、特征提取与构造以及回归分析、因子分析功能。但其可视化功能较弱。
扩展阅读
- 刘红岩.商务智能方法与应用.北京:清华大学出版社,2013.
- 袁梅宇.数据挖掘与机器学习 : WEKA应用技术与实践.北京:清华大学出版社,2014.
- 陈封能, 斯坦巴克, 库马尔范明,等.数据挖掘导论 : Introduction to data mining.北京:人民邮电出版社,2011.
- 崔静, 赵昕.数据仓库和数据挖掘.北京:清华大学出版社,2006.
- 威滕, 弗兰克, 霍尔李川,等.数据挖掘 : 实用机器学习工具与技术.北京:机械工业出版社,2014.