随着网络技术的快速发展与Web 2.0的盛行,社会媒体重视用户交互、信息更新频繁、内容多样、拥有海量内容等。信息挖掘是从大量训练数据集的基础上得到对象间的内在特征,并以此为依据进行有目的的信息获取。
信息挖掘
从大量非结构化、异构的信息源集合中,发现有效的、新颖的、潜在可用的、最终可理解的知识。
- 英文名称
- information mining
- 所涉及学科
- 情报学
- 应用领域
- 情报技术
现有文献对信息挖掘内涵的理解存在差异,主要包括以下4类:①将信息挖掘与数据挖掘作为同义词使用。作为术语,数据挖掘的出现时间早于信息挖掘。数据是指存储在载体上能够识别的物理符号,信息是指数据经过处理之后的产物。然而,它们在载体上的表现形式相同,而且区分是相对的,信息可以作为被处理的对象(即数据)生成新的信息,数据也可以不经处理直接作为信息使用。因此,人们在很多场合不区分数据与信息的差别,常常将数据与信息这两个概念混用,进而将信息挖掘与数据挖掘这两个概念混用。②将信息挖掘理解为从异构数据组成的信息源中找出用户需要的深层次的信息。进而推出一些新的与数据挖掘有关的名词,如敏感信息挖掘、专家信息挖掘、事件信息挖掘、设备信息挖掘、网络舆情信息挖掘等,从数据源中挖掘一些满足用户特定需求的信息。这类信息挖掘技术通常被用于提升信息检索系统的信息获取功能。③将信息挖掘限定为针对特定信息源的数据挖掘,推出一些新的与数据挖掘有关的名词,如网络信息挖掘、文本信息挖掘、地图信息挖掘等对特定信息源的挖掘。④将信息挖掘定义为从大量非结构化、异构的信息源集合中发现有效的、新颖的、潜在可用的、最终可理解的知识。这是对信息挖掘的主流认知,在很多场合是指网络内容挖掘。
信息挖掘一般包括信息预处理、信息特征选取及信息抽取、挖掘算法运用、结果显示等步骤。①信息预处理。将数据源中一些无用信息清除,对英文文档进行词干提取处理,对中文文档进行词语切分处理等,以提高信息挖掘效率及有效性。②信息特征选取及信息抽取。对经过预处理的样本进行特征提取,将非结构化信息改变为利于计算机存储、处理的结构化形式并保存,作为后续数据挖掘工作的备用数据源。文本主题、情感倾向都可作为样本的特征进行提取。特征提取策略的优劣将直接影响挖掘效果。③挖掘算法运用。根据不同的信息挖掘目标,如关联知识发现、趋势预测,序列知识发现、分类、聚类等,采用不同的挖掘算法对结构化数据进行分析。④结果显示。将挖掘结果以用户熟悉的语种、可视化的方式显示出来,从而方便用户的浏览及信息获取。网络信息挖掘通常还包括信息采集步骤,使用信息自动采集技术从网络环境中抓取与信息挖掘任务相关的网络信息。
信息挖掘是大数据时代的灵魂和核心。大数据挖掘技术可分为大数据采集技术、大数据预处理技术以及大数据分析及挖掘技术。①大数据采集技术主要通过射频识别数据、传感器数据、社交网络交互数据及移动互联网数据,获得各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,实现智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等功能。②大数据预处理技术主要完成对已接收数据的辨析、抽取、清洗等操作。③大数据分析及挖掘技术从不同的角度对大数据进行挖掘,常用的方法有分类、回归分析、聚类、关联规则、神经网络方法、网络数据挖掘等。
扩展阅读
- 苏新宁,杨建林,江念南,等.数据仓库和数据挖掘.北京:清华大学出版社,2006.
- 林子雨.大数据技术基础.北京:清华大学出版社,2013.