展开全部 +
首页 . 管理学 . 情报学 . 情报技术 . 情报处理技术

文本挖掘

/text mining/
最后更新 2023-12-08
浏览 396
最后更新 2023-12-08
浏览 396
0 意见反馈 条目引用

从文本数据中抽取事先未知的、可理解的、最终可用的知识的过程。又称文本数据挖掘。

英文名称
text mining
所涉及学科
情报学
又称
文本数据挖掘
应用领域
情报技术

自然语言处理和机器学习是文本挖掘的主要支撑技术。以万维网文本为对象的文本挖掘称为Web内容挖掘。以文本文件形式出现的非结构化数据在数据存储总量中占有较高的比例。由于文本的非结构化,检索、存取、分析和使用这些数据通常并不容易。文本挖掘以文本型信息源作为分析的对象,利用定量计算和定性分析的方法,从中寻找信息的结构、模型、模式等各种隐含的新颖知识,这种知识为用户检索、存取、分析和使用文本信息带来便利。

文本挖掘的功能包括特征抽取、文本分类、文本聚类、信息摘要、信息抽取、情感分析等。①特征抽取的任务是从文本中抽取名词、名词短语等一般特征,以及日期、时间、货币以及单纯数字信息等数字特征,为识别潜在概念结构、文本分类、文本聚类等任务奠定基础。②文本分类的任务是基于内容给文本自动分配预定义的类别。③文本聚类属于无监督的文本分类,是在没有预先指定类别的情况下将文本聚集成类。④信息摘要是利用计算机分析文章的结构,找出文章的主题语句,然后经过整理、组合、修饰,将一篇或多篇文档浓缩成一篇短文。⑤信息抽取用于从非结构化数据中抽取各类实体以及实体关系等信息。⑥情感分析用于分析文本中的情感倾向。

文本挖掘过程一般包括文本准备、特征标引、词频矩阵降维、知识模式提取、知识模式评价、知识模式输出等。①文本准备。是对文本进行选择、净化和预处理的过程,用来确定文本型信息源以及信息源中用于进一步分析的文本,具体任务包括词性的标注、句子和段落的划分、文本过滤等。②特征标引。指给出文本内容特征的过程,通常由计算机系统自动选择一组主题词或关键词作为文本的特征表示。③词频矩阵降维。因特征集包含过多的特征会增加挖掘的难度,词频矩阵降维的任务是在不影响挖掘精度的前提下减少特征项的个数。④知识模式提取。是发现文本中的不同实体,实体之间的概念关系以及文本中其他类型的隐含知识。⑤知识模式评价。是从提取的知识模式集合中筛选出用户感兴趣的、有意义的知识模式。⑥知识模式输出。是将挖掘出来的知识模式以多种方式提交给用户。

文本挖掘在商业智能、科学研究等方面有广泛的应用。例如,企业收集和存储的文本信息很多,既包括大量的电子邮件、企业内部的备忘录和周期总结等,也包括关于竞争对手的报纸和新闻、技术报告、专利资料等,利用文本挖掘技术可以使得人们能够更加方便地从海量文本中发现隐含的知识,为企业的战略决策提供情报支持,从而能够提高海量非结构化信息源的利用价值。互联网是一种重要的情报来源,利用文本挖掘技术可以大大降低对这类信息源的收集和处理的时间,提高收集的准确率,增强情报分析的深度,提高情报获取的效率。同时,利用文本挖掘技术既可以提供网站的个性化服务能力,屏蔽无关信息,也可以帮助企业在网上挖掘市场信息,寻求市场变动的规律。许多文本挖掘算法被集成到应用软件中,成为智能搜索引擎、网络信息智能过滤系统、知识管理系统、电子商务应用系统、电子政务应用系统、办公自动化系统、竞争情报系统等软件系统的重要组成部分。

21世纪10年代,文本挖掘技术现有的水平与理想的目标还存在差距。影响文本挖掘发展的主要原因有:文本数量巨大,但结构不统一,且经常动态变化,导致从中获取知识比较困难;基于语法、逻辑和统计的传统自然语言理解理论、方法与技术,虽然在语言表层和浅层进行了大量的研究,但并未在这一关键问题上取得实质性的进展。自然语言理解理论在语言的深层处理方面也没有取得根本性的突破,这使得基于自然语言处理的文本处理的准确度还不够高,文本挖掘的效果还不够理想。

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!