展开全部 +
首页 . 理学 . 计算机科学技术 . 计算机软件 . 系统软件 . 数据库系统

非结构化数据

/unstructured data/
条目作者王朝坤

王朝坤

最后更新 2022-01-20
浏览 463
最后更新 2022-01-20
浏览 463
0 意见反馈 条目引用

不符合关系数据模型,难以用二维表的形式进行存储的数据。其一般没有明确的结构约束,可以分为文本类型和非文本类型两大类。

英文名称
unstructured data
所属学科
计算机科学技术

文本类型的非结构化数据包括纯文本、邮件和办公文档等。非文本类型的非结构化数据包含图片、音频、视频、时序、图等各类数据。值得注意的是,XML文件等虽然不符合关系数据模型,但是拥有区分语义的标记和层次结构,具有所谓的自描述性,因此研究者们往往倾向于称其为半结构化数据。此外,图片和音视频等非结构化数据中,也可能存在着能够用关系型数据库系统存储的内容。例如音频文件的元数据部分就包含了结构化的作者信息、文件大小等内容。

非结构化数据可以通过很多途径进行获取,并已占现存所有数据量的95%。文本类型的非结构化数据来源于邮件信息、聊天记录、网站上的新闻与评论、个人应用程序中的文本等。由各类办公软件产生的例如Word、PPT、PDF等文件也是文本类型非结构化数据的重要来源。非文本类型的数据来源也是多种多样的,例如图片可能取自于社交网站以及新闻网站的照片和插图,音频可能产生于即时通信软件或者流行音乐软件,视频可能来自公共的视频监控系统或者视频分享网站,时序可能产生于工业设备或者传感网,图可能产生于社交网络或者语义网。

在传统上,非结构化数据通常被存放在关系型数据库表的大对象(BLOB)字段中,或者以文件形式直接存储在服务器上,前者的查询和读写性能不高而后者难以进行数据管理。近十年来,非关系型数据库(NoSQL)逐渐兴起,例如文档型数据库MongoDB和图数据库Neo4j。它们在存储非结构化数据上更为高效。近年来,随着数据总量以及对海量数据计算需求的不断增大,出现了许多分布式文件系统,例如GFS、HDFS和TFS等。它们也都能够支持非结构化数据的存储。

根据《非结构化数据管理系统技术要求》等相关国家标准,一个非结构化数据管理系统不仅需要提供非结构化数据存储的功能,还需要提供特征抽取、索引、查询等管理功能。因此,虽然关系型数据库系统和分布式文件系统也能在一定程度上解决非结构化数据的存储问题,但是它们距离成熟的非结构化数据管理系统还存在差距。

非结构化数据蕴含着潜在的价值,例如分析客户对产品的反馈和评价信息,可以帮助公司有针对性地改善产品质量。因此如何处理非结构化数据,从中得到有意义的结果,是人们普遍关心的研究话题。文本类型的非结构化数据的处理很大程度上依赖于自然语言处理技术,包括信息抽取、自动摘要、情感分析等。非文本类型的非结构化数据的处理取决于各自的数据特点。例如,音频数据处理需要涉及语音分析技术,视频数据处理需要利用视频内容分析技术等。

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!