首页 . 理学 . 计算机科学技术 . 计算机应用 . 可视化与混合现实 . 可视化与可视分析 . 信息可视化

文本数据可视化

/text data visualization/
条目作者刘世霞

刘世霞

最后更新 2024-12-03
浏览 130
最后更新 2024-12-03
浏览 130
0 意见反馈 条目引用

将文本(特别是数据信息密度较低的文本)进行一定的处理,从中提取出最能代表文本所表达内容的信息,并将这些信息进行可视化的处理。

英文名称
text data visualization
所属学科
计算机科学技术

文本是语言的书面表现形式,通常是具有完整含义的一个或多个句子的组合。文本数据在日常生活中广泛存在,例如新闻、微博、书籍等都是人们经常接触到的文本数据。随着信息技术的迅速发展,文本数据增长迅速,传统的文本阅读方式已经不能满足人们的需求。文本可视化可以帮助人们更高效地分析文本,辅助人们更好地决策。

常用的文本可视化方法可以按照是词级还是主题级分为两类。词级的文本可视化方法首先从文本中提取关键词,再根据每个关键词的重要程度展示这些关键词,从而反映文本的侧重点。关键词的提取方法有很多,比较常见的是基于词频(term frequency,TF)的方法。此方法认为在文档中出现次数越多的词重要性越高。词频法的一个拓展是TF-IDF(term frequency-inversedocument frequency)技术,这是一种用于信息检索与数据挖掘的常用加权技术。此技术在考虑词频的同时还计算相应词出现在多少篇文档中。如果这个词在很多文档中出现,则认为它对于区分文档侧重点意义不大,重要性较低。词级文本可视化方法著名的例子之一是Wordle。用户可以自定义边界形状(例如圆形或者任意多边形等),然后利用Wordle对词进行布局。在Wordle中,算法根据词重要性的降序逐个对词进行布局,重要性大的词位置确定以后再搜索重要性相对较小的词的位置。根据不同的位置搜索策略,Wordle可以产生多种美观的布局结果。

主题级的文本可视化将主题挖掘技术和可视化紧密结合,可以自动(半自动)地分析大量文本中的主要内容,进一步减少用户理解和分析的负担。主题,即文本中谈论的主要内容,常常由一组词或者词的分布来表示。例如埃博拉相关文本中可能存在一个与埃博拉病毒相关的主题,表示为:(埃博拉,0.4)(病毒,0.2)(致死,0.2)(传播,0.1)(体液,0.1)……括号中的数字代表了相应的词在主题中出现的概率。主题提取的主要思路是将经常同时出现在一篇文档中的两个词放在同一个主题中。主题可视化可以让用户快速了解大量文本中包括哪些主题,这些主题的热度如何,主题如何随时间变化等。一个代表性的主题可视化例子是TIARA(文本洞察通过自动响应分析),它结合了文本分析和交互式可视化,以帮助用户探索和分析大量文本。

主题级文本可视化方法TIARA的可视化结果示意图主题级文本可视化方法TIARA的可视化结果示意图


  • VIEGAS F B, WATTENBERG M, FEINBERG J.Participatory visualization with Wordle.IEEE Transactions on Visualization and Computer Graphics,2009,15(6):1137-1144.
  • LIU S, ZHOU M X, PAN S, SONG Y, QIAN W, CAI W, LIAN W.TIARA: Interactive, topic-based visual text summarization and analysis.ACM Transactions on Intelligent Systems and Technology,2012,3(2):25:1-25:28.

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!