首页 . 理学 . 计算机科学技术 . 计算机应用 . 可视化与混合现实 . 可视化与可视分析 . 信息可视化

高维数据可视化

/high-dimensional data visualization/
条目作者刘世霞

刘世霞

最后更新 2024-12-03
浏览 193
最后更新 2024-12-03
浏览 193
0 意见反馈 条目引用

将高维的数据展示在二维或三维空间中,并辅以交互手段,帮助用户方便地理解嵌入在高维数据中的异常信息和模式信息,从而提升数据和模型工作机制的可理解性和可信度的可视化方法。

英文名称
high-dimensional data visualization
所属学科
计算机科学技术

高维数据指具有多个独立属性的数据。高维和低维之间的界限并不是很明显。通常来说,高维数据指具有四个以上独立属性的数据。在实际应用中,高维数据随处可见。例如,在一篇文档中,一个词的词频可以看作这篇文档的一个独立属性。基于此,一篇文档可以看作由一组词组成的高维数据(词袋模型)。高维数据可视化主要分为三大类方法:降维方法、非降维方法和混合方法。降维方法采用某种映射机制,将原高维空间的数据投影到低维空间,并尽量保留高维空间中原有数据的特性和相关结构,如聚类关系和异常信息等。主成分分析(principal component analysis,PCA)、多维尺度分析(multi-dimensional scaling,MDS)、自组织图(self-organizing map,SOM)、t-SNE(t-distributed stochastic neighbor embedding)等,这些都属于降维方法。这些方法将高维数据通过数学方法降维,进而在低维(主要是二维)屏幕空间中用传统的散点图来显示这些高维数据。通常,数据在高维空间中的距离越近,在投影图中两点的距离也越近。降维的初衷是将原始维度中冗余无用的信息滤掉,不过这个过程可能会丢失掉某些有用信息。因此低维投影图可以很好地展示高维数据间的相似度以及聚类情况等,但并不能表示数据在每个维度上的信息,也不能表现维度间的关系。高维投影图损失了数据在原始维度上的细节信息,但直观地提供了数据之间宏观的结构。

非降维方法保留了高维数据在每个维度上的信息,可以展示数据的所有维度。各种非降维方法的主要区别在于如何对不同的维度进行数据到图像属性的映射。当维度数量较少时,可以直接通过与位置、颜色、形状等多种视觉属性相结合的方式,对高维数据进行编码。例如在形状、大小、颜色上映射数据维度的小图标方法,或用不同角度表示不同数据维度、呈放射形状的星型图(star glyph)。但当维度数量增多,数据量变大,或对数据呈现精度的需求增加时,这些方法往往难以满足需要。在处理科学、社会研究和应用中的复杂高维数据时,需要可扩展性(scalability)更强的高维数据可视化方法,包括图1所示的散点图矩阵(scatterplot matrix)和图2的平行坐标(parallel coordinates)等。

图1 非降维高维数据可视化方法:(a) 散点图矩阵图1 非降维高维数据可视化方法:(a) 散点图矩阵

图2 非降维高维数据可视化方法:(b)平行坐标图2 非降维高维数据可视化方法:(b)平行坐标

降维方法通过散点图,可以展现数据在任意两个维度间的相关特性以及聚类情况。它的缺点是不能显示各个数据在多个维度上的协同关系,同时需要很大的显示空间,其需要显示空间的面积正比于维度数目的平方。非降维方法如平行坐标是将高维数据的各个变量维度用一系列相互平行的坐标轴来表示,它能够帮助分析数据在多个维度上的分布和多个维度之间的关系,且平行坐标需要的显示面积仅正比于维度的数目。但平行坐标在两个维度之间关系的表现不如散点图清楚,易受图元堆叠的影响。为了结合降维方法和非降维方法的优点,研究者提出了混合降维方法。例如SPPC(scattering points into parallel coordinates)方法将平行坐标和降维方法相结合,发挥两者的优势。

高维数据可视化技术在进行探索性数据分析及对聚类或分类问题的验证中有着重要的应用。例如,在生物学研究中,生物数据通常由成百上千个基因表达组成。理解并探索这些高维生物数据对于研究不同疾病的发病原因有着重要的作用。另外,高维数据可视化在证券交易数据、多媒体图形图像数据、航空航天数据、生物特征数据、多源空间数据等的分析和理解中都有至关重要的作用。

  • YUAN X, GUO P, XIAO H, ZHOU H, QU H.Scattering points in parallel coordinates.IEEE Transactions on Visualization and Computer Graphics,2009,15(6):1001–1008.
  • ETEMADPOUR R, MOTTA R, PAIVA J G S, MINGHIM R, OLIVEIRA M C F, LINSEN L.Perception-based evaluation of projection methods for multidimensional data visualization.IEEE Transactions on Visualization and Computer Graphics,2014,21(1):81-94.
  • VAN DER MAATEN L,HINTON G.Visualizing data using t-SNE.Journal of Machine Learning Research,2008,(9):2579-2605.

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!