最早由美国统计学家H.切尔诺夫[注]于20世纪70年代提出。他用人脸部位的大小、位置和形状来表征多维度数据,进行聚类分析,引起了各国统计学家的极大关注。切尔诺夫脸谱图经过不断改进,成为一种可视化的多元统计分析工具,被一些统计软件如R、S-Plus等收入。
按照切尔诺夫于1973年提出的画法,脸谱图采用15个指标,各指标代表的面部特征为:指标1表示脸的范围;指标2表示脸的形状;指标3表示鼻子的长度;指标4表示嘴的位置;指标5表示笑容曲线;指标6表示嘴的宽度;指标7~11分别表示眼睛的位置、分开程度、角度、形状和宽度;指标12表示瞳孔的位置;指标13~15分别表示眉毛的位置、角度和宽度(表1)。
变量 | 面部特征 | 变量 | 面部特征 | 变量 | 面部特征 |
1 | 脸的范围 | 6 | 嘴的宽度 | 11 | 眼睛的宽度 |
2 | 脸的形状 | 7 | 眼睛的位置 | 12 | 瞳孔的位置 |
3 | 鼻子的长度 | 8 | 眼睛的分开程度 | 13 | 眉毛的位置 |
4 | 嘴的位置 | 9 | 眼睛的角度 | 14 | 眉毛的角度 |
5 | 笑容曲线 | 10 | 眼睛的形状 | 15 | 眉毛的宽度 |
一个脸谱可以表示多达十几个变量,如果不追求脸谱的对称,一个脸谱可以表示几十个变量。为了脸谱便于识别,常常需要对变量的取值范围加以界定,例如嘴的长度不能超过脸的轮廓,此时可以对数据做相应的线性变换。现在使用较多的脸谱图中,各个部分通常由18个变量构成,当变量数小于18个时,可将脸谱中某些部位加以固定;当变量数大于18时,可以设法在脸谱中再添加一些部位,如头发、耳朵等。切尔诺夫脸谱图方法有助于验证以下两点:由原始材料和直觉提出的最初的分组;由聚类算法产生的最终的分组。
2020年31个地区的8项人均消费支出数据(表2)
地区 | 食品烟酒 | 衣着 | 居住 | 生活用品及服务 | 交通通信 | 教育文化娱乐 | 医疗保健 | 其他用品及服务 |
地区1 | 8751.4 | 1924 | 17163.1 | 2306.7 | 3925.2 | 3020.7 | 3755 | 880 |
地区2 | 9122.2 | 1860.4 | 7770 | 1804.1 | 4045.7 | 2530.6 | 2811 | 950.7 |
地区3 | 6234.6 | 1667.4 | 5996 | 1540.6 | 2798.3 | 2412.2 | 1988.8 | 529.6 |
… | … | … | … | … | … | … | … | … |
地区29 | 6754.1 | 1770.5 | 5053.7 | 1509.6 | 4076.4 | 2043.1 | 2524.6 | 583.1 |
地区30 | 6068.3 | 1776.3 | 4319.2 | 1383.5 | 3680.3 | 2250.3 | 2267.3 | 634 |
地区31 | 7194.3 | 1616.8 | 4483.1 | 1500.8 | 3413.5 | 1778.2 | 2349.1 | 615.9 |
某年中国31个地区的8项人均消费支出表绘制的脸谱图(见图)。
图中各项指标代表的面部特征见表3。
变量 | 面部特征 | 变量 | 面部特征 | 变量 | 面部特征 |
食品烟酒 | 脸的高度 | 教育文化指标 | 笑容曲线 | 居住 | 发型 |
衣着 | 脸的宽度 | 医疗保健 | 眼睛高度 | 生活用品及服务 | 鼻子高度 |
居住 | 脸的形状 | 其他用品及服务 | 眼睛宽度 | 交通通信 | 鼻子宽度 |
生活用品及服务 | 嘴的高度 | 食品烟酒 | 头发高度 | 教育文化娱乐 | 耳朵宽度 |
交通通信 | 嘴的宽度 | 衣着 | 头发宽度 | 医疗保健 | 耳朵高度 |
因为只有8个指标,所以某些指标被重复使用。以食品烟酒支出为例,这个指标分别代表脸谱图的高度和头发的高度。观察脸谱图可以发现,地区1、地区9和地区11的脸谱面积较大,这意味着地区1、地区9,地区11的各项支出明显高于其他地区;而地区20、地区21、地区24等地的脸谱面积较小,表明这些地区的消费水平相对较低。按照脸谱面积大小进行大致划分,可以将地区1、地区9和地区11归为一类;地区20、地区21、地区24归为另一类;其他地区则归为第三类。
切尔诺夫脸谱图适合于在大量相似数据中发现歧异点,或者根据表情对数据进行聚类。由于不同的制图者可能会对同一变量选择不同的脸谱部位,因此对于同样的数据,可能会产生不同的显示结果。
然而,以切尔诺夫脸谱图方法为代表的图标法存在一个重要的不足:无法表示数量很大的数据。为了解决这个问题,A.因塞伯格[注]于1985年提出平行坐标法。平行坐标法能直观简明地利用图形图像形式展现数据,并且具备有效的降维作用,因此平行坐标法成为多维数据可视化的重要方法,在数据挖掘、系统优化设计等方面都得到了较好的应用。