首页 . 理学 . 统计学 . 描述统计 . 数据及数据类型

切尔诺夫脸谱图

/Chernoff face map/
条目作者王会娟

王会娟

最后更新 2024-04-10
浏览 503
最后更新 2024-04-10
浏览 503
0 意见反馈 条目引用

将样本的个变量用人脸的某一部分的形状或大小来表示的图形。简称脸谱图。一个样本用一个脸谱表达,以相似的样本构成的脸谱会很相像。

英文名称
Chernoff face map
又称
脸谱图
所属学科
统计学

最早由美国统计学家H.切尔诺夫[注]于20世纪70年代提出。他用人脸部位的大小、位置和形状来表征多维度数据,进行聚类分析,引起了各国统计学家的极大关注。切尔诺夫脸谱图经过不断改进,成为一种可视化的多元统计分析工具,被一些统计软件如R、S-Plus等收入。

按照切尔诺夫于1973年提出的画法,脸谱图采用15个指标,各指标代表的面部特征为:指标1表示脸的范围;指标2表示脸的形状;指标3表示鼻子的长度;指标4表示嘴的位置;指标5表示笑容曲线;指标6表示嘴的宽度;指标7~11分别表示眼睛的位置、分开程度、角度、形状和宽度;指标12表示瞳孔的位置;指标13~15分别表示眉毛的位置、角度和宽度(表1)。

表1 切尔诺夫脸谱图指标
变量面部特征变量面部特征变量面部特征
1脸的范围6嘴的宽度11眼睛的宽度
2脸的形状7眼睛的位置12瞳孔的位置
3鼻子的长度8眼睛的分开程度13眉毛的位置
4嘴的位置9眼睛的角度14眉毛的角度
5笑容曲线10眼睛的形状15眉毛的宽度

一个脸谱可以表示多达十几个变量,如果不追求脸谱的对称,一个脸谱可以表示几十个变量。为了脸谱便于识别,常常需要对变量的取值范围加以界定,例如嘴的长度不能超过脸的轮廓,此时可以对数据做相应的线性变换。现在使用较多的脸谱图中,各个部分通常由18个变量构成,当变量数小于18个时,可将脸谱中某些部位加以固定;当变量数大于18时,可以设法在脸谱中再添加一些部位,如头发、耳朵等。切尔诺夫脸谱图方法有助于验证以下两点:由原始材料和直觉提出的最初的分组;由聚类算法产生的最终的分组。

2020年31个地区的8项人均消费支出数据(表2)

表2 2020年31个地区的人均消费支出表(前3行和后3行)  单位:元

地区

食品烟酒

衣着

居住

生活用品及服务

交通通信

教育文化娱乐

医疗保健

其他用品及服务


地区1

8751.4

1924

17163.1

2306.7

3925.2

3020.7

3755

880


地区2

9122.2

1860.4

7770

1804.1

4045.7

2530.6

2811

950.7


地区3

6234.6

1667.4

5996

1540.6

2798.3

2412.2

1988.8

529.6


地区29

6754.1

1770.5

5053.7

1509.6

4076.4

2043.1

2524.6

583.1


地区30

6068.3

1776.3

4319.2

1383.5

3680.3

2250.3

2267.3

634


地区31

7194.3

1616.8

4483.1

1500.8

3413.5

1778.2

2349.1

615.9

某年中国31个地区的8项人均消费支出表绘制的脸谱图(见图)。

2020年31个地区人均消费支出的脸谱图2020年31个地区人均消费支出的脸谱图

图中各项指标代表的面部特征见表3

表3 各项指标代表的面部特征

变量

面部特征

变量

面部特征

变量

面部特征

食品烟酒

脸的高度

教育文化指标

笑容曲线

居住

发型

衣着

脸的宽度

医疗保健

眼睛高度

生活用品及服务

鼻子高度

居住

脸的形状

其他用品及服务

眼睛宽度

交通通信

鼻子宽度

生活用品及服务

嘴的高度

食品烟酒

头发高度

教育文化娱乐

耳朵宽度

交通通信

嘴的宽度

衣着

头发宽度

医疗保健

耳朵高度

因为只有8个指标,所以某些指标被重复使用。以食品烟酒支出为例,这个指标分别代表脸谱图的高度和头发的高度。观察脸谱图可以发现,地区1、地区9和地区11的脸谱面积较大,这意味着地区1、地区9,地区11的各项支出明显高于其他地区;而地区20、地区21、地区24等地的脸谱面积较小,表明这些地区的消费水平相对较低。按照脸谱面积大小进行大致划分,可以将地区1、地区9和地区11归为一类;地区20、地区21、地区24归为另一类;其他地区则归为第三类。

切尔诺夫脸谱图适合于在大量相似数据中发现歧异点,或者根据表情对数据进行聚类。由于不同的制图者可能会对同一变量选择不同的脸谱部位,因此对于同样的数据,可能会产生不同的显示结果。

然而,以切尔诺夫脸谱图方法为代表的图标法存在一个重要的不足:无法表示数量很大的数据。为了解决这个问题,A.因塞伯格[注]于1985年提出平行坐标法。平行坐标法能直观简明地利用图形图像形式展现数据,并且具备有效的降维作用,因此平行坐标法成为多维数据可视化的重要方法,在数据挖掘、系统优化设计等方面都得到了较好的应用。

  • JOHNSON R A,WICHERN D W.实用多元统计分析.陆璇,叶俊,译.北京:清华大学出版社,2008.
  • 方开泰.实用多元统计分析.上海:华东师范大学出版社,1989.

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!