19世纪末到20世纪初,英国统计学家K.皮尔逊研究了大量的数据,发现这些数据有时会明显偏离正态,并表现出相当大的偏斜程度。偏态系数用符号来表示。
根据统计资料的不同,偏态系数有两种计算方法:
①原始数据为未分组数据时,偏态系数的计算公式为:
(1) |
式中为
的算术平均值;
为样本标准差。
②原始数据为分组数据时,偏态系数的计算公式为:
(2) |
式中为每组数据的频数;
为每个分组的组中值;
为分组数。
例如:一家电脑专营店的平均月销售量为185台,标准差为21.58台,月销售量的分组数据(表1)。
序号 | 月销售量/台 | 频数 |
1 | 140~150 | 4 |
2 | 150~160 | 9 |
3 | 160~170 | 16 |
4 | 170~180 | 27 |
5 | 180~190 | 20 |
6 | 190~200 | 17 |
7 | 200~210 | 10 |
8 | 210~220 | 8 |
9 | 220~230 | 4 |
10 | 230~240 | 5 |
合计 | — | 120 |
根据月销售量频数分布表,可以计算样本数据偏态系数(表2)。
序号 | 月销售量/台 | 频数 | 组中值 | |
1 | 140~150 | 4 | 145 | -256 000 |
2 | 150~160 | 9 | 155 | -243 000 |
3 | 160~170 | 16 | 165 | -128 000 |
4 | 170~180 | 27 | 175 | -27 000 |
5 | 180~190 | 20 | 185 | 0 |
6 | 190~200 | 17 | 195 | 17 000 |
7 | 200~210 | 10 | 205 | 80 000 |
8 | 210~220 | 8 | 215 | 216 000 |
9 | 220~230 | 4 | 225 | 256 000 |
10 | 230~240 | 5 | 235 | 625 000 |
合计 | — | 120 | — | 540 000 |
计算得:
(3) |
偏态系数用来衡量一组数据的偏斜程度,如果这组数据的分布是对称的,则偏态系数等于0;如果偏态系数大于0,则说明数据呈右偏分布(图1);如果偏态系数小于0,说明数据呈左偏分布(图2)。当偏态系数绝对值大于1时,称为高度偏态分布;当偏态系数绝对值处于0.5~1,称为中等偏态分布;偏态系数越接近于0,偏斜程度就越低。在上述例子中,计算得偏态系数,说明数据呈右偏分布,但偏斜程度不是很大。
在金融领域的研究中,往往会假设股票价格的对数收益率服从正态分布,但实际中股票或指数的对数收益率呈左偏分布。发生某些突发事件时(例如2001年的9·11恐怖袭击事件,2007年的美国次贷危机等),还会导致极大的负向收益,从而导致收益分布呈现出极长的左部厚尾。此时,运用偏态系数可以反映股票或指数的对数收益率是否呈现偏态分布。