在统计学发展历史中,统计学家首先注意到的是随机变量可能取值的主体,不会立即去关心稀有事件,因此极值统计发展的历史相对较短。历史上,最早可追溯到1709年N.贝努里[注]讨论的一个精算问题:个同龄人在年内死亡,那么平均说来,最长寿者的年龄是多少?他将这个问题简化为一条长度为
的直线上的
个随机点,离原点的平均最大距离是多少。
在统计文献中,最早讨论极值的是1824年J.B.J.傅里叶的一篇文章,他认为与正态分布均值偏离了两个标准差的平方根的三倍的概率大约为五万分之一。即
,因此可能完全忽略这类观测。类似地,按通常的原则,认为正态样本的有效范围应在离均值正负三个标准差内。实际上,这些说法都不够完善。1877年F.R.赫尔默特[注]指出,这类问题的正确提法应该与样本量有关。因为当样本量趋于无穷时,有更多的机会使样本最大值出现在分布的尾部,正态总体的样本最大值也应该趋于无穷。因此,从理论上说,样本最大值与总体均值的距离大于任一固定常数的事件终究要发生。
原则对小样本来说,有点保守;而对大样本又太宽松。极值理论就是说明极值大小与样本量之间关系的理论。
极值的近代理论开始于德国。1922年,德国统计学家L.von巴尔特基维茨[注]研究了正态分布的样本极差,这个问题的意义在于讨论来自正态分布的样本最大值是一个新的随机变量,具有新的分布,因此巴尔特基维茨是第一个明确提出极值问题的统计学家。1936年,R.von米塞斯[注]提出了最大次序统计量收敛于极值分布的简单有用的充分条件。20世纪20年代初期到中期,极值统计在气象、人类寿命、放射性、材料强度、洪水、地震、雨量分析等问题中得到了应用。在应用方面,做出最大贡献的是瑞典物理学家和工程师W.威布尔[注],他第一次强调极值概念对描述材料强度的重要。E.J.冈贝尔首先向统计学家与工程技术人员提出,应该将极值理论应用于某些他们曾经用经验方法考虑过的分布,于是用极值理论解释了工程界研究了很久的洪水统计分布,此后又用于其他气象现象及异常观测值的统计问题。
计算机的广泛应用对数理统计,包括极值统计在内,在理论、方法和应用上的发展产生了一定的影响。现代计算机的发展对于现代统计应用的发展必不可少。许多重要的统计方法的应用,都牵涉大量计算。一元极值,已成功地在许多领域得到应用,各种方法也比较成熟,大都配有用各种语言(Fortran、SAS、Matlab、S-plus、R)编写的计算程序,使用非常方便,这又促进了理论的发展。
极值统计分析要求估计的常常不是已经观测到的一般事件的概率,而是在特殊情况下发生的极端事件的概率。在极值统计研究的问题中,首先是建立一个极值的数学模型。如果已知观测数据所服从的分布(称之为底分布),就可以分别得到最大值及最小值的精确模型。但在大多数应用中,观测数据所服从的分布是未知的,因此只能得到极值的渐近分布,而不是精确分布。在应用中,这相应地要求数据有比较大的规模。而且实际证明,在大多数情况下极值的渐近分布提供了一个简单、满意的模型,建立在此基础上的统计分析方法也已得到肯定。极值统计理论就是为观测到的基于某个样本量的极值建立一个概率模型,但必须具备某些基本条件:①观测对象是随机变量;②这个随机变量的底分布应保持不变,或者如果有任何变化,应该可以经数据变换减少这种变化带来的影响;③观测到的极值(不是观测数据本身)是独立的,否则需对模型进行相应的修正。
极值统计分析方法区别于一般统计方法主要在于数据的收集,而不是数据的分析。首先要收集到有资格被称为极值的观测数据,它们满足上述三个基本条件,且有一定的数量规模。不同建模方法对数据有不同要求:对极值的经典模型,即规范化样本最大值的渐近分布模型,只有“年最大值”或“区组最大值”才可以作为极值的观测数据;而
个最大次序统计量模型中,则可将每年或每个区组内的
个最大值都作为极值的观测数据;对阈值模型,如果数据是独立同分布的,超阈值近似服从广义帕累托分布,而对平稳时间序列,只有超过阈值的峰(POT)可以作为极值的观测数据;对点过程模型,落在远离原点区域上的点组成非齐泊松过程,对相应的似然函数都有一定的贡献。
从尽可能多地利用包含在数据中的信息来看,后面的几种模型都比经典模型好,但问题在于对阈值模型如何确定阈值,几乎等价地在
个最大次序统计量模型中,如何确定
;对点过程模型,如何确定远离原点的区域,选取阈值是否合适,关系到极值理论应用的成败,即是否能得到一个合理的推断。如果选取了过高的阈值,将使得手中的数据几乎都处在阈值以下,难以发挥应有的作用,只有极少几个比所选阈值大的数据,才能用于极值的统计分析,造成信息浪费,而且数据太少,结论也不够稳定。而过低的阈值,又不符合极值模型的理论要求。因此对一个实际问题,需要在这二者之间进行适当的平衡,既尽可能充分地利用包含在数据中的信息,又能在适当水平上保持模型的正确性。
选择恰当的极值模型后,统计方法在处理极值问题中就显得尤其重要,我们提出以下几点注意:①估计方法。估计,即基于现有的观测数据去估计模型的未知参数。对于极值模型的参数估计,如频率直方图用于估计密度,概率图用于拟合分布,以及其他估计方法,包括极大似然估计、矩估计、贝叶斯估计等。②不确定性的定量表示。统计分析是利用现有的观测数据对真实情况给出“最好的猜测”。但如果对所研究的真实过程再一次抽样,将得到不同的样本观测值,因而有不同的估计值。所以,估计模型时必须考虑由于样本变异性引起的模型不确定性。在已知模型类型时,模型的不确定性主要体现在模型参数上,标准误是参数的不确定性或它的变异性度量。在极值模型中,模型参数的很小变化可能使外推结论发生很大改变。也就是说,极值问题中可能存在的不确定因素比其他统计问题还多。因此,估计一个过程在极端水平上的不确定性,同水平本身作为一个参数必须进行估计一样重要。遗憾的是,不确定性的度量在应用中还是常常被忽视。我们将看到,由于极大似然估计的渐近正态性,容易给出估计值及其标准误。③模型诊断。一个极值模型能够用于实际问题,唯一理由是导出此模型的渐近性。如果已经发现一个模型与观测到的极值拟合得不好,再进行外推也不可能得到好的结果。我们将在以后对每一极值模型都给出几种评价拟合好坏的方法。④信息的极大使用。尽管不确定性是任何统计模型所固有的,但是如果能谨慎地选择模型和推断方法,尽可能充分地利用所有的信息,这种不确定性是可以减少的。许多可供选择的模型,如不仅有区组最大值模型,还有可利用更多数据的模型,利用协变量所提供的相关信息的模型以及多元模型,利用附加知识或信息的贝叶斯模型等。
极值理论是数学在近代工程、环境及风险管理问题应用中取得最成功的重要例子之一。极值理论已发展成为应用科学中一种非常重要的统计方法,在许多领域都有广泛的应用。
在金融市场,极端事件本身就非常令人关注。国际上金融危机不断发生:1987年出现了较大范围的股市崩盘,1995年2月26日具有233年悠久历史的英国巴林银行宣布破产,美国橙县政府的破产,日本大和银行巨额交易亏损等。特别是1997年以来的亚洲金融风暴使许多金融机构陷入困境,对中国也有某些直接影响,国内金融界对金融风险有深刻体会,关于金融风险的研究也正在深入。
风险管理的基础和核心是风险测量,对于金融市场就是研究由于市场因子的不利变化而导致金融资产(证券组合)价值损失的大小。风险价值(value at risk;VaR)及极值理论已经成为主流方法,VaR是一种能全面测量复杂证券组合的市场风险的方法。简单地说,VaR的概率意义即是损益分布的分位点,估计处于分布尾部的高分位点正是极值理论的最显著特点。
随着VaR作为风险度量指标的广泛应用,也逐渐暴露了它的一些缺点。首先VaR只关心发生重大损失的可能性,不能给出发生重大损失时可能损失是多少。另一个问题是VaR在数学上不具有次可加性。一个简单的例子是只有两种证券
,组成的组合
,应该有:

即在同样条件下,证券组合的损失不应超过各个证券损失之和,这就是次可加性。但上述不等式不一定成立。为改进这个不足,提出条件VaR(conditional value at risk;CVaR),又称期望亏空(expected shortfall)。
极值统计主要研究很少发生,然而一旦发生却产生极大影响的随机事件。例如洪水、干旱、地震、飓风等自然灾害,经济、金融领域内某些现象的重大变化,导致某个系统失效的随机冲击等。极端事件有时比正常情况更重要。历史上,人们在与自然灾害的长期斗争中,保存了不少有关记录,这些珍贵资料记录了曾经发生过的极端事件,而更多的正常现象未必被记录或保存下来。如何从这些资料预测某种等级自然灾害发生的可能性,是极值理论所研究的问题之一。在设计水利水文工程时,设计者最关心洪水及干旱的发生。金融市场的风险是由利率、汇率、股市或商品价格的波动引起的,由于上述因子急剧变化引起国际大公司破产。检测一个城市的大气环境质量,需要几个监测点同时监测各种指标,如二氧化硫、氮氧化物、总悬浮颗粒物、一氧化碳等是否在某个水平(如大气环境质量国家标准)以下。高层建筑要经受来自各个方向的大风,这是设计师必须要考虑的因素。类似地,任何一个机械零件的设计也必须考虑各种不同类型的强度要求;长江三峡大坝或防汛工程的设计高度必须超过某个可能的最高水位;打破各项体育运动成绩的记录也是一件不寻常的事情;如何设计再保险产品等,都是与极值有关的问题。因此,极值统计的研究在水文、气象、地震、工程、环境、体育及金融、保险、管理等方面有重要的意义。