加拿大统计学家H.乔(Harry Joe)在1994年首次引入了正则Vine这个相依概念去拓展二维极值分布到高维的情形。美国数学家R.库克(Roger Cooke)在1997年利用马氏树正式定义了Vine相依性概念。Vine相依模型被广泛地应用于精算、金融、环境及网络数据分析等领域。
Vine相依模型
统计学用成对Copula结构描述高维随机变量之间的相依性技术。
- 英文名称
- Vine dependence model
- 所属学科
- 统计学
Vine相依模型的基本原理是将多元的分布函数利用条件分布的技术分解成二元的Copula函数乘积形式。Vine相依模型可以通过树序列的形式来构造。具体来讲,称是一个含有
个元素的Vine。如果其满足以下所有条件:①
是第一个树,包含了
个点和所有边的集合
。②对
,
是一个包含点
和所有边的集合
,即上个树的边是下个树的点。③对
,如果两个在
中的点被
中的一条边连接,则这两个节点作为
中的边共享
中的同一个节点。
Vine Copula的密度函数具有以下形式:
式中;
为
的一个子向量;
代表跟边
相关的所有点的结合;
为其对应的条件Copula函数;
为对应于边
的二元的Copula密度函数。可以看到Vine相依性模型可以将高维的相依性结构表示为二元Copula相依性结构的乘积形式。
Vine相依模型对研究高维数据之间的相依性非常有效。通常做法是利用一个矩阵去储存Vine的相依性结构信息:假设是一个
的下三角矩阵,其中每个元素
是1~
之间的整数。称
为Vine矩阵,如果它满足以下所有条件:①
对任意
成立。②
,
。③对所有的
和
,存在一个
满足:
第一个条件指的是每列右边的元素都属于自己这一列,第二个条件要求每个对角元素不会在它所在列的右边任何一列中出现。在Vine相依模型的构建过程中,由于结构的灵活性,可能导致大量的不同相依结构。一个包含个元素的Vine相依结构,具有
种可能的结构,随着
越大,数量也越大。因此,实际当中通常使用两种特殊结构,分别称为C-Vine和D-Vine:
①C-Vine。称Vine树序列为C-Vine,如果存在一个点,其出现在每个树里面并且是每条树的最大度。4个元素的C-Vine(图1),共有3棵树,元素1出现在所有树中,并且具有每棵树的最大度。
②D-Vine。称Vine树序列为D-Vine,如果满足每个点的最大度不超过2。4个元素的D-Vine(图2),共有3棵树,每个元素的最大度不超过2。
Vine相依模型通过将高维的相依性结构分解为二元的Copula相依性结构乘积,是高维数据建模最为有效的方法之一。尤其是利用Vine结构的形式去构造符合数据特性的相依性,在诸多领域得到了广泛的应用。
条目图册
扩展阅读
- JOE H,KUROWICKA D.Dependence Modeling: Vine Copula Handbook.Singapore:World Scientific,2011.
- JOE H.Multivariate Extreme-value Distributions with Applications in Environmental Data.The Canadian Journal of Statistics,1994,22(1):47–64.
- COOK R M.Markov and Entropy Properties of Tree and Vine Dependent Variables.Proc. ASA Section of Bayesian Statistical Science,1997,(7):137-142.
- AAS K,CZADO C,FRIGESSI A,et al.Pair-copula Constructions of Multiple Dependence.Insurance: Mathematics and Economics,2009,44(2):182-198.
- DISSMANN J,BRECHMANN E C,CZADO C et al.Selecting and Estimating Regular Vine Copulae and Application to Financial Returns.Computational Statistics,2013,59:52-69.