重要性抽样是由美国统计学家A.W.马歇尔(Andrew W.Marshall)于1956年提出的非常有用的抽样技术。重要性抽样是一种近似的抽样方法,其基本思想是:当想要估计总体均值或随机变量的期望时,这个总体均值或随机变量与感兴趣的分布有关,此分布通常称为目标分布,但该分布很复杂或不容易基于现有软件抽样,为此在抽样时不是从目标分布抽样而是从另一个常见分布抽样,该分布通常称为建议分布,重要性抽样便把权重分配给抽出的样本,并做必要的调整。在过去的二十年间,在蒙特卡罗方法和计算机技术受到广泛关注的情况下,重要性抽样在许多令人兴奋的方向得到了丰富和发展。
重要性抽样
蒙特卡洛积分计算所采用的一种采样策略,主要应用于估计或计算某总体的矩特征。又称重要性采样。
- 英文名称
- importance sampling
- 又称
- 重要性采样
- 所属学科
- 统计学
假定是概率空间
中的一个随机变量,
是随机变量
的一个函数,
的期望值:
(1) |
式中为随机变量
的概率密度函数,即目标密度函数。如果
是离散的,则
为概率质量函数,此时式(1)中的积分换成求和即可。如果不能得到
的解析表达式,则可用蒙特卡罗方法从分布
中产生随机变量
的观测值
,从而:
(2) |
就是的一个无偏估计。现在,假定样本
不是从
中抽取的,而是从建议分布
中抽取的,并假定
的支撑集包含
的支撑集。在上面的假设下,式(1)可写成如下形式:
(3) |
上式表明可由下面两个式子中的任何一个来估计:
(4) |
式中是
重要性抽样的权重,或:
(5) |
式中为标准化权重,且
。
为自然的无偏估计,
为以比率的形式出现的,从技术意义上来看,此估计通常是有偏的,偏差为
,标准差为
。因此,对大样本
来说,偏差对均方误差的影响是可忽略不计的。在实际应用中,经常用
来代替
,这是因为如果
和
是强烈的正相关,那么
的方差明显地比
小,因此,
表现比较好。反之,若
和
不是强烈的正相关,由于
不可计算,仍然可以用
代替
。注意:需要
的值才能评价
,而对于
来说,
只不过是一个相乘的常数,只要知道这个常数就可以计算
(在
中,这个常数通常会被删除)。
重要性抽样方法应用于处理缺失数据问题。注意到:是函数
在概率密度函数
下的期望,它也是函数
在概率密度函数
下的期望。任意给定两个分布
和
,对于给定的常数
和
,令
且
。显然有:
(6) |
若样本来自
,且:
(7) |
为的一个无偏估计。在缺失数据问题研究中,令
为观测数据,且似然函数
是关于
的一个函数。假设不能直接计算
,但若
可由
得到,实际上
不能观测时,则对
与
的任何值而言,都很容易计算
。假定从
的分布中抽出
,则容易计算
。令
且
,使得
。再令
,使得
。从式(7)可得:
(8) |
是的一个无偏估计。现在考虑另外一种情况,假设不能计算
,但对一些未知常数
,可得
。当不能直接估计似然时,可先估计正态化未知常数,然后再去估计似然比。具体地,如果
与
是
的两个可能值,则
的估计量可表示为:
(9) |
对的一些固定值
来说,
的典型选择就是
,则
且
。注意式(8)可视为
的一种形式,或式(2)的一种形式,而是式(9)是一个比值的形式。通过整理可把式(8)看成
的形式,且
。特别地:
(10) |
式中为
中被删除的未知常数。
重要性采样方法不改变统计量,只改变概率分布,可以用来降低方差。重要性采样不依赖模型的方法,也不需要马尔可夫假设,在一定的假设条件下,可以采用重要性采样来得到一个无偏估计。
扩展阅读
- MARSHALL A.The Use of Multi-stage Sampling Schemes in Monte Carlo Computations.New York:Symposium on Monte Carlo Methods,1956.