关于敏感性问题调查,直接询问不能保护受访者的隐私,并且难以得到真实信息,常出现估计偏差。在随机化回答技术的设定中,受访者回答的问题是随机的,既可以保护受访者的隐私,又能取得受访者的信任。同时,调查人员可以根据预设的概率和受访者的回答,对目标参数进行统计推断,得到可靠的估计结果,降低测量偏差。
随机化回答技术可以通过随机化模型来实现。敏感性问题包括属性特征敏感性问题和数量特征敏感性问题,对不同类型的敏感性问题应使用不同的随机化回答模型。
沃纳模型和西蒙斯模型是常见的两种针对二项属性特征敏感性问题的随机化回答模型。其中沃纳随机化回答模型是针对二项属性特征敏感性问题抽样设计的随机化回答模型。由美国统计学家S.L.沃纳[注]提出。该模型在保护被调查者隐私的前提下,获取二项属性敏感性问题的统计资料。设模型的目标量是属于类特征单元所占总体比例
,制作两类卡片。卡片
:“我是
类成员”。卡片
:“我不是
类成员”。卡片
占比例
,卡片
占比例
。
或
,相当于直接回答。
从总体中调查个人,每个被调查者从两类卡片中任取一张,并对所抽卡片上的问题做出真实回答“是”或“否”,设
个人回答“是”,得到
的估计量:
估计量的方差估计为:
沃纳模型设计的卡片和卡片
均为敏感性问题,受访者仍有回答负担;卡片
所占比例
不能等于1/2,否则会引起方差增大,同时不利于减轻受访者回答负担。
西蒙斯随机化回答模型是对沃纳随机化回答模型的改进,针对二项属性特征敏感性问题的抽样设计回答模型。西蒙斯随机化回答模型用无关问题代替沃纳模型中敏感性问题的对立问题,防止被调查者由于情绪紧张影响调查结果。设已知卡片所占比例为
,在已知
的情况,卡片
占比例
,卡片
占比例
。得到
及其方差的估计为:
西蒙斯随机化回答模型允许卡片所占比例可以等于1/2,即
,但事先必须知道卡片
所占比例
,卡片
的问题设计很重要,会影响被调查者的合作程度。
在实际的抽样调查中,除了属性特征的敏感性问题外,数量特征的敏感性问题也很常见,如某种犯罪的次数、偷税漏税的金额等。对这类敏感性问题的调查,估计的目标量是数量特征的平均数。常用的方法包括无关问题模型、加法模型和乘法模型。①无关问题模型。用对其它问题的回答来干扰真实的回答。②加法模型。被调查者给出的回答是敏感性特征的值与无关特征的值之和,其目的是用无关的数据干扰真实的数据,从而保护被调查者的隐私。③乘法模型。与加法模型类似,差别仅仅表现在被调查者给出的回答是敏感性特征的值与无关特征的值之乘积。以加法模型为例,且只考虑放回的简单随机样本情形。
记是敏感性数量特征的真实值,
是从已知的无关特征变量的分布中产生的随机值,均值分别为
和
,方差分别为
和
。目标量是
,假定
已知。记调查结果为:
。假设
与
独立,则
,
。
基于调查数据,可得
的无偏估计
为:
,其方差是
,而方差的一个无偏估计为
, 其中
,
分别是样本均值和样本方差。