敏感问题调查

1.引言

你经常抽大麻吗?你有过同性恋经历吗?你偷漏个人所得税吗?这些问题的肯定回答都是令人难堪的。事实上,当被问及这些问题时,许多人会勃然大怒,很可能断然拒绝回答。一些人认为这样的问题纯属私事或个人秘密,与他人无关。然而,这类问题很可能与他人有关。举例为证。考虑一支部队,军事长官想估计使用麻醉剂成病的军人的百分比。在此基础上,长官可以决定是否需要扩充戒毒计划。长官需要询问军人有关毒品的使用情况,必须设法得出有关毒品的使用这一敏感或私人问题的诚实的回答。

所有估计人类的有关数据的传统方法是基于人们能诚实地回答问题这一假设。一般说来,只要问题不涉及使人难堪的敏感的话题,大部分人的回答是诚实的。但若问题具有敏感性,使人感到难堪,则有可能得不到答案。

    随机回答法给出了一种使被问人放心的方法。虽然访问者能估计回答“是”或特定类型的人数,但访问者并不知道被问者所回答的内容。介绍本方法前,先给出几个基本的统计术语的定义。

2.定义

    统计推断可以定义为一类方法。用这些方法,我们用从一个样本获得的信息去推断总体。总体是具有某一为我们感兴趣的特征的所有可能考虑对象的集合。样本是总体的一个部分或子集。从大小为n的总体中抽取一个大小为n的样本。如果每一大小为n的样本均有相同的选取可能,则把这个抽样过程称为简单随机抽样,这样得到的样本叫做简单随机样本。给出总体某一信息的数值称为总体参数。例如,假定某人想研究某学院会计学专业学生的平均成绩,简记作GPA。所有的学生的GPA的集合是总体,会计学专业三年级学生的GPA构成一个样本。会计学专业所有学生中最高的GPA和会计学专业所有学生的平均GPA是两个总体参数。统计人员的一类重要工作是用从一个样本收集到的数据来估计总体参数。在上述例题中,我们可以在会计学三年级学生的GPA基础上估计会计学所有专业学生的平均 GPA。一般说来,会计学专业三年级学生的平均GPA不同于会计学所有学生的平均GPA。这是由于三年级学生的GPA仅代表总体的一部分。会计学专业三年级学生的平均GPA和会计学专业所有学生的平均GPA的差异便是抽样误差的一个例子。统计学家非常注意研究减少抽样误差的办法,然而本文中并不涉及到抽样误差。当某人在研究人类的行为时,提出的第二类问题是发生诸如不回答和不诚实回答之类的非抽样误差。随机回答法是减少这类非抽样误差的一种方法。 

3.随机回答法

当访问者主持一个敏感问题的调查碰到阻力时,他自然会做一些特别的努力以获得被问者的信任。如果问题不太敏感,这种信任也许会促进合作。然而,有许多话题使人一触即跳。

Warner建议,为了加强合作,可用另一种方法——随机回答法。这种方法基于“愈少泄漏问题的答案实质,愈能较好合作”的思想。被问者的答案仅仅提供概率意义下的信息,通过这些信息完成调查。Warner用这种方法对总体的比例作了估计。

现在我们来更详细地解释一下随机回答法。假定我们想要估计总体中具有某种敏感特征的人的比例。我们记具有这种敏感特征的人为团体A,也记为总体中属于团体A的比例。随机回答法的目的在于不直接问人们是否属于团体A而估计出来。为达此目的,访问者应备有一副牌作为随机装置,并知道其中有比例的牌标有数字1,其余的比例为l的牌标有数字2,除此以外,牌没有其它的区别。访问者从总体中选取一个大小为n的简单随机样本。对样本的n个人中的每一个人重复以下过程。被问者从洗好的整副牌中随便地选取一张,记下牌上的数字,数字不要让访问者看见。被问者面前有两个问题:

    问题1:我是团体A中的成员。

    问题2:我不是团体A中的成员。

    他要求按照所选的数字回答相应的问题。即,如果被问者所选的牌标有数字1,他回答“是”或“不是”来表明问题1对他来说是“真”或是“假”。类似的方式,如果被问者所选的牌标有数字2,他回答“是”或“不是”来表明问题的“真”和“假”。注意到访问者仅仅获得了“是”和“不是”的答案,他并不知道被问者回答的是哪个问题。然而,即使只知道“是”的回答数,访问者也能估计出来。我们引进下列的记号:

*:总体中属于团体A的比例。

    1*:总体中不属于团体A的比例。

    :选取一张标有数字1的牌的概率。

    1:选取一张标有数字2的牌的概率。

    :回答“是”的概率。

    m:回答“是”的个数。

    n:样本的大小。

    用概率论的加法和乘法定理,我们能写出访问者得到回答“是”的概率:

P(回答“是”)P(选取标有数字1的牌且回答“是”)

P(选取标有数字2的牌且回答“是”)

P(选取标有数字1的牌)*P(回答“是”∣选取标有数字1的牌)

P(选取标有数字2的牌)*P(回答“是”∣选取标有数字2的牌)

用上面的记号,我们有:                  1

为了估计*,我们先用答案“是”占样本的比例来估计。在此情形中,记m/n,用代替,解出方法(1)中的作为估计值这里:

                   2

    在列举随机回答模型的性质以前,我们考虑一个例题。

    1 一研究问题是估计某学院四年级学生在校期间某次期末考试的作弊的比例。有理由假定,大部分学生都不愿承认作弊的行为,所以,适合用随机回答法。研究者在这个学院的四年级班里选了200名学生的简单随机样本。随机牌里3/4标有数字1l/4标有数字2。给每个被问者下述两个问题。

    问题1:我在这次期考中作过弊。问题2:我在这次期考中没作弊。

然后要求被问者随机选取一张牌,依他抽到的数字相应地回答“是”或“不是”。对200名学生样本重复这个过程,研究者得到60个答案“是”。用方程(2),我们来估计在期考中作过弊的四年级学生的比例:

            

所以,我们估计有10%的四年级学生期考中作过弊。

    随机回答法不允许解释个人的回答。事实上,访问者无法知道被问者回答的是哪个问题。只要被问者相信这个事实,合作就会加强。

    被问者不要求直接回答他是否具有敏感的特征,要求回答的信息少于绝对信息,要求回答的多少取决于随机装置里的值。1/2时,由于方法(2)没有定义,也就给不出信息;而10时,给出的是完整的信息,等价于直接询问。对于介于1/21(或11/2)间的值,人们提供了他“是否属于团体A”的有用的、但非绝对的信息。

Warner证明了,在诚实地回答“是”和“不是”的假定下,是真实总体比例*的一个无偏估计。的方差由:      3

给出。运用这些事实,人们可以建立*的置信区间。在直接询问法的诚实性小于100%的假设下,Warner比较了随机估计和直接访问估计。他证明了在许多情形,随机回答法比常规方法(直接询问法)更具优势。具体地说来,如假定随机回答法中被问者诚实地回答,而常规方法(直接询问法)中诚实回答者有概率P1P2(P1是团体A中的成员诚实回答的概率,P2是非团体A中的成员诚实回答的概率)Warner比较了随机法和常规法的均方误差。他断言,对于P1P2 随机回答法的均方误差小于常规方法的均方误差。

4.不相关问题模型

    Warner的方法中,两个提问均涉及到了敏感特征。这一事实可能会引起人们的戒备,合作便会不充分。Simmons提出了一个Warner方法的改进。他认为这个方法利于加强合作。这个模型称为不相关问题模型。这种方法基于如下想法:向被问者提出一个无关紧要的问题,被问者可能在感情上会觉得更安全,因为作出回答时不能向访问者泄漏更多的信息。即在这个“匿名状态”的方法中,如果使用两个互不相关的问题,一个与敏感特征有关,另一个是非敏感条件,则人们的信任感就会增大。

    Simmons模型中,被问人员随机地选取下述之一问题进行回答:

    问题1:你是团体A的成员吗?

    问题2:你是团体B的成员吗?

    团体A仍然表示具有敏感特征的人,团体B可以选为非敏感或对人的名誉没有损害的团体。注意,团体A的成员资格并不排除团体B的成员资格,反之亦然。一个人可以不属于两者,也可以属于其中之一或二。选择团体B时应知道属于团体B的成员在总体中所占的比例。可以选择下列问题作为问题2

问题2a:你是四月份出生的吗?

问题2b:你的身份证号码的最后一位数是奇数吗?

问题2c:由你出生于本月中下述的哪一天:第一、二、三、四、五、六、七、八、九、或第十天?

上述每个问题都具有这样的特点:总体中属于团体B的比例要么是已知的,要么从前曾做过估计,如出生于四月份的人的比例可以由人口普查数据估计,身份证号码的最后一位数是奇数的比例是1/2

    下面继续讨论不相关问题模型。从总体中选取一个大小为n的简单随机样本。访问者备有Warner模型相同的随机装置,每个被问者从洗好的整副牌中随机地抽出一张,根据牌上的数字回答相应的问题。同样,问者仅能得到“是”与“不是”的答案。然而,他能用这些数据估计出“”来。

    我们再一次用概率论的基本结论写出:       4

这里,是回答“是”的概率,是成员属于团体A的概率,是成员属于团体B的概率,是选取敏感问题(即问题1)的概率。假定是已知的,我们就可以估计出的值。设m是大小为n的样本中回答“是”的个数,我们可以用m/n来估计,从方法(4)中解出,就可得到估计值,这里:

             0                   5

    我们先举一个应用不相关问题模型的例子,再列举一些该模型的性质。

    2 我们想估计某学院具有同性恋经历的女生的比例。大部分妇女毫不怀疑这个问题是私人秘密,不愿回答有关她们的性行为的问题。所以,我们应该用不相关问题模型得出的估计。向被问者提出如下问题:

问题1:你曾有过同性恋经历吗?   

问题2:你的身份证号码的最后一位数是偶数吗?

随机装置中3/4的牌标有1l/4的牌标有2。问及大小为100的简单随机样本,得到18个人回答“是”。这时等于1/2的估计由方法(5)给出,等于:

                  

所以,我们估计该学院有7%的女生有同性恋经历。

像随机回答法一样,不相关问题模型也不允许对个人的答案的解释。然而,属于敏感团体的成员的比例可以基于个人的答案而计算得出。同样,访问者也完全不知道被问者所选择的问题。所以合作会加强。我们可以期望与属于团体B的人有更好的合作,因为团体B是一个非敏感的团体,属于这个团体的人应能诚实地回答问题。(这一点与Warner模型不一样,Warner模型中的两个团体是互补的)。

我们也注意到,方程(5)对p1/2有定义。这样,我们可以使随机装置对每个问题都有相同的选取概率。让p1/2似乎是加强合作的另一条途径。

    Abernathy就北卡罗来纳城的人工流产问题的研究,描述了不相关问题模型使用的现场实验。估计的是1968年期间妇女作过人工流产的比例。作者对不相关问题模型的可用性作了重要的评论。用不相关问题模型调查人工流产问题的同时,还对2800名妇女问及了下列两个问题:

(A)   如果一个采访者,比如说我自己,问你的一个朋友,她是否作过人工流产,你认为她能诚实地回答我吗?

(B)   你相信别人会认为对盒子作了手脚,因而能揭穿他们回答的是哪个问题吗?(随机装置由装有红色和蓝色球的盒子构成。被问者摇动这个盒子,注意露在盒子小口上的球的颜色,由颜色决定你回答哪一个问题)。用不相关问题模型前先问问题(A),使用完这个模型后再问问题(B)。

就前一个问题,有67%的人给出否定的答案,17%的人给出肯定答案,16%的人不确定。这表明,若想获得敏感问题的数据,方法的选择是必要的。后面那个问题有20%的肯定答案,60%的否定答案,20%的不确定。这说明大部分人还是相信不相关问题模型的。

Greenberg等人在研究了不相关问题模型的理论基础,证明了当是已知的情况下,方程(5)给出了的一个无偏估计,方差为:   6

用这个事实,人们可以计算的置信区间。

    这篇文章也认为,在方差意义下,不相关问题模型比随机回答法更有效,因前者的方差小于后者的方差。DowlingShachtman证明了只要选得大于三分之一,对于都具有上述情形。

    值得注意的是,对于这两个模型,给出的估计可能会是负值或大于1。然而,对大样本,这种可能性是很小的。有些人还在讨论关于怎样改进估计法的问题。

5.随机回答法和不相关问题模型的使用

抽样调查的策划工作包括一些不同的环节。这些环节包括调查的准备、调查的实施、数据收集和最后的解释数据。本文涉及了抽样调查很重要的一小部分内容。我们讨论了旨在加强与被问者合作的方法。在这一节,我们要介绍实际调查中使用随机回答法和不相关问题模型的一些主要的注意事项。

首先提及的是访问者本身。访问者完全理解方法的原理、耐心地给被问者解释它的用法是至关重要的。这种理解有助于访问者向被问者逐渐灌输这样一种思想:无人知晓他回答的是哪个问题。这种思想自然可以加强合作。

接下来阐明的是随机装置。装置应尽可能简单。在试验开始前应允许被问者检查该装置。检查具有双重目的:一是使被问者相信装置里没有做手脚,二是使被问者明白怎样使用该装置。

另一个主要的注意点是问题的措词。访问者使被问者明白问题的含义是非常重要的。例如,在例2中,问题1问及同性恋行为。句子“有过同性恋经历”的意思应清楚地向被问者作解释。我们也应注意,如果我们想使用这些方法,要克服“语言上的错误”这个大问题。

    最后一点是不相关问题模型中无关紧要的问题的选择。有些问题尽管无关紧要,却有可能起不到加强合作的作用。例如,假定选取的问题是“你出生在新英格兰吗?”访问者可能可以通过一个人的口音判定被问者是否属于这个团体。利用这个事实和被问者对随机选取的问题的回答,访问者有可能判断出回答者是否属于敏感的团体。所以,应精心选取无关紧要的问题。

6.课堂上的建议

    应用这篇文章最好的方式是在课堂上进行一次涉及敏感问题的调查。如今,在校学生有许多这类有趣的话题。当学生得知统计方法能使他们得到敏感同题的诚实的回答时,许多人便对学习统计学产生了浓厚的兴趣。下面的引证来自高度概括了学生目睹了随机回答法的使用时的总的看法:“但是,X博士,你甚至都不认识我们,怎么知道我们中有多少人抽大麻?如果有人抽大麻,你怎么知道他回答了你的问题?如果统计学真有这等能力,我可能会为此而培养足够的兴趣去学点统计学!”

由于这能提高兴趣,我们认为在一个学期开始时应该用随机回答法作这种调查。在课堂上可以用很少的时间作这种实际调查。课堂上的时间不允许教师对每个学生作私人访问。所以教师要选取一个所有学生都能同时使用的随机装置。例如,大部分学统计的学生随手都有一张随机数表,这些数便可用来作随机装置。现在,调查可在课堂上铺开。教师在黑板上写上两个问题,引导学生选择一个两位的随机数。挑选的数小于75的回答问题1,否则就回答问题2。教师让所有回答“是”的学生举手,点一点手数,就可以算出该估计。看一看估计值与实际值相距多远是有用的。只要让学生直接回答(用某种无记名方法)该敏感的问题就能做到这一点。

另一个有趣的用法是让学生自己用随机回答法来作调查。为达此目的,很明显,学生必须理解本方法的原理。所以,学生必须具备基本的概率论基础和初步的抽样理论。具有更多的概率论知识的学生能在更高的数学层次上讨论这个模型。例如,人们可以看看,当n增大时,这些模型会发生什么情况。也可以就不同的n值比较估计的方差。

7.补充与问题

1 一大城市的“戒酒协会”希望确定过去一周内至少饮过一次酒的会员的比例。大部分会员都不愿意承认饮过酒,所以我们决定用随机回答法。随机装置由一副牌构成,0.8的牌标有10.2的牌标有2.问题是:

问题1:过去一周内我至少饮过一次酒。

    问题2:过去一周内我没有饮过酒。

    100个会员的随机样本中得到了35个“是”的答案。用这些数据,估计这个协会过去一周内至少饮过一次酒的会员的比例。

    2 (续问题1)找出95%的置信区间,是过去一周内饮过酒的会员的比例。(提示:利用n很大时,才有正态近似,均值为,方差由方程(3)给出等事实。注意我们可在方程(3)中用代替,估计的方差。)

3 大商店的经理希望估计不喜欢本职工作的雇员的比例。他决定就下面的问题使用不相关问题模型:

问题1:你喜欢你的本职工作吗?

    问题2:你的社会保险单上的号码的最后一位是奇数吗?

用完好的硬币作随机装置。雇员转动硬币,如果得到正面则回答问题1,如果得到反面则回答问题2。经理抽取了一个大小为300的随机样本,获得了100个肯定答案。估计这个商店不喜欢本职工作的雇员的比例。

    下面的问题更进了一步,具有微积分基础的统计人员足以解决这些问题。

    本章所提出的两个模型可与二项分布联系起来。如果我们用有返回的抽样,或假定样本的大小较总体的大小为小,则我们可以假定大小为n的样本中回答“是”的数目服从二项分布。更具体地说,回答“是”的数目服从带有参数n是回答“是”的概率)的二项分布。用这些事实,我们可以更深入地研究这些模型。

4 Warner模型中,证明的无偏估计。即证明。(提示

5 (续问题4)证明的方差由方程(3)给出(提示:Var(1)/n   

6  (a)用问题5的结论,证明的方差可以写成直接询问模型的方差同一个与随机化过程相应的项的和。注意:在直接询问模型中我们用X/n来估计,这里X是回答“是”的数目,n是样本的大小。利用二项分布,我们有EXn)=Var(X/n)(1)/n

(b) 解释在直接询问法可用(即人们愿意诚实地回答)的情况下,我们不用随机回答法的理由。

7 表示的估计。定义:估计的误差由给出。如果需要确保估计误差在一个给定的范围内,比较直接询问法与随机回答法所需的样本数。考虑0.53/4的特例。我们要求估计值与实际值的误差在0.05内,找出直接询问法和随机回答法所需的样本数。

8 证明在不相关问题模型中,是无偏的。

9 假定可应用二项模型,人们能容易地在统计量的基础上得出的置信区间。由于的线性函数,便可用代数运算得出的置信区间。找出95%的置信区间,这里。是不喜欢本职工作的雇员的比例(参见问题3)。

8.随机回答调查

想一想你的社会保险单的号码的最后一位数(如果你记不住或没有参加保险,想一想你家电话号码的第6位数)。当要求回答问题时,如果你的数字是0l23456就回答问题A,如果你的数字是789就回答问题B

问题A:你曾在考虑中作过弊吗?

问题B:你的数字是7或者8(而不是9)吗?