第十章 二重抽样
第一节 二重抽样综述
一、二重抽样的概念
二重抽样也称二相抽样。其基本做法是:对于一个大总体,先从总体中随机抽取一个较大的样本(第一重样本),由此估计有关总体的结构或辅助指标以及其他有关信息,为第二重抽样估计提供条件;然后再从第一重样本中随机抽取一个较小的样本(第二重样本),利用这第二重样本,对总体所研究变量进行抽样推断。
在某些情况下,也可在第二重样本中再抽第三重、第四重样本,由此形成多重抽样。其中二重抽样是最为常用的。
二、二重抽样的作用
在社会经济抽样调查中,二重抽样的主要作用有下列几方面:
第一,用于从总体所有基本单元中筛选确定出主调查对象。第二,用于经常性调查。第三,用于了解陌生总体内在结构或分布的大致情况,为抽样方法和抽样组织形式的选择提供依据。第四,为分层抽样推断提供层权资料。第五,为比率估计和回归估计提供辅助资料。第六,在经常性的多项目抽样调查中,用于解决不同调查项目需要不同样本容量的问题。第七,用于研究样本轮换中的某些问题。
第二节 二重分层抽样
一、二重分层抽样概述
在分层抽样中,我们要求总体各层的层权应事先已知,如果层权未知或不能事先确定,则分层抽样在精度上的得益可能会在很大程度上被抵消掉,此时,选择二重分层抽样可以较好地解决层权问题。
二重分层抽样是先在总体中随机抽取第一重样本n′,对这个样本各单元进行分层后求各层的层权,然后从第一重样本中用分层随机抽样法抽取第二重样本n,用于估计总体指标。由于第一重简单随机抽样,第二重分层抽样,故其误差同二重的抽样都有关。
二、估计量及其方差
总体均值估计量为
其中
为第一重样本第h层均值的无偏估计。
可以证明是总体均值的无偏估计量。
如果第一重样本是随机样本,第二重样本为第一重样本的随机子样本,则估计量的方差为
其中为第一重抽样之方差,为第二重抽样之方差。
以各层的样本方差代替各层的总体方差,以样本各层间方差代替总体方差,则可得方差的近似无偏估计量为
第三节 二重比估计与回归估计
一、二重比估计
在使用比估计量时,要求作为辅助变量的总体均值或总和应事先已知,但在实际中可能并不掌握关于辅助变量的资料,此时,就要考虑采用二重比估计的方法。
二重比估计的基本思路是先在总体中抽第一重样本用以估计总体辅助变量指标,再在一重样本中抽第二重样本按比估计法推断总体调查变量的数值。
用二重比估计法估计的一般形式为
其中,是总体比率R的有偏估计量,,因为是有偏的,故也为有偏的,但当n充分大时,为近似无偏的。当n′和n均为简单随机样本时,其方差为
当n为n′的子样本时,方差估计量为
科克伦曾经证明,在n′与n相互独立,且均为简单随机样本时,方差估计量为
显然:
①当n′远大于n时,两种估计之间的差异很小,并且当n是n′的子样本时的方差比n与n′相互独立时的方差要小。
②二重比估计的结果和都是有偏估计量,但随样本量的增大,这些偏差会减小,故它们是近似无偏的,且当n′较大时,二重比估计的精度比较高。
③当n′=N时,二重比估计的估计精度与一般的估计相同。但由于n′<N,故二重比估计的精度会低于一般比估计。当n=n′时,二重比估计的估计精度会低于简单随机抽样。原因是二重比估计增加了第一重样本关于辅助变量的误差。一般情况下,二重抽样中,n<n′。
④若第一重和第二重样本是各自独立抽取的,也即先从总体中抽取第一重样本n′,用以估计辅助信息,然后再从总体中,而不是从一重样本中,抽取第二重样本n,用以调查和推断总体研究变量,则其精度会更高,但抽样工作量却会大大增加。
二、二重回归估计
在使用回归估计量时,需要掌握有关辅助变量的资料,当其未知时,一个可行的办法是采用二重抽样加以估计。
二重回归估计的基本思路是先在总体中抽第一重样本作简单测试以估计辅助变量的总体资;再在第一重样本中抽取第二重样本用以对调查变量的总体指标进行估计。
二重回归估计可以采用多种形式,这里只涉及一元线性回归估计,此时,对总体均值的二重回归估计可采用以下形式
当n充分大时
其中
若n′和n均为简单随机样本,则估计量的方差为
当时,估计量的方差可按以下形式进行估计
其中
由此可见:
①若n′=N,则二重回归估计与一般回归估计的效果相同。若n′=n,则二重回归估计的估计效果同简单随机抽样的相同。因为,在一般情况下,回归估计优于简单随机抽样,所以,n′越大,则估计效果越好。
②相关系数ρ对抽样方差影响较大,ρ越大,抽样方差越小,所以有效地利用辅助变量,对提高抽样估计效果是很有帮助的。
③通常二重回归估计的估计精度是低于一般回归估计,原因是二重抽样中,以第一重抽样所估计的代替了总体,因而使抽样方差增加,故二重回归估计精度总比一般回归估计差。但当n′增大时,特别当,或者当=时,二重回归估计与一般回归估计精度一致。
三、二重分层估计、比估计和回归估计的比较
1、在回归估计中,一般要求调查变量与辅助变量之间要有很高的相关关系,并且用于辅助资料的费用很低,实际中,这些条件常常难以满足。另外,回归估计的计算过程远比比估计和分层估计要复杂。
2、比估计不是无偏的,一般比回归估计有较大的方差。
3、如果调查变量与分层变量是线性相关的,则按比例分层的得益与回归估计基本一致。此时,使用分层方法还是回归估计法取决于回归方法的计算量带来的费用和分层方法的分层费用的多少。
4、分层抽样常比回归和比率均值有特殊的优越性,特别是在调查变量与辅助变量为非线性关系时,按比例分层能得到更大的得益;若分层变量不是数值型时,分层方法仍然可以使用,而回归和比估计方法则不能用。
5、如果辅助变量的总体均值是已知的,则回归和比估计可以在独立于辅助变量的n次抽选的样本上进行,而在分层抽样中,样本n必须是第一重样本n′的子样本。