n
1
n
i 1
x n
1
试议抽样调查中的概率论
武 昇
(发表于《石河子科技》2008 年第 3 期)
概率论最基本的概念,是在社会和自然界中某一类事件在相同的条件下可能发生也可能
不发生,它的发生具有偶然性,这类事件称为随机事件或偶然事件,不同的随机事件发生的
可能性大小是不同的。也就是说概率是用来表示随机事件发生的可能大小的一个量。很自然
的把必然发生的事件的概率规定为 1,即肯定;并把不可能发生的事件的概率规定为 0,即
否定。而实际上一般随机事件的概率不是绝对的肯定或绝对的否定,而是介于 1 和 0 之间的
一个数,即可分出多个层次。概率越大表示事件发生的可能性也越大。
在统计学中,对应该全部调查的对象称为总体,而随机抽取的若干个体称为总体的样本。
用全部调查的结果虽然能够准确的反映事物的真实数目,但它的不足之处在于工作量大、花
费人力、物力多,时间也拖的过长,且在许多特定条件下也是不可能的。只能采取抽样调查
其中的一部分,获得事物的某些数据指标,进而推算总体,即用概率论的研究成果,通过样
本来分析和判断总体。这就是抽样调查方法。
由于各种偶然因素的影响是随机的,因此,在调查时的抽样也必须是随机的。只有这样,
才能比较有效地消除正负两方面偶然因素的影响,提高统计值的准确性。调查的数量越多,
偶然因素之间的相互抵消的就越彻底,总体的内在规律也就表现的越充分,这也是客观世界
的一个普遍规律。
归纳起来,随机抽样调查方法有两个显著的特点:
一是从原则上讲完全排斥了人民有意义的选择,不掺杂任何调查者的主观判断。也就是
说,抽中和抽不中完全是偶然的,每一个单位被抽取的机会是均等的。
二是在缺少资料的情况下,通过对部分单位的调查研究,获得某些数据,计算统计指标,
即可对事物的总体情况作出相当可靠的推算。
现在我们举一应用实例,来阐述整个抽样调查的全过程。兵团广播电视大学系统在我校
评估时,曾对某专业同一年级 94 名学生的学习成绩进行了抽样调查,是按整群非重复抽样
方法,抽取 7 名学生作为样本的。其考试成绩列入下表,并推算有关指标。
样本 分数 偏差 偏差的平方
编号 (xi) (xi – ) ( xi - )2
1 85 3 9
2 77 -5 25
3 80 -2 4
4 84 2 4
5 82 0 0
6 88 6 36
7 78 -4 16
∑ 574
样本的数字特征有:
样本平均数 。可表示样本各数的集中位置,它是代替总体指标一般水平的统计指标。若样
本为 x1,x2,、、、、xn 时。按式(1)计算。将已知数代入得:
= xi= 82(分)
x x
x
n
i 1
n
i
ix
1
n
i 1
u x u x
(1)
样本方差 S2 样本标准差 S。可表示样本中各数与集中位置的偏离程度。在抽样调查中占有
很重要的位置。当 n≤30 时为小样本,按式(2)(3)计算。将已知数代入得:
S2= ( xi - )2= (2)
S= = (3)
式中:
n ——抽取样本的个数
xi ——样本个体分数值
——样本个体分数值之和
n-1 ——t 分布的自由度。与时为大样本。N 比较大时,n 与 n-1 的差别是很小的,为简便起
见,可将 n 近似的代替式中的 n-1。
( xi - )2——样本个体偏差的平方和
抽样调查是一种非全面的调查,其数量特征同它的总体不完全相同,不同的样本将是不
同的样本的指标。所以,各样本平均指标之间存在着差异,与总体平均指标之间也存在着不
同程度的差异,这就是抽样误差。平均指标的抽样误差,是指所有的样本指标和总体指标的
平均离差,可按式(4)计算。
非重复抽样是将从总体单位中已随机抽取出来的样本单位除去,只从剩下的总体单位中
再抽取。即每个总体单位多只能被抽中一次,代表性就大,所以,平均指标的抽样误差就小,
精度就高。将已知数代入:
= =
当 N 很大时,N-5 与 N-1 差别是很小的,为简便起见,可将 N 近似的代替式中 N-1。
区间估计是根据样本指标和平均指标的抽样误差计算总体指标所在的范围,表示的是一个非
绝对准确的范围,即推断总体指标在这个范围内的判断不是十分肯定的,只有一定的把握
(概率)。那么,对已知的平均指标的抽样误差来说,总体指标落在估计区间的把握(概率)
究竟有多大呢?一般比较常用的是以 95%的把握(概率)作为区间估计,即 t 的取值为
,区间估计的把握程度(概率)按式(5)计算。
-t ≦ ≦ + t
将已知数代入得:
×≦ ≦82+× 79≦ ≦85
式中:
T——平均指标的抽样误差个数
——总体指标平均数
因此,我们可以得出这样的结论,某专业同一级的学生平均考试分数在 82 分左右,并
1-
1
n
x
n
1i
2)(
1-n
1
xxi
x
ux )1()1(
22
N
n
n
S
n
nN
n
S
x x x
x x
x
有 95%的把握(概率)推断总体平均考试分数在 79——85 之间。不难看出,扩大平均指标
的抽样误差,可以提高推断的把握程度(概率);反之,则降低推断的把握程度(概率)。即
平均指标的抽样误差范围的变化和作推断的把握程度(概率)之间是有着一定数量关系的。
搞抽样调查时抽取的样本单位应该大致是多少?这是调查者在制定方案时首先需要考虑的
问题。抽取的样本单位如果太少,估计值就可能不太准确,达不到所要求的精度;抽取的样
本单位过多,也有很多不足之处。因此,科学地抽取样本单位是很必要的。
假如,调查者认为总体学生平均考试分数推断结果近似为(82 3)分,即平均指标的抽样误
差为 时,已达到了所要求的精度,那么,就证明从总体 94 各学生中抽取 7 名作为样本
是合理的;又如,调查者认为平均指标的抽样误差尚未达到精度要求,而是总体学生平均考
试分数区间估计精度还要提高。设将总体学生平均考试分数区间估计控制在(82 2)分之间
时,那么,平均指标的抽样误差则为,按式(6)计算所需抽取的学生人数。将已知数代入
得:
= 36(人)
式中:
N——总体学生人数。94 人
L ——平均指标的允许抽样误差,
用同样方法也可推断出要求降低区间指标的估计精度。所需抽取的学生人数。
从以上计算结果看出,若从总体学生平均考试分数区间估计在(82 3)分之间的精度提
高到(82 2)分之间的精度时,虽然平均指标的抽样允许误差由 降到 ,降低了
%。但所需抽取的学生人数却由 7 人增加到 36 人,提高了 %。这就说明,它们之
间的变动副值是不成比例的。所以,在区间指标估计精度控制上需要慎之又慎,绝不可盲目
的追求高精度,否则将会造成极大的浪费。再者 t 的取值与相应的概率取值关系甚密,t 究
竟采用何值最好,要根据工作实际的需要而定。
实践证明,抽样调查方法产生的平均指标抽样误差,主要来自于三个方面:
一是受样本个体数量的影响。样本个体数量大代表性就强,误差就小;反之,代表性就
差,误差就大。
二是受样本个体结构的影响。样本个体结构与总体分类结构拟合性较好,误差就小,样
本个体结构偏离总体分布结构,误差就大。
三是受调查实际操作效果的影响。调查到的数据和资料,同实际情况有出入,是不真实
或不精确的。
平均指标抽样误差的产生是不可避免的,但若采取合理的有效措施,也是可以降低的。
pn 222
22
stNL
SNt
x
X