统计与决策2007年5月(理论版)
摘 要:通过样本观察进行认识是统计方法的基本特征,在这一过程中,多大规模的样本才能符合
研究的需要,始终是个回避不了的问题。本文从估计精度要求出发,对总体参数估计时样本容量的确定
进行了讨论。
关键词:参数估计;样本容量;抽样推断
中图分类号: 文献标识码:A 文章编号:1002-6487(2007)05-0026-02
耿修林
(南京大学 商学院,南京 210093)
0 引言
样本容量是指按照某种规则从总体中抽取出来的样本
观察单位的数目。在进行抽样推断统计分析的时候,究竟抽
取多大规模的样本是个需要认真对待的问题。正如通常所认
识的一样,样本容量过小,虽然能够节约调查费用和后续的
数据分析成本,但其弊端是容易造成推断精度降低,统计推
断结果的概率把握程度下降。反过来,样本容量过大,虽然会
提高抽样估计的精度和分析结果的概率保证程度,但与此同
时会急剧增加调查费用。
影响样本容量的因素有很多,概括起来主要是:(1)总体
内部的变异程度,如果总体内部各单位的观察表现的差异程
度大,就需要多抽样本单位,以通过增加样本观察单位降低
推断分析的误差;(2)估计精度的要求,对估计精度要求高的
场合,应该多抽取样本,而对估计精度要求一般的情况,有理
由少抽取一些样本单位;(3)总体分布是否确知,即对总体调
查之前,有关总体知识了解的多少。对总体分布确知的时候,
样本统计量的抽样分布大多数可以推导出来,因而完全可以
运用精确分布进行小样本分析,与此相反,如果总体分布不
明确,根据大数定律,只能通过大样本进行推断;(4)概率把
握程度的要求,概率把握程度与抽样推断精度是一对矛盾的
统一体,前者要求大,则只能靠损失估计精度来达到,否则就
可以提高估计精度;(5)调查费用预算,如果预算充足,为增
加统计认识的充分性起见,可适当增加样本规模,否则可以
适当缩小观察的范围。在确定样本容量的时候,原则上要求
要系统考虑以上各个因素的影响。
总体参数推断的内容十分丰富,要想在一篇文章中将所
有这些方面的问题都讨论清晰实难做到,因此本文只在以下
两方面进行了讨论:(1)单总体均值估计时样本容量的确定;
(2)两总体均值差估计时样本容量的确定。
1 单总体均值估计时样本容量的确定
X1,X2,⋯,Xn为来自均值 μ、方差 σ2总体的简单随机样
本,样本均值为X=1
n
n
i=1
!Xi,样本方差 S2= 1n-1
n
i=1
!(Xi-X)2,1-
α为置信水平。
这种情况下的样本容量确定,可以有三种不同的做法:
第一种,根据认识的需要,事先规定抽样允许误差 ΔX。
此时应有:
PROB(|X-μ|≤ΔX)=1-α
并且存在:
ΔX=t
1-α
2
(n-1) σ
2
n
N-n
N-1# $% (1)
N为总体单位数目,由式(1)解出n:
n=
t
2
1-α
2
(n-1)σ
2
N
(N-1)Δ
2
X&+t
2
1-α
2
(n-1)σ
2
(2)
对t
1-α
2
(n-1)和 σ
2
,分别用 μ
1-α
2
、S2进行替代,则有:
n=
μ
2
1-α
2
S2N
(N-1)Δ
2
X&+μ
2
1-α
2
S
2
(3)
第二种,考虑费用约束下的估计量方差最小。对于这种
情况,可以构造非线性规划形式的决策分析模型:
minVAR(X)=σ
2
n
N-n
N-1# ’
+Cn≤B (4)
n≥0
式中,C0为固定调查费用,C表示样本单位的可变调查
费用,B表示调查总费用预算。
可以运用罚函数法求出样本容量 n,为此需要构造罚函
数:
P(n)=σ
2
n
N-n
N-1# ’+M[min(0,B-C0)-Cn]2+M[min(0,n)]2
由罚函数求解的外点法,得到:
n=C(B-C0)
C2+1
(5)
第三种,基于统计决策规则的样本容量的确定。按照这
样的要求确定抽样规模,一方面需要考虑调查费用,另一方
面还需要考虑估计精度不足所带来的损失。假定估计精度不
足的损失函数 l(ε)可以用X和 μ的离差绝对值来反映,即:
均值估计时样本容量的确定
理 论 新 探
26
统计与决策2007年 5月(理论版)
l(ε)=k|X-μ| (6)
系数k要求能用货币价值单位表示,并且是某个具体的
常数。这样得到:
Min
∞
-∞
! k|X-μ|(X-μ)|dX+c0+cn (7)
X-μ服从于N(0,n-1σ2)分布,根据反射正态分布的性质:
Minkσ(2
πn
)
1
2
+C0+Cn (8)
求关于n的一阶导数,并令其等于0,得到:
n=
kσ
2π" C
# $
23
" (9)
2 两总体均值差估计时样本容量的确定
X1,X2,⋯,Xn为来自均值 μX、方差为 σ
2
X总体的样本,Y1,
Y2,⋯,Ym为均值为 μY、方差为 σ
2
Y的另一总体的样本,且相互
独立,X、Y分别为两样本的均值,S
2
X、S
2
Y为两样本的方差。1-
α为置信水平,X-Y在用去估计 μY-μY时,样本容量的确定
可以分两种情况来讨论。
(1)σ
2
X、σ
2
Y未知,但 σ
2
X=σ
2
Y=σ
2。
这种情况表明,两个样本分别来自的总体具有相同的变
异水平。由抽样分布的定理:
(X%-Y%)-(μX-μY)
Sw
1
n
+1
M"
~t(n+m-2)
其中,Sw=
(n-1)S
2
X+(m-1)S
2
Y
n+m-2" 。
在置信水平1-α下,μX-μY的置信区间:
(X%-Y%)-t
1-α
2
(n+m-2)Sw
1
n
+1
m" ,(X-Y)+t1-α2(n+m-2)Sw 1n+1m"& $
(10)
抽样允许误差用 ΔX-Y表示,则有:
ΔX-Y=t
1-α
2
(n+m-2)Sw
1
n
+1
m" (11)
令n+m=v,则n=v-m,代入式(11):
ΔX-Y=t
1-α
2
(n+m-2)Sw
1
n
+1
m" =t1-α2(n+m-2)Sw 1(v-m)m" (12)
要使式(12)达到最小,只需(v-m)m取最大值,此时有 n=
m=。说明两个样本的观察数目相等时,才能保证抽样估
计精度最好。于是,式(12)可表示成:
ΔX-Y=t
1-α
2
(n+m-2)Sw
2
n" (13)
由式(13):
n=
2t
2
1-α
2
(n+m-2)S
2
w
Δ
2
X%-Y%
(14)
经过替代处理,得到:
n=m=
μ
2
1-α
2
S^
2
w
Δ
2
X%-Y%
(15)
其中,S^
2
w为两样本联合方差的 S
2
w估计,可以根据试抽样
的资料或相关的历史资料计算。
(2)σ
2
X、σ
2
Y未知,且 σ
2
X≠σ
2
Y。
在这种情形下,由抽样分布的定理知:
(X%-Y%)-(μX-μY)
S
2
X
n
+
S
2
Y
m"
~t(d') (16)
其中,d'= S
2
X
n
+
S
2
Y
m
& $
2
(S
2
X/n)
2
n-1
+
(S
2
Y/m)
2
m-1
& $
-1( )。那么,在
给定的置信水平下1-α,μX-μY的置信区间:
(X%-Y%)-t
1-α
2
(d')
S
2
X
n
+
S
2
Y
m" ,(X%-Y%)+t1-α2(d') S
2
X
n
+
S
2
Y
m"# *(17)
ΔX-Y表示抽样允许误差,则存在:
ΔX-Y=t
1-α
2
(d')
S
2
X
n
+
S
2
Y
m" (18)
对式(18),令n+m=v,则n=v-m,进行代入:
ΔX-Y=t
1-α
2
(d')
mS
2
X+(v-m)S
2
Y
(v-m)m" (19)
只有在 nSY=mSX成立时,式(19)才能达到最小。这样一
来便有:
m=
t
2
1-α
2
(d')SY(SX+SY)
Δ
2
X%-Y%
n=
t
2
1-α
2
(d')SX(SX+SY)
Δ
2
X%-Y%
(20)
用 μ1-α2替代t
2
1-α
2
(d'),则有:
m=
μ
2
1-α
2
SY(SX+SY)
Δ
2
X%-Y%
n=
μ
2
1-α
2
SX(SX+SY)
Δ
2
X%-Y%
(21)
3 小结
以上我们只对一元正态总体的均值估计时样本容量的
确定进行了相应的分析,关于总体均值估计时的样本容量的
确定尚有许多问题可以讨论,比如:二元正态总体均值向量
估计时的最优样本容量,由此推及到多元正态总体均值向量
估计时的样本容量确定,两个配对样本的抽样规模等。
参考文献:
[1][M].JohnWiley&Sons,1997。
[2][M].-
ton&Company,.
[3]周复恭,倪加勋等编著.应用数理统计学[M].北京:中国人民大学
出版社,1989.
(责任编辑/李友平)
理 论 新 探
27