智库文档所有分类

均值估计时样本容量的确定.pdf

下载

Stingray66

2页 | 67.22KB | 1次下载 |

0.0

(0人评价)

我要评价：

投诉举报

用手机看文档

扫一扫,手机看文档

下载

开通VIP

统计与决策2007年5月(理论版) 摘要:通过样本观察进行认识是统计方法的基本特征,在这一过程中,多大规模的样本才能符合研究的需要,始终是个回避不了的问题。本文从估计精度要求出发,对总体参数估计时样本容量的确定进行了讨论。关键词:参数估计;样本容量;抽样推断中图分类号: 文献标识码:A 文章编号:1002-6487(2007)05-0026-02 耿修林 (南京大学商学院,南京 210093) 0 引言样本容量是指按照某种规则从总体中抽取出来的样本观察单位的数目。在进行抽样推断统计分析的时候,究竟抽取多大规模的样本是个需要认真对待的问题。正如通常所认识的一样,样本容量过小,虽然能够节约调查费用和后续的数据分析成本,但其弊端是容易造成推断精度降低,统计推断结果的概率把握程度下降。反过来,样本容量过大,虽然会提高抽样估计的精度和分析结果的概率保证程度,但与此同时会急剧增加调查费用。影响样本容量的因素有很多,概括起来主要是:(1)总体内部的变异程度,如果总体内部各单位的观察表现的差异程度大,就需要多抽样本单位,以通过增加样本观察单位降低推断分析的误差;(2)估计精度的要求,对估计精度要求高的场合,应该多抽取样本,而对估计精度要求一般的情况,有理由少抽取一些样本单位;(3)总体分布是否确知,即对总体调查之前,有关总体知识了解的多少。对总体分布确知的时候, 样本统计量的抽样分布大多数可以推导出来,因而完全可以运用精确分布进行小样本分析,与此相反,如果总体分布不明确,根据大数定律,只能通过大样本进行推断;(4)概率把握程度的要求,概率把握程度与抽样推断精度是一对矛盾的统一体,前者要求大,则只能靠损失估计精度来达到,否则就可以提高估计精度;(5)调查费用预算,如果预算充足,为增加统计认识的充分性起见,可适当增加样本规模,否则可以适当缩小观察的范围。在确定样本容量的时候,原则上要求要系统考虑以上各个因素的影响。总体参数推断的内容十分丰富,要想在一篇文章中将所有这些方面的问题都讨论清晰实难做到,因此本文只在以下两方面进行了讨论:(1)单总体均值估计时样本容量的确定; (2)两总体均值差估计时样本容量的确定。 1 单总体均值估计时样本容量的确定 X1,X2,⋯,Xn为来自均值 μ、方差 σ2总体的简单随机样本,样本均值为X=1 n n i=1 !Xi,样本方差 S2= 1n-1 n i=1 !(Xi-X)2,1- α为置信水平。这种情况下的样本容量确定,可以有三种不同的做法: 第一种,根据认识的需要,事先规定抽样允许误差 ΔX。此时应有: PROB(|X-μ|≤ΔX)=1-α 并且存在: ΔX=t 1-α 2 (n-1) σ 2 n N-n N-1# $% (1) N为总体单位数目,由式(1)解出n: n= t 2 1-α 2 (n-1)σ 2 N (N-1)Δ 2 X&+t 2 1-α 2 (n-1)σ 2 (2) 对t 1-α 2 (n-1)和 σ 2 ,分别用 μ 1-α 2 、S2进行替代,则有: n= μ 2 1-α 2 S2N (N-1)Δ 2 X&+μ 2 1-α 2 S 2 (3) 第二种,考虑费用约束下的估计量方差最小。对于这种情况,可以构造非线性规划形式的决策分析模型: minVAR(X)=σ 2 n N-n N-1# ’ +Cn≤B (4) n≥0 式中,C0为固定调查费用,C表示样本单位的可变调查费用,B表示调查总费用预算。可以运用罚函数法求出样本容量 n,为此需要构造罚函数: P(n)=σ 2 n N-n N-1# ’+M[min(0,B-C0)-Cn]2+M[min(0,n)]2 由罚函数求解的外点法,得到: n=C(B-C0) C2+1 (5) 第三种,基于统计决策规则的样本容量的确定。按照这样的要求确定抽样规模,一方面需要考虑调查费用,另一方面还需要考虑估计精度不足所带来的损失。假定估计精度不足的损失函数 l(ε)可以用X和 μ的离差绝对值来反映,即: 均值估计时样本容量的确定理论新探 26 统计与决策2007年 5月(理论版) l(ε)=k|X-μ| (6) 系数k要求能用货币价值单位表示,并且是某个具体的常数。这样得到: Min ∞ -∞ ! k|X-μ|(X-μ)|dX+c0+cn (7) X-μ服从于N(0,n-1σ2)分布,根据反射正态分布的性质: Minkσ(2 πn ) 1 2 +C0+Cn (8) 求关于n的一阶导数,并令其等于0,得到: n= kσ 2π" C # $ 23 " (9) 2 两总体均值差估计时样本容量的确定 X1,X2,⋯,Xn为来自均值 μX、方差为 σ 2 X总体的样本,Y1, Y2,⋯,Ym为均值为 μY、方差为 σ 2 Y的另一总体的样本,且相互独立,X、Y分别为两样本的均值,S 2 X、S 2 Y为两样本的方差。1- α为置信水平,X-Y在用去估计 μY-μY时,样本容量的确定可以分两种情况来讨论。 (1)σ 2 X、σ 2 Y未知,但 σ 2 X=σ 2 Y=σ 2。这种情况表明,两个样本分别来自的总体具有相同的变异水平。由抽样分布的定理: (X%-Y%)-(μX-μY) Sw 1 n +1 M" ～t(n+m-2) 其中,Sw= (n-1)S 2 X+(m-1)S 2 Y n+m-2" 。在置信水平1-α下,μX-μY的置信区间: (X%-Y%)-t 1-α 2 (n+m-2)Sw 1 n +1 m" ,(X-Y)+t1-α2(n+m-2)Sw 1n+1m"& $ (10) 抽样允许误差用 ΔX-Y表示,则有: ΔX-Y=t 1-α 2 (n+m-2)Sw 1 n +1 m" (11) 令n+m=v,则n=v-m,代入式(11): ΔX-Y=t 1-α 2 (n+m-2)Sw 1 n +1 m" =t1-α2(n+m-2)Sw 1(v-m)m" (12) 要使式(12)达到最小,只需(v-m)m取最大值,此时有 n= m=。说明两个样本的观察数目相等时,才能保证抽样估计精度最好。于是,式(12)可表示成: ΔX-Y=t 1-α 2 (n+m-2)Sw 2 n" (13) 由式(13): n= 2t 2 1-α 2 (n+m-2)S 2 w Δ 2 X%-Y% (14) 经过替代处理,得到: n=m= μ 2 1-α 2 S^ 2 w Δ 2 X%-Y% (15) 其中,S^ 2 w为两样本联合方差的 S 2 w估计,可以根据试抽样的资料或相关的历史资料计算。 (2)σ 2 X、σ 2 Y未知,且 σ 2 X≠σ 2 Y。在这种情形下,由抽样分布的定理知: (X%-Y%)-(μX-μY) S 2 X n + S 2 Y m" ～t(d') (16) 其中,d'= S 2 X n + S 2 Y m & $ 2 (S 2 X/n) 2 n-1 + (S 2 Y/m) 2 m-1 & $ -1( )。那么,在给定的置信水平下1-α,μX-μY的置信区间: (X%-Y%)-t 1-α 2 (d') S 2 X n + S 2 Y m" ,(X%-Y%)+t1-α2(d') S 2 X n + S 2 Y m"# *(17) ΔX-Y表示抽样允许误差,则存在: ΔX-Y=t 1-α 2 (d') S 2 X n + S 2 Y m" (18) 对式(18),令n+m=v,则n=v-m,进行代入: ΔX-Y=t 1-α 2 (d') mS 2 X+(v-m)S 2 Y (v-m)m" (19) 只有在 nSY=mSX成立时,式(19)才能达到最小。这样一来便有: m= t 2 1-α 2 (d')SY(SX+SY) Δ 2 X%-Y% n= t 2 1-α 2 (d')SX(SX+SY) Δ 2 X%-Y% (20) 用 μ1-α2替代t 2 1-α 2 (d'),则有: m= μ 2 1-α 2 SY(SX+SY) Δ 2 X%-Y% n= μ 2 1-α 2 SX(SX+SY) Δ 2 X%-Y% (21) 3 小结以上我们只对一元正态总体的均值估计时样本容量的确定进行了相应的分析,关于总体均值估计时的样本容量的确定尚有许多问题可以讨论,比如:二元正态总体均值向量估计时的最优样本容量,由此推及到多元正态总体均值向量估计时的样本容量确定,两个配对样本的抽样规模等。参考文献: [1][M].JohnWiley&Sons,1997。 [2][M].- ton&Company,. [3]周复恭,倪加勋等编著.应用数理统计学[M].北京:中国人民大学出版社,1989. (责任编辑/李友平) 理论新探 27

联系我们

智库文档公众号

客服微信

均值估计时样本容量的确定.pdf

下载

标签

联系我们

意见反馈