“我不记得那时是几岁,但是我记得是坐在高椅上吮吸着大拇指,有人告诉我最好停止吮它,不然被吮的大拇指会变小。我把两手的大拇指并排看了很久,它们似乎是一样的,我对自己是说:我看不出被吮的那个大拇指比另一个小,我怀疑她在骗我。” ——K.皮尔逊 第六章 方差分析 本章对方差分析的含义、单因素方差分析、多因素方差分析的原理进行了介绍,具体要求:①了解方差分析的含义与内容体系;②掌握单因素方差分析的原理与方法及应用条件;③掌握多因素方差分析的原理与方法及应用。特别应该注意方差分析法在社会经济调查数据分析中的应用。 第一节 方差分析的一般问题 一、方差分析的含义 在许多实际问题中,某一指标的取值往往取决于其它一些因素。例如,一个化工产品的质量或性能指标取决于原材料的质地、成份、剂量、催化剂、温度、压力、溶剂浓度、反应、设备、人员水平、操作程序等因素;一种疾病的手术效果取决于疾患年龄、健康水平、疾病严重程度、手术条件、医生水平、综合治疗手段等;一门课程的教学效果受教学方法、教师素质、学生基础等因素影响;商店中一个产品的销售情况取决于产品的品牌、款式(包装形式或外形设计等)、材料、价格水平、商品陈列状况、顾客收入水平、顾客消费心理等多个因素;某个网站的访问量取决于网站主题类型、网页界面、网页内容丰富程度、响应速度、网民类型等众多因素。由于现象之间的联系是普遍的,因此这种影响因素关系是十分常见的。这就需要从统计上回答:这些因素对指标的取值影响是否都是显著的?这种影响是简单的叠加还是有交互影响效果在内?回答这些问题的统计技术便是方差分析。 方差分析(analysis of variance,通常简记为ANOVA)是著名统计学家在二十世纪二十年代前后提出并系统阐述的,早期在农业、生物领域获得应用,后来逐渐推广到医学、教学、心理、社会等众多学科领域,目前它已经成为数理统计中应用最广泛的几个研究方向之一,也是人文社科与自然科学研究及实践中分析调查或实验数据的重要工具之一。 一般来说,待分析的指标(对于调查类数据,即为我们所关心的现象数量表现,对于实验类数据,即为试验结果,也称试验指标)称为“因变量”或“响应变量”(dependent variable,通常用x或y表示),如上述诸例中化工产品的质量或性能指标、疾病的手术效果、课程的教学效果(譬如成绩)、商店中一个产品的销售额、网站的访问量等。调查或试验中需要考察的、可以控制的条件或影响因素称为因素或因子(factor,也称“自变量”,independent variable,通常用A、B、C等大写字母表示),因素所处的不同状态(即自变量的不同取值)称为水平(level,通常记为A(i=1,2,L,k)、B(=1,2,L,l)等表示)。显然,每个因素每一水平之下的调查结果ii或实验观察结果可以称为一个“组”,可以计算各组内部因变量的均值与方差,还可以计算因素之下全部观察结果的总平均以及组与组之间的方差。方差分析的基本思想就是从不同角度计算出有关的均值与方差,然后通过组内方差与组间方差的对比,在一定统计理论指导之下分析条件误差与随机误差,进而分解或判断出调查或实验观察数据中必然因素(因子)和偶 1
然因素(随机)的影响大小(即统计意义上的显著性)。 二、方差分析的类型 方差分析按影响分析指标的因素个数多少的不同,可分为单因素方差分析、双因素方差分析和多因素方差分析。 方差分析按分析指标(观察结果)中变量个数多少的不同,可分为一元方差分析(即通常所说的ANOVA)和多元方差分析(即MANOVA,Multivariate Analysis of Variance)。 从更加宽泛角度看,方差分析还包括“协方差分析”(Analysis of Covariance),以及基于自由分布理论的非参数方差分析。 三、方差分析的基本思想 下面我们通过一个实例来说明方差分析的基本原理。 【例6-1】阳光食品有责任有限公司(简称“阳光食品”)开发了一种新型儿童运动饮料(“酷酷爽”),设想了三种不同类型的包装形式:纸质真空包装、易拉罐、塑料瓶。九洲市场研究事务所受阳光食品的委托,采取了市场实验的方式取得有关数据:生产了三种包装方式的样品,在较有代表性的八个商店(分散在全市各主要区域,这些商店周边的顾客源即为该目标产品的潜在需求者)实行试销。为避免商品陈列位置差异对销售结果的影响,各商店在样品陈列高度要求一致、排列顺序随机变化。销售人员不作诱导性推销。试销一个月之后,各商店三种包装款式产品的销售量数据如表6-1所示。 表6-1 儿童运动饮品“酷酷爽”的试销量统计 单位:(件) 商 店(试销店) 产品包装类型 Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ Ⅶ Ⅷ 纸质真空(A) 152 188 238 192 180 115 125 100 1铁质易拉罐(A) 208 256 300 280 270 210 185 165 2塑料瓶(A) 182 198 268 220 200 128 110 105 3 研究人员需要回答:三种不同包装方式的销售量之间有没有显著差异?应该如何安排生产? 此例属于单因素方差分析问题。包装方式为因素(因子)A,相应的三种包装类型作为因子的三种不同状态即“水平”,记为A(i=1,2,3)。在同一种状态A下,调查了八个商店的销ii售量。销售量即为“试验指标”或“因变量”。显然,表6-1中24个数据的差异可以从两个角度解释:包装方式不同导致的销售量差异(如果存在的话,这需要统计上的检验)、商店之间条件的差异(这对于每个包装方式而言是公平的),这可以是看作是随机因素引起的误差。接下来需要回答的是:导致差异的主要因素是哪一个? 假设三种不同包装方式为三个不同的总体,即三组数据,假定销售量(试验指标)服从正态分布,则表6-1中三组数据分别是来自于正态总体的三组观测值。 要辨别随机误差和包装方式这两个因素中哪一个是造成销售量有显著差异的主要因素,这一问题可归结于判断三个总体是否具有相同分布的问题,从而有以下三种情况: 假设1:三组数据来自具有相同均值的正态总体(假设方差相等) 假设2:三组数据来自具有相同均值与方差的正态总体 假设3:三组数据来自具有相同方差的总体 实践中,人们通常只对假设1、假设2进行统计检验,特别是假设1的检验,即人们通常所说的“单因子方差分析”。 第二节 单因素方差分析 2
一、单因素方差分析的统计模型 单因素方差分析只考虑一个因素A对观察(试验)指标的影响,设因素A的r个水平记为A,A,…A,在水平A下进行n次重复试验(或观察n个样本单位),可获得观察(试验)12riii指标的n个数据:x,x,x,L,x(i=1,2,L,r) 。 第A(=1,2,L,r)水平之下各观察值可视ii1i2i3nii2为来自总体X(=1,2,L,r),且X服从正态分布,X与X(i≠j)相互独立,即X~ N(μ,σ)。 iiiijiX,X,…,X表示从总体X中抽取的样本,x,x,…,x是相应的观察值,于是就i1i2inii1i2in有表6-2所示的数据结构。 表6-2 单因素方差分析数据结构表 水平号 观察指标值 算术均值 方差 2A x x … x x s 1111121n112A x x … x x s 2221221n22… … … … … … … 2A x x … x x s rrr1r2rnrr 其中: nixx(i=1,2,L,r), ∑iijj=1ni212s=x−(i=1,2,L,r) (6-1) ()∑ijin−1j=1i我们可以提出两个基本假设: 假设1:总体X,X,…,X是相互独立的,且服从具有相同方差的正态分布,即有X 12ri22~N(μ,σ)(i=1,2,…,r),其中均值μ(i=1,…,r )和方差σ是未知的。 ii假设2:在各总体Y下,各X (j = 1,2,…,n)也是独立同分布的(正态分布),且有 iiij2X N(μ,σ)(i=1,…,r,j=1,…,n)。 iiji显然,对于表6-1中每一个实际观察值(试验结果)而言,其变化可以分解为三部分内rr1容:第一部分是“一般水平”,即μnμ (nn),它是指每一种包装方式之下在各∑∑iiin=1=1商店销售的一般水平(不考虑商店条件的差异,也不考虑包装方式的差异,是“基本销售量”)。第二部分为各包装方式不同导致的销售量的差异(如果存在差异的话),即α=μ−μ(i=1,2,L,r)。此外,剩余的部分差异可解释为随机误差,表现为不同商店之间销ii2售量的偶然性差异,用e=X-μ表示,通常假设其服从于均值为零方差为σ的正态分布。 ijiji 3
于是,单因素方差分析的基本统计模型就是把X分解为这三项内容的和,即为下面的线ij性模型。 X=μ+α+e,(i=1,2,L,r,j=1,2,L,n);ijiiji2e~N(0,σ),且诸e相互独立; (6-2) ijijrnα=0∑iii=1显然,要说明不同因子水平之下的观察(实验)指标值存在显著的差异,就是意味着要证明(6-2)中a不全为零。 i二、单因子方差分析的偏差平方和分解式 由(6-2)可知,X=μ+α+e(i=1,2,L,r,j=1,2,L,n),变换后即有: ijiijiX−μ=α+e (6-3) ijiij这是每一个观察数据对“基本水平”(总平均数)的偏差,对之求平方和,就有: nnrrii22(X−μ)=(a+e)∑∑∑∑ijiiji=1j=1i=1j=1nnrrriii2222(a+2ae+e)nα+2ae+e (6-4) ∑∑∑∑∑∑∑iiijijiiiijiji=1j=1i=1i=1j=1i=1j=1nnrrriinα+2(ae)+e∑∑∑∑iiiijiji=1i=1j=1i=1jni因e=X−μ,e=0(i=1,2,L,r),故(6-4)为: ∑ijijiijj=1nnrrr222(X−μ)=nα+e (6-5) ∑∑∑∑∑ijiiiji=1j=1i=1i=1j=1对于调查(实验观察)的样本数据而言,(6-3)~(6-5)中的μ,a,e均可由样本观察数iij据来表示,即: nnrrii1μ=x=xn,x=x,a=x−x,e=x−x ∑∑∑∑ijiijiiijijini=1j=1i=1j=1i于是,就有方差分析中最基本的“平方和分解公式”(Decomposition formula of sum square): nnrrii222(x−x)=n(x−x)+(x−x) (6-6) ∑∑∑∑∑ijiiijii=1j=1i=1i=1j=1nri22通常,记S(x−x)(总离差平方和) T∑∑ji=1j=1 4
r22Sn(x−x)(组间离差平方和) A∑iii=1nri22S(x−x)(组内离差平方和,或误差平方和) E∑∑jii=1j=1 则(6-6)简化为: 222S=S+S(总离差平方和=组间离差平方和+组内离差平方和) (6-7) TAE三、显著性统计检验 单因子方差分析实质上是多个正态总体差异性统计检验,其原假设的内容应该包括以下几种情况: H:μ=μ=…=μ (前提:方差相等) o12r (或写成:α=α…=α=0,前提:方差相等) 12r222H:μ=μ=…=μ 且σ=σ=L=σ o12r1r222 H: σ=σ=L=σ o1r本章只讨论第一种情况之下的检验问题。 2仔细考察(6-6)、(6-7)中各离差平方和的具体含义,S是所有数据到总样本均值的距T2离平方和,它是试验(调查观察)指标对中心位置的变化的总度量;S是每个观测数据与其E组内平均值的离差平方和,是所有随机误差造成试验(调查观察)指标变化的总度量,称为2误差平方和。S是组内样本均值x与总平均值x的离差加权平方和,它是反映因子的不同水Ai2平造成试验指标变化的总度量,因此也称S为系统误差。 A2显然,如果不同因素水平之下观察指标差异越大,也就意味着S越大,在总变差不变的A222情况之下,S越小。因此,若S显著大于S,说明各总体X之间的差异显著,那么H可能i0EAE2222不成立。用比值S/S用来刻划原假设H能否成立是是非常合适的:比值S/S越大,对原oAEAE22假设H越不利,当S/S比值大到超过一定标准时,就应该拒绝H(推翻原假设)。于是,ooAE22需要讨论S/S的统计分布。 AE2当H成立时,由于x N(μ,σ),则 0ii22nrix−x⎛⎞Sij2T~χn−1 (6-8) ()∑∑⎜⎟2σσi=1j⎝⎠ 5
r其中,n=n。 ∑ii=1又由于 2rSx−x2Ain()~χr−1 (6-9) ()∑i2σσi=1ni2x−x()∑ijij=12并且 χ(n−1),鉴于各样本之间相互独立,则由卡方分布的可加性可知:i2σnri2x−x()∑∑iji2Si=1j2E χ(n−r) (6-10) 2σσn的含义同上。 两个卡方分布分别除以各自的自由度之后的比值将服从F分布,即: 2S/(r−1)AF=~F(r−1,n−r), (6-11) 2S/(n−r)E2222有时,也记S=S/(r−1),S=S/(n−r),统称为均方误差。于是式(6-11)可以简化为: AEAE2SAF=~F(r−1,n−r). (6-12) 2SE在给定显著性水平α的情况之下,查F分布表值有F(r-1,n-r),若统计量值F超过这一1-a临界点,则拒绝原假设,认为样本均值之间不完全相同(存在显著差异),否则不能够拒绝原假设H0。 在实际进行单因素方差分析时,人们习惯把有关统计量及分析结果列在一张表中,此表称为“方差分析表”,如表6-3所示,分析结果一目了然.。 表6-3 单因素方差分析表 22方差来源 df(自由度) S(离差平方和)S(均方差) F值 p值(显著性水平)2SA222因素S=S(r−1)AF= r-1 S P AAA2SE222随机误差 n-r S S=S/(n−r)EEE2总 和 n-1 S T 表中三个平方和除采用(6-6)中的分解式计算外,也可按偏差平方和的展开式进行计算,公式如下: nnrrrrii22222222222S=nx−nx,Sx−nx,S=S+Sx−nx (6-13) A∑iE∑∑∑ijiTAEij−1=1=1=1【例6-2】试对例6-1数据进行单因子方差分析,回答“酷酷爽”三种不同包装方式销售 6
量的差异。 根据表6-1资料可计算有关中间结果如下: 3888xx=,r=3,n=3×8=24,x=x=,x=x=,∑∑ij1∑1j2∑2ji=1j=1j=1j=183222x=x=,nx=8×=,nx=24×=,3∑3∑jiij=1i=1nri2x=950917;于是: ∑∑iji=1j=1r222S=nx−nx=−= A∑ii−1nrri222Sx−nx=950917−= E∑∑∑jii=1j=1i=1222S=S+S=+= TAE2S/r−1() 2S/n− 表6-4 包装方式对销售量影响的单因素方差分析 显著性水平22方差来源 偏差平方和(S)df均方差F统计量值 (s)(Sig) 因素A(组间) 23, 2 11, 随机误差E(组内) 55, 212, 总 和 78, 23 表6-4反映了各个平方和的数值特征,当显著性水平取α=时,由F分布表可查得分位数值(临界点)是F(2,21)=,因F=>F(2,21)=,或Sig=<,所以拒绝拒绝H,即认为包装方式的不同对销售量的影响是显著的。 o当然,上述单因互方差分析过程只揭示了三个总体均值上存在的显著差异,却不能指出哪些总体之间的均值存在差异,且是假定总体总体服从等方差的正态分布,如果这一假定不成立,则检验统计量将不同。 要进一步分析不同处理水平之间的差异效果,需要进行多重比较。“多重比较”的方法有很多(且总体方差相等与总体方差不等的情况各有相应的多重比较方法),比较简单的做法是计算因素A在各种水平之下的水平效应值。 因素A的第i个水平效应αα=μ−μ 实际上反映了因素A的第i个水平对试验指标的()iii特殊影响。当假设检验结果判断因素A的各水平对试验指标的影响存在显著差异时,表明因素各水平效应不完全相同,可以从中选出效应值最优的水平作为实施方案。 7
α=1,2,L,r的点估计和各参数μ的置信区间的确定构成了这一分析的主要内容。显()iini1然,x=x是μ的无偏估计,即EY=μ,又因为: ∑ijiinj=1irr⎛⎞E(x)=Enxnμ=μ, ∑∑iiii⎜⎟nn⎝=1⎠=1记ˆa=x−xi=1,2L,r.,所以Eˆa=a,即ˆa=x−x是α=μ−μ的无偏估计量。构造统()iiiiiiii计量为: 2n−rσY−μ()Y−μii T==~tn−r (6-14) ()2Sσ/S/n(−1)EE各正态总体均值μ的置信度为1−α的置信区间: i22⎛⎞SSEE⎜x−tn−r,x+tn−r⎟(i=1,2Lr) (6-15) ()()iαia1−1−nn−rnn−r()()2i2i⎝⎠ 第三节 双因素方差分析 一、问题的提出 由于现象的复杂性,影响试验(调查)观察指标的因素往往不是一种,而是多种的。例如,影响销售量固然与包装形式有关,但价格水平也是有影响的,特别是当包装方式的差异对价格本身又有影响时,情况就变得更加复杂,而且,消费者年龄、性别、收入等方面的差异同样也是影响因素;又如,实验经济学中著名的“最后通牒”例子,双方“奖金分割”点协议的达成与文化背景、收入水平都有关系。双(多)因素方差分析方法就是研究两种(或多种)因素对试验(调查)观察指标影响程度的统计分析方法。本节只讨论两个因素的情形。 由于存在两个因素对试验(调查)观察指标的影响,各个因素的不同水平的搭配可能对试验(调查)观察指标产生新的影响,这种现象称为交互效应(interaction effect)。例如,上市公司绩效(观察指标)受企业所属行业类型、所在地区社会经济总体类型的影响。而由于不同地区产业布局、产业效益与社会经济水平所处阶段有关,因此行业类型与区域经济类型的交互状态也会影响到上市公司绩效。 【例6-3】为了认识客户消费时段特征,新开业的环山市旋门湾咖啡厅对开业八周的消费额按消费时段进行了复合分类统计,结果表6-5所示。我们假设没有季节性的差异,也假设消费群体结构不会产生较大的变动,假设其它因素可忽视。现在的问题归结为:消费额是否存在星期上的差异?这种差异主要表现为哪几天之间的差异?一天之内三个不同时段之间是否存在显著性差异?天时段与周时段之间是否存在交互影响?由于本例从两个角度对“时段”进行了划分,因此属于“双因素方差分析”。 由于是否考虑交互作用对方差分析结果的解释会存在较大差异,故下面分别加以讨论。 表6-5 旋门咖啡厅8周分时段营业收入统计 周日期 8
次 周一 周二 周三 周四 周五 周六 周日 1 4152 4852 3546 5456 3426 6124 5846 2 3968 4568 5541 4879 3895 6123 5680 上 3 4944 4795 5687 4598 3678 6856 5982 4 4852 4132 4752 5123 4894 7102 6892 午 5 4454 5423 5124 6811 3987 8951 8123 6 5914 5684 6412 5132 4102 9102 8741 7 4745 3654 5612 5456 4243 9581 8210 8 5981 3986 5781 4925 4410 9451 8652 1 6852 5112 5786 6105 3998 10124 9789 2 7167 5418 8841 5912 4213 12563 11752 下3 5144 5958 7682 5109 4318 10986 11012 午 4 4888 5702 5556 6200 5209 12107 13785 5 5784 6582 5879 6941 4125 13958 14843 6 6584 6511 6987 6100 4942 14129 12874 7 6475 6845 6555 7812 5109 13891 13290 8 7581 6124 7001 5261 5097 14121 14589 1 9852 8912 9978 9105 15918 16124 10100 晚2 10165 9741 11049 11591 15983 17569 10222 上 3 9142 9898 10054 9751 15719 14902 9055 4 9888 10095 9941 8912 15303 16139 11019 5 9912 11081 9875 8754 14789 13988 11980 6 10109 10055 9002 8288 14105 14373 11274 7 11075 11286 9915 10112 15666 14590 12290 8 12781 11029 9989 9123 16444 16879 11589 二、无交互作用的双因素方差分析 设有A、B两个因素影响实验(观察)结果指标。因素A有r个水平,因素B有s个水平,因素A、B的不同水平的每种组织都只作一次试验(观察),这种情况下,因素A、B之间没有交互作用。数据结构如表6-6所示。 表6-6 无交互作用的双因素方差分析数据结构 因素B A因素各水平 B B2 … B之下的均值 1SAx x … x1 11121s x. 1 因 Ax. x x … x221222s 2素 M M M M A M A x x … rB因素各水平之下的均值x x. x. … x. 12S 2假设x(i=1,2,…,r;j=1,2,…,s)之间相互独立,且x~Nμ,σ,则x=μ+e,(i=1,2…,r ; ij()ijijijijij 9
2j=1,2,…,s),其中e独立同分布,且e~N0,σ。 ()ijijrssrμμ,μμ,α=μ−μ,α0∑∑iji ∑ijii ∑irssi=1j=1j=1i=1 1μμ,β=μ−μ,β=0, jijj jjr称μ为总平均值,称α为因素A在水平i下对试验指标的效应值, β为因素B在水平j下ii对试验指标的效应值,则有基本模型如下: X=μ+α+β+e (6-16) ijijij或X−μ=+(μ−μ)+(μ−μ)+e (6-17) iji jij表现在样本上,就有: x−x=(x−x)+(x−x)+(x+x−x−x) (6-18) iji jiji jrssr其中xx,xx,xx。 ∑∑iji ∑ij ∑jijrssri=1j=1j=1i=1对(6-18)计算平方和,有: rsrsrsrs2222(x−x)=(x−x)+(x−x)+(x+x−−x)∑∑∑∑ ∑∑ ∑∑ijijiji ji=1j=1i=1j=1i=1j=1i=1j=1rsrs+2(x−x)(x−x)+2(x−x)(x+x−x−x) ∑∑i ∑∑ji iji ji=1j=1i=1j=1rs+2(x−x)(x+x−x−x)∑∑ jiji ji=1j=1 由于后三项为零,从而有: rsrsrsrs2222(x−x)=(x−x)+(x−x)+(x+x−−x) (6-19) ∑∑∑∑ ∑∑iji ∑∑jiji ji=1j=1i=1j=1i=1j=1i=1j=1采用与前面类似的记号,定义: rsrs2222S(x−x)x+rsx (6-20) T∑∑i∑∑jiji=1j=1i=1j=1rsrrsrs22222S(x−x)=s(x−x)=(x)−(x) (6-21) A∑∑i ∑i ∑∑∑∑ijijssi=1j=1i=1i=1j=1i=1j=1rsssrrs22222S(x−x)=r(x−x)=(x)−(x) (6-22) B∑∑ j∑ ∑∑∑∑jijijrsi=1j=1j=1j=1i=1i=1j=1rs22S(x+x−−x) (6-23) E∑∑iji ji=1j=1分别称为“总偏差平方和”、“因素A的偏差平方和”、“因素B的偏差平方和”、“误差的 10
偏差平方和”。(6-19)简化为: 2222S=S+S+S (6-24) TABE基于这一线性分解模型,方差分析的主要任务是:分析因素A和因素B对实验(调查)观察指标的影响大小。这一问题等价于以下两种假设: “因素A对试验指标影响不显著”等价于: H:μ=μ=L=μ 011 2 r “因素B对试验指标影响不显著”等价于: H:μ=μ=L=μ 02 1 2 s在总体分布的正态等方差性条件满足时,有: 2222SSSSTABE~χrs−1,~χr−1,~χs−1,~χr−1s−1 ()()()()()σσσσ于是,就有相应的F统计量: 22对于H,有:F=S/S (6-25) AE01 A22对于H,有:F=S/S (6-26) BE02B222222式中S=S(r−1),S=S(s−1),S=S(rs−s−r+1)。 AABBEE与单因素方差分析类似,通常也需要列出如表6-6所示的分析过程。 表6-6 无交互效应的双因素方差分析表 影响因素 偏差平方和 自由度 均方差F值 拒绝原假设的判断 2222F>F(r−1,rs−r−s+1) 因素A S r-1 F=S/SS AEAαAAA2222F>F(s−1,rs−r−s+1) 因素B S s-1 F=S/SBEABSα BB 22误 差 S rs-r-s+1 ES E 2总 和 S rs-1 T 【例6-4】取例6-3中第一周的数据进行无交互效应方差分析,分析时段对消费量的影响。 分时段的平均消费额如表6-7所示,根据(6-20)~(6-24)诸公式,可计算有关偏差平方和指标及F统计量,结果见表6-8。周时间为“B因素”(分一周七天),天时间为“A因素”(分为上、下、晚)。 表6-7 旋门咖啡厅营业第一周销售情况统计 B因素 时段 平均 周一周二 周三 周四 周五 周六 周日 A上午 41524852 3546 5456 3426 6124 5846 因下午 68525112 5786 6105 3998 10124 9789 素 晚上 98528912 9978 9105 15918 16124 10100 平均 69526292 11
rr2222S=S(r−1)=s(x−x)(r−1)=6(x−x)2AA∑i ∑i =1=1222=3×[()+()+()] =80584204ss2222S=S(s−1)=r(x−x)(s−1)=3(x−x)6BB∑ ∑j j=1=12=3×[()+()+L+()]/6 =75608802S的计算留给读者作练习。最后有关结果如表6-8所示。在显著性水平取5%时,因素AE是显著的,而因素B并不显著,即一天之内不同时段顾客的咖啡消费量存在显著的差异,但一周不同日子的咖啡消费量却无明显差异。 表6-8 无交互效应的双因素方差分析表 影响因素 偏差平方和 自由度均方差 F值 α=的显著性临界点因素A 2 因素B 6 7560880 误 差 12 4643544 总 和 20 13112811 三、有交互作用的双因素方差分析 对于双因素方差分析,更加一般化的情况是因素A与因素B之间存在着“交互效应”。即两个因素对实验(调查)观察指标的效应不是简单的叠加,而是存在相互作用。此类现象即为“有交互作用的双因素方差分析”。其基本数据结构如表6-9所示。不难看出,表6-9的数据结构与表6-5是不同的。当存在或需要考察交互作用时,两个因素的不同水平之下的组合都应该有若干个样本观察值。 表6-9 有交互作用的双因素方差分析数据结构 因素B B B …B 1 2 S Ax x L xx x ... xx x ... x 111111211n12112212n1s11s21sn因x x L xxx ... xx x ... xA 21121221n221 22222n2s12s22sn2素 …L...... M A x x L xx x ... xx x ... xr11 r12r1nr21r22r2nrs1 rs2rsnA r 表中的数据x表示因素A、B在第i(i=1,2,3,…r),、j(j=1,2,3,…s)个水平状态下第k ijk(k=1,2,3,…,n)个样本观测值。 假设在每一对的因素水平组合(A,B)中,样本容量相同(均为n)。与前面类似,也假设xijijk2分布的正态性、等方差性、组内独立性、组间独立性,即x~N(μ,σ)(k=1,2, L,n),则(6-16)ijkij的模型中就包含了一个“交互项”,即“有交互作用的双因素方差基本模型”为: 12
X=μ+e=μ+α+β+γ+e (6-27) ijkijijkijijijkrsrs2其中e~N0,σ,各e相互独立,α=0,β=0,γ=0,γ=0。 ()∑∑∑∑ijkijkijijiji=1j=1i=1j=1表现在样本上,就有: x−x=(x−x)+(x−x)+(x−x−x+x)+(x−x) (6-28) ijki j ij i j ijkij 公式中有关平均值的计算如下: rsn1全部数据的总平均:x=x (6-29) ∑∑∑ijkrsni=1j=1k=1sn1A因素i水平之下的组平均:xx(i=1,2,L,r) (6-30) i ∑∑ijknsj=1k=1rn1B因素j水平之下的组平均: xx(j=1,2,L,s) (6-31) ∑∑jjijkrni=1k=1n1(A,B)组合之下的组内平均:xx(i=1,2,L,r;j=1,2,L,s) (6-32) iji j ∑ijknk=1计算(6-28)式平方和,即有以下的方差分解式: 22222S=S+S+S+S (6-33) TABA×BE其中: rsn22S(x−x) (6-34) T∑∑∑ijki=1j=1k=1rsnr222S(x−x)=ns(x−x) (6-35) A∑∑∑i ∑i i=1j=1k=1i=1rsns222S(x−x)=nr(x−x) (6-36) B∑∑∑ j ∑ j i=1j=1k=1j=1rsnrs2S(x+−x−)n(x+−x−) (6-37) A×B∑∑∑ij i ∑∑jij i ji=1j=1k=1i=1j=1rsn22S(x−x) (6-38) E∑∑∑ijkij i=1j=1k=1基于(6-33)线性分解模型,方差分析的主要任务是:分析因素A和因素B对实验(调查)观察指标的影响大小,以及A、B因素交互作用对实验(调查)观察指标的影响大小。这等价于以下三种统计假设: “因素A对试验指标影响不显著”等价于: H:α=α=L=α=0 0112r 13
“因素B对试验指标影响不显著”等价于: H:β=β=L=β=0 0212s“因素A与因素B交互作用对试验指标影响不显著”等价于: H:γ=0(i=1,2,L,r;j=1,2,Ls) 03ij在总体分布的正态等方差性条件满足时,有: 222SSSTAB~χrsn−1,~χr−1,~χs−1()()()σσσ (6-39) A×B2E2~r−1s−1,~rsn−rs()()()于是,相应的F统计量分别为: 22对于H有:F=S/S F(r−1,rsn−rs) (6-40) AE01A22对于H有:F=S/S F(s−1,rsn−rs) (6-41) BE02B22对于H有:F=S/S F(rs−rs+1,rsn−rs) (6-42) A×BE03A×B其中有关“均方差”分别为: 22222222S=S(r−1),S=S(s−1),S=S(rs−s−r+1),S=S(rsn−rs) AABBA×BA×BEE与单因素方差分析类似,表6-10是分析的全过程。 表6-10 有交互效应的双因素方差分析表 方差来源 平方和 自由度 均方差F值 拒绝原假设的判断 2222F>F(r−1,rsn−rs) 因素A S r-1 F=S/S AEASAαAA2222F>F(s−1,rsn−rs) 因素B S s-1 F=S/S S BEBαBBB交互效应 2222F>F(rs−r−s+1,rsn−rs)S (r-1)(s-1) F=S/S SA×BαA×B AEA×BA×BA ×B 22误差 S rs(n-1) ES E2总和 S rsn-1 T 【例6-5】下面根据例6-2资料进行双因素方差分析(原始数据见表6-5)。 根据例6-2资料,可以计算相应的类平均与总平均,结果如表6-11所示。 表6-11 旋门咖啡厅营业八周后按“天时段”与“周时段”分组计算的平均销售量 时段 B因素x ij 总平均时段 周一x 周二x 周三x周四x周五x x周六x 周日x i i1 i2 i3 i4 i5 i6 i7 14
上午x A下午x 因 素 晚上x 日总平均 j 由(6-34)~(6-38)诸式,可计算出相应的偏差平方和、均方差等,结果如表6-12所示。 表6-12 咖啡消费量分时段的方差分析 F检验的5%显著方差来源 平方和 自由度均方差 F值 性水平的临界点 因素A(日时段) 1,062,668, 531,334, F(2,147)=因素B(周时段) 573,226, 95,537, F(6,147)=交互效应A×B 399,549, 33,295, F(12,147)=误差 155,037, 1,054, 总和 2,190,481, 经检验,因素A、因素B及两者的交互作用A×B对实验(观察)指标都有显著影响。即,一天之内的不同时段(上午、下午、晚上)咖啡消费量存在显著差异;周一至周日各天消费也不完全相同,存在显著差异,且一周七天不同时段咖啡消费量差异规律也不完全相同。 本例还可用进一步的多重比较分析。经过分析,发现上午、下午、晚上的消费量两两之间均不相同;周一、周二、周三、周四的日消费量无显著差异,但这四天与(周末)周五、周六、周日之间差异显著,且周末三天之间两两差异显著。有关多重比较的具体方法,读者参阅有关数理统计学教材或统计软件如SPSS。 本章小结: 1、方差分析是基于对观察数据的方差分解构造的一种线性因素分析模型。主要分析有关因素对观察指标的影响是否存在。无论是实验数据还是调查数据,都可以采用方差分析法进行研究。方差分析的原理也被应用于回归分析、试验设计等统计分支领域。 2、单因素方差分析是把总变差平方和分解成为组间变差平方和与剩余变差平方和两部分。组间变差平方和反映了因素变化对观察指标的影响,其值越大,表示因素不同水平之下的观察结果差异越大,剩余变差平方和则反映了随机因素影响。因此,组间变差平方和与剩余变差平方和之间的比值大小是衡量研究因素各水平对观察指标影响程度大小的重要统计22量。通过方差分析表,当统计量值F=SS超过给定显著性水平之下的临界点,则认为因AE素A对观察指标的影响是显著的,如果把A因素每一个处理(水平)看作是一个总体,则认为各总体在观察指标的平均水平上是存在显著差异的(不完全相同)。但必须注意的是,此时是假设各总体服从于具有相同的方差正态分布。如果总体方差齐性的假设不成立,则需要另外构造统计量。 3、双因素(因素A与因素B)方差分析根据是否考虑交互作用划分为两种情况。如果不考虑交互作用,则总偏差平方和可分解为因素A的偏差平方和、因素B的偏差平方和及随机 15
误差平方和。在正态性、等方差性、独立性等条件之下,可通过两个F统计量作假设检验,2222即F=SS、F=SS分别检验A因素、B因素各水平对观察指标的影响。如果考虑交AAEBBE互作用,则总偏差平方和可分解为因素A的偏差平方和、因素B的偏差平方和、交互因素的22偏差平方和及随机误差平方和。这时可通过三个F统计量作假设检验,即F=SS、AAE2222F=SS、F=SS分别检验A因素、B因素、AB交互因素对观察指标的影响。 BBEA×BA×BE4、方差分析思路还可以推广到多元情况,称为复方差分析(MANOVA)。基本思路与ANOVA类似。 练习与思考 一、判断题 1、方差分析的基本思想是把总方差分解成各个方差的和,然后分析各项方差的大小与占比。 2、在单因子方差分析中,随机误差项的偏差平方和除以总体方差之后是服从正态分布的。 3、在因子方差分析中,若拒绝原假设,则表明各总体的均值相互之间均不相同。 4、双因素无重复观察的数据,通常是假设不存在交互影响的,此时误差项平方和的自由度等于A因素平方和的自由度与B因素平方和自由度的乘积。 5、当存在交互影响时,双因素方差分析的交互项偏差平方和检验统计量是22F=SS。 A×BA×BE二、单项选择题 1、如果把一个样本按某一标志(因素)划分为m个不同的组(m大于2),然后考察某一随机变量在各组的取值情况,采用方差分析,意味着对以下原假设进行检验(μ为相应的平均i数)( ): :μ=μ=L=μH:∀μ≠μ(i≠j) :μ=μ=L=μH:∃μ≠μ(i≠j) :μ=μ=L=μ=0H:∀μ≠μ(i≠j) :μ=μ=L=μ=0H:∃μ≠μ(i≠j) 012k1ij012k1ij2、在双因子有交互作用的方差分析中,反映交互效应的基本偏差是( )。 (x−x) (x−x) ∑∑i j i=1j=(x+x−x−x) D.(x−x) ∑∑∑∑∑ij i jijkij i=1j=1i=1j=1k=1三、简答题 1、方差分析的含义是什么?有哪些类型? 2、单因素方差分析的变差平方和分解式是如何推导出来的?各项的分布是什么? 3、如何应用双因素方差分析?试举例说明。 4、双因素分析中无交互影响与有交互影响分析有什么区别?试举例说明。 四、计算题 1、某市场研究公司调查某省民营企业职工商业保险投保状态时,取得如下的数据(去年全年商业保险消费支出额:元): 按年龄分组 1 2 3 4 5 6 7 8 9 10 11 12 16
30岁以下 350 1500 820 28038915886521501020 350 14758 30-50岁 458 2350 1522 890868289718722802100 751 86082150岁以上 140 50 100 150102450284452350 120 45 120问:不同年龄段职工的商业保险费用支出水平是否存在显著差异?(取显著性水平α=)? 2、为提高大学数学的教学效果,某研究员提出了四种不同的数学教学辅助手段。现欲证明这些辅助手段对教学效果的改进是否存在显著差异,从当年一年级学生中抽取四个班级进行试验,学期结束考试成绩(卷面)如下表所示(每个班级抽取15名学生): 序号 方法1 方法2 方法3 方法4 1 89 85 89 68 2 95 86 98 69 3 82 78 95 67 4 65 89 96 69 5 45 90 94 89 6 68 87 93 99 7 95 88 85 95 8 90 65 86 87 9 88 60 87 82 10 78 98 86 65 11 65 95 82 48 12 68 48 81 49 13 78 65 80 78 14 79 77 78 86 15 81 89 75 88 问:(1)这四种辅助教学方法之下的教学效果是否存在差异?(显著性水平取5%) (2)为保证统计分析结论的可靠性,本例数据采集时有何要求? 3、研究人员从某省十五期间结项的自然科学基金项目中随机抽取部分项目进行绩效评估。采用设计的综合评价体系,获得有关项目的“相对绩效分值”(满分为100分)。研究人员认为,学校类型、项目类型等都可能会影响到科研项目绩效,请你在5%的显著性水平下分析这两个因素对科研项目绩效的影响。 学校 部属重点高校(211学校) 省属普通高校 省属高职学院 89,90,80,88,95,86,88,86,78,76,65,68,68,78,76,60,60,80,基础 94,95,90,85,82,84,78,90,88,76,74,68,65,70,66,50,58,80,研究 76,75,68,80,98,70,88,90,68,60,80,70,60,70,60,64,66,68,88,96 68,88 70,74 86,88,80,86,90,67,90,98,90,86,88,87,86,88,90,86,78,70,应用88,85,65,77,78,89,80,98,97,80,88,85,80,80,78,60,60,70,研究 90,86,88,90,90,78,90,78,80,89,98,68,50,60,66,80,88,56,88,90 80,82 68,70 4、某会计师事务所承接了多个企业的会计记帐工作,由于业务发展迅速。2006年初从某大学会计专业硕士研究生毕业生中招收了3名新员工,并且每人独立担任三家企业(事业单位、工业企业、商业企业)的会计记帐工作。半年后,事务所主管对这三位年轻人的记帐情况进行检查,计算相关的差错率(%)。经过两周的检查,结果如下表所示: 员工 事业单位 工业企业 商业企业 A B 17
C 请问:三位员工记帐的差错率是否存在显著差异?不同类型单位的会计记帐工作是差错率是否存在区别?(取显著性水平为5%) 人物介绍 卡尔.皮尔逊(Karl Pearson,1857~1936):英国著名统计学家。K.皮尔逊1879年毕业于剑桥大学数学系,1884年进入伦敦大学学院教授数学与力学,从此在该校工作一直到1933年。他27岁便当上了大学教授,39岁被选人英国皇家学会。40多年间,他一直处在科学的理智力量的最前沿。他的贡献和影响是多方面的:他的专业是应用数学、生物统计学和统计学,但他又是名副其实的历史学家、科学哲学家、民俗学和宗教问题的研究者、律师、社会主义者和人道主义者、优生学家、弹性和工程问题专家、教育改革家、伦理学家、受欢迎的教师、编辑和文学作品、人物传记的作者。K.皮尔逊的最重要学术成就,是为现代统计学打下了坚实基础,主要体现在这么几个方面:(1) 提出和研究了复相关、偏相关的问题;(2)提出了似然函数、矩估计方法;(3) 导出了重要的卡方分布;(4) 研究了许多概率分布曲线等。主要作品有《科学的规范》,《在进化论上的数学贡献》等。 18