第八章 方差分析 第八章 方差分析 对于工农业生产的每一种产品,影响它们指标的因素都是众多的。了解哪些因素对产品质量或产量等指标有显著影响对于管理者来说显然很有意义。检验某个(或某些)因素对产品指标有无显著影响就是检验在这个(或这些)因素的作用下,产品指标的均值是否相等(即在统计意义上相等)。我们要了解哪些因素对产品有影响就要进行试验,取得试验结果(数据),然后进行分析。 进行试验(实验)时,我们称可控制的试验条件为因素(Factor),因素变化的各个等级为水平(Level)。如果在试验中只有一个因素在变化,其它可控制的条件不变,称其为单因素试验;若试验中变化的因素有两个或两个以上,则称为双因素或多因素试验。根据试验结果,怎样找出有显著作用的因素,以及找出在怎样的水平和工艺条件下能使指标最优以达到优质和高产的目的,这就是方差分析(Analysis of Variance 简称ANOVA)所要解决的问题。 方差分析的原理 我们通过例题来说明方差分析的基本统计思想。 [例 ] 某公司计划引进一条生产线。为了选择一条质量优良的生产线以减少日后的维修问题,他们对6种型号的生产线作了初步调查,每种型号调查4条,结果列于表8-1。这些结果表示每个型号的生产线上个月维修的小时数。试问由此结果能否判定由于生产线型号不同而造成它们在维修时间方面有显著差异? 表 8-1 对6种型号生产线维修时数的调查结果 序号 1 2 3 4 型号 A型 B型 C型 D型 - 121 -
第八章 方差分析 E型 F型 在这里,我们所研究的指标就是维修时间,记作Y,通常假定它是一个服从正态分布的随机变量。控制因素是生产线的型号,分为6个水平即A,B,C,D,E,F,把每个水平所对应的指标看成一个总体Y(i=1,2,⋅⋅⋅,6)。现i在的试验就是进行调查,每种型号调查4条,相当于每个总体中抽取一个容量为4的样本,得到的数据记作y(i=1,2,…,6;j=1,2,3,4),即为表8-1中ij数据。 计算各样本平均数y如下: i型号 A B C D E F − y i要想比较各种型号生产线的维修时间是否显著相等,可以用第六章中两个总体平均值比较的检验法,把样本平均数两两组成对: −−−−−−−−−−y与y,y与y,…y与y,y与y,…, y与y,共有12131623562(C=15)对。将这15对平均数一一进行比较检验,工作量显然比只有两个6样本的情况繁重的多。此外即使每对都进行了比较,并且都以的置信度得出每对均值都相等的结论,但是由此要得出这6个型号的维修时间的均值15都相等。这一结论的置信度仅是()=.对假设检验来说,这个置信度太小了,这样的方法是不能采用的。所以当我们比较两个以上的样本平均数,检验这些样本是否来自同一总体时,还需要另外的方法. 按照统计假设检验的原理,在上例中原假设是:不同型号的生产线平均维修时间是相同的。如果这个原假设为真,那么各型号的样本平均数之间的变异程度就不可能太大。因此我们考虑应该使用方差或观测值的偏差平方和的概念来进行检验。 方差分析的基本原理依据的就是上述统计思想,即: (1)将数据总的偏差平方和按照产生的原因分解成由因素的水平不同引 起的偏差平方和以及由试验误差引起的偏差平方和两部分, (总的偏差平方和)=(由因素水平引起的偏差平方和)+(试验误差平方和) - 122 -
第八章 方差分析 (2)上式右边两个平方和的相对大小可以说明因素的不同水平是否使得各平均值(各型号的平均维修时间)产生显著性差异,为此需要进行适当的统计假设检验。 单因素试验的方差分析 数学模型和数据结构 在单因素试验中,为了考察因素A的k个水平A,A,...,A对指标Y的12k影响(如第k种型号对维修时间的影响),设想在固定的A条件下作试验。所i有可能的试验结果组成一个总体Y,它是一个随机变量.可以把它分解为两i部分 Y=μ+ε (8-1) iii其中,μ纯属A作用的结果,称为在A条件下Y的真值(也称为在Aiiiii条件下Y的理论平均).ε是实验误差(也称随机误差),是服从正态分布的ii随机变量.如果在独立地进行试验过程中,除A,A,...,A不同外,其余条件12k均不变,那么ε,ε,…,ε就应该是独立同分布的随机变量.即 12k2ε~N(0,σ) (8-2) i2因为 E(Y)=μ, D(Y)=D(ε)=σ, iiii2故 Y~N(μ,σ) ii2其中,μ和σ都是未知参数(i=1,2,…,k). i为了估计和检验上述参数,就要做重复试验.假定在水平A下重复做 mi次试验,得到观测值Y,Y,...,Y(为方便起见,不再与小写字母i1i2imy,y,..,y加以区别,也可以表示数值),这相当于从第i个正态总体i1i2im- 123 -
第八章 方差分析 2N(μ,σ)(i=1,2,…,k)中,随机抽取一个容量m的样本列成下表. i 表8-2 不同水平条件下重复试验结果 1 2 … j … m 合计 平均 … … A Y Y Y Y T Y 111121j1m11… … A Y Y Y Y T Y 221222j2m22… … … … … … … … … … … A Y Y Y Y T Y ii1i2ijimii… … … … … … … … … … … A Y Y Y Y T Y kk1k2kjkmkk 表8-2中 m1 Y=Y (i=1,2,…,k) (8-3) i∑ijmj=1表中,Y表示在A条件下第j次试验的结果,用式子表示就是 iji Y=μ+ε (i=1,2,…,k j=1,2,…,m) (8-4) ijiij这里值得注意的是:每次试验结果只能得到Y,而(8-4)式中的μ和ijiε都不能直接观测到。 ij为了便于比较和分析因素A的水平A对指标影响的大小,通常把μ再ii分解为 μ=μ+α (i=1,2,…,k) (8-5) ii k1其中,μ=μ称为一般平均(Grand Mean),它是比较A作用大小∑iiki=1的一个基点,并且称 α=μ−μ ii- 124 -
第八章 方差分析 为第i个水平A的效应。它表示水平A的真值μ与一般水平μ相差iii多少。α,α,...,α满足约束条件 12k α+α+⋅⋅⋅+α=0 (8-6) 12k把上式代入前式中,得 Y=μ+α+ε; α=0 (i=1,2,…,k)(j=1,2,…,m) ∑ijiiji在单因素试验的方差分析中,常采用这种分解式,并称满足条件α+α+⋅⋅⋅+α=0的μ=μ+α (i=1,2,…,k)为单因素方差分析的12kii数学模型,称(8-6)式为数据结构方程,称μ,α,α,....,α为模型参数。 12k单因素方差分析要解决的问题是: 2(1) 找出参数μ,α,α,....,α和σ的估计量; 12k(2) 分析观测值的偏差; (3) 检验各水平效应α,α,...,α有无显著差异。 参数点估计 2我们将用最小二乘法求参数μ,α,α,....,α的估计量,然后寻求σ的12k无偏估计量. 我们希望所求参数μ,α,α,....,α的估计值能使在水平A下求得的12ki观测值Y与真值μ之间的偏差尽可能小。为满足此要求,一般考虑用最小iji平方和原则,也就是使观测值与真值的偏差平方和达到最小。由(8-4)可知,此偏差平方和就是随机误差平方和(记作S )可以表示为 εkm222 S=ε=(Y−μ)=(Y−μ−α) ε∑∑ij∑∑iji∑∑ijii=1j=1根据以上原则,求使S达到最小值的解,将该解作为参数的估计值。 ε根据极值的必要条件,令下列各偏导数为零,并解方程组 - 125 -
第八章 方差分析 ∂S∂Sεε =0, =0 (i=1,2,…,k) ∂μ∂αi∂Sε由 =−2[(Y−μ)−α]=0 ∑∑ij∑∑i∂μ1解得 μˆ=Y=Y (8-7) ∑∑ijkm由 m∂Sε =−2(Y−μ−α)=0 ∑iji∂αj=1im1解得 αˆ=Y−μ=Y−Y (8-8) ii∑ijmj=1并由此得μ的估计量 iˆˆˆ μ=μ+α=Y iii至此,求得参数μ﹑α和μ的估计量 iiˆ μ=Y, αˆˆ=Y−Y, μ=Y (8-9) iiii按照上述原则求参数估计量的方法称为最小二乘法,ˆμ﹑αˆ和ˆμ称为ii最小二乘估计量。 我们还可以证明ˆμ﹑αˆ和ˆμ分别是参数μ﹑α和μ的无偏估计量。 iiii将μ和α分别用它们的估计量代替,可以得到试验误差ε的估计量e, iijij e=Y−Y (8-10) 分解定理与自由度 为了从观测值的偏差中分析出各水平A的效应,我们研究三种偏i差:Y−Y,Y−Y和Y−Y。根据前面参数估计的讨论,它们分别表示对iiijij- 126 -
第八章 方差分析 Y−μ,α和ε的估计。关于这三种偏差的平方和有下述定理: ijiijkmkkm222定理 (Y−Y)=m(Y−Y)+(Y−Y) (8-11) i∑∑ij∑i∑∑iji=1j=1i=1i=1j=1证: 左边 Y−Y=(Y−Y)+(Y−Y) iiijij两边平方后 222 (Y−Y)=(Y−Y)+2(Y−Y)(Y−Y)+(Y−Y) iiiiijijij依次对i,j求和,得 kmk22右边第一项 (Y−Y)=m(Y−Y) i∑∑∑ii=1j=1i=1第二项为0,因为 m (Y−Y)=0 i∑ijj=1代入上式,定理证毕。 2令 S=(Y−Y), T∑∑ij2S=m(Y−Y), A∑i2S=(Y−Y) iE∑∑ij则分解定理(8-11)可写成 S=S+S (8-12) TAE上式中S称为总偏差平方和,它反映了全部数据Y相对于Y的差异和Tij离散程度。将它分解为S和S两部分。 S称为误差平方和(或组内平方AEE和),它仅仅反映实验误差的大小;S称为因素A的效应平方和(或组间平方A和),它除了反映因素A各个水平效应的差异程度外,实际上还包含有试验误差,关于这一点下面还要进一步解释。 - 127 -
第八章 方差分析 2平方和的自由度是指和式中独立项的项数,是与χ分布自由度的意义相一致的。但当平方和的各项间有r个约束条件时,自由度应是项数减r。 现在计算各平方和S,S及S的自由度: TAES的自由度f=km−1,因为它的项数是km,有一个约束条件(8-7) TTS的自由度f=k−1,因为它的项数是k,有一个约束条件: AA m(Y−Y)=0 i∑S的自由度f=km−k=k(m−1),因为它的项数是km,有k个约束EE条件(8-3)。 容易看出,自由度之间也有类似于分解定理的关系,即 f=f+f (8-13) TAE定理:S和S的期望值分别是 EA2(1) E{S}=k(m−1)σ (8-14) Ek22 (2) E{S}=(k−1)σ+mα (8-15) A∑ii= 显著性检验 单因素方差分析中参数的假设检验是在以下假设条件下进行的: (1) 表8-1中的观测值Y(i=1,2,…,k;j=1,2,…,m)是相互独立的; ij2(2) 在水平A条件下, Y(j=1,2,…m)服从正态分布N(μ,σ)。 iiji这时,我们要判断在因素A的k个水平A,A,...,A下真值12kμ,μ,...,μ之间是否有显著性差异.即检验原假设 12k'' H : μ=μ=⋅⋅⋅=μ, H: 不全相等 012k1是否成立。 - 128 -
第八章 方差分析 这相当于检验原假设 H: α=0 (i=1,2,…,k), H: α不全为零 0i1i是否成立 可以证明当H为真时, 0SSST2A2E2~χ(km−1), ~χ(k−1), ~χ(k(m−1)), (8-16) 222σσσSSAE并且与相互独立. 22σσ得 2S/(k−1)σS/(k−1)AAF==~F(k−1,k(m−1)) (8-17) A2S/k(m−1)σS/k(m−1)EE其中S/(k−1)和S/k(m−1)称为均方(Mean Square)。 AE于是,我们可以利用(8-17)式来检验原假设H是否成立。对于给定的显0著水平α,可以从F分布表查出临界值F(k−1,k(m−1)),再根据样本观α测值算出F的值。 A当F>F(k−1,k(m−1))时,拒绝H, Aα0当F<F(k−1,,k(m−1))时,接受H。 Aα0上述分析的结果排成下表的形式,称为方差分析表。 表8-3 单因素方差分析表 方差来源 平方和 自由度 均方 F比 组间 S AS k−1 A(因素k−1A) 组内 S/k−1SAEF= S k(m−1) AE(实验误差)k(m−1S/k(m−1))E- 129 -
第八章 方差分析 总和 S=S+STAEkm−1 ----- 下面继续讨论前面6种型号的生产线例子。根据调查结果,在α=的显著水平时,检验这6种型号的生产线在平均维修时间方面有无显著差异。 根据实践经验,认为各种型号生产线的维修时间是近似服从正态分布的。 作统计假设:6种型号的生产线平均维修时数无显著差异,即 H:α=0 (i=1,2,…,6), H:αi不全为零 0i0欲检验这个统计假设,先要计算S及S。为了计算方便起见,可将SAEA及S分别写成如下形式: E22kTT∑i2 S=m(Y−Y)=− A∑imkmi=12T∑i22 S=(Y−Y)=Y− E∑∑iji∑∑ijm其中 m T=Y,(i=1,2,…,k) ∑iijj=1 T=T=Y ∑∑∑jij将所需各项数据列于下表中进行计算: 序号 m22Y 1 2 3 4 T T ∑ijIij=1型号 A型 B型 C型 - 130 -
第八章 方差分析 D型 E型 F型 T=∑i 2T=∑i 2 Y=∑∑ij 再将计算结果分别代入S与S两式中,得到 ∑i S=−=−= Amkm46×∑i2 S=Y−=−= E∑∑ijm4第一自由度 f=k−1=6−1=5 A第二自由度 f=k(m−1)=6×3=18 E将以上结果列成方差分析表: 方差来源 平方和 自由度 均方 F比 5 组间S 18 组内S F== 23 -------- 总和S T查F分布表得F(5,18)= 由于F=>,故拒绝H。 该结论说明,至少有一种生产A0线型号的效应不为零,这等价于至少有两种型号的生产线的平均维修时数是有显著差异的。 多重分布与区间估计 当方差分析得出的结论是该因素各水平之间有显著差异时,我们并不能断言两两水平之间都有显著差异。有可能某些水平之间十分显著的差异掩盖- 131 -
第八章 方差分析 了某些水平之间的差异不显著,而使总的结论为差异显著。为了找出哪两个水平之间差异显著,下面介绍一种多重比较的方法――q检验法。 1. q检验法 假设试验因素A共有k个水平,每个水平重复作m次试验,并且方差分析的结论是各水平之间差异显著,为进一步作多重比较,可按以下步骤进行。 q检验法要求先从“多重比较的q表”(见附表)查出一个q(k,f)值,α其中α为显著水平,k为水平数,f为误差平方和S的自由度。对于我们E前面的试验来说,f=k(m−1)。然后由q(k,f)、S和m再计算一个DEαE值和任意两水平的差数Y−Y,(i≠s) isS/fEE D=q(k,f) (8-18) αm当Y−Y≥D时,判断Y与Y差异显著; isis当Y−Y<D时,判断Y与Y差异不显著。 isis由于q(k,f)不仅取决于α与S的自由度k(m−1),而且与水平数kαE有关,k愈大,q(k,f)也愈大,从而保证在作多重比较时,犯第一类错αk(k−1)误的概率不至于增大。此外进行两两比较时,虽然需要作个比较,2但因均以统一的D值作标准,计算工作量只有一个D值和水平间的差数Y−Y,因而计算得到简化。 is继续研究前例。现在想要以α=的显著性水平来判断哪两个型号的生产线在维修时间上有显著差异。 具体做法可将前例中各Y(i=1,2,…,k)依大小顺序排列,按照表i8-4的形式进行逐个比较以免遗漏。 - 132 -
第八章 方差分析 表8-4 Y−Y is Y−Y Y−YY−YY−YY−Y i6i5i4i3i2Y A型Y= F型Y= C型Y= E型Y= B型Y= 5D型Y= 6 由前例的方差分析表已知S=,相应的自由度f=18,水平数EEk=6,m=4,以显著水平α=查q表得: q(6,18)= 从表8-4看到,全部两两比较的结果中,属于Y−Y>D=的is情况只有一个,即Y与Y,也就是说仅有Y与Y之间的差异显著,而1616其他均不显著。故结论是这六种型号的生产线只有A型与D型在平均维修时间方面有显著差异。 2. 区间估计 要想进一步确定具有显著差异的两个水平的样本均值之差Y−Y大is致在什么范围,可以根据多重比较的过程求出置信系数为1−α的μ−μis的置信区间为 (Y−Y)−D≤μ−μ≤(Y−Y)+D (8-19) isisis其中D由(8-18)式所决定。 - 133 -
第八章 方差分析 对于前例,μ−μ的95%置信区间为 −≤μ−μ≤+ 1644 ≤μ−μ≤ 16即有95%的把握估计A型与D型的生产线在平均维修时间方面的差异在~小时之间。 当试验观测值Y的数字位数太多不便于计算时,可以对Y作线性变换 ijijY−aij' Y= (i=1,2,…,k j=1,2,…,m) ijb其中a,b(b≠0)是任意的两个实数,在实际问题中,如a,b选取得当,就可以减少计算量。容易证明,用线性变换前后的数据进行方差分析,所得的F值相等。 双因素方差分析 双因素方差分析的类型 在实际问题的研究中,有时需要考虑两个因素对试验结果的影响。例如饮料销售,除了关心饮料颜色之外,我们还想了解销售地区是否影响销售量。如果在不同的地区,销售量存在显著的差异,就需要分析原因。采用不同的销售策略,使该饮料品牌在市场占有率高的地区继续深入人心,保持领先地位;在市场占有率低的地区,进一步扩大宣传,让更多的消费者了解、接受该产品。若把饮料的颜色看作影响销售量的因素A,饮料的销售地区则是影响因素B。对因素A和因素B同时进行分析,就属于双因素方差分析。双因素方差分析的内容,是对影响因素进行检验,究竟是一个因素在起作用,还是两个因素都起作用,或是两个因素的影响都不显著。 双因素方差分析有两种类型:一个是无交互作用的双因素方差分析,它假定因素A和因素B的效应之间是相互独立的,不存在相互关系;另一个是有交互作用的双因素方差分析,它假定因素A和因素B的结合会产生出一种新的效应。例如,若假定不同地区的消费者对某种颜色有与其他地区消费- 134 -
第八章 方差分析 者不同的特殊偏爱,这就是两个因素结合后产生的新效应,属于有交互作用的情形;否则,就是无交互作用的情形。有交互作用的双因素方差分析已超出本书的范围,这里介绍无交互作用的双因素方差分析。 数据结构 双因素方差分析的数据结构如表8-4所示。 表8-4 双因素方差分析数据结构 因素 A X i AA… A 12rx BXX… X111121r1x BXX… X221222r2因素… … … … … … B x BXX… Xkk1k1krkX x x x … x j12r表中,因素A位于列的位置,共有r个水平,X代表第j种水平的样本j平均数;因素B位于行的位置,共有k个水平,X代表第i种水平的样本平均i=数。为样本总平均数,样本容量n=r×k。 x每一个观察值x看作由A因素的r个水平和B因素的k个水平所组合ij成的r×k个总体中抽取样本容量为1的独立随机样本。这r×k个总体的每一个总体均服从正态分布,且有相同的方差。这是进行双因素方差分析的假定条件。 离差平方和的分解 进行双因素方差分析,需要将总离差平方和SST进行分解。二者的区别在于,这里需要将总离差平方和分解为三个组成部分,即SSA,SSB和SSE,以分别反映因素A的组间差异、因素B的组间差异和随机SSE的离散状况。 它们的计算公式分别为: - 135 -
第八章 方差分析 =2SST=(x−x)∑∑ij−=−=22SSA=(x−x)=k(x−x)∑∑∑•j•j −=−=2SSB=(x−x)=r(x−x)∑∑i•∑i•SSE=SST−SSA−SSB与各个离差平方和相对应的自由度分别是:总离差平方和SST的自由度为r×k−1=n−1;A的离差平方和SSA的自由度为r-1;因素B的离差平方和的自由度为k-1;随机误差SSE的自由度为(r−1)×(k−1) 由离差平方和与自由度可以计算出均方差。 对因素A而言: SSAMSA= r−1对因素B而言: SSBMSB= k−1对随机变量而言: SSEMSE= (r−1)(k−1)由此可以编制出双因素方差分析表,见表8-5 表8-5 双因素方差分析表 离差 误差来源 自由度 均方差 F值 平方和A因素 SSA r-1 MSA=SSA/(r-1) FA=MSA/MSE B因素 SSB k-1 MSB=SSB/(k-1) FB=MSB/MSE 误差 SSE (r-1)(k-1)MSE=SSE/(r-1)(k-1) — 合计 SST n-1 — — 应用实例 下面通过一个例题,说明双因素方差分析的整个过程。 [例]某商品有五种不同的包装方式(因素A),在五个不同地区销售(因素B),现从每个地区随机抽取一个规模相同的超级市场,得到该商品不同包装的销售资料如下表。 - 136 -
第八章 方差分析 表8-6 某种商品不同地区不同包装的销售资料 包装方式(A) A1A2A3A4A5 B120 12 20 10 14 B222 10 20 12 6 B324 14 18 18 10 B416 4 8 6 18 B526 22 16 20 10 现欲检验包装方式和销售地区对该商品销售是否有显著性影响。(α=) 解:若五种包装方式的销售的均值相等,则表明不同的包装方式在销售上没有差别。 (1)建立假设。 对因素A: H0:μ=μ=μ=μ=μ 包装方式之间无差别 12345H1:μ,μ,μ,μ,μ不全相等 包装方式之间有差别 12345对因素B: H0:μ=μ=μ=μ=μ 地区之间无差别 12345H1:μ,μ,μ,μ,μ不全相等 地区之间有差别 12345(2)计算F值。由表8-6中的数据计算得,因素A的列均值分别为: −−−−−x=,x=,x=,x=,x= •1•2•3•4•5因素B的行均值分别为: −−−−−x=,x=14,x=,x=,x=•2•3•4•5• 总均值= 于是,有: 22 SST=() +…+()= 22 SSA=5() +…+5()= 2 2 SSB=5()+…+5()= SSE== 接下来: - 137 -
第八章 方差分析 ==− MSB== 5−==(5−1)(5−1)因此 === ===(3)统计决策。对于因素A,因为 FA=>Fcrit = 故拒绝H0,接受H1,说明不同的包装方式对该商品的销售产生影响。 对于因素B,因为 FB=<Fcrit= 故接受H0,说明不同地区之间在该商品的销售上没有显著的差异。 8.4 正交试验设计 在工农业生产和科学研究中,经常会遇到多因素试验问题,在实践中不需要进行各种水平组合的全面试验,只需从各种不同搭配情况中,选取一小部分来进行就可以了。那么,怎样选取以及如何分析试验结果,才能科学的回答如下问题: (1)各因素对指标的影响,哪个因素重要?哪个因素次之? (2)每个因素中,哪个水平为好? (3)各个因素和水平依哪种情况搭配可使试验结果最佳? 解决这些问题正是正交试验设计的主要内容。本节重点介绍正交试验设计的具体方法。 正交试验统计的基本思想 - 138 -
第八章 方差分析 考虑进行一个三因素、每个因素有三个水平的试验。如果作全面试验, 3需作3=27次。 A C B 图8-1 若从27次试验中选取一部分试验,常将A和B分别固定在A和B水11平上,与C的三个水平进行搭配,ABC,ABC,ABC。作完这3111112113次试验后,若ABC最优,则取定C这个水平,让A和C固定,再分113313别与B因素的三个水平搭配,ABC(已作过试验),ABC,ABC 。113123133这3次试验作完以后,若ABC最优,则取定B、C这两个水平,再作12323两次试验即ABC、ABC,然后与ABC一起比较,若ABC最223323123323优,则可断言ABC是我们欲选取的最佳水平组合。这样仅作了7次试验323就选出了最佳水平组合。 我们发现,这些试验结果都分布在立方体的一角,代表性较差,所以按上述方法选出的试验水平组合并不是真正的最佳组合。 如果进行正交试验设计,利用正交表安排试验,对于三因素三水平的试验来说,需要作9次试验,用“Δ”表示,标在图中。如果每个平面都表示- 139 -
第八章 方差分析 一个水平,共有九个平面,可以看到每个平面上都有三个“Δ”点,立方体的每条直线上都有一个“Δ”点,并且这些“Δ”点是均衡地分布着,因此这9次试验的代表性很强,能较全面的反映出全面试验的结果,这就是正交实验设计所特有的均衡分散性。我们正是利用这一特性来合理的设计和安排试验,以便通过尽可能少的试验次数,找出最佳水平组合。 正交表与直观分析法 3正交表是正交试验设计的工具。最简单的正交表是L(2),此外还有4745L(2),L(3),L(4)等等。 L表示一张表,它的数字,有三层不同89163的含义,以L(2)为例加以说明。 4 列数 3(1)指L(2)表的结构:有443L(2)行,3列,表中只出现1、2两个 4反映水平的数字。 行数 水平数 因子数 3(2)指L(2)表的用法:作44次试验,可以最多安排3个二水平的因素(也称因子)。 3L(2) 4试验数 水平数 - 140 -
第八章 方差分析 3 (3)指L(2)表的效率:3个二水4平的因子,它的全部不同的水平组合共有2×2×2=8这么多,本应作完38次不同水平组合的试验,才能找到L(2) 4一个最佳的水平组合.而按正交表33L(2),只需从2中选出4次进行43实际试验次数 试验,经过数据分析就可得出在2个不同水平组合中,哪个较好或可能理论上全面试验得出最好的结论,但仅作了全面试验次数 41次数的=。 3223L(2)表如下 4 列号1 2 3 试验号 1 1 1 1 2 1 2 2 3 2 1 2 4 2 2 1 3表L(2)所以称为正交表,是因为它具有以下两个特点,即 4(1)每一列中,不同的数字出现的次数相等,如数1和2,它们各出现了两次。 (2)任意两列中,将同一横行的两个数字看成有序数对时,每种数对出现的3次数相等。L(2)表中共有的四种有序数对(1,1),(1,2),(2,1),(2,2),它4们各出现一次。 由此保证了用正交表安排的试验计划是均衡搭配的。 以下我们将通过例题来说明正交表的应用和直观分析法的内容。 [例 ] 某化工厂生产一种试剂,产率较低,希望通过试验探索好的生产工艺以提高产率。考察的因子与水平如下表: 因子A B C 水平 反应温度(摄氏反应时间(小搅拌速度 度) 时) 一水平 30 1 快 二水平 40 中 三水平 50 2 慢 - 141 -
第八章 方差分析 43这是一个三水平的试验,我们可以在L(3)和L(3)中选一张合适927的表。选择的原则是在试验因子能在正交表的列中安排得下的前提下,试验4次数越少越好。本例只有三个因子,故选用L(3)表,作9次试验即可。 94选择了正交表后,将因子安排在L(3)的表头上,我们将三个因子依次9安排在1,2,3列,并且把表中各列的水平号用相应的实际因子水平写出来,就得到一张试验设计表。 表8-7 试验计划表 列号1 2 3 试验号 反应温度(摄氏反应时间(小时)B 搅拌速度 C 度)A 1 1 30 1 1 1 快 2 1 30 2 中 3 1 30 3 2 3 慢 4 2 40 1 1 2 中 5 2 40 2 3 慢 6 2 40 3 2 1 快 7 3 50 1 1 3 慢 8 3 50 2 1 快 9 3 50 3 2 2 中 按以上所设计的方案进行了9次试验后,将各次试验结果依次填入试验计划表的最右边,并且在表上进行了一系列的计算,形成了上表形式,常称之为计算表。 - 142 -
第八章 方差分析 表8-8 计算表 列号 1 2 3 试验结果 反应温反应时间(小搅拌速度 产率(%) 试验号 度(摄时)B C 氏度)A 1 1 (30) 1 (1) 1 (快) 82 2 1 2 () 2 (中) 81 3 1 3 (2) 3 (慢) 76 4 2 (40) 1 2 80 5 2 2 3 85 6 2 3 1 82 7 3 (50) 1 3 64 8 3 2 1 72 9 3 3 2 64 I (一水平试验结果总239 226 236 和) II (二水平试验结果总247 238 225 和) III (三水平试验结果总200 222 225 和) I/3 II/3 III/3 极差R 现在根据这9次试验结果,来分析因素各水平对产率的影响。 先看A因子(反应温度)。它的水平为30摄氏度的是第1,2,3号试验,其总产率I=82+81+76=239;它的水平是40摄氏度的是第4,5,6号A试验,其总产率II=80+85+82=247;它的水平是50摄氏度的是第A7,8,9号试验,其总产率III=64+72+64=200。 A在A因子水平相同的三组试验中,不同水平的B因子(反应时间)和不同- 143 -
第八章 方差分析 水平的C因子(搅拌速度)都各出现一次。从整体上看,可以认为B,C两因子对产率的影响虽然在变动,但这种变动是均衡的。因此,比较这三个总产率,就可以看出A因子各水平的差别对产率的影响。为便于说明,把上述三个总产率都取平均值,分别得到I/3=,II/3=,III/3=,这AAA是试剂的平均产率。显然A因子取40摄氏度最好,50摄氏度最差。二者之差即极差R=−=,它表示反应温度40摄氏度与50摄氏度A相比,试剂的产率平均要提高%。 用同样的方法可以比较B因子和C因子的各水平的好与差。 比较各因子极差的大小,就可以看出哪个因子对产率的影响大,哪个因子影响小。反应温度的高低对试剂的平均产率的影响可以差到%,而搅拌速度的快慢对试剂的平均产率的影响只差到%,显然反应温度是否合适要比搅拌速度是否合适重要的多。根据这种比较,就可以回答本节开始提出的三个问题了。 (1) 反应温度对产率影响最大,其次是反应时间,再其次是搅拌速度; (2) 反应温度是40度好,反应时间是小时好,搅拌速度是快速好; (3) 好的生产工艺是: ABC 即 221 反应温度 40摄氏度; 反应时间 小时; 搅拌速度 快速。 ABC这个条件在试验计划表中并没有出现,它是27次全面试验中的221一种。由此可见,用正交表安排试验确实具有很强的代表性。虽然只作了9次试验,但是通过对这9次试验结果的计算与分析,仍然不会漏掉最佳的水平组合。 以上利用比较各因子不同水平下试验结果平均值的方法就是直观分析法,也叫做综合比较法。显然,只有在均衡搭配的试验情况下,才能进行综合分析,这也是正交表的一个特性,常称为“综合可比性”。 方差分析法 根据以上所介绍的方法,利用正交表安排试验,并用直观分析法对试验结果进行分析,因为“均衡分散”与“综合可比”这两个特点,使得我们仅做一部分试验就能获得所需的结论,而且方法简便易行,计算量小,在一般- 144 -
第八章 方差分析 情况下,结论也是可靠的。但是,我们知道,在任何试验过程中,都存在着随机因素造成的试验误差,通常可以将它们忽略不计。可是当方差较大时,会影响结论的可靠性。这时,我们可以借用方差分析,将试验误差所引起的指标的变动与各因子及其水平不同所引起的指标变动区分开来,以便分析出影响试验结果的真正因素。下面通过例题介绍如何用方差分析法对试验结果进行分析。 仍继续讨论上例中化工试剂的生产工艺问题。 利用方差分析法来分析试验结果时,由于要考虑随机因素对指标的影响,因此在选取正交表安排试验时,要使表中的因子数大于实际的因子数。4例如,试剂产率的试验是三因子三水平,我们仍然可以选用L9(3)表安排试验,将三因素依次放在表的第1、2、3列后,还空出一列无因素可安排,这一列可视为随机试验误差。按照此法安排试验,得出试验计划表及试验结果,列于下表内,并在表上进行一系列的有关计算。 表8-9 试验计划表和计算表 列号 1 2 3 4 试验结果:产率 反应温度反应时间搅拌速度 (%) 试验号 (℃) (小时)‘yiyi=yI-80 1 1 301 1 1 快 1 822 2 1 302 2 中 2 811 3 1 303 2 3 慢 3 76-4 4 2 401 1 2 中 3 800 5 2 402 3 慢 1 855 6 2 403 2 1 快 2 822 7 3 501 1 3 慢 2 64-16 8 3 502 1 快3 72-8 9 3 503 2 2 中 1 64-16 ’Ⅰ -1 -14 -4 -9T=∑yi=-34 Ⅱ 7 -2 -15 -13 2T=1156 Ⅲ -40 -18 -15 -122 Ⅰ1 196 16 8122T/9= Ⅱ49 4 225 169 2Ⅲ1600 324 225 144222Ⅰ+Ⅱ+Ⅲ1650 524 466 39422(Ⅰ+Ⅱ+Ⅲ550 1312)/3 .33- 145 -
第八章 方差分析 22(Ⅰ+Ⅱ+Ⅲ 22)/3-T/9 3 在进行数据分析时,把试验结果的所有数据都减去同一常数,不会影响结论,故常用此法简化数据。 按本章前面介绍的方差分析方法,将试验结果产率y的变动(或波动、差异)用总偏差平方和ST来表示,则 22−(y)T∑i222S=(y−y)=y−=y− T∑i∑i∑i99−y∑i其中y=,并令T=∑yi9总偏差平方和可以分解为各因子的偏差平方和与试验误差的偏差平方和,即 ST=SA+SB+SC+SE各偏差平方和的计算如下: 4例如A位于L9(3)表的第一列上,有3个一水平,3个二水平,3个三水平。如果这个试验只安排一个因子A,则实验结果y的差异就完全是由A因子的水平变化与试验误差所引起的。这时可以用A因子的各水平对产率y的平均影响Ⅰ1/3,Ⅱ1/3,Ⅲ3/3,分别代替各个水平(每个水平有3个)对y的影响,−所以因子A的偏差平方和SA可以由3个Ⅰ1/3,3个Ⅱ1/3和3个Ⅲ3/3与y的偏差平方和计算得到,即 −−−IIIIII121212S=3(−y)+3(−y)+3(−y) A333经简单运算,上式可化简为 2222I+II+IIIT111S=− A39将具体数值代入得SA= 类似地可求出因子B、C和试验误差E的偏差平方和SB,SC和SE的值 - 146 -
第八章 方差分析 2222I+II+IIIT222S=−=+II+IIIT333S=−= C392222I+II+IIIT444S=−=各因子与试验误差的自由度为 f=f=f=f=3−1=2 ABCE为了进行各因子的显著性检验,列出方差分析表如表8-10。 表8-10 方差分析表 方差来源 平方和 自由度 均方 F比 因子A SA= 2 FA= 因子B SB= 2 FB= 因子C SC= 2 FC= 试验误差ESE= 2 总和 ST= 8 — — 由F分布表查得(2,2)=9,(2,2)=19,(2,2)=99,比较各F值与、、的大小得出: FA>,同时FA>,故A因子非常显著; <FB<,故B因子比较显著; <FC<,C因子也比较显著,但比A、B二因子的影响作用差。 本例方差分析的结论与直观分析法的结论是一致的,即反应温度对产率影响最大,搅拌速度影响最小;好的生产工艺条件仍然是A2B2C1。 习题 1、 为了检验三家工厂生产的机器加工一批原料所需的平均时间是否相同,某化学公司得到了关于加工原料所需时间的数据如下表所示。利用这些数据检验三家工厂加工一批原料所需平均时间是否相同。(α=) - 147 -
第八章 方差分析 制造商 1 2 3 1 2 3 20 28 20 26 26 19 24 31 23 22 27 22 2、 某组织的各级管理者需要搜集一定的信息来开展他们各自的工作,一项调查研究了信息来源渠道对于信息传播效果的影响。在该研究中,信息来源分别为上级、同事和下属。下表列出了各种信息渠道的传播效果:数值越高表明信息传播效果越好。请检验信息来源对信息传播效果是否有显著影响。(α=) 上级 同事 下属 上级 同事 下属 8 6 6 6 3 3 5 6 5 7 4 5 4 7 7 5 7 7 6 5 4 5 6 5 3、 某调查公司调查了市场专业人员的公司伦理价值观。高分值代表较高程度的伦理价值观。对于α=,检验三类市场专业人员群体之间的观念有无显著差异。 市场管理人员 市场研究人员 广告人员 6 5 6 5 5 7 4 4 6 5 4 5 6 5 6 4 4 6 - 148 -
第八章 方差分析 4、某杂志的一个研究得出这样的结论,自由职业者的工作压力比非自由职业者的工作压力大。在该研究中,为度量一些模棱两可的概念,专门设计了若干问题,这些问题是按照从强烈同意到强烈反对,分成1~5级进行评分的,得分越高表明工作压力越大。现随机选取三类职业的从业人员:房地产代理商、建筑师和股票经纪人各15人,研究其工作压力,得到如下分值: 房地产代理商 建筑师 股票经纪人 81 43 65 48 63 48 68 60 57 69 52 91 54 54 70 62 77 67 76 68 83 56 57 75 61 61 53 65 80 71 64 50 54 69 37 72 83 73 65 85 84 58 75 58 58 对于α=,检验三种职业的工作压力是否有显著差异。 5、在试制高强度混凝土时,掺入矿渣、石膏和铁粉以提高混凝土的强度。如果每个因素取三个水平,要求选择各因素的最优掺入量,因素与水平如下表: 因素A B C 水平 矿渣掺量(%)石膏掺量(%)铁粉掺量(%) 1 10 2 3 2 15 6 3 20 5 9 (1)选用哪张正交表合适? (2)写出试验计划表 - 149 -
第八章 方差分析 4(3)如果把A、B、C放在L(3)表的第1、2、3列上,所得抗压强度依次92为:765,810,758,857,891,765,907,867,860(单位:kg/cm)。试用直观分析法分析试验结果。 - 150 -