第七章 方差分析
[本章提要]本章主要通过对试验结果进行分析,鉴别其各有关因素对试验结果影响的实例,介绍了单因素方差分析和双因素重复试验方差分析的基本方法与应用,最后简单讨论了双因素无重复试验的方差分析。
在科学试验和生产实践中,影响一事物的因素往往是很多的。例如,在化工生产中,有原料成分、原料剂量、催化剂、反应温度、压力、溶液浓度、反应时间、机器设备及操作人员水平等因素。每一因素的改变都有可能影响产品的数量和质量,有的因素影响大些,有的小些。为了使生产过程稳定,达到优质、高产、低消耗、高效益,就需要找出对产品质量影响显著的那些因素。方差分析就是鉴别各因素效应的一种有效方法,它被广泛地应用于生产实践中。 在试验中,将要考察的指标称为试验指标。影响试验指标的条件称为因素。因素所处的状态,称为该因素的水平。如果在一项试验中只有一个因素在改变称为单因素试验,如果多于一个因素在改变称为多因素试验。相应的方差分析称为单因素试验的方差分析和多因素试验的方差分析。 在方差分析方面,Excel 2000提供的分析工具有:单因素方差分析、双因素重复试验方差分析和双因素不重复试验方差分析。本章将通过实例,分别说明这三种方差分析的基本理论以及如何使用Excel 2000提供的方差分析工具来解决实际问题。
单因素方差分析
例如,将抗生素注入人体会产生抗生素与血浆蛋白质结合的现象,以致减少了药效。下表列出了5种常用的抗生素注入到牛的体内时,抗生素与血浆蛋白质结合的百分比。现需要在显著性水平
青霉素
四环素
链霉素
红霉素
氯霉素
在这里,试验的指标是抗生素与血浆蛋白质结合的百分比,抗生素为因素,不同的5种抗生素就是这个因素的五个不同的水平。假定除抗生素这一因素外,其余的一切条件都相同。这就是单因素试验。试验的目的是要考察这些抗生素与血浆蛋白质结合的百分比的均值有无显著的差异。即考察抗生素这一因素对这些百分比有无显著影响。这就是一个典型的单因素试验的方差分析问题。
单因素方差分析的基本理论
与通常的统计推断问题一样,方差分析的任务也是先根据实际情况提出原假设H0与备择假设H1,然后寻找适当的检验统计量进行假设检验。本节将借用上面的实例来讨论单因素试验的方差分析问题。 1. 提出假设 在上例中,因素A(即抗生素)有s(=5)个水平 ,在每一个水平 (j=1,2,…,s)下进行了 = 4次独立试验,得到如上表所示的结果。这些结果是一个随机变量。表中的数据可以看成来自s个不同总体(每个水平对应一个总体)的样本值,将各个总体的均值依次记为 ,则按题意需检验假设 : : 不全相等 为了便于讨论,现在引入总平均 其中 再引入水平 的效应 显然有 , 表示水平 下的总体平均值与总平均的差异。 利用这些记号,本例的假设就等价于假设 : : 不全为零 因此,单因素方差分析的任务就是检验s个总体的均值 是否相等,也就等价于检验各水平 的效应 是否都等于零。 2. 检验所需的统计量 假设各总体服从正态分布,且方差相同,即假定各个水平 (j=1,2,…,s)下的样本 来自正态总体 , 与 未知,且设不同水平 下的样本之间相互独立,则单因素方差分析所需的检验统计量可以从总平方和的分解导出来。下面先引入:
水平 下的样本平均值
数据的总平均
总平方和
总平方和 反映了全部试验数据之间的差异,因此 又称为总变差。将其分解为 其中 上述 的各项 表示了在水平 下,样本观察值与样本均值的差异,这是由随机误差所引起的,因此 叫做误差平方和。 的各项 表示了在水平 下的样本平均值与数据总平均的差异,这是由水平 以及随机误差所引起的,因此 叫做因素A的效应平方和。 可以证明 与 相互独立,且当 : 为真时, 与 分别服从自由度为 的 分布,即 于是,当 : 为真时 这就是单因素方差分析所需的服从F分布的检验统计量。 3. 假设检验的拒绝域 通过上面的分析可得,在显著性水平 下,本检验问题的拒绝域为 为了方便分析比较,通常将上述分析结果编排成如下表所示的方差分析表。表中的 , 分别称为 的均方。
方差来源
平方和
自由度
均方
F 比
因素A
误 差
总 和
单因素方差分析的基本操作
从上面的分析可以看出,如果用手工完成单因素试验方差分析,需要进行大量的计算。借助于Excel 2000的单因素方差分析工具,可以方便地自动完成。具体操作步骤如下: 选择工具菜单中的数据分析命令,此时弹出数据分析对话框。 在分析工具列表框中,选方差分析:单因素方差分析工具。 这时将弹出方差分析:单因素方差分析对话框,如图7-1中间所示。 图7-1 在输入框中指定输入参数。在输入区域框中指定试验数据所在区域A1:E5;在分组方式中选定列单选钮;选中标志位于第一行复选框;在 框内输入显著性水平。 在输出选项框内指定输出选项。本例选定输出区域,并键入输出区域左上角单元格地址A7。 单击确定按钮。 即可得到单因素方差分析的结果,如图7-2所示。 在图7-2给出的统计结果中,单元格区域A18:E23中的数据正好与表7-1所列出的单因素试验方差分析表中的各个统计量相对应,其中组间即为因素A,组内即为误差,总计即为总和,差异源即为方差来源,SS即为平方和,df即为自由度,MS即为均方,F即为F比,P-value为接受原假设 的概率(此值越接近0,说明接受原假设的可能性就越小,反之亦然),F crit为拒绝域的临界值 。 根据图7-2给出的方差分析结果知 => =,故在显著性水平下拒绝原假设 ,认为各抗生素与血浆蛋白质结合的百分比的均值有显著的差异,即各抗生素对这些百分比有显著影响。 图7-2
双因素方差分析
如果在一项试验中只有两个因素在改变,而其他因素保持不变,则称为双因素试验。双因素试验的方差分析就是观察两个因素的不同水平对研究对象的影响是否有显著性的差异。根据是否考虑两个因素的交互作用,又将双因素方差分析分为双因素重复试验的方差分析和双因素不重复试验的方差分析。
重复试验的方差分析
例如,在生产某种金属材料时,使用了四种原料、三种热处理温度。对于每种原料与每种热处理温度的组合各生产两次,产品强度的测定结果如图7-3所示。问原料、处理温度以及这两者的交互作用对产品强度是否有显著的影响(取显著性水平 =)? 图7-3 在这里,试验的指标是产品强度,原料和处理温度是因素,它们分别有4个、3个水平,这是一个双因素的试验。试验的目的是要考察在各种因素的各个水平下产品强度有无显著的差异。即考察原料和处理温度这两个因素对产品强度有无显著影响。这就是一个双因素重复试验方差分析问题。在这种方差分析中,除了考虑两个因素A、B各水平的效应之外,还要考虑A、B各水平的搭配作用即交互作用。也就是说,本例既要考虑不同的原料、不同的处理温度是否对产品强度有显著影响,还要考虑原料和处理温度这两因素各方案的配合对产品强度是否有影响作用。 1. 基本理论 在本例中,有两个因素A(即原料)、B(即处理温度)作用于试验的指标(即产品强度)。行因素A有r(=4)个水平 ,列因素B有s (=3)个水平 。现对因素A、B的水平的每对组合( )进行了t (=2,要求t≥2)次试验(称为等重复试验),共得到24( )个试验值 ,i = 1,2,…,r,j = 1,2,…,s,k = 1,2,…,t,如图7-3所示。 假设 ,且各 相互独立,其中 均为未知参数。
①提出假设
与单因素方差分析类似,先引入水平 的效应 ,水平 的效应 ,以及水平 与水平 的交互效应 (这是由 , 搭配起来联合作用而引起的),则双因素重复试验的方差分析问题就是检验假设: 行因素A的检验(即检验因素A的每个水平 的效应 是否都等于零) : :至少有一个 不为零 列因素B的检验(即检验因素B的每个水平 的效应 是否都等于零) : :至少有一个 不为零 因素A、B交互作用I=A×B的检验(即检验因素A与因素B搭配的每对组合( )的效应 是否都等于零) : :至少有一个 不为零
②检验统计量
与单因素方差分析类似,双因素方差分析所需的检验统计量也是从总平方和的分解导出来的。下面先引入 再引入总平方和 总平方和 反映了全部试验数据之间的差异,将其分解为 其中
误差平方和
因素A的效应平方和
因素B的效应平方和
因素A、B的交互效应平方和
可以证明 , , , , 分别服从自由度为 , , , , 的 分布,且相互独立。 当 : 为真时,可以证明 类似地,当 , 为真时 这就是双因素方差分析所需的F检验统计量。
③假设检验的拒绝域
在显著性水平 下,假设检验的拒绝域分别为 ,拒绝因素A的原假设 ,拒绝因素B的原假设 ,拒绝因素A、B交互作用I的原假设 将上述分析结果汇总成如下表所示的方差分析表。
方差来源
平方和
自由度
均方
F 比
因素A
因素B
交互作用I
误差
总和
2. 基本操作 下面利用Excel 2000提供的方差分析:可重复双因素分析工具求解本例。具体操作步骤如下: 选择工具菜单中的数据分析命令,此时弹出数据分析对话框。 在分析工具列表框中,选方差分析:可重复双因素分析工具。 这时弹出方差分析:可重复的双因素分析对话框,如图7-4所示。 图7-4 在输入框中指定输入参数。在输入区域框中指定试验数据所在区域A1:D9(通常为了使输出结果容易阅读理解,在原始数据区域中应包含标识行和列的标记信息);在每一样本的行数中键入2(因本例的每种原料有两行数据,即对因素A、B的水平的每对组合进行了t=2次试验);在 框内输入显著性水平为。 在输出选项框内指定输出选项。本例选定输出区域,并键入输出区域左上角单元格地址A11。 单击确定按钮。 所得本例的方差分析结果如图7-5所示。 图7-5 在图7-5给出的统计结果中,单元格区域A46:E52中的数据正好与表7-2所示的双因素重复试验方差分析表中的各个统计量相对应,其中样本即为行因素A,列即为列因素B,交互即为因素A与B的交互作用,内部即为误差,总计即为总和,差异源即为方差来源,SS即为平方和,df即为自由度,MS即为均方,F即为F比,P-value为接受原假设 的概率,F crit为拒绝域的临界值 。 根据图7-5给出的方差分析结果可知: 原料因素 => =,拒绝原假设 温度因素 => =,拒绝原假设 两因素的交互作用 => =,拒绝原假设 因此,可以得出这样的结论:在显著性水平下,原料和处理温度这两个因素对产品强度的影响都是显著的,且 =远大于 =,故两者的交互作用效应是高度显著的。再比较图7-6中的求和或平均项可以看出, 与 或 与 的搭配都使得产品强度较之其他水平的搭配要高得多。所以在实际中可以选最优的搭配方案 与 或 与 来生产这种金属材料。 再如,某林场对果树采用了不同的剪枝方案和施肥方案进行试验(如图7-7所示),观察剪枝和施肥对果树的产量是否有显著影响?两者的交互作用是否显著? 在这里,试验的指标是果树产量,剪枝和施肥是因素,它们分别有3个、4个水平,这也是一个双因素的试验。试验的目的是要考察在各种因素的各个水平下果树产量有无显著的差异。即既要考虑不同的剪枝方案、不同的施肥方案是否对果树产量有显著影响,还要考虑剪枝和施肥两因素各方案的配合对果树产量是否有影响作用。 图7-6 图7-7 利用Excel 2000提供的方差分析:可重复双因素分析工具,取显著性水平 =,得方差分析结果如图7-8所示。 分析图7-8中的结果可知: 剪枝因素 => =,拒绝原假设 施肥因素 => =,拒绝原假设 两因素的交互作用 =< =,接受原假设 图7-8 因此,可以得出这样的结论:在显著性水平下,剪枝和施肥都对果树产量有显著的影响,但两者的配合对果树产量无显著作用,即剪枝和施肥间无交互作用。
无重复试验的方差分析
在上节的讨论中,考虑了双因素试验中两个因素的交互作用。为要检验交互作用的效应是否显著,对于两个因素的每一组合( )至少要做2次试验,否则就不能将交互作用与误差分离开来。但如果在处理实际问题时,已经知道不存在交互作用,或已知交互作用对试验的指标影响很小,则可以不考虑交互作用。此时,即使k=1,也能对因素A、因素B的效应进行分析。因此对于两个因素的每一组合( )只做一次试验即可,故称为双因素无重复试验,相应的方差分析称为双因素无重复试验的方差分析。 对于上节观察剪枝和施肥对果树的产量是否有显著影响的例子,通过分析结果知:剪枝和施肥这两个因素的配合对果树产量无显著作用,也就是说剪枝和施肥间无交互作用。对此就可以不考虑交互作用,对于两个因素的每一组合( )只做一次试验,即进行双因素无重复试验就可以了。 现假设两个因素的无重复试验结果如下表所示。
因素B
因素A
B1
B2
…
Bs
A1
x11
x12
…
x1s
A2
x21
x22
…
x2s
…
…
…
…
…
Ar
xr1
xr2
…
xrs
再设 ,各 相互独立,其中 均为未知参数。则双因素无重复试验的方差分析只需要检验以下两个假设: 行因素A的检验(即检验因素A的每个水平 的效应 是否都等于零) : :至少有一个 不为零 列因素B的检验(即检验因素B的每个水平 的效应 是否都等于零) : :至少有一个 不为零 通过与双因素重复试验的方差分析中的同样讨论,可得双因素无重复试验的方差分析表,如下表所示。
方差来源
平方和
自由度
均方
F 比
因素A
因素B
误差
总和
取显著性水平为 ,可得假设 : 的拒绝域为 假设 : 的拒绝域为 通过本章内容的学习,应掌握Excel 2000的单因素方差分析和双因素重复试验方差分析工具,并能熟练地运用于实际工作中。