第六章 方差分析
第一节 Simple Factorial过程
主要功能
实例操作
第二节 General Factorial过程
主要功能
实例操作
第三节 Multivarite过程
主要功能
实例操作
方差分析是发明的,用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响,研究所得的数据呈现波动状,造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。方差分析的基本思想是:通过分析研究中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。
方差分析主要用于:1、均数差别的显著性检验,2、分离各有关因素并估计其对总变异的作用,3、分析因素间的交互作用,4、方差齐性检验。
第一节 Simple Factorial过程
主要功能
调用此过程可对资料进行方差分析或协方差分析。在方差分析中可按用户需要作单因素方差分析(其结果将与第五章第四节相同)或多因素方差分析(包括医学中常用的配伍组方差分析);当观察因素中存在有很难或无法人为控制的因素时,则可对之加以指定以便进行协方差分析。
实例操作
[例6-1]下表为运动员与大学生的身高(cm)与肺活量(cm3)的数据,考虑到身高与肺活量有关,而一般运动员的身高高于大学生,为进一步分析肺活量的差异是否由于体育锻炼所致,试作控制身高变量的协方差分析。
运 动 员
大 学 生
身高
肺活量
身高
肺活量
4300
3850
4100
4300
4800
4000
5400
4000
4800
4800
4500
4780
3700
5250
4250
4800
5000
3700
3600
4050
3450
4100
3800
3300
3450
3250
3600
3200
3950
4000
4150
3450
3250
4100
3650
3950
3500
3900
3450
3850
数据准备
激活数据管理窗口,定义变量名:组变量为group(运动员=1,大学生=2),身高为x,肺活量为y,按顺序输入相应数值,建立数据库,结果见图。
图 原始数据的输入
统计分析
激活 Statistics 菜单选ANOVA Models中的Simple Factorial...项,弹出Simple Factorial ANOVA对话框(图)。在变量列表中选变量y,点击(钮使之进入Dependent框;选分组变量group,点击(钮使之进入Factor(s)框中, 并点击Define Range...钮在弹出的Simple Factorial ANOVA:Define Range框中确定分组变量group的起止值(1,2);选协变量x,点击(钮使之进入Covariate(s)框中。
图 协方差分析对话框
点击Options...框,弹出Simple Factorial ANOVA:Options对话框。系统在协方差分析的方法(Method)上有三种选项:
1、Unique:同时评价所有的效应;
2、Hierarchical:除主效应外,逐一评价各因素的效应;
3、Experimental:评价因素干预之前的主效应。
本例选Unique方法,之后点击Continue钮返回Simple Factorial ANOVA对话框,再点击OK钮即可。
结果解释
在结果输出窗口中可见如下统计数据:
先输出肺活量总均数和两组的肺活量均数,总均数为,运用员组均数为,大学生组为。
接着协方差分析表明,混杂因素X(身高)两组间是有差异的(F=,P=),控制其影响后,两组间肺活量的差别依然存在(F=,P=),故可以认为两组间肺活量的均数在消除了身高因素的影响之后仍有差别,运动员的肺活量大于大学生,即体育锻炼会提高肺活量。
最后系统输出公共回归系数,= ,该值可用于求修正均数:
= - ( - )
本例为= - ×( - )=
= - ×( - )=
Y by GROUP
Total Population
( 40)
GROUP 1 2
( 20) ( 20)
Y by GROUP
with X
UNIQUE sums of squares
All effects entered simultaneously
Sum of Mean Sig
Source of Variation Squares DF Square F of F
Covariates 1630763 1 .002
X 1630763 1 .002
Main Effects 1407847 1 .004
GROUP 1407847 1 .004
Explained 6981685 2 .000
Residual 5649992 37
Total 12631678 39
40 cases were processed.
0 cases (.0 pct) were missing.
Covariate Raw Regression Coefficient
X
返回目录 返回全书目录
第二节 General Factorial过程
主要功能
调用此过程可对完全随机设计资料、配伍设计资料、析因设计资料、正交设计资料等等进行多因素方差分析或协方差分析。
返回目录 返回全书目录
实例操作
[例6-2]下表为三因素析因实验的资料,请用方差分析说明不同基础液与不同血清种类对钩端螺旋体的培养计数的影响。
基础液
(A)
血清种类(B)
兔血清浓度(C)
胎盘血清浓度(C)
5%
8%
5%
8%
缓冲液
648
1246
1398
909
1144
1877
1671
1845
830
853
441
1030
578
669
643
1002
蒸馏水
1763
1241
1381
2421
1447
1883
1896
1926
920
709
848
574
933
1024
1092
742
自来水
580
1026
1026
830
1789
1215
1434
1651
1126
1176
1280
1212
685
546
595
566
数据准备
激活数据管理窗口,定义变量名:基础液为base,血清种类为sero,血清浓度为pct,钩端螺旋体的培养计数为X,按顺序输入相应数值,建立数据库。
统计分析
激活Statistics菜单选ANOVA Models中的General Factorial...项,弹出General Factorial ANOVA对话框(图)。在对话框左侧的变量列表中选变量x,点击(钮使之进入Dependent Variable框;选要控制的分组变量base、sero和pct,点(钮使之进入Factor(s)框中,并分别点击Define Range钮,在弹出的General Factorial ANOVA:Define Range对话框中确定各变量的起止值,本例变量base的起止值为1、3,变量sero的起止值为1、2,变量pct的起止值为1、2。之后点击OK钮即可。
图 析因方差分析对话框
结果解释
在结果输出窗口中,系统显示48个观察值进入统计,三个因素按其各自水平共产生12种组合。
分析表明,模型总效应的F值为,P值 < ,说明三因素间存在有交互作用。单因素效应和交互效应导致的组间差别比较结果是:
单因素组间比较:
A:基础液(BASE)
F = ,P = ,说明三种培养基培养钩体的计数有差别;
B:血清种类(SERO)
F = ,P < ,说明两种血清培养钩体的计数有差别;
C:血清浓度(PCT)
F = ,P = ,说明两种血清浓度培养钩体的计数无差别。
两因素构成的一级交互作用:
A×B:基础液(BASE)×血清种类(SERO)
F = ,P = ,交互作用明显;
B×C:血清种类(SERO)×血清浓度(PCT)
F = ,P < ,交互作用明显;
A×C:基础液(BASE)×血清浓度(PCT)
F = ,P = ,交互作用不明显。
三因素构成的二级交互作用:
A×B×C:基础液(BASE)×血清种类(SERO)×血清浓度(PCT)
F = ,P = ,交互作用明显。
48 cases accepted.
0 cases rejected because of out-of-range factor values.
0 cases rejected because of missing data.
12 non-empty cells.
1 design will be processed.
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Univariate Homogeneity of Variance Tests
Variable .. X
Cochrans C(3,12) = .34004, P = .036 (approx.)
Bartlett-Box F(11,897) = , P = .069
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
* * * * * * A n a l y s i s o f V a r i a n c e -- design 1 * * * * * *
Tests of Significance for X using UNIQUE sums of squares
Source of Variation SS DF MS F Sig of F
WITHIN+RESIDUAL 36
BASE 2 .012
PCT 1 .070
SERO 1 .000
BASE BY PCT 2 .78 .465
BASE BY SERO 2 .011
PCT BY SERO 1 .000
BASE BY PCT BY SERO 2 .003
(Model) 11 .000
(Total) 47
R-Squared = .763
Adjusted R-Squared = .691
返回目录 返回全书目录
第三节 Multivarite过程
主要功能
调用此过程可进行多元方差分析。此外,对于一元设计,如涉及混合模型的设计、分割设计(又称列区设计)、重复测量设计、嵌套设计、因子与协变量交互效应设计等,此过程均能适用。
返回目录 返回全书目录
实例操作
[例6-3]甲地区为大城市,乙地区为县城,丙地区为农村。某地分别调查了上述三类地区8岁男生三项身体生长发育指标:身高、体重和胸围,数据见下表,问:三类地区之间男生三项身体生长发育指标的差异有无显著性?
学生编号
甲地区
乙地区
丙地区
身高
体重
胸围
身高
体重
胸围
身高
体重
胸围
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
数据准备
激活数据管理窗口,定义变量名:地区为G,身高为X1,体重为X2,胸围为X3,按顺序输入相应数值,变量G的数值是:甲地区为1,乙地区为2,丙地区为3。
统计分析
激活Statistics菜单选ANOVA Models中的Multivarite...项,弹出Multivarite ANOVA 对话框(图)。首先指定供分析用的变量x1、x2、x3,故在对话框左侧的变量列表中选变量x1、x2、x3,点击(钮使之进入Dependent Variable框;然后选变量g(分组变量)点击(钮使之进入Factor(s)框中,并点击Define Range钮,确定g的起始值和终止值。
图 多元方差分析对话框
点击Options...钮,弹出Multivarite ANOVA:Options对话框,选择需要计算的指标。在Factor(s)栏内选变量g,点击(钮使之进入Display Means for框,要求计算平均值指标;在Matriced Within Cell栏内选Correlation、Covariance、SSCP项,要求计算单元内的相关矩阵、方差协方差矩阵和离均差平方和交叉乘积矩阵;在Error Matrices栏内也选上述三项,要求计算误差的相关矩阵、方差协方差矩阵和离均差平方和交叉乘积矩阵;在Diagnostics栏内选Homogeneity test项,要求作变量的方差齐性检验。之后点击Continue钮返回Multivarite ANOVA对话框,最后点击OK钮即可。
结果解释
在结果输出窗口中将看到如下分析结果:
系统首先显示共90个观察值进入统计分析,因分组变量g为三个地区,故分析的单元数为3。然后输出3个应变量(x1、x2、x3)的方差齐性检验结果,分别输出了Cochran C检验值及其显著性水平P值、Bartlett-Box F检验值及其显著性水平P值。其中
身高:C = ,P = ;F = ,P = ;
体重:C = ,P = ;F = , P = ;
胸围:C = , P = ;F = , P = ;
可见3项指标的方差基本整齐(P值均大于)。
90 cases accepted.
0 cases rejected because of out-of-range factor values.
0 cases rejected because of missing data.
3 non-empty cells.
1 design will be processed.
CELL NUMBER
1 2 3
Variable
G 1 2 3
Univariate Homogeneity of Variance Tests
Variable .. X1
Cochrans C(29,3) = .39825, P = .540 (approx.)
Bartlett-Box F(2,17030) = , P = .363
Variable .. X2
Cochrans C(29,3) = .43787, P = .227 (approx.)
Bartlett-Box F(2,17030) = , P = .011
Variable .. X3
Cochrans C(29,3) = .47239, P = .089 (approx.)
Bartlett-Box F(2,17030) = , P = .127
Cochran C检验和Bartlett-Box F检验对考查协方差矩阵的相等性比较方便,但还不够。于是系统接着分别输出了三类地区(即各个单元)各生长发育指标的离均差平方和交叉乘积矩阵和方差协方差矩阵。之后作Box M检验,Box M检验提供矩阵一致性的多元测试,本例Boxs M = ,在基于方差分析的显著性检验中F = ;在基于χ2的显著性检验中χ2 = , 两者P < ,故认为矩阵一致性不佳。
Cell Number .. 1
Sum of Squares and Cross-Products matrix
X1 X2 X3
X1
X2
X3
Variance-Covariance matrix
X1 X2 X3
X1
X2
X3
Cell Number .. 1 (Cont.)
Correlation matrix with Standard Deviations on Diagonal
X1 X2 X3
X1
X2 .853
X3 .415 .581
Determinant of Covariance matrix of dependent variables =
LOG(Determinant) =
Cell Number .. 2
Sum of Squares and Cross-Products matrix
X1 X2 X3
X1
X2
X3
Variance-Covariance matrix
X1 X2 X3
X1
X2
X3
Correlation matrix with Standard Deviations on Diagonal
X1 X2 X3
X1
X2 .697
X3 .482 .734
Determinant of Covariance matrix of dependent variables =
LOG(Determinant) =
Cell Number .. 3
Sum of Squares and Cross-Products matrix
X1 X2 X3
X1
X2
X3
Variance-Covariance matrix
X1 X2 X3
X1
X2
X3
Correlation matrix with Standard Deviations on Diagonal
X1 X2 X3
X1
X2 .680
X3 .595 .886
Determinant of Covariance matrix of dependent variables =
LOG(Determinant) =
Pooled within-cells Variance-Covariance matrix
X1 X2 X3
X1
X2
X3
Determinant of pooled Covariance matrix of dependent vars. =
LOG(Determinant) =
Multivariate test for Homogeneity of Dispersion matrices
Boxs M =
F WITH (12,36680) DF = , P = .000 (Approx.)
Chi-Square with 12 DF = , P = .000 (Approx.)
下面系统输出将三类地区看成一个大样本时的离均差平方和交叉乘积矩阵。如X1、X2和X3的离均差平方和分别为、和。在此基础上,进行多元差异的检验。通常有四种方法:
1、Pillai轨迹:V =
2、Wilks λ值:W =
3、Hotelling轨迹:T =
4、Roy最大根:R =
式中λmax为最大特征值, λi为第i个特征值,s为非零特征值个数。根据这些值变换的F检验均有显著性(P<),说明三类地区各生长发育指标之间的差别有高度显著性。
这一计算结果对上述三项生长发育指标进行了单因素的方差分析,可见:
X1: SS = , F =
X2: SS = , F =
X3: SS = , F =
差别均有显著性,说明三项生长发育指标各地区间的差别均有显著性。
Combined Observed Means for G
Variable .. X1
G
1 WGT.
UNWGT.
2 WGT.
UNWGT.
3 WGT.
UNWGT.
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Variable .. X2
G
1 WGT.
UNWGT.
2 WGT.
UNWGT.
3 WGT.
UNWGT.
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Variable .. X3
G
1 WGT.
UNWGT.
2 WGT.
UNWGT.
3 WGT.
UNWGT.
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
WITHIN+RESIDUAL Correlations with Std. Devs. on Diagonal
X1 X2 X3
X1
X2 .747
X3 .490 .713
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Statistics for WITHIN+RESIDUAL correlations
Log(Determinant) = .00000
Bartlett test of sphericity = . with 3 D. F.
Significance = .
F(max) criterion = with (3,87) D. F.
WITHIN+RESIDUAL Variances and Covariances
X1 X2 X3
X1
X2
X3
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
WITHIN+RESIDUAL Sum-of-Squares and Cross-Products
X1 X2 X3
X1
X2
X3
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
EFFECT .. G
Adjusted Hypothesis Sum-of-Squares and Cross-Products
X1 X2 X3
X1
X2
X3
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Multivariate Tests of Significance (S = 2, M = 0, N = 41 1/2)
Test Name Value Hypoth. DF Error DF Sig. of F
Pillais .51227 .000
Hotellings .70427 .000
Wilks .55014 .000
Roys .31265
Note.. F statistic for WILKS' Lambda is exact.
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
EFFECT .. G (Cont.)
Univariate F-tests with (2,87) D. F.
Variable Hypoth. SS Error SS Hypoth. MS Error MS F Sig. of F
X1 .000
X2 .000
X3 .001
之后按单元输出各项指标的观察值均数()、调整均数()、估计均数()、粗误差(Raw Resid)、标准化误差()以及不分地区的总均数(Comined Adjusted Means for G)。
Adjusted and Estimated Means
Variable .. X1
CELL Obs. Mean Adj. Mean Est. Mean Raw Resid. Std. Resid.
1 .000 .000
2 .000 .000
3 .000 .000
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Adjusted and Estimated Means (Cont.)
Variable .. X2
CELL Obs. Mean Adj. Mean Est. Mean Raw Resid. Std. Resid.
1 .000 .000
2 .000 .000
3 .000 .000
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Adjusted and Estimated Means (Cont.)
Variable .. X3
CELL Obs. Mean Adj. Mean Est. Mean Raw Resid. Std. Resid.
1 .000 .000
2 .000 .000
3 .000 .000
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Combined Adjusted Means for G
Variable .. X1
G
1 UNWGT.
2 UNWGT.
3 UNWGT.
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Variable .. X2
G
1 UNWGT.
2 UNWGT.
3 UNWGT.
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Variable .. X3
G
1 UNWGT.
2 UNWGT.
3 UNWGT.
最后,系统输出各变量的离差参数。用户可据此计算预测值,
预测值 Y = 总均数 + 该变量离差参数 + 变量间交互效应的离差参数
如本例因无变量间交互效应的离差参数,故甲地区8岁男生的身高预测值为 Y = + ()= 。
上式中可从系统输出的Combined Adjusted Means for G一栏中得到,离差参数 = 0 - - (),这是因为离差参数的合计总为0的缘故。余同,在此不作赘述。
Estimates for X1
--- Individual univariate .9500 confidence intervals
G
Parameter Coeff. Std. Err. t-Value Sig. t Lower -95% CL- Upper
2 .77816 .00000
3 .77816 .00791
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Estimates for X2
--- Individual univariate .9500 confidence intervals
G
Parameter Coeff. Std. Err. t-Value Sig. t Lower -95% CL- Upper
2 .36670 .00081 .54447
3 .36670 .00007
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Estimates for X3
--- Individual univariate .9500 confidence intervals
G
Parameter Coeff. Std. Err. t-Value Sig. t Lower -95% CL- Upper
2 .41261 .00025 .75655
3 .41261 .17568 .25678