第九章 方差分析及回归分析
关键词:
单因素方差分析
一元线性回归
方差分析的提出
方差分析中的相关概念
试验指标:在试验中要考察的指标
因素:影响试验指标的条件。包括可控因素和不可控因素
单因素试验:在一项试验中只有一个因素在改变的试验
多因素试验:在一项试验中多于一个因素在改变的试验
水平:因素所处的状态
§1单因素试验的方差分析
在一项试验中只有一个因素在改变的试验。如只考虑氮肥的不同施用量对水稻产量的影响,而不考虑其他原因对产量的影响。得到如下数据:
(一)单因素试验
一般, 假设单因素试验中,有r个水平,共有n个试验数据。对应于因素第i个水平的组中有ni个试验数据,相应变量数据为
方差分析的三个基本条件
独立性.
数据是来自r个独立总体的简单随机样本
正态性.
r个独立总体均为正态总体
方差齐性.
r个独立总体的方差都相同
检验假设
假设等价于
(二)平方和分解
证明:
n-1
总和
n-r
误差
r-1
因素A
F比
均方
自由度
平方和
方差来源
单因素试验方差分析表
例1: 设有5种治疗荨麻疹的药,要比较它们的疗效。假设将30个病人分成5组,每组6人,令同组病人使用一种药,并记录病人从使用药物开始到痊愈所需时间,得到下面的记录:(=)
药物x
治愈所需天数y
1
5,8,7,7,10,8
2
4,6,6,3,5,6
3
6,4,4,5,4,3
4
7,4,6,6,3,5
5
9,3,5,7,7,6
这里药物是因素,共有5个水平,这是一个单因素方差分析问题,要检验的假设是“所有药物的效果都没有差别”。
方
差
分
析
表
29
总和
25
误差
4
药物因素
F比
均方
自由度
平方和
方差来源
未知参数的估计
例4:某高校随机抽取了四个年级共61名学生,对他们的月生活费作问卷调查,考察不同年级同学月生活费间是否有显著差异。设数据符合单因素方差分析模型所要求的条件。
(1)完成下列方差分析表
(2)在显著性水平下,检验各年级同学月生活费是否有显著差异?(说明理由)
方差分析的前提
方差分析和其它统计推断一样, 样本的独立性对方差分析是非常重要的, 在实际应用中会经常遇到非随机样本的情况,这时使用方差分析得出的结论不可靠. 因此, 在安排试验或采集数据的过程中, 一定要注意样本的独立性问题.
在实际中, 没有一个总体真正服从正态分布的, 而方差分析却依赖于正态性的假设.
不过由经验可知, 方差分析F检验对正态性的假设并不是非常敏感, 即, 实际所得到的数据, 若没有异常值和偏性, 或者说, 数据显示的分布比较对称的话, 即使样本容量比较小(如每个水平下的样本容量仅为5左右), 方差分析的结果仍是值得信赖的.
方差齐性对于方差分析是非常重要的, 因此在方差分析之前往往要进行方差齐性的诊断, 检验方差齐性假设通常采用Barlett检验*.
不过,也可采用如下的经验准则:
当最大样本标准差不超过最小样本标准差的两倍时, 方差分析F检验结果近似正确.
一元线性回归分析
一、确定性关系:
当自变量给定一个值时,就确定应变量的值与之对应。即有 y=f(x).
如:在自由落体中,物体下落的高度h与下落时间t之间有函数关系:
变量与变量之间的关系
变量之间的关系并不确定,而是表现为具有随机性的一种“趋势”。即对自变量x的同一值,在不同的观测中,因变量Y可以取不同的值,而且取值是随机的,但对应x在一定范围的不同值,对Y进行观测时,可以观察到Y随x的变化而呈现有一定趋势的变化。
如:身高与体重,不存在这样确定的函数可以由身高计算出体重,但从统计意义上来说,身高者,体也重。
再如:父亲的身高与儿子的身高之间也有一定联系,通常父亲高,儿子也高。
回归分析——研究相关性关系的最基本、应用最广泛的方法。
二、相关性关系:
(一)一元线性回归
在实际问题中,回归函数μ(x)一般是未知的,
需要根据试验数据去估计, 而Y是可以观察的。
一元线性回归要解决的问题:
在误差为正态分布假定下,最小二乘估计等价于极大似然估计。
关于计算
相关系数
例1: 收集了大量父亲身高与儿子身高的资料。其中十对如下:
70
66
儿子身高
y(英寸)
74
72
70
68
67
66
65
64
62
60
父亲身高
x(英寸)
求Y关于x的线性回归方程。
注:1英寸=厘米
(三)误差方差的估计
误差方差估计的意义:
误差方差的大小对模型好坏有很大的影响。
自变量对因变量影响的大小是同误差对因变量的影响相比较的。如果自变量对因变量的影响不能显著的超过误差对因变量的影响,就很难从这样的模型中提炼出有效的、有足够精度的信息。
例2: 求例1中误差方差的无偏估计。
(四)线性假设的显著性检验
(1)影响Y取值的,除了x,还有其他不可忽略的因素;
(2)E(Y)与x的关系不是线性关系,而是其他关系;
(3)Y与x不存在关系。
若原假设被拒绝,说明回归效果是显著的,否则,若接受原假设,说明Y与x不是线性关系,回归方程无意义。
回归效果不显著的原因可能有以下几种:
也可用方差分析检验回归效果是否显著
(六)回归函数 函数值的点估计和置信区间
(七)Y的观察值的点预测和预测区间
注:在预测时, 一定要落在已有的 的数据范围内部,否则预测常常没有意义。
例5:合金钢的强度y与钢材中碳的含量x有密切关系。为了冶炼出符合要求强度的钢常常通过控制钢水中的碳含量来达到目的,为此需要了解y与x之间的关系。其中
x:碳含量(%) y:钢的强度(kg/mm2)数据见下:
y
x
56 54 52 50 48 46 44 42 40 38
(1)合金钢的强度y与钢材中碳的含量x的散点图
y
x
x
0
e
56 54 52 50 48 46 44 42 40 38
合金钢的强度y与钢材中碳的含量x的回归直线图
(八)可化为一元线性回归的例子
在实际问题中,常常会遇到这样的情形:散点图上的几个样本数据点明显地不在一条直线附近,而在某曲线周围。
或者,用线性回归方程描述变量间的关系计算的结果与样本值误差较大,这表明变量之间不存在线性相关关系,而是一种非线性的相关关系.
但在某些情况下,通过适当的变量变换,可将其化为一元线性回归来处理。
下面是几种常见的可转化为一元线性回归的模型。
可化为一元线性回归的例子
例 在彩色显像技术中,考虑析出银的光学密度x与形成染料光学密度Y之间的相关关系,其中
11个样本数据如下所示:
yi
xi
解 根据这11个样本数据点
(xi,yi)作出散点图.
从散点图上看出,这些数据点在一条曲线L周围.
根据有关的专业知识,结合散点图,可以认为曲线L大致为:
于是数据( )相应地变换成( )
将变换后的数据点( )画出散点图
从散点图可以看出 与 具有线性相关关系,因此用一元线性回归分析.
利用一元线性回归的方法可以计算出 与 的经验回归方程为
可求得x与y之间相关关系的一个经验公式:
这里a=,b=
所以
3′″
2′″
1′″
″
″
″
时间t(分′秒″)
1500
1000
800
400
200
100
距离X(米)
例 赛跑是大家熟知的一种体育活动。下表给出了截至1997年底在6个不同的距离上中短跑成绩的世界记录:
试根据这些记录数据分析出运动员的赛跑成绩与所跑距离间的相关关系。
解 根据记录数据点(xi,ti)作出散点图
从散点图上看出,全部点(xi,ti)分布在一条曲线附近,因而x与t之间可以存在一种线性关系。
用一元线性回归分析,可计算出x与t间的线性回归模型为
t = +
由此模型,当x=100,200,400,800,1000,1500(米)时,
t的理论值: ″, ″,″,1'″,2'″,3'″
可以看出t的理论值与实际记录数据多数都比较接近。
仔细分析,可发现线性回归模型的一些不合理之处。
如:当赛跑距离小于68米时,所需时间为负值;
当赛跑距离为100米时所需时间只须″.
再仔细分析,发现:短距离100米、200米及长距离1500米需要的时间实际值均高于线性模型的理论值,而中间的400米、800米、1000米需要的时间实际值均低于线性模型的理论值.
t的实际值: ″, ″,″,1'″,2'″,3’″
它告诉我们x与t的关系可能为一曲线,且曲线是下凸的。
对上式二边取对数
lnt=lna+blnx
令
t′=lnt a′=lna x′=lnx
得 t′= a′+b x′为一线性关系
具有这种性质的最简单曲线当属幂函数:
t=axb
用一元线性回归分析估计a′、b,从而算出
最后可得t与x间的幂函数模型:
t=
当x=100,200,400,800,1000,1500(米)时,
利用幂函数模型算出t的理论值分别为:
t的理论值2: ″,″,″,1'″, 2'′,3'″
比较计算结果可知:幂函数模型比线性回归模型更能确切地反映t与x间的关系。
t的理论值1: ″, ″,″,1'″,2'″,3'″
t的实际值: ″, ″,″,1'″,2'″,3’″
多元线性回归
在实际问题中,影响Y(因变量)的因素(自变量)往往不止一个,设有
例6 某公司在各地区销售一种特殊化妆品。该公司观测了15 个城市在某月内对该化妆品的销售量Y及各地区适合使用该化妆品的人数X1和人均收入X2,得到数据如下:
表 化妆品销售的调查数据
地区
i
销售(箱)
Yi
人数(千人)
Xi1
人均收入(元)Xi2
1
162
274
2450
2
120
180
3254
3
223
375
3802
4
131
205
2838
5
67
86
2347
6
169
265
3782
7
81
98
3008
地区
i
销售(箱)
Yi
人数(千人)
Xi1
人均收入 (元)Xi2
8
192
330
2450
9
116
195
2137
10
55
53
2560
11
252
430
4020
12
232
372
4427
13
144
236
2660
14
103
157
2088
15
212
370
2605
化妆品销售的调查数据(续)
由回归方程可知,若固定人均收入不变,则人数每增加1千人,销售量增加箱;若固定人数不变,收入每增加1元,销售量增加箱。
多元线性回归也可以像一元线性回归一样,检验模型的回归效果是否显著。所不同的是,在模型的回归效果显著的情况下,还要检验每个自变量对因变量的效应是否显著,不显著就要剔除,通常用逐步回归法可以使回归方程变得简洁、明确、显著。在此基础上可以对给定点处对应的Y进行点预测和区间预测。所有这些都可以通过SAS软件实现。
回归函数线性的诊断
误差方差齐性诊断
误差的独立性诊断
误差的正态性诊断
回归诊断
一、回归函数线性的诊断
(2)模型修正
模型修改后的预测值及残差
模型修改后的残差图
二、误差方差齐性诊断
(2)模型修正
如果发现线性假设是不适合, 那么就需要修改模型. 在目前的回归分析的知识水平下, 不一定能很好地修改误差方差不相等这类模型, 但可以尝试响应变量的数据变换。
用变换后的数据, 求出线性回归方程, 求出残差, 并画出以拟合值为横座标的残差图, 如果这里残差图已经没有任何规律, 那么说明这种变换是适合的.
三、误差的独立性诊断
在不少有关时间问题中,观测值往往呈相关的趋势。如河流的水位总有一个变化过程,当一场暴雨使河流水位上涨后往往需要几天才能使水位降低,因而当我们逐日测定河流最高水位时,相邻两天的观测间就不一定独立。
(1)模型诊断
常用的残差图是以“时间”或“序号”为横座标的残差图. 相关性大约有二类.
一类是正相关, 随机误差之间具有正相关的话,那么残差图中残差“符号”会出现“集团性”的趋势,即连续有一段时间内残差均为 “正号”, 然后又一段时间内残差均为“负号”
另一类是负相关, 此时,残差的符号改变非常频繁,大致有正负相间的趋势.
残差图
残差图
(2)模型修改
四、误差的正态性诊断
我们可采用卡方拟合检验对残差进行正态性的检验, 也可以用残差画一下直方图, 直观地判断残差量是不是具有正态性.
如果模型的误差不满足正态性时, 一般可以作Box-Cox变换, 这部分的内容这里不详细介绍, 有兴趣的同学可以参考有关的回归分析的参考文献.
Enter the password to open this PDF file:
使用电脑下载
- 1
使用电脑打开以下地址
doc.mbalib.com
- 2
在搜索框输入以下数字并搜索
(30分钟内有效)
- 3
下载当前文档