第十章 统计回归模型
牙膏的销售量
软件开发人员的薪金
酶促反应
投资额与国民生产总值和
物价指数
回归模型是用统计分析方法建立的最常用的一类模型
数学建模的基本方法
机理分析
测试分析
通过对数据的统计分析,找出与数据拟合最好的模型
不涉及回归分析的数学原理和方法
通过实例讨论如何选择不同类型的模型
对软件得到的结果进行分析,对模型进行改进
由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型。
牙膏的销售量
问题
建立牙膏销售量与价格、广告投入之间的模型
预测在不同价格和广告费用下的牙膏销售量
收集了30个销售周期本公司牙膏销售量、价格、广告费用,及同期其它厂家同类牙膏的平均售价
30
29
2
1
销售量
(百万支)
价格差
(元)
广告费用
(百万元)
其它厂家价格(元)
本公司价格(元)
销售周期
基本模型
y ~公司牙膏销售量
x1~其它厂家与本公司价格差
x2~公司广告费用
x2
y
x1
y
x1, x2~解释变量(回归变量, 自变量)
y~被解释变量(因变量)
0, 1 , 2 , 3 ~回归系数
~随机误差(均值为零的正态分布随机变量)
MATLAB 统计工具箱
模型求解
[b,bint,r,rint,stats]=regress(y,x,alpha)
输入
x= ~n4数据矩阵, 第1列为全1向量
alpha(置信水平,)
b~的估计值
bint~b的置信区间
r ~残差向量y-xb
rint~r的置信区间
Stats~
检验统计量
R2,F, p
y~n维数据向量
输出
由数据 y,x1,x2估计
参数
参数估计值
置信区间
[ ]
[ ]
[ ]
[ ]
R2= F= p=
0
1
2
3
结果分析
y的%可由模型确定
参数
参数估计值
置信区间
[ ]
[ ]
[ ]
[ ]
R2= F= p=
0
1
2
3
F远超过F检验的临界值
p远小于=
2的置信区间包含零点(右端点距零点很近)
x2对因变量y 的影响不太显著
x22项显著
可将x2保留在模型中
模型从整体上看成立
销售量预测
价格差x1=其它厂家价格x3-本公司价格x4
估计x3
调整x4
控制价格差x1=元,投入广告费x2=650万元
销售量预测区间为 [,](置信度95%)
上限用作库存管理的目标值
下限用来把握公司的现金流
若估计x3=,设定x4=,则可以95%的把握知道销售额在 29(百万元)以上
控制x1
通过x1, x2预测y
(百万支)
模型改进
x1和x2对y的影响独立
参数
参数估计值
置信区间
[ ]
[ ]
[ ]
[ ]
R2= F= p=
0
1
2
3
参数
参数估计值
置信区间
[ ]
[ ]
[ ]
[ ]
[ ]
R2= F= p=
3
0
1
2
4
x1和x2对y的影响有交互作用
两模型销售量预测比较
(百万支)
区间 [,]
区间 [,]
(百万支)
控制价格差x1=元,投入广告费x2=百万元
预测区间长度更短
略有增加
x2=
x1=
x1
x1
x2
x2
两模型 与x1,x2关系的比较
交互作用影响的讨论
价格差 x1=
价格差 x1=
加大广告投入使销售量增加
( x2大于6百万元)
价格差较小时增加的速率更大
x2
价格优势会使销售量增加
价格差较小时更需要靠广告来吸引顾客的眼球
完全二次多项式模型
MATLAB中有命令rstool直接求解
x1
x2
从输出 Export 可得
软件开发人员的薪金
资历~ 从事专业工作的年数;管理~ 1=管理人员,0=非管理人员;教育~ 1=中学,2=大学,3=更高程度
建立模型研究薪金与资历、管理责任、教育程度的关系
分析人事策略的合理性,作为新聘用人员薪金的参考
编号
薪金
资历
管理
教育
01
13876
1
1
1
02
11608
1
0
3
03
18701
1
1
3
04
11283
1
0
2
编号
薪金
资历
管理
教育
42
27837
16
1
2
43
18838
16
0
2
44
17483
16
0
1
45
19207
17
0
2
46
19346
20
0
1
46名软件开发人员的档案资料
分析与假设
y~ 薪金,x1 ~资历(年)
x2 = 1~ 管理人员,x2 = 0~ 非管理人员
1=中学2=大学3=更高
资历每加一年薪金的增长是常数;
管理、教育、资历之间无交互作用
教育
线性回归模型
a0, a1, …, a4是待估计的回归系数,是随机误差
中学:x3=1, x4=0 ;大学:x3=0, x4=1; 更高:x3=0, x4=0
模型求解
参数
参数估计值
置信区间
a0
11032
[ 10258 11807 ]
a1
546
[ 484 608 ]
a2
6883
[ 6248 7517 ]
a3
-2994
[ -3826 -2162 ]
a4
148
[ -636 931 ]
R2= F=226 p=
R2,F, p 模型整体上可用
资历增加1年薪金增长546
管理人员薪金多6883
中学程度薪金比更高的少2994
大学程度薪金比更高的多148
a4置信区间包含零点,解释不可靠!
中学:x3=1, x4=0;大学:x3=0, x4=1; 更高:x3=0, x4=0.
x2 = 1~ 管理,x2 = 0~ 非管理
x1~资历(年)
残差分析方法
结果分析
残差
e 与资历x1的关系
e与管理—教育组合的关系
残差全为正,或全为负,管理—教育组合处理不当
残差大概分成3个水平, 6种管理—教育组合混在一起,未正确反映 。
应在模型中增加管理x2与教育x3, x4的交互项
组合
1
2
3
4
5
6
管理
0
1
0
1
0
1
教育
1
1
2
2
3
3
管理与教育的组合
进一步的模型
增加管理x2与教育x3, x4的交互项
参数
参数估计值
置信区间
a0
11204
[11044 11363]
a1
497
[486 508]
a2
7048
[6841 7255]
a3
-1727
[-1939 -1514]
a4
-348
[-545 –152]
a5
-3071
[-3372 -2769]
a6
1836
[1571 2101]
R2= F=554 p=
R2,F有改进,所有回归系数置信区间都不含零点,模型完全可用
消除了不正常现象
异常数据(33号)应去掉
e ~ x1
e ~组合
去掉异常数据后的结果
参数
参数估计值
置信区间
a0
11200
[11139 11261]
a1
498
[494 503]
a2
7041
[6962 7120]
a3
-1737
[-1818 -1656]
a4
-356
[-431 –281]
a5
-3056
[-3171 –2942]
a6
1997
[1894 2100]
R2= F=36701 p=
e ~ x1
e ~组合
R2:
F: 226 554 36701
置信区间长度更短
残差图十分正常
最终模型的结果可以应用
模型应用
制订6种管理—教育组合人员的“基础”薪金(资历为0)
组合
管理
教育
系数
“基础”薪金
1
0
1
a0+a3
9463
2
1
1
a0+a2+a3+a5
13448
3
0
2
a0+a4
10844
4
1
2
a0+a2+a4+a6
19882
5
0
3
a0
11200
6
1
3
a0+a2
18241
中学:x3=1, x4=0 ;大学:x3=0, x4=1; 更高:x3=0, x4=0
x1= 0; x2 = 1~ 管理,x2 = 0~ 非管理
大学程度管理人员比更高程度管理人员的薪金高
大学程度非管理人员比更高程度非管理人员的薪金略低
对定性因素(如管理、教育),可以引入0-1变量处理,0-1变量的个数应比定性因素的水平少1
软件开发人员的薪金
残差分析方法可以发现模型的缺陷,引入交互作用项常常能够改善模型
剔除异常数据,有助于得到更好的结果
注:可以直接对6种管理—教育组合引入5个0-1变量
酶促反应
问题
研究酶促反应(酶催化反应)中嘌呤霉素对反应速度与底物(反应物)浓度之间关系的影响
建立数学模型,反映该酶促反应的速度与底物浓度以及经嘌呤霉素处理与否之间的关系
设计了两个实验 :酶经过嘌呤霉素处理;酶未经嘌呤霉素处理。实验数据见下表:
方案
/
160
158
144
124
131
115
98
86
84
51
67
未处理
200
207
201
191
152
159
139
123
107
97
47
76
处理
反应速度
底物浓度(ppm)
基本模型
Michaelis-Menten模型
y ~ 酶促反应的速度, x ~底物浓度
1 , 2 ~ 待定系数
底物浓度较小时,反应速度大致与浓度成正比;
底物浓度很大、渐进饱和时,反应速度趋于固定值。
酶促反应的基本性质
x
y
0
1
实验数据
经嘌呤霉素处理
x
y
未经嘌呤霉素处理
x
y
线性化模型
经嘌呤霉素处理后实验数据的估计结果
R2= F= p=
[ ]
2
[ ]
1
置信区间(×10-3)
参数估计值(×10-3)
参数
对1 , 2非线性
对1, 2线性
线性化模型结果分析
x较大时,y有较大偏差
1/x较小时有很好的线性趋势,1/x较大时出现很大的起落
参数估计时,x较小(1/x很大)的数据控制了回归参数的确定
1/y
1/x
x
y
[beta,R,J] = nlinfit (x,y,’model’,beta0)
beta的置信区间
MATLAB 统计工具箱
输入
x~自变量数据矩阵
y ~因变量数据向量
beta ~参数的估计值R ~残差,J ~估计预测误差的Jacobi矩阵
model ~模型的函数M文件名
beta0 ~给定的参数初值
输出
betaci =nlparci(beta,R,J)
非线性模型参数估计
function y=f1(beta, x)
y=beta(1)*x./(beta(2)+x);
x= ; y= ;
beta0=[ ];
[beta,R,J]=nlinfit(x,y,’f1’,beta0);
betaci=nlparci(beta,R,J);
beta, betaci
beta0~线性化模型估计结果
非线性模型结果分析
[ ]
2
[ ]
1
置信区间
参数估计值
参数
画面左下方的Export 输出其它统计结果。
拖动画面的十字线,得
y的预测值和预测区间
剩余标准差s=
最终反应速度为
半速度点(达到最终速度一半时的x值 )为
其它输出
命令nlintool 给出交互画面
o ~原始数据
+ ~ 拟合结果
混合反应模型
x1为底物浓度, x2为一示性变量
x2=1表示经过处理,x2=0表示未经处理
β1是未经处理的最终反应速度
γ1是经处理后最终反应速度的增长值
β2是未经处理的反应的半速度点
γ2是经处理后反应的半速度点的增长值
在同一模型中考虑嘌呤霉素处理的影响
o ~原始数据
+ ~拟合结果
混合模型求解
用nlinfit 和 nlintool命令
估计结果和预测
剩余标准差s=
[ ]
2
[ ]
1
[ ]
2
[ ]
1
置信区间
参数估计值
参数
2置信区间包含零点,表明2对因变量y的影响不显著
参数初值
(基于对数据的分析)
经嘌呤霉素处理的作用不影响半速度点参数
未经处理
经处理
o ~原始数据
+ ~拟合结果
未经处理
经处理
简化的混合模型
简化的混合模型形式简单,参数置信区间不含零点
剩余标准差 s = ,比一般混合模型略大
估计结果和预测
[ ]
1
[ ]
2
[ ]
1
置信区间
参数估计值
参数
一般混合模型与简化混合模型预测比较
200
207
201
191
…
…
…
…
…
84
51
67
Δ(简化模型)
简化模型预测值
Δ(一般模型)
一般模型预测值
实际值
简化混合模型的预测区间较短,更为实用、有效
预测区间为预测值 Δ
注:非线性模型拟合程度的评价无法直接利用线性模型的方法,但R2 与s仍然有效。
酶促反应
反应速度与底物浓度的关系
非线性关系
求解线性模型
求解非线性模型
机理分析
嘌呤霉素处理对反应速度与底物浓度关系的影响
混合模型
发现问题,得参数初值
引入0-1变量
简化模型
检查参数置信区间是否包含零点
投资额与国民生产总值和物价指数
问题
建立投资额模型,研究某地区实际投资额与国民生产总值 ( GNP ) 及物价指数 ( PI ) 的关系
20
10
19
9
18
8
17
7
16
6
15
5
14
4
13
3
12
2
11
1
物价
指数
国民生产总值
投资额
年份
序号
物价
指数
国民生产总值
投资额
年份序号
根据对未来GNP及PI的估计,预测未来投资额
该地区连续20年的统计数据
时间序列中同一变量的顺序观测值之间存在自相关
以时间为序的数据,称为时间序列
分析
许多经济数据在时间上有一定的滞后性
需要诊断并消除数据的自相关性,建立新的模型
若采用普通回归模型直接处理,将会出现不良后果
投资额与国民生产总值和物价指数
…
…
…
…
…
…
…
…
14
4
13
3
12
2
11
1
物价
指数
国民生产总值
投资额
年份
序号
物价
指数
国民生产总值
投资额
年份序号
基本回归模型
投资额与 GNP及物价指数间均有很强的线性关系
t ~年份, yt ~ 投资额,x1t~ GNP, x2t ~ 物价指数
0, 1, 2 ~回归系数
x1t
yt
x2t
yt
t ~对t相互独立的零均值正态随机变量
基本回归模型的结果与分析
MATLAB 统计工具箱
R2= F= p=
[ ]
2
[ ]
1
[ ]
0
置信区间
参数估计值
参数
剩余标准差 s=
没有考虑时间序列数据的滞后性影响
R2=,拟合度高
模型优点
模型缺点
可能忽视了随机误差存在自相关;如果存在自相关性,用此模型会有不良后果
自相关性的定性诊断
残差诊断法
模型残差
作残差 et~et-1 散点图
大部分点落在第1, 3象限
t 存在正的自相关
大部分点落在第2, 4象限
自相关性直观判断
在MATLAB工作区中输出
et为随机误差t 的估计值
et-1
et
t 存在负的自相关
基本回归模型的随机误差项t 存在正的自相关
自回归性的定量诊断
自回归模型
ρ~自相关系数
0, 1, 2 ~回归系数
ρ= 0
无自相关性
ρ> 0
ρ< 0
如何估计ρ
如何消除自相关性
D-W统计量
D-W检验
ut ~对t相互独立的零均值正态随机变量
存在负自相关性
存在正自相关性
广义差分法
D-W统计量与D-W检验
检验水平,样本容量,回归变量数目
D-W分布表
n较大
DW
4-dU
4
4-dL
dU
dL
2
0
正自
相关
负自
相关
不能确定
不能确定
无自相关
检验临界值dL和dU
由DW值的大小确定自相关性
广义差分变换
以*0, 1 , 2 为回归系数的普通回归模型
原模型 DW值
D-W检验
无自相关
有自相关
广义差分
继续此过程
原模型
新模型
新模型
步骤
原模型
变换
不能确定
增加数据量;选用其它方法
投资额新模型的建立
DWold < dL
作变换
原模型残差et
样本容量n=20,回归变量数目k=3,=
查表
临界值dL=, dU=
DWold=
原模型有正自相关
DW
4-dU
4
4-dL
dU
dL
2
0
正自
相关
负自
相关
不能确定
不能确定
无自相关
R2= F= p=
[ ]
2
[ ]
1
[ ]
*0
置信区间
参数估计值
参数
总体效果良好
剩余标准差
snew= < sold=
投资额新模型的建立
新模型的自相关性检验
dU< DWnew < 4-dU
新模型残差et
样本容量n=19,回归变量数目k=3,=
查表
临界值dL=, dU=
DWnew=
新模型无自相关性
DW
4-dU
4
4-dL
dU
dL
2
0
正自
相关
负自
相关
不能确定
不能确定
无自相关
新模型
还原为
原始变量
一阶自回归模型
一阶自回归模型残差et比基本回归模型要小
新模型 et~ *,原模型 et~ +
残差图比较
新模型 ŷt ~ *,新模型 ŷt ~ +
拟合图比较
模型结果比较
基本回归模型
一阶自回归模型
投资额预测
对未来投资额yt 作预测,需先估计出未来的国民生产总值x1t 和物价指数 x2t
设已知 t=21时, x1t =3312,x2t=
一阶自回归模型
20
19
18
3
2
1
物价
指数
国民生产总值
投资额
年份
序号
物价
指数
国民生产总值
投资额
年份序号
一阶自回归模型
基本回归模型
ŷt 较小是由于yt-1=过小所致