1
第一节 一元线性回归分析预测法
一、 概念(思路)
根据预测变量(因变量)Y 和影响因素(自变量)X 的历史统计数
据,建立一元线性回归方程 ,然后代入 X 的预测值,
求出 Y 的预测值的方法。
基本公式:y=a+bx
其中:a、b 为回归系数,是未知参数。
基本思路:
1、 利用 X,Y 的历史统计数据,求出合理的回归系数:a、b,确
定出回归方程
2、 根据预计的自变量 x 的取值,求出因变量 y 的预测值。
二、 一元线性回归方程的建立
1、 使用散点图定性判断变量间是否存在线性关系
例:某地区民航运输总周转量和该地区社会总产值由密切相关关系。
年份 总周转量(亿吨公里)Y 社会总产值(百亿元)X
1 30
2 36
3 38
4 41
5 48
6 52
7 53
8
9 55
xbay ˆˆˆ
2
2、 使用最小二乘法确定回归系数
使实际值与理论值误差平方和最小的参数取值。
对应于自变量 xi,预测值(理论值)为 b+m*xi,实际值 yi,
min∑(yi-b-mxi)2,求 a、b 的值。
使用微积分中求极值的方法,得:
由下列方程代表的直线的最小二乘拟合直线的参数公式:
其中 m 代表斜率 ,b 代表截距。
某地区民航运输总周转量和社会总产值关系图
10
11
12
13
14
15
16
17
18
19
20
20 25 30 35 40 45 50 55 60
xmyb
xxn
yxyxn
m
bmxy
ii
iiii
ˆˆ
)(
ˆ
22
3
一元线性回归.xls
三、 回归方程的显著性检验
判断 X、Y 之间是否确有线性关系,判定回归方程是否有意义。
有两类检验方法:相关系数检验法和方差分析法
1、 相关系数检验法
构造统计量 r
相关系数的取值范围为:[-1,1],|r|的大小反映了两个变量间线性
关系的密切程度,利用它可以判断两个变量间的关系是否可以用直线
方程表示。
r 值 两变量之间的关系
r=1 完全正相关
1>r>
0
正相关,越接近 1,相关性越强。越接
近 0,相关性越弱
r=0 不线性相关
])(][)([
)()(
))((
2222
22
iiii
iiii
yyxx
xy
ii
ii
yynxxn
yxyxn
ss
S
yyxx
yyxx
r
%E4%B9%A6%E4%B8%8A%E4%B8%80%E5%85%83%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%
%E4%B9%A6%E4%B8%8A%E4%B8%80%E5%85%83%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%
4
0>r>
-1
负相关,越接近-1,相关性越强;越接
近 0,相关性越弱
r=-1 完全负相关
两个变量是否存在线性相关关系的定量判断规则:
对于给定的置信水平α,从相关系数临界值表中查出 r 临(n-2),把
其与用样本计算出来的统计量 r0 比较:
若|r0|〉r 临(n-2)成立,则认为 X、Y 之间存在线性关系,回归方程
在α水平上显著。差异越大,线性关系越好。反之则认为不显著,回归方
程无意义,变量间不存在线性关系。
其中:n 为样本数。
2、 方差分析法:
方差分析的基本特点是把因变量的总变动平方和分为两部分,一部
分反映因变量的实际值与用回归方程计算出的理论值之差,一部分反
映理论值与实际值的平均值之差。
Y 的总变差=Y 的残余变差+Y 的说明变差,SST=SSE+SSR
或:总离差平方和=剩余平方和+回归平方和
5
回归平方和 U 与剩余平方和 Q 相比越大,说明回归效果越好。
注:在方差分析中,已被解释的和未被解释的变差除以相应的自由度的
个数即变为方差。Y 的方差是 Y 的总偏差平方和除以 n-1,被解释的
方差等于被解释的变差(因为回归只比估计 Y 的均值多用一个约束条
件),残余方差等于残差偏差平方和除以 n-2,残差的方差 S2 是误差
方差的无偏且一致的估计(S 叫做回归标准差)S2=Q/(n-m)
定量判断回归有效性有两种方法:
(1)可决系数检验法
拟合优度统计量;判定系数 :r2=SSR/SST=U/Syy
调整的 r2 =1-[Q/(n-m)]/[Syy/(n-1)]
复相关系数检验法:构造统计量 R=SQRT[1-Q/Syy]=SQRT
(U/Syy)
判断规则:
对于给定的置信度α,从相关系数 r 分布表中查出 r 临(n-m),
把其与用样本计算出来的统计量 R0 比较:
UQS
yy
Q
yy
Sn
yy
yyyyyy
yy
ii
ii
yy
i
iiiii
UYX
)ˆ(
YX
)ˆ(
)(
)ˆ()ˆ()(
2
2
2
222
差、可解释变差,记为的影响造成的,说明变对—由于—
为差、不可解释变差,记的影响造成的,残余变以外其它因素对—除了—
离程度,记为个数据和其平均值的偏——
6
若 R0〉r 临(n-m)成立,则认为回归方程在α水平上显著。反之则
认为不显著,回归方程无意义,变量间不存在线性关系。
(2)F 检验法:构造统计量 F=(U/m-1)/[Q/(n-m)]
其中:m 为变量个数(总数);n 为样本数。
统计量 F 服从第一自由度为 m-1、第二自由度为 n-m 的
F(m-1,n-m)分布。
F=r2/(1-r2)*(n-m)/(m-1)
判断规则:
对于给定的置信度α,从 F 分布表中查出 Fα(m-1,n-m),把其
与用样本计算出来的统计量 F0 比较:
若 F0〉Fα(m-1,n-m)成立,则认为回归方程在α水平上显著。
反之则认为不显著,回归方程无意义,变量间不存在线性关系。
四、 回归方程没有通过检验的原因
1、 定性分析选择的各变量间,本来不存在因果关系。定性分析
设想不准确。
2、 选择的变量间存在因果关系,但还存在其它起着更重要作用
的变量尚未列入模型之中。
3、 选择变量之间的关系是非线性关系。
五、 利用检验通过的回归方程进行预测
y=+
点估计值:若给定 x 值,则 y 的预测值为 +*58=
7
区间估计:
标准误差:S=sqrt((∑e^2)/(n-m))
第二节 一元非线性回归分析预测法
思路:与一元线性回归分析基本相同。即通过变量替换将非线性方程转
化为线性方程;使用最小二乘法建立线性回归方程;在通过逆变换将线
性方程转化为非线性方程。
函数的线性变换及逆变换是个数学问题,不讲了。
例题,参见 160 页:航空货物周转量=a*(社会总产值)α
196 页,SB 机场空运需求预测
202 页,利雅得国际机场业务量预测
第三节 多元回归分析
一、 思路
多元非线性回归分析——转换为多元线性回归分析,多元线性回归分
析,与一元线性回归分析基本相同,只是在自变量的选定上、求解回归
方程及统计检验等方面比一元回归要复杂一些。
设多元线性回归模型为:y=b0+b1*x1+b2*x2+……+bm*xm
二、 参数求法为最小二乘法:
min∑(yi-(b0+b1*x1i+b2*x2i+……+bm*xmi ))2
8
分别对 bj 求偏导数,偏导数等于 0 时,上式取得最小值。
可以得到 m+1 个关于 bj 的标准方程,使用线性代数中的行列式解法,可
以求出回归系数 bj。
以二元回归分析为例,说明多元回归方程的建立
1、 定性判断得知,因变量 Y 与自变量 X1, X2 存在线性相关关系。模
型形式为:y=b0+b1*x1+b2*x2
2、 确定回归系数 b0、b1、b2,最小二乘法。分别对 b0、b1、b2 求偏
导,令偏导数=0,构成如下方程组:
iiiiii
iiiiii
iii
n
i
iiii
n
i
iiii
n
i
iii
xyxbxxbxb
xyxxbxbxb
yxbxbnb
xxbxbby
b
G
xxbxbby
b
G
xbxbby
b
G
2
2
2221120
1212
2
1110
22110
1
222110
2
1
122110
1
1
22110
0
0))((2
0))((2
0)1)((2
整理得:
))((
)(
)(
))((
))((
22112112
2
2222
2
1111
222
111
xxxxSS
xxS
xxS
yyxxS
yyxxS
ii
i
i
iiy
iiy
其中:
9
手工列表计算:
三、 回归方程的统计检验
1、 回归方程的显著性检验,检验回归方程的有效性
检验方法有:F 检验法、复相关系数检验法
2、 回归系数的显著性检验,检验回归系数的有效性,
检验方法有:t 检验法
构造统计量 t
其中:m 为变量个数;n 为样本数。
统计量 t 服从自由度为 n-m 的 t(n-m)分布。
mn
yy
xxb
t
CC
CC
AIAA
SS
SS
A
C
mn
yy
S
CS
b
t
ii
jjij
j
jj
ii
y
jjy
j
j
2
2
2221
121111
2221
1211
2
)ˆ(
)(
jA
)ˆ(
ˆ
个元素第的拟矩阵的对角线上的为矩阵
21122211
221211
2221
1211
221
111
2
2
21122211
212221
2221
1211
222
121
1
1
22110
SSSS
SSSS
SS
SS
SS
SS
A
C
b
SSSS
SSSS
SS
SS
SS
SS
A
C
b
xbxbyb
yyy
y
yyy
y
得:
10
判断规则:
对于给定的置信度α,从 t 分布表中查出 tα/2(n-m),把其与用样本计
算出来的统计量 t0 比较:
若 t0〉tα(n-m)成立,则认为回归方程在α水平上显著。反之则认为不
显著,回归系数无意义,变量间不存在线性相关关系。
统计假设检验总结:对于一元回归,四种检验方法选一即可;对于多元
回归必须进行 t 检验和 R、F 间严重的一种。
检验目的 检验方法 统计量 判断规则
相关系数检验法 r
复相关系数检验法 R检验回归方程的
有效性 F 检验 F
检验回归系数的
有效性
t 检验 t
四、 例题:
国外预测模型简介
全行业运量预测
五、 几个基本问题及内在假设
1、 自变量的选择——(回归分析测法的程序)
1) 确定预测变量
2) 确定影响预测变量的因素——定性分析,具有经济上的意义和内
在的因果关系。
3) 收集整理预测变量及其影响因素的历史统计资料
11
4) 分析因变量和自变量的关系,确定回归模型——定量分析,因变
量与自变量、自变量之间的相关系数,判别因变量和自变量是否
显著相关,显著相关的影响因素作为自变量;同时与因变量不相
关或与某个自变量高度线性相关的自变量,应予剔除。
实践经验确定
散点图分析确定
理论试算(计算拟和误差(预测误差)),选出拟和程度最好
的模型
5) 求解模型参数,建立回归方程
6) 检验回归方程的有效性
7) 利用检验通过的回归方程进行预测,并确定预测值的置信区间
2、 多元共线性(多重共线性)
1) 概念:回归分析中,自变量之间存在着相关关系,称这种关
系为多元共线性。
多元回归分析的假设是自变量之间是独立的。得出的参数估计值是不
可靠的。
例如:某省宏观经济模型中,
建筑业产值=+*工业总产值*上年工业总产值
+*上年建筑业产值
负号的出现很难解释,上年工业总产值和上年建筑业产值存在共线
性。
12
2) 检验多元共线性的方法:
U——χ2(m-1)分布
Q——χ2(n-m)分布
Syy——χ2(n-1)分布
拟和优度判定系数:
① 判定系数法:把某自变量用其它自变量进行回归计算,计算
相应的判定系数 R2,若 R2 较大,说明本自变量可以用其它自变量
的线性组合替代,存在多重共线性。或者用因变量分别与含有本
自变量或不含有本自变量的自变量组合进行回归计算,若两者计
算的判定系数差不多,则说明本自变量与其它自变量间存在多元
共线性。
① 逐步回归法:逐个引进自变量,根据 R2 的变化情况判断是否
存在多重共线性。若 R2 变化显著,则不存在多重共线性,应引
入;若 R2 无显著变化,则无需引入。
① 偏相关系数检验法,计算两两变量间的相关系数,进行分析
检验。
3、 自相关(序列相关)
概念:若随机误差项在不同样本之间存在相关性,ei 与 ej 相关,则称
为序列相关;较多的是 ei 与 eI+1 之间序列相关,称为自相关
自相关的检验:
)1/(
)/(
12
nS
mnQ
R
yy
13
① 达宾—沃尔森检验
计算出 值后,查达宾—沃尔森检验表判定是否存在自相关。
① 冯诺曼比检验
① 回归检验
4、 线性假设
回归的另一假设是线性假设,因变量和自变量间的关系可以用线性表
示出来。无法将其转化为线性的回归方程,不能采用回归分析方法,而
要采取别的方法,如仿真方法。
5、 样本数据
样本数据的多少,影响变量个数的选择。5 个数据,一个自变量;三
十个数据,最多只能有 5 个自变量。
有 20 个到 30 个样本数据,预测精度较高。
第四节 自回归分析——实质是时间序列分析法
利用预测变量本身的时间序列在不同时期取值之间存在的依存关
系,即自身相关,建立起回归方程进行预测的方法。
预测模型:yt=b0+b1yt-1+ b2yt-2+ ……+bnyt-n+e ——AR(n)
n=1 时,称为一阶自回归分析
例题见书上。
n
t
t
n
t
tt
WD
1
2
2
2
1
ˆ
)ˆˆ(
.