第3章 回归分析预测法
二零一一年九月
南开大学滨海学院 尹翠芳
回归分析预测法就是从各种经济现象之间的因果关系出发,通过分析与预测对象有联系的现象变动趋势,推算预测对象未来数量状态的一种预测方法。
南开大学滨海学院 尹翠芳
回归分析的基本概念
相关分析与回归分析
1)变量间的相互关系
A.函数关系反映的是变量之间存在的严格的数量依存关系。变量之间的关系可以用 函数表示。预测学中不研究这种函数关系。
B.相关关系反映的是变量之间存在着非严格的依存关系。变量之间有一定的联系,但不能完全用函数来表达。
南开大学滨海学院 尹翠芳
这种依存关系有两个显著特点:
一是变量之间确实存在数量上的客观内在关系,表现在一个变量数量上发生变化时,会影响到另一个变量数量上也相应地发生变化。
二是变量之间的数量依存关系不是确定的,具有一定的随机性。当给定自变量一个数值时,因变量可能会有若干个数值与之对应。
南开大学滨海学院 尹翠芳
注 意
变量间的函数关系和相关关系不是绝对的,在一定的条件下两者可以相互转化。
A.在对确定性研究对象的观测中,往往存在测量误差,这时函数关系常常会通过相关关系表现出来;
B.反之,如果能找到非确定性研究对象的全部影响因素,并将其全部列入变量间的依存关系式中,则变量间的相关关系就会转化为函数关系。
南开大学滨海学院 尹翠芳
2)相关分析与回归分析
A.相关分析是研究两个或两个以上随机变量之间相互依存关系的密切程度。
相关关系的密切程度可用相关系数或相关指数来衡量。
B.回归分析研究某一随机变量(因变量或被解释变量)与其他一个或几个确定性变量(自变量或解释变量)之间的数量变动关系。
南开大学滨海学院 尹翠芳
C.回归分析与相关分析的区别
在相关分析中,两个变量之间的关系是对等的,不存在自变量和因变量的划分问题;在回归分析中,变量之间的关系是不对等的。
在相关分析中,根据两个变量只能计算一个相关系数来反映变量之间相关程度的大小。而在回归分析中,对于互为因果的两个变量,有可能存在两个回归方程。
在相关分析中,所有的变量都必须是随机变量;而在回归分析中,自变量是给定的,因变量才是随机的。
南开大学滨海学院 尹翠芳
D.回归分析与相关分析的联系
相关分析是回归分析的基础和前提。如果缺少对现象之间的相关关系作判断,就不能作回归分析,即使勉强做了,有时也没有实际意义。
回归分析是相关分析的深入和继续。相关分析仅仅说明现象之间是否具有关系,它们之间的关系密切程度如何。只有通过回归分析,建立了回归方程,才能从数量上反映变量之间的联系形式,才可进行相应的回归预测,使相关分析具有实际意义。
南开大学滨海学院 尹翠芳
回归模型的种类
从不同的角度出发,可将回归模型作如下分类:
1) 根据模型自变量的多少,可分为一元回归模型和多元回归模型。
一元回归模型是根据某一因变量与某一自变量之间的相关关系建立的模型;多元回归模型是根据某一因变量与两个或两个以上自变量之间的相关关系建立的模型。
南开大学滨海学院 尹翠芳
2)根据模型是否有线性特征,可分为线性回归模型和非线性回归模型。
在线性回归模型中,因变量与自变量之间的变动关系是呈直线型的。在非线性回归模型中,因变量与自变量的关系是呈曲线型的。
南开大学滨海学院 尹翠芳
3)根据模型是否带虚拟变量,可分为普通回归模型和带虚拟变量回归模型。
普通回归模型的自变量都是数量变量;带虚拟变量回归模型的自变量既有数量变量又有品质变量。
4)根据回归模型是否用滞后的因变量作自变量,可分为无自回归现象的回归模型和自回归模型。
南开大学滨海学院 尹翠芳
一元线性回归分析预测法
一元线性回归模型的一般形式为:
其中, 为被解释变量, 为解释变量, 和 为模型参数, 为随机误差项。
南开大学滨海学院 尹翠芳
真实的回归直线
南开大学滨海学院 尹翠芳
一元线性回归模型的基本假设
假设1:随机误差项 的数学期望值为零,即
假设2:随机误差项 的方差与 无关,为一常数,即
假设3:不同的随机误差项 与 之间相互独立,即
南开大学滨海学院 尹翠芳
假设4:随机误差项 与解释变量 之间不相关,即
假设5: 服从正态分布,即
南开大学滨海学院 尹翠芳
一元线性回归模型的参数估计
1)参数的最小二乘估计量
设有一组样本观测值 满足一元线性回归()式。我们可以找到一条直线使之尽可能好地拟合这组观测值,能近似描述变量 和 之间的相互关系,称该直线为样本回归直线。记作
其中, 为第 期 的预测值, 分别为模型参数 的估计值,如图所示。
南开大学滨海学院 尹翠芳
南开大学滨海学院 尹翠芳
根据最小二乘法原理可知,拟合这条最佳直线的准则是使残差平方和达到最小,即使
达到最小。由于 是关于 的二次非负函数,所以它的极小值总是存在的。由微分学的极值原理可知,当 对 和 的一阶偏导数为零时, 达到最小。即
南开大学滨海学院 尹翠芳
整理上式得一元线性回归的正规方程组:
南开大学滨海学院 尹翠芳
解方程组得最小二乘估计量 :
为了减少计算工作量,可对()式进行简化。令:
南开大学滨海学院 尹翠芳
故()式可简化为:
()式称为OLS估计量的离差形式。
将 代入()式,且 ,则有:
()式称为样本回归方程的离差形式。
南开大学滨海学院 尹翠芳
2)最小二乘估计量的性质
最小二乘估计量 和 具有线性、无偏性和有效性这三种数理统计学中最重要的统计性质。
(1)线性,是指估计量 , 分别是观测值 的线性组合。即
其中, 。
南开大学滨海学院 尹翠芳
(2)无偏性,是指估计量 , 的期望值分别等于总体模型参数 和 ,即
(3)有效性(最小方差性),是指最小二乘估计量 和 在所有线性无偏估计量中,具有最小方差。
南开大学滨海学院 尹翠芳
和 的方差
3)随机误差项 的方差 的估计
故 是 的无偏估计量。
南开大学滨海学院 尹翠芳
由此可得 和 的样本方差:
南开大学滨海学院 尹翠芳
的分布和 的分布
根据假定条件 ,
是 的线性函数,所以
南开大学滨海学院 尹翠芳
可以证明
是 的线性函数 ,所以
南开大学滨海学院 尹翠芳
注意:区分4个式子的关系
真实的统计模型:
估计的统计模型:
真实的回归直线:
估计的回归直线:
南开大学滨海学院 尹翠芳
真实的回归直线与估计的回归直线
南开大学滨海学院 尹翠芳
一元线性回归模型的检验
一元线性回归模型建立以后,该模型能否客观揭示所研究的经济现象中诸因素之间的关系,能否用于实际预测,还需要进一步检验才能确定。
一元线性回归模型的检验
包括经济意义检验、统计
检验和计量经济学检验。
南开大学滨海学院 尹翠芳
1)经济意义检验
经济意义检验主要检验模型参数的估计量在经济意义上的合理性。
检验方法是将模型参数的估计量同预先拟定的理论期望值进行比较,检验参数估计量的符号和大小,以判断其合理性。
A.首先,检验参数估计量的符号。
以如下假想的社会消费品模型为例:
南开大学滨海学院 尹翠芳
该模型中,居民收入总额前的参数估计量为负,意味着居民收入越多,社会消费品零售总额越低。这从经济行为上无法解释,所以此模型不能通过检验,应找出原因重建模型。
B.如果参数估计量的符号正确,则要进一步检验参数估计量的大小。
以如下假想的企业生产模型为例:
南开大学滨海学院 尹翠芳
由于此模型为对数线性模型,所以固定资产原值前的参数的经济意义是明确的,即固定资产原值的产出弹性,表示当固定资产原值增加1%时,产品产量增加的百分数。
根据产出弹性的概念,该参数应该在0到1之间的一个数。模型中的参数估计量虽然符号正确,但数值范围与理论期望值不符,所以不能通过检验,应找出原因重建模型。
产出弹性:是指在其他条件不变的情况下某种生产要素投入量1%的变化所引起的产出变化的百分比。把所有生产要素的产出弹性相加得到一个和,这个和可以代表规模收益状况,若这个和大于1则表示规模收益递增。
南开大学滨海学院 尹翠芳
2)统计检验
统计检验的目的是检验模型的统计学性质。对于已建立的一元线性回归模型,检验其是否符合变量之间的客观规律性,变量 和 之间是否具有显著的线性相关关系等。
常用的统计检验有拟合优度检验、回归系数的显著性检验(t检验)等。
南开大学滨海学院 尹翠芳
(1)拟合优度检验
拟合优度检验是指检验模型对样本观测值的拟合程度。
检验方法是构造一个可以表征拟合程度的统计量,再从检验对象中计算出该统计量的数值,然后与某一标准作比较,得到检验结论。
南开大学滨海学院 尹翠芳
A.总离差平方和的分解
已知由n对样本观测值 得到如下样本回归直线:
的第i个观测值与样本均值的离差 可分解为两部分之和
其中, 是样本回归拟合值与样本均值之差,可以认为是回归线解释的部分;
是观测值与样本回归拟合值之差,是回归线不能解释的部分。
南开大学滨海学院 尹翠芳
南开大学滨海学院 尹翠芳
总离差平方和 ,反映样本观测值总体离差的大小。
回归平方和 ,反映由模型中解释变量所解释的那部分离差的大小。
残差平方和 ,反映样本观测值与估计值偏离的大小,也是模型中解释变量未解释的那部分离差的大小。
可以证明:
南开大学滨海学院 尹翠芳
B.判定系数
根据 ,可用
来检验模型的拟合优度,称 为判定系数。
的取值范围是 。
实际计算 时,可采用公式:
南开大学滨海学院 尹翠芳
相关系数
相关系数与判定系数的比较:
在二变量之间是线性关系的情况下,判定系数和样本相关系数都给出了它们之间线性关系强度的度量。判定系数取值范围 ,而样本相关系数取值范围 。
样本相关系数的适用范围限制在二变量之间是线性关系的情况,判定系数对非线性关系和有两个或两个以上自变量的相关关系都适用。
南开大学滨海学院 尹翠芳
(2)回归系数的显著性检验
对一元线性回归模型而言,回归系数的显著性检验主要是针对 是否显著为0进行的检验。
若 显著为0,说明 与 之间不存在着线性关系,则回归模型就失去了线性意义;若 显著不为0,则 与 之间存在着线性关系,所建立的回归模型才有意义。
南开大学滨海学院 尹翠芳
检验步骤
提出原假设 ;备择假设 。
计算统计量 。其中,
给定显著性水平 ,查 分布表,得到临界值 。
比较判断。若 ,则拒绝 ,接受 ,即认为 显著不为零,从而可判断 与 之间有显著的线性关系,检验通过。
南开大学滨海学院 尹翠芳
回归方程的显著性检验
检验假设 回归方程不显著
回归方程显著
检验统计量
检验法则:给定显著性水平 ,若
则拒绝 。
南开大学滨海学院 尹翠芳
简单线性回归方差分析表的一般形式
n-1
TSS
统计
n-2
RSS
误差
1
ESS
回归
F
均方
自由度
平方和
方差来源
南开大学滨海学院 尹翠芳
3)计量经济学检验
计量经济学检验的目的在于检验模型的计量经济学性质。
(1)自相关检验
在线性回归模型的假设条件中,有
若随机误差项 违背了这一基本假设,则称 出现了自相关或序列相关。
杜宾—瓦特森(Durbin-Watson)检验,即DW检验只适用于检验 具有一阶自相关的情形。
南开大学滨海学院 尹翠芳
自相关性
南开大学滨海学院 尹翠芳
自相关性产生的原因
经济变量惯性的作用引起
经济行为的滞后性引起
一些随机因素的干扰或影响引起
模型设定误差引起
观测数据处理引起
南开大学滨海学院 尹翠芳
设随机误差项 具有一阶自相关形式:
其中, 为自相关系数, 为随机变量,且满足
DW检验步骤如下:
提出原假设 ,即 不具有一阶自相关形式;备择假设 ,即 具有一阶自相关形式。
南开大学滨海学院 尹翠芳
计算统计量DW。
在大样本情况下,有:
由()式可知:
若 ,则 , 不存在自相关;
若 ,则 , 存在完全正自相关;
若 ,则 , 存在完全负自相关。
南开大学滨海学院 尹翠芳
查DW表。根据显著性水平 ,样本容量 和解释变量个数,查DW分布表,得到下限值 和上限值 。
比较判断:
若 ,则拒绝 ,接受 ,认为 存在正自相关;
若 ,则不能确定 是否存在自相关;
若 ,则接受 ,认为 无自相关;
若 ,则不能确定 是否存在自相关;
若 ,则拒绝 ,接受 ,认为 存在负自相关。
南开大学滨海学院 尹翠芳
为了更好地掌握以上判断准则,给出DW检验判别域图。
注意
DW检验存在着无结论区域,且只能检验 的一阶自相关,对于存在滞后被解释变量的模型无法检验。
dL
2
4
4-dL
0
dU
4-dU
正相关
无自相关
负相关
d
不确定
不确定
南开大学滨海学院 尹翠芳
(2)异方差检验
在线性回归模型的假设条件中,有
若随机误差项 违背了这一基本假设,则称 具有异方差性。
例如,为了研究家庭的收入与储蓄的关系,可建立如下储蓄回归模型:
其中, 表示第i户的收入, 表示第i户的储蓄。
南开大学滨海学院 尹翠芳
该模型中,随机误差项 的同方差假设就不符合实际情况,因为高收入家庭的储蓄变动倾向比低收入家庭的储蓄变动倾向大得多。
原因是低收入家庭在必要支出后剩余较少,只是为了达到某种目的而储蓄,因此其储蓄行为较有规律,差异性较小。而高收入家庭在必要支出外剩余较多,有更多的选择余地,因而,储蓄的差异就较大。
所以,对于该储蓄回归模型来说,随机误差项 具有异方差性。
南开大学滨海学院 尹翠芳
异方差的检验方法——图示检验法
图示检验法是一种简便直观的判断方法,常有以下两种图示进行检验。
A. 散点图。
首先绘制观测值的散点图,然后观察散点的分布情况,若存在明显的散点扩大、缩小或复杂型趋势,则表明 存在异方差。常见的有如下几种情形,见图。
南开大学滨海学院 尹翠芳
南开大学滨海学院 尹翠芳
B. 散点图。
先用最小二乘法(OLS)建立回归模型,再计算 ,绘制 散点图。若散点分布呈一斜率为零的直线,则表明 是同方差,否则 存在异方差。
南开大学滨海学院 尹翠芳
异方差检验的其他方法
(1)戈德菲尔德-匡特(Goldfeld-Quandt)检验
G-Q检验以F检验为基础,适用于样本容量较大、异方差递增或递减的情况。
G-Q检验的思想:先将样本一分为二,对子样①和子样②分别作回归,然后利用两个子样的残差之比构造统计量进行异方差检验。
由于该统计量服从F分布,因此
假如存在递增的异方差,则F远大于1;
反之就会等于1(同方差),或小于1(递减方差)。
南开大学滨海学院 尹翠芳
(2)戈里瑟(Gleiser)检验与帕克(Park)检验
戈里瑟检验与帕克检验的思想:
如果存在某一种函数形式,使得方程显著成立,则说明原模型存在异方差性。
以
|
ei
|
或
e
i
2
为被解释变量,以原模型的某一解释变量
j
X
为
解释变量,建立如下方程:
i
ji
i
X
f
e
e
+
=
)
(
|
|
i=1,2,
…
,n
(
G
leiser
)
或
i
ji
i
X
f
e
e
+
=
)
(
2
i=1,2,
…
,n (Park)
南开大学滨海学院 尹翠芳
(3)怀特(White)检验
怀特检验的过程:
(1) 利用OLS估计方法获得模型残差ei;
(2) 作辅助回归
ei2=f (X2i,X3i,…Xki) + vi
(3) 建立相应的异方差检验统计量nR2。
在原模型不存在异方差(原假设H0成立)的条件下,有
2=nR2~2(k-1),
其中k为上述回归模型中参数的个数。
(4) 若2=nR2的值较大,则应该拒绝原假设,即模型存在异方差性。
南开大学滨海学院 尹翠芳
一元线性回归模型的预测
1)点预测
根据样本回归方程 ,当 时,
利用估计的回归方程,对于 的一个特定值,求出 的平均值的一个点估计;或者对于 的一个给定值,预测 的一个个别值。
对于点估计,两者的结果是相同的。
南开大学滨海学院 尹翠芳
2)区间预测
置信区间估计
它是对于 的一个给定值,求出 的平均值的区间估计。
预测区间估计
它是对 的一个给定值,求出 的一个个别值的区间估计。
置信区间和预测区间都表明了回归结果的精度。比较窄的区间表明有一个比较高的精度。
南开大学滨海学院 尹翠芳
(1) 的平均值的置信区间估计
对于给定的 ,估计值 的方差的公式
式中
对于给定的 , 的置信区间估计
南开大学滨海学院 尹翠芳
(2) 的个别值的预测区间估计
对于给定的 , 的一个个别值 的方差由两部分组成:
的个别值关于平均值 的方差,它的估计量由 给出;
与利用 估计 相联系的方差,它的估计量由 给出。
南开大学滨海学院 尹翠芳
对于给定的 , 的一个个别值 的预测区间估计的一般表达式为:
式中, 是置信系数(置信度), 是自由度为 的 分布的 水平双侧分位数。
南开大学滨海学院 尹翠芳
个别值得预测区间要比均值的预测区间宽。
南开大学滨海学院 尹翠芳
一元线性回归分析预测实例
某市1996年到2005年10年中,个人消费支出和收入资料如表所示,试建立回归模型预测2006年个人收入为213亿元时的个人消费支出额。
南开大学滨海学院 尹翠芳
多元线性回归分析预测法
回归模型和回归方程
描述因变量 如何依赖于自变量 , , , 和误差项的方程称为回归模型。
多元回归模型
在多元回归模型中, , , , , 是参数, 是随机变量。其中, 是 , , , 的线性函数( 部分)加上误差项 。
南开大学滨海学院 尹翠芳
误差项说明了包含在 里面但不能被 个自变量的线性关系解释的变异性。
描述 的平均值如何依赖于 , , , 的方程称为回归方程。
多元回归方程
南开大学滨海学院 尹翠芳
估计的多元回归方程
参数 , , , , 的值通常都是未知的,我们必须利用样本数据去估计它们。我们利用一个简单随机样本计算样本统计量 , , , , 作为参数 , , , , 的点估计。这些样本统计量使我们得到下面估计的回归方程。
估计的多元回归方程
式中, , , , , 是 , , , , 的估计值; 是因变量的估计值。
南开大学滨海学院 尹翠芳
南开大学滨海学院 尹翠芳
最小二乘法
利用最小二乘法建立估计的多元回归方程。最小二乘准则如下:
式中 ——对于第 次观测,因变量的观测值;
——对于第 次观测,因变量的估计值。
最小二乘法是利用样本数据,通过使残差平方和达到最小的方法求得 , , , , 的值。
南开大学滨海学院 尹翠芳
多元判定系数
总的平方和能被分解为两部分:回归平方和和误差平方和。
TSS,RSS和ESS之间的关系:
式中,
南开大学滨海学院 尹翠芳
多元判定系数
多元判定系数 理解为因变量 中的变异性能被估计的多元回归方程解释的百分比。
修正多元判定系数
式中n表示观测值的数目,p表示自变量的数目。
南开大学滨海学院 尹翠芳
模型的假定
多元回归模型的误差项 的假定
误差项 是一个平均值或期望值为零的随机变量;即 。
对自变量 , , , , 的所有值, 的方差都是相同的,用 表示 的方差。
的值是相互独立的。
误差项 是一个正态分布的随机变量,它表示了 的值和由 给出的 的期望值之间的离差。
南开大学滨海学院 尹翠芳
方程的理解
包含两个自变量的多元回归方程
南开大学滨海学院 尹翠芳
显著性检验
在多元回归情形,t检验和F检验有不同的目的:
F检验被用来确定因变量和所有自变量之间是否存在一个显著性的关系;称之为总体的显著性检验。
t检验被用来确定每一个单个的自变量是否是显著的自变量;称之为单个的显著性检验。
南开大学滨海学院 尹翠芳
1. F检验
总体显著性的F检验
检验的统计量
拒绝法则: 如果 ,则拒绝
式中, 是 水平的分子自由度为p、分母自由度为n-p-1的F分布的上侧分位数。
南开大学滨海学院 尹翠芳
2. t检验
单个参数显著性的t检验
对于任一个参数
检验的统计量
拒绝法则:如果 或 ,则拒绝
式中, 是 水平的自由度为n-p-1的t分布的双侧分位数。
南开大学滨海学院 尹翠芳
具有p个自变量的多元回归模型的ANOVA表
n-1
TSS
总计
n-p-1
RSS
误差
P
ESS
回归
F
均方
自由度
平方和
方差来源
南开大学滨海学院 尹翠芳
3. 多重共线性
在多元回归分析中,我们把自变量之间的相关性称为多重共线性。
多重共线性带来的困难是:当多元回归方程总体显著性的F检验表明有一个显著的关系时,我们可能得出单个参数没有一个是显著地不同于零的结论。
对于含有两个自变量的多元回归模型,如果它们的样本相关系数的绝对值大于,即认为存在多重共线性的问题。
南开大学滨海学院 尹翠芳
利用估计的回归方程进行估计和预测
点估计
在多元回归分析中,我们将自变量的给定值代入估计的回归方程里,并利用得到的相应的值作为它们的点估计。
置信区间估计
预测区间估计
对于y的一个个别值的区间估计比对于y的期望值的区间估计要有更宽的区间范围。
南开大学滨海学院 尹翠芳
非线性回归分析预测法
研究对象:可通过适当变换转化成线性回归模型的非线性回归模型。
非线性回归模型的几种常见形式
1)多项式曲线模型
2)双曲线模型
或
南开大学滨海学院 尹翠芳
3)对数曲线模型
(1)半对数曲线模型
(2)双对数曲线模型
4)指数曲线模型
5)幂函数曲线模型
南开大学滨海学院 尹翠芳
非线性回归模型的参数估计
非线性回归模型的参数估计一般采用变量直接或间接置换的方法,将非线性模型转化为线性模型,然后利用线性回归模型的参数估计方法来估计原模型中的参数。
1)多项式曲线模型
令 则原模型可转化为:
南开大学滨海学院 尹翠芳
2)双曲线模型
令 ,则
令 则
3)对数曲线模型
令 则半对数曲线模型转化为:
双对数曲线模型转化为:
南开大学滨海学院 尹翠芳
4)指数曲线模型
两边取对数化为:
令 ,可估计出 和 ,进而求出 。
5)幂函数曲线模型
两边取对数化为:
令 则可估计出 进而求出 。
南开大学滨海学院 尹翠芳
例 某市一大型连锁超市的流通费率Y与销售额X之间满足双曲线模型
对其9个连锁店的流通费率和销售额的统计资料如表所示。
流通费率Y
销售额X
9
8
7
6
5
4
3
2
1
连锁店编号
南开大学滨海学院 尹翠芳
数据分析工具的应用
多元线性回归的计算(见书365页)
南开大学滨海学院 尹翠芳