第四讲 线性回归分析的扩展
Linear Regression Analysis: Extension
一、引言:放宽经典模型的假设
二、多重共线性
三、异方差性
四、序列相关
五、设定误差
一、引言:放宽经典模型的假设
引言:放宽经典模型的假设
经典正态线性回归模型(CNLRM)的假定
(一)关于模型的假定
1.回归模型对参数而言是线性的
2.模型是正确设定的
(二)关于解释变量的假定
3.解释变量X是确定性变量
4.若X是随机的,则误差项与X不相关
5.解释变量的取值有足够变异
6.解释变量之间不存在完全的线性关系
引言:放宽经典模型的假设
经典正态线性回归模型(CNLRM)的假定
(三)关于误差项的假定
7.对于给定的X,误差项均值为0
8.对于给定的X,误差项方差相等
9.对于给定的X,误差项之间不存在序列相关
10.误差项服从正态分布
引言:放宽经典模型的假设
放宽的假定 相应的问题
假定1、2 模型设定问题
假定3、4 随机解释变量
假定5 过度决定(微数缺测性)
假定6 多重共线性
假定7 误差项均值非零
假定8 异方差性
假定9 序列相关
假定10 误差项非正态分布
假定3和4在联立
方程模型中讨论
对假定5我们做简
单讨论
假定7影响参数估
计的无偏性,暂不
讨论
假定10对于大样
本数据不是必需的
假定。
本讲主要考虑放宽
了其余假定后面临
的问题
引言:放宽经典模型的假设
微数缺测性
o 从理论上讲,样本容量n和解释变量数目k必须满足n>k+2
,才能进行OLS估计和假设检验。但事实上,即便n满足
上述条件,但如果样本很小,那么虽然能够进行估计和检
验,也很难通过t检验。
1. 什么是多重共线性
2. 多重共线性的影响
3. 多重共线性的诊断
4. 多重共线性的处理
二、多重共线性
什么是多重共线性
o 多重共线性(multicollinearity):回归模型中的一些或全
部解释变量之间存在一定程度的线性关系
什么是多重共线性
例题
其他例题:p200
X1 X2 X3 X4
10 55 52 67
15 80 75 25
18 95 97 34
24 125 129 18
30 155 152 89
什么是多重共线性
图形表示:巴伦坦图
Y
X1 X2
Y
X1 X2
低度多重共线性 高度多重共线性
什么是多重共线性
产生多重共线性的原因
1)样本过小
2)模型设定有误:添加了过多的解释变量
由于样本过小,即便在总体中解释变量之间没有线性关系,
也可能在获得的样本中观察到较强的线性关系
多重共线性的影响
存在完全线性关系时的OLS估计
o 无法得到OLS估计量
例题:p201-202
多重共线性的影响
存在多重共线性关系时的OLS估计
o 可以证明即便存在多重共线性,OLS估计量仍然是BLUE,
但系数估计量的方差较大,从而不容易通过t检验,同时预
测区间变宽,降低了预测精确度。
例题:p202-203
多重共线性的影响
影响程度的度量:方差膨胀因子(variance-inflation factor)
多重共线性的影响
例题
Rj VIFj
A
多重共线性的诊断
简单诊断方法
o R2高而单个系数的t值小,换言之,F检验显著,但显著的
t值少
o 任意两个解释变量之间的相关系数较大,比如大于
o 解释变量之间的偏相关系数较大
简单方法一般来说不很精确
多重共线性的诊断
运用回归分析进行诊断
o 逐步分析法:先引入经济意义明显,并且在统计上最显著的
解释变量,然后逐步引入其他解释变量。如果新引入的解释
变量使原有解释变量的系数估计值发生明显变化,或t统计量
明显变小,则说明新引入的解释变量与原有解释变量之间存
在多重共线性,可以去掉新引入的解释变量
o 辅助回归法:做每一个解释变量对其余解释变量的回归,得
出相应的F统计值,如果在给定的显著性水平下F统计值是显
著的,说明该解释变量与其他解释变量之间存在线性关系,
可以去掉该解释变量(p207,p211)
多重共线性的诊断
运用一些指标进行诊断
1)方差膨胀因子:计算每个解释变量的方差膨胀因子VIF,一
般认为如果VIF大于10,说明该变量与其他变量存在高度共
线性
2)容许度(tolerance):定义容许度TOL如下,一般认为如果
TOL小于,说明该变量与其他变量存在高度共线性
3)条件指数(condition index, CI):一般认为,如果条件指
数在10到30之间,存在较强的多重共线性,如果大于30,则
存在严重的多重共线性
多重共线性的诊断
例题(p218)
Y
Consumption
X1
Income
X2
Wealth
70 80 810
65 100 1009
90 120 1273
95 140 1425
110 160 1633
115 180 1876
120 200 2052
140 220 2201
155 240 2435
150 260 2686 例题:p209-211
多重共线性的诊断
几点说明
o 多重共线性是一个程度问题而不是存在与否的问题
o 多重共线性是关于样本的一种特征
o 如果研究是为了估计斜率系数和预测,多重共线性不是一个
严重的问题;但如果研究的主要目的是假设检验,则高度多
重共线性的危害就很大
多重共线性的处理
1)剔除共线性变量中不太重要的解释变量
2)补充新数据
3)重新设定模型
o 练习题:p216-217,习题
1. 什么是异方差性
2. 异方差性的影响
3. 异方差性的诊断
4. 异方差性的处理
三、异方差性
什么是异方差性
o 异方差性(heteroscedasticity):回归模型误差项的方
差不相同
o 同方差性(homoscedasticity):回归模型误差项的方差
不相同
什么是异方差性
同方差性
X
Y
概
率
密
度
X:受教育年限
Y:工资
什么是异方差性
异方差性
X
Y
概
率
密
度
X:收入
Y:消费支出
什么是异方差性
异方差性
X
Y
概
率
密
度
X:时间
Y:打字错误
例题:p220-224
什么是异方差性
产生异方差性的原因
原因 解释变量:收入
被解释变量:消费支出
解释变量与误差项相关 随着收入的增加,支出差异性更大
有重要的解释变量未被
包含在回归模型中
物价也是影响支出的因素,物价上
涨时,高收入者有可能拿出更多的
钱来消费,因而支出差异性更大
异常值(outliers)
异方差性的影响
1)回归系数的OLS估计量虽然是无偏的、一致的,但不再
是有效的
2)回归标准差的估计不再是无偏的
3)回归系数OLS估计量的方差估计不再是无偏的,因而t统
计量不再服从t分布,F统计量不再服从F分布,从而无
法进行区间估计和假设检验
4)无法根据回归结果进行预测
异方差性的诊断
1)图解法
2)布罗施-培甘检验(Breusch-Pagan test)
3)怀特检验(White test)
4)帕克检验(Park test)
5)Glesjer test
6)戈德菲尔德-匡特检验(Goldfeld-Quandt test )
异方差性的诊断
图解法
在同方差假定下作回归分析,用残差项平方与解释变量做散点图
X
异方差性的诊断
图解法:简便处理
o 用残差项平方与因变量拟合值做散点图
异方差性的诊断
例题(p222)
o 1988年美国公司销售额与研发支出的关系
异方差性的诊断
例题
异方差性的诊断
布劳殊-培干检验(Breusch-Pagan test)
异方差性的诊断
例题 :BP Test
异方差性的诊断
怀特检验(White test)
异方差性的诊断
怀特检验的特例
异方差性的诊断
例题 :White Test
异方差性的诊断
o 在EViews等计量经济学软件中,直接提供White
异方差检验的结果,不需要手工计算。
异方差性的处理
1)加权最小二乘法(Weighted Least Square,WLS)
o WLS是广义最小二乘估计(Generalize Least
Square, GLS)方法中的一种
o通过WLS可以得到BLUE
2)重新设定模型
3)怀特一致协方差矩阵估计(White Heteroskedasticity-
Consistence Covariance Matrix Estimation )
o得到无偏一致估计量(在大样本情形下适用)
异方差性的处理
加权最小二乘估计:误差项方差已知
异方差性的处理
加权最小二乘估计:误差项方差未知
异方差性的处理
例题:加权最小二乘估计(p233)
o 1988年美国公司销售额与研发支出的关系
异方差性的处理
可行的广义最小二乘估计
o 在一般情况下,我们并不知道异方差的具体形式,需要
对异方差的函数形式做出估计,然后再进行加权最小二
乘估计,这种方法属于可行的广义最小二乘估计
(Feasible Generalized Least Square, FGLS)(伍
德里奇,2000;赵国庆,2001)
异方差性的处理
可行的广义最小二乘估计
异方差性的处理
例题
o 1996年中国各省市城镇居民人均收入与人均消费的关系
异方差性的处理
重新设定模型
例题:p235
异方差性的处理
例题
o 1996年中国各省市城镇居民人均收入与人均消费的关系
异方差性的处理
怀特一致协方差矩阵估计
o 如果存在异方差,则对于通过OLS得到的估计量不能进行t
检验和F检验。EViews等软件提供怀特一致协方差矩阵估计
量(White Heteroskedasticity-Consistence Covariance
Matrix Estimator),这种方法提供大样本情形下回归标准
差和回归系数的一致估计量,可以进行t检验和F检验。
o 例题:p236
异方差性的处理
例题:怀特一致协方差矩阵估计
o 1998年中国各省市城镇居民人均可支配收入与通讯交通支出
1. 什么是序列相关
2. 序列相关的影响
3. 序列相关的诊断
4. 序列相关的处理
四、序列相关
什么是序列相关
o 序列相关(serial correlation):回归模型的误差项之间
不完全独立,存在一定程度的相关。也称自相关
(autocorrelation)
o 序列相关经常出现在时间序列数据中,但在横截面数据中
也会出现
什么是序列相关
o 序列相关图示
t
ut
无序列相关
什么是序列相关
o 序列相关图示
T
ut
ut-1
ut
T
ut ut
ut-1
正
相
关
负
相
关
什么是序列相关
产生序列相关的原因
原因 实例
惯性或滞后 经济周期;消费惯性
有重要的解释变量未被
包含在回归模型中
在研究总量生产函数时,没有考虑
政策的影响,而政策对总产量的影
响在每一期都可能是正的或负的
序列相关的影响
1)回归系数的OLS估计量虽然是无偏的、一致的,但不再
是有效的
2)回归系数OLS估计量的方差估计不再是无偏的,一般而
言会低估实际的方差,从而使得系数的显著性检验容易
被通过,而实际上该系数是不显著的
3) t检验和F检验是不准确的
序列相关的影响
序列相关对方差估计的影响:图示
总体回归曲线
样本回归曲线
Xt
Yt
序列相关的影响
序列相关对方差估计的影响(1)
序列相关的影响
序列相关对方差估计的影响(2)
序列相关的影响
序列相关对方差估计的影响(3)
序列相关的影响
序列相关对方差估计的影响(4)
序列相关的影响
序列相关对方差估计的影响(5)
序列相关的诊断
1)图解法:在无序列相关的假定下作回归分析,然后用残差项
与时间变量做散点图,或者用本期的残差与上一期的残差做
散点图(p248)
2)游程检验(runs test,p249-250)
3)德宾-沃森检验
序列相关的诊断
例题:图解法
o 1968-1987年美
国居民对进口
商品的消费支
出与可支配收
入的关系(数
据在p116)
序列相关的诊断
德宾-沃森检验(Durbin-Watson test)
序列相关的诊断
德宾-沃森检验(Durbin-Watson test)
序列相关的诊断
德宾-沃森检验(Durbin-Watson test)
o 根据OLS估计的残差计算出来的d统计量服从特定的分布,
可根据样本容量n和解释变量数目k查表并判断是否存在序
列相关
d的值域 序列相关性
(0, dL) 正的序列相关
[dL, dU] 无法判定
(dU, 4-dU) 无序列相关
[4-dU, 4-dL] 无法判定
(4-dU, 4) 负的序列相关
序列相关的诊断
德宾-沃森检验的步骤
a)对原方程进行OLS估计得到残差
b)根据d统计量的公式计算d值
c)根据样本容量和解释变量数目查找d的下临界值和上临界值
d)根据决策规则判定是否存在一阶自相关
o 统计软件会自动计算d值,因此我们需要做的仅是后两步
序列相关的诊断
例题:德宾-沃森检验
o 进口商品消费支出(IMPORT)与可支配收入(PDI)
例题:p252-253
序列相关的诊断
德宾-沃森检验的适用条件
a.回归模型中有常数项
b.误差项为一阶自相关
c.不含有因变量的滞后项(不是自回归模型)
序列相关的诊断
包含滞后变量(自回归模型)的序列相关诊断
o 对于此类模型,DW检验是无效的,为此,Durbin提出可
以计算h统计量来进行序列相关诊断(平狄克、鲁宾费尔
德,1998)
序列相关的处理
o 出现序列相关的原因有很多,我们仅仅考虑最简单的情
况,即存在一阶自相关时对于序列相关问题的处理
序列相关的处理
基本思想
序列相关的处理
一阶差分法
注意:使用一阶差分法时不含截距项
序列相关的处理
例题:一阶差分法
序列相关的处理
根据d统计量估计自相关系数
序列相关的处理
例题:根据d统计量估计自相关系数
序列相关的处理
根据OLS估计的残差估计自相关系数
序列相关的处理
例题:根据OLS估计的残差估计自相关系数
1. 什么是设定误差
2. 设定误差的影响
3. 设定误差的诊断和处理
4. 测量误差
五、设定误差
什么是设定误差
o 经典正态线性模型假定模型的设定是正确的,但一般情况
下我们建立的模型很可能是不正确的,这种情况称为设定
误差(specification error)
好模型的标准
o 节省性(parsimony)
o 可识别性(identifiability)
o 拟和优度(goodness of fit)
o 理论一致性(theoretical consistency)
o 预测能力(predictive power)
什么是设定误差
设定误差的类型
o 遗漏相关变量
o 包含无关变量
o 采用错误函数形式
什么是设定误差
例题:设定误差
o 1968-1987年美国居民对进口商品的消费支出(IMPORT)
与可支配收入(PDI)的关系
设定误差的影响
1)遗漏相关变量:回归系数的OLS估计量可能是有偏的、非
一致的;系数的方差估计也是有偏的
2)包含无关变量:回归系数的OLS估计量是无偏的,方差估
计也是无偏的,但不是最小方差,因而OLS估计量不是有
效的(证明见古扎拉蒂(1995),参看例题)
3)错误的函数形式:回归系数的OLS估计量可能是有偏的
(参看例题)
o 一般来说,遗漏相关变量的后果要严重一些,因为它损失
了无偏性。特别是当样本比较大时,包含不相关变量带来
的自由度减少不太严重,因而包含不相关变量的影响要小
一些
设定误差的影响
遗漏相关变量的影响
o 证明见古扎拉蒂(1995)或平狄克等(1998)
o 例题、
设定误差的诊断和处理
遗漏相关变量和采用错误的函数形式
o 根据设定好的模型进行OLS估计,对结果进行判断
a.残差图
b. R2和调整的R2
c.与预期相比,系数估计值的符号
d.回归系数的t值
e.德宾-沃森d统计量
如果R2较低,或者系数估计值的符号与预期相反,或者有
很多t值不显著,或者d统计量偏小。就有可能是因为遗漏
了某个相关变量,或者采用了错误的函数形式
特别是,d统计量偏小很可能不是因为序列相关,而是因为
遗漏了某个相关变量。因此,如果加入某些变量后d统计量
接近2,那么就应该把这些变量包含在模型中
设定误差的诊断和处理
例题(p272)
o 美国居民对进口商品的消费支出与可支配收入的关系
设定误差的诊断和处理
包含无关变量
o 如果不知道某个变量是否应包含在模型中,可将该变量加
入模型进行回归并作t检验,如果不显著,该变量很可能是
多余的
o 如果不知道某些变量是否应包含在模型中,可将该变量加
入模型进行回归,并对这些变量的系数做联合F检验(对于
线性约束的检验),如果不显著,这些变量很可能是多余
的(也可以应用似然比检验)
o 例题
注意:如果根据理论分析,某些变量必须包括在模型中,
那么即便这些变量的回归系数不显著,也应该把他们保留
在模型中
设定误差的诊断和处理
一般情况下设定误差的检验(RESET)
o 回归设定误差检验(regression specification error test)
o 参看古扎拉蒂(1995)、伍德里奇(2000)
设定误差的诊断和处理
一般情况下设定误差的检验(RESET)
o Eviews等计量经济学软件会给出每个回归方程的Ramsey
RESET统计量,从而判断是否存在设定误差
o 通过RESET可以判断是否存在设定误差,但无法得知正确的
模型应该如何设定
设定误差的诊断和处理
判断回归模型预测效果的指标
o 如果要对两个回归模型的预测效果做出比较,不能对R2进行
比较
o Eviews等计量经济学软件会给出每个回归方程的
AIC(Akaike information criterion)和SC(Schwarz
criterion),这两个指标越低的回归方程预测效果越好
测量误差
例题:测量误差(measurement error)
测量误差
测量误差的影响
o 因变量存在测量误差:回归系数的OLS估计量是无偏的,
方差估计也是无偏的,但OLS估计量不是有效的
o 自变量存在测量误差:回归系数的OLS估计量是有偏的、
非一致的
测量误差的诊断和助理
o 诊断是否存在测量误差需要应用豪斯曼检验(Hausman
Test),对测量误差进行纠正则应该使用工具变量法(参
看:平狄克等,1998)