第三部分 实践中的回归分析
Chp 13异方差
主要内容
异方差的概念
异方差的后果
异方差的诊断
异方差的补救措施
小结
一、异方差的概念
对于模型
如果出现
即对于不同的样本点,随机误差项的方差不再是常数,而互不相同,则认为出现了异方差性(Heteroscedasticity)。
异方差的类型
同方差:i2 = 常数 f(Xi)
异方差: i2 = f(Xi)
异方差一般可归结为三种类型:
(1)单调递增型: i2随X的增大而增大
(2)单调递减型: i2随X的增大而减小
(3)复 杂 型: i2与X的变化呈复杂形式
三、实际经济问题中的异方差性
例1:截面资料下研究居民家庭的储蓄行为:
Yi=B0+B1Xi+ui
Yi:第i个家庭的储蓄额 Xi:第i个家庭的可支配收入。
高收入家庭:储蓄的差异较大
低收入家庭:储蓄则更有规律性,差异较小
ui的方差呈现单调递增型变化
Figure 13-1
(a) Homoscedasticity; (b) heteroscedasticity.
例2,以绝对收入假设为理论假设、以截面数据为样本建立居民消费函数:
Ci=B0+B1Yi+ui
将居民按照收入等距离分成n组,取组平均数为样本观测值。
一般情况下,居民收入服从正态分布:中等收入组人数多,两端收入组人数少。而人数多的组平均数的误差小,人数少的组平均数的误差大。
所以样本观测值的观测误差随着解释变量观测值的不同而不同,往往引起异方差性。
例3,以某一行业的企业为样本建立企业生产函数模型:
Yi=AiB1 KiB2 LiB3eui
被解释变量:产出量Y
解释变量:资本K、劳动L、技术A,
那么:每个企业所处的外部环境对产出量的影响被包含在随机误差项中。
每个企业所处的外部环境对产出量的影响程度不同,造成了随机误差项的异方差性。
这时,随机误差项的方差并不随某一个解释变量观测值的变化而呈规律性变化,呈现复杂型。
例13-1 :放松管制后纽约股票交易所的经纪人佣金
方差分别为:;;;
异方差的解释:
交易中存在规模效应——交易量越大,交易总成本越低
小的机构投资者没有大机构投资者那样的谈判能力,因而其支付的佣金率也就存在较大的差异。
例13-2 美国行业利润/销售额/R&D支出
关于研发支出对销售额作回归,发现:残差的绝对值随销售额的增加而增加
表明:存在着异方差性。
异方差的后果(重点)
在CLRM其他假设保持不变,放松同方差假设,允许扰动项随观察值而异,将产生如下结果:
OLS估计量仍是线性且无偏的;
OLS不再具有最小方差性,即不再有效
对大样本也是如此
根据常用估计OLS估计量方差公式得到的方差通常是有偏的
建立在t分布和F分布之上的置信区间和假设检验不再可靠。
(重点)
计量经济学模型一旦出现异方差性,如果仍采用OLS估计模型参数,会产生下列不良后果:
1. 参数估计量非有效
OLS估计量仍然具有无偏性,但不具有有效性
而且,在大样本情况下,尽管参数估计量具有一致性,但仍然不具有渐近有效性。
2. 变量的显著性检验失去意义
变量的显著性检验中,构造了t统计量
t=bi/Sbi
它是建立在2不变而正确估计了参数方差Sbi的基础之上的。
如果出现了异方差性,估计的Sbi出现偏误(偏大或偏小),t检验失去意义。
其他检验也是如此。
3. 模型的预测失效
一方面,由于上述后果,使得模型不具有良好的统计性质;
另一方面,在预测值的置信区间中也包含有参数方差的估计量Sbi。
所以,当模型出现异方差性时,参数OLS估计值的变异程度增大,从而造成对Y的预测误差变大,降低预测精度,预测功能失效。
异方差的检验
检验思路:
由于异方差性就是相对于不同的解释变量观测值,随机误差项具有不同的方差。那么:
检验异方差性,也就是检验随机误差项的方差与解释变量观测值之间的相关性及其相关的“形式”。
问题在于用什么来表示随机误差项的方差
一般的处理方法:
首先采用OLS法估计模型,以求得随机误差项的估计量(注:该估计量是不严格的),我们称之为“近似估计量”,用ei2表示,故有:
Var(ui)=E(ui2)ei2
ei=Yi-Ŷi
即用ei2来表示随机误差项的方差。
图形检验(重点)
用残差对其相应的观察值作图:或是对一个或多个解释变量作图,或是对估计的Yi均值,Yi预测值作图,这些残差图可以辅助我们判断CLRM的一个或多个假设是否满足。
看是否存在明显的散点扩大、缩小或复杂型趋势(即不在一个固定的带型域中)
X
e2
X
e2
X
e2
X
e2
X
e2
例(P293) :考虑残差平方和对销售额的散点图
帕克检验(Park Test)
基本思想(下文的格莱泽也一样):选择关于变量X的不同的函数形式,对方程进行估计并进行显著性检验,如果存在某一种函数形式,使得方程显著成立,则说明原模型存在异方差性。对于帕克检验,选取如下函数形式:
由于i2未知,故用ei2代替
帕克检验的步骤
进行普通最小二乘回归,不考虑异方差问题;
从原始回归方程中求得残差,并求其,再取对数形式;
利用原始模型中的一个解释变量做形如上式的回归,如果有多个解释变量,则对每个解释变量做形出上式的回归,或做ei2对Y的估计值的回归;
检验零假设B2=0,即不存在异方差:
如果ln ei2和ln Xi之间是统计显著的,则拒绝零假设,存在异方差;
如果接受零假设,则回归方程中的B1可理解为同方差2的一个给定值。
例13-3 :R&D回归与帕克检验
lnei2=+(salesi)
se () ()
t () () r2=
表明:在5%的显著水平下,估计的斜率系数是统计不显著的。
帕克检验存在的问题:
帕克检验中用到的回归方程中,误差项vi本身可能存在异方差。
格莱泽检验(Glejser Test)
从原始模型中获得残差ei后,做ei的绝对值|ei|对X的回归。格莱泽建议采用如下函数形式:
在每种情形下,零假设都不存在异方差,即B2=0,如果拒绝零假设,则表明可能存在异方差。
例13-4(P295):R&D回归与格莱泽检验
具体模型见P295
由于5%的显著水平下,斜率系数都是统计不显著的,表明:不能拒绝不存在异方差的零假设
格莱泽检验:与帕克检验一样,误差项vi本身可能存在异方差和序列相关问题。但是对于大样本,格莱泽检验是诊断异方差的一个理想工具。
怀特检验(White’s general test of heteroscedasticity)
对于如下模型:
Yi=B1+B2X2i+B3X3i+ui
怀特检验的步骤如下:
用普通最小二乘法估计上述回归方程,得残差ei;
做辅助回归:
求辅助回归方程的R2值
在不存在异方差的零假设下,怀特证明了上述方程中得到的R2值与样本容量n的积服从2分布,自由度等于方程中解释变量的个数(不包括截距项),即:nR2~ 2k-1 ;
做出判断:
如果从上述方程中得到的2值超过所选定的显著性水平下的2临界值,或计算2值的p值很低,则拒绝零假设:存在异方差;
如果计算的2值的p值很大,则不能拒绝零假设。
例13-5 (P296):婴儿死亡率对人均GNP、受初等教育占人口的百分比的回归
由于nR2=<(5)=11,这一值相当大,故根据怀特检验,可以判定不存在异方差。
关于怀特检验:过于一般化,随着解释变量的增多,将极大的消耗自由度。
注意:
辅助回归仍是检验与解释变量可能的组合的显著性,因此,辅助回归方程中还可引入解释变量的更高次方。
如果存在异方差性,则表明确与解释变量的某种组合有显著的相关性,这时往往显示出有较高的可决系数以及某一参数的t检验值较大。
当然,在多元回归中,由于辅助回归方程中可能有太多解释变量,从而使自由度减少,有时可去掉交叉项。
异方差的其它检验方法
Speraman秩相关检验;
Goldfeld-Quandt检验;
Bartlett检验;
Peak检验;
Breusch-Pagan检验;
CUSUMSQ检验。
附:戈德菲尔德-昆特(Goldfeld-Quandt)检验
G-Q检验以F检验为基础,适用于样本容量较大、异方差递增或递减的情况。
G-Q检验的思想:
先将样本一分为二,对子样①和子样②分别作回归,然后利用两个子样的残差平方和之比构造统计量进行异方差检验。
由于该统计量服从F分布,因此假如存在递增的异方差,则F远大于1;反之就会等于1(同方差)、或小于1(递减方差)。
G-Q检验的步骤:
①将n对样本观察值(Xi,Yi)按观察值Xi的大小排队;
②将序列中间的c=n/4个观察值除去,并将剩下的观察值划分为较小与较大的相同的两个子样本,每个子样样本容量均为(n-c)/2;
③对每个子样分别进行OLS回归,并计算各自的残差平方和;
分别用e1i2与 e2i2表示较小与较大的残差平方和(自由度无为(n-c)/2-k-1)
④在同方差性假定下,构造如下满足F分布的统计量
⑤ 给定显著性水平,确定临界值F(v1,v2),
若F> F(v1,v2), 则拒绝同方差性假设,表明存在异方差。
当然,还可根据两个残差平方和对应的子样的顺序判断是递增型异方差还是递减异型方差。
附:斯皮尔曼(Spearman)等级相关系数检验
思想:通过随机项的方差与解释变量的等级相关系数的显著性检验,判断是否存在异方差性。
步骤:
1. 做OLS估计,得到ei;
2. 把|ei|和Xi按升序或降序赋予等级值(1,2,…,n);
3. 计算斯皮尔曼等级相关系数;
其中:di为第i组观测值的|ei|与Xi的等级差
4. 计算统计量:
若显著(超出临界值),则说明存在异方差性
这一检验的依据,其实就是检查随着因变量的变化,方差是否随之变化(等级差异意味着变动)
异方差的补救措施
当i2已知时,加权最小二乘法
异方差的补救措施(重点)
当i2未知时:(重点)
情形1:误差方差与Xi成比例:平方根变换
误差方差与X成比例
u
X
例13-6(P299):变换后的R&D回归
Se= () ()
t= () ()
重要原则(重点)
在模型中包含多个解释变量的情况下,我们可以根据图形找出任何一个合适的解释变量X,然后做形如13-24的变换。
如果适合的解释变量不止一个,则不再使用任何解释变量,而是把Ŷi作为变换变量,因为是解释变量X的线性组合。
异方差的补救措施
当i2未知时:
情形2:误差方差与Xi2成比例
可以看到,原始模型中的截距在此变成了斜率,而原始模型中的斜率在此则变成了截距。一旦估计出上述方程,将方程的两边同时剩以X,则又回到原始模型。
误差方差与X2成比例
u
X
重新设定模型
即选择一个不同的函数形式。例如,如果选择对数形式估计模型,而不是变量线性模型(LIV),也能达到消除异方差的目的,即如果估计:
可以明显地降低异方差的严重性。
实践中,需要根据理论和具体情况选择线性变量模型或是对数线性模型。但如果没有明显的证据支持选择哪类模型,并且在LIV模型中异方差问题比较严重的情况下,则可试试双对数模型。
例13-7 : R&D双对数模型
se () ()
t () () r2=
得到该模型后,根据上述的方法来验证模型是否为异方差。
怀特异方差校正后的标准误和t统计量
怀特建立的估计方法,利用这种方法得到的回归系数的标准误差考虑了异方差的存在,因而,可以继续使用t检验和F检验,只不过这时的OLS估计量是渐近有效的,即对大样本是有效的。
建议回归结果在报告通常的标准误的同时,也给出怀特异方差修正后的标准误,以便比较。
例13-8 规模经济或异方差:
例13-9 公路容量与经济增长。
本章小结
异方差的问题
检验
修正
案例——中国农村居民人均消费函数
例:中国农村居民人均消费支出主要由人均纯收入来决定。
农村人均纯收入包括:(1)从事农业经营的收入;(2)包括从事其他产业的经营性收入(3)工资性收入;(4)财产收入;(4)转移支付收入。
考察从事农业经营的收入(X1)和其他收入(X2)对中国农村居民消费支出(Y)增长的影响:
lnY=B0+B1lnX1+B2lnX2+u
中国2001年各地区家庭人均纯收入与消费支出的数据,(单位:元)
887
876
1088
其他收入X2
人均消费支出Y
河南
新疆
1293
1905
山东
宁夏
1720
江西
青海
1053
福建
甘肃
安徽
陕西
浙江
西藏
江苏
云南
上海
贵州
黑龙江
四川
吉林
764
重庆
辽宁
海南
内蒙古
广西
山西
广东
河北
湖南
天津
湖北
北京
从事农业经营的收入X1
地区
其他收入X2
从事农业经营的收入X1
人均消费支出Y
地区
普通最小二乘法的估计结果:
Variable Coefficient Std. Error t-Statistic Prob.
C
LX1
LX2
R-squared Adjusted R-squared
. of regression Sum squared resid
F-statistic Durbin-Watson stat
异方差检验
OLS回归的残差平方项ei2与lnX2的散点图
进一步的统计检验
(1)G-Q检验
将原始数据按X2排成升序,去掉中间的7个数据,得两个容量为12的子样本。
对两个子样本分别作OLS回归,求各自的残差平方和RSS1和RSS2:
子样本1:
() () ()
R2=, RSS1=
子样本2:
() () ()
R2=, RSS2=
计算F统计量:
F= RSS2/RSS1=
查表
给定=5%,查得临界值 (9,9)=
判断
F> (9,9)
否定两组子样方差相同的假设,从而该总体随机项存在递增异方差性。
(2)怀特检验
作辅助回归:
( () () () ()
()
R2 =
似乎没有哪个参数的t检验是显著的 。但
n R2 =31*=
=5%下,临界值 (5)=,拒绝同方差性。
去掉交叉项后的辅助回归结果
() () (064) () ()
R2 =
X2项与X2的平方项的参数的t检验是显著的,且
n R2 =31 =
=5%下,临界值 (4)=,拒绝同方差的原假设。