异方差性
目的与要求:
1、了解异方差性产生的原因、类型及后果
2、重点掌握异方差性的检验及处理方法
3、上机实验所学
第一节 异方差性的概述
一、异方差性的含义
回归模型的随机扰动项ui在不同的观测值中的方差不等于一个常数,Var(ui)= EMBED 常数(i=1,2,…,n),或者Var(u)Var(u)(ij),这时我们就称随机扰动项ui具有异方差性(Heteroskedasticity)。
在实际经济问题中,随机扰动项ui往往是异方差的,但主要在截面数据分析中出现。
例如
(1)调查不同规模公司的利润,发现大公司的利润波动幅度比小公司的利润波动幅度大;
(2)分析家庭支出时发现高收入家庭支出变化比低收入家庭支出变化大。
在分析家庭支出模型时,我们会发现高收入家庭通常比低收入家庭对某些商品支出有更大的方差;图5-1显示了一元线性回归中随机变量的方差ui随着解释变量的增加而变化的情况。
异方差性破坏了古典模型的基本假定,如果我们直接应用最小二乘法估计回归模型,将得不到准确、有效的结果。
二、异方差性的来源
1.模型中缺少某些解释变量,从而随机扰动项产生系统模式
由于随机扰动项ui包含了所有无法用解释变量表示的各种因素对被解释变量的影响,即模型中略去的经济变量对被解释变量的影响。如果其中被略去的某一因素或某些因素随着解释变量观测值的不同而对被解释变量产生不同的影响,就会使ui产生异方差性。
例如,以某一时间截面上不同收入家庭的数据为样本,研究家庭对某一消费品(如服装、食品等)的需求,设其模型为:
(5-1)
其中Qi表示对某一消费品的需求量,Ii为家庭收入,ui为随机扰动项。ui包括除家庭收入外其他因素对Qi的影响。如:消费习惯、偏好、季节、气候等因素,ui的方差就表示这些因素的影响可能使得Qi偏离均值的程度。在气候异常时,高收入家庭就会拿出较多的钱来购买衣服,而低收入的家庭购买衣服的支出就很有限,这时对于不同的收入水平Ii,Qi偏离均值的程度是不同的,Var(ui)常数,于是就存在异方差性了。
再比如,以某一时间截面上不同地区的数据为样本,研究某行业的产出随投入要素的变化而变化的关系,建立如下模型:
(5-2)
其中Yi表示某行业的产出水平。Li表示劳动力对产出的影响。Ki表示资本对产出的影响,ui表示除劳动力和资本外其他因素对产出水平的影响,诸如地理位置、国家政策等。显然,对于不同的行业,这些因素对产出的影响程度是不同的,引起偏离零均值的程度也是不同的,这就出现了异方差。
异方差性容易出现在截面数据中,这是因为在截面数据中通常涉及某一确定时点上的总体单位。比如个别的消费者及其家庭、不同行业或者农村、城镇等区域的划分,这些单位各自有不同的规模或水平,一般情况下用截面数据作样本时出现异方差性的可能性较大。
2.测量误差
测量误差对异方差性的作用主要表现在两个方面:一方面,测量误差常常在一定时间内逐渐积累,误差趋于增加,如解释变量X越大,测量误差就会趋于增大;另一方面,测量误差可能随时间变化而变化,如抽样技术或收集资料方法的改进就会使测量误差减少。所以测量误差引起的异方差性一般都存在于时间序列中。
例如,研究某人在一定时期内学习打字时打字差错数Yt与练习打字时间Xt之间的关系。显然在打字练习中随时间的增加,打字差错数将减少,即随着Xt的增加Yt将减小。这时Var(ut)将随Xt的增加而减少,于是存在异方差性。
不仅在时间序列上容易出现异方差性,利用平均数作为样本数据也容易出现异方差性。因为许多经济变量之间的关系都服从正态分布,例如不同收入组的人数随收入的增加是正态分布,即收入较高和较低的人是少数的,大部分人的收入居于较高和较低之间,在以不同收入组的人均数据作为样本时,由于每组中的人数不同,观测误差也不同,一般来说,人数多的收入组的人均数据较人数少的收入组的人均数据具有较高的准确性,即Var(ui)随收入Ii呈现先降后升的趋势,这也存在着异方差性。
3.模型函数形式设置不正确
模型函数形式的设定误差。如将指数曲线模型误设成了线性模型,则误差有增大的趋势。
4.异常值的出现
随机因素的影响,如政策变动、自然灾害、金融危机、战争和季节等。
三、异方差性的类型
异方差一般可归结为三种类型:
(1)单调递增型:随X的增大而增大,即在X与Y的散点图中,表现为随着X值的增大Y值的波动越来越大。(见图5-2 b)
(2)单调递减型:随X的增大而减小,即在X与Y的散点图中,表现为随着X值的增大Y值的波动越来越小。(见图5-2 c)
(3)复杂型:与X的变化呈复杂形式,即在X与Y的散点图中,表现为随着X值的增大Y值的波动复杂多变没有系统关系。(见图5-2 d)
四、异方差性的后果
在古典回归模型的假定下,普通最小二乘估计量是线性、无偏、有效估计量,即在所有无偏估量中,最小二乘估计量具有最小方差性——它是有效估计量。如果在其他假定不变的条件下,允许随机扰动项ui存在异方差性,即ui的方差随观测值的变化而变化,这就违背了最小二乘法估计的高斯——马尔柯夫假设,这时如果继续使用最小二乘法对参数进行估计,就会产生以下后果:
1.参数估计量仍然是线性无偏的,但不是有效的
这就意味着最小二乘估计量在所有可能的线性无偏估计中,方差最小的性质已经不存在了。事实上,在用最小二乘法估计模型参数及证明参数的最小二乘估计为无偏估计时,并没有利用随机扰动项具有同方差性的假定,所以只要其他假定不变,不管随机扰动项是同方差还是异方差,并不影响估计参数的线性和无偏性。参数的最小二乘估计量仍是线性无偏估计量。但这时的估计不是有效的,也就是说,不再具有最小方差的特性。我们以下面的回归模型为例进行说明:
,Var(ui)=
则的最小二乘估计为:
根据第二章结论()可以计算得,
Var()=
假设Var(ui)=则有:
Var()=
现在的问题主要是检验上式的值是不是最小,还有没有比上式值更小的值。若没有比上式更小的值,则说明Var()最小,参数估计量具有最小方差性。若有比上式更小的值,则说明上式不是最小的,最小方差性就不成立,即有效性不成立,参数的估计量是无效的。
下面我们分析是否有比上式更小的值,对原模型进行变换,两边同除以Xi,得到:
Var(为一常数,变换后具有同方差性,这时求得的估计值:
Var()=
经比较可知Var()<Var()。
由上可知存在比Var()更小的值,所以参数估计量的最小方差性不成立,它不是有效的。
2.建立在t分布和F分布之上的检验失效
因为t分布和F分布之上的检验的统计量都是利用总体方差的估计量构造而成的,这里面包含随机扰动项的方差。在同方差的假定下,可以估计并且服从特定的分布,这样就能进行显著性检验。当不满足ui的同方差性这一假定时,不再是总体方差的无偏估计量。这时无法构造出服从特定分布的检验统计量,从而导致我们计算出的t统计量和F统计量不再满足t分布和F分布,所以这时,我们根据t分布和F分布进行的假设检验是靠不住的,就可能得出错误的结论,所以ui存在异方差时,t检验、F检验失效。
3.估计量的方差增大,预测精度下降
由于存在异方差性,ui的方差随观测值的变化而变化,估计量的方差肯定会增大,估计值的变异程度增大,这样就使被解释变量的预测误差变大,降低了预测的精度。
对模型进行回归可得到,给定X*,则,预测区间为:
Y∈, ,
由可知,单点预测的精度取决于、的精确度,但ui的异方差性增大了、的方差,使它们的精确度下降,从而Y*的预测精度也下降。由预测区间可知,预测区间的精度受Y*和共同影响,在ui是同方差的情况下,可用 来估计,而在ui是异方差的情况下,这一估计的精度也会下降,使整个区间的预测精度也下降。
第二节 异方差性的检验
为了检验模型是否存在异方差性,需要事先了解随机误差项取值的(概率)分布情况。但是随机误差项的变化是由模型之外其他因素的综合影响来决定,其取值情况是无法观测的。实际研究中,一般是通过对残差分布情况的分析来推测随机误差项的分布特征,因为残差项描述的也是解释变量之外其他因素的综合影响,可以将其作为随机误差项ui的估计量。
一、图示检验法
图示检验法只能粗略地判断模型是否存在异方差性,当异方差性不太明显时,还需要采用一些较为精确的检验方法。图示检验法又称散点图法,它主要通过图形来直观的判断是否存在异方差性。
1.相关图分析
“方差”即为随机变量取值的离散程度。由于被解释变量与误差项ui的方差相同,因此通过观察与的相关图,可以分析的离散程度与解释变量之间是否存在相关关系,如果随着值的增加,的离散程度呈现逐渐增大(或减小)的趋势,则表明模型存在着递增型(或递减型)的异方差性。建立回归模型时,为了判断模型的函数形式,一般要观察被解释变量与解释变量的相关图,此时也可以大致判断模型是否存在异方差性。图5-2即为通过观察与的相关图得出的三种不同类型的异方差。
2.残差分布图分析
具体步骤如下:
(1)对所给的观测值用最小二乘法进行回归,计算出随机扰动项ui的估计值为,。
(2)平面直角坐标系下,以为纵坐标,以被解释变量的估计值为横坐标(也可以某一解释变量Xi作为横坐标,但若解释变量太多做起来比较麻烦,所以一般以为横坐标)做出相应的散点图。
(3)根据所做的散点图分析判断与是否存在系统关系。如果存在,则说明可能存在异方差。如不存在,则说明可能不存在异方差。如图5-3(a)可以看出与之间没有系统关系,可能不存在异方差性。在图(b)、(c)、(d)中对的散点图呈现了一定的系统模式,说明可能存在异方差性,(b)为递增异方差;(c)为递减异方差;(d)为复杂异方差。
图示检验法比较简单、直观、容易理解,但是它只能给我们一个大概的信息,只能使我们对异方差性有个概括的了解,对异方差性进行详细精确的理解还要依赖其它方法。
二、斯皮尔曼等级相关系数法
斯皮尔曼(Spearman)等级相关系数检验对样本容量没有具体的要求,它既可以用于小容量样本的检验,也可以用于大容量样本的检验。下面我们以模型为例介绍此方法:
1.计算回归模型的估计式,求出扰动项的估计值ei。
2.将解释变量X与对应的ei的绝对值|ei|按一定顺序(升序或降序)排列。用如下公式求出Xi与|ei|的Spearman等级相关系数
(5-3)
其中di是X与|e|的等级差数,n为样本容量。
di的计算方法是先规定X与|e|的等级,等级的标准可以人为地确定。例如Xi有8个值,而且是等间隔的,我们就可以规定最小值为1级,最大的值为8级,中间依次确定,相应的|ei|也可以用此方法。但有些|ei|是相等的或者相差不大,这时就应把它们规定为同一等级,再另行选定等级标准,当规定了X与|e|的等级之后,就可以很容易的算出的值了。例如我们规定X8是8级,|e8|是5级,则等级差数di=8-5=3。
3.利用等级相关系数rs就可以判断ui是否存在异方差性。我们可以利用相关系数显著性检验表,对于给定的显著性水平,查表得临界值,若计算出的>,则认定ui存在异方差性;否则就认定不存在异方差性。另外,对于rs可以利用t检验来检验ui是否存在异方差性。
可以证明:
t= EMBED ~
对于给定的显著性水平,查t分布表的临界值(n-2),若>(n-2),则说明存在异方差性;否则认为不存在异方差性。
三、戈里瑟检验
1、问题提出
戈里瑟(Glejser)检验既可以用于模型中包含一个解释变量的情形,也可用于模型中包含多个解释变量的情形,而且对于大样本,戈里瑟检验能够更好地检验异方差问题,戈里瑟检验不仅能检验是否存在异方差,而且能在检验异方差时,提供异方差形式的信息,给出异方差与解释变量相联系的具体形式,这对于消除异方差是很有益的。
2、检验步骤
这种检验方法的基本思路是将对解释变量进行回归,确定|ei|与Xi的关系,以便判断ui的异方差性。这一检验的具体步骤如下:
(1)以被解释变量Y对所有解释变量X1,X2,…,Xn进行回归,计算出随机扰动项ui的估计值ei。
(2)以ei的绝对值|ei|为被解释变量,某个解释变量Xi为解释变量,建立如下方程:
(5-4)
其中f(Xi)可以是不同的形式。如f(Xi)=(m=-1,-,1,2,…)选择出最佳的拟合形式,应用时也可以用多个解释变量X1,X2,…来解释|ei|,即建立方程:
(5-5)
(3)对进行显著性检验,若显著不为零,则说明ui存在异方差性,因为这时随机项与Xi存在相关性。但如果==0,则难以判断ui有无异方差性,因为这时只知道所检验的回归形式不成立,并不能说明|ei|和Xi之间不存在其他关系,这时就要考虑其他的办法来进行检验。
四、戈德菲尔德—夸特检验
戈德菲尔德—夸特检验(Goldfeld—Quandt检验)简称G—Q检验,是在1965年由和提出来的。这种检验方法适用于大样本的情况,通常要求容量n应为30或者观测值的数目是所要估计参数的2倍以上(即样本容量n要比模型中包含的解释变量的个数大两倍以上)。
1、应用条件
用该种方法对异方差性检验还要符合以下几个条件:
第一,随机扰动项ui服从正态分布,且ui的方差随着某一个解释变量的增加而增加;
第二,随机扰动项ui无序列相关,即E(uiuj)=0(ij)。
检验的方法主要是F检验。检验原假设H0∶ui是等方差的,备选假设H1∶ui是异方差的。
2、G—Q检验的具体步骤:
(1)确认与误差方差相关的解释变量Xi,将解释变量Xi的观测值按绝对值由小到大的顺序进行排列,被解释变量Yi保持与Xi的对应关系。
(2)将上述Xi排列在正中间的c个值删去,将剩下的n-c个观测值划分为容量相等的两个子样本,每个子样本的容量分别为,其中的一个子样本是相应观测值的较大部分,另一个是观测值中较小的部分。这里应当注意的是:c值的确定不是随意的,它是由Goldfeld和Quandt通过实验的方法确定的。对于样本容量n≥30时,删去的观测值数目c为整个样本数目的1/6和1/3之间,一般取1/4(例如样本容量为48时,c=,n=12,除去的观测值为12个,这时两个子样本的容量分别为=18个)。
(3)对这两个子样本分别用最小二乘法求出回归方程,然后分别计算出相应的残差平方和。设为样本值较小的子样本的残差平方和,为样本值较大的子样本的残差平方和,他们的自由度为,其中的k为计量模型中解释变量的个数。
(4)建立统计量
F= (5-6)
可以证明:F=RSS2/RSS1~F(),即它服从自由度分别为的F分布。
显然,如果两个子样本方差相等,F的值就接近于1,表明ui具有等方差性;如果方差不相等,根据预先条件RSS2大于RSS1,F值就应该大于1,这时ui就具有异方差性,所以我们可以利用F检验来验证ui是否具有异方差性。即对于给定的显著性水平,查F分布表得出相应的临界值,若F>,拒绝H0,接受H1,即ui具有异方差性;若F<,则接受H0,ui具有等方差性。
五、怀特检验
由于G-Q检验不能解决若干变量联合造成异方差的问题,同时舍弃了中间观察值,丢弃了一些重要的信息,而且以上所介绍的全部检验都需要事先知道造成异方差的原因。怀特(1980)提出了一种可以直接对异方差进行检验的方法,不需假设事先知道异方差的存在。
1、检验步骤
以二元线性回归为例怀特检验的步骤如下:
设二元线性回归模型: (5-7)
(5-8)
;: EMBED 不同时等于零。
(1) 用OLS方法估计式(5-7)并求
(2) 计算残差并取平方。
(3)让残差平方对和回归。这是对应于(5-8)的辅助回归。如果方程(5-7)有若干解释变量,第三步将涉及大量的变量(原因在于平方项及交叉乘积项)。所以辅助回归中的变量的数量有可能超过观察值的数量,从而无法进行第三步。在一般情况下,当有k个解释变量,不包括常量项时,辅助回归的项数将为。所以观察值的数量必须大于此,即是一个必要条件。
(4)计算统计值,式中为样本容量,为第三步辅助回归的未校正的。
(5)如果大于卡方分布上自由度为5的上端%的点,则拒绝原假设。如果没有拒绝原假设,则方程(5-8)变为,表明残差是同方差的。
2、应用条件
怀特检验为大样本检验,在30个或30个以上观察值的样本中很有效。
第三节 异方差的处理
当发现模型中ui存在异方差性时,就要设法消除ui的异方差性,减小或消除异方差性带来的影响。所采用的处理方法为:
一、对原模型进行变换
1、使用范围
这种方法尤其适用于用戈里瑟检验(Glejser)方法检验出来的异方差性。因为用戈里瑟检验方法,可以得到异方差性的形式,然后利用这一形式对原模型进行变换,就可以克服模型中ui的异方差性。如果未采用戈里瑟方法,可以用|ei|同认为与有关系的解释变量进行回归,给出最优的拟合形式,然后将其作为异方差的形式,再利用这一形式对模型进行变换,以克服异方差性。
这一方法的关键问题是如何知道异方差的具体形式。
2、具体应用——变换
设回归模型为:
其中E(ui)=0,E(uiuj)=0(i≠j),E()==f(Xi),为常数,f(Xi)为Xi的一个方程,且f(Xi)>0,可见这一模型存在异方差性,对此模型进行变换得:
则变换后模型的随机扰动项是,设其为νi,则νi=,
Var(νi)=Var()=
显然νi是同方差的,即变换后的模型具有同方差性,这时就可应用最小二乘法进行参数估计。
还以上述模型为例,设异方差的形式为
Var(ui)=
其中为常数,这时要对原模型进行变换,用原模型两边去除,得到新模型
可证明Var()=为一常数,变换后的新模型具有同方差性,所以就可以应用最小二乘法估计参数了。
二、加权最小二乘法
1、加权最小二乘法的涵义
加权最小二乘法简称WLS(Weighted Least Squares),应用普通最小二乘法时,就是要使残差平方和为最小,当ui为同方差时,可以求出相应的。但当ui为异方差时,如ui的方差随着Xi值的递增而递增,显然,这时离散情况就不同,Xi值较大处的离散程度比较严重,这时得出的回归结果就不是很精确。要避免这一情况就要对离散较大处的ui给定较小的权重,而对于离散较小处的ui给定较大的权重,这样,就可以把作为的权数,它满足上述应给定权重的情况,即方差越大,权重越小,方差越小时,权重越大。这时,残差的平方和就变为:
求出使上式取最小值时的,这种方法就被称为加权最小二乘法,利用加权二乘法相当于把原模型变换为:
此时,即变换后的新模型的随机扰动项具有同方差性,这时就可以利用普通最小二乘法进行回归分析了,因此加权最小二乘法能克服异方差性的影响。
2、具体应用
举例说明,设回归模型的异方差性的形式为:
加权最小二乘法要求残差平方和
达到最小。我们对原回归模型作变换得:
设新模型的随机扰动项为νi,的估计值为,用普通最小二乘法对新模型进行回归,要求残差平方和为最小,即:
使为最小。
显然,能使达到最小的,也一定能够使达到最小,因为这两个式子只相差一常数项,利用最小二乘法就可以消除随机扰动项的异方差的影响。
3、注意问题
虽然加权最小二乘法从直观上看很简单,但它的前提是已知或者可以估计出来,但实际情况是,在计量经济学的研究中预先知道的情况是很少见的,所以在现实经济现象中加权最小二乘法很难直接应用。当未知或不可估计的时候,我们就要寻求其它的方法来解决异方差性的问题。
三、广义最小二乘法
1、基本要求
广义最小二乘法简称GLS(Generalized Least Squares)是应用比较广泛的一种方法。它的基本思路是通过一系列变换后使新模型的随机扰动项具有同方差的性质,然后再应用普通最小二乘法进行回归分析。
给定线性回归模型:
当上式满足古典假设的全部条件时,应用普通最小二乘法求出模型参数的估计量,这时的估计量具有良好的性质,即线性、无偏性和最小方差性;当随机扰动项不具有同方差性时,再应用普通最小二乘法就会使结果的精确性严重降低,这时我们就可以应用广义最小二乘法来克服异方差性的影响。
对于上面所给定的模型,当存在异方差时,则会有:
Var()=
其中为一常数,为n价对称正定矩阵。这时,肯定存在一个n阶可逆矩阵P使下式成立:
这时,我们就可以得到,用P-1左乘模型两边可以得到
令Y*=P-1Y,X*=P-1X,U*=P-1U
上式就可以写成:
此时,
=
=
可见,经证明,新变换后的模型具有同方差的性质,这时就可以应用OLS进行回归分析,得到:
=
称为参数的广义最小二乘估计量,显然,参数估计量为最优线性无偏估计量。
2、结论
从上面的分析可以看出,广义最小二乘法的核心是用P-1左乘原模型,使变换后的新模型符合古典假设的全部条件,这时就可以用OLS进行回归分析了。普通最小二乘法和加权最小二乘法都是广义最小二乘法的特殊情况,经分析可知,当时,广义最小二乘法就是普通最小二乘法;而当为对角矩阵时,广义最小二乘法就是加权最小二乘法。
第四节 带异方差性的实例分析
以一个实例对前面所研究的问题及解决方法做进一步分析和说明。具体见上机操作。
本章小结
如果线性回归模型残差的方差对所有观察值都相同,则模型具有同方差,否则具有异方差。本章首先介绍了异方差性的涵义、来源、类型和后果,重点分析了图示法、斯皮尔曼等级相关系数法、戈里瑟检验法、戈德菲尔德-匡特检验法和怀特检验法等几个典型的异方差检验方法,以及模型变换法、加权最小二乘法、广义最小二乘法等三种剔除异方差性的方法,最后运用软件结合G-Q检验方法对异方差的检验、剔除整个流程进行了具体分析。
PAGE
PAGE 18