2005年中国数量
经济学会年会征文
戈德菲尔德-匡特检验的讨论
张荷观
(江南大学 商学院,江苏 无锡 214063)
摘要:本文通过对G-Q检验的分析,指出了G-Q检验所存在的问题,并提出了解决的方法.
关键词:线性回归模型 异方差 G-Q检验
一、引言
在目前流行的国内外经济计量学教材中,例如Greene(2000)、Gujarati(2000)、贺铿(2000)和高炜宇(2002)等,都把戈德菲尔德-匡特(Goldfeld-Quandt)检验(以下简称G-Q检验)作为异方差检验的主要方法. 并且,近期仍有学者对其进行推广(龚秀芳,2005).
为便于讨论,考虑一元线性回归模型
(1)
并假定模型满足古典假定. 当
(2)
即随机项 不满足等方差的假定时,则称随机项 存在异方差. 若回归模型的随机项存在异方差,不仅回归系数的最小二乘估计不再具有最优性,并且回归系数显著性检验时的t检验也不再适用. 因而,异方差的检验是经济计量学的一个重要内容.
本文通过对G-Q检验的分析,指出了G-Q检验在理论上所存在的问题,同时提出了解决的方法.
二、G-Q检验犯第一类错误的概率与略去的数据c有关
G-Q检验的主要步骤如下:
(1) 把解释变量x按从小到大的顺序排列,而被解释变量y保持原对应关系. 略去位于中间的c对数据后,把数据等分为前后两组,分别称为较小组和较大组. 一般取
且使n-c为偶数,即较小组和较大组各包含(n-c)/2对数据.
(2) 假定较小组和较大组的随机项都具有等方差,分别记为和. G-Q检验的原假设为
(3)
即假定回归模型(1)满足等方差. 并对较小组和较大组数据分别采用最小二乘法建立样本回归方程,较小组和较大组的残差平方和分别记为和.
(3) 用RSS大表示和中的较大者,而用RSS小表示其中的较小者,则G-Q检验统计量为
RSS大/RSS小 (4)
当时,G-Q检验拒绝,认为线性回归模型(1)的随机项存在递增(或递减)异方差. 否则,就认为随机项不存在异方差,即随机项满足等方差.
G-Q检验实际上按解释变量的大小把数据划分为三组,可分别称为较小组、中间组和较大组. 并假定各组的随机项满足等方差,若分别用、和表示较小组、中间组和较大组的随机项方差,则G-Q检验的原假设(3)式可改写为
(5)
(5)式与(3)式都表示线性回归模型(1)的随机项满足等方差,即(5)式与(3)式等价. 并且,当残差平方和递增时,和就是这三组数据中残差平方和的最小值和最大值,即=RSS小,=RSS大. 于是根据(4)式,当残差平方和递增时有
(6)
即这时的G-Q检验统计量为最大残差平方和与最小残差平方和之比. 特别,当,即三组数据个数都相等时,则(6)式实际上就是哈特利(Hartley)的最大F比检验统计量. 这就是说,当已知残差平方和递增且时,那么G-Q检验统计量和最大F比检验统计量相同. 而根据最大F比检验,当时拒绝,可以认为随机项存在异方差. 否则,就认为随机项不存在异方差,即满足等方差. 根据最大F比检验的临界值表(Sachs 1984),对于给定的显著性水平,总有. 所以当已知残差平方和递增时,G-Q检验按临界值作检验时,必使G-Q检验犯第一类错误的概率超过规定的显著性水平(当残差平方和递减时可得相同结论). 表1给出了G-Q检验的临界值和最大F比检验的临界值的比较表.
表1 和的比较表
n
30
33
36
42
51
66
96
例1 30户家庭收入x(单位:美元)与消费支出y(单位:美元)的数据如下(Gujarati,2000). 已知残差平方和递增,试检验随机项是否存在异方差.
表2 30户家庭收入x与消费支出y的数据
x y
x y
x y
55
85 70
90 75
100 65
105 74
110 80
115 84
120 79
125 90
130 98
140 95
145 108
150 113
160 110
165 125
180 115
185 130
190 135
200 120
205 140
210 144
220 152
225 140
230 137
240 145
245 175
250 189
260 180
265 178
270 191
已知,取c=10,即较小组和较大组各包含10对数据. 求得
则根据(4)式得
在时,查F分布表得临界值. 由于,从而根据G-Q检验认为随机项存在异方差. 但事实上,由于本例的残差平方和递增且,则
即这时G-Q检验统计量和最大F比检验统计量的取值相等. 从而在时,根据表1可得最大F比检验的临界值. 因 EMBED ,则根据最大F比检验应接受,可以认为随机项不存在异方差,即满足等方差.
由于已知例1的残差平方和递增, 因而也可采用斯皮尔曼(Spearman)等级相关检验. 根据表1求得
在时,查t分布表得临界值,从而同样可以认为随机项满足等方差.
由于当残差平方和递增且时,即这时G-Q检验和最大F比检验统计量的取值相等. 但因总有,所以这时采用G-Q检验会使犯第一类错误的实际概率大于规定的显著性水平. 对于例1,最大F比检验的临界值应为,但G-Q检验却取作为临界值,则使G-Q检验增大了犯第一类错误的概率. 这就是说,对于例1,当G-Q检验规定,即取临界值为时犯第一类错误的实际概率才是.
显然,当残差平方和递增(或递减)时, 略去的数据c愈多,则G-Q检验的F值愈大,从而愈容易发现递增(或递减)异方差,但同时也使G-Q检验犯第一类错误的概率愈大.
三、G-Q检验犯第二类错误的概率与异方差类型有关
当残差平方和先随x的增加而增大,然后又随x的增加而减小(或残差平方和先随x的增加而减小,然后又随x的增加而增大)时,这时(或). 但只要,即,根据G-Q检验,则仍认为随机项不存在异方差. 这就是说,不管、和之间的差别有多大,只要,G-Q检验就认为不存在异方差. 因而,G-Q检验不能识别复杂异方差. 于是,在不了解异方差类型时采用G-Q检验又会增大犯第二类错误的概率.
例2 30名学生的数学成绩x(单位:分)与统计学成绩y(单位:分)的数据如下,试检验是否存在异方差.
表3 30名学生的数学成绩x与统计学成绩y的数据
x y
x y
x y
38 48
42 30
45 34
53 61
56 63
60 45
62 73
63 79
64 73
68 85
70 75
71 70
71 76
74 80
75 69
77 71
79 77
79 69
83 80
83 79
85 65
88 79
89 67
89 89
91 94
92 97
92 95
93 89
95 92
96 93
仍略去中间的10对数据(c=10),即较小组和较大组各包含10对数据. 同样可得
于是由(4)式得
在时,由于,从而G-Q检验认为随机项为等方差. 但根据最大F比检验则有
于是,从而根据最大F比检验可认为随机项存在异方差.
实际上,例2的数据显示随机项存在复杂异方差现象,但G-Q检验不能识别复杂异方差从而误认为等方差. 所以在不了解异方差类型时采用G-Q检验,又会增加犯第二类错误的概率.
四、结语
由于递增(或递减)异方差是一种常见的异方差类型,从而使G-Q检验成为一种常用的异方差检验方法.
但因为G-Q检验不能识别复杂异方差,从而在随机项可能存在复杂异方差时采用G-Q检验会增大犯第二类错误的概率. 所以,当随机项可能存在复杂异方差时,不宜采用G-Q检验,例2给出了这种情况的一个实例.
G-Q检验的统计量表明,G-Q检验适用于检验递增(或递减)的异方差. 但这时的G-Q检验统计量已成为最大残差平方和与最小残差平方和之比的最大F比,从而这时G-Q检验犯第一类错误的概率会随c增加而增大. 一般,当c很小,即时,G-Q检验是适用的. 而当c较大,例如时,G-Q检验不再适用. 特别,当时,G-Q检验统计量和最大F比检验统计量相同(见例1). 所以,当c较大时,为避免G-Q检验增大犯第一类错误的概率,可以采用Hartley的最大F比检验或Cochran的最大方差检验.
参考文献
[1] William H. Greene,Econometric Analysis,4th ed. Prentice-Hall International Inc.,2000
[2] Damodar N. Gujarati,林少宫译,《计量经济学》(第3版),中国人民大学出版社,2000.
[3] 贺铿,《经济计量学教程》,中国统计出版社,2000.
[4] 高炜宇、谢识予,《高等计量经济学》,高等教育出版社,2002.
[5] 龚秀芳,《戈德菲尔德-匡特检验的推广》,《数理统计与管理》,2005年第1期.
[6] Lothar Sachs,Applied Statistics,A Handbook of Techniques[M],Springer-Verlag,New York, 1984
研究领域:经济计量学、应用统计学
电话:0510-5877191
电子信箱:heguanzh@
通讯地址:江苏省 无锡市 滨湖区 青山二村 60号 102室
邮编:214062
PAGE
PAGE 6