第9章 面板数据模型与应用 1.面板数据定义 2.面板数据模型分类 3.面板数据模型估计方法 4.面板数据模型的检验与设定 5.面板数据建模案例分析 6.面板数据的单位根检验 7.面板数据模型的协整检验 8.EViwes应用 9.面板数据研究新进展(动态面板数据模型、非均衡面板数据模型、离散面板数据模型、面板数据非平稳性、面板数据的协积) 1.面板数据定义 时间序列数据或截面数据都是一维数据。时间序列数据是变量按时间得到的数据;截面数据是变量在固定时点的一组数据。面板数据是同时在时间和截面上取得的二维数据。所以,面板数据(panel data)也称作时间序列与截面混合数据(pooled time series and cross section data)。面板数据是截面上个体在不同时点的重复观测数据。 panel 原指对一组固定调查对象的多次观测,近年来panel data已经成为专业术语。 面板数据示意图见图1。面板数据从横截面(cross section)看,是由若干个体(entity, unit, individual)在某一时点构成的截面观测值,从纵剖面(longitudinal section)看每个个体都是一个时间序列。 图2 1978-2005中国各省级地区消费性支出占可支配收入比例走势图(价格平减过) 面板数据分两种特征:(1)个体数少,时间长。(2)个体数多,时间短。面板数据主要指后一种情形。 面板数据用双下标变量表示。例如 1
yi t, i = 1, 2, , N; t = 1, 2, , T i对应面板数据中不同个体。N表示面板数据中含有N个个体。t对应面板数据中不同时点。T表示时间序列的最大长度。若固定t不变,yi ., ( i = 1, 2, , N)是横截面上的N个随机变量;若固定i不变,y. t, (t = 1, 2, , T)是纵剖面上的一个时间序列(个体)。 利用面板数据建立模型的好处是:(1)由于观测值的增多,可以增加估计量的抽样精度。(2)对于固定效应模型能得到参数的一致估计量,甚至有效估计量。(3)面板数据建模比单截面数据建模可以获得更多的动态信息。 例如1990-2000年30个省份的农业总产值数据。固定在某一年份上,它是由30个农业总产值数字组成的截面数据;固定在某一省份上,它是由11年农业总产值数据组成的一个时间序列。面板数据由30个个体组成。共有330个观测值。 对于面板数据yi t, i = 1, 2, , N; t = 1, 2, , T,如果每个个体在相同的时期内都有观测值记录,则称此面板数据为平衡面板数据(balanced panel data)。若面板数据中的个体在相同时期内缺失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data)。 案例1(file:5panel02):1996-2002年中国东北、华北、华东15个省级地区的居民家庭固定价格的人均消费(CP)和人均收入(IP)数据见file:panel02。数据是7年的,每一年都有15个数据,共105组观测值。 人均消费和收入两个面板数据都是平衡面板数据,各有15个个体。人均消费和收入的面板数据从纵剖面观察分别见图2和图3。从横截面观察分别见图4和图5。横截面数据散点图的表现与观测值顺序有关。图4和图5中人均消费和收入观测值顺序是按地区名的汉语拼音字母顺序排序的。 12000安徽北京10000福建河北8000黑龙江6000吉林江苏4000江西2000辽宁内蒙古0山东上海山西天津浙江 图3 15个省级地区的人均消费序列(个体)(file:5panel02) 安徽14000北京12000福建河北10000黑龙江8000吉林6000江苏4000江西辽宁2000内蒙古0山东上海山西天津浙江 图4 15个省级地区的人均收入序列(个体)(file:5panel02) 2浙江山西山西山东辽宁内蒙古江苏江苏黑龙江河北福建安徽安徽1996199619981999200020022002
1996120001997100001998199980002000600020012002400020000 图5 7个人均消费横截面数据(含15个地区) (每条连线表示同一年度15个地区的消费值) 140001200019961000019978000199860001999400020002000200102002 图6 7个人均收入横截面数据(含15个地区) (每条连线表示同一年度15个地区的收入值) 用CP表示消费,IP表示收入。AH, BJ, FJ, HB, HLJ, JL, JS, JX, LN, NMG, SD, SH, SX, TJ, ZJ分别表示安徽省、北京市、福建省、河北省、黑龙江省、吉林省、江苏省、江西省、辽宁省、内蒙古自治区、山东省、上海市、山西省、天津市、浙江省。 15个地区7年人均消费对收入的面板数据散点图见图6和图7。图6中每一种符号代表一个省级地区的7个观测点组成的时间序列。相当于观察15个时间序列。图7中每一种符号代表一个年度的截面散点图(共7个截面)。相当于观察7个截面散点图的叠加。 LOG(CP1996)LOG(CP2000)(CP1997)LOG(CP2001)LOG(CP1998)LOG(CP2002)(CP1999)(IPCROSS) 图6 对数的人均消费对收入的面板数据散点图 图7 对数的人均消费对收入的面板数据散点图 3安徽安徽河北河北江苏江苏内蒙古内蒙古山西山西1996199819962000199920022002
11000CP_IAHCP_IJLCP_ISDCP_IBJCP_IJSCP_ISH10000CP_IFJCP_IJXCP_ISXCP_IHBCP_9000ILNCP_ITJCP_IHLJCP_INMGCP_IZJ800070006000500040003000IP_I20002000400060008000100001200014000 为了观察得更清楚,图8给出北京和内蒙古1996-2002年消费对收入散点图。从图中可以看出,无论是从收入还是从消费看内蒙古的水平都低于北京市。内蒙古2002年的收入与消费规模还不如北京市1996年的大。图9给出该15个省级地区1996和2002年的消费对收入散点图。6年之后15个地区的消费和收入都有了相应的提高。 1100011000cp_bjcp_nmg10000CP_1996CP_20021000090009000800080007000700060006000500050004000400030003000IP_IIP_T2000200020004000600080001000012000140002000400060008000100001200014000 图8 北京和内蒙古1996-2002年消费对收入散点图 图9 1996和2002年15个地区的消费对收入散点图 2.面板数据模型分类 用面板数据建立的模型通常有3种,即混合模型、固定效应模型和随机效应模型。 混合模型(Pooled model)。 如果一个面板数据模型定义为, yit = α + Xit ’β +εit, i = 1, 2, , N; t = 1, 2, , T (1) 其中yit为被回归变量(标量),α表示截距项,Xit为k ×1阶回归变量列向量(包括k个回归量),β为k ×1阶回归系数列向量,εit为误差项(标量)。则称此模型为混合模型。混合模型的特点是无论对任何个体和截面,回归系数α和β都相同。 如果模型是正确设定的,解释变量与误差项不相关,即Cov(Xit,εit) = 0。那么无论是N→∞,还是T→∞,模型参数的混合最小二乘估计量(Pooled OLS)都是一致估计量。 以案例1(file:5panel02)为例得到的混合模型估计结果如下: 4
图9 EViwes 6 混合模型的估计结果 LnCPit = + LnIPit +εit () () R2 = , SSE = , DW = 可以加AR(1)项克服自相关, LnCPit = + LnIPit + AR(1) +εit () () () R2 = , SSE = , DW = 固定效应模型(fixed effects regression model)。 固定效应模型分为3种类型,即个体固定效应模型、时点固定效应模型和个体时点双固定效应模型。下面分别介绍。 个体固定效应模型(entity fixed effects model) 如果一个面板数据模型定义为, yit = αi + Xit ’β +εit, i = 1, 2, , N; t = 1, 2, , T (3) 其中αi是随机变量,表示对于i个个体有i个不同的截距项,且其变化与Xit有关系;Xit为k ×1阶回归变量列向量(包括k个回归量),β为k ×1阶回归系数列向量,对于不同个体回归系数相同,yit为被回归变量(标量),εit为误差项(标量),则称此模型为个体固定效应模型。 个体固定效应模型(3)的强假定条件是, E(εitαi, Xit) = 0, i = 1, 2, , N αi作为随机变量描述不同个体建立的模型间的差异。因为αi是不可观测的,且与可观测的解释变量Xit的变化相联系,所以称(3)式为个体固定效应模型。 个体固定效应模型也可以表示为 yit = α1 D1 + α2 D2 + +αN DN + Xit ’β +εit, t = 1, 2, , T (4) 其中 1,如果属于第i个个体,i=1, 2, ..., N,Di = 0,其他, 个体固定效应模型(3)还可以用多方程表示为 5
y1t = α1 + X1t ’β +ε1t, i = 1(对于第1个个体或时间序列),t = 1, 2, , T y2t = α2 + X2t ’β +ε2 t, i = 2(对于第2个个体或时间序列),t = 1, 2, , T yN t = αN + XN t ’β+ε N t, i = N(对于第N个个体或时间序列),t = 1, 2, , T 注意: (1)在EViews输出结果中αi是以一个不变的常数部分和随个体变化的部分相加而成。 (2)在EViews 以上版本个体固定效应对话框中的回归因子选项中填不填c输出结果都会有固定常数项。 对于个体固定效应模型,个体效应αi未知,E(αi Xit)随Xit而变化,但不知怎样与Xit变化,所以E(yit Xit)不可识别。对于短期面板数据,个体固定效应模型是正确设定的,β的混合OLS估计量不具有一致性。相应解释见小节。但是对个体固定效应模型可以识别边际效应。 β = ∂ E(yit αi, Xit)/∂ Xit 个体固定效应模型的估计方法有多种,首先设法除去αi的影响,从而保证β估计量的一致性。(详见第3节,面板数据模型估计方法。) 下面解释设定个体固定效应模型的原因。假定有面板数据模型 yit = β0 + β1 xit +β2 zi +εit, i = 1, 2, , N; t = 1, 2, , T (5) 其中β0为常数,不随时间、截面变化;zi表示随个体变化,但不随时间变化的难以观测的变量。 以案例1为例,省家庭平均人口数就是这样的一个变量。对于短期面板来说,这是一个基本不随时间变化的量,但是对于不同的省份,这个变量的值是不同的。 上述模型可以被解释为含有N个截距,即每个个体都对应一个不同截距的模型。令αi = β0 +β2 zi,于是(5)式变为 yit = αi + β1 xit +εit, i = 1, 2, , N; t = 1, 2, , T (6) 这正是个体固定效应模型形式。对于每个个体回归函数的斜率相同(都是β1),截距αi却因个体不同而变化。可见个体固定效应模型中的截距项αi中包括了那些随个体变化,但不随时间变化的难以观测的变量的影响。αi是一个随机变量。因为zi是不随时间变化的量,所以当对个体固定效应模型中的变量进行差分时,可以剔除那些随个体变化,但不随时间变化的难以观测变量的影响,即剔出αi的影响。 以案例1(file:5panel02)为例得到的个体固定效应模型估计结果如下: 6
图10 个体固定效应模型的EViwes 6估计结果 输出结果的方程形式是 ∧ Lncp1= γ 安徽+β Lnip1t = ( ) + Lnip1t () () ∧ Lncp2= γ 北京+β t1Lnip2t = ( + ) + Lnip 2t () () 。。。 ∧ Lncp15= γ 浙江+β t1Lnip15t = ( + ) + Lnip 15t () () R2 = , SSEr = , (89) = , DW = 从结果看,北京、上海、浙江是自发消费(消费函数截距)最大的3个地区。 注意:带AR项的个体固定效应模型基础上同样可以做是否取混合模型的F检验。 时点固定效应模型(time fixed effects model) 如果一个面板数据模型定义为, yit = γt + Xit ’β +εit, i = 1, 2, , N (7) 7
其中γt是模型截距项,随机变量,表示对于T个截面有T个不同的截距项,且其变化与Xit有关系;yit为被回归变量(标量),εit为误差项(标量),满足通常假定条件。Xit为k ×1阶回归变量列向量(包括k个回归变量),β为k ×1阶回归系数列向量,则称此模型为时点固定效应模型。 时点固定效应模型也可以加入虚拟变量表示为 yit =γ0 + γ1 W1 + γ2 W2 + +γ T WT + Xit ’β +εit, i = 1, 2, , N; t = 1, 2, , T (8) 其中 W1, 如果属于第t个截面,t=1, 2, ..., T; t = 0, 其他(不属于第t个截面)。 模型(8)还也可以用多方程表示为 yi1 = (γ0 + γ1) + X1t ’β+ εi1, t = 1,(对于第1个截面),i = 1, 2, , N yi2 = (γ0 + γ2) + X2t ’β + εi2, t = 2,(对于第2个截面),i = 1, 2, , N yiT = (γ0 + γT) + XN t ’β + εiT, t = T,(对于第T个截面),i = 1, 2, , N 设定时点固定效应模型的原因。假定有面板数据模型 yit = γ0 + β1 xit +γ2 zt +εit, i = 1, 2, , N; t = 1, 2, , T (9) 其中γ0为常数,不随时间、截面变化;zt表示随不同截面(时点)变化,但不随个体变化的难以观测的变量。 以案例1为例,“全国零售物价指数”就是这样的一个变量。对于不同时点,这是一个变化的量,但是对于不同省份(个体),这是一个不变化的量。 上述模型可以被解释为含有T个截距,即每个截面都对应一个不同截距的模型。令γt = γ0 +γ2 zt,于是(9)式变为 yit = γt + β1 xit +εit, i = 1, 2, , N; t = 1, 2, , T (10) 这正是时点固定效应模型形式。对于每个截面,回归函数的斜率相同(都是β1),γt却因截面(时点)不同而异。可见时点固定效应模型中的截距项γt包括了那些随不同截面(时点)变化,但不随个体变化的难以观测的变量的影响。γt是一个随机变量。 8
图11 EViwes 时点固定效应模型估计结果 以例1为例得到的时点固定效应模型估计结果见图11,代数式如下: ∧ Lncp=γ i10 +γ 1996 +β 1Lnipi1 = ( + ) + Lnipi1 , t = 1996 () () ∧Lncp2=γ i0 +γ 1997 +β 1Lnipi2 = ( + ) + , t = 1997 () () ∧ Lncp=γ 0 +γ 2002 +β 1Lnipi7i7 = ( ) + Lnipi7 , t = 2002 () () R2 = , SSEr = 4028843, (97) = 注意:时点固定效应模型中不可以加AR项。 个体时点固定效应模型(time and entity fixed effects model) 如果一个面板数据模型定义为, yit = α0 +αi +γt + Xit ’β +εit, i = 1, 2, , N; t = 1, 2, , T (11) 其中yit为被回归变量(标量);αi是随机变量,表示对于N个个体有N个不同的截距项,且其变化与Xit有关系;γt是随机变量,表示对于T个截面(时点)有T个不同的截距项,且其变化与Xit有关系;Xit为k ×1阶回归变量列向量(包括k个回归量);β为k ×1阶回归系数 9
列向量;εit为误差项(标量)满足通常假定(εit Xit, αi, γt) = 0;则称此模型为个体时点固定效应模型。 个体时点固定效应模型还可以表示为, yit = α0 +α1 D1+α2 D2 + +αN DN + γ1W1+ γ2W2 + +γ TWT + Xit ’β +εit, (12) 其中 1,如果属于第i个个体,i=1,2, ..., N,Di = (13) 0,其他, W1, 如果属于第t个截面,t=1,2,...,T; t = (14) 0, 其他 (不属于第t个截面)。 如果模型形式是正确设定的,并且满足模型通常的假定条件,对模型(12)进行混合OLS估计,全部参数估计量都是不一致的。正如个体固定效应模型可以得到一致的、甚至有效的估计量一样,一些计算方法也可以使个体时点双固定效应模型得到更有效的参数估计量。 以例1为例得到的截面、时点固定效应模型估计结果如下: 图12 EViwes 截面、时点双固定效应模型估计结果 注意: 10
(1)对于第1个截面(t=1)EViwes输出结果中把(α1 +γi), (i = 1, 2, , N)估计在一起。 (2)对于第2, , T个截面(t=1)EViwes输出结果中分别把(α1 +αt), (t = 2, , T)估计在一起。 输出结果如下: ∧Lncp1=γ 0 +α,1996 1+γ 1996 +β 1Lnip1,1996 = - - + Lnip1,1996 (安徽省) ∧Lncp2=γ 0 +α ,19962+γ 1996 +β 1Lnip2,1996 = + + 2,1996(北京市) ∧Lncp1 =γ 0 +α ,19971+γ 1997 +β 1Lnip1,1997 = + + ,1997(安徽省) ∧Lncp219 =,97γ 0 +α 2+γ 1997 +β 1Lnip2,1997 = + + + Lnip2,1997(北京市) ∧ Lncp15=γ ,20020 +α 15 +γ 2002+β 1Lnip15,2002 = +++ Lnip15,2002(浙江省) R2 = , SSEr = , (83) = 注意:(1)个体时点固定效应模型中不可以加AR项。 (2)在上述三种固定效应模型中,个体固定效应模型最为常用。 随机效应模型 对于面板数据模型 yit = αi + Xit’β +εit, i = 1, 2, , N; t = 1, 2, , T (15) 如果αi为随机变量,其分布与Xit无关; Xit为k ×1阶回归变量列向量(包括k个回归量),β为k ×1阶回归系数列向量,对于不同个体回归系数相同,yit为被回归变量(标量),εit为误差项(标量),这种模型称为个体随机效应模型(随机截距模型、随机分量模型)。其假定条件是 αi∼ iid(α, σ2α) εit ∼ iid(02, σε) 都被假定为独立同分布,但并未限定何种分布。 同理也可定义时点随机效应模型和个体时点随机效应模型,但个体随机效应模型最为常用。 这里所说的个体随机效应模型其实是有别于真正的随机效应模型。 个体随机效应模型又称为等相关模型(Equicorrelated model)。原因如下。随机效应模型可以看作是混合模型的特例。对于个体随机效应模型yit = αi + Xit ’β +εit,可以把αi并入误差项εit。模型改写为 yit = Xit ’β + (αi +εit) = Xit ’β + uit (16) 其中uit = (αi +εit)。如果有α2i∼(α, σα),εit ∼(0, σ2ε)成立,那么, Covσ2α, t≠s(uit,uis) = Cov[(αi +εit)( αi +εis)] = (17) σ2+2ασε, t=s因为对于t ≠ s,有 11
Covuuσ2r(uitisit,uis) =(,) =α (18) Var(u)Va()σ2+2ruασitisε相关系数r(uit,uis)与 (t s) 即相隔期数长短无关。所以个体随机效应模型也称作等相关模型,或者可交换误差模型(exchangeable model)。 对于个体随机效应模型,E(αi Xit) = α,则有,E(yit xit) = α + Xit’β,对yit可以识别。所以随机效应模型参数的混合OLS估计量具有一致性,但不具有有效性。 例1的个体随机效应模型估计结果如下: 图13 个体随机效应模型估计结果 注意:术语“随机效应模型”和“固定效应模型”用得并不十分恰当,容易产生误解。其实固定效应模型应该称之为“相关效应模型”,而随机效应模型应该称之为“非相关效应模型”。因为固定效应模型和随机效应模型中的αi都是随机变量。 3.面板数据模型估计方法 面板数据模型中β的估计量既不同于截面数据估计量,也不同于时间序列估计量,其性质随设定固定效应模型是否正确而变化。回归变量xit可以是时变的,也可以是非时变的。 混合最小二乘(Pooled OLS)估计 混合OLS估计方法是在时间上和截面上把NT个观测值混合在一起,然后用OLS法估计模型参数。给定混合模型 yit = α + Xit ’β +εit, i = 1, 2, , N; t = 1, 2, , T (19) 把上模型写成向量形式, y=Wγ+u 12
其中y=(y1’…yN’)’和u=(u1’…uN’)’是NT×1阶列向量。γ=(α β ′)′, 是(k+1)×1阶列向量。W是NT×(k+1)阶矩阵,其第1列是单位列向量。假定条件是E(u∣W) = 0,误差项u是严格外生的。E(u u′∣W) = Ω,则γ的混合OLS估计公式是 1 γ =(W′W-)W′y 如果模型是正确设定的,且解释变量与误差项不相关,即Cov(Xit,εit) = 0。那么无论是N→∞,还是T→∞,模型参数的混合最小二乘估计量都具有一致性。 对混合模型通常采用的是混合最小二乘(Pooled OLS)估计法。 然而,在误差项服从独立同分布条件下由OLS法得到的方差协方差矩阵,在这里通常不会成立。因为对于每个个体i及其误差项来说通常是序列相关的。NT个相关观测值要比NT个相互独立的观测值包含的信息少。从而导致误差项的标准差常常被低估,估计量的精度被虚假夸大。 如果模型存在个体固定效应,即αi与Xit相关,那么对模型应用混合OLS估计方法,估计量不再具有一致性。解释如下: 假定模型实为个体固定效应模型yit = αi + Xit ’β +εit,但却当作混合模型来估计参数,则模型可写为 yit = α + Xit ’β + (αi -α +εit) = α + Xit ’β + uit (20) 其中uit = (αi -α +εit)。因为αi与Xit相关,也即uit与Xit相关,所以个体固定效应模型的参数若采用混合OLS估计,估计量不具有一致性。 平均数(between)OLS估计 平均数OLS估计法的步骤是首先对面板数据中的每个个体求平均数,共得到N个平均数(估计值)。然后利用yit和Xit的N组观测值估计参数。以个体固定效应模型 yit = αi + Xit ’β +εit (21) 为例,首先对面板中的每个个体求平均数,从而建立模型 y= αi +iX’β +ε, i = 1, 2, , N (22) iiTTT其中1y=T−1i∑y,itX=T−i∑X,ε=T−1ε,i = 1, 2, , N。变换上式得 iti∑itt=1t=1t=1y= α +iX’β +(α i - α +ε), i = 1, 2, , N (23) ii上式称作平均数模型。对上式应用OLS估计,则参数估计量称作平均数OLS估计量。此条件下的样本容量为N,(T=1)。 如果X与(α i - α +ε)相互独立,α和β的平均数OLS估计量是一致估计量。平均数OLSii估计法适用于短期面板的混合模型和个体随机效应模型。对于个体固定效应模型来说,由于αi和Xit相关,也即αi和X相关,所以,回归参数的平均数OLS估计量是非一致估计量。 i 离差变换(within)OLS估计 对于短期面板数据,离差变换OLS估计法的原理是先把面板数据中每个个体的观测值变换为对其平均数的离差观测值,然后利用离差变换数据估计模型参数。具体步骤是,对于个体固定效应模型 yit = αi + Xit’β +εit (24) 中的每个个体计算平均数,可得到如下模型, 13
y= α +ε ii +X’βii其中y、iX、ε的定义见(22)式。上两式相减,消去了αi,得 iiyit -y= (Xiit -X)’β + (εit -ε) ii此模型称作离差变换数据模型。对上式应用OLS估计, NT∑∑(X−X)(y−y)itiitii=1t=1 β =N T∑∑(X−X)(X−X)′itiitii=1t=1所得β的估计量称作离差变换OLS估计量。对于个体固定效应模型,β的离差变换OLS估计量是一致估计量。 如果εit还满足独立同分布条件,β的离差变换OLS估计量不但具有一致性而且还具有有效性。如果对固定效应αi感兴趣,也可按下式估计。 α =y- iX’β (27) ii利用中心化(或离差变换)数据,计算回归参数估计量β 的方差协方差矩阵如下, NT−1∧Var(β ) = σ2 ∑∑(X−X)(X−X)′ (28) itiitii=1t=1NT∑∑2ε it其中σ2it ==1=1。 NT−N−k个体固定效应模型的估计通常采用的就是离差变换(within)OLS估计法。 在短期面板条件下,即便αi的分布、以及αi和Xit的关系都已知到,αi的估计量仍不具有一致性。当个体数N不大时,可采用OLS虚拟变量估计法估计αi和β。 离差变换OLS估计法的主要缺点是不能估计非时变回归变量构成的面板数据模型。比如Xit = Xi(非时变变量),那么有X= Xi,计算离差时有Xi -X= 0。 一阶差分(first difference)OLS估计 在短期面板条件下,一阶差分OLS估计就是对个体固定效应模型中的回归量与被回归量的差分变量构成的模型的参数进行OLS估计。具体步骤是,对个体固定效应模型 yit = αi + Xit ’β +εit 取其滞后一期关系式 yit-1 = αi + Xit-1’β +εit-1 上两式相减,得一阶差分模型(αi被消去) yit -yit-1 = (Xit - Xit -1) ’β + (εit -εit-1) , i = 1, 2, , N; t = 1, 2, , T 对上式应用OLS估计得到的β的估计量称作一阶差分OLS估计量。尽管αi不能被估计,β的估计量是一致估计量。 在T>2,εit独立同分布条件下得到的β的一阶差分OLS估计量不如离差变换OLS估计 14
量有效。 随机效应(random effects)估计法(可行GLS(feasible GLS)估计法) 有个体固定效应模型 yit = αi + Xit ’β +εi αi,εit服从独立同分布。对其作如下变换 y it -λy= (1-λ )µ + (Xiit -λ X)’β + vit (29) i其中vit = (1-λ )αi + (εit -λ ε)渐近服从独立同分布,λσ = 1-ε,应用OLS估计,iσ2+T2εσα则所得估计量称为随机效应估计量或可行GLS估计量。当λ = 0时,(29)式等同于混合OLS估计;当λ =1时,(29)式等同于离差变换OLS估计。 对于随机效应模型,可行GLS估计量不但是一致估计量,而且是有效估计量,但对于个体固定效应模型,可行GLS估计量不是一致估计量。 面板数据模型估计量的稳健统计推断。在实际的经济面板数据中,N个个体之间相互独立的假定通常是成立的,但是每个个体本身却常常是序列自相关的,且存在异方差。为了得到正确的统计推断,需要克服这两个因素。 对于第i个个体,当N→∞,Xi⋅的方差协方差矩阵仍然是T×T有限阶的,所以可以用以前的方法克服异方差。采用GMM方法还可以得到更有效的估计量。 EViwes中对随机效应模型的估计采用的就是可行(feasible )GLS估计法。 4.面板数据模型检验与设定方法 (1)面板数据模型中参数约束是否成立的Wald检验 ’1 W=f(β −)×mVar(f(β )) (1)(m×mf(β)m× ∼ χ2 (m) )(1)其中f(β) 表示由约束条件组成的列向量。m表示被检验的约束条件的个数, ’V∂f(β )∂fβar(f(β ))=[Varβ]( )( )(k×k),其中k表示解释变量个数。 ∂β (m×k∂β)(k×m) (2)面板数据模型中丢失变量或存在多余变量的检验 (SSEr−SSEu)/m F =∼ F (m, NT- k -1) SSEu/(NT−k−1)其中SSEr 表示施加约束条件后估计模型的残差平方和;SSEu 表示未施加约束条件的估计模型的残差平方和;m表示约束条件个数;N×T表示面板数据样本容量(N表示个体数,T表示个体长度);k表示非约束面板数据模型中被估参数的个数。 判别规则是,若F < Fα (m, NT- k -1),约束条件成立, 若F > Fα (m, NT- k -1),约束条件不成立。 ~ LR = -2 [ log L(β~2,σ) - log L(β 2,σ ) ]∼ χ2 (m) 其中~logL(β~2,σ)表示约束模型的对数似然函数极大值,logL(β ,σ2 )表示非约束模型的对数似然函数极大值,m表示面板数据模型中约束条件个数。 15
F检验 面板数据建模的一项重要任务就是判别模型中是否存在个体固定效应。以个体随机效应模型yit = αi + Xit ’β +εit,为例,无论是固定效应还是随机效应模型,αi都被看作是随机变量,并都有假定条件 E(yit αi, Xit) = αi + Xit ’β 下面介绍两种检验方法,F检验和Hausman检验。 先介绍F检验原理。F统计量定义为 (SSEr−SSEu)/m F = (30) SSEu/(T−k)其中SSEr 表示施加约束条件后估计模型的残差平方和,SSEu 表示未施加约束条件的估计模型的残差平方和,m表示约束条件个数,T 表示样本容量,k表示未加约束的模型中被估参数的个数。在原假设“约束条件真实”条件下,F统计量渐近服从自由度为( m , T k )的F分布。 F ∼ F(m , T k ) 以检验建立混合模型还是个体固定效应模型为例,介绍F检验的应用。建立假设 H0:αi =α。模型中不同个体的截距相同(真实模型为混合模型)。 H1:模型中不同个体的截距项αi不同(真实模型为个体固定效应模型)。 F统计量定义为: (SSEr−SSEu)/[(NT−k)−(NT−N−k)](SSEr−SSEF=u)/N= (31) SSEu/(NT−N−k)SSEu/(NT−N−k)其中SSEr表示约束模型,即混合估计模型的残差平方和,SSEu表示非约束模型,即个体固定效应模型的残差平方和。约束条件为N个。k表示公共参数个数。 以案例1为例,已知SSEr= 4824588,SSEu=2270386,个体数15。 (SSESSE)/NF=r−u =(−)/14== (32) SSEu/(NT−N−k) (14, 89) = 因为F= > (14, 89) = ,推翻原假设,比较上述两种模型,建立个体固定效应模型比混合模型更合理。 EViews中称作多余的固定效应检验,使用F和LR两个统计量。在固定效应模型估计窗口中的View键选Fix/Random Effects Testing, Redundant Fixed Effects-Likelihood Ratio功能。 (file:5panel02) 因为概率小于,推翻原假设,两相比较,应该建立个体固定效应模型。 16
Hausman检验 对同一参数的两个估计量差异的显著性检验称作Hausman检验,简称H检验。H检验由Hausman 1978年提出,是在Durbin(1914)和Wu(1973)基础上发展起来的。所以H检验也称作Wu-Hausman检验,和Durbin-Wu-Hausman检验。 先介绍Hausman检验原理。 例如在检验单一方程中某个回归变量(解释变量)的内生性问题时得到相应回归参数的两个估计量,一个是OLS估计量、一个是2SLS估计量。其中2SLS估计量用来克服回归变量可能存在的内生性。如果模型的解释变量中不存在内生性变量,那么OLS估计量和2SLS估计量都具有一致性,都有相同的概率极限分布。如果模型的解释变量中存在内生性变量,那么回归参数的OLS估计量是不一致的而2SLS估计量仍具有一致性,两个估计量将有不同的概率极限分布。 更一般地,假定得到q个回归系数的两组不同方法估计量θ 和~θ,则H检验的零假设和被择假设是: H0:~plim(θ -θ) = 0 H~ 1:plim(θ-θ) ≠ 0 假定两个估计量的差作为统计量也具有一致性,在H0成立条件下,统计量~N(θ -θ)渐近服从正态分布。 ~ N(θ -θ) →dN(0, VH) 其中VH是~N(θ -θ)的极限分布方差矩阵。则H检验统计量定义为 H~~-1 = (θ -θ)’ (N-1V H) (θ -θ) → χ2(q) (33) 其中~-1(NV H)是(θ -θ)的估计的方差协方差矩阵。在H0成立条件下,H统计量渐近服从χ2(q)分布。其中q表示零假设中约束条件个数。 H检验原理很简单,但实际中VH的一致估计量V H并不容易求。一般来说, ~~~N-1V H= Var(θ -θ) = Var(θ)+Var(θ)-2Cov(θ ,θ) (34) V~ar(θ ),Var(θ)在一般软件计算中都能给出。但~Cov(θ ,θ)不能给出。致使H统计量(33)在实际中无法使用。 实际中也常进行如下检验。 H0:模型中所有解释变量都是外生的。 H1:其中某些解释变量都是内生的。 在原假设成立条件下,解释变量参数的OLS估计量θ 是有效估计量。则有~Cov(θ ,θ) = Var(θ )。于是(34)式变为 N-1~~~~V H= Var(θ -θ) = Var(θ )+Var(θ)-2Cov(θ ,θ) = Var(θ)-Var(θ ) (35) 把(35)式结果代入(33)式,得 H~∧~∧~ = (θ -θ)’ (Var(θ)-Va-1r(θ )) (θ -θ) (36) ∧其中~∧Var(θ)和Var(θ )分别是对V~ar(θ)和Var(θ )的估计。与(34)式比较,这个结果只要求计算Var(θ )和V~ar(θ),H统计量(36)具有实用性。 17
当θ表示一个标量时,H统计量(36)退化为, ~θ−θ2( ) H = ∼χ2(1) S2~ −S2其中~S2和S 2分别表示~θ和θ 的样本方差值。 H检验用途很广。可用来做模型丢失变量的检验、变量内生性检验、模型形式设定检验、模型嵌套检验、建模顺序检验等。 下面详细介绍面板数据中利用H统计量进行模型形式设定的检验。 假定面板模型的误差项满足通常的假定条件,如果真实的模型是随机效应模型,那么β的离差变换OLS估计量β W和可行GLS法估计量~βRE都具有一致性。如果真实的模型是个体固定效应模型,则参数β的离差变换OLS法估计量β W是一致估计量,但可行GLS估计量~βRE是非一致估计量。那么,当对一个面板模型同时进行离差变换OLS估计和可行GLS估计时,如果回归系数的两种估计结果差别小,说明应该建立随机效应模型;如果回归系数的两种估计结果差别大,说明应该建立个体固定效应模型。可以通过H统计量检验~(βRE-β W)的非零显著性,检验面板数据模型中是否存在个体固定效应。 离差变换OLS估计 可行GLS估计 估计量之差 个体随机效应模型 估计量具有一致性 估计量具有一致性 小 个体固定效应模型 估计量具有一致性 估计量不具有一致性 大 原假设与备择假设是 H0: 个体效应与回归变量无关(个体随机效应模型) H1: 个体效应与回归变量相关(个体固定效应模型) 注意:EViews 、可以直接进行Hausman检验。 案例1(file:5panel02):1996-2002年中国东北、华北、华东15个省级地区的居民家庭固定价格的人均消费(CP)和人均收入(IP)关系研究 (1)在个体固定效应输出结果窗口检验应该建立混合模型还是个体固定效应模型。 检验结果是 18
(SSEr−SSEu)/NF=(−)/14 === SSEu/(NT−N−k) 因为F统计量对应的p值< (近似为零),所以推翻原假设(混合模型),即应该建立个体固定效应模型。 检验应该建立混合模型还是双固定效应模型。 F统计量自由度的说明:(1)第一自由度15-1=14,第二自由度105-14-6-2=83。 (2)第一自由度7-1=6,第二自由度105-14-6-2=83。 (3)第一自由度15-1+7-1=20,第二自由度105-14-6-2=83。 结论是建立双固定效应模型也比混合模型好。 (2)在个体随机效应输出结果窗口检验应该建立个体随机效应模型还是个体固定效应模型。 EViews中称作相关随机效应Hausman检验,使用Hausman统计量。在随机效应模型估计窗口中的View键选Fix/Random Effects Testing, Correlated Random Effects-Hausman Test功能。检验结果是 19
Hausman检验结果(file:5panel02) 因为Hausman统计量对应的p值< (为),所以推翻原假设(个体随机效应模型),即应该建立个体固定效应模型。 这个计算过程也可以自己计算: β W=,s(β W) = (个体固定效应模型估计结果,对应图10); ~βRE=,~s(βRE) = (个体随机效应模型估计结果,对应图13) ~2β 2(−0 H = (W−βRE) =.917660) = 22s~2()−(β−s)( W)(βRE)因为H = > χ (1) = ,所以模型存在个体固定效应。应该建立个体固定效应模型。 最终确定的是建立个体固定效应模型。 个体固定效应模型的预测。在EViews个体固定效应回归结果窗口点击Proc键,选make model功能,将打开一个对话窗。点击solve键。在打开的对话窗中可以选择动态预测和静态预测。 图10是不带AR(1)项的个体固定效应模型对安徽省、北京市人均食品支出的样本内静态预测结果。图11是带AR(1)项的个体固定效应模型对安徽省、北京市人均食品支出的样本内静态预测结果。 ()LNCPBJ (Baseline) 图10 不带AR(1)项的个体固定效应模型预测结果 20
(Baseline)LNCPAH (Baseline) 图11 带AR(1)项的个体固定效应模型预测结果 5.面板数据建模案例分析 案例2(file:5panel01a)美国公路交通事故死亡人数与啤酒税的关系研究 见Stock J H and M W Watson, Introduction to Econometrics, Addison Wesley, 2003第8章。美国每年有4万高速公路交通事故,约1/3涉及酒后驾车。这个比率在饮酒高峰期会上升。早晨1∼3点25%的司机饮酒。饮酒司机出交通事故数是不饮酒司机的13倍。现有1982∼1988年48个州共336组美国公路交通事故死亡人数(number)与啤酒税(beertax)的数据。 VFR82 vs. BEER82VFR88 vs. 图1 1982年数据散点图(5panel01a-graph01) 图2 1988年数据散点图(5panel01a- graph07) 1982年数据的估计结果(散点图见图1) ∧number1982 = + beertax1982 () () 1988年数据的估计结果(散点图见图2) ∧number1988 = + beertax1988 () () 21 VFR82VFR88
图3 混合估计共336个观测值。估计结果仍不可靠。(file: 5panel01b) 1982∼1988年混合数据估计结果(file: 5panel01b,散点图见图3) ∧number1982∼1988 = + beertax1982∼1988 () () SSE = 显然以上三种估计结果都不可靠(回归参数符号不对)。原因是啤酒税之外还有许多因素(如各州的路况、车型、交通立法等因素)影响交通事故死亡人数。从面板理论上说,不知混合模型是不是最优的模型形式。 按个体固定效应模型估计 ∧numberit = + - beertax it () () R2 = , SSE=,(file:5panel01ch8-pool1, pool1) 用F检验判断应该建立混合模型还是个体固定效应模型。 H0:αi =α。混合模型(约束截距项为同一参数)。 H1:αi各不相同。个体固定效应模型(截距项任意取值) (SSEr−SSEu)/NF= (以计算自由度) SSEu/(NT−N−2) 22 VFR
=(−)/(48−1)== (47, 287) = 因为F= > (47, 287) = ,推翻原假设,比较上述两种模型,建立个体固定效应模型更合理。 为什么建立个体固定效应模型更合理?因为在进行离差变换OLS估计过程中剔除了那些影响交通事故数,但没有在模型中列出的重要解释变量。 按双固定效应模型估计 ∧numberit = + - beertax it () () SSE= 用F检验判断应该建立混合模型还是个体时点双固定效应模型。 H0:αi =α。γt =γ。混合模型(约束截距项为同一参数)。 H1:αi,γt各不相同。个体时点双固定效应模型(截距项任意取值) (SSEr−SSEu)/(N+T)F= (以计算自由度) SSEu/(NT−N−T−k)=(−)/(48−1+7−1)== (53, 281) = 因为F= > (55, 279) = ,推翻原假设,比较上述两种模型,建立个体时点双固定效应模型比混合模型合理。 以上两种模型回归系数的估计结果非常近似。F检验也说明,建立个体固定效应模型和双固定效应模型都要比混合模型合理。所以回归参数- 和- 要比混合模型参数合理。 H检验的EViews输出结果见图15-12。 23
图15-12 H检验的EViews输出结果 比较个体固定效应模型和个体随机效应模型,因为相应p值小于,结论是应该建立个体固定效应模型。 因为差分OLS估计也是估计固定效应模型的一种方法,下面讨论面板差分数据得到的估计结果。利用1988年和1982年数据的差分数据得估计结果(散点图见图4)。这个估计结果在符号上也是合理的。(file:5panel01a,eq01) ∧∧number1988 -number1982 = - (beertax1988 - beertax1982) () () .-VFR82 图4 差分数据散点图(File:5panel01a- graph08) 注意:应该通过散点图选择面板数据模型的形式,这里主要指建立线性的还是非线性的模型。 【案例3】(file: 5cobbdoug01) 摘自Murray的现代计量经济学 24 BEER88-BEER82
资本和劳动对产出有多大贡献一直是经济学中长期存在的一个问题。在估计生产函数时,可以得到劳动和资本贡献的一种度量指标。哈佛大学的格里历切斯(Zvi Griliches)和巴黎国民统计局的马里斯(Jacques Mairesse),多次利用大型的企业面板数据估计了柯布-道格拉斯生产函数。马里斯提供的面板数据包含了来自16个国家的625个企业长达8年的共5000组观测数据。 +++++++++++++++++++++0702000006000001000000KAPITALLABOR 625个企业的产出分别对资本和劳动力的散点图 (file: 5cobbdoug01a) 2020181816161414121210108866446810121416182468101214LOGKAPLOGLABOR 625个企业的对数的产出分别对对数的资本和对数的劳动力的散点图 (file: 5cobbdoug01a) 25 OUTPUTLOGOUTLOGOUTOUTPUT
+++++++00050000100000150000200000250000 29个企业的产出分别对资本和劳动力的散点图 (file: 5cobbdoug01a) 26
18LOG(SER01)LOG(SER11)LOG(SER21)LOG(SER02)LOG(SER12)LOG(SER22)LOGLOG16(SER03)(SER13)LOG(SER23)LOG(SER04)LOG(SER14)LOG(SER24)LOG(SER05)LOG(SER15)LOG(SER25)14LOG(SER06)LOG(SER16)LOG(SER26)LOG(SER07)LOG(SER17)LOG(SER27)LOG(SER08)LOG(SER18)LOG(SER28)12LOG(SER09)LOG(SER19)LOG(SER29)LOG(SER10)LOG(SER20)108LOG(KAPITAL)668101214161818LOG(SER01)LOG(SER11)LOG(SER21)LOG(SER02)LOG(SER12)LOG(SER22)LOG(SER03)LOG(SER13)LOG(SER23)16LOG(SER04)LOG(SER14)LOG(SER24)LOG(SER05)LOG(SER15)LOG(SER25)14LOG(SER06)LOG(SER16)LOG(SER26)LOG(SER07)LOG(SER17)LOG(SER27)LOG(SER08)LOG(SER18)LOG(SER28)12LOG(SER09)LOG(SER19)LOG(SER29)LOG(SER10)LOG(SER20)108LOG(LABOR)62468101214 29个企业的对数的产出分别对对数的资本和对数的劳动力的散点图 (file: 5cobbdoug01a) 图1-1给出了如下柯布-道格拉斯生产函数用对数形式估计的个体随机效应、截面固定效应的模型估计结果: Q=βLβ1Kβ2 ε i0iii 27
. 图1-1 个体随机、时点固定效应模型估计结果 资本和劳动的系数估计值和与我们利用美国数据得到的结果相似。如果市场是完全竞争的,而且企业是利润最大化的,那么,这些估计值就与规模报酬不变的生产技术相一致,其中劳动得到产出的70%,资本得到产出的30%。注意到,该表还报告了个体误差成分和随机误差项因观测而异的成分的方差估计值(在这种情况下,总干扰方差的93%来自于个体误差成分)。还注意到,个体随机、时点固定效应模型估计结果中的设定还包含了一个时间的 固定效应 ;也就是说,模型中为每个年度包含了一个虚拟变量。这些年度虚拟变量描述了生产技术的逐年变化。 固定效应估计没有考虑解释变量在样本中不同个体之间的所有变异。检查这种变异是必要的;我们不希望丢弃一些信息。适当的检验方法就是对所有个体效应都相等这个原假设进行F检验。由于我们对每个企业和每个年度都使用了一个虚拟变量,所以我们要分别对每组虚拟变量进行检验,然后再对它们一起进行检验。检验结果拒绝了虚拟变量“个体截距无差异”的原假设。 下面是建立双固定效应模型还是混合模型的F与χ2检验结果。 28
(1)第一自由度625-1=624,第二自由度5000-624-7-3=4366 (2)第一自由度8-1=7,第二自由度5000-624-7-3=4366 (3)第一自由度625-1+8-1=631,第二自由度5000-624-7-3=4366 图1-3 多余的个体固定效应检验 个体固定效应估计结果: 。。。。。。。 图1-2 个体固定效应模型估计结果 关于c(2)+c(3)=1(规模报酬不变)的Wald检验结果: 29
625个企业存在规模报酬不变特征。 下面是建立随机效应模型还是个体固定效应模型的χ2检验结果。 图1-4 豪斯曼检验结果 本例应该建立个体固定效应或双固定效应模型。 【例4】(5panel04,2120061743-model)加入人力资本的生产函数研究—基于我国省级地区面板数据分析 一.问题概述 在宏观经济学的新增长理论中,经济学家提出人力资本这一概念,将其加入到生产函数中,以此试图解释收入的地区差异。但是实物资本和人力资本在生产函数中究竟各起到什么样的作用呢? 设y为人均产出,k为人均实物资本, edu是人均受教育年数。假设每个人的人力资本量仅取决于他所接受的教育年数edu。显然,人们接受教育越多,其人力资本就越多。 我们可以将人均产出分解为人均实物资本的贡献、人力资本的贡献和一个剩余的贡献。剩余贡献反映的不仅是技术和知识,还包括了既定实物资本量和劳动服务量外产出的所有决定因素。 二.数据分析 我们将以中国29个省级地区(不包括重庆、西藏和港澳台地区)1987-2001年间15年的面板数据来对我国的生产函数进行分析,其中宁夏缺少1987-1989年的三组数据,所以一共有432组数据。 y表示人均国内生产总值(单位:元),k表示人均资本形成总额(单位:元),edu表示人均受教育的时间(单位:年)。具体数据见附录。用BJ、TJ、HEB、SXC、NMG、LN、JL、HLJ、SH、JS、ZJ、AH、FJ、JX、SD、HEN、HUB、HUN、GD、GX、HN、SC、GZ、YN、SX、GS、QH、NX、XJ分别表示北京、天津、河北、山西、内蒙古、辽宁、吉林、黑龙江、上海、江苏、浙江、安徽、福建、 江西、山东、河南、湖北、 湖南、 广东、广西、海南、四川、贵州、云南、陕西、甘肃、 青海、宁夏和新疆。 y和k数据均来自中经网统计数据库(:90/),edu数据来自复旦大学陈钊等2004年的论文《中国人力资本和教育发展的区域差异-对于面板数据的估算》。 人均受教育时间是平衡面板数据,但人均产出和人均资本存量不是平衡面板数据,29个地区15年人均产出对人均物质资本存量面板数据散点图见图1。其中图1-a给出的是人均 30
产出对人均物质资本存量的板数据散点图,图1-b给出了lny和lnk的面板数据散点图,取了对数后,人均产出与人均资本的线性关系十分明显。异方差不再存在。 40,00035,00030,000YBJYTJYHEB25,000YSXCYNMGYLN20YJLYHLJYSH,000YJSYZJYAH15,000YFJYJXYSDYHENYHUBYHUN10,000YGDYGXYHNYSCYGZYYN5,000YSXYGSYQHKYNXYXJ002,5005,0007,50010,00012,50015,000 图1-a人均产出对人均资本的面板数据散点图(file:2120061743-plot,graph01) 11109LNYAH01LNYBJ01LNYGD018LNYGS01LNYGX01LNYGZ01LNYHEB01LNYHEN01LNYHLJ01LNYHN01LNYHUB01LNYHUN01LNYJL01LNYJS01LNYJX017LNYLN01LNYNMG01LNYNX01LNYQH01LNYSC01LNYSD01LNYSH01LNYSXC01LNYTJ01LOG(K) 图1-b对数形式人均产出对人均资本的面板数据散点图(file:2120061743-plot,graph02) 同理,图2-a给出人均产出y对人均教育时间edu的面板数据散点图。数据存在异方差,且关系为指数形式。图2-b给出对数形式的人均产出lny对人均教育时间edu的面板数据散点图。lny与人均受教育时间edu存在线性关系。 40,00035,00030,00025,00020,000YAHYBJYFJYGDYGSYGXYGZYHEBYHEN15,000YHLJYHNYHUBYHUNYJLYJS10,000YJXYLNYNMGYNXYQHYSC5,000YSDYSHYSXEDUYSXCYTJYXJ0YYNYZJ4567891011 31
图2-a人均产出对人均受教育时间的面板数据散点图(file:2120061743-plot,graph03) 11109LNYAH01LNYBJ01LNYGD018LNYGS01LNYGX01LNYGZ01LNYHEB01LNYHEN01LNYHLJ01LNYHN01LNYHUB01LNYHUN01LNYJL01LNYJS01LNYJX017LNYLN01LNYNMG01LNYNX01LNYQH01LNYSC01LNYSD01LNYSH01LNYSXC01LNYTJ01EDULNYXJ01LNYYN01LNYZJ0164567891011 图2-b 对数形式人均产出对人均受教育时间的面板数据散点图(file:2120061743-plot,graph04) 结合图形分析,建立如下计量模型: Lnyit=cit+αLnkit+βeduit+uit 混合模型估计结果: ∧ Lny=++ ititit() () () 做删去人力资本eduit的Wald和F检验。从两个解释变量的个体固定效应模型中删去人力资本eduit得Wald和F检验结果: 32
选Wald-Corfficient Restrictions,去掉eduit。因只检验eduit系数是否为零,所以 2 W ∼ χ (1), F ∼ F (1, 432-29-2) 检验结果显示不应该删去eduit变量。 三.模型估计与分析 (1)模型估计 我们首先使用混合模型估计,估计结果如下: Lnyit = + Lnkit + eduit + uit (1) () () () R2 = , DW = ,SSE = 被估参数均通过显著性检验,回归方程拟和的效果也较好,但DW值太低,存在正自相关。在混合模型中加入AR(1) 后的输出结果: Lnyit = + Lnkit + eduit + AR(1) + vit (2) () () () () R2 = , DW = , SSE = 33
参数通过显著性检验,AR(1) 的回归参数显著的不为零,DW的值说明模型已消除了自相关。 再建立个体固定效应模型,估计结果如下: Lnyit= () + () D2 + + () D29 + Lnkit + +uit (3) () () () R2 = , SSE= , DW = 其中虚拟变量D2、D3 ,D29 的定义为: D1 如果i属于第i个个体,i=2, 3,…,29 = i0 其它 模型(3)的DW值太小,模型可能存在自相关。加入AR(1)后的个体固定效应模型估计结果如下: Lnyit= ()+() D2+ + () D29+++ AR(1)+vit (4) () () () 34
R2 = , SSE = , DW = 其中虚拟变量D2 、D3 ,D29 的定义为: D1 如果i属于第i个个体,i=2, 3,…,29 = i0 其它 模(4)与(3)相比,已消除自相关。 下面用F统计量检验是应该建立混合模型还是个体固定效应模型,原假设与备择假设分别为: H0 :模型中不同个体的截距相同 H1 :模型中不同个体的截距不同 对模型(1)和(3)进行考察: (SSE-SSEFRU)/(N)()/(28) === SSEU/(NT-N-K) = > (28,401),所以推翻原假设。比较上述两个模型,个体固定效应模型(3)比混合模型(1)合理。 接下来考察个体随机效应模型,估计结果如下: Lnyit= ()+() D2 + +() D29 + Lnkit++uit (5) () () () R2 = , SSE = , DW= , T= 432 35
其中虚拟变量D2 、D3 ,D29 的定义为: = D1 如果i属于第i个个体,i2, 3,…,29= i0 其它 下面进行Hausman检验是应该建立个体随机效应模型(5)还是个体固定效应模型(3)。原假设和备择假设分别为: H0 :个体随机效应模型 H1 :个体固定效应模型 因为H = > χ (2) = ,结论仍然是,模型存在个体固定效应,应该建立个体固定效应模型。 由(5)式,经济含义是,人均产出yit对人均资本kit的弹性系数是。人均资本每增加1%,人均产出增加%。对数的人均产出Lnyit对人均受教育时间eduit求导数 dyit = yit人均受教育时间每增加1年,人均产出yit增加16%。 【例5】(file:5expend-zhang)怎样建立非线性面板数据模型 全国省级地区城镇居民人均食品支出与收入的关系研究(1985∼2005)。 为均衡面板数据,包括28个省市自治区,不包括西藏、新疆和重庆市,21年共588个观测值。 图1给出28个省级地区1985∼2005年城镇居民人均食品支出的面板数据3维图。 5000450040003500300025002000150010005000 图1a 28个省级地区城镇居民人均食品支出3维图(file:5expend-zhang) 36 F1SICF1SAXF1LINF1HUNF1HEBF1GUDF119A8N5H1990199520002005
500040003000200010000 图1b 28个省级地区城镇居民人均食品支出箱图(file:5expend-zhang) 图2给出28个省级地区1985∼2005年城镇居民人均收入的面板数据3维图。 20000180001600014000120001000080006000400020000 图2a 28个省级地区城镇居民人均收入3维图(file:5expend-zhang) 20000150001000050000 图2b 28个省级地区城镇居民人均收入箱图(file:5expend-zhang) 首先用混合数据把28个地区的数据混合在一起(非面板数据)分析分省城镇居民人均食品支出(food)与城镇居民人均收入(income)的关系,从而确定建立何种类型的模型最合理。28个省市自治区,21年共588组观测值。 37 F1ANHI1ANHF1BEJI1BEJF1FUJI1FUJF1GASI1GASF1GUDI1GUDF1GUXI1GUXF1GUZI1GUZI1ZEJF1HANI1HANI1SICF1HEBI1HEBI1SHDF1HENI1HENI1NMGI1HLJI1JIXF1HLJI1HUNF1HUBI1HUBI1HUNI1HENF1HUNI1JILI1GUZF1JILI1JISI1GASF1JISI1JIXF1JIXI1ANH1985I1LINF1LIN1989I1NIXF1NIXI1NMG1993F1NMGI1QIH1997F1QIHI1SAX2001F1SAXI1SHD2005F1SHDI1SHHF1SHHI1SHXF1SHXI1SICF1SICI1TIJF1TIJI1YUNF1YUNI1ZEJF1ZEJ
5000food4000300020001000income0040008000120001600020000 图3 Food和income的混合数据散点图(file:5expend-zhang-2,group03) 首先通过散点图研究。food和income的混合数据散点图如图3(file:income-food)。显然变量food和income之间存在非线性关系和异方差,建立线性模型是不合理的。 注意:如果不看散点图,还误以为线性模型是一个很好的回归结果。 把income取成对数形式,尝试建立半对数模型。图4显示,建立半对数模型也不合理。 F1 vs. Log I150005000food400040003000300020002000100001000log(income-1000) 38 F1
图4 Food和log(income)的混合数据散点图(对数拟合)(file:5expend-zhang-2) F1 vsF1 vs. Polynomial (degree=2) of I1. Inverse of I150005000400040003000300020001000200001000-1000-20000040008000120001600020000040008000120001600020000I1I1 图5 倒数拟合(file:5expend-zhang-2) 图6 2次多项式拟合(file:5expend-zhang-2) 尝试建立倒数模型(见图5)和2次多项式模型(见图6),但倒数模型不合理,2次多项式模型拟合的可以,但未克服异方差。 进一步观察log(food)和log(log(income) )的散点图,如图8。log(Food)和log(log(income) )存在满意的线性关系,同时,不存在异方差。所以讨论建立面板数据模型时,应该建立关于log(Food)和log(log(income) ) 的面板数据模型。 (Cfood)log(food)(CINCOME)log(log(income)) 图7 log(Food)和log(income)的混合数据散点图 图8 log(Food)和log(log(income) )的散点图 首先用混合数据(非面板数据)估计模型。得回归结果如下, logfood = - + log(logincome) (1) () () R2 = ,DW=, N×T= 588 本来总样本容量应该是N×T= 21×31 = 651,但西藏、新疆、重庆的数据有缺失。 F检验结果显示混合模型与个体固定效应模型相比较,应该建立个体固定效应模型。 39 F1F1
Hausman检验结果显示个体随机效应模型与个体固定效应模型相比较,应该建立个体固定效应模型。 建立带有两个误差自回归项的个体固定效应模型如下: logfood = - + + log(logincome) + AR(1) AR(2) (2) () () () () R2 = ,DW=, N×T= 532 图7 混合数据估计结果(file:5expend-zhang) 上式两侧求导, dfood1dfincomet= foodlogincomeincomettt得弹性函数, dfooddfincomett1 = foodincomelogincomettt上式说明(1)式中人均食品支出对人均收入的弹性系数是随着城镇人均收入的增加而减小。当城镇人均收入为1000元时, dfooddfincomett1 == foodincomelog(1000)tt人均食品支出对人均收入的弹性系数是。当城镇人均收入增长到15000元时, dfooddfincomett1 == foodincomelog(15000)tt人均食品支出对人均收入的弹性系数下降到。城镇人均食品支出对人均收入的弹性系数随着人均收入的提高而递减。 40
下面讨论用个体固定效应模型预测。在EViews个体固定效应回归结果窗口点击Proc键,选make model功能,将打开一个对话窗。点击solve键。在打开的对话窗中可以选择动态预测和静态预测。图14是对安徽省人均食品支出的样本内静态预测结果。 3,0005,000F1ANHF1BEJF1BEJ (Baseline)2F1ANH (Baseline),5004,0002,0003,0001,5002,0001,0001,000500008688909294969800020486889092949698000204 图9 安徽省城镇人均食品支出的静态预测结果 图10 北京市人均食品支出的静态预测结果 注意:一定要通过散点图分析模型形式,本例如果不分析散点图,直接建立全对数模型如下: Lnfood = + + Lnincome + AR(1) AR(2) (3) () () () () R2 = ,DW=, N×T= 532 还以为建立了非常好的模型,但显然不如模型(2)更合理。 【案例6】(5engle-model,5engle-plot)中国城、乡恩格尔系数与人均收入的关系研究(省级地区面板数据) 以中国31个省级地区(不包括重庆、西藏和港澳台地区)1985-2005年间21年的面板数据来进行分析。 ratio表示恩格尔系数,cratio表示城镇的恩格尔系数,rratio表示农村的恩格尔系数; income表示人均收入(单位:人民币元),cincome表示城镇人均收入(单位:人民币元),rincome表示农村人均收入(单位:人民币元)。 用beijing、tianjin、hebei、shanxi、neimengguo、liaoning、jilin、heilongjiang、shanghai、jiangsu、zhejiang、anhui、fujian、jiangxi、shandong、henan、hubei、hunan、guangdong、guangxi、hainan、sichuan、guizhou、yunnan、shannxi、gansu、qinghai、ningxia、xinjiang、chongqing和xizang分别表示北京、天津、河北、山西、内蒙古、辽宁、吉林、黑龙江、上海、江苏、 41
浙江、安徽、福建、 江西、山东、河南、湖北、 湖南、 广东、广西、海南、四川、贵州、云南、陕西、甘肃、 青海、宁夏、新疆、重庆和西藏。以上数据均来自中国宏观经济数据库。 图1给出城镇恩格尔系数与人均收入的面板数据散点图。 . 图1 城镇恩格尔系数对城镇居民收入的面板散点图(file:5engle-plot,cc) CRATCRAIO vs. CINCOMETIO vs. Inverse of 图2 散点图与线性拟合(5engle-plot,cc0) 图3 散点图与半倒数函数拟合(5engle-plot,cc0) Inverse of CRATIO vs. 图4 散点图与半倒数函数拟合(5engle-plot,cc0) 通过散点图分析,应该建立如图4的半倒数模型。(为什么线性函数不合理?) 混合估计结果如下: 1/cratioit = + ×10-5 cincomeit + (1) + vit (1) 42 CRATIOCRATIOCRATIO
() () () R2 = , DW = , SSE = 个体固定效应模型估计结果如下: 1/cratioit = + + ×10-5 cincomeit + AR(1) + vit (2) () () () R2 = , DW = , SSE = F检验结果显示混合模型(不带AR项)与个体固定效应模型(不带AR项)相比较,应该建立个体固定效应模型。 Hausman检验结果显示个体随机效应模型与个体固定效应模型相比较,应该建立个体固定效应模型。 如果建立线性模型: cratioit = - ×10-5 cincomeit + -1+vit (3) () () () R2 = , DW = , SSE = 虽然参数通过显著性检验,可决系数也很高,但模型不合理(随着收入的提高,恩格尔系数将变成复值)。 43