计量经济学
引 言
一、计量经济学
1、计量经济学(Econometrics)
利用数学和统计推断为工具,在经济理论指导下对经济现象进行分析,并对经济理论进行检验和发展的一门学科。
其内容涉及经济理论、数理经济、经济统计和数理统计等。
2、计量经济学与经济理论
经济理论:定性
计量经济学:数值估计,检验
3、计量经济学与数理经济学
数理经济学:以数学形式表述经济理论,不涉及理论的可度量性和经验方面的可论证性。
计量经济学:利用数理经济学的数学方程式,并把之改造成适合于经验检验的形式。
4、计量经济学与经济统计学
经济统计:经济数据的收集、加工,不利用数据来检验经济理论。
计量经济学:以经济统计数据为原始资料进行分析。
5、计量经济学与数理统计
数理统计:是计量经济学的基本工具,但由于经济数据的特殊性,力量经济学需要特殊的处理方法。
二、计量经济学的方法
基本过程:
①经济理论
②理论的数学模型
③理论的计量经济学模型
④数据的收集整理
⑤计量经济模型的参数估计
⑥假设检验
⑦预报和预测
⑧控制或政策制定
例:检验凯恩斯关于边际消费倾向理论,或利用该理论进行经济控制或经济政策制定。
①理论
人们的消费支出随收入的增加而增加,但消费支出的增加小于收入的增加。即边际消费倾向MPC大于零而小于1。(定性)
②建立数学模型
假定消费支出Y与收入X之间有如下关系:
其中,Y为消费支出,X为收入,a和b为模型参数。B就是MPC。
这里Y为因变量,X为自变量/解释变量。假定两者之间存在先行关系。
(在不同情况下,数学模型的形式不一样,也可能是多个方程连立,有多个解释变量)
③建立计量经济学模型
由于经济变量之间的关系不是确定的(以函数形式准确表达),必须修改数理模型,建立计量模型:
u为误差项,代表了影响变量间非确定关系的其他因素的影响。
这是一个线性回归模型。
O
X
Y
斜率为b
数理模型
O
X
Y
斜率为b
计量模型
a
a
④数据的收集整理
如果1980分析一国的消费情况,要收集该国的总消费支出数据和总收入数据。
4821
3240
1991
4280
2866
1985
4878
3260
1990
4149
2746
1984
4838
3223
1989
3907
2619
1983
4719
3162
1988
3760
2504
1982
4540
3052
1987
3843
2477
1981
4405
2969
1986
3776
2447
1980
X
Y
年份
X
Y
年份
(选择、加工)
美国1980-1991年个人消费支出与GDP(10亿美元,1987年不变价格)
⑤计量经济模型的参数估计
采用回归技术,利用统计数据估计出参数a和b的经验值。
根据估计结果,美国1980-1991年的MPC约为。
⑥假设检验
以一定的标准,对参数的估计结果进行检验。如果在统计意义上,b小于1,说明结果是可接受的。
⑦预报和预测
如果计量模型可以接受,就可用来对因变量进行预测。假定1994年,美国的GDP预计为6万亿美元,则该年的消费支出预计为
⑧控制或政策制定
如果希望1994年的消费支出达到4万亿美元,则政府必须通过政策来保证收入水平为:
三、计量经济学的内容
可分为理论和应用两大类。
理论计量经济学:研究适当的方法,来测度有计量经济模型设定的经济关系式。
应用计量经济学:以理论计量经济学为工具,研究经济学或商业中的各领域。
四、计量经济学的应用软件包
有很多种。常用的有:TSP、SPSS、SAS等。
第一章 回归分析
一、回归分析
分析因变量与解释变量之间的统计依赖关系,目的在于通过后者的已知或设定值去估计或预测前者的均值。
假定一个国家的所有家庭的收入(X)和消费支出(Y)统计如下,希望知道家庭消费支出与家庭收入之间的关系:Y=F(X)。
5
6
7
5
6
6
7
5
6
5
户数
1211
966
1043
685
750
678
707
445
462
325
总支出
191
-
162
-
-
-
115
-
-
-
185
189
160
-
140
125
113
-
88
-
180
175
157
145
135
118
108
98
85
75
178
165
152
144
130
116
103
94
80
70
175
155
140
140
120
110
95
90
74
65
152
145
137
136
115
107
93
84
70
60
150
137
135
120
110
102
80
79
65
55
260
240
220
200
180
160
140
120
100
80
X
Y
Y
X
55
100
120
140
160
80
根据每个家庭的收入和支出绘出散点图,大致可看出二者间的关系:在统计意义上,二者成正比。
由对全体居民的收入和支出的调查结果,我们知道处于不同收入阶层的居民有一个平均的支出水平,这一支出水平与收入大致呈线性关系。
图中的这条通过各收入阶层平均支出额的直线,描述了这一依赖关系。我们把这条线称为回归线。
二、统计关系与确定关系
在回归分析中,得到因变量与自变量之间的依赖关系是统计依赖关系,而不是确定关系或函数关系。
三、回归与因果关系
回归分析得到的变量间的统计依赖关系,统计关系式自身不代表任何确定的因果关系。
四、计量经济分析使用的数据
有三类。
(1)时间序列数据。一个时间序列是对一个变量在不同时间取的一组观测结果。这些数据可以按固定的时间间隔收集。
收集的数据可以是定量的,也可以是定性的(虚拟变量)。
中国1993年—1998年的GDP增长率 (%)
1998
1997
1996
1995
1994
1993
(2)横截面数据。一个或多个变量在同一时点上收集的数据。
1992年实际GDP增长
(3)混合数据。
实际GDP增长率
国家和
地区
日本
香港
中国
美国
秘鲁
墨西哥
智利
加拿大
1998年
1997年
1996年
1995年
1994年
1993年
1992年
1
GDP
日本
香港
中国
美国
秘鲁
墨西哥
智利
加拿大
国家/地区
第二章 双变量回归分析
第一节 经典正态线性回归模型(CNLRM)
一、基本概念
以下表为例。
5
6
7
5
6
6
7
5
6
5
户数
1211
966
1043
685
750
678
707
445
462
325
总支出
191
-
162
-
-
-
115
-
-
-
185
189
160
-
140
125
113
-
88
-
180
175
157
145
135
118
108
98
85
75
178
165
152
144
130
116
103
94
80
70
175
155
140
140
120
110
95
90
74
65
152
145
137
136
115
107
93
84
70
60
150
137
135
120
110
102
80
79
65
55
260
240
220
200
180
160
140
120
100
80
X
Y
1、几个概念
条件分布(Conditional distribution):以X取定值为条件的Y的条件分布
条件概率(Conditional probability):给定X的Y的概率,记为P(Y|X)。
例如,P(Y=55|X=80)=1/5;P(Y=150|X=260)=1/7。(表)
条件期望(conditional Expectation):给定X的Y的期望值,记为E(Y|X)。
例如,E(Y|X=80)=55×1/5+60×1/5+65×1/5+70×1/5+75×1/5=65
总体回归曲线(Popular Regression Curve)(总体回归曲线的几何意义):当解释变量给定值时因变量的条件期望值的轨迹。
2、总体回归函数( Popular Regression Function,PRF
E(Y|Xi)=f(Xi)
当PRF的函数形式为线性函数,则有,
E(Y|Xi)=1+2Xi
其中1和2为未知而固定的参数,称为回归系数。1和2也分别称为截距和斜率系数。
上述方程也称为线性总体回归函数。
3、“线性”的含义
“线性”可作两种解释:对变量为线性,对参数为线性。一般“线性回归”一词总是指对参数为线性的一种回归(即参数只以它的1次方出现)。
4、PRF的随机设定
将个别的Yi围绕其期望值的离差(Deviation)表述如下:
ui=Yi-E(Y|Xi)
或
Yi=E(Y|Xi)+ui
其中ui为随机误差项(Stochastic error)或随机干扰项(Stochastic disturbance)。线性总体回归函数:
PRF:Yi=1+2Xi+ui=E(Y|Xi)+ui
5、随机干扰项的意义
随机扰动项是从模型中省略下来的而又集体地影响着Y的全部变量的替代物。显然的问题是:为什么不把这些变量明显地引进到模型中来,而以随即扰动项来替代?理由是多方面的:
(1)理论的含糊性:理论不能完全说明影响因变量的所有影响因素。
(2)数据的欠缺:无法获得有关数据。
(3)核心变量与周边变量:希望能找到与有较大影响的核心变量的关系。
(4)内在随机性:因变量具有内在的随机性。
(5)替代变量:用来代替不可观测变量的替代变量选择,造成一定误差。
(6)省略原则:研究中尽可能使回归式简单。
(7)错误的函数形式:回归式的的选择是主观的。
6、样本回归函数(SRF)
由于在大多数情况下,我们只知道变量值得一个样本,要用样本信息的基础上估计PRF。(表)
150
137
135
120
110
102
80
79
65
55
Y(支出)
260
240
220
200
180
160
140
120
100
80
X(收入)
样本1
178
165
152
144
130
116
103
94
80
70
Y(支出)
260
240
220
200
180
160
140
120
100
80
X(收入)
样本2
样本回归函数SRF:
在回归分析中,我们用SRF估计PRF。
估计量(Estimator):一个估计量又称统计量(statistic),是指一个规则、公式或方法,以用来根据已知的样本所提供的信息去估计总体参数。在应用中,由估计量算出的数值称为估计(值)(estimate)。
样本回归函数SRF的随机形式为:
其中 表示(样本)残差项(residual)。
Xi X
PRF:E(Y|Xi)=1+2Xi
SRF:
Y
E(Y|Xi)
SRF是PRF的近似估计。
为了使二者更为接近,即要使
二、经典线性回归模型(CLRM)的基本假定
假定1:回归模型对参数是线性的
假定2:在重复抽样中X的值是固定的(非随机)
假定3:干扰项的均值为零。即,E(ui|Xi)=0
假定4:同方差性或ui的方差相等。即
Var(ui|Xi)=E[ui-E(ui)|Xi]2
=E(ui2|Xi]2 = 2
假定5:各个干扰项无自相关。即
Cov(ui,uj|Xi,Xj)=E[ui-E(ui|Xi) ][uj-E(uj|Xj)]
=E(ui|Xi)(uj|Xj) = 0
假定6:ui和Xi的协方差为零。即
Cov(ui,Xi) = E[ui – E(ui)][ Xi – E(Xi)]
= E[ui (Xi – E(Xi))]
=E(ui Xi) – E(ui)E(Xi)
= E(ui Xi) = 0
假定7:观测次数必须大于待估计的参数个数。
假定8:解释变量X的只要有变异性。即一个样本中,Xi不能完全相同。
假定9:模型没有设定误差。
假定10:没有完全的多重共线性,即解释变量之间没有完全的线性关系。
第二节 双变量回归模型:估计
一、普通最小二乘法(Ordinary Least Squares,OLS)
基本思路:用样本回归函数估计总体回归函数。以
估计
估计出的参数
使残差的平方和最小。
时,真实值
求解这一最小化问题,根据最大化的一阶条件:
可得到以下正规方程(Normal equation) :
二、参数的估计(点估计):OLS估计量
1、解上述正规方程组得到估计值:
解出
,可得到估计值。
称为最小二乘估计量(OLS估计)。
2、 OLS样本回归线的性质:
三、2 的估计
真实方差的估计量:
四、OLS估计的精度或标准误差
由于OLS估计是根据一个样本得到的,需要检验估计量的可靠性(reliability)或精密度。在统计学中,一个估计量的精密度由它的标准误(standard error, se)来衡量。
五、OLS 统计量的性质:高斯- 马尔柯夫定理
在CLRM假定下,在所有线性无偏估计量中,OLS估计量有最小方差,即OLS是BLUE(Best Linear Unbiased Estimator)。
(1)线性:
为Yi的线性函数
(2)无偏性:
为
的无偏估计量。
(3)最小方差性:
OLS估计量
在所有线性无偏估计量中,具有最小方差。即
可以证明OLS估计量具有最小方差。
第三节 拟合优度检验
拟合优度检验是指对样本回归线与样本观测值之间拟合程度的检验。度量拟合程度的指标是判定系数R2 。
基本思路:因变量Y的变异,能够被X的变异解释的比例越大,则OLS回归线对总体的解释程度就越好。
Xi X
PRF
SRF
Y
总平方和(TSS):实测的Y值围绕其均值的总变异 :
定义判定系数R2:
估计的Y值围绕其均值的总变异
未被解释的围绕回归线的Y值的变异
R2 测度了在Y的总变异中,由回归模型解释的部分所占的比例。 R2 越高,回归模型拟合的程度就越好。
R2 的性质: (1)非负。(2)0≤R2 ≤1
其它表达方式:
判定系数与相关系数的关系:
相关系数:表示两个随机变量之间的相关程度。定义为:
以样本方差和样本协方差估计X、Y的方差和协方差,样本相关系数为:
样本相关系数的平方与判定系数相等,但二者的意义不同。
第四节 区间估计
为了判断点估计与真值的接近程度,可以通过构造以估计值为中心的一个区间(随机的),以该区间包括了真值的概率来确定估计值接近真值的把握程度:
一、 的置信区间
由于未知,以其估计值代替,
-t/2
t/2
o
/2
/2
给定置信系数100(1-)%,随机的置信区间将有100(1-)%包含真值2。
二、 的置信区间
三、 的置信区间
第五节 OLS估计量的显著性检验
根据样本回归得到的总体参数的估计量,随着选取样本的不同观测值而不同;给定样本观测值时,得到的参数也与总体参数的真值不同。因此,必须对估计的参数值是否显著成立,做统计检验,即显著性检验。
一、 的显著性检验
原假设 H0:2 = 0
备择假设 H1: 2 0
-t/2
t/2
o
/2
/2
原假设 H0:2 = 2*
备择假设 H1: 2 2*
对于:
如果有理由认为2不能小于零(不能大于零),则在
2倍t法则
二、 的显著性检验
原假设 H0:1 = 0
备择假设 H1: 1 0
三、回归方程的的显著性检验:F 检验
从方差分析(analysis of variance, ANOVA)的角度,检验回归方程的显著性。
根据总离查平方和的分解式:TSS = ESS + RSS,
总离差(TSS)的自由度为(n-1),回归平方和(ESS)的自由度为1,残差平方和(RSS)的自由度为(n-2)。
定义均方差 = 平方和 / 自由度,方差分析表(ANOVA / AOV表)为:
n-1
TSS
n-2
RSS
1
ESS
均方差
自由度
平方和
离差名称
双变量回归模型ANOVA表
样本决定系数 R2 能够说明样本的拟和优度。但是我们还需要对总体做出推断,检验总体的线性是否成立。
思路:若ESS / RSS 比较大,则X对Y的解释程度就比较高,可以推测总体存在线性。但是ESS / RSS 样本不同而不同,对于给定的样本,利用ESS / RSS 对总体进行推断,必须进行统计检验。
原假设 H0:2 = 0
备择假设 H1: 2 0
若H0成立,说明回归方程无显著意义,总体不存在线性;若拒绝H0,则可认为回归方程显著成立,总体存在线性。因此,定义统计量
第六节 利用回归方程预测
根据经济理论建立线性回归模型,并利用统计资料对模型参数进行了估计,建立了回归方程。经过显著性检验,判定回归方程能正确反映经济现象时,一个重要目标就是利用回归方程进行预测。
一、均值预测
已知X的一个特定值X0,要预测Y0的条件均值(总体回归线上的对应Y值)E(Y|X0),
显然,当X0越接近X 的均值,区间就变得越狭窄。
二、个值预测
预测给定X的值X0,对应的Y0, 仍为BLUE)。
小结:双变量线性回归分析的主要步骤
1、建立回归模型
研究某一经济现象,先根据经济理论,选择具有因果关系的两个变量(Y,X),建立线性回归模型,确定解释变量和被解释变量。 如果不明确两个变量是否为线性关系,也可以根据散点图来分析。
建立回归模型可以是根据经济理论,也可以根据相同或相似经济现象的历史分析经验来建立回归模型。
建立模型时,不仅要考虑理论或经验的依据,同时也要考虑数据的可利用程度。
2、收集数据,并经过适当的加工整理,得到适于回归分析的样本数据集。
3、估计模型参数。利用样本数据,以OLS得到模型参数的估计值。
4、对回归模型和参数估计值进行检验。
检验回归结果是否正确反映经济现象,是否与理论相符。包括理论检验和统计检验。
经济理论检验:参数的符号,大小是否与理论和实际相符。若不符,寻找原因(数据?模型设定?理论错误?)
统计检验:拟和优度检验,估计量、回归方程的显著性检验。
5、预测
对于解释变量的特定值,带入回归方程得到因变量的预测值;在给定的置信水平上,得到因变量预测值的置信区间。
6、回归结果的表述:
并说明参数的显著水平( )。
以回归分析为工具的实证分析文章的结构
一、研究的来源和基础
对研究的经济现象的描述;研究该现象的意义;相同或相似的代表性研究的方法、结论,并作总结评价;本研究的出发点;文章的结构介绍。
二、理论分析
选择合适的经济理论,利用理论对要研究的经济想象做定性分析,得到大致的结果;建立理论模型。
三、建立回归模型
根据理论模型,建立合理、可分析的回归模型。回归模型的形式、解释变量的个数和选择,不一定与数理模型完全相同。
四、对所使用的数据做出说明
数据的来源;数据加工的原因和处理方式;替代数据的说明等。
五、回归结果及对结果的分析
列出回归的结果(包括参数的估计值和统计检验结果);结合理论分析回归结果
六、结论/总结/应用
5
6
7
5
6
6
7
5
6
5
户数
1/5
1/6
1/7
1/5
1/6
1/6
1/7
1/5
1/6
1/5
既定收入下,每户支出为表中数额的概率
191
-
162
-
-
-
115
-
-
-
185
189
160
-
140
125
113
-
88
-
180
175
157
145
135
118
108
98
85
75
178
165
152
144
130
116
103
94
80
70
175
155
140
140
120
110
95
90
74
65
152
145
137
136
115
107
93
84
70
60
150
137
135
120
110
102
80
79
65
55
260
240
220
200
180
160
140
120
100
80
X(收入)
Y(支出)
第三章 多变量回归分析
第一节 多变量线性回归模型
一、多变量线性回归模型的PRF
如果假定对因变量Y 有k-1个解释变量:X2,X3,…,Xk,k 变量总体回归函数为:
其中1为常数项, 2 ~ 2 为解释变量X2 ~ Xk 的系数,u为随机干扰项。
总体回归函数PRF给出的是给定解释变量X2 ~ Xk 的值时,Y的期望值:E ( Y | X2,X3,…,Xk )。
假定有n组观测值,则可写成矩阵形式:
二、多 变量线性回归模型的基本假定
随机干扰项的期望值为0。
同方差性;无序列相关。
无多重共线性,即Xi (i = 2,3, …,k )之间不存在线性关系:
随机干扰项服从正态分布。
三、多 变量线性回归模型的SRF
根据残差的平方和最小化的原理,解出参数的估计量。
第二节 多变量回归模型的OLS估计
一、参数估计
可得到如下正规方程组:
如果直接用矩阵微分,则
二、 的估计量
三、 的方差-协方差矩阵
四、OLS估计量 的性质:
第三节 拟合优度检验:
一、判定系数R2:
n-1
TSS
n-k
RSS
k-1
ESS
均方差
df
平方和
方差分析表( ANOVA)
二、校正的R2 :
由R2的计算式可看出, R2 随解释变量的增加而可能提高(不可能降低):
与解释变量X的个数无关,而 则可能随着解释变量的增加而减少(至少不会下降),因而,不同的SRF,得到的R2 就可能不同。必须消除这种因素,使R2 即能说明被解释的离差与总离差之间的关系,又能说明自由度的数目。定义校正的样本决定系数 :
三、R2 与 的性质
第四节 显著性检验
一、单参数的显著性检验:
如果接受H0 ,则变量Xi 对因变量没有影响,而接受H1,则说明变量Xi 对因变量有显著影响。
检验 的显著性, 即在一定显著水平下, 是否显著不为0。
检验步骤:
如果根据理论或常识, 非负,则可做单侧检验,比较 t 与tα。
二、回归的总显著性检验:
检验回归系数全部为零的可能性。
n-1
TSS
n-k
RSS
k-1
ESS
均方差
df
平方和
方差分析表( ANOVA)
显然,R2 越大,F越大,当R2 =1时,F无限大。
选择显著水平α ,计算F统计量的值,与F分布表中的临界值进行比较:
第五节 解释变量的选择
在回归模型中的解释变量,除非由明确的理论指导或其他原因,在选择上具有一定的主观性,如何正确选择解释变量是非常重要的。
一、解释变量的边际贡献分析
在建立回归模型时,假定我们顺序引入变量。在建立了Y与X2的回归模型,并进行回归分析后,再加入X2。考虑加入的变量X2是否有贡献:能否再加入后显著提高回归的解释程度ESS或决定系数R2。ESS提高的量称为变量X2的边际贡献。
决定一个变量是否引入回归模型,就要先研究它的边际贡献,以正确地建立模型。如果变量的边际贡献较小,说明改变量没有必要加入模型。
分析变量的编辑贡献,可以使用方差分析表为工具,根据变量引入前、后的RSS的变化量及其显著性检验(扣除原来引入模型的解释变量的贡献),确定该变量的边际贡献是否显著。
一个简单的检验方法,就是对引入新变量后的RSS增量与新的ESS的比值做显著性检验。
可以利用方差分析表来进行分析。
设ESS为引入变量前的回归平方和,ESS’ 为引入m个新变量后,得到的回归平方和,RSS’为引入变量后的残差平方和。
ANOVA表如下:
n-1
TSS
Q/( n-k-m)
n-(k+m)
Q
添加变量后的RSS
(U2-U1)/m
m
(U2-U1)
添加变量的边际贡献
U2/(k+m-1)
k+m-1
U2
引入变量后的ESS
U1/(k-1)
k-1
U1
引入变量前的ESS
均方差
自由度
平方和
在新引入变量的系数为0的原假设下,
把计算出的该统计量的值与α 显著水平下的临界值进行比较:
引入的新变量的边际贡献显著,则应该把这些变量纳入回归模型,否则这些变量不应引入回归模型做解释变量。
二、逐步回归法
如果根据理论,因变量Y与k-1个变量X2,X2,…,Xk 有因果关系,我们要建立的回归模型要在这些变量中选择正确的解释变量,要根据变量的边际贡献大小,把贡献大的变量纳入回归模型。分析边际贡献并选择变量的过程,实际上是一个逐步回归的过程。
首先,分别建立Y与k-1个变量X2,X2,…,Xk 的回归模型:
回归后,得到各回归方程的平方和
选择其中ESS最大并通过F检验的变量作为首选解释变量,假定是X2 。此时可确定一个基本的回归方程:
在此基础上进行第二次回归,在剩下的变量中寻找最佳的变量:
建立k – 2 个回归方程:
回归后,得到各回归方程的平方和:
同样,选择其中ESS最大并通过F检验的变量作为新增解释变量,假定是X3 。此时可确定一个基本的回归方程:
重复这一过程,直到所有变量中,边际贡献显著的变量全部引入回归模型中为止,得到最终的回归式:
也可以采用逐步减少边际贡献不显著的变量的方式,逐步回归确定回归模型包括的变量,方法一样。
第六节 利用多元回归模型进行预测
对于多元回归模型:
通过回归分析,得到回归方程
后,就可根据给定的解释变量的一组值X0 =(1,X20,X30,…, Xk0),对因变量Y的值进行估计。
一、个值预测
为Y0及 的预测值。
二、区间预测
第四章 非线性模型
因变量和解释变量之间的线性关系,包括参数线性和解释变量线性两种。前面的分析假定总体回归函数的形式为:
但是根据经济现实或经济理论,变量之间不一定存在这种形式的线性关系。如参数线性形式的回归函数:
或参数、变量均为非线性形式的函数关系,如C-D生产函数:
对于这些不符合线性假定的模型进行参数估计,必须加以适当的变换以后,才能用OLS方法估计模型参数。
对于参数线性的模型,可以采用变量的直接代换,转化为参数、变量均为线性的形式进行估计。
一、倒数模型:
函数形式为:
令变量 ,则回归函数可变为:
根据解释变量的观测值,计算出X*i 的之后进行OLS估计,得到:
因此可得到原模型的估计方程:
二、对数线性模型:
通过对原模型的对数变换,函数形式可变为:
令变量 ,则回归函数可变为:
根据解释变量的观测值,进行OLS估计,得到:
因此可得到原模型的估计方程:
例如,估计C-D 函数:
,两边取对数后:
得到原模型的估计方程:
因此,C-D 函数的估计形式为:
二、半对数线性模型:
模型的函数形式可变为:
令变量 ,同样可以进行参数的OLS估计。
根据解释变量的观测值,进行OLS估计,得到:
因此可得到原模型的估计方程:
三、多项式模型:
模型的函数为:
我们关于经典线性回归模型(CLRM)有如下假定:
假定1:回归模型对参数是线性的
假定2:在重复抽样中X的值是固定的(非随机)
假定3:干扰项的均值为零。即,E(ui|Xi)=0
假定4:同方差性或ui的方差相等。即
Var(ui|Xi)=E[ui-E(ui)|Xi]2 = E(ui2|Xi]2 = 2
假定5:各个干扰项无自相关。即
Cov(ui,uj|Xi,Xj)=E[ui-E(ui|Xi) ][uj-E(uj|Xj)] = E(ui|Xi)(uj|Xj) = 0
假定6:ui和Xi的协方差为零。即
Cov(ui,Xi) = E[ui – E(ui)][ Xi – E(Xi)] = E[ui (Xi – E(Xi))]
=E(ui Xi) – E(ui)E(Xi) = E(ui Xi) = 0
假定7:观测次数必须大于待估计的参数个数。
假定8:解释变量X的只要有变异性。即一个样本中,Xi不能完全相同。
假定9:模型没有设定误差。
假定10:没有完全的多重共线性,即解释变量之间没有完全的线性关系。
在现实中,以上假定不一定得到满足。本章讨论某些假定不成立时的估计问题。
第五章 多重共线性
第一节 违背古典假定的估计问题
第二节 多重共线性(multi-collinearity)
如果假定10不成立,即在解释变量X1,X2,…,Xk中,存在线性关系。
解释变量间的确定线系关系存在时,存在不全为零的常数
这种关系为完全多重共线性,变量间的相关系数为1。实际上更多的情况是,解释变量间有不完全的线性关系:存在不全为零的数:
其中vi 为随机项。我们把这种解释变量间存在的完全或不完全的线性关系称为多重共线性。由于经济变量自身的性质,它们之间这种多重共线性或强或弱,普遍存在的。
假定λ1<>0,
第三节 多重共线性的影响
一、完全多重共线性
以两个解释变量的回归模型为例,假定回归模型为:
如果采用OLS估计,则有:
根据最小平方和原则,并求解正规方程组,可得到:
如果X2与X3存在完全共线性,即 则:
因此,存在完全共线性时,不能利用OLS估计参数,参数的方差变为无限大。
二、不完全多重共线性
假定X2,X3 间存在不完全多重共线性, 以离差形式表示为: 。
其中vi 为随机项。则
显然,当解释变量X2、X3 之间的相关系数 r23 的绝对值越大,共线性程度就越高,参数估计值的方差就越大,越不准确,且随着相关系数的增大,方差以更大的幅度增加。
三、多重共线性的影响
(1)参数估计值的方差增大,估计量的精度大大降低。影响预测结果(准确度和置信区间)。
(2)参数估计值的标准差增大,使的 t 检验值变小,增大了接受H0,舍弃对因变量有显著影响的变量。
(3)尽管t 检验不显著,但是R2仍可能非常高。
(4)OLS估计量对观测值的轻微变化相当敏感。
一、多重共线性的探查
由于多重共线性使一种普遍现象,而多重共线性的程度影响了参数估计结果,因此我们关心的是共线性的程度,而不是共线性是否存在。
第三节 多重共线性的探查和解决
在双边量回归模型中,可以直接对解释变量的相关系数进行显著性检验,以确定线性相关的程度(此时相关系数的平方等于样本决定系数)。而对于多于两个结束变量的回归模型,则不能利用俩俩相关系数来检验。
对于有多个变量的回归模型,可以采用辅助回归的方法,分别以k-1个解释变量中的第i个对其他变量进行回归,可得到k-2个回归方程的判定系数:
R22,R32,…,Rk2。假定这些判定系数中Rj2最大且接近1,则变量Xj 与其他解释变量中的一个或多个有较高相关程度,因此回归方程出现高度多重共线性。 可以进行F检验确定其显著性:
根据第三章的结果,检验R2显著性的F检验值为:
可以采用类似的方法检验:
选择显著水平α ,计算F 统计量的值,与F分布表中的临界值进行比较,若F检验值小于临界值,则多重共线性不显著,反之,则多重共线性显著。
二、解决多重共线性的方法
如果发现监视变量之间存在高度得多重共线性,就必须消除这种多重共线性的影响,保证模型的正确性和估计的有效性。有以下几种解决方法。
1、除去不重要的变量
把回归模型中引起多重共线性,而对因变量的影响不大的变量。但是变量的剔除可能导致模型的设定偏误。
服从t (n-k+1)。给定显著水平α,若统计量大于临界值tα/2,则说明Xj 与Xi引起回归方程的多重共线性。
如果通过前的F检验得到某解释变量Xj 与其它解释变量存在多重共线性,则可以通过t 检验寻找Xj 与哪些变量引起多重共线性。
首先计算Xj 与其它每个解释变量的偏相关系数:
已知X2 和X3 之间高度共线。根据先验信息,确定β3=2β2,带入模型后可得:
例如:C-D生产函数 ,K与L高度相关。已知规模收益不变,则α+β=1。生产汉数的双对数模型可变为:
可以对这一新回归方程进行估计。
2、利用先验信息
假定对回归模型:
3、变换模型的形式
如果作为解释变量的某些经济变量间出现高度相关,而进行回归分析的目的是为了预测,不是研究单个经济变量对因变量的影响时,可以根据实际问题,改变模型模型的形式。
4、增加样本容量
如果多重共线性是由样本引起,增加样本容量可以减少多重共线性的程度。以二元回归方程为例,根据第二节的结果,参数估计值的方差为:
当样本容量增大时, 增大,方差将减小,可以提高参数估计的精度。
5、横截面数据与时间序列数据并用
如果时间序列数据中,解释变量间存在高度相关,可以先使用横截面数据估计出存在高度相关解释变量中的一个或多个,然后再在时间序列数据中剔除这些变量,在消除多重共线性影响下估计因变量与剩余变量间的回归式。
例如,为了估计汽车需求的价格弹性和收入弹性,得到销售量、平均价格、消费者收入的时间序列数据。设定回归式:
新的回归式中消除了多重共线性的影响。
由于在时间序列数据中价格Pt、收入It 一般都具有高度共线的趋势。因此,直接估计上面的回归式将存在问题。由于在同一式点上,价格与收入的相关程度不高,可以先利用截面数据估计出收入弹性 ,再利用这一估计结果修改原回归式,变为:
6、利用时间序列数据的差分或离差进行估计
如果时间序列数据中,解释变量间存在高度相关,那么这些变量的差分之间不一定相关。因此利用差分进行回归能降低多重共线性的程度。
第六章 异方差
第一节 异方差的性质
一、异方差
在经典线性回归模型(CLRM)中,我们假定随即干扰项具有同方差性,即:
Var(ui|Xi)=E[ui-E(ui)|Xi]2 = E(ui2|Xi]2 = 2
这实际上是假定了解释变量Yi 的值围绕其期望值的分散程度相同。实际上,对应于解释变量的不同取值,方差可能不同,即本假定不成立。
Y1
X1
Y2
X2
Yn
Xn
. . .
Y1
X1
X2
Yn
Xn
. . .
同方差
异方差
如果保持随机项的协方差为0,则
的方差、协方差矩阵为:
或者说, 。
在这种情况下,称随机项ui 具有异方差性。
二、异方差的原因
1、因变量与解释变量间相互关系的性质。如“干中学”、经济行为规则等。
2、解释变量的遗漏。
3、异常观测值的出现。
4、时间序列数据中,观测技术的改进引起的观测值的变化。
三、异方差的后果
由于异方差性,基于CLRM假定的OLS估计参数结果将受到影响。
1、考虑异方差性的OLS估计
如果假定 ,保留其它的CLRM假定,以双变量回归模型为例,普通OLS估计为:
可以证明该估计量是线性、无偏的(第二章的证明),但是否为最优估计量(具有最小方差性)性,则不一定。可以在考虑异方差性的前提下,采用适当的OLS估计方法来分析。
2、存在异方差性的OLS估计——广义最小二乘法(GLS) 估计
对于
可以进行变量代换,构造满足CLRM假定的回归方程。
在估计过程中,新模型的残差平方和实际上是原模型的残差的加权平方和:
因此,这种GLS估计,称为加权 最小二乘法(WLS)。显然,在求最小残差的过程中,对于方差较大的观测值赋予的权重较小(不符合“平均”意义上的“异常”观测值),而对于方差较小的观测值赋予较大的权重,使样本回归函数更接近总体回归函数。
这种先将原始变量转换成满足CLRM假定的转换变量,再利用OLS进行估计的方法,称为广义最小二乘法(GLS),得到的估计量称为GLS估计量。显然, GLS估计量是BLUE的。
3、考虑OLS估计与GLS 估计的比较
OLS估计量:
GLS估计量:
1、两种估计量都是无偏的。
2、GLS估计量具有最小方差性: 。
3、在假设检验中,OLS估计将降低检验的显著性。
4、OLS估计降低估计的精度。
4、忽略异方差的OLS估计(同方差假定下的OLS估计),不仅不具最小方差性,而且估计是有偏的。以此为基础的统计推断将可能产生严重的误导。
第二节 异方差性的探察
由于异方差性可能导致的后果,在估计中要考虑如何探察异方差的存在,并采取相应的补救措施。
一、图示法
由于在存在异方差的情况下,随机项ui 的方差与解释变量的取值有关,因此可以画出因变量Y与解释变量X的散点图,或同方差假定下以OLS估计得到的残差平方与X或Y(多变量模型中)的散点图,据此对异方差做出直观的近似判断。(P359-360图,图)
二、帕克(Pack)检验
且能确定影响随机项的解释变量。
二、格兰奇(Glejser)检验
如果回归结果表明异方差与多个变量有关,可以引入多个变量进行回归,并进行检验。
格兰奇(Glejser)检验的优点在于,在检验异方差的同时,可以得到异方差形式的信息(与解释变量的关系),在后续分析中据此处理样本数据和回归模型,以得到BLUE估计。
三、斯皮尔曼(Spearman)等级相关系数检验
通过随机项的方差与解释变量的等级相关系数的显著性检验,判断是否存在异方差性。步骤:
这一检验的依据,其实就是检查随着因变量的变化,方差是否随之变化(等级差异意味着变动)。
四、戈德菲尔德—匡特(Goldfied-Quandt)检验
G-Q检验适用于大样本、随机项的方差与某异解释变量存在正相关的情况。检验的前提条件是:随机项服从正态分布;无序列相关。步骤:
如果同方差,则 F ≈1 ;如果存在以方差性,根据正相关的假设,F>1。F越大(超过临界值),说明存在以方差性的可能性就越大。
第三节 异方差模型的处理
一、随机项的方差已知的情况
对新模型作OLS回归可以估计出原模型参数的BLUE估计。
二、随机项的方差未知的情况
存在以方差性,则随机项的方差与一个或多个解释变量有关。如:
可得到满足CLRM假定的新模型:
因此,关键的问题是找出异方差的具体形式。
第七章 自相关
第一节 自相关
一、自相关
对于时间序列数据,不同期的样本观测值形成一个序列;横截面数据中按不同空间(省份、厂商、家庭等)排列的样本数据也可看为一个序列,为了方便,先把横截面数据也视为不同期的数据。对于一个变量u,可以得到其观测值序列:
u1,u2, …,ut-1 ,ut
下标t代表不同时期。
如果在这个序列中,每期的观测值与其前一期或前几期的取值有关,即
Cov(ui,uj) <> 0,i <>j
则称该序列存在自相关(Autocorrelation)。
在CLRM中,假定干扰项u不存在自相关,即
Cov(ui,uj) = 0,i <>j
如果这一条件被破坏,即干扰项存在自相关,那么使用OLS估计就可能存在问题。实际上,在经济计量研究中,自相关士一种常见的现象。如,消费支出要受到当期和前几期收入的影响;某一年的GDP要受到前期的GDP水平的影响;某种商品的供给量要受到前一期的其它变量影响,等等。
三、自相关的形式
如果u存在自相关,t期的取值与前p期有关,关系可由:
ut = f (ut-1 , …, ut-p ) +vt
决定,其中vt满足:
即vt满足CLRM假定。一般把f (ut-1 , …, ut-p ) 假定为线性形式。
二、产生自相关的原因
(1)经济变量的惯性——时间序列变量的自相关导致干扰项的自相关
(2)应进入模型的变量未被引入模型,能引起自相关
(3)回归模型的的形式设定存在错误
(4)蛛网现象:应变量对子变量的反应滞后
(5)滞后效应:应变量受其前几期取值的影响
(6)数据“编造”。数据的加工过程(如季度数据)或推算过程(根据某种
假定获得未调查数据)引起自相关
(7)随机项自身可能存在“真正自相关”性(偶然性冲击对变量的长期影响)
自相关主要出现在世界序列数据中。横截面数据中也可能存在自相关(spatial autocorrelation, 空间自相关)。这种自相关可能来自样本观测值的排序依据——逻辑的或经济的排列的理由。
如果
则称为马尔科夫一阶自回归模式(或简称为一阶自回归模式),记为AR(1)。其中ρ被称为自协方差系数(coefficient of autocovariance),或自相关系数。
如果
则称为s阶自回归模式,记为AR(s)。
对于AR(1),
(同方差假定)
这与异方差一样,影响OLS估计的结果。
第二节 存在自相关的OLS估计
一、考虑自相关的GLS估计
对于二元回归模型:
估计系数和方差为:
其中,C和D未校正因子(关于ρ的表达式,较小)。
二、忽略自相关使用OLS估计的后果
利用OLS估计,得到的估计值和方差都与GLS估计不同。根据前面关于OLS估计的线性和无偏性的证明,OLS估计是线性无偏的,但是考虑到干扰项的自相关,OLS估计是无效的。
如果ρ=0,估计结果是相同的。在存在自相关的情况下,参数的GLS估计式和方差估计式中均有自相关系数ρ,因此,忽略自相关的OLS估计值和方差都是不可信的。
1、绘制 的散点图
第三节 自相关的探察
一、图示法
首先利用OLS回归后,求出残差 。
如果大部分落在第I、第三象限,则 存在正自相关。
如果大部分落在第II、第IV象限,则 存在负自相关。
2、按时间顺序绘制 图
作出 随时间变化的图形,如果 呈由规律的变化,如锯齿形或循环形,则说明干扰项存在自相关。
若 随时间变化不断变换符号,说明存在负相关;若连续几个为正,后边几个为负,则可能存在正相关。
二、杜宾—瓦特森(Durbin-Watson)检验
基本假定:
(1)回归式中有截距项
(2)解释变量是非随机的
(3)干扰项的模式为一阶自回归模式:
(4)回归模型中,物质后因变量被当作解释变量。
(5)没有缺落数据。
检验方法如下:
当d约接近2,u的自相关性越小。
检验步骤:
(1)做OLS回归,得到残差。
(2)计算统计量d
(3)对给定的样本数量和解释变量数目,在给定显著水平下,找出临界值的下界和上界dL、dU 。
(4)根据下表的决策规则决定是否接受原假设。
dL<d <Du
4 – dU<d <4 -dL
不能确定
无正或负的自相关
dU≤d ≤4 -dL
接受
无正或负的自相关
4 - dL≤d
拒绝
无负自相关
0<d<dL
拒绝
无正自相关
条件
决策
原假设
D-W检验的缺陷是存在两个不确定域。如果统计量落入不确定域中时,无法判断是否存在自相关。
第四节 自相关的解决方法
一、差分法
若存在一阶自相关,可采用广义差分,利用GLS得到参数的BLUE估计量。 对于二元回归模型,
然后再计算出估计值。
二、杜宾两步法
把二元回归模型的差分形式写为:
再计算出β1、β2。
第八章 单方程模型的几个问题
第一节 模型的设定误差
在建立经济计量模型时,要设定模型的函数形式、模型中的解释变量、随机项的构成及假定等,并希望设定的模型尽可能反映现实经济问题。如果模型设定不当,可能引起设定误差。设定误差主要包括两种情况:遗漏了必要的解释变量;包含了无关的解释变量。
一、遗漏了必要的解释变量
本来模型中应含有k-1个解释变量,如模型应为:
但是在建模时,由于数据不易获得或其它原因,使模型中遗漏了一些变量,如遗漏变量后的模型为:
此时,遗漏变量后的模型的随机误差项实际为:
这将对估计结果产生影响。为了分析这种影响,以“正确模型”包括两个解释变量为例,把回归模型改写为离差形式进行分析:
和遗漏变量模型
把PRF中的yi带入,可得到:
对PRF`的估计值为:
这说明遗漏变量模型的估计量是真实模型的有偏估计量,且偏误不随样本容量的增大而消失。只有当遗漏变量与解释变量的相关系数为零时,偏误才会消失。
这说明方差的估计也是有偏误的。因此,据此作出的统计推断也是不可信的。
二、包含了不必要的解释变量。
假定真实模型为:
但是在建模时,模型中增加了不必要的变量,如遗漏变量后的模型为:
以双解释变量的模型为例,假定
和包含无需变量模型
SRF`中的参数OLS估计量为:
通过比较,可看出:
(1)含不需要解释变量模型的估计是无偏的,但不具备最小方差性:
(2)样本方差σ的估计是正确的;假设检验程序仍然有效。
(3)含不需要解释变量模型的估计参数的方差增大,精度减少。
三、设定误差的检验
1、检验是否存在无需变量
根据回归参数的t检验值,对参数进行显著性检验。不显著的解释变量可以从模型中删除。
2、对遗漏变量和不正确函数形式的检验
各种检验指标(如判定系数)和残差分析。
第二节 虚拟变量估计
一、虚拟变量的引入
在经济分析中,某些特殊因素会影响到变量的取值,如季节对饮料需求的影响,特定时期实施特殊政策对各宏观经济变量产生的影响等。而这些因素属于“定性”的变量,可以通过赋予一个数量值,以虚拟变量(哑变量Dummy)的形式进入分析模型中。
例如,消费函数模型:
Ct=b0+b1Yt+ut ====〉 Ct=b0+b1Yt+b2Dt+ut
二、虚拟变量的不同形式
虚拟变量在模型中可代表对截距的影响,如:
Ct=b0+b1Yt +b2Dt +ut (Dt在正常年份取1,反常年份取0)
可利用OLS估计得到估计结果:
Ct
Yt
0
正常年份
反常年份
根据回归结果,正常年份的基本支出水平比反常年份小,而边际支出倾向不变。
虚拟变量在模型中也可以代表对和参数的全面影响,如:
Ct=(b01+ b02Dt) + (b11 + b12Dt)Yt+ut
该式可变为: Ct=b01+ b02Dt + b11DtYt + b12DtYt+ut
如果得到估计方程:
Ct
Yt
0
正常年份
反常年份
二、多个虚拟变量的引入及虚拟变量陷阱问题
在模型中,对于一个定性变量可能需要引入多个虚拟变量。典型的例子是季节变化对商品销售的影响。
在该季节模型:
中,有
即解释变量间存在完全的共线性,因此模型无法估计。这就是虚拟变量陷阱。
为了解决这以问题,在引入虚拟变量时,对于一个有m种可能的定性变量,只能引入m-1个虚拟变量。如前面的模型:
三、引入不同定性变量的多个虚拟变量
在模型中,如果有多个定性变量对因变量有影响,可同时把对应于各定性变量的虚拟变量引入模型。如,季节变化和当年是否有重大事件发生对商品的销售都有影响,销售回归方程可写为:
其中,Qt(取1获0)代表正常年份和反常年份,而D2~D4代表季节变化。
使用的原则,仍是对于任一个有m种可能的定性变量,只能引入m-1个对应的虚拟变量。
第三节 滞后变量
一、滞后变量
滞后变量是指在回归模型中,因变量与解释变量的时间滞后量。如:
第一个模型称作外生滞后变量模型或分布滞后模型。第二个模型称为内生滞后变量模型或自回归模型。
在很多经济分析中,把滞后变量引入模型中是必要的。这里先讨论分布滞后模型。
分布滞后模型:
包含了多时期的滞后变量,各时期的滞后变量之间往往存在多重共线性,因此不能用OLS估计。此外,如果滞后变量较多而样本较小,不仅估计困难,而且较小的自由度下也难以进行传统的拟和优度检验。
基于以上原因,必须对模型进行变换,以减少被估计参数的数目。可以考虑对滞后变量加以约束,把这些滞后变量组合成新的变量,方法有经验权数法,阿尔蒙多项式法等。
二、经验权数法
根据经验为滞后变量制定权数,把滞后变量按权数线性组合成新变量。
1、递减滞后形式
假定解释变量的滞后期越长,对因变量的影响越小,滞后变量期数越大则指定的权数越小。如,对于模型:
三、阿尔蒙多项式法
根据一个连续函数为滞后变量制定权数。对于模型:
2、矩形滞后形式
假定所有滞后变量对因变量的影响相同,滞后变量的权数相等,
如,前面的模型中,新变量定义为:
3、倒“V”型滞后形式
假定所有滞后变量对因变量的影响岁滞后时间,先递增,再递减,滞后变量的权数大小成倒“V”型变化,如,前面的模型中,新变量定义为:
对经验权数模型进行回归后,根据显著性检验、标准差、样本决定系数及D-W检验等,选择最优的形式。
这一方法可以推广到多个滞后变量的情形。
第九章 联立方程模型
第一节 联立方程模型的概念
一、联立方程模型
由于经济现象的复杂性,各经济变量间关系是交错复杂的,因而对一些经济现象进行分析时,单一方程模型是不适宜的,需要多个方程联立,才能正确说明经济现象。
例如,在均衡价格模型中,均衡数量和价格要由供、求双方决定。假定粮食需求量由消费者的收入水平和商品价格决定,供给量由价格和气候条件决定,供、求双方决定了市场均衡数量Q:
这里讨论的局部均衡模型,需要多个单一方程和在一起的联立方程组来描述。这个方程组就是描述这以经济系统的联立方程模型。
二、联立方程模型中的变量分类
联立方程模型中的变量,可分为内生变量、外生变量和预定变量。
1、内生变量
指由模型系统内决定的变量,取值在系统内决定,如D、S、P。
2、外生变量
指不由模型系统范围内决定的变量。如Y、W。政策变量属于外生变量。
3、预定变量
指变量的滞后值。内生变量的滞后值称预定内生变量,外生变量的滞后值称预定外内生变量。
三、联立方程模型中方程式的分类
1、行为方程式
描述经济系统中个体经济行为的方程。如消费需求方程。
2、技术方程式
指基于生产技术关系而建立的函数关系。如生产函数。
3、制度方程式
与法律、制度有直接关系的经济数量关系式,如税收方程。
4、衡等式
有两种。一种是定义方程式,有经济变量的定义所构成的方程;另一种是平衡方程,表示经济变量之间的平衡关系。
四、结构式模型与简化式模型
1、结构式模型
体现经济理论中经济变量之间的关系结构的联立方程模型,为结构式模型,如:
结构模型中的每个方程称为结构方程;各结构方程的系数称为结构系数或结构参数。
在结构模型中,结构方程的右边可能出现内生变量。在结构方程中,把内生变量表示为其它内生变量、前定变量和随机项的函数形式,被称为结构方程的正规形式。以Y代表内生变量,X代表预定变量,代表内生变量的结构参数,代表预定变量的结构参数(对于常数项,可视为观测值为1的变量X0),结构模型的一般形式可写为:
写成矩阵形式:
如果模型有g个内生变量、k个预定变量、g个结构方程(内生变量数等于结构方程数),则称模型为完备模型。这里:
样本观测值(n个样本):
例:
(截距项视为观测值为1的预定变量)
Y
X
U
Y
X
U
2、简化式模型
根据结构式模型推导得到,把内生变量表示为预定变量和随机项的函数形式的方程组,这种模型称为简化式模型,其中的每个方程称为简化式方程:
结构式:
简化式:
显然,简化式模型中,每个内生变量的函数方程都包括了预定变量对其的全部影响。而且,简化式模型中的随机项与各变量不相关。
简化型参数矩阵
3、简化型与结构型的参数关系体系
从结构型到简化型,变换过程为:
11
12
13
21
22
23
31
32
33
五、联立方程模型与单方程模型
以简单的凯恩斯模型为例,
这说明作为解释变量的收入Y与随机项相关,违背了CLRM的假定。如果采用OLS逐个对单个结构方程进行估计,将得到有偏估计量:
其中,
有偏
非一致性
所以,在考虑到变量间存在“联立”的相互影响时,用OLS以单方程形式回归得到的估计量是有偏且非一致性的。
第二,以单方程进行估计,将损失变量之间的相关信息,如I 通过Y产生的对C的间接影响。
第三,损失方程之间的相关信息,即不同方程随机项之间的关系。
因此,根据经济系统中变量之间的关系,使用联立方程模型,并利用新的估计方法进行估计是必要的。
从简化模型的推导过程中可看到,简化式方程的有变为前定变量和随机项,而根据假定,前定变量与随机项不相关,因此,对简化方程进行OLS估计,再利用参数关系体系来解出结构参数的间接最小二乘法(ILS),就成为一种可选择的联立模型估计方法:
显然,能够得到结构参数的条件是,方程组 有唯一解。根据理论建立的联立模型不一定满足该条件,这就是量立方程模型的识别问题。
第二节 联立方程模型的识别
一、联立方程模型的识别问题
所谓识别问题,其实就是能否唯一地估计出结构参数。例如,对于:
利用C和Y的样本数据估计得到的参数,无法确定是(1)的参数估计量还是(1`)的参数估计量。这说明消费方程(1)不可估计,称该方程不可识别。同样,投资方程也是不可识别。
关于识别的定义,主要有:
(1)如果联立方程模型中某个方程不具有确定的统计形式,则称该方程不可识别。这里,确定的统计形式指变量和方程关系式。[(1)与(1`)]
(2)如果联立方程模型中某些方程的线性组合可以构成与某个方程相同的统计形式,则称该方程不可识别。[(2)+(3)=〉(1`), (1)与(1`)]
如果利用(2)和(3)消去It ,可得到:
(3)简化模型参数已知时,若不能根据参数关系体系得到联立方程模型中某个结构方程的确定结构参数估计值,则称该方程为不可识别。
而一个联立方程模型,如果每个随机结构方程都是可识别的(恒等方程不存在识别问题),则称该模型是可识别的。
(1)+(2),等式右边与(3)的右边相同,与(3)矛盾。去掉一个矛盾方程后,有两个方程,四个未知数,无法解出结构参数的估计量。事实上,根据识别的定义,需求方程不可识别,投资方程也不可识别。
(1)+(2),与(3)的矛盾,(4)+(5)与(6)矛盾。去掉两个矛盾方程后,有4个方程,5个未知数,无法解出结构参数的估计量。根据识别的定义,需求方程可识别,投资方程不可识别(把投资方程带入恒等式,得到与投资方程相同的统计形式)。
(1)+(2),与(3)的矛盾,(4)+(5)与(6)矛盾, (7)+(8)与(9)矛盾。去掉3个矛盾方程后,有6个方程,6个未知数,说明消费方程和投资方程式可识别的。
二、不可识别、恰好识别与过度识别
不可识别:不能确定地估计出结构参数值,如例1、例2。
恰好识别:能够唯一地估计出结构参数值,如例3
过度识别:结构参数的估计值具有多个确定值。例如:
不可识别
恰好识别
过度识别
可以识别
方程中剔除4个矛盾方程,有8个程,而结构参数只有7个。需求方程和投资方程都是可识别的,但是,求解这一方程组,只有α0、α1、α2、α3得到唯一确定解,而β0、β1、β2却得到多组确定值,说明投资方程为过度识别的结构方程。
三、模型识别的简化型条件
如果已知联立方程模型的简化型参数,可以根据对简化型的分析判断模型的识别状态。
对于简化模型:
该条件的前一部分一般称为秩条件,后一部分称为阶条件。
四、模型式别的结构型条件
直接从结构方程出发判断联立方程模型的识别状态。
若联立模型:
有g个内生变量,k个前定变量(包括常数项)。对模型中待识别的第i 个结构方程,该方程中包括gi 个内生变量,ki 个预定变量,则:
-1
0
0
0
Gt
-c0
0
-c1
1
0
0
0
0
1
0
-1
-1
-b0
-b1
0
0
1
0
-a0
0
-a1
-a2
0
1
X
Yt-1
Yt
Tt
It
Ct
系数矩阵
消费方程:
消费方程不可识别。
-1
0
0
0
Gt
-c0
0
-c1
1
0
0
0
0
1
0
-1
-1
-b0
-b1
0
0
1
0
-a0
0
-a1
-a2
0
1
X
Yt-1
Yt
Tt
It
Ct
系数矩阵
投资方程:
消费方程可识别。
阶条件:g2=2,k2=2,k-k2=3-2=1, g2-1=0,即k-k2> g2-1,过度识别。
(H=7,M2=3,g = 4,H - M1 = 4 > g – 1 = 3)
第三节 联立方程模型的参数估计
对于可识别的联立方程模型的结构参数估计,不能直接对结构方程使用OLS(得到的是有偏、非一致性估计量)。
一、间接最小二乘法(ILS)
适用于恰好识别的联立方程模型。步骤为:
间接最小二乘估计量的性质:有偏、一致估计量,即:对于小样本,估计量是有偏的;对大样本,估计量是一致的。
二、两阶段最小二乘法(TLS)
步骤为:
两阶段最小二乘法实际上是以内生变量的估计值作为工具变量对结构方程进行估计的。使用TLS可以省去利用参数关系体系求解结构参数的麻烦,同时也可用于估计过度识别的联立方程模型。
我们对经济量进行分析的最终目的,是为了预测某些经济变量的未来值。进行预测的方法有两种。一种是根据一定的经济理论,建立各种相互影响的经济变量之间的关系模型,根据观测到的经济数据估计出模型参数,利用模型来预测有关变量的未来值。这种方法的优点在于精确地考虑到了各经济变量之间的相互影响,有理论依据,但是由于抽样信息不完备,经济模型和经济计量模型不可能真正准确地反映了经济现实,因而得到的结果不可能是相当准确。
另一种方法是利用要预测的经济变量的过去值来预测其未来值,而不考虑变量值产生的经济背景。这种方法假定数据是由随机过程产生的,根据单一变量的观测值建立时间序列模型进行预测。这种方法在短期预测方面是很成功的。
第十章 时间序列分析
第一节 确定性时间序列模型
一、移动平均模型
二、加权移动平均模型
三、二次移动平均模型
对经过一次移动平均产生的序列才进行移动平均,即:
四、指数平滑模型
如果采用下式求得序列的平滑预测值:
五、二次指数平滑模型
在一次指数平滑模型的基础上再进行指数平滑计算,即构成二次指数平滑模型。同样可以构成三次指数平滑模型。
第二节 随机时间序列模型的特征
一、随机过程(stochastic process)
一个特定的变量在不同的时点或时期的观测值y1,y2,…,yT,称为一个时间序列。假设这些观测值是随机变量Y1, Y2, …, YT的实现,而随机变量Y1, Y2, …, YT是无穷随机变量序列Yt0, Yt0+1, …, Y1, Y2, …的一部分(其中t0可以是-)。这个无穷随机变量序列Yt,t=1,2,…,称为一个随机过程。
一个具有均值为零和相同有限方差的的独立随机变量序列et称为白噪声(white noise)。如果et服从正态分布,则称为高斯白噪声。
例如,一个一阶自回归过程: ,
假定改随机过程的起点为 t0= - ∞,可以证明E(Yt)=0, var(Yt)=σy。这里每个随机变量的曲志都依赖于其前期水平,这是依据现在和过去的观测值预测未来值的基础。因此,度量时间序列元素之间的依赖性的协方差在序列特性描述方面非常重要。
二、自协方差函数和自相关函数
自协方差函数是描述时间序列随机型结构的重要工具。
由于只有随机过程的样本,只能根据样本数据计算出样本自相关函数(Sample autocorrelation function) :
三、平稳随机过程
并非所有随机过程的两个元素之间的协方差都只依赖于它们的时间间隔。我们把任意两个元素之间的协方差都只依赖于它们的时间间隔,且具有常数均值和有限方差的随机过程,称为平稳过程(stationary process):
如果随机过程不满足上述条件,则称为非平稳随机过程。
平稳随机过程产生的时间序列,为平稳序列。平稳性是时间序列的一个重要的特性,它保证了随机过程基本上没有结构变动,而结构变动会给预测带来困难,甚至不可预测。
四、平稳性的检验
1、博克斯-皮尔斯(Box-Pierce)Q统计量
平稳过程的一个显著特征是自相关函数随时间间隔k的增大而衰减,因此,对时间序列的样本自相关函数是否显著地不为零,来检验序列的平稳性。
2、单位根检验(Unit root test)
考虑以阶自回归模型:
一、滞后算子
定义滞后算子(lag operator)L:
LYt = Yt-1
其中Yt 和 Yt-1为随机过程中的元素,而
L2Yt = L[L(Yt)]= LYt-1= Yt-2
一般地,对任意正整数n,有LnYt = Yt-n, L0Yt = Yt
第四节 AR、MA、ARMA模型
二、自回归模型(auto-regressive,AR)
1、AR模型
如果时间序列y1,y2,…,yT,的生成过程的形式为:
2、AR模型的自协方差函数和自相关函数
3、AR模型的平稳性
二、移动平均模型(Moving Average, MA)
1、 MA(q)模型
如果时间序列yt为它的当期和前期的误差和随机项的线性函数,即
2、MA模型的自协方差函数和自相关函数
三、自回归移动平均模型(ARMA)
如果时间序列yt为它的当期和前期的误差和随机项,以及其前期值的线性函数,即
四、AR 模型的估计
1、已知阶数p的AR(p)模型的估计
如果样本为AR过程生成:
把观测值写成矩阵形式:
2、AR(p)模型的阶数p的确定
对于给定的一组时间序列数据,识别AR过程阶数的一种方法,是估计递增阶k,并检验k阶AR过程中第k个系数θk的显著性。这个系数称为第k个偏自相关系数(partial autocorrelation coefficient),记为θkk。偏自项关系数计量了不能由AR(k-1)解释的yt和yt-k之间的相关程度。
偏自相关序列θkk(k=1,2,…)称为偏自相关函数(partial auto-correlation function)。
五、MA 模型的估计
1、阶的确定
MA过程的自相关函数为:
2、参数估计
可采用最大似然法估计参数。若MA(q)的样本均值为零,et服从正态分布,则可构造似然函数:
六、ARIMA 模型
1、ARMA与ARIMA
ARMA(p,q)的阶的确定,仍可使用自相关和偏自相关函数。如果自相关函数小时很慢,则该过程可能是不平稳的。
对yt进行差分,如果差分后的序列是平稳的,则称yt为自回归单整移动平均过程(autoregressive integrated moving-average process),用ARMA(p,1,q)表示。如果yt须经过d次差分后转变为平稳过程,则称ARIMA(p,d,q)。
在确定p,d,q后,即可对模型进行估计。
2、博克斯-詹金斯方法(Box-Jenkins Approach)
时间序列的博克斯-詹金斯方法是对于给定的彝族数据,寻求一个可适当表示数据生成过程的ARIMA模型的一种方法。该方法分三个阶段:识别、估计和诊断校验。
(1)识别。在估计自相关和偏自相关的基础上,对数据设定一个试验性的ARIMA模型。
如果自相关函数衰减慢或不消失,说明序列非平稳,需要进行差分,直至得到一个平稳序列。
对于MA(q)过程,可用样本的自相关函数找到截止点,确定阶数q。
对于AR(p)过程,利用偏自相关函数确定截止点k和阶数p。
如果自相关和偏自相关都没有截止点,则可考虑ARMA模型,并设法确定模型的阶数。
(2)估计。在确定模型及阶数的基础上,进行参数估计。
(3)诊断校验。主要方法有:
i)进行残差分析,检验残差是否为白噪声。可利用残差的散点图,以及估计残差自相关进行检验。
检验残差的自相关可使用Q统计量进行:
ii)过度拟合已设定的模型。如果以识别和估计ARMA(p,q),则再估计ARMA(p+1,q)和ARMA(p,q+1),并检验而外参数的显著性。