经济计量学
第一章 绪论
一、定义:
经济计量学(Econometrics)一词是由挪威经济学家、第一届诺贝尔经济学奖得主
拉格纳·弗瑞希(Ragnar Frisch)1926 年仿照生物计量学(Biometrics)一词提出的。
经济计量学的任务是以经济学、统计学和数学之间的统一为充分条件,去实际理解
现代经济生活中的数量关系。
二、经济计量学的内容体系
1、理论经济计量学
(1)理论经济计量学:是寻找适当的方法,去测度由经济计量模型设定的经济关系式。
(2)经济计量方法:
单方程估计方法、联立方程系统估计方法
2、应用经济计量学
经济计量学的实际应用过程,主要是建立、估计和检验各类经济计量模型,以达到
结构分析、经济预测和政策评价的目的。
应用经济计量学:以经济理论和事实为出发点,应用计量方法,解决经济系统运行
过程中的理论问题或实践问题。
三、经济计量学的研究步骤
四、使用模型四、使用模型
一、建立模型一、建立模型
11、、收集模型所含经济变量的数据收集模型所含经济变量的数据
22、方程识别条件的研究、方程识别条件的研究
33、、选择适当的经济计量方法估计选择适当的经济计量方法估计
模型参数模型参数
11、、经济理论准则经济理论准则
22、统计准则、统计准则
33、经济计量准则、经济计量准则
二、估计参数二、估计参数
三、验证模型三、验证模型
有限信息极大似然法
二阶段最小二乘法
间接最小二乘法
广义最小二乘法
工具变量法
最小二乘法
单方程估计方法
完全信息极大似然法
三阶段最小二乘法
系统估计方法
11、模型方程式的种类、模型方程式的种类
22、模型变量的种类、模型变量的种类
1、建立模型
建立模型是根据经济理论和某些假设条件,区分各种不同的经济变量,建立单一方
程式或方程体系,来表明经济变量之间的相互依存关系。
(1)模型方程式的种类
1)随机方程:
是根据经济行为构造的函数关系式,带有随机误差项。由于经济计量模型中的
随机方程是根据经济行为构造的,因此,也常称它们为“行为方程”。
2)非随机方程:
是根据经济学理论或政策、法规而构造的经济变量恒等式。由于经济计量模型
中的非随机方程是根据理论、政策、法规确定的,因此常称它们“定义方程”、“制度
方程”或“政策方程”。
(2)模型变量的种类
1)按照它们的数值是在什么范围决定为标准:内生变量、外生变量
·内生变量:具有一定概率分布的随机变量,由模型自身决定,其数值是求解模型的
结果。
·外生变量:是非随机变量,在模型体系之外决定,即在模型求解前已得到了数值。
内生变量和外生变量的划分是相对的,二者没有不可逾越的鸿沟,什么作内
生变量,什么作外生变量,常常是由模型设计者根据具体情况决定的。
2)被解释变量、解释变量
对于一个方程来说,等号左边的因变量称为被解释变量(Explained Variable),
等号右边的自变量称为解释变量(Explaining Variable)。
在模型中,一个方程的被解释变量可能是其它方程的解释变量。被解释变量一
定是模型的内生变量,但解释变量除包括外生变量之外,还可能包括一些内生变量。
3)滞后变量、前定变量
有些方程还使用内生变量的前期或前几期的数值作解释变量,我们称这样的变
量为滞后变量(Lagged Variable)。滞后变量如同外生变量一样,在模型求解之前为
已知的。故一般将外生变量和滞后变量合称为前定变量(Predetermined Variable)。
2、估计参数
(1)收集模型所含经济变量的数据
1)时间序列数据:某一经济变量在各个时期的数值按时间先后顺序排列所形成的数列
2)截面数据:在同一时点或时期上,不同统计单位的相同统计指标组成的数据
3)混合数据:是指兼有时间序列和截面数据两种成份的数据
4)虚拟变量数据:是经济计量学家为不能量化的定性变量而设定的
(2)方程识别条件的研究
(3)选择适当的经济计量方法估计模型参数
经经
济济
变变
量量
内生变量内生变量
前前
定定
变变
量量
滞后变量滞后变量
外外
生生
变变
量量
外生经济变量外生经济变量
政策变量政策变量
虚拟变量虚拟变量
3、验证模型
(1)经济理论准则
经济理论准则即根据经济理论所阐明的基本原理,以此对模型参数的符号和取值
范围进行检验;就是据经济理论对经济计量模型中参数的符号和取值范围施加约束。
假如参数实际估计值的符号和大小与经济理论分析不符,就应舍弃;除非有充足
理由使人们相信,在某种特定情况下经济理论的原理不成立。
(2)统计准则
统计准则是由统计理论决定的,统计准则的目的在于考察所求参数估计值的统计
可靠性。由于所求参数的估计值是根据经济计量模型中所含经济变量的样本观测值求
得的,便可以根据数理统计学的抽样理论中的几种检验,来确定参数估计值的精确度。
1)根据样本观测值计算的判定系数是一种统计量,它表示由解释变量说明被解释变量
的程度
2)参数估计量的标准差是参数估计量与参数真实值的离差的一种度量。参数估计量的
标准差愈大,则它的可靠性愈小,参数估计量的标准差愈小,则它的可靠性愈大。
3)应该着重指出,若根据经济理论准则,验证所求参数估计值具有“错误”符号或大小,
即使这些参数估计值在统计上是显著的,也应当舍弃这些参数的估计值。统计准则
对经济理论准则而言,它是第二位的或是次要的。
(3)经济计量准则
经济计量准则是由理论经济计量学决定的,其目的在于研究任何特定情况下,所
采用的经济计量方法是否违背了经济计量模型的假定。
经济计量准则作为二级检验,可视为统计准则的再检验。经济计量准则是确定所
求参数估计值的正确与否。这些准则有助于我们确定所求参数估计值是否具有合乎最
佳线性无偏误估计量的性质,即无偏性、一致性和有效性等等。
4、使用模型
(1)结构分析
就是利用已估计出参数值的模型,对所研究的经济系统变量之间的相互关系进行
分析,目的在于了解和解释有关经济变量的结构构成和结构变动的原因。
(2)预测未来
就是根据已估计出参数值的经济计量模型来推测内生变量在未来时期的数值,这
是经济计量分析的主要目的之一。
(3)规划政策
这是经济计量模型的最重要用途,也是它的最终目的。规划政策是由决策者从一
系列可供选择的政策方案中,挑选出一个最优政策方案予以执行。
一般的操作步骤是先据模型运算一个基本方案,然后改变外生变量(政策变量)
的取值,得到其它方案,对不同的政策方案的可能后果进行评价对比,从而做出选择,
因此又称政策评价或政策模拟。
第二章 一元线性回归模型
第一节 回归分析的相关概念
一、回归的含义
1、回归一词的原始含义:高尔顿普遍回归定律
2、现代回归概念:
回归分析就是研究被解释变量对解释变量的依赖关系,其目的就是通过解释变量的
已知或设定值,去估计或预测被解释变量的总体均值。
这种一个变量依赖于另一个或多个变量的事例在经济系统中普遍存在。回归分析就
是要研究这种变量之间的依存关系。
二、统计关系与确定性关系
三、回归分析与相关分析
与回归分析密切相联的是相关分析。相关分析主要测度两个变量之间的线性关联度,
相关系数就是用来测度两个变量之间的线性关联程度的。
在回归分析中,被解释变量 Y 被当作是随机变量,而解释变量 X 则被看作非随机
变量。而在相关分析中,我两者处于平等地位,不存在谁为解释变量,谁为被解释变量
的问题,两者均为随机变量。
第二节 一元线性回归模型
一、引例
条件平均值落在一根有正斜率的直线上。我们称这根直线叫做总体回归线,它是 Y
对 X 的回归。
总体回归线:就是当解释变量取给定值时,被解释变量的条件均值或期望值的轨迹。
二、总体回归函数
E(Y/Xi)= f (Xi)
总体回归函数,简称总体回归。它表明在给定 Xi 下 Y 的分布的总体均值与 Xi 有函
数关系,就是说它给出了 Y 的均值是怎样随 X 值的变化而变化的。
函数 f (Xi)采取什么函数形式,是一个需要解决的重要问题。在实际经济系统中,
我们不会得到总体的全部数据,因而就无法据已知数据确定总体回归函数的函数形式。
同时,对总体回归函数的形式只能据经济理论与经验去推断。
三、线性的含义
1、对变量为线性
对线性的第一种解释是指 Y 的条件期望是 Xi 的线性函数
2、对参数为线性
对线性的第二种解释是指 Y 的条件期望 是参数 的一个线性函数。它
可以是也可以不是变量的 X 的线性函数。
在本课中,主要考虑的是对参数为线性的回归模型,线性回归是指对参数β为线性
的一种回归(即参数只以它的 1 次方出现);对解释变量 X 则可以不是线性的。
四、总体回归函数的随机设定
1、 代表相同收入水平的所有家庭的平均消费支出。这是系统性或确定性成份。
2、ui 为随机或非系统性成份,代表所有可能影响 Y,但又未能包括到回归模型中来的被
忽略变量的代理变量。
五、随机误差项 u 的意义
1、理论的欠缺
2、数据的欠缺
)/( iXYE
)/( iXYE
2
3、核心变量与非核心变量
4、人类行为的内在随机性
5、节省原则,我们想保持一个尽可能简单的回归模型
六、样本回归函数
样本回归线,因抽样波动,它们都是总体回归线的一个近似。
回归分析中的主要目的就是根据样本回归函数:
来估计总体回归函数:
由于抽样的波动,我们根据样本回归函数估计出来的总体回归函数只能是一个近似
结果。因此怎样构造样本回归函数能使 尽可能接近真实的 就成为回归分析的核心
第三节 最小二乘估计
在回归分析中有很多种构造样本回归函数的方法,而最广泛使用的一种是普通最小二乘
法(method of ordinary least squares, 简记 OLS)
一、普通最小二乘法(OLS)
为使样本回归模型的估计值 尽可能地靠近观测值 Yi,我们就必须使用最小二乘准则,
使: 尽可能地小,其中, 是残差的平方。
上面得到的估计量 , 是从最小二乘原理演算而得的,因此称为最小二乘估计量。
二、经典线性回归模型
如果我们的目的仅仅是估计 和 ,那么普通最小二乘法就足够用了。但在回归
分析中,我们的目的不仅仅是获得 , 的估计值 , ,而是要对真实 和
做出推断。
1、假定 1:零均值假定
误差项 ui 的均值为零。对于给定的 X 值,随机误差项 ui 的均值或期望值为零,
即 ui 的条件均值为零,记为 E(ui / Xi )=0
这一假定的实际意义为:凡是模型中不显含的并因而归属于 ui 的因素,对 Y 的均
值都没有系统的影响,正的 ui 值抵消了负的 ui 值,它们对 Y 的平均影响为零。
2、假定 2:同方差假定
同方差性或 ui 的方差相等。对所有给定的 Xi,ui 的方差都是相同的。就是说,ui
的条件方差是恒定的,即:
其中,Var 表示方差。
该假定表示对应于不同 Xi 值,
ui 的方差都是某个等于 的正的常数。
3、假定 3:无自相关
各个误差项之间无自相关,ui 和 uj(i≠j)之间的相关为零。
i 和 j 为两次不同的观测,Cov 表示协方差,该假定还可以称为无序列相关或无自
相关假定。
iii eXY 21 ˆˆ
iii uXY 21
ĵ j
iŶ
22 )ˆ( iii YYe 221 )ˆˆ( ii XY 2ie
1̂ 2̂
1 2
1 2 1̂ 2̂ 1 2 1
2
2
2
)(
)]([)(
i
iii
uE
uEuEuVar
4、假定 4:与 X 不相关
ui 和 Xi 的协方差为零或 E(ui Xi)=0
该假定表示误差项 u 和解释变量 X 是不相关的。也就是说在总体回归模型中,X
和 u 对 Y 有各自的影响。但是,如果 X 和 u 是相关的,就不可能评估他们各自对 Y
的影响。
5、假定 5:无完全的多重共线性
对于多元线性回归模型,没有完全的多重共线性。就是说解释变量之间没有完全的
线性关系。
6、假定 6:无设定偏误
至此,我们完成了关于经典线性回归模型的基本假定的讨论。上述所有假定都是针对总
体回归模型而言的,而不是关于样本回归模型的。
三、最小二乘估计量的性质—— 高斯—马尔可夫定理
1、高斯—马尔可夫定理:
在给定经典线性回归模型的假定下,最小二乘估计量是最佳线性无偏估计量。
第一,它是线性的,即它是回归模型中的被解释变量 Y 的线性函数。
第二,它是无偏的,即它的均值或期望值 等于其真值 ,即
第三,它在所有这样的线性无偏估计量中具有最小方差。具有最小方差的无偏估计量叫
做有效估计量。
2、普通最小二乘估计量的性质说明
(1)线性性
(2)无偏性
虽然由不同的样本得到的参数估计值,可能大于或小于它们的真实值,但平均起
来等于它们的真实值。
在此要特别注意:无偏性是 的抽样分布的性质,并没有告诉我们从特定
样本中得到 的估计值是什么,我们希望得到较好的样本,那样就会得到接近于总
体参数 的估计值。但由于是随机获得样本,就有可能得到远离总体参数 的估计
值的较差样本。并且,我们无法判定所得到的样本是哪一种。
(3)方差最小
1)最小二乘估计的方差与标准误
普通最小二乘估计量 的方差 代表了估计参数
的估计精度。
·据方差定义,可知:
·据经典假定 ,且 E(uiuj)=0,i≠j
故:
)ˆ( jE j jjE )ˆ(
2
222 )]ˆ(Eˆ[E)ˆ(Var
2]ukΣ[E ii
22 )( iuE
12
ˆˆ 和
j
j j
21
ˆ,ˆ )ˆ(),ˆ( 21 VarVar 21 ˆ,ˆ
2
2
22
2
)(
)ˆ(
XX
kVar
i
i
)22
(
112121
222
2
2
2
2
1
2
1
nnnn
nn
uukkuukk
ukukukE
此此 式式 是是 依依 赖赖 于于 同同 方方 差差
和无序列相关假定的和无序列相关假定的。。
同理,同理, 1̂ 的方差的方差为为::
2
2
2
1 )(
)ˆ(
XXn
X
Var i
影响 估计精度的因素为随机误差项的方差 和 Xi 的总变异 。
随机误差项的方差 越大, 越大。因为,影响 Y 的不可观测的因素变异
越大,要准确地估计 就越难。
另一方面,自变量的变异越大,估计的精度就越高。因为 Xi 的变异性增时, 的
方差就会减小,就是说,解释变量的样本分布越分散,就越容易找出 E(Y / Xi) 和 Xi 间
的关系,即越容易准确估计 。
如果 Xi 没有什么变化,就难以准确地确定 E(Y/Xi)是如何随着 Xi 的变化而变化的。
当样本容量扩大时,Xi 的总变异也增加。因此较大的样本容量会产生较小的 的方差。
最小二乘估计的标准误为
2) 的最小二乘估计量
的无偏估计量: 区分误差与残差的概念。
在经典假定条件下,可以证明 。 的估计量为 ,我们
称其为回归的标准误。估计量 是对影响 Y 的不可观测因素的标准误的估计。就
是说,它估计了把 X 的影响排除之后 Y 的标准误。
3)可以证明,在满足经典假定条件下,普通最小二乘估计量 是所有线性无偏
估计量中方差最小的。
四、判定系数 R2—拟合优度的度量
1、
表示实测的 Y 值围绕其均值的总变异,称为总平方和(TSS)。
为来自解释变量的回归平方和,称为解释平方和(ESS)。
是围绕回归线的 Y 值的变异,称为残差平方和(RSS)。
TSS=ESS+RSS ()
这说明 Y 的观测值围绕其均值的总变异可分解为两部分,一部分来自回归线,而另
一部分则来自扰动项 ui 。
2̂ 2
2)( XX i
2 )ˆ( 2Var
2
2̂
2
2̂
22 )(
)ˆ(
XX
Se
i
2
2
1 )(
)ˆ(
XXn
X
Se
i
i
2
2
2
ˆ
2
2
n
ei
22 )ˆ( E 2ˆˆ
̂
21
ˆ,ˆ
222 )ˆ()( iii eYYYY
2)( YYi
2)ˆ( YYi
2ie
用 TSS 除式()的两边,得
2、定义 R2 为:
或
上述定义的 R2 称为判定系数,它是对回归线拟合优度的度量。就是说,R2 测度了
在 Y 的总变异中由回归模型解释的那个部分所占的比例或百分比。
据判定系数的定义可知:0≤R2≤1。
3、相关系数 R
与 R2 关系紧密但概念上与 R2 差异较大的一个参数是相关系数,它测度了两个变量
之间的关联度。 ,也可据 R 的定义计算
从定义可以看出-1≤R≤1。在回归分析中,R2 是一个比 R 更有意义的度量,因为 R2
告诉我们在被解释变量的变异中,由解释变量解释的部分占怎样一个比例,因而对一个
变量的变异在多大程度上决定另一个变量的变异,提供了一个总的度量,而 R 则没有这
种作用。
来自残差ie
YY
XX
总离差 )( YYi
来自回归 )ˆ( YYi
iX21 ˆˆ
iŶ
XXii
YYii
TSS
RSS
ESS
TSS
RSS
TSS
ESS
1
2
2
2
)(
1
YY
e
R
i
i
TSS
ESS
YY
YY
R
i
i
2
2
2
)(
)ˆ(
2RR
2
2
2
2
)()(
)ˆ(
YY
e
YY
YY
i
i
i
i
22)(
))((
YYXX
YYXX
R
ii
ii
第四节 置信区间与假设检验
一、置信区间
要判断 对 估计的可靠性,可设定区间 ,使其包含 的概率为
。即: ,其中, , 。如果存在这
样一个区间,就称设定的区间为 的置信区间。 称为置信系数或置信水平,而
称为显著性水平, 称为置信上限, 称为置信下限。
二、ui 正态性假定及普通最小二乘估计量 和 的性质
1、ui 正态性假定
在最小二乘估计式中, 是 Yi 的线性函数,从而也就是 ui 的线性函数。要推断
的置信区间,我们就必须获得 ui 的概率分布。在回归分析中,人们常常假定 ui 服从正
态分布,即每个 ui 都是正态分布的。
2、ui 正态假定下普通最小二乘估计量 和 的性质
(1)它们是无偏的。
(2)它们有最小方差。
(3)它们是一致估计量。就是说,随着样本容量无限地增大,估计量将收敛到它们的真值。
(4) 服从正态分布
(5) 服从正态分布
(6) 服从χ2(n-2)分布
(7)Yi 服从正态分布
三、回归系数 和 的置信区间
是显著性水平为 ,自由度为 n-2 的 t 分布的 t 值,通常称为 显著水
平的临界值。
可 以 看 出 , , 的 置 信 区 间 的 宽 度 与 估 计 量 , 的 标 准 误 ,
成正比例。标准误越大,置信区间越宽。就是说,估计量的标准误越大,对未知
参数的真值进行估计的可靠性越差。因此,估计量的标准误也被用于测度估计量的精度,
2̂ 2 ]ˆ,ˆ[ 22 2
1 1)ˆˆ( 222P 10 0
2 1
2ˆ 2ˆ
21
ˆ,ˆ 2̂
ĵ j
21
ˆ,ˆ 2̂
1̂
2̂
22 /ˆ)2( n
1)]ˆ(ˆ)ˆ(ˆ[ 22/2222/2 SetSetP
1)]ˆ(ˆ)ˆ(ˆ[ 12/1112/1 SetSetP
2/t 2/ 2/
1 2 1̂ 2̂ )ˆ( 1Se
)ˆ( 2Se
21
0:1 jH
)ˆ(
ˆ
j
j
Se
t
估计值的标准误
参数估计值
2/t
0:0 jH
)(2/ kntt 0:0 jH 0:1 jH
就是说用估计量去测定真实的总体值有多精确。
95%的置信区间意义:在重复抽样中,每 100 个类似区间有 95 个包含真实的均值;
四、假设检验
1、检验回归系数的显著性——t 检验
H0:虚拟假设或原假设
H1:备择假设
一般地,可假设为:原假设 H0: ;备择假设 H1:
我们使用了 t 分布对回归系数进行假设检验,因此,该检验程序称为 t 检验。如果
一个统计量的值落在拒绝域上,我们称该统计量是统计上显著的。此时,我们拒绝原假
设;如果一个统计量的值落在接受域上,我们称该统计量是统计上不显著的。此时,我
们接受原假设。
t 检验决策规则:
(1)设定假设
原假设:
备择假设:
(2)计算原假设 条件下的 t 统计量
(3)在给定显著性水平 的条件下,查 t 分布表得临界值
(4)判断
如果 ,则拒绝原假设 ,接受备择假设:
如果 ,则不拒绝原假设
2、t 检验的相关问题
(1)显著性水平
临界值 的大小取决于显著性水平 ,即犯第 I 类错误的概率(错误地拒绝
了真实的原假设的概率)。 越小临界值 越大,犯第 I 类错误的概率越小。
(2)实际显著水平——P 值
一般经济计量分析中,都使用事先给定的显著性水平。当我们对给定的样本,
算出一个检验统计量(如 t 统计量)的值时,就可据相应的统计表,获知得到等于
或大于该统计量的概率,我们称其为 P 值。
P 值是假设检验中的实际显著性水平或犯第Ⅰ类错误的实际概率。更确切地讲,
P 值是一个虚拟假设被拒绝的最低显著性水平。
(3)“2 倍 t ”和“5%P 值”简算法
当样本容量 n 较大时(n≥30),t 值只要大于 ,我们就将回归系数判定为显
著的。当进行多元回归时回归系数较多,利用这种方法非常方便,不需查 t 分布表。
同样,在 5%的显著水平下,无论样本容量多大,当 P 值小于 5%时,即 P<
时,我们就可判定回归系数是显著的。
*
2
*
2
0:0 jH
)(2/ knt
)(2/ kntt 0:0 jH
2/t
如果显著性水平不是 5%或样本较小,则回归系数的显著性检验的临界值就需
据 t 分布表来确定,而不能使用 2 或 5%做临界水平进行 t 检验。
第五节 回归分析结果的报告与评价
一、回归分析结果的报告
二、回归分析结果的评价
第六节 回归分析的应用—预测
一、预测概述
二、均值预测
三、个值预测
第三章 多元线性回归模型
第一节 多元回归模型的定义
一、含有两个解释变量的多元回归模型
其中,Yi 是被解释变量,X2i 和 X3i 是解释变量,ui 是随机干扰项,i 指第 i 项观测。
表面上看, 代表 X2 和 X3 均取 0 时的 Y 的均值, 但这仅仅是一种机械的解释,实际上
是指所有未包含到模型中来的变量对 Y 的平均影响。
系数 和 为偏回归系数, 表示在保持 X3 不变的条件下,X2 每变化一个单位时,
Y 的均值的变化。
经典线性回归模型的假定条件如下:
假定 1:ui 零均值假定 E(ui|X2i, X3i)=0 对每个 i
假定 2:ui 无序列相关假定 Cov(ui, uj)=0 i≠j
假定 3:ui 同方差假定
假定 4:ui 与每一个解释变量无关
假定 5:无设定偏误
假定 6:解释变量 X 之间无完全的共线性
无共线性的含义是,不存在一组不全为零的数 和 使得
第二节 最小二乘估计
一、最小二乘估计量
()
如果使用普通最小二乘法而得到了式()的样本回归函数,我们就称其为:将
iiii uXXY 33221
1
1
2 3 2
2)( iuVar
0),(),( 32 iiii XuCovXuCov
2 3 03322 ii XX
kikiii XXXY ˆˆˆˆˆ 33221
TSS
RSS
TSS
ESS
R 12
2R
ĵ
ĵ
ĵ
Y 对 X1,X2,…,Xk 进行了回归。
我们的目的就是得到式()中的估计值 ,使残差平方和最小。
二、判定系数 R2 及调整的判定系数
1、判定系数依然为解释平方和 ESS 与总平方和 TSS 的比值,即:
判定系数 R2 的一个重要性质是:在回归模型中增加一个解释变量后,它不会减少,
而且通常会增大。即 R2 是回归模型中解释变量个数的非减函数。
所以,使用 R2 来判断具有相同被解释变量 Y 和不同个数解释变量 X 的回归模型
的优劣时就很不适当。此时,R2 不能用于比较两个回归方程的拟合优度。
2、为了消除解释变量个数对判定系数 R2 的影响,需使用调整后的判定系数:
所谓调整,就是指 的计算式中的 和 都用它们的自由度
(n-k)和(n-1)去除。
3、调整的判定系数 和 R2 的关系为
三、最小二乘估计量的期望值和方差
1、偏回归系数 的期望值
2、 的方差和标准误
的期望值度量了 的集中趋势。而 的方差则度量了 围绕其期望值的集中
程度,也就是度量了 的估计精度。
(1)在满足经典假定的条件下,偏斜率系数估计量的方差为
(2)将 开方,则得 的标准误:
3、 的无偏估计量为
四、最小二乘估计量的性质
高斯—马尔可夫定理:在多元线性回归模型的经典假定下,普通最小二乘估计量
分别是 的最佳线性无偏估计量。就是说,普通最小二乘估计
量 ,是所有线性无偏估计量中方差最小的。
k ˆ,,ˆ,ˆ 21
)1/()(
)/(
1 2
2
2
nYY
kne
R
i
i
kn
n
RR
1
)1(1 22
)ˆ( jVar ĵ
k ˆ,ˆ,ˆ ,21 k ,,, 21
k ˆ,ˆ,ˆ ,21
2R
式中,式中,kk 为包括截距项在内的模型中的参数个数。为包括截距项在内的模型中的参数个数。
在二元回归模型中在二元回归模型中kk==33,在一元回归模型中,在一元回归模型中kk==22。。
2
i
e 2)( YYi
2R
ĵ
ĵ ĵ ĵ
式中,
n
i
jijj XXSST
1
2)( 为 Xj 的总样本变异;
j=2, 3, …, k; 2jR 为将 Xj 对所有其它解释变量(包
括一个截距项)进行回归所得到的判定系数 R2。
)1(
)ˆ( 2
2
jj
j RSST
Var
)1(
)ˆ( 2
2
jj
j RSST
Se
2
kn
RSS
kn
e
n
i
i
1
2
2̂
第三节 多元线性回归模型的检验
一、偏回归系数的显著性检验—t 检验
多元回归中的 t 检验决策规则与一元回归相同。
二、回归模型的整体显著性检验—F 检验
1、多元回归模型的总体显著性就是对原假设 ,进行检验。
2、检验的目的就是判断被解释变量 Y 是否与 X2, X3, …, Xk 在整体上有线性关系。
3、在一元回归模型中,只有一个解释变量,对个别回归系数 的 t 检验就是对回归模型
的整体显著性检验。而在多元回归模型中,可以证明,对偏回归系数的逐一显著性检验
并不能代替对回归模型的整体显著性检验。
4、对于多元线性回归模型
在 ui 服从正态分布和原假设 条件下,变量
服从自由度为(k-1)和(n-k)的F分布,即
5、若原假设是真实的,则表明 Y 与 X2,X3,…,Xk 整体上无线性关系,Y 的变异全部
来源于干扰项 ui ,F 统计量的值较小。
6、F 检验决策规则
(1)设定假设
原假设
备择假设 不全为 0,j =2, 3, …, k
(2)计算 F 统计量
(3)在给定显著性水平 下,查F分布表可得
(4)判断
如果 ,我们就拒绝 H0,接受备择假设 H1;
如果 ,则不拒绝 H0。
7、F 统计量与判定系数 R2 的关系:
统计量与 R2 是同向变化的。F 检验即是对回归模型整体显著性的检验,也是对判
0: 320 kH
2
ikikiii uXXXY 33221
),1( knkF
),1( knkFF
)kn,k(FF 1
0: 320 kH
)/(
)1/(
)/(
)1/(
knRSS
kESS
F
参数个数样本容量残差平方和
参数个数解释平方和
),1(~
)/(
)1/(
knkF
knRSS
kESS
F
0: 320 kH
jH :1
)/(
)1/(
knRSS
kESS
F
)/()1(
)1/(
2
2
knR
kR
F
定系数 R2 的一个显著性检验。
第四节 回归模型的函数形式
讨论如下四种形式的回归模型。
1.对数线性模型
2.半对数模型
3.双曲线模型
4.多项式模型
一、对数线性模型
1、 ()
该模型中 LnYi 对 , 是线性关系,LnYi 对 LnXi 也是线性关系。该模型可称
为对数—对数线性模型,简称为对数线性模型。
令 , 则式()可表达为:
2、对数线性模型的优点在于:
(1)对数线性模型中斜率系数度量了一个变量(Y)对另一个变量(X)的弹性。
(2)斜率系数与变量 X,Y 的测量单位无关,其结果值与 X,Y 的测量单位无关。
(3)当 Y > 0 时,使用对数形式 LnY 比使用水平值 Y 作为被解释变量的模型更接近经典
线性模型。大于零的变量,其条件分布常常是有异方差性或偏态性;取对数后,虽然
不能消除这两方面的问题,但可大大弱化这两方面的问题。
(4)取对数后会缩小变量的取值范围。使估计值对被解释变量或解释变量的异常值不敏感。
3、对数线性模型的经验法则
对于何时取对数并不存在一个固定模式,但有一些经验法则。
(1)对于大于 0 的数量变量,通常均可取对数。例如,需求量、价格、工资等。
(2)以年度量的变量,如受教育年数、工龄、年龄等则通常以其原有形式出现。
(3)以比例或百分比度量的变量,如失业率、通货膨胀率、犯罪率等变量即可使用原形式
也可使用对数形式。但两种使用方法中参数的意义不同。
(4)使用对数时,变量不能取 0 或负值。
二、半对数模型
1、线性到对数模型:
被解释变量为对数形式,解释变量为线性形式,称为线性到对数的半对数模型。
斜率系数的含义为:解释变量 X 绝对量改变一个单位时,被解释变量 Y 的相对改变量。
即
2、对数到线性模型:
测度解释变量的相对改变量对被解释变量的绝对改变量的影响,我们就需要使用解
释变量是对数形式,被解释变量是线性形式的回归模型。
斜率系数的含义为解释变量 X 相对量改变 1 个单位时,被解释变量 Y 的绝对变化量。
iii uLnXLnY 2
iii uXY
'
2
'
2
ii LnYY
'
ii LnXX
'
ttt uXLnY 21
X
YY
X
Y
/
2
的绝对改变量
的相对改变量
ttt uLnXY 21
XX
Y
X
Y
/2
的相对变化量
的绝对变化量
XXY /2
当 ==1%时, ,即当解释变量 X 增加 1%,被解释变量 Y
增加的绝对量为 。
三、倒数模型
当解释变量以倒数形式出现时的模型称为倒数模型或双曲线模型。
四、多项式模型
称为二次函数或二次多项式。
称为三次函数或三次多项式。
第五节 多元回归模型的设定偏误
一、正确的多元回归模型
1、模型中只包含关键变量。就是说所选定的模型是最简便的。
模型是对现实经济系统的抽象。一个模型应尽量简单,我们应在设定模型时只引进
抓住现实本质的关键变量,把影响微弱的变量放到干扰项 u 中去。
2、模型参数可识别。对于给定的一组数据,估计的参数具有唯一值。
3、较高的拟合优度。
4、估计的回归系数与经济理论一致。
二、多元回归模型的设定偏误主要包括以下三种:
1、回归模型中包含了无关解释变量
后果:1)有误模型的参数最小二乘估计量均无偏
2) 的方差无必要地增大,降低估计的精度。
2、回归模型中遗漏了重要解释变量
后果:1) 有偏误,而且不论样本多大,偏误都不会消失。
2) 不能正确地估计
3)对于所估计的参数的统计显著性,容易导出错误的结论。
3、回归模型中的函数形式设定偏误
函数形式的设定偏误有多种多样,我们在选择模型的函数形式时必须谨慎小心,而
这又是一个探索和改进的过程,我们只能通过不断的尝试来找到最恰当的函数形式。
t
t
t uX
Y
1
21
uXXY 2210
uXXXY 33
2
210
XX / Y
2
ĵ
ĵ
2
第四章 违背经典假定的回归模型
在这一章里将重点讨论模型中出现了违背经典假定的几种情况时的诊断及解决办法。
·异方差: 在截面数据时重点关注异方差!
·序列相关
·多重共线性
第一节 异方差性
一、什么是异方差:
当 时
异方差性:在线性模型的基本假定中,关于方差不变的假定不成立,其他假定不变
的情形称为异方差性。
实际问题是非常错综复杂的,因而在建立实际问题的回归分析模型时,经常会出现
某一因素或一些因素随着解释变量观测值的变化而对被解释变量产生不同的影响,导致
随机误差项产生不同方差。
引起异方差的原因还有很多,如模型中省略了重要的解释变量,模型的函数形式设
定不准确等都容易产生异方差。一般情况下样本数据为截面数据时容易产生异方差性。
二、异方差有什么后果
当模型中存在异方差时,参数 的方差将大于在同方差条件下的方差。如果用普通
最小二乘法估计参数,将出现低估 的真实方差的情况。进一步将导致回归系数的检验
值高估,可能造成本来不显著的某些回归系数变成显著。这将给回归方程的应用效果带
来一些影响。
当模型中存在异方差时,普通最小二乘估计存在以下问题:
1、参数估计量虽是无偏的,但不是最小方差线性无偏估计
根据经典线性回归中关于参数估计量的无偏性和有效性的证明过程,可以看出,当
线性回归模型出现异方差性时,其普通最小二乘法参数估计量仍然具有无偏性,但不具
有有效性。
而且,在大样本情况下,参数估计量也不具有渐近有效性,这就是说参数估计量不
具有一致性。
2、参数的显著性检验失效
在经典线性回归模型中,关于变量的显著性检验构造了 t 统计量,在该统计量中包
含有随机误差项共同的方差 ,并且该 t 统计量服从自由度为(n-k)的 t 分布。如果出
现了异方差性,t 检验就失去意义。采用其他检验也是如此。
3、回归方程的应用效果极不理想,或者说模型的预测失效。
一方面,由于上述后果,使得模型不具有良好的统计性质;另一方面,在预测值的
置信区间中也包含有随机误差项共同的方差 。所以,当模型出现异方差性时,它的
( ) ( )i jVar u Var u
2
u
2
u
ji
̂
̂
02
预测功能失效。
三、异方差怎么检验
1、残差图分析法:残差图分析法是一种直观、方便的分析方法。
一般情况下,当回归模型满足所有假定时,以 ei 为纵坐标的残差图上的 n 个点散
布应是随机的、无任何规律。
2、戈德菲尔德-匡特检验(样本分段比检验)
首先将样本按某个解释变量的大小顺序排列,并将样本从中间截成两段;然后各段
分别用普通最小二乘法拟合回归模型,并分别计算各段的残差平方和。
在给定的显著性水平 之下,若此统计量F>临界值 则可认为
有异方差的存在。
3、戈里瑟(Glejser)检验
用残差绝对值 对每个解释变量建立各种回归模型,如
等等,并检验回归系数 是否为0。
设原假设为 ,备择假设为 ,应用 t 检验判断,如果 ,
则有异方差。这种方法不仅能检验出模型中存在的异方差,而且把异方差的表现形式找
出来便于后面改进时使用。
4、怀特检验
用残差平方 对所有解释变量及其平方项和交叉乘积项
进行线性回归,并检验各回归系数是否为0。
怀特检验步骤如下:
(1)使用普通最小二乘法估计模型,并获得残差 ei
(2)做如下的辅助回归:
就是将残差 ei 的平方 对所有的解释变量及解释变量的平方与交叉积回归,
求这个辅助回归的判定系数 R2。
(3)辅助回归的 R2 乘以样本容量 n,渐近地服从自由度为辅助回归中解释变量个数 r
(不包括常数项)的 x2 分布,即
(4)如果 大于选定显著性水平的临界 值,则有异方差。如果不大于临界 ,
则无异方差,即在辅助回归中 。
软件中看后面的伴随概率(P 值),P 值<5% 则显著,→有异方差。
2
1 1 1
2
2 2 2
ˆ /( )
ˆ /( )
RSS n k
F
RSS n k
1 2,F n k n k
2
2
ie
该统计量服从自由度为
(n1-k)和(n2-k)的F分布。
ie
1 2i i ie X v
1 2i i ie X v
1 2
1
i i
i
e v
X
0: 20 H 0: 21 H
2
ie
2 2
2 3 2 3 2 3, , , , , , ,X X X X X X
iiiiiiii vXXXXXXe 326
2
35
2
2433221
2
)(~ 22 rRn
2Rn 2
2
065432
四、异方差怎么处理
加权最小二乘法
通过加权变换使原模型中的异方差误差项转换为同方差误差项,使加权变换后的模型满
足最小二乘法的假定,从而使用普通最小二乘法估计参数,这种方法称为加权最小二乘法。
1、 已知时
如果每个观察值的误差项方差 是已知的,使用 为权数,对模型()
作如下变换: ()
由于
通过加权变换使误差项变成同方差了。
2、 未知时
一般情况下,我们可根据误差与解释变量或被解释变量的关系来确定变换的权数。
一般我们先采用戈里瑟检验方法确定 ei 与 Xi 之间的关系。
(1)如 之间为线性关系,选择 为权数
(2)如 之间为线性关系,选择 1/Xi 为权数
和 1/Xi 都可用时,看两个回归的 R2 或 ,越大(拟合越好)的选择它。
第二节 序列相关
一、什么是序列相关
则我们称随机误差项之间存在着序列相关现象,也称为自相关。
产生原因通常有以下几个方面:
1.遗漏了重要的解释变量
在回归分析的建模过程中,如果忽略了一个或几个重要的解释变量,而这些
遗漏的重要变量随着时间的推移而呈现出相关的趋势,回归模型中的误差项就会
具有明显的相关趋势,这是因为误差项包含了遗漏的变量。
2.经济变量的滞后性
在实际问题的研究中,许多经济变量都会产生滞后影响,出现这种现象的原
因是由于心理、技术及制度上等等的原因,消费者不轻易改变他们的消费习惯。
3.回归函数形式的设定错误也可能引起序列相关
4.蛛网现象(Cobweb Phenomenon)
是微观经济学中的一个概念。它表示某种商品的供给量因受前一期价格影响
而表现出来的某种规律性,即呈蛛网状收敛或发散于供需的均衡点。由于规律性
( , ) 0i jCov u u
iX
1
iX
1 2R
2
i
2
i i/1
1
2
i i i
i i i i
Y X u
niuXY ii ,,2,1,21
2
2 2
1 1
( ) ( ) 1i i i
i i i
u
Var Var u
2
i
ii Xe 与
ii Xe 与
的作用,使得所用回归模型的误差项不再是随机的了,而产生了某种自相关。
5.对原始数据加工整理。
二、序列相关有什么后果
当一个线性回归模型的随机误差项存在序列相关时,就违背了线性回归方程的经典
假定,如果仍然直接用普通最小二乘法估计未知参数,将会产生严重后果,一般情况下
序列相关产生的后果与异方差类似。
1.参数的估计量是无偏的,但不是有效的。
2.可能严重低估误差项的方差。
3.常用的F 检验和 t 检验失效。
4.如果不加处理地运用普通最小二乘法估计模型参数,回归参数的置信区间和利用回归模
型进行预测的结果会存在较大的误差。
三、序列相关怎么检验
1、图示检验法
2、DW 检验
需要注意的是,DW 检验尽管有着广泛的应用,但也有明显的缺点和局限性。
1)DW 检验有两个不能确定的区域,一旦 DW 值落在这两个区域,就无法判断。这时,只
有增大样本容量或选取其他方法。
2)DW 统计量的上、下界表要求 n≥15,这是因为样本如果再小,利用残差就很难对自相
关的存在性做出比较正确的诊断。
3)DW 检验不适应随机误差项具有高阶序列相关的检验。
4)只适用于有常数项的回归模型并且解释变量中不能含滞后的被解释变量。
四、序列相关怎么处理
当一个回归模型存在序列相关性时,首先要查明序列相关产生的原因。如果是回归模型
选用不当,则应改用适当的回归模型;如果是缺少重要的解释变量,则应增加该解释变量;
如果以上两种方法都不能消除序列相关,则需采用方法处理。本书在此介绍几种常用的方法。
44
(2,4)(2,4)
22
(0,2)(0,2)
00
-1-1
(-1,0)(-1,0)
00
(0,1)(0,1)
11
DWDŴ
DW 值与 ̂ 的值的对应关
系
DW 检验决策规则
DW 检验示意图
n
t
t
n
t
tt
e
ee
DW
1
2
2
2
1)(
)ˆ1(2 DW
jVIF
jVIF
差分法:差分法是将原模型变换为差分模型,分为一阶差分法和广义差分法。
广义差分法可以克服所有类型的序列相关带来的问题
第三节 多重共线性
一、什么是多重共线性
1、 完全多重共线性
如果存在不全为 0 的 k 个数 ,使得
则称解释变量 之间存在完全多重共性线。
2、 近似多重共线性
3、多重共线性产生的背景和原因
在现实的生活当中,解释变量之间完全不相关的情形是非常少见的,客观地说,某
一经济现象,涉及到多个影响因素时,这些影响因素之间大都有一定的相关性。
二、多重共线性有什么后果
最小二乘估计量是所有线性无偏估计量中方差最小的,但这并不意味着最小二乘估
计量的方差一定是很小的。此时,我们无法正确判断解释变量对被解释变量的影响程度,
甚至出现估计值的经济意义无法解释。这样的情况在进行实际问题的回归分析时会经常
碰到。
严重多重共线性情形的后果
1、多重共线性不改变参数估计量的无偏性。事实上,对于严重多重共线性,参数估计
量仍为最优的估计。
2、多重共线性使参数的最小二乘估计的方差很大,即估计值的精度很低。
3、各个回归系数的值很难精确估计,甚至可能出现符号错误的现象。
4、回归系数对样本数据的微小变化变得非常敏感。
三、多重共线性怎么检验
1、方差扩大因子法
方差扩大因子:
由此可见, 的大小反映了解释变量之间是否存在多重共线性,因此可由它来度量
多重共线性的严重程度。经验表明,当 ≥10 时,就说明解释变量 Xj 与其余解释变量
之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计值。
2、直观判定法
(1)R2 较高,而显著 t 统计量较少时,可能存在多重共线性问题。
(2)当增加或剔除一个解释变量,或者改变一个观测值时,回归系数的估计值发生较大变
化,我们就认为回归方程存在严重的多重共线性。
(3)一些重要的解释变量在回归方程中没有通过显著性检验时,可初步判断存在着严重的
多重共线性。
(4)有些解释变量的回归系数所带符号与定性分析结果违背时,可能存在多重共线性问题。
(5)解释变量间的相关系数较大时,可能会出现多重共线性问题。
)1(
ˆ
2
2
jj
j RSST
Var
21
1
j
j R
VIF
kccc ,,, 21 niXcXcXc kikii ,,2,1,02211
kXXX ,,, 21
niXcXcXc kikii ,,2,1,02211
1VIF
四、多重共线性怎么处理
1、使用非样本先验信息
如果据先前的经济计量分析或经济理论分析已知模型中的共线性解释变量的参数
间具有某种线性关系,则可利用此条件消除解释变量间的多重共线性。
2、横截面与时间序列数据并用
就是先利用横截面数据估计某一参数,将结果代入原方程后,再利用时间序列数
据估计另一参数。这种方法假定横截面数据估计的收入弹性与时间序列数据估计的收入
弹性是相等的。
3、剔除一些不重要的共线性解释变量
通常在经济问题的建模中,由于我们认识水平的局限,容易考虑过多的解释变量。
当涉及解释变量较多时,大多数回归方程都受到多重共线性的影响。这时,最常用的办
法是首先作解释变量的筛选,舍去一些解释变量。这是无可奈何的最后伤害性外科手段。
当回归方程中的全部解释变量都通过显著性检验后,如果有几个变量的方差扩大
因子大于 10,我们可把方差扩大因子最大者所对应的解释变量首先剔除,再重新建立回
归方程,如果仍然存在严重的多重共线性,则再继续剔除方差扩大因子最大者所对应的
解释变量,直到回归方程中不再存在严重的多重共线性为止。
4、增大样本容量
建立一个实际经济问题的回归模型,如果所收集的样本数据太少,也容易产生多
重共线性。从本质上讲,多重共线性是样本现象。
5、使用有偏估计
采用有偏估计为代价来提高估计量稳定性的方法,如岭回归法、主成分法、偏最
小二乘法等。
To be continued…