第三章
古典回归模型
(Classical Regression Model)
主要内容
古典模型假定
估计方法
推断
OLS估计量的性质
大样本的渐近性质
古典回归模型
当回归模型满足古典假定时,我们称其为古典回归模型。
一元回归模型
Yi = b0 + b1Xi +ei
多元回归模型
Yi = b0 + b1X1i + b2X2i + . . .+ bKXKi +ei
假定1:参数线性函数
古典多元回归模型的可以表示为:
一般形式:Y = b0 + b1X1 + b2X2 + . . .+ bKXK +e
离差形式:y = b1x1 + b2x2 + . . .+ bKxK +e
矩阵形式:Y = X b+ e
在矩阵形式中,Xi是矩阵X 中的一列。
需要注意的是,在计量经济学中,“线性”指的是估计参数可以表达为样本观察值和误差项的线性函数,而并不要求回归方程中变量之间的关系为线性的。
例:CD函数
对该函数两边取对数得到:LnY=0+1LnX1+2LnX2+e
即: Y*=0+1X1*+2X2*+e
比较:
不同数学函数的性质
-β1(1/XY)
-β1(1/X2)
Y=β0+β1(1/X)
倒数
β1(1/Y)
β1(1/X)
Y=β0+β1lnX
右对数
β1(X)
β1(Y)
lnY=β0+β1X
左对数
β1
β1(Y/X)
lnY=β0+β1lnX
双对数
β1(Y/X)
β1
Y=β0+β1X
线性
弹性(dY/dX)(X/Y)
斜率(dY/dX)
数学方程
模型
使用不同函数形式的经验准则
经常使用对数形式的变量
必须为正值的价值指标(GDP,价格…)
数量非常大的统计指标
数量级变化大的统计指标(我国外贸、投资…)
按时间呈现接近等比变化的时间序列
经常使用原始形式(level form)的变量
按时间呈现等差变化的时间序列(时间趋势变量)
比例(一、二、三产业占GDP比例,恩格尔系数…)
假定2:矩阵X是满秩的
X是一个n K 矩阵,X的秩应该等于K;
该假定也被称做识别条件。只有当识别条件得到满足时,我们才能够得到参数估计结果。
该假定要求,至少对于K个观察值而言,解释变量之间不应存在完全的线性关系。当不满足这一条件时,我们遇到奇异矩阵。
一元回归模型不存在违反该假定的情况。
在遇到此问题时,EVIEWS软件给出错误信息:“Near Singular matrix”并停止运算。
假定3:解释变量X独立于误差项
根据这一假定,对X的观察结果不含有与挠动项期望值有关的信息,用公式表达为:
假定3:解释变量X独立于误差项
条件均值为零意味着,无条件均值也等于零。
假定3还意味着
假定4:球形扰动
(Spherical Disturbances)
假定4与挠动项的方差和协方差有关,即:
利用方差分解公式可以得到:
当挠动项同时满足方差相同和无序列相关两个假定时,我们将其称做球形扰动。
假定5:解释变量是非随机的
(Nonstochastic regressors)
古典模型要求X是一个n K 非随机矩阵,即不含有随机误差;
在应用工作中可以放松这一假定,只要求当X为随机变量时,其统计分布独立于误差项e。
假定6:误差服从正态分布
假定误差服从以零为均值和具有不变方差的正态分布,为分析计算提供了很大便利。这涉及到假定3和4。
最小二乘法估计
式中:
b是理论模型的未知参数向量
是b的估计量
e是理论模型的随机挠动项
u是估计模型的残差项
用方程形式,残差平方和可以表示为
最小二乘法估计
(一元回归模型)
一元回归模型是只有一个自变量的回归模型:Yi=a+bXi+ ei
假定Y取决于X,这种因果关系认识通常来自于相关理论,而不是依据统计检验结果。
由于存在着误差项ei,Y与X之间不存在一一对应关系,即Yi是一个随机变量。
ei反映所有没有被包括进方程、但影响因变量的其他变量的综合作用。
最小二乘法估计
(一元回归模型)
在应用研究中很少会使用到一元回归模型。介绍该模型的主要目的是说明OLS的性质、算法及相应的统计检验方法。
然而,也存在一些特殊的应用,例如:
凯恩斯宏观消费模型Ct=a+bYt+et
恩格尔曲线FSi=a+bLnYi+ei
增长曲线LnYt=a+bTt+et
最小二乘法估计
(一元回归模型)
最小二乘法是依据使残差平方和最小的准则得到系数估计的方法。从数学上可以知道,这一问题可以通过对每个未知参数求偏导数并令其为零后求解得出。
先考虑一元回归模型Y= 0 + 1X + e
将其表示成离差形式有:
残差平方和为
最小二乘法估计
(一元回归模型)
利用求极值的方法可以得到回归方程斜率系数的计算公式:
权重k具有以下性质:
l
l
最小二乘法估计
(一元回归模型)
常数项0的估计值可以用下式计算得到:
由公式可以看出,OLS估计参数为随机变量Y的线性函数,因而也是随机变量,并且具有相同的误差分布。
估计量 具有以下性质:
无偏性
最小二乘法估计
(一元回归模型)
最小方差(取决于总体方差、样本方差和样本容量)
估计参数 的方差为:
注意Var( )=E( - )2
因而有
最小二乘法估计
(一元回归模型)
对1的统计检验
虚假设H0:1=0(一般形式1=b,b为任意常数)
备择假设H0:10(其他形式如1 b,1b等,取决于研究工作需要。)
从前面给出的方差可以得到 的标准差s1,相应的t统计值为
利用t统计表可以查出相应的概率,然后与选定的显著性水平对比,确定是否接受H0。
利用t统计值还可以计算出1的置信区间。
最小二乘法估计
(多元回归模型)
考虑多元回归模型
Y=b0 + b1x1 +…+ bkxk+e
此时有:
b0 仍为模型的常数项
b1 到bk 均为斜率系数
e 仍是模型的误差项
继续假定条件均值为零,即E(e|x1,x2, …,xk) = 0
OLS估计方法仍试图使残差平方和最小化,此时有k+1个一阶条件。
最小二乘法估计
(多元回归模型)
以包括两个解释变量的模型为例,对未知参数求一阶导数得到:
最小二乘法估计
(多元回归模型)
由三个方程可以解出:
这三个方程构成求解三个未知参数的联立线性方程组,该方程组被称为正规方程(Normal equations)。
最小二乘法估计
(多元回归模型)
将上述关系表示成矩阵形式得到:
即
思考:如果X1=2X2会出现什么情况?
最小二乘法估计
(多元回归模型)
利用矩阵形式可以将最小二乘法估计表示为:
注意
最小二乘法估计
(多元回归模型)
上式实现最小化的必要条件是:
得出上述结果需要利用以下矩阵算法性质:
求解未知系数的最小二乘法正态方程为:
如果 存在逆矩阵(这是满秩假定所要求的),那么其解为:
最小二乘法估计
(多元回归模型)
如果将解释变量视作是非随机的,那么将X作为常数矩阵,可以得知OLS估计量是线性无偏的:
最小二乘法估计
(多元回归模型)
估计量的方差为:
高斯-马尔可夫定理
(Gauss-Markov Theorem)
不管X是否是随机的,对于古典线性回归模型,最小二乘法估计量 是真实模型参数 的最小方差线性无偏估计量(BLUE, Best linear unbiased estimate)。
对多元回归方程估计结果的解释
多元回归方程估计结果可以表达为
由方程可知:
如果使x2, …,xk保持不变,那么有
即每个估计的都反映出当其他因素不变时,该因素产生的边际影响效果。
思考题:
考虑以下的二次函数
y = b0 + b1x + b2x2 + u
此时能否说b1反映了x变化一单位对y产生的影响?
类似情况还有
y = b0 + b1x1 + b2x2 +b3(x1x2) + u
此时有y/x1=b1 +b3x2
y = b0 + b1Ln(x) + b2x + u
此时有y/x=b1x-1 +b2
Ln(y) = b0 + b1Ln(x) + b2x + u
此时有Lny/Lnx=b1 +b2x
“控制部分因素”
考虑有两个解释变量的模型:
此时有:
式中 为回归模型 的残差
上述情况反映出,做 y 对x1和x2的回归所得到的x1的系数与做y对 的回归得到的系数相同。
这意味着,只有xi1中那些与xi2不相关的部分与yi 相关,因而我们是在“消除了”x2的影响条件下估计得出x1 对y的影响效果。
一元回归与多元回归估计结果
考虑以下两个回归模型
一元
二元
一般而言, 除非有:
(即x2不具有对y的“偏效果”)
Cov(x1,x2)=0
正交回归定理
(Theorem: Orthogonal Regression)
如果多元回归方程中的解释变量互不相关(即正交),那么多元回归得到的斜率系数等同于对每个解释变量做一元回归得到的斜率系数。
改变变量的定义
仅改变因变量y的数量级会导致所有估计系数及其标准差发生等比例变化,因而估计参数的统计显著性和解释均不受影响。
改变某个自变量x的数量级仅使该变量的估计系数和标准差发生反比例变化,其余变量的系数则不受影响,因而所有估计参数的统计显著性和解释不会受到影响。
无论是对因变量y还是对某个自变量x加上一个常数,仅模型的常数项及其标准差会发生变化,所有其余估计参数的统计显著性和解释不会受到影响。
多元回归的拟合优度
多元回归方程的拟合优度同样可以用R2表示
拟合优度也可以表示为因变量的实际值与拟合值的相关系数,即:
多元回归的拟合优度
在利用R2评价模型拟合优劣时需要注意以下问题:
模型设定必须是正确的;
R2是解释变量数量的非递减函数,即增加解释变量不会引起R2下降,因而存在着通过不断增添解释变量使R2趋近于1的可能;
模型不包含常数项时,R2的值可能超出0∼1这一区间。
利用时间序列数据建立的模型R2通常较高,而利用截面数据建立的模型R2通常较低。
因变量不同(或其形式不同)时比较R2没有意义。
调整自由度后的R2
鉴于R2是解释变量的非递减函数,这降低了利用该指标对模型做比较时的价值。
使用调整自由度后的R2做比较,能够考虑增加解释变量产生的影响。其计算公式为:
调整自由度后的R2
计算调整自由度后的R2时使用的方差与R2不同。
增加解释变量可能使SSE降低,但 可以增大、不变或下降,取决于新增加变量的解释能力。
当解释变量超过1个时,必然有 。
如果模型包括了一些统计上不显著的解释变量,那么 会显著地小于R2。此时删除不显著的变量会提高 ,但会降低R2。
是否应该增加或删除某个变量一般不应该根据 或R2的数值大小,而应该根据对变量之间因果关系的理论认识。
可能出现负值。
对拟合优度的统计检验
检验拟合优度的虚假设是所有解释变量均不是真正的解释变量,即:
备择假设为至少有一个解释变量的参数不等于零。相应的统计量为:
当F值大于选择的临界值时,我们拒绝H0。
对模型参数的联合检验
同样的方法可以用于检验有关多个估计参数之间关系的联合假设。
用下标R和UR区分有约束和无约束的回归方程R2,q为约束条件的个数,相应的F统计值计算公式为:
模型参数联合检验案例
例:检验生产函数是否具有不变规模报酬
假定生产函数为
当生产过程具有不变规模报酬时有 :
检验可以采取不同形式,如:
其他例子:对需求系统模型参数是否满足可加性、齐次性和对称性的检验/结构变化…
利用EVIEWS进行参数联合检验
EVIEWS软件提供了参数联合检验功能:
先估计无参数约束的方程;
选择VIEW窗口 → Coefficient tests → Wald: Coefficient restriction
输入拟检验的参数约束条件
例:生产函数是否具有不变规模报酬
H0:C(2) + C(3) + c(4) = 1
EVIEWS提供出相应的统计检验结果
F统计值
2统计值
最大似然法估计
最大似然法假定随机变量Y来自某一未知的总体分布,样本数据提供了有关概率分布参数的信息,估计方法建立在样本来自哪个概率分布的可能性最大基础之上。
P
Y
分布A
分布B
Y1
Y2
Y3
Y4
Y5
Y6
Y7
Y8
最大似然法估计
例如假定Y来自某种正态分布,其分布函数为:
在Y相互独立的情况下,其联合分布概率为每个观察值出现概率的乘积,即:
对该函数取对数得到:
最大似然法估计
利用求极大值方法得到:
最大似然法估计
解上述三个方程得到:
从结果可以注意到,两个回归系数是真实参数的无偏估计量,而方差是有偏估计量,但随着样本容量增大趋近于真实方差。
多元回归模型应用案例
农业生产函数
总成本函数
商品需求函数
商品供给函数
宏观消费模型-在假定当前消费受过去形成的习惯影响时,方程可写为:
根据该方程可以计算短期和长期边际消费倾向。
宏观储蓄模型-储蓄行为受收入水平和利率影响,用方程表示为
生产与投资(多项式分布滞后)
思考题:为什么两类数据反映不同的消费变化趋势?
为什么时间序列数据和截面数据反映的关系不一样?怎样设定猪肉消费模型才能可靠地检验收入弹性是否为负?
多元回归模型作业
练习1:利用中国统计年鉴中国内生产总值(GDP)和宏观消费数据(Cons),估计我国的宏观消费方程。
目的:
学习EVIEWS软件的基本操作(数据输入、做图、统计分析、模型估计);
了解如何应用计量经济学模型研究现实经济现象。
要求:
利用所给的数据,完成上述工作,并做简要的分析。
估计模型时可对比以下两种形式:
线性形式的凯恩斯模型:Const=+ GDPt+et
对数线性形式的凯恩斯模型:LnConst= + LnGDPt+et
多元回归模型作业
练习2:消费支出模型
目的:识别建立经验模型时可能遇到的问题。
理论模型Cons=f(Y+,W+),其中Cons为消费支出,Y为收入,W为财富。+号表示对C预期有正的影响。
经验表达式:Consi=0+1Yi+Wi+ei
步骤:
先利用前10组数据估计模型,对结果做分析,检验其与理论的一致性,识别可能存在的问题。
分别估计Cons与Y和W的一元回归模型,观察斜率系数估计结果,检验其与理论的一致性。
将最后两组数据也利用上估计模型,与前面的结果做比较,指出主要的差别。思考为什么结果会出现显著变化。
练习2数据
参阅文献
黄季焜、罗泽尔,《迈向21世纪的中国粮食经济》第9章,“中国粮食生产和环境” 。