第三章 多元线性回归模型
多元线性回归模型及其基本假设
多元线性回归模型的估计问题
经典假设满足时的推断问题
一、多元线性回归模型及其基本假设
Leslie土地价格例:1968年加州某市想从Leslie公司征一块地建公园,为了确定一个公平的市场价格,希望做一个回归分析,以便了解有哪些因素影响这些土地的价值。变量如下:
Price:千美元/亩
County:土地所处地区,0-San Mateo,1-Santa Clara
Size:土地的规模,亩
Elevation:海拔高度,英尺
Sewer:据最近排水系统的距离,英尺
Date:交易日期,从现在起倒数,月
Flood:潮汐是否造成洪水,1-是,0-否
Distance:到Leslie公司的距离,英里(距公司越远,到洛杉矶越近)
数据
1. 多元线性回归模型
多元线性回归模型:表现在线性回归模型中的解释变量有多个。
一般表现形式:
i=1,2…,n
其中:k为解释变量的数目,j,j=1,2, …k称为偏回归系数。
也被称为总体回归函数的随机表达形式。它 的非随机表达式为:
表示:各变量X值给定时Y的平均响应。
习惯上:把常数项看成为一虚变量的系数,该虚变量的样本观测值始终取1。于是:
模型中解释变量的数目为(k+1)
总体回归模型n个随机方程的矩阵表达式为:
j被称为偏回归系数,表示在其他解释变量保持不变的情况下,X j每变化1个单位时,Y的均值E(Y)的变化;
或者说j给出了X j的单位变化对Y均值的“直接”或“净”(不含其他变量)影响。
其中
样本观测值:
ei称为残差 (residuals),可看成是对总体回归函数中随机扰动项i的估计。
样本回归函数的矩阵表达:
或
其中:
用来估计总体回归函数的样本回归函数为:
2. 多元回归模型的假设
假设1: x1,x2, … xk是非随机的。
假设2:E(i)=0 i=1,2, …n
假设3:Var(i)=2 (E(ii)= 2 )
假设4:无序列相关, E(ij)=0
假设5:x诸变量间无准确的线性关系,即:无多重共线性。
数学表示为:不存在一组不全为零的数1、2、… k,使得:
1x1i+ 2x2i+ …+ kxki=0
假设6:i N(0, 2)
关于多重共线性的进一步说明
如果存在一组不全为零的数1、2、… k,使得:
1x1i+ 2x2i+ …+ kxki=0
不妨设10,则上式可变为:
x1i=-(2x2i+ …+ kxki)/1
称解释变量之间存在完全共线性,此时,某个解释变量可以写为其它解释变量的线性组合。
如果 ,会不会破坏无多重共线假定?
不会,因为这两个变量的关系是非线性的!!
经典假设的矩阵表示
假设2:
假设3和4:
假设5:矩阵X的秩等于回归参数的个数(或解释变量个数加1),R(X)=k+1 , n>k+1
二、多元回归模型的估计问题
偏回归系数的OLS估计
偏回归系数的含义
复判定系数
1. 偏回归系数的OLS估计
二元回归的样本回归函数为:
OLS估计:
极值条件
正规方程
解此联立方程既可求得参数估计值
求解正规方程组可得:
OLS估计量的方差和标准误
自变量相关程度越高,
参数估计量的方差越大。当x2和x3完全共线时,方差趋于无穷。
对有k个解释变量的多元回归模型
对于随机抽取的n组观测值
如果样本函数的参数估计值已经得到,则有:
i=1,2…n
根据最小二乘原理,参数估计值应该是右列方程组的解
于是得到关于待估参数的正规方程组:
解该(
k+1)
个方程组成的线性代数方程组,即
可得到(k+1)
个待估参数的估计值
$
,
,
,
,
,
b
j
j
=
0
1
2
L
。
k
将上述过程用矩阵表示如下:
根据极值条件得到:
得到:
于是最小二乘估计量为:
——正规方程
最小二乘估计量的方差-协方差阵为:
⃟随机误差项的方差的无偏估计
可以证明,随机误差项的方差的无偏估计量为:
多元回归最小二乘估计量的性质
在满足基本假设的情况下,其偏回归系数的普通最小二乘估计仍具有:
线性性、无偏性、有效性。
2. 偏回归系数的含义
二元回归模型为:yi=0+1x1i+2x2i+i
偏回归系数表示了其他因素不变时,相应解释变量对因变量的“净影响”。
例1 “期望扩充”菲利普斯曲线
菲利普斯曲线表明:通货膨胀率和失业率是反向变化的。期望扩充菲利普斯曲线增加了预期通货膨胀率的影响。
1970-1982年美国真实通货膨胀率y(%)、失业率x1(%)和预期通货膨胀率x2(%)数据如表,作菲利普斯曲线。
原始菲利普斯曲线:yt=b0+b10x1t+1t
期望扩充菲利普斯曲线: yt=0+1x1t+2x2t+t
b10、 1的经济涵义、先验符号?
例1 “期望扩充”菲利普斯曲线
估计结果
原始菲利普斯曲线
估计值为正,失业率与通胀率同方向?
期望扩充菲利普斯曲线
符号正确,统计显著。
统计上不显著异于0
设定偏误
b10 1
?
B10≠ 1? 设定偏误初探
yt=b0+b10x1t+1t
E(b10 ) = 1 + 2 b12
b10不仅度量了x1对y的净影响,还包括了x1对x2的影响而间接对y产生的影响
1=
yt=0+1x1t+2x2t+t
b10=
x2t=b2+b12x1t+2t
x2t =+
b12=
y
x1
x2
1
2
b12
偏回归系数
偏回归系数表示了其他因素不变时,相应解释变量对因变量的“净影响”。
1反映了x2不变的条件下,x1对y的净影响
偏回归系数:控制第三变量
多元回归与一元回归的区别:为什么要作多元回归
yt=0+1x1t+2x2t+t
课堂练习1
假设要求你建立一个计量经济模型来说明在学校跑道上慢跑一英里以上的人数,以便决定是否修建第二条跑道以满足所有的锻炼者。你通过整个学年收集数据,得到两个可能的方程:
其中:y:某天慢跑者的人数,x1:该天降雨量,x2:该天日照的小时数,x3:该天的最高温度,x4:第二天需交学期论文的班级数。问:
这两个方程你认为哪个更合理,为什么?
为什么用相同的数据去估计相同变量的系数2能得到不同的符号?
3. 复判定系数R2
以二元回归为例,复判定系数R2定义如下:
ESS
RSS
TSS
0R2 1, R2 =1时,所拟合的回归线100%地解释y的变异。
校正的复判定系数
R2的重要性质:模型中解释变量个数的非减函数,即随着解释变量个数的增加, R2几乎必然增大,不减小。易给人错觉:要使模型拟合得更好,只要在方程中加入新的变量即可。
校正的判定系数定义如下:对有k个解释变量的多元回归方程
n-k-1为残差平方和的自由度
n-1为总平方和的自由度
是真实方差的一个无偏估计
为y的样本方差
校正指对R2中的平方和用其自由度校正
三、经典假设满足时的推断问题
方程总显著性检验
关于单个偏回归系数的假设检验
检验两个或多个系数是否相等
检验偏回归系数是否满足某种约束条件
检验所估计的回归模型在时间上或在不同截面上的稳定性
检验回归模型的函数形式
√
√
√
√
注意:统计检验的前提条件
(一) 方程总显著性检验
概念:
对二元线性回归方程,
H0:1=2=0
H1: 1和2不同时为0
被称作对所估回归系数的总显著性检验,即检验y是否与x1和x2有线性关系。——联合检验。
如果接受原假设,1和2同时为0,则两个解释变量无法解释y
yt=0+1x1t+2x2t+t
1. 多元回归的总显著性检验
给定多元线性回归方程
yi=0+1x1i+2x2i+…+kxki+i
联合检验为:
H0:1=2=…= k=0
H1: 全部偏回归系数不同时为0
检验统计量
如果F>F(k,n-k-1),或由F得到的p值足够小,则拒绝H0 ,否则不要拒绝。
自变量个数
参数个数
2. R2与F的关系
假定干扰为正态分布,
从上式可看出,F与R2是同向变化的:
当R2 =0时,F=0
R2越大,F值也越大。当R2=1时,F∞
∴F检验既是所估回归的总显著性的一个度量,也是R2的一个显著性检验
(二) 单个偏回归系数假设检验
方程的总体线性关系显著每个解释变量对被解释变量的影响都是显著的。
因此,必须对每个解释变量进行显著性检验,以决定是否作为解释变量被保留在模型中。
这一检验是由对变量的 t 检验完成的。
(二) 单个偏回归系数假设检验
假设iN(0,2),便可用t检验统计量对任一个别偏回归系数的假设进行检验。
单零检验:H0:j=0 ; H1: j0
检验统计量
服从自由度为n-k-1的t分布
例:Leslie土地价格
剔除不显著变量county和size
尽管显著,但影响很小
剔除显著变量R2会减小
剔除不显著变量R2变化不大
检验两个回归系数是否相等
检验两个回归系数是否相等:以二元回归为例
H0:1= 2 H0:1-2 =0
H1: 1 2 H1:1-2 0
t服从n-3的t分布
课堂练习2
某地区通过一个样本容量为722的调查数据得到劳动力受教育的一个回归方程为
R2=
式中,edu为劳动力受教育年数,sibs为该劳动力家庭中兄弟姐妹的个数,medu与fedu分别为母亲与父亲受到教育的年数。问
(1)sibs是否具有预期的影响?为什么?若medu与fedu保持不变,为了使预测的受教育水平减少一年,需要sibs增加多少?
(2)请对medu的系数给予适当的解释。
(3)如果两个劳动力都没有兄弟姐妹,但其中一个的父母受教育的年数为12年,另一个的父母受教育的年数为16年,则两人受教育的年数预期相差多少?
本章小结
多元线性回归模型及基本假设
偏回归系数的含义
设定偏误,遗漏重要变量时OLS估计量的性质
复判定系数和校正的复判定系数
在模型评选时的作用
单个偏回归系数的检验和方程显著性检验
原假设和备择假设,t、F检验:自由度
检验统计量
服从自由度为n-k-1的t分布
待估参数个数
随着参数估计量的方差增大,要知道偏回归系数的真值所在,将变得越来越困难。
这个例子说明,如果需要一个二元回归,就不要用简单一元回归,否则会带来由偏误的估计。因为只要3 b32 不为0, b12就是2的一个有偏估计。而且从标准误来看, b12的标准误比2的标准误大的多。
在一元回归模型中,我们用r2来反映回归方程拟合优度,它反映了在因变量y的总变异中,能由解释变量x解释的百分比。在多元回归模型总,我们也可以定义一个复判定系数。
一元回归分析中,我们介绍了区间估计和假设检验。这种思想可以延伸到多元回归模型中来。而一旦我们涉及到多元回归模型,假设检验就会以多种形式出现: