第二讲 普通最小二乘法
(教材第2-4章)
主要内容
一元回归模型的最小二乘(OLS)估计
多元回归模型的最小二乘(OLS)估计
回归方程的拟合:决定系数
一元回归模型的OLS估计
PRF: 是不可直接观测的, 要通过SRF: 去估计。
残差: 是实际值 与其估计值 之差。
普通最小二乘法
(1)采用“残差和最小”确定直线位置?
(2)采用“残差绝对值和最小”确定直线位置?
(3)最小二乘法的原则是以“残差平方和最小”确定直线位置。
et
一元回归模型的估计问题
最小二乘法采用残差平方和最小的准则:
其中,
,
怎样得到的?
最小二乘估计量的数学推导:
正规方程
OLS估计量的性质
根据最小化残差平方和算出来的参数估计量叫做普通最小二乘(OLS)估计量。
样本回归线通过Y和X的样本均值
残差之和为0
OLS是“最优”的估计方法
一个例子:Eviews演示
收入-消费问题( ):Y是消费,X是收入。
回归方程:
需要填入的变量
回归结果
回归曲线图
思考题
影响一个家庭消费决策的仅仅是收入因素吗?
除了身高,你认为还有哪些因素会影响一个人的体重?
……
多元回归模型的OLS估计
最简单的多元线性回归是三变量模型
三变量模型,即含有一个因变量和两个解释变量,其总体回归函数PRF为:
表示什么意思?
多元线性回归的基本概念
多个自变量的回归模型
假定多元线性回归模型
那么对被解释变量Y与解释变量X1,X2,…,Xk作了
n次观测后,将所得的n组样本代入上式有
多元线性回归的基本概念
以矩阵形式表示,有
n×(k+1)
普通最小二乘估计
多元线性回归模型
假定1:
为什么有这个假定?
(未知)
普通最小二乘估计
普通最小二乘估计法(OLS)
1、原理:残差平方和最小
乘出来是什么?
怎样估计 ?
若矩阵 的逆存在,则上述方程有解
假定2:数据矩阵X列满秩,即矩阵 的逆存在。
列满秩的隐含意思是各个自变量之间相互独立。
对β求导并令其等于0可得
k×k
满足什么条件,这个方程才有解?
满足什么条件,
才可逆?
列满秩的经济含义是什么?
思考题
最小二乘估计量
是随机变量吗?为什么?
判断一个估计量好坏的标准是什么?
普通最小二乘估计
普通最小二乘估计法(OLS)
2、估计方法优劣的评判
无偏性
估计值的均值为
若无偏,则有
假定3:
假定3是什么意思?
若有
则有
有效性
假定4:
可以证明这就是最小方差。
高斯—马尔可夫定理:若前述假定条件成立,OLS估计量是最佳线性无偏估计量(BLUE)。
假定4是什么意思?
一致性:
在有限样本情形中,经典回归模型假定数据X是固定变量,否则最小二乘估计量可能是有偏的。但在大样本情况下,即便X是随机的,只要X满足一些条件,最小二乘估计量将依概率收敛于真实值。
1. X的每一列xk不退化。
2. 随着样本量的增加,个体观测值变得不重要。
3. X列满秩。
经典模型的基本假设
经典回归模型的基本假设:
假定1:
假定2:数据矩阵X列满秩,即矩阵 的逆存在。
假定3:
假定4:
普通最小二乘估计
普通最小二乘估计法(OLS)
3.最小二乘估计系数的特征
若一个多元回归中的变量是无关的,则多元回归的斜率
与在多个简单回归中的斜率相同。
回归超平面通过数据的均值点,回归拟合值的均值等于
实际值的均值。
M:用它乘以任一向量y,都将产生y对x回归的残差向量。
注意两个特殊矩阵M和P
P(射影矩阵,投影矩阵):用它乘以任一向量y,
都将产生y对x回归的最小二乘拟合值。
令拟合值 ,则有
偏回归系数
其中 , 。
解释: 是X2对X1进行回归后的残差变量, 是y对X1进行
回归后的残差变量。这个过程排除了或筛掉了的影响,
所以叫偏回归系数。
偏回归系数的解释:当其它变量相同(保持其他变量不变)时,特定变量对解释变量的边际影响(贡献)。
多元回归方程的妙用:
加什么,去什么。
思考题
一个超市的老总准备根据销售经理的能力来确定其工资水平?他能实现吗?
如果某经理在春节期间卖出了大量的商品,他的能力真的很强吗?
怎样才能解决超市老总的困扰呢?
一个例子:美国国防预算支出()
为了说明美国的经济实力对其国防预算的影响,
现考虑如下模型:
其中
Yt=年度t的国防预算支出,10亿美元计
X2t=年度t的GNP,10亿美元计
X3t=年度t的军事销售,10亿美元计
X4t=年度t的太空工业销售,10亿美元计
在上述方程中,哪些是控制变量?
1962-1981年美国国防预算支出数据
需要填入的变量
点击
回归结果
根据回归结果,你的结论是什么?
怎样选择控制变量?
控制变量的选择:
去什么,加什么。
怎么算出来的?
思考题
既然OLS估计量是BLUE,那么是否采用OLS就能得到满意的结果呢?
即便是最好的,也不是令人满意的。
针对一组给定的样本,怎样判断回归方程的拟合程度?
2
2
2
回归方程的总体拟合度
从几何意义上看,拟合优度是指样本回归线对样本数据拟合得有多好。
样本回归线
样本点
总平方和
回归平方和
残差平方和
样本均值线
一般情况下,不可能出现全部观测点都落在样本回归线上。显然若观测值离回归线近,则拟合程度好。
因此,一个直观的评判标准是:残差平方和在总平方和中所占的比例越小,则拟合得越好。
e
拟合优度
判定系数(R2):
拟合优度
可以证明当在回归方程中加入另一变量时,R2值不会下降。
因此,考虑调整的(用自由度) R2
为什么要采用调整的R2 ?
自由度:观测样本个数减去待估计系数的个数。
当增加一个变量时, 可能上升,也可能下降,甚至为负。
上升还是下降依赖于新变量对回归拟合的贡献是否超过
对损失一个额外自由度所作修正的补偿。
注意:通常采用横截面数据回归后得到的决定系数较小,而采用时间序列数据回归后得到的决定系数较大。调整的决定系数高并不意味着模型就是好的。
小结
普通最小二乘(OLS)估计的原理是什么?
OLS四个经典的假定是什么?
BLUE的含义是什么?
怎样理解“加什么,去什么;去什么,加什么”?
判断一个回归方程估计的好坏,是否主要看可调整的决定系数?
作业
需要上交的作业
第2章:习题4、6、13
第3章:习题11
第4章:习题11
小组作业
*