第2章 一元线性回归
2 .1 一元线性回归模型
2 .2 参数 的估计
2 .3 最小二乘估计的性质
2 .4 回归方程的显著性检验
2 .5 残差分析
2 .6 回归系数的区间估计
2 .7 预测和控制
2 .8 本章小结与评注
2 .1 一元线性回归模型
例2 .1 表列出了15起火灾事故的损失及火灾发生地与最近的消防站的距离。
表 火灾损失表
2 .1 一元线性回归模型
例 全国人均消费金额记作y(元);
人均国民收入记为x(元)
表 人均国民收入表
2 .1 一元线性回归模型
2 .1 一元线性回归模型
一元线性回归模型
此时回归方程为
2 .1 一元线性回归模型
样本模型
回归方程
样本观测值(x1,y1),(x2,y2),…,(xn,yn)
经验回归方程
2 .2 参数β0、β1的估计
一、普通最小二乘估计
(Ordinary Least Square Estimation,简记为OLSE)
最小二乘法就是寻找参数β0、β1的估计值使离差平方和达极小
称为yi的回归拟合值,简称回归值或拟合值
称为yi的残差
2 .2 参数β0、β1的估计
2 .2 参数β0、β1的估计
经整理后,得正规方程组
2 .2 参数β0、β1的估计
得OLSE 为
记
2 .2 参数 的估计
续例
回归方程
2 .2 参数 的估计
二、最大似然估计
连续型:是样本的联合密度函数:
离散型:是样本的联合概率函数。
似然函数并不局限于独立同分布的样本。
似然函数
在假设εi~N(0,σ2)时,由()式知yi服从如下正态分布:
2 .2 参数β0、β1的估计
二、最大似然估计
y1,y2,…,yn
的似然函数为:
对数似然
函数为:
与最小二乘原理完全相同
2 .3 最小二乘估计的性质
一、线性
是y1,y2,…,yn
的线性函数 :
2 .3 最小二乘估计的性质
其中用到
二、无偏性
2 .3 最小二乘估计的性质
三、 的方差
2 .3 最小二乘估计的性质
三、 的方差
在正态假设下
GaussMarkov条件
回归方程的显著性检验
一、t 检验
原假设: H0 :β1=0
对立假设: H1 :β1≠0
由
当原假设H0 :β1=0成立时有:
回归方程的显著性检验
一、t 检验
构造t 统计量
其中
回归方程的显著性检验
二、用统计软件计算
1.例 用Excel软件计算
什么是P 值?
(P-value)
P 值即显著性概率值
Significence Probability Value
是当原假设为真时得到比目前的 样本更极端的样本的 概率,所谓极端就是与原假设相背离
它是用此样本拒绝原假设所犯弃真错误的 真实概率,被称为观察到的(或实测的)显著性水平
双侧检验的P 值
/ 2
/ 2
t
拒绝
拒绝
H0值
临界值
计算出的样本统计量
计算出的样本统计量
临界值
1/2 P 值
1/2 P 值
左侧检验的P 值
H0值
临界值
a
样本统计量
拒绝域
抽样分布
1 -
置信水平
计算出的样本统计量
P 值
右侧检验的P 值
H0值
临界值
a
拒绝域
抽样分布
1 -
置信水平
计算出的样本统计量
P 值
利用 P 值进行检验的决策准则
若p-值 ≥ ,不能拒绝 H0
若p-值 < , 拒绝 H0
双侧检验p-值 =2×单侧检验p-值
回归方程的显著性检验
二、用统计软件计算
2. 例用SPSS软件计算
回归方程的显著性检验
二、用统计软件计算
2.用SPSS软件计算
回归方程的显著性检验
三、F检验
平方和分解式
SST = SSR + SSE
构造F检验统计量
回归方程的显著性检验
三、F检验
一元线性回归方差分析表
P(F>F值)
=P值
SSR/1
SSE/(n-2)
SSR
SSE
SST
1
n-2
n-1
回归
残差
总和
P值
F值
均方
平方和
自由度
方差来源
回归方程的显著性检验
四、相关系数的显著性检验
回归方程的显著性检验
四、相关系数的显著性检验
回归方程的显著性检验
四、相关系数的显著性检验
附表1 相关系数ρ=0的临界值表
1000
30
15
400
29
14
300
28
13
200
27
12
150
26
11
125
25
10
100
24
9
90
23
8
80
22
7
70
21
6
60
20
5
50
19
4
45
18
3
40
17
2
35
16
1
1%
5%
n-2
1%
5%
n-2
1%
5%
n-2
回归方程的显著性检验
四、相关系数的显著性检验
用SPSS软件做相关系数的显著性检验
回归方程的显著性检验
四、相关系数的显著性检验
两变量间相关程度的强弱分为以下几个等级:
当|r|≥时,视为高度相关;
当≤|r|< 时,视为中度相关;
当≤|r|< 时,视为低度相关;
当|r|< 时,表明两个变量之间的相关程度极弱,
在实际应用中可视为不相关。
回归方程的显著性检验
五、三种检验的关系
H0: b=0
H0: r=0
H0: 回归无效
回归方程的显著性检验
六、样本决定系数
可以证明
残差分析
一、残差概念与残差图
残差
误差项
残差ei是误差项ei的估计值。
残差分析
一、残差概念与残差图
残差分析
一、残差概念与残差图
图 火灾损失数据残差图
残差分析
二、残差的性质
性质1 E (ei)=0
证明:
残差分析
二、残差的性质
性质2
其中
称为杠杆值
残差分析
二、残差的性质
残差分析
二、残差的性质
性质3. 残差满足约束条件:
残差分析
三、改进的残差
标准化残差
学生化残差
回归系数的区间估计
等价于
β1的1-α
置信区间
预测和控制
一、单值预测
预测和控制
二、区间预测
找一个区间(T1,T2),使得
需要首先求出其估计值
的分布
1.因变量新值的区间预测
以下计算
的方差
从而得
1. 因变量新值的区间预测
二、区间预测
记
于是有
则
二、区间预测
1. 因变量新值的区间预测
y0的置信概率为1-α的置信区间为
y0的置信度为95%的置信区间近似为
二、区间预测
1. 因变量新值的区间预测
得E(y0)的1-α的置信区间为
E(y0)=β0+β1x0是常数
二、区间预测
1. 因变量新值的区间预测
对例的火灾损失数据,假设保险公司希望预测一个距最近的消防队x0=公里的居民住宅失火的损失
点估计值
95%区间估计 单个新值: (,)
平均值E(y0):(,)
的95%的近似置信区间为
=(-2×,+2×)
=(,)
二、区间预测
计算
给定y的预期范围(T1, T2),如何控制自变量x的值
才能以1-α的概率保证
用近似的预测区间来确定x。如果α=,则要求
把
带入
二、控制问题
本章小结与评注
一、一元线性回归模型从建模到应用的全过程
例 全国人均消费金额记作y(元); 人均国民收入记为x(元)
表 人均国民收入表
本章小结与评注
二、有关回归假设检验问题
1973年Anscombe构造了四组数据, 这四组数据所建的回归方程是相同的,决定系数,F统计量也都相同,且均通过显著性检验。
本章小结与评注
Rejection region does NOT include critical value.
Rejection region does NOT include critical value.