第十章 回归预测法
学习目标
掌握一元线性回归模型的建立、检验
掌握如何用一元线性回归模型作预测
了解多元线性回归模型的建立、检验
了解非线性回归模型的建立
相关分析与回归分析概述
回归的涵义
最早由英国生物学家兼统计学家高尔登及其学生皮尔森提出。
研究人体身高的遗传问题时发现:高个子父母的子女往往低于其父母
从整体上,都回归于人类的平均身高
回归是指研究自变量与因变量之间的关系形式的分析方法。
回归预测的目的在于根据已知自变量来估计因变量的总平均值。销售量
相关分析与回归分析
函数关系:对自变量每一个值,因变量都有一个确定的值与之相对应,可用数学表述出来。是严格的依存关系
相关关系:现象之间存在的非严格的、不确定的依存关系。
大致的,从总体上而言,并不是说某一现象的每一个变化都一定会引起另一现象同样变化。
例如:对外贸易额与国民生产总值
线性关系和非线性关系
正相关和服相关等。
相关分析与回归分析
相关分析是研究两个或两个以上随机变量之间相互依存关系的紧密程度。
回归分析是研究某一随机变量(因变量)与其他一个或几个普通变量(自变量)之间的数量变动关系。由回归分析求出的关系,称为回归模型。
区别:是否全是随机变量。
实际工作中,一般先做相关分析,决定是否作回归分析。
相关的判断
简单相关系数:
判断两个变量相关程度的指标。p197
例如,价格与销售额、广告投入量与销售额
相关的判断
等级相关系数 P198
衡量两个变量之间紧密程度的指标。针对序数变量
例如,产品质量的排序与公司市场份额的排序,只能计算等级相关系数。
di:各对数据的等级差异
n:样本的数据个数
检验
服从自由度为n-2的t分布
回归模型的种类
按自变量的多少:一元(多元)回归模型
是否线性:线性和非线性回归模型
是否带虚拟变量:普通回归模型和带虚拟变量的回归模型
是否用滞后变量作自变量:自回归模型和无自回归现象的回归模型
回归分析预测
回归分析预测就是依据回归分析描述的经济变量之间的数量关系对经济现象进行预测。
回归分析预测的步骤
变量间相关关关系的定性分析
啤酒销量与同期癌症患者数
变量因果关系的确定
数学模型的选择
回归方程与回归系数的显著性检验
1、一元线性模型及其假定条件
设 (i=1,2,…,n)为一组样本观察值,
如果变量X与Y之间存在下列关系:
则称上述方程为一元线性回归模型。
1、一元线性模型及其假定条件
几点解释:(1)变量的性质、参数、线性的含义。(2)计量经济模型与一般数学模型的区别。(3)随机项产生的原因:忽略了次要的经济变量,观察和计量不准确,人的经济行为的不确定性,模型本身存在的问题等。
1、一元线性模型及其假定条件
假定条件:(1) 服从正态分布
(2)
(3)
(4)
(5)
2、模型参数的估计
关于模型参数估计,常用的方法是OLS估计(普通最小二乘法)。
2、模型参数的估计
最小二乘法的中心思想,是通过数学模型,配合一条较为理想的趋势线。这条趋势线必须满足下列两点要求(1)原数列的观察值与模型估计值的离差平方和为最小;(2)原数列的观察值与模型估计值的离差总和为0。
根据最小二乘法的要求,可得:
2、模型参数的估计
3、经济理论检验
即检查模型中参数关系与经济理论是否相符。如在回归模型 中,因变量y表示商品零售额,x表示居民货币收入。很显然,居民货币收入x越大,社会商品零售额的值也应越大,他们之间的关系是正的关系。
4、拟合优度检验
得到的回归方程究竟有没有价值,它能不能反映变量X与Y之间客观存在的联系?
检验的方法有观察残差图,计算和检查拟合优度与估计标准误差等 。
1)回归残差是指,因变量的实际值与其估计值之间的离差,即
4、拟合优度检验
如果回归模型的拟合程度强,则y实际值与它的回归估计值之间的差别似乎不会太大,对应的的残差绝对值也随之较小,并且围绕着“残差均值=0”这条水平线上下随机分布着 。
4、拟合优度检验
(a)反映回归方程拟合得比较理想,而(b)、(C)和(d)说明模型存在着问题
4、拟合优度检验
2)可决系数
在回归模型的分析中,被解释变量y的变化可以把它看成是两类因素造成的 :
1)在模型中已有明确体现的解释变量的影响作用 ;
2)模型中笼统当作随机误差的影响效用 。对它们进行比较分析,可以判定模型的拟合程度。
4、拟合优度检验
被解释变量y的变动,用它的离差 来反映,根据上面的分析, 可分解成:
4、拟合优度检验
与上式对应,存在:
其中:
用记号表示,又可表述为SST= SSE +SSR
4、拟合优度检验
在总离差平方和SST一定时,回归离差平方和SSR大,残差平方和SSE就小,说明总离差平方和SST的大部分可由解释变量X给出解释,因而回归模型的拟合程度好,反之则有相反的结论。
回归直线与各观察点的接近程度称为回归直线对数据的拟合程度。
4、拟合优度检验
根据总离差平方和、残差平方和与回归离差平方和之间的关系,拟合优度可用下列指标即拟合优度系数(可决系数)进行说明:
含义:在总离差平方和中,由解释变量X做出解释的部分所占的比例。
例如: p208
4、拟合优度检验
3)标准误差:回归直线即估计值与因变量值的平均平方误差。
4)相关系数:用来测定拟合优度的指标。
在一元线性回归分析中,r与拟合优度系数数值上存在上述关系,但一定的差异。
5、回归系数的显著性检验(t参数检验)
检验自变量对因变量的影响是否显著
用t统计量进行参数显著性检验
步骤如下:
1、对总体参数提出假设:
2、以原假设构造t统计量,并由观察数据计算其值
式中
5、回归系数的显著性检验(t参数检验)
3、给定显著性水平 ,查自由度为n-2的t分布表,得临界值 ,
若 ,则拒绝原假设,表示x与y之间的线性相关显著,变量x对y的影响不容忽视;
若 ,则接受原假设,表示x和y之间的线性相关不显著。
6、回归总体线性的显著性检验(F检验)
F检验是以方差分析为基础,对回归总体线性关系是否显著的一种假设检验
根据方差分析的原理将离差平方和与自由度进行分解,方差分析的所有结果列入表中:
n-2
残差
1
回归
n-1
总离差
方差
自由度
平方和
离差名称
6、回归总体线性的显著性检验(F检验)
上表中,总离差平方和的自由度为n-1,这是因为Y共有n个已知数据,
而在 中n-1个数据可以自由变动,当n-1个数据确定以后,第n个数据就不能再变动了,必须受 的约束。
6、回归总体线性的显著性检验(F检验)
回归平方和的自由度为1,因为一元线性回归中,自变量的个数为1,这样残差平方和的自由度就等于n-1-1=n-2个。根据上表,求出F值:
6、回归总体线性的显著性检验(F检验)
利用F统计量进行总体线性显著性检验的步骤如下:
1、提出关于总体参数的假设
2、根据样本观察值计算并列出方差分析表
3、计算F统计量
4、检验
在给定的显著水平 下,按自由度查F分布
表,得临界值
6、回归总体线性的显著性检验(F检验)
如果 ,拒绝原假设,表明回归总体是显著线性的;
如果 ,接受原假设,表明回归总体不存在线性关系,或解释变量X对Y没有显著线性作用。
7、德宾-沃森统计量(D-W检验、自相关)
我们在建立回归模型时曾假设
可通过计算D-W统计量来检验这一假设。
残差序列自相关可能受下列因素影响:
模型不当。例如,应是非线性的而选择了线性的模型。
模型中所包含的自变量(解释变量)不妥。或是遗漏了重要的变量,也许是变量的函数形式不当
8、预测
点预测
当 时,y的估计值为
区间预测
小样本:近似的置信区间的常用公式为:
更为精确的置信区间的计算公式为:
8、预测
大样本的情况下,总体近似服从正态分布
实例分析
设有下列资料(如表所示),试预测第9年社会商品(消费品)的零售额。假设已知第9年居民货币收入为21亿元。
社会商品零售额
社会商品零售额 y
居民货币收入 x
8
7
6
5
4
3
2
1
年份
实例分析
求解过程
1、根据表统计资料先作散点图,如图所示。
2、从散点图上可以看出,社会商品零售额Y随居民收入X的增长而呈直线上升趋势。因此说明它可以用直线来描述,建立一元线性回归模型,即:
3、估计参数,根据公式进行预算得到
则回归模型为:
4、模型显著性检验
(1)经济理论检验:例题中所求预测模型 ,显然居民货币收入和社会商品零售额预测值之间是正的关系。因此前面的符号也应该是正号。所以本例题结论与理论相一致,与经济理论相符。
实例分析
实例分析
(2)可决系数R2=
即居民货币收入的变化占社会商品零售额变动的%
(3)相关系数r=
(4)t检验 t=,当显著性水平a为时,查表的:
(5)F检验:
查表得:
拒绝原假设
实例分析
(6)D-W检验
5、预测:
根据回归模型:
将第9年的居民货币收入x=21亿元代入上述模型,得: 亿元。
即,如果第9年居民货币收入达到21亿元,则社会商品零售额大致能达到18. 18亿元,此值又称为点预测值。
根据上述计算可以看出,在其它因素没有特殊变化的情况下,居民货币收入每增加1亿元,社会商品零售额就增加亿元。
实例分析
区间估计
在预测的显著性水平α下, Y0的1-α的预测置信区间为:
本例中,显著性水平α=,查t分布表计t=,算出预测区间为[,]。也就是说,如果第9年居民货币收入为21亿元,则第9年社会商品零售额,在的显著性水平上(即有99%的可靠程度),在亿元~亿元之间。