科学计算与数学建模
中南大学数学科学与计算技术学院
—— 统计预测方法及预测模型
第十章 统计预测方法及预测模型
统计预测的基本问题
1
趋势外推预测
2
时间序列的确定性因素分析
3
回归预测法
4
1
多元线性回归模型及其假定条件
5
统计预测的基本问题
统计预测方法的分类及其选择
统计预测的原则和步骤
统计预测的概念和作用
统计预测的概念和作用
(一)统计预测的概念
概念: 预测就是根据过去和现在估计未来,预测未来。统计预测属于预测方法研究范畴,即如何利用科学的统计方法对事物的未来发展进行定量推测.
例1 下表是我国1952年到1983年社会商品零售总额(按当年价格计算),分析预测我国社会商品零售总额 。
22
1973
11
1962
32
1983
21
1972
10
1961
31
1982
20
1971
9
1960
30
1981
19
1970
8
1959
29
1980
18
1969
7
1958
28
1979
17
1968
6
1957
27
1978
16
1967
5
1956
26
1977
15
1966
4
1955
25
1976
14
1965
3
1954
24
1975
13
1964
2
1953
23
1974
12
1963
1
1952
总额
( yt )
时序
(t)
年份
总额
( yt )
时序
(t)
年份
总额
( yt )
时序
(t)
年份
实际资料是预测的依据;
理论是预测的基础;
数学模型是预测的手段。
统计预测的三个要素:
统计预测方法是一种具有通用性的方法。
(二)统计预测的作用
在市场经济条件下,预测的作用是通过各个企业或行业内部的行动计划和决策来实现的;
统计预测作用的大小取决于预测结果所产生的效益的多少。
影响预测作用大小的因素主要有:
预测费用的高低;
预测方法的难易程度;
预测结果的精确程度。
统计预测方法的分类和选择
统计预测方法可归纳分为定性预测方法和定量预测方法两类,其中定量预测法又可大致分为趋势外推预测法、时间序列预测法和回归预测法,;
按预测时间长短分为近期预测、短期预测、中期预测和长期预测;
按预测是否重复分为一次性预测和反复预测。
(一)统计预测方法的分类
(三)定量预测
定量预测的概念:
定量预测也称统计预测,它是根据已掌握的比较完备的历史统计数据,运用一定的数学方法进行科学的加工整理,借以揭示有关变量之间的规律性联系,用于预测和推测未来发展变化情况的一类预测方法
(二)统计预测方法的选择
统计预测方法时,主要考虑下列三个问题:
合适性
费用
精确性
只需要因变量的历史资料,但用趋势图做试探时很费时
必须收集历史数据,并用几个非线性模型试验
为所有变量收集历史数据是此预测中最费时的
为两个变量收集历史数据,此项工作是此预测中最费时的
需做大量的调查研究工作
应做工作
与非线性回归预测法相同
在两个变量情况下可用计算器,多于两个变量的情况下用计算机
在两个自变量情况下可用计算器,多于两个自变量的情况下用计算机
计算器
计算器
计算机硬件
最低要求
当被预测项目的有关变量用时间表示时,用非线性回归
因变量与一个自变量或多个其它自变量之间存在某种非线性关系
因变量与两个或两个以上自变量之间存在线性关系
自变量与因变量之间存在线性关系
对缺乏历史统计资料或趋势面临转折的事件进行预测
适用情况
中期到长期
短、中期
短、中期
短、中期
短、中、长期
时间范围
趋势外推法
非线性回归预测法
多元线性回归预测法
一元线性回归预测法
定性预测法
方法
只需要序列的历史资料
计算器
适用于一次性的短期预测或在使用其他预测方法前消除季节变动的因素
短期
分解分析法
计算过程复杂、繁琐
只需要因变量的历史资料,但制定并检查模型规格很费时间
只需要因变量的历史资料,是一切反复预测中最简易的方法,但建立模型所费的时间与自适应过滤法不相上下
只需要因变量的历史资料,但初次选择权数时很费时间
应做工作
计算机
计算机
在用计算机建立模型后进行预测时,只需计算器就行了
计算器
计算机硬件
最低要求
适用于任何序列的发展型态的一种高级预测方法
适用于趋势型态的性质随时间而变化,而且没有季节变动的反复预测
具有或不具有季节变动的反复预测
不带季节变动的反复预测
适用情况
短期
短期
短期
短期
时间范围
平稳时间序列预测法
自适应过滤法
指数平滑法
移动平均法
方法
收集历史数据及影响时间
计算机
适用于当时间序列受到政策干预或突发事件影响的预测
短期
干预分析模型预测法
收集对象的历史数据并建立状态空间模型
收集对象的历史数据
收集大量历史资料和数据并需大量计算
应做工作
计算机
计算机
计算机
计算机硬件最低要求
适用于各类时间序列的预测
适用于时间序列的发展呈指数型趋势
适用于时间趋势延续及转折预测
适用情况
短、中期
短、中期
短、中期
时间范围
状态空间模型和卡尔曼滤波
灰色预测法
景气预测法
方法
在统计预测中的定量预测要使用模型外推法,使用这种方法有以下两条重要的原则:
连贯原则,是指事物的发展是按一定规律进行的,在其发展过程中,这种规律贯彻始终,不应受到破坏,它的未来发展与其过去和现在的发展没有什么根本的不同;
类推原则,是指事物必须有某种结构,其升降起伏变动不是杂乱无章的,而是有章可循的。事物变动的这种结构性可用数学方法加以模拟,根据所测定的模型,类比现在,预测未来。
统计预测的原则和步骤
(一)统计预测的原则
(二)统计预测的步骤
确定预测目的
搜索和审核资料
分析预测误差,改进预测模型
选择预测模型和方法
提出预测报告
趋势外推法
趋势外推法概述
多项式曲线趋势外推法
指数曲线趋势外推法
生长曲线趋势外推法
曲线拟合优度分析
趋势外推法概述
一、趋势外推法概念和假定条件
趋势外推法概念:
当预测对象依时间变化呈现某种上升或下降趋势,没有明显的季节波动,且能找到一个合适的函数曲线反映这种变化趋势时,就可以用趋势外推法进行预测。
趋势外推法的两个假定:
(1)假设事物发展过程没有跳跃式变化;
(2)假定事物的发展因素也决定事物未来的发展,其条件是不变或变化不大。
二 、趋势模型的种类
多项式曲线外推模型:
一次(线性)预测模型:
二次(二次抛物线)预测模型:
三次(三次抛物线)预测模型:
一般形式:
指数曲线预测模型:
一般形式:
修正的指数曲线预测模型 :
对数曲线预测模型:
生长曲线趋势外推法:
皮尔曲线预测模型 :
三、趋势模型的选择
图形识别法:
这种方法是通过绘制散点图来进行的,即将时间序列的数据绘制成以时间t为横轴,时序观察值为纵轴的图形,观察并将其变化曲线与各类函数曲线模型的图形进行比较,以便选择较为合适的模型。
差分法:
利用差分法把数据修匀,使非平稳序列达到平稳序列。
一阶向后差分可以表示为:
二阶向后差分可以表示为:
差分法识别标准:
修正指数曲线模型
一阶差分的一阶比率相等或大致相等
指数曲线模型
一阶差分比率相等或大致相等
三次线性模型
三阶差分相等或大致相等
二次线性模型
二阶差分相等或大致相等
一次线性模型
一阶差分相等或大致相等
使用模型
差分特性
多项式曲线趋势外推法
一、二次多项式曲线模型及其应用
二次多项式曲线预测模型为:
设有一组统计数据 , ,…, ,令
即:
解这个三元一次方程就可求得参数。
例 1
下表是我国1952年到1983年社会商品零售总额(按当年价格计算),分析预测我国社会商品零售总额 。
22
1973
11
1962
32
1983
21
1972
10
1961
31
1982
20
1971
9
1960
30
1981
19
1970
8
1959
29
1980
18
1969
7
1958
28
1979
17
1968
6
1957
27
1978
16
1967
5
1956
26
1977
15
1966
4
1955
25
1976
14
1965
3
1954
24
1975
13
1964
2
1953
23
1974
12
1963
1
1952
总额
( yt )
时序
(t)
年份
总额
( yt )
时序
(t)
年份
总额
( yt )
时序
(t)
年份
(1)对数据画折线图分析,以社会商品零售总额为y 轴,年份为x 轴。
(2)从图形可以看出大致的曲线增长模式,较符合的模型有二次曲线和指数曲线模型。但无法确定哪一个模型能更好地拟合该曲线,则我们将分别对该两种模型进行参数拟合。
适用的二次曲线模型为:
适用的指数曲线模型为:
(3)进行二次曲线拟合。首先产生序列 ,然后运用普通最小二乘法对模型各参数进行估计。得到估计模型为:
其中调整的 , ,则方程通过显著性检验,拟合效果很好。标准误差为。
(4) 进行指数曲线模型拟合。对模型 :
两边取对数:
产生序列 ,之后进行普通最小二乘估计该模型。最终得到估计模型为:
其中调整的 , 则方程通过显著性检验,拟合效果很好。标准误差为:。
(5)通过以上两次模型的拟合分析,我们发现采用
二次曲线模型拟合的效果更好。因此,运用方程:
进行预测将会取得较好的效果。
二、三次多项式曲线预测模型及其应用
三次多项式曲线预测模型为:
设有一组统计数据 , ,…, ,令
即:
解这个四元一次方程就可求得参数。
指数曲线趋势外推法
一、指数曲线模型及其应用
指数曲线预测模型为:
对函数模型 做线性变换得:
令 ,则
这样,就把指数曲线模型转化为直线模型了。
二、修正指数曲线模型及其应用
修正指数曲线预测模型为:
生长曲线趋势外推法
一、龚珀兹曲线模型及其应用
龚珀兹曲线预测模型为:
对函数模型 做线性变换得:
龚珀兹曲线对应于不同的lg a与b的不同取值范围而具有间断点。曲线形式如下图所示。
(1) lga<0 0<b<1
(2) lga<0 b>1
(3) lga>0 0<b<1
(4) lga>0 b>1
k
k
k
k
(1) lga<0 0<b<1
k
渐进线(k)意味着市场对某类产品的需求
已逐渐接近饱和状态 。
(2) lga<0 b>1
k
渐进线(k)意味着市场对某类产品的需求
已由饱和状态开始下降 。
(3) lga>0 0<b<1
k
渐进线(k)意味着市场对某类产品的需求
下降迅速,已接近最低水平k 。
(4) lga>0 b>1
k
渐进线(k)意味着市场对某类产品的需求
从最低水平k迅速上升。
二、皮尔曲线模型及其应用
皮尔曲线预测模型为:
曲线拟合优度分析
一、曲线的拟合优度分析
如前所述,实际的预测对象往往无法通过图形直观确认某种模型,而是与几种模型接近。这时,一般先初选几个模型,待对模型的拟合优度分析后再确定究竟用哪一种模型。
拟合优度指标:
评判拟合优度的好坏一般使用样本可决系数或标准误差来作为拟合效好坏的指标:
时间序列的确定性因素分析
确定性因素分解
趋势分析
季节效应分析
综合分析
确定性因素分解
传统的因素分解
长期趋势(T)
循环波动(C)
季节性变化(S)
随机波动(I)
现在的因素分解
长期趋势波动(T)
季节性变化(S)
随机波动(I)
分解的模型
加法模型:
乘法模型:
混合模型:
确定性时序分析的目的
克服其它因素的影响,单纯测度出某一个确定性因素对序列的影响
推断出各种确定性因素彼此之间的相互作用关系及它们对序列的综合影响
趋势分析
目的
有些时间序列具有非常显著的趋势,我们分析的目的就是要找到序列中的这种趋势,并利用这种趋势对序列的发展作出合理的预测
常用方法
趋势拟合法
平滑法
趋势拟合法
趋势拟合法就是把时间作为自变量,相应的序列观察值作为因变量,建立序列值随时间变化的回归模型的方法
分类
线性拟合
非线性拟合
线性拟合
使用场合
长期趋势呈现出线形特征
模型结构
例:
拟合澳大利亚政府1981——1990年每季度的消费支出序列
模型
参数估计方法
最小二乘估计
参数估计值
拟合效果图
非线性拟合
使用场合
长期趋势呈现出非线形特征
参数估计指导思想
能转换成线性模型的都转换成线性模型,用线性最小二乘法进行参数估计
实在不能转换成线性的,就用迭代法进行参数估计
常用非线性模型
-
-
-
变换后模型
迭代法
-
迭代法
-
迭代法
-
线性最小二乘估计
线性最小二乘估计
参数估计方法
变换
模型
例:
对上海证券交易所每月末上证指数序列进行模型拟合
非线性拟合
模型
变换
参数估计方法
线性最小二乘估计
拟合模型口径
拟合效果图
平滑法
平滑法是进行趋势分析和预测时常用的一种方法。它是利用修匀技术,削弱短期随机波动对序列的影响,使序列平滑化,从而显示出长期趋势变化的规律
常用平滑方法
移动平均法
指数平滑法
移动平均法
基本思想
假定在一个比较短的时间间隔里,序列值之间的差异主要是由随机波动造成的。根据这种假定,我们可以用一定时间间隔内的平均值作为某一期的估计值
分类
n期中心移动平均
n期移动平均
n期中心移动平均
5期中心移动平均
n期移动平均
5期移动平均
移动平均期数确定的原则
事件的发展有无周期性
以周期长度作为移动平均的间隔长度 ,以消除周期效应的影响
对趋势平滑的要求
移动平均的期数越多,拟合趋势越平滑
对趋势,为反映近期变化敏感程度,要求移动平均的期数越少,拟合趋势越敏感
移动平均预测
例
某一观察值序列最后4期的观察值为:
5,,,
(1)使用4期移动平均法预测 。
(2)求在二期预测值 中 前面的系数等于多少?
解
(1)
(2)
在二期预测值中 前面的系数等于
指数平滑法
指数平滑方法的基本思想
在实际生活中,我们会发现对大多数随机事件而言,一般都是近期的结果对现在的影响会大些,远期的结果对现在的影响会小些。为了更好地反映这种影响作用,我们将考虑到时间间隔对事件发展的影响,各期权重随时间间隔的增大而呈指数衰减。这就是指数平滑法的基本思想
分类
简单指数平滑
Holt两参数指数平滑
简单指数平滑
基本公式
等价公式
简单指数平滑预测
一期预测值
二期预测值
期预测值
经验确定
初始值的确定
平滑系数的确定
一般对于变化缓慢的序列, 常取较小的值
对于变化迅速的序列, 常取较大的值
经验表明 的值介于至之间,修匀效果比较好。
例
对某一观察值序列 使用指数平滑法。
已知 , ,平滑系数
(1) 求二期预测值 。
(2)求在二期预测值 中 前面的系数等于多少?
解
(1)
(2)
所以使用简单指数平滑法二期预测值中 前面的系数就等于平滑系数
Holt两参数指数平滑
使用场合
适用于对含有线性趋势的序列进行修匀
构造思想
假定序列有一个比较固定的线性趋势
两参数修匀
初始值的确定
平滑序列的初始值
趋势序列的初始值
Holt两参数指数平滑预测
期预测值
例
对北京市1978——2000年报纸发行量序列进行Holt两参数指数平滑。指定
例 平滑效果图
季节效应分析
例 以北京市1995年——2000年月平均气温序列为例,介绍季节效应分析的基本思想和具体操作步骤。
时序图
季节指数
季节指数的概念
所谓季节指数就是用简单平均法计算的周期内各时期季节性影响的相对数
季节模型
季节指数的计算
计算周期内各期平均数
计算总平均数
计算季节指数
季节指数的理解
季节指数反映了该季度与总平均值之间的一种比较稳定的关系
如果这个比值大于1,就说明该季度的值常常会高于总平均值
如果这个比值小于1,就说明该季度的值常常低于总平均值
如果序列的季节指数都近似等于1,那就说明该序列没有明显的季节效应
例 季节指数的计算
例 季节指数图
综合分析
常用综合分析模型
加法模型
乘法模型
混合模型
例 对1993年—2000年中国社会消费品零售总额序列(数据见附录)进行确定性时序分析。
(1)绘制时序图
(2)选择拟合模型
长期递增趋势和以年为固定周期的季节波动同时作用于该序列,因而尝试使用混合模型(b)拟合该序列的发展
(3)计算季节指数
12
6
11
5
10
4
9
3
8
2
7
1
季节指数
月份
季节指数
月份
季节指数图
季节调整后的序列图
(4)拟合长期趋势
(5)残差检验
(6)短期预测
回归预测法
回归预测法,是分析因变量与自变量之间相互关系,用回归方程表示,根据自变量的数值变化,去预测因变量数值变化的方法。
在经济预测中,人们把预测对象当作因变量,把那些与预测对象有关的因素当作自变量,收集自变量的充分数据,应用相关分析和回归分析求得回归方程,并利用回归方程进行预测。
回归预测法中的自变量,与时间序列预测法中的自变量不相同。后者的自变量是时间本身,而前者的自变量不是时间本身,而是其他的变量。
回归预测法中的自变量与因变量之间,有的属于因果关系,有的屑于伴随关系。不能认为只有因果关系才能进行回归预测,实际上伴随关系也是一种相关关系,只要收集大量的足够的资料,也可以用回归预测法进行预测。
在回归预测法中,自变量不是随机的或者是给定的,这与相关分析中自变量有所区别。相关分析中的自变量是随机的。
a. 影响GDP增长的因素有哪些(投资、消费、出口、货币供应量等)?
b. GDP与各种因素关系的性质是什么?(增、减)
c. 各影响因素与GDP的具体的数量关系?
d. 所作数量分析结果的可靠性如何?
e. 今后的发展趋势怎么样?
例1:研究中国的GDP增长
实例引入
例2:中国家庭汽车市场
a:汽车市场状况如何(销售量)
b: 影响汽车销售量的主要因素是什么(收入、价格、道路状况等)?
c: 各种因素对汽车销售量影响的性质怎样(正、负、无)?
d: 各种因素影响汽车销量的具体数量程度?
e: 以上分析所得结论是否可靠?
f: 今后发展的趋势怎样?
以上问题的共性
提出所研究的问题
分析影响因素(根据经济理论、实际经验)
分析各种因素与所研究的现象的相互关系(需要科学的数量分析方法)
分析所研究的现象与各种影响因素的数量关系(需要运用统计方法)
分析和检验所得数量结论的可靠性;
测算所研究经济问题的发展趋势(预测未来)
一、变量:
在不同时间、空间有不同状况,取不同数值的因素称为变量。其分类为:
1、被解释变量(因变量)
变量、参数、数据
2、解释变量(自变量)
3、滞后变量
被解释变量(因变量):模型中要分析研究的变量
解释变量(自变量):说明因变量变动原因的变量
例:收入决定模型(其中:消费支出C、 投资I、进口IM 、税收T、收入Y、政府支出G、出口E)
其中:消费支出C、 投资I、进口IM 、税收T、收入Y是被解释(内生)变量政府支出G、出口E、是解释变量(通过计划、预算来确定)
(有两个滞后变量,作用视同解释变量)
二、数据
1、时间序列数据: 按照时间先后顺序排列的统计数据(例 :时期、时点指标)
3、混合数据: 既有时间序列数据,又有截面数据(例:居民收支调查中收集的对各个固定调查户在不同时期的调查数据)。
2、截面数据 :是在同一时间,不同空间的某个指标组成的数列(如:工业普查数据、人口普查数据、家计调查数据等)。
4、虚拟变量数据:仅取0和1两个变量值的
模型建立步骤
可以运用计量方法研究这类问题,一般分为四个步骤:
模型设定
估计参数
模型检验
模型应用
研究过程
有关理论
实践活动
搜集统计数据
设定计量模型
参数估计
模型检验
预测
政策评价
模型修订
结构分析
符合
不符合
是否符合标准
模型应用
模型设定
经济模型:
模型:对经济现象或过程的一种数学模拟。
设定(Specification):把所研究的经济变量之间的关系用适当的数学关系式表达出来。
(例:消费函数 y=a+bx )
构成计量经济模型的要素(例:消费函数y=a+bx+u)
** 经济变量(y,x)
** 经济参数(a,b,待估计)
** 随机扰动项u
模型构成要素之说明(例:消费函数y=a+bx+u )
** 经济变量(y,x):不同时间、不同空间的表现不同,取值不同,可以观测。
** 经济参数(a,b):比较稳定的因素,决定经济的特征。
参数是计量经济模型中表现经济变量相互依存程度的因素,是一个相对稳定的量
设定模型的要求
要有科学的理论依据;
选择适当的数学形式(单方程还是多方程,线性还是非线性的选择。方程应是有解的,形式尽可能简单);
模型要兼顾真实性和实用性;
包含随机扰动项;
方程中的变量要具有可观测性;
建模步骤
经济理论或假说的陈述;
建立数学(数理经济)模型;
建立统计或计量经济模型;
收集处理数据;
模型的参数估计;
检验来自模型的假说——现实意义检验;
检验模型的正确性——模型的假设检验;
模型的运用——预测、结构分析、政策模拟等
估计参数
一般地,参数是未知的,不可直接观测。
参数要通过样本数据,选择适当的方法加以估计。(如何通过样本数据估计参数是计量经济学的核心内容)
参数估计值:所估计的参数的具体数值
参数估计式:用未知的样本数据表示的待估计参数表达式。
参数估计的常用方法:普通最小二乘法(OLS),极大似然估计法(ML)等。
模型检验
检验是对模型和所估计的参数加以评定,判断在经济理论上是否有意义,在统计上是否显著。
为什么要进行检验?
理论依据可能不充分;
统计数据或其他信息可能不可靠
样本可能较小,结论只是抽样的某种偶然结果。
可能违反计量经济估计的基本假定。
模型的检验方式
**理论意义,现实意义检验:是否与理论、现实相符;
**统计推断检验:检验参数值是否为抽样的偶然结果;
**计量检验:是否符合基本假定;
**预测检验:将模型预测结果与现象运行的实际对比。
模型应用
结构分析:
分析变量之间的数量比例关系,如边际分析、弹性分析(变化率之比)、乘数分析(变化量之比)、比较静力学分析
预测:
包含动态预测和空间预测。(对非稳定发展的过程无能为力,滞后于理论和现实的模型在应用中也会遇到障碍。)
政策评价:
用模型对政策方案作模拟测算,对政策方案作评价。
模型形式
a.线性模型
b.非线性模型:双对数模型、半对数模型、倒数模型
非线性模型一般都要转化为线性模型来估计。
1、线性模型(对变量、参数)
2、非线性模型(被解释与解释变量之间、被解释变量与参数之间)
例如:
(1、2可线性化)
(1)多项式函数
常见的可线性化模型:
(2)双对数方程
基本形式(幂函数):
双对数方程的斜率参数 可以衡量因变量Y关于解释变量X的弹性(表示:当X每变动1%时,因变量Y平均变动的百分比)。
事实上,有
(3) 半对数方程
在第一个方程中
斜率参数 等于Y的相对变动 与X绝对变动 之比。模型叫增长模型,它可以描述某种经济现象随着时间变化而变动的趋势。
第二个半对数方程的斜率系数
表示当自变量发生一个单位的相对变动时,引起的因变量Y的平均绝对变动。
(4) 倒数变换模型
基本形式:
注:
,Y 随着X增大而非线性地增大,最终接近一条直线
,Y 随着X的增加而非线性地减少。
重要特点:被解释变量Y存在极限。
例:若Y为平均成本,X为产量,则平均成本Y随着产量增加而不断下降,但它决不可能等于或小于 。
一、启动软件包 ( 双击“Eviews”,进入Eviews主页)
二、创建工作文件(点击“File/New/Workfile/Ok”)出现“Workfile Range”,目的:
1、选择数据频率(类型):
Annual (年度)
Quartely(季度)
┆
Undated or irrequar(未注明日期或不规则的)
2、确定Start date 和End date(如1980 1999或1 18 /ok)。
出现“Workfile对话框(子窗口)”中已有两个变量:
c-----常数项
resid----模型将产生的残差项
网站:计量经济学园地(http://
复旦计量金融网(http://)
(下载完毕后,点击SETUP安装,安装过程与其他软件安装类似。)
Eviews主要操作步骤
回归实例
建立中国城镇居民食品消费需求函数模型。
根据需求理论,居民对食品的消费需求函数大致为:
(*)
:居民对食品的需求量, :消费者的消费支出总额
:食品价格指数, :居民消费价格总指数。
零阶齐次性,当所有商品和消费者货币支出总额按同一比例变动时,需求量保持不变
(**)
为了进行比较,将同时估计(*)式与(**)式。
考虑到零阶齐次性时
(****)式也可看成是对(***)式施加如下约束而得:
因此,对(****)式进行回归,就意味着原需求函数满足零阶齐次性条件。
首先,确定具体的函数形式,根据恩格尔定律,居民对食品的消费支出与居民的总支出间呈幂函数的变化关系:
对数变换:
(***)
(****)
X:人均消费
X1:人均食品消费
GP:居民消费价格指数
FP:居民食品消费价格指数
XC:人均消费(90年价)
Q:人均食品消费(90年价)
P0:居民消费价格缩减指数(1990=100)
P:居民食品消费价格缩减指数(1990=100
中国城镇居民人均食品消费
特征:
消费行为在1981-1995年间表现出较强的一致性;
1995年之后呈现出另外一种变动特征。
建立1981~1994年中国城镇居民对食品的消费需求模型:
() () () ()
,
各变量的弹性和 比较接近于零,但不为零,按零阶齐次性表达式回归:
() () ()
,
,
为了比较,改写该式为:
与
接近。意味着:所建立的食品需求函数满足零阶齐次性特征。
多元线性回归模型及其假定条件
现实生活中引起被解释变量变化的因素并非仅只一个解释变量,可能有很多个解释变量。
例如,产出往往受各种投入要素——资本、劳动、技术等的影响;销售额往往受价格和公司对广告费的投入的影响等。
所以多元线性模型——解释变量个数≥ 2更为常见
模型的建立
在实际问题中,有时一个变量受到一个或多个解释变量影响。这时就需要建立多元回归模型进行研究。假定变量yt与k 个变量xjt, j = 1, … , k – 1,存在线性关系。多元线性回归模型表示为:
其中yt是被解释变量(因变量),xjt 是解释变量(自变量),ut是随机误差项,i, i = 0, 1, … , k - 1是回归参数(通常未知)。这说明xjt, j = 1, … , k, 是yt的重要解释变量。 ut代表众多影响yt变化的微小因素。
当给定一个容量为 的样本,样本观测值为
得
当给定一个容量为
得:
为保证用OLS法得到最优估计量,该回归模型应满足如下假定条件。
假定 ⑴ 随机误差项向量u是非自相关的,同方差的。其中每一项都满足均值为零,方差为 ,相同且为有限值,即
且
假定⑵ 解释变量与误差项相互独立,即
假定⑶ 解释变量之间线性无关。
其中 表示矩阵的秩。
假定⑷ 解释变量是非随机的,且当 时
多元线性回归模型的参数估计
1. 普通最小二乘法(OLS)
最小二乘法(OLS)的原理是通过求残差(误差项的估计值)平方和最小确定回归参数估计值。这是求极值问题。用Q表示残差平方和,求其最小值条件下的回归参数的估计值。
得到下列方程组
求参数估计值的实质是求一个k+1元方程组
(2)正规方程
最小二乘法的矩阵表示
(3)正规方程的结构
——被解释变量观测值 nx1
——解释变量观测值(含虚拟变量 nx(k+1) )
——设计矩阵(实对称(k+1) x (k+1)矩阵 )
——正规方程右端 (k+1) x 1
——回归系数矩阵 (k+1) x 1
——高斯乘数矩阵, 设计矩阵的逆
——残差向量( n x 1 )
——被解释变量的拟合(预测)向量 n x 1
(4)最小二乘估计量的性质
线性(估计量都是被解释变量观测值的线性组合)
无偏性(估计量的数学期望=被估计的真值)
有效性(估计量的方差是所有线性无偏估计中最小的)
1) 线性
因为X的元素是非随机的,(X ‘X)-1X 是一个常数矩阵,由上式知
是Y的线性组合,为线性估计量,具有线性特性。
2) 无偏特性
3) 有效性
具有最小方差特性。
(5)随机误差项的方差 的估计量
若 已知,则
定义
则上式写为
矩阵M有如下性质:
(6)样本容量问题
样本是一个重要的实际问题,模型依赖于实际样本。
获取样本需要成本,企图通过样本容量的确定减轻收集数据的困难。
最小样本容量:满足基本要求的样本容量
存在 为 阶的满秩阵
因此,必须有 ,此为最小样本容量,满足基本要求的样本容量。一般经验认为:
n ≥ 30或者n ≥ 3(k+1)才能满足模型估计的基本要求。
n ≥ 3(k+1)时,t分布才稳定,检验才较为有效
多元线性回归模型的统计检验
回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归。
尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。
那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。
主要包括拟合优度检验、变量的显著性检验及模型整体的显著性检验。
(1)拟合优度检验
总离差平方和的分解
Y
X
0
*
*
*
*
*
*
*
△
*
*
*
*
Y9
由回归方程解释的部分,表示解释变量X对Y的线性影响
残差项,表示回归方程不能解释的部分
总离差平方和(TSS)
回归平方和(ESS)
残差平方和(RSS)
,
,
注意英文缩小的含义
TSS:Total Square Sum / 总离差平方和
RSS:Regression Square Sum / 回归平方和
Residual Square Sum / 残差平方和
ESS:Error Square Sum / 误差平方和(残差平方和)
Explain Square Sum / 解释平方和(回归平方和)
平方和分解的意义
TSS=RSS+ESS
被解释变量Y总的变动(差异)= 解释变量X引起的变动(差异)+ 除X以外的因素引起的变动(差异)
如果X引起的变动在Y的总变动中占很大比例,那么X很好地解释了Y;否则,X不能很好地解释Y。
(2)样本可决系数
样本可决系数是拟合优度评价的最重要指标,残差的标准差也能作为拟合优度评价的参考指标
样本可决系数(The coefficient of Determination)R2
随机项μ的方差σ2的最小二乘估计量
相关系数计算方法与样本决定系数一样含义有所不同:
样本可决系数是判断回归方程与样本观测值拟合优度的一个数量指标,隐含的前提条件是X和Y具有因果关系
相关系数是判断两个随机变量线性相关的密切程度,不考虑因果关系。
调整的可决系数(adjusted coefficient of detemination),增加解释变量时,很可能增加R2,容易引起错觉,认为只要在回归模型中增加解释变量就可以了,因此考虑对R2进行修正
思考:调整的可决系数能否为负?如果为负,说明什么问题?
注意TSS、ESS、RSS的自由度:TSS(离差平方和): n-1;RSS(残差平方和):n-k-1;ESS(回归平方和):k。
(3)赤池信息准则和施瓦茨准则
为了比较所含解释变量个数不同的多元回归模型的拟合优度,常用的标准还有赤池信息准则和施瓦茨准则
赤池信息准则的定义为:
施瓦茨准则的定义为:
上面的两个准则均要求仅当所增加的解释变量能够减少AIC和SC的值时,才允许在模型中增加该解释变量
(4)方程整体线性的显著性检验(F检验)
检验估计的回归方程作为一个整体的统计显著性
由于 服从正态分布, 一组样本的平方和服从 分布,有
:至少其中一个不为0
若 拒绝 ,否则不拒绝
(5)参数估计量的t检验
检验回归方程中每个解释变量的统计显著性
主对角线上的元素称为高斯乘数,乘上 就是对应系数的方差
参数的置信区间为
容易推出:在(1-)的置信水平下i的置信区间是
其中,t/2为显著性水平为 、自由度为n-k-1的t分布的临界值。
若 拒绝 认为 与0有显著的差异
或者根据 查t分布表的概率p,若 拒绝
(6)回归模型统计检验的步骤
查看拟合优度,进行F检验,从整体上判断回归方程是否成立,如果F检验通不过,无须进行下一步;否则进行下一步
查看各个变量的t值及其相应的概率,进行t检验,如果相应的概率小于给定的显著水平,该自变量的系数显著地不为0,该自变量对因变量作用显著;否则系数与0无显著差异(本质上=0),该自变量对因变量无显著的作用,应从方程中删去,重新估计方程。
但是,一次只能将最不显著(相应概率最大)的删除。每次删除一个,直至全部显著。
多元线性回归模型的预测
对于模型
给定样本以外的解释变量的观测值X0=(1,X01,X02,…,X0k),可以得到被解释变量的预测值:
它可以是总体均值E(Y0)或个值Y0的预测。
但严格地说,这只是被解释变量的预测值的估计值,而不是预测值。为了进行科学预测,还需求出预测值的置信区间,包括E(Y0)和Y0的置信区间。
1. E(Y0)的置信区间
易知
)
(
)
ˆ
(
)
ˆ
(
)
ˆ
(
0
0
Y
E
E
E
Y
E
=
=
=
=
B
X
B
X
B
X
0
0
0
容易证明
于是,得到(1-)的置信水平下E(Y0)的置信区间:
其中,t/2为(1-)的置信水平下的临界值。
)
,
(
~
ˆ
0
2
0
X
X)
X
(
X
B
X
1
0
0
¢
¢
-
s
N
Y
取随机扰动项的样本估计量 ,可得t的方差的估计量
2. Y0的置信区间
如果已经知道实际的预测值Y0,那么预测误差为:
容易证明
0
)
)
(
(
))
ˆ
(
(
)
ˆ
(
)
(
1
0
0
0
0
0
0
0
0
=
¢
¢
-
=
-
-
=
-
+
=
-
μ
X
X
X
X
B
B
X
B
X
B
X
m
m
m
E
E
E
e
E
e0服从正态分布,即
构造t统计量
可得给定(1-)的置信水平下Y0的置信区间:
取随机扰动项的样本估计量 ,可得 的方差的估计量
中南大学数学科学与计算技术学院
内生变量又称为被解释变量