智库文档所有分类

科学计算与数学建模——统计预测方法及预测模型.ppt

下载

用户#181

145页 | 2.10MB | 5次下载 |

4.3

(10人评价)

我要评价：

投诉举报

用手机看文档

扫一扫,手机看文档

下载

开通VIP

科学计算与数学建模中南大学数学科学与计算技术学院 —— 统计预测方法及预测模型第十章统计预测方法及预测模型统计预测的基本问题 1 趋势外推预测 2 时间序列的确定性因素分析 3 回归预测法 4 1 多元线性回归模型及其假定条件 5 统计预测的基本问题统计预测方法的分类及其选择统计预测的原则和步骤统计预测的概念和作用统计预测的概念和作用 (一)统计预测的概念概念: 预测就是根据过去和现在估计未来，预测未来。统计预测属于预测方法研究范畴，即如何利用科学的统计方法对事物的未来发展进行定量推测. 例1 下表是我国1952年到1983年社会商品零售总额（按当年价格计算），分析预测我国社会商品零售总额。 22 1973 11 1962 32 1983 21 1972 10 1961 31 1982 20 1971 9 1960 30 1981 19 1970 8 1959 29 1980 18 1969 7 1958 28 1979 17 1968 6 1957 27 1978 16 1967 5 1956 26 1977 15 1966 4 1955 25 1976 14 1965 3 1954 24 1975 13 1964 2 1953 23 1974 12 1963 1 1952 总额（ yt ）时序（t）年份总额（ yt ）时序（t）年份总额（ yt ）时序（t）年份实际资料是预测的依据；理论是预测的基础；数学模型是预测的手段。统计预测的三个要素：统计预测方法是一种具有通用性的方法。 (二)统计预测的作用在市场经济条件下，预测的作用是通过各个企业或行业内部的行动计划和决策来实现的; 统计预测作用的大小取决于预测结果所产生的效益的多少。影响预测作用大小的因素主要有：预测费用的高低；预测方法的难易程度；预测结果的精确程度。统计预测方法的分类和选择统计预测方法可归纳分为定性预测方法和定量预测方法两类，其中定量预测法又可大致分为趋势外推预测法、时间序列预测法和回归预测法,; 按预测时间长短分为近期预测、短期预测、中期预测和长期预测; 按预测是否重复分为一次性预测和反复预测。 (一)统计预测方法的分类 (三)定量预测定量预测的概念: 定量预测也称统计预测，它是根据已掌握的比较完备的历史统计数据，运用一定的数学方法进行科学的加工整理，借以揭示有关变量之间的规律性联系，用于预测和推测未来发展变化情况的一类预测方法 (二)统计预测方法的选择统计预测方法时，主要考虑下列三个问题：合适性费用精确性只需要因变量的历史资料，但用趋势图做试探时很费时必须收集历史数据，并用几个非线性模型试验为所有变量收集历史数据是此预测中最费时的为两个变量收集历史数据，此项工作是此预测中最费时的需做大量的调查研究工作应做工作与非线性回归预测法相同在两个变量情况下可用计算器，多于两个变量的情况下用计算机在两个自变量情况下可用计算器，多于两个自变量的情况下用计算机计算器计算器计算机硬件最低要求当被预测项目的有关变量用时间表示时，用非线性回归因变量与一个自变量或多个其它自变量之间存在某种非线性关系因变量与两个或两个以上自变量之间存在线性关系自变量与因变量之间存在线性关系对缺乏历史统计资料或趋势面临转折的事件进行预测适用情况中期到长期短、中期短、中期短、中期短、中、长期时间范围趋势外推法非线性回归预测法多元线性回归预测法一元线性回归预测法定性预测法方法只需要序列的历史资料计算器适用于一次性的短期预测或在使用其他预测方法前消除季节变动的因素短期分解分析法计算过程复杂、繁琐只需要因变量的历史资料，但制定并检查模型规格很费时间只需要因变量的历史资料，是一切反复预测中最简易的方法，但建立模型所费的时间与自适应过滤法不相上下只需要因变量的历史资料，但初次选择权数时很费时间应做工作计算机计算机在用计算机建立模型后进行预测时，只需计算器就行了计算器计算机硬件最低要求适用于任何序列的发展型态的一种高级预测方法适用于趋势型态的性质随时间而变化，而且没有季节变动的反复预测具有或不具有季节变动的反复预测不带季节变动的反复预测适用情况短期短期短期短期时间范围平稳时间序列预测法自适应过滤法指数平滑法移动平均法方法收集历史数据及影响时间计算机适用于当时间序列受到政策干预或突发事件影响的预测短期干预分析模型预测法收集对象的历史数据并建立状态空间模型收集对象的历史数据收集大量历史资料和数据并需大量计算应做工作计算机计算机计算机计算机硬件最低要求适用于各类时间序列的预测适用于时间序列的发展呈指数型趋势适用于时间趋势延续及转折预测适用情况短、中期短、中期短、中期时间范围状态空间模型和卡尔曼滤波灰色预测法景气预测法方法在统计预测中的定量预测要使用模型外推法，使用这种方法有以下两条重要的原则：连贯原则，是指事物的发展是按一定规律进行的，在其发展过程中，这种规律贯彻始终，不应受到破坏，它的未来发展与其过去和现在的发展没有什么根本的不同；类推原则，是指事物必须有某种结构，其升降起伏变动不是杂乱无章的，而是有章可循的。事物变动的这种结构性可用数学方法加以模拟，根据所测定的模型，类比现在，预测未来。统计预测的原则和步骤 (一)统计预测的原则 (二)统计预测的步骤确定预测目的搜索和审核资料分析预测误差，改进预测模型选择预测模型和方法提出预测报告趋势外推法趋势外推法概述多项式曲线趋势外推法指数曲线趋势外推法生长曲线趋势外推法曲线拟合优度分析趋势外推法概述一、趋势外推法概念和假定条件趋势外推法概念：当预测对象依时间变化呈现某种上升或下降趋势，没有明显的季节波动，且能找到一个合适的函数曲线反映这种变化趋势时，就可以用趋势外推法进行预测。趋势外推法的两个假定：（1）假设事物发展过程没有跳跃式变化；（2）假定事物的发展因素也决定事物未来的发展，其条件是不变或变化不大。二、趋势模型的种类多项式曲线外推模型：一次（线性）预测模型：二次（二次抛物线）预测模型：三次（三次抛物线）预测模型：一般形式：指数曲线预测模型：一般形式: 修正的指数曲线预测模型：对数曲线预测模型：生长曲线趋势外推法：皮尔曲线预测模型：三、趋势模型的选择图形识别法：这种方法是通过绘制散点图来进行的，即将时间序列的数据绘制成以时间t为横轴，时序观察值为纵轴的图形，观察并将其变化曲线与各类函数曲线模型的图形进行比较，以便选择较为合适的模型。差分法：利用差分法把数据修匀，使非平稳序列达到平稳序列。一阶向后差分可以表示为：二阶向后差分可以表示为：差分法识别标准：修正指数曲线模型一阶差分的一阶比率相等或大致相等指数曲线模型一阶差分比率相等或大致相等三次线性模型三阶差分相等或大致相等二次线性模型二阶差分相等或大致相等一次线性模型一阶差分相等或大致相等使用模型差分特性多项式曲线趋势外推法一、二次多项式曲线模型及其应用二次多项式曲线预测模型为：设有一组统计数据，，…，，令即：解这个三元一次方程就可求得参数。例 1 下表是我国1952年到1983年社会商品零售总额（按当年价格计算），分析预测我国社会商品零售总额。 22 1973 11 1962 32 1983 21 1972 10 1961 31 1982 20 1971 9 1960 30 1981 19 1970 8 1959 29 1980 18 1969 7 1958 28 1979 17 1968 6 1957 27 1978 16 1967 5 1956 26 1977 15 1966 4 1955 25 1976 14 1965 3 1954 24 1975 13 1964 2 1953 23 1974 12 1963 1 1952 总额（ yt ）时序（t）年份总额（ yt ）时序（t）年份总额（ yt ）时序（t）年份（1）对数据画折线图分析，以社会商品零售总额为y 轴，年份为x 轴。（2）从图形可以看出大致的曲线增长模式，较符合的模型有二次曲线和指数曲线模型。但无法确定哪一个模型能更好地拟合该曲线，则我们将分别对该两种模型进行参数拟合。适用的二次曲线模型为：适用的指数曲线模型为：（3）进行二次曲线拟合。首先产生序列，然后运用普通最小二乘法对模型各参数进行估计。得到估计模型为：其中调整的，，则方程通过显著性检验，拟合效果很好。标准误差为。 (4) 进行指数曲线模型拟合。对模型：两边取对数：产生序列，之后进行普通最小二乘估计该模型。最终得到估计模型为：其中调整的，则方程通过显著性检验，拟合效果很好。标准误差为：。（5）通过以上两次模型的拟合分析，我们发现采用二次曲线模型拟合的效果更好。因此，运用方程：进行预测将会取得较好的效果。二、三次多项式曲线预测模型及其应用三次多项式曲线预测模型为：设有一组统计数据，，…，，令即：解这个四元一次方程就可求得参数。指数曲线趋势外推法一、指数曲线模型及其应用指数曲线预测模型为：对函数模型做线性变换得：令，则这样，就把指数曲线模型转化为直线模型了。二、修正指数曲线模型及其应用修正指数曲线预测模型为：生长曲线趋势外推法一、龚珀兹曲线模型及其应用龚珀兹曲线预测模型为：对函数模型做线性变换得：龚珀兹曲线对应于不同的lg a与b的不同取值范围而具有间断点。曲线形式如下图所示。 (1) lga<0 0<b<1 (2) lga<0 b>1 (3) lga>0 0<b<1 (4) lga>0 b>1 k k k k (1) lga<0 0<b<1 k 渐进线（k）意味着市场对某类产品的需求已逐渐接近饱和状态。 (2) lga<0 b>1 k 渐进线（k）意味着市场对某类产品的需求已由饱和状态开始下降。 (3) lga>0 0<b<1 k 渐进线（k）意味着市场对某类产品的需求下降迅速，已接近最低水平k 。 (4) lga>0 b>1 k 渐进线（k）意味着市场对某类产品的需求从最低水平k迅速上升。二、皮尔曲线模型及其应用皮尔曲线预测模型为：曲线拟合优度分析一、曲线的拟合优度分析如前所述，实际的预测对象往往无法通过图形直观确认某种模型，而是与几种模型接近。这时，一般先初选几个模型，待对模型的拟合优度分析后再确定究竟用哪一种模型。拟合优度指标：评判拟合优度的好坏一般使用样本可决系数或标准误差来作为拟合效好坏的指标：时间序列的确定性因素分析确定性因素分解趋势分析季节效应分析综合分析确定性因素分解传统的因素分解长期趋势(T) 循环波动(C) 季节性变化(S) 随机波动(I) 现在的因素分解长期趋势波动(T) 季节性变化(S) 随机波动(I) 分解的模型加法模型: 乘法模型: 混合模型: 确定性时序分析的目的克服其它因素的影响，单纯测度出某一个确定性因素对序列的影响推断出各种确定性因素彼此之间的相互作用关系及它们对序列的综合影响趋势分析目的有些时间序列具有非常显著的趋势，我们分析的目的就是要找到序列中的这种趋势，并利用这种趋势对序列的发展作出合理的预测常用方法趋势拟合法平滑法趋势拟合法趋势拟合法就是把时间作为自变量，相应的序列观察值作为因变量，建立序列值随时间变化的回归模型的方法分类线性拟合非线性拟合线性拟合使用场合长期趋势呈现出线形特征模型结构例: 拟合澳大利亚政府1981——1990年每季度的消费支出序列模型参数估计方法最小二乘估计参数估计值拟合效果图非线性拟合使用场合长期趋势呈现出非线形特征参数估计指导思想能转换成线性模型的都转换成线性模型，用线性最小二乘法进行参数估计实在不能转换成线性的，就用迭代法进行参数估计常用非线性模型－－－变换后模型迭代法－迭代法－迭代法－线性最小二乘估计线性最小二乘估计参数估计方法变换模型例：对上海证券交易所每月末上证指数序列进行模型拟合非线性拟合模型变换参数估计方法线性最小二乘估计拟合模型口径拟合效果图平滑法平滑法是进行趋势分析和预测时常用的一种方法。它是利用修匀技术，削弱短期随机波动对序列的影响，使序列平滑化，从而显示出长期趋势变化的规律常用平滑方法移动平均法指数平滑法移动平均法基本思想假定在一个比较短的时间间隔里，序列值之间的差异主要是由随机波动造成的。根据这种假定，我们可以用一定时间间隔内的平均值作为某一期的估计值分类 n期中心移动平均 n期移动平均 n期中心移动平均 5期中心移动平均 n期移动平均 5期移动平均移动平均期数确定的原则事件的发展有无周期性以周期长度作为移动平均的间隔长度，以消除周期效应的影响对趋势平滑的要求移动平均的期数越多，拟合趋势越平滑对趋势,为反映近期变化敏感程度,要求移动平均的期数越少，拟合趋势越敏感移动平均预测例某一观察值序列最后4期的观察值为： 5，，，（1）使用4期移动平均法预测。（2）求在二期预测值中前面的系数等于多少？解（1）（2）在二期预测值中前面的系数等于指数平滑法指数平滑方法的基本思想在实际生活中，我们会发现对大多数随机事件而言，一般都是近期的结果对现在的影响会大些，远期的结果对现在的影响会小些。为了更好地反映这种影响作用，我们将考虑到时间间隔对事件发展的影响，各期权重随时间间隔的增大而呈指数衰减。这就是指数平滑法的基本思想分类简单指数平滑 Holt两参数指数平滑简单指数平滑基本公式等价公式简单指数平滑预测一期预测值二期预测值期预测值经验确定初始值的确定平滑系数的确定一般对于变化缓慢的序列，常取较小的值对于变化迅速的序列，常取较大的值经验表明的值介于至之间，修匀效果比较好。例对某一观察值序列使用指数平滑法。已知，，平滑系数 (1) 求二期预测值。 (2)求在二期预测值中前面的系数等于多少？解（1）（2）所以使用简单指数平滑法二期预测值中前面的系数就等于平滑系数 Holt两参数指数平滑使用场合适用于对含有线性趋势的序列进行修匀构造思想假定序列有一个比较固定的线性趋势两参数修匀初始值的确定平滑序列的初始值趋势序列的初始值 Holt两参数指数平滑预测期预测值例对北京市1978——2000年报纸发行量序列进行Holt两参数指数平滑。指定例平滑效果图季节效应分析例以北京市1995年——2000年月平均气温序列为例，介绍季节效应分析的基本思想和具体操作步骤。时序图季节指数季节指数的概念所谓季节指数就是用简单平均法计算的周期内各时期季节性影响的相对数季节模型季节指数的计算计算周期内各期平均数计算总平均数计算季节指数季节指数的理解季节指数反映了该季度与总平均值之间的一种比较稳定的关系如果这个比值大于1，就说明该季度的值常常会高于总平均值如果这个比值小于1，就说明该季度的值常常低于总平均值如果序列的季节指数都近似等于1，那就说明该序列没有明显的季节效应例季节指数的计算例季节指数图综合分析常用综合分析模型加法模型乘法模型混合模型例对1993年—2000年中国社会消费品零售总额序列（数据见附录）进行确定性时序分析。 (1)绘制时序图 (2)选择拟合模型长期递增趋势和以年为固定周期的季节波动同时作用于该序列，因而尝试使用混合模型（b）拟合该序列的发展 (3)计算季节指数 12 6 11 5 10 4 9 3 8 2 7 1 季节指数月份季节指数月份季节指数图季节调整后的序列图 (4)拟合长期趋势 (5)残差检验 (6)短期预测回归预测法回归预测法，是分析因变量与自变量之间相互关系，用回归方程表示，根据自变量的数值变化，去预测因变量数值变化的方法。在经济预测中，人们把预测对象当作因变量，把那些与预测对象有关的因素当作自变量，收集自变量的充分数据，应用相关分析和回归分析求得回归方程，并利用回归方程进行预测。回归预测法中的自变量，与时间序列预测法中的自变量不相同。后者的自变量是时间本身，而前者的自变量不是时间本身，而是其他的变量。回归预测法中的自变量与因变量之间，有的属于因果关系，有的屑于伴随关系。不能认为只有因果关系才能进行回归预测，实际上伴随关系也是一种相关关系，只要收集大量的足够的资料，也可以用回归预测法进行预测。在回归预测法中，自变量不是随机的或者是给定的，这与相关分析中自变量有所区别。相关分析中的自变量是随机的。 a. 影响GDP增长的因素有哪些（投资、消费、出口、货币供应量等）？ b. GDP与各种因素关系的性质是什么？（增、减） c. 各影响因素与GDP的具体的数量关系？ d. 所作数量分析结果的可靠性如何？ e. 今后的发展趋势怎么样？例1：研究中国的GDP增长实例引入例2：中国家庭汽车市场 a：汽车市场状况如何（销售量） b: 影响汽车销售量的主要因素是什么（收入、价格、道路状况等）？ c: 各种因素对汽车销售量影响的性质怎样（正、负、无）？ d: 各种因素影响汽车销量的具体数量程度？ e: 以上分析所得结论是否可靠？ f: 今后发展的趋势怎样？以上问题的共性提出所研究的问题分析影响因素（根据经济理论、实际经验）分析各种因素与所研究的现象的相互关系（需要科学的数量分析方法）分析所研究的现象与各种影响因素的数量关系（需要运用统计方法）分析和检验所得数量结论的可靠性；测算所研究经济问题的发展趋势（预测未来）一、变量：在不同时间、空间有不同状况，取不同数值的因素称为变量。其分类为： 1、被解释变量(因变量) 变量、参数、数据 2、解释变量(自变量) 3、滞后变量被解释变量（因变量）：模型中要分析研究的变量解释变量（自变量）：说明因变量变动原因的变量例：收入决定模型（其中：消费支出C、投资I、进口IM 、税收T、收入Y、政府支出G、出口E）其中：消费支出C、投资I、进口IM 、税收T、收入Y是被解释(内生)变量政府支出G、出口E、是解释变量（通过计划、预算来确定）（有两个滞后变量，作用视同解释变量）二、数据 1、时间序列数据：按照时间先后顺序排列的统计数据（例：时期、时点指标） 3、混合数据：既有时间序列数据，又有截面数据（例：居民收支调查中收集的对各个固定调查户在不同时期的调查数据）。 2、截面数据：是在同一时间，不同空间的某个指标组成的数列（如：工业普查数据、人口普查数据、家计调查数据等）。 4、虚拟变量数据：仅取0和1两个变量值的模型建立步骤可以运用计量方法研究这类问题，一般分为四个步骤：模型设定估计参数模型检验模型应用研究过程有关理论实践活动搜集统计数据设定计量模型参数估计模型检验预测政策评价模型修订结构分析符合不符合是否符合标准模型应用模型设定经济模型：模型：对经济现象或过程的一种数学模拟。设定（Specification）:把所研究的经济变量之间的关系用适当的数学关系式表达出来。（例:消费函数 y=a+bx ）构成计量经济模型的要素(例：消费函数y=a+bx+u) ** 经济变量（y,x） ** 经济参数（a,b，待估计） ** 随机扰动项u 模型构成要素之说明（例：消费函数y=a+bx+u ） ** 经济变量（y,x）：不同时间、不同空间的表现不同，取值不同，可以观测。 ** 经济参数（a,b）：比较稳定的因素，决定经济的特征。参数是计量经济模型中表现经济变量相互依存程度的因素，是一个相对稳定的量设定模型的要求要有科学的理论依据；选择适当的数学形式（单方程还是多方程，线性还是非线性的选择。方程应是有解的，形式尽可能简单）；模型要兼顾真实性和实用性；包含随机扰动项；方程中的变量要具有可观测性；建模步骤经济理论或假说的陈述；建立数学（数理经济）模型；建立统计或计量经济模型；收集处理数据；模型的参数估计；检验来自模型的假说——现实意义检验；检验模型的正确性——模型的假设检验；模型的运用——预测、结构分析、政策模拟等估计参数一般地，参数是未知的，不可直接观测。参数要通过样本数据，选择适当的方法加以估计。（如何通过样本数据估计参数是计量经济学的核心内容）参数估计值：所估计的参数的具体数值参数估计式：用未知的样本数据表示的待估计参数表达式。参数估计的常用方法：普通最小二乘法（OLS），极大似然估计法（ML）等。模型检验检验是对模型和所估计的参数加以评定，判断在经济理论上是否有意义，在统计上是否显著。为什么要进行检验？理论依据可能不充分；统计数据或其他信息可能不可靠样本可能较小，结论只是抽样的某种偶然结果。可能违反计量经济估计的基本假定。模型的检验方式 **理论意义,现实意义检验：是否与理论、现实相符； **统计推断检验：检验参数值是否为抽样的偶然结果； **计量检验：是否符合基本假定； **预测检验：将模型预测结果与现象运行的实际对比。模型应用结构分析：分析变量之间的数量比例关系，如边际分析、弹性分析（变化率之比）、乘数分析（变化量之比）、比较静力学分析预测：包含动态预测和空间预测。（对非稳定发展的过程无能为力，滞后于理论和现实的模型在应用中也会遇到障碍。）政策评价: 用模型对政策方案作模拟测算，对政策方案作评价。模型形式 a．线性模型 b．非线性模型：双对数模型、半对数模型、倒数模型非线性模型一般都要转化为线性模型来估计。 1、线性模型（对变量、参数） 2、非线性模型（被解释与解释变量之间、被解释变量与参数之间）例如：（1、2可线性化）（1）多项式函数常见的可线性化模型：（2）双对数方程　基本形式（幂函数）：双对数方程的斜率参数可以衡量因变量Y关于解释变量X的弹性(表示：当X每变动1%时，因变量Y平均变动的百分比）。事实上，有 (3) 半对数方程在第一个方程中斜率参数等于Y的相对变动与X绝对变动之比。模型叫增长模型，它可以描述某种经济现象随着时间变化而变动的趋势。第二个半对数方程的斜率系数表示当自变量发生一个单位的相对变动时，引起的因变量Y的平均绝对变动。（4）倒数变换模型基本形式：注：，Y 随着X增大而非线性地增大，最终接近一条直线，Y 随着X的增加而非线性地减少。重要特点：被解释变量Y存在极限。例：若Y为平均成本，X为产量，则平均成本Y随着产量增加而不断下降，但它决不可能等于或小于。一、启动软件包（双击“Eviews”，进入Eviews主页）二、创建工作文件（点击“File/New/Workfile/Ok”）出现“Workfile Range”，目的： 1、选择数据频率（类型）： Annual (年度) Quartely（季度） ┆ Undated or irrequar（未注明日期或不规则的） 2、确定Start date 和End date（如1980 1999或1 18 /ok）。出现“Workfile对话框（子窗口）”中已有两个变量： c-----常数项 resid----模型将产生的残差项网站：计量经济学园地（http：// 复旦计量金融网（http：//）（下载完毕后，点击SETUP安装，安装过程与其他软件安装类似。） Eviews主要操作步骤回归实例建立中国城镇居民食品消费需求函数模型。根据需求理论，居民对食品的消费需求函数大致为: (*) ：居民对食品的需求量，：消费者的消费支出总额：食品价格指数，：居民消费价格总指数。零阶齐次性，当所有商品和消费者货币支出总额按同一比例变动时，需求量保持不变 (**) 为了进行比较，将同时估计（*）式与（**）式。考虑到零阶齐次性时 (****)式也可看成是对（***）式施加如下约束而得: 因此，对（****）式进行回归，就意味着原需求函数满足零阶齐次性条件。首先,确定具体的函数形式，根据恩格尔定律，居民对食品的消费支出与居民的总支出间呈幂函数的变化关系: 对数变换: (***) (****) X：人均消费 X1：人均食品消费 GP：居民消费价格指数 FP：居民食品消费价格指数 XC：人均消费（90年价） Q：人均食品消费（90年价） P0：居民消费价格缩减指数（1990=100） P：居民食品消费价格缩减指数（1990=100 中国城镇居民人均食品消费特征：消费行为在1981-1995年间表现出较强的一致性； 1995年之后呈现出另外一种变动特征。建立1981~1994年中国城镇居民对食品的消费需求模型: () () () () ，各变量的弹性和比较接近于零，但不为零，按零阶齐次性表达式回归： () () () ，，为了比较，改写该式为：与接近。意味着：所建立的食品需求函数满足零阶齐次性特征。多元线性回归模型及其假定条件现实生活中引起被解释变量变化的因素并非仅只一个解释变量，可能有很多个解释变量。例如，产出往往受各种投入要素——资本、劳动、技术等的影响；销售额往往受价格和公司对广告费的投入的影响等。所以多元线性模型——解释变量个数≥ 2更为常见模型的建立在实际问题中，有时一个变量受到一个或多个解释变量影响。这时就需要建立多元回归模型进行研究。假定变量yt与k 个变量xjt, j = 1, … , k – 1，存在线性关系。多元线性回归模型表示为：其中yt是被解释变量（因变量），xjt 是解释变量（自变量），ut是随机误差项，i, i = 0, 1, … , k - 1是回归参数（通常未知）。这说明xjt, j = 1, … , k, 是yt的重要解释变量。 ut代表众多影响yt变化的微小因素。当给定一个容量为的样本，样本观测值为得当给定一个容量为得：为保证用OLS法得到最优估计量，该回归模型应满足如下假定条件。假定 ⑴ 随机误差项向量u是非自相关的，同方差的。其中每一项都满足均值为零，方差为，相同且为有限值，即　且假定⑵ 解释变量与误差项相互独立，即假定⑶ 解释变量之间线性无关。其中表示矩阵的秩。假定⑷ 解释变量是非随机的，且当时多元线性回归模型的参数估计 1. 普通最小二乘法(OLS) 最小二乘法(OLS)的原理是通过求残差（误差项的估计值）平方和最小确定回归参数估计值。这是求极值问题。用Q表示残差平方和，求其最小值条件下的回归参数的估计值。得到下列方程组求参数估计值的实质是求一个k+1元方程组（2）正规方程最小二乘法的矩阵表示（3）正规方程的结构 ——被解释变量观测值 nx1 ——解释变量观测值（含虚拟变量 nx(k+1) ） ——设计矩阵（实对称(k+1) x (k+1)矩阵） ——正规方程右端 (k+1) x 1 ——回归系数矩阵 (k+1) x 1 ——高斯乘数矩阵，设计矩阵的逆 ——残差向量（ n x 1 ） ——被解释变量的拟合（预测）向量 n x 1 （4）最小二乘估计量的性质线性（估计量都是被解释变量观测值的线性组合）无偏性（估计量的数学期望=被估计的真值）有效性（估计量的方差是所有线性无偏估计中最小的） 1)　线性因为X的元素是非随机的，(X ‘X)-1X 是一个常数矩阵，由上式知是Y的线性组合，为线性估计量，具有线性特性。 2) 无偏特性 3) 有效性具有最小方差特性。（5）随机误差项的方差的估计量若已知，则定义则上式写为矩阵M有如下性质：（6）样本容量问题样本是一个重要的实际问题，模型依赖于实际样本。获取样本需要成本，企图通过样本容量的确定减轻收集数据的困难。最小样本容量：满足基本要求的样本容量存在  为阶的满秩阵因此，必须有，此为最小样本容量，满足基本要求的样本容量。一般经验认为： n ≥ 30或者n ≥ 3(k+1)才能满足模型估计的基本要求。 n ≥ 3(k+1)时，t分布才稳定，检验才较为有效多元线性回归模型的统计检验回归分析是要通过样本所估计的参数来代替总体的真实参数，或者说是用样本回归线代替总体回归。尽管从统计性质上已知，如果有足够多的重复抽样，参数的估计值的期望（均值）就等于其总体的参数真值，但在一次抽样中，估计值不一定就等于该真值。那么，在一次抽样中，参数的估计值与真值的差异有多大，是否显著，这就需要进一步进行统计检验。主要包括拟合优度检验、变量的显著性检验及模型整体的显著性检验。（1）拟合优度检验总离差平方和的分解 Y X 0 * * * * * * * △ * * * * Y9 由回归方程解释的部分，表示解释变量X对Y的线性影响残差项，表示回归方程不能解释的部分总离差平方和（TSS）回归平方和（ESS）残差平方和（RSS），，注意英文缩小的含义 TSS：Total Square Sum / 总离差平方和 RSS：Regression Square Sum / 回归平方和 Residual Square Sum / 残差平方和 ESS：Error Square Sum / 误差平方和（残差平方和） Explain Square Sum / 解释平方和（回归平方和）平方和分解的意义 TSS=RSS+ESS 被解释变量Y总的变动（差异）= 解释变量X引起的变动（差异）+ 除X以外的因素引起的变动（差异）如果X引起的变动在Y的总变动中占很大比例，那么X很好地解释了Y；否则，X不能很好地解释Y。 (2)样本可决系数样本可决系数是拟合优度评价的最重要指标，残差的标准差也能作为拟合优度评价的参考指标样本可决系数（The coefficient of Determination）R2 随机项μ的方差σ2的最小二乘估计量相关系数计算方法与样本决定系数一样含义有所不同：样本可决系数是判断回归方程与样本观测值拟合优度的一个数量指标，隐含的前提条件是X和Y具有因果关系相关系数是判断两个随机变量线性相关的密切程度，不考虑因果关系。调整的可决系数(adjusted coefficient of detemination)，增加解释变量时，很可能增加R2，容易引起错觉，认为只要在回归模型中增加解释变量就可以了，因此考虑对R2进行修正思考：调整的可决系数能否为负？如果为负，说明什么问题？注意TSS、ESS、RSS的自由度：TSS(离差平方和): n-1；RSS(残差平方和):n-k-1；ESS(回归平方和):k。（3）赤池信息准则和施瓦茨准则为了比较所含解释变量个数不同的多元回归模型的拟合优度,常用的标准还有赤池信息准则和施瓦茨准则赤池信息准则的定义为: 施瓦茨准则的定义为: 上面的两个准则均要求仅当所增加的解释变量能够减少AIC和SC的值时,才允许在模型中增加该解释变量（4）方程整体线性的显著性检验(F检验) 检验估计的回归方程作为一个整体的统计显著性由于服从正态分布，一组样本的平方和服从分布，有：至少其中一个不为0 若拒绝，否则不拒绝（5）参数估计量的t检验检验回归方程中每个解释变量的统计显著性主对角线上的元素称为高斯乘数，乘上就是对应系数的方差参数的置信区间为容易推出：在(1-)的置信水平下i的置信区间是其中，t/2为显著性水平为 、自由度为n-k-1的t分布的临界值。若拒绝认为与0有显著的差异或者根据查t分布表的概率p，若拒绝（6）回归模型统计检验的步骤查看拟合优度，进行F检验，从整体上判断回归方程是否成立，如果F检验通不过，无须进行下一步；否则进行下一步查看各个变量的t值及其相应的概率，进行t检验，如果相应的概率小于给定的显著水平，该自变量的系数显著地不为0，该自变量对因变量作用显著；否则系数与0无显著差异（本质上=0），该自变量对因变量无显著的作用，应从方程中删去，重新估计方程。但是，一次只能将最不显著（相应概率最大）的删除。每次删除一个，直至全部显著。多元线性回归模型的预测对于模型给定样本以外的解释变量的观测值X0=(1,X01,X02,…,X0k)，可以得到被解释变量的预测值：它可以是总体均值E(Y0)或个值Y0的预测。但严格地说，这只是被解释变量的预测值的估计值，而不是预测值。为了进行科学预测，还需求出预测值的置信区间，包括E(Y0)和Y0的置信区间。 1. E(Y0)的置信区间易知 ) ( ) ˆ ( ) ˆ ( ) ˆ ( 0 0 Y E E E Y E = = = = B X B X B X 0 0 0 容易证明于是，得到(1-)的置信水平下E(Y0)的置信区间：其中，t/2为(1-)的置信水平下的临界值。 ) , ( ~ ˆ 0 2 0 X X) X ( X B X 1 0 0 ¢ ¢ - s N Y 取随机扰动项的样本估计量，可得t的方差的估计量 2. Y0的置信区间如果已经知道实际的预测值Y0，那么预测误差为：容易证明 0 ) ) ( ( )) ˆ ( ( ) ˆ ( ) ( 1 0 0 0 0 0 0 0 0 = ¢ ¢ - = - - = - + = - μ X X X X B B X B X B X m m m E E E e E e0服从正态分布，即构造t统计量可得给定(1-)的置信水平下Y0的置信区间：取随机扰动项的样本估计量，可得的方差的估计量中南大学数学科学与计算技术学院内生变量又称为被解释变量

联系我们

智库文档公众号

客服微信

科学计算与数学建模——统计预测方法及预测模型.ppt

下载

标签

相关文档

联系我们

意见反馈