第四章 回归分析
简单回归分析法
多元线性回归分析
逐步回归分析
多对多线性回归分析
岭回归分析
趋势面分析
回归分析概论
回归分析是研究一个变量或多个变量(即因变量)对于另外一个或多个其他变量(即解释变量)的依存关系,并用数学模型加以模拟,目的在于根据模型对因变量进行因素分析、趋势预测及误差分析等。一般地,把在研究回归模型时所采用的估计、计算方法,检验、分析理论统称为回归分析。回归分析方法又称因素分析方法、经济计量模型方法。属于多元统计分析方法之一。
回归分析的一般步骤是:
根据研究问题的性质、要求,建立回归模型;
根据样本观测值对回归模型参数进行估计,求得回归方程;
对回归方程、参数估计值进行显著性检验,并从影响因变量的自变量中判断哪些显著,哪些不显著;
利用回归方程进行因素分析、趋势预测及误差分析。
第一节 简单回归分析法
一、模型和参数估计
二、模型的检验
三、进行预测
四、简单回归分析在Excel下的实现
模型和参数估计
(一)模型
1.总体回归模型
我们要研究对象是某个总体中两个变
量之间的依存关系,设因变量为 ,主要影
响因素为自变量 ,假定它们之间呈线性
关系。则建立的模型为:
2.样本回归模型
在现实生活中,事实上,我们是很难直接得到总体模型的。而是采用抽样的方法,从总体中抽取容量为n的一个样本。根据样本的资料来推断总体的。具体这里,就是要根据样本资料建立样本模型,用样本模型来推断总体模型。
样本回归模型:
(二) 参数估计
根据上述建立模型的思路,以及用样本资料来推断总体的要求,进一步需要回答以下的两个问题:
一是,如何根据给定的样本资料,求出估计值 和 。
二是,为什么用估计值 和 就可以来推断总体的参数 和 。
关于第一个问题。给定的样本资料后,依照不同的准则,采用不同的估计方法,可以得到不同的估计值。在应用中,通常采用最小二乘法的估计方法。
对于给定的样本资料
关于第二个问题。在遵循随机抽样的原则下,给定一个样本资料运用最小二乘估计方法,就可以得到一个 和 ,不同
的样本资料就可以得到不同的 和 。
模型的检验
(一)模型检验的原因
(二)检验的内容及方法
1. 回归系数的显著性检验
2.回归方程的显著性检验
回归方程的显著性检验,就是要检验样本回归方程是否能够很好拟合样本数据。对于给定的具体样本数据,样本方程 作为一个整体来拟合样本数据以及样本模型,样本方程对样本数据拟合的好坏,关系着方程是否有意义,关系着应用的效果。如果方程不能对样本数据进行很好的拟合,求出的样本方程也就没有存在的意义了。
3. D.W检验
导致回归余项序列相关的可能原因:
(1)模型中遗漏关键变量时产生序列的自相关性;
(2)经济变量的滞后性会给序列带来自相关性;许多的经济变量都会产生滞后影响,例如物价指数、投资等。
(3)采用错误的回归函数形式也可能引起自相关性;
(4)经济变量序列中包含有较强的趋势性也会导致自相关性;
(5)因对序列进行了加工整理如季节调整、数据修匀等而导致误差之间产生自相关性。
4. 回归标准差
5. 拟合优度检验
进行预测
预测是给定了自变量x的一组未来数值后,利用回归方程计算出相应的因变量y的未来值。预测有点预测和区间预测两类。
1.点预测
点预测,是将自变量的未来数值,直接代
入回归方程计算出相应的因变量的未来值即可。
2.区间预测
第二节 多元线性回归分析
一、模型和参数估计
二、模型检验
三、多重共线性
四、回归模型的变量子集合的选择
五、多元线性回归模型在Excel下的实现
模型和参数估计
(一)总体回归模型
(二)样本回归模型
在现实生活中,我们是很难掌握总体资料的。而是采用抽样的方法,从总体中抽取容量为的一个样本。根据样本的资料来推断总体的。具体这里,就是要根据样本资料建立样本模型,用样本模型来推断总体模型。设某具体样本资料如下:
(三)参数估计
利用样本资料对多元线性回归总体模型参数进行估计与一元线性回归一样,采用最小二乘法,其原理是使离差平方和达到最小,即
达到最小.
对上式求偏导并令其为0,得方程为:
该方程称为正规方程,求解方程即得参数估计值
。
上述过程也可以通过矩阵形式来进行。样本模型表
示为 。
根据证明,上述最小二乘估计量b具有以下的统计特性:
对参数的估计值进行应用时注意:
1. 参数估计值以及各种符号的实际意义。模型中的参数,对不同的预测对象有不同的含义。参数估计值的符号和大小,要符合它的实际意义。其中 表示其他变量保持不变时,自变量 变化一个单位因变量变化多少,因此,经济分析中,通过 可以求得边际,而且通过对数回归还可以求得弹性。
2. 参数估计值的符号和大小不符合其实际含义,其可能原因是:
某些自变量的取值范围太窄;模型中遗漏了某些重要的因素;模型中自变量之间存在较强的线性关系。
模型检验
(一)回归系数的显著性检验
回归系数反映因变量与自变量之间的线性变化关系,回归系数的假设检验的就是要检验这种线性关系是否显著,如果某一回归系数的估计量在给定的显著水平下,显著不等于0,说明自变量与因变量之间存在较强的线性关系,自变量能够很好的解释因变量的变化关系,符合模型的假设,变量也保留在模型中。若相反,某回归系数与0无显著不同,表明该自变量的变化无助于解释因变量的变化,该自变量是否应作为自变量留在模型中,则需要进一步考虑。
(二)回归方程的显著性检验
回归方程检验,检验样本回归方程的回归拟合效果是否显著,实质是对样本回归模型的整体线性关系的显著性检验,即检验下列假设是否为真
(三)可决系数以及修正可决系数
与一元回归一样,可决系数的计算公式为:
(四)其他检验
多元线性回归方程也需要进行残差序列的自相关检验(D.W检验)和回归标准差的计算,D.W检验的方法与一元线性回归一样,但回归标准差的计算公式为:
多重共线性
多重共线性是多元回归分析中出现的特有问题,在总体模型中,我们曾假定自变量之间是互不相关的,但是我们在实际应用中,往往会遇到两个或更多个自变量之间具有明显的相关性,简称为自变量的多重共线性。如研究国家财政收入的变化,若选择国民收入、工业总产值、农业总产值等为解释变量时,则自变量之间趋向于有高度的相关。若发生了多重共线性问题,则前面的一系列统计方法就会失效,导致错误的判定,使预测失误。
(一)多重共线性的影响
1.由于多重共线性的存在会改变回归系数。
2.多重共线性不降低模型的拟合能力,但使回归平方和、剩余平方和的含义变得模糊。
(二)多重共线性的识别
模型中是否存在多重共线性,可通过以下的方法进行识别。
(1)F检验通过,而有的回归系数的t检验未通过;
(2)模型中引入或剔除一个自变量,回归系数的估计值有较大的变化;
(3)回归系数估计值的符号与实际经验判断相反;
(4)简单相关系数矩阵中,两个自变量之间的相关系数值较大。通常,简单相关系数r>,应考虑有多重共线性存在。
(三)多重共线性消除
消除多重共线性的办法,一是较为简单的方法,如删除共线性组中自变量与因变量的简单相关系数最小者;通过差分改变变量定义形式;增加样本容量。另外是采用新的估计方法,如有偏估计方法,包括岭估计、广义岭估计、主成分估计等。
回归模型的变量子集合的选择
多变量的情况下,特别是在增加解释变量以便增加拟合优度的情况下,由于变量之间存在多重共线性,使回归系数的估计值存在不稳定,以及由于变量抽样误差的积累将使因变量估计值的误差增大,这样构造的模型稳定性差。为此需要选择变量的最佳子集合进入模型。
1.选择变量子集合的原则及方法
(1)修正可决系数的方法
当模型中引入一个变量,可决系数增加,而修正可决系数却增加不大,说明该变量对因变量的影响不大,可以不进入模型。类似地,可以依此原则来选择变量子集合。
(2)AIC准则
AIC准则(An information criterion)又称为最小信息准则,1973年由赤池弘治(Akaike)提出。该准则适用于ARMA模型,包括AR,MA模型的检验。 AIC准则的计算公式定义为
AIC中右侧第一项为衡量模型拟合优度的一个量,第二项为增加参数的折扣,应用时选择AIC值最小的那个回归模型为最优模型,也即选择AIC值最小的变量子集合
(3)Cp准则
马勒斯(Mallows)从预测角度提出一个可以用来选择自变量的统计量,即Cp准则。Cp统计量定义为
Cp中右侧第一项为衡量模型拟合优度的一个量,第二项为增加参数的折扣,应用时选择Cp值最小的那个回归模型为最优模型,也即选择Cp值最小的变量子集合
此外,变量子集合的选择还可以采用逐步回归的方法,自动地从大量可供选择的变量中,选择对建立回归方程重要的变量。逐步回归特别适用于解释变量比较多的情况下进行变量的选择。但是,逐步回归分析方法只能识别出一个子集合回归,不能给我们提供几个有争议的子集合进行选择。
第三节 逐步回归分析
一、逐步回归分析的基本原理
二、引入或剔除变量的依据及检验
三、逐步回归中回归系数的求解
四、逐步回归分析在Excel中的实现
逐步回归分析的基本原理
1.“最优”回归方程
当自变量的个数很多时,建立多元回归方程会经常出现多重共线性问题。这就需要探索更方便的方法,从众多的自变量中选择对因变量y影响最为显著的自变量,建立最优回归模型。所谓“最优”回归方程,是指方程中包含所有对y影响比较显著的变量,而不包括对影响不显著的变量的回归方程。建立“最优”回归方程,可采用以下的方法:
(1)从所有可能的自变量组合的回归方程中选择最优方程。这种方法理论可行,但是实际中需要建立( )个方程,工作量太大。
(2)“逐步剔除法”。
原理是先采用全部自变量与因变量建立回归方程,然后对每个自变量进行显著性检验,剔除不显著的自变量中偏回归平方和最小的变量,然后再用剩下来的自变量与因变量建立新的回归方程,再对方程中每个自变量进行显著性检验,剔除不显著的自变量中偏回归平方和最小的变量,这个过程不断重复,直到回归方程中的自变量都显著为止,最后的回归方程就是“最优”方程。该方法的不足,一是计算量大,二是自变量一旦被剔除就再没有机会被引入,没有考虑到由于某个变量的剔除后使变得显著的其他变量再回到方程中的情况。
(3)“逐步引入法”。
原理是从一个自变量开始,逐个引入回归方程。先是在所有的自变量中选择一个,使它和因变量建立的一元回归方程比其他自变量与因变量建立的一元回归方程具有最大的回归平方和。然后,再在未选入的变量中选择一个自变量,使它和已选入模型的变量所建立的二元回归方程,比其他自变量和已选入模型的变量所建立的二元回归方程具有最大的回归平方和。依次类推,选择第三个变量,这个过程重复下去,每选择一次,都对要引入的变量进行显著性检验,一旦检验不能通过,就不再引入,过程结束。最后的回归方程就是“最优方程”。该方法的不足,一是计算量大,二是自变量一旦被引入就再没有机会被剔除,没有考虑到由于某个自变量的引入使变得不显著的其他变量应从方程中剔除的情况。
(4)“逐步回归分析法”
逐步回归分析法是综合上述(2)(3)两种方法特点,吸收优点,避免不足,产生的方法。是一种自动地从大量可供选择的变量中,选择对建立回归方程重要的变量的方法,它是在多元线性回归分析基础上派生的一种算法。
2.逐步回归分析方法的基本原理
原理是:类似于逐步引入法,从一个自变量出发,视自变量对因变量的影响显著性大小,从大到小逐个引入回归方程,同时,在逐个自变量选入回归方程的过程中,如果发现先前被引入的自变量在其后由于某些自变量的引入而失去其重要性时,可以从回归方程中随时予以剔除。引入一个变量或剔除一个变量,为逐步回归的一步,每步都要进行显著性检验,以便保证每次引入变量前回归方程中只包括显著性变量,这个过程反复进行,直到既无不显著变量从回归方程中剔除,又无显著变量需要选入回归方程时为止。
引入或剔除变量的依据及检验
逐步回归分析是按照各自变量对因变量作用显著程度大小来决定其是否引入还是剔除。用于衡量各自变量对因变量作用大小的量是它们对因变量的“贡献”,即偏
回归平方和。偏回归平方和的意义和计算:
逐步回归中回归系数的求解
1.标准化正规方程
对于多元线性回归方程:
其中心化回归方程为:
对样本数据进行标准化:
由中心化方程有
则有:
上式我们称为标准化回归方程。
标准化回归方程与原回归方程其他统计量之间的关系:
可见,利用标准化正规方程求解得标准化回归方程各项参数估计值,进而可以利用上述各式还原得原正规方程的各项参数估计值。
2.标准化回归系数通过矩阵变换求得
逐步回归分析中,标准化回归系数的求解是以相关矩阵的增广矩阵
为计算起点的。
每一步,不论引入变量或剔除变量,均对相关矩阵施行一次矩阵变换。一般地以 表示对应于第m步后的相关矩阵,如果第m+1步是剔除或引入第个k变量,则求第m+1步后的相关矩阵时,矩阵变换公式为:
这样不断引入或剔除变量的过程中将对相关矩阵不断进行矩阵变换。则变化后的相关矩阵即能够给出该步相应的回归方程的系数等多种统计量。如设第m步后得到的相关矩阵为
第四节 多对多线性回归分析
一、多对多线性回归分析模型
二、多对多线性回归分析模型的参数估计
三、多对多线性回归系数向量的假设检验(在正态假定下)
四、多对多线性回归分析的计算步骤
五、多对多线性回归分析在Excel中的实现
多对多线性回归分析模型
于是多对多线性回归模型可写成:
注:组与组之间的随机误差项是相互独立的,但组内可以是不独立的,即每一行内部可以是不独立的。
多对多线性回归分析模型
的参数估计
为此用拉直法以及利用矩阵四块求逆公式可得回归系数的估计值如下:
其中左侧是回归系数阵,且有
多对多线性回归系数向量
的假设检验
一元统计中多元回归系数检验是:
对多重多元回归,同样需要考察某一部分自变量对p个因变量的影响是否显著的问题,为此考虑模型:
多对多线性回归分析的计算步骤
设p为自变量个数,m为包括因变量在内的变量总个数(因变量个数为m-p个),n为样本数。
多对多线性回归分析在
Excel中的实现
(一)问题与背景
(二)分析过程
(三)输出结果
(四)几点结论
第五节 岭回归分析
一、岭回归的基本思想
二、岭回归估计的性质
三、岭回归估计中回归系数的确定
四、岭回归分析在Excel中的实现
岭回归的基本思想
当线性回归模型存在较强的多重共线性时,如果仍然采用普通最小二乘法,参数估计值的方差往往会增大。在这样的背景下,人们开始对普通最小二乘法估计提出了修改的办法。岭回归估计就是其中之一。
岭回归估计的性质
与普通最小二乘估计比较,岭回归估计有以下的性质:
由此不难看出,运用岭回归估计参数是牺牲了无偏性来满足参数估计的最小方差性。岭回归估计未知参数的最小方差性是建立在有偏估计的基础上的。从某种意义上说,该方法为我们寻求参数估计的最小方差性提供了新的思路。岭回归估计是解决多重共线性的有效的方法,但也有不足,即岭回归系数的确定比较麻烦。
岭回归估计中回归系数的确定
第六节 趋势面分析
一、趋势面分析的一般原理
二、趋势面分析中的模型参数估计
三、趋势面模型的适度性检验
四、趋势面分析的步骤
五、趋势面分析在Excel中的实现
趋势面分析的一般原理
(一)趋势面分析的基本思想
趋势面分析是拟合数学面的一种统计分析方法,它是通过回归分析原理,运用最小二乘法拟合一个二维非线性函数,利用数学曲面模拟某种系统要素在空间上的分布及变化趋势的一种数学方法。
在利用趋势面分析拟合回归模型进行经济分析和预测时,一个基本的要求是,所选择的趋势面模型必须使剩余值比较小,回归平方和比较大,这样拟合度较高,预测结果才能达到足够的准确性。
(二)趋势面分析的数学模型
设已知观测数据为:
趋于最小。这就是在最小二乘意义下的曲面拟合问题,即趋势面分析。
趋势面分析中的模型参数估计
根据高斯-马尔科夫定理,最小二乘法给出了多项式系数的最佳线性无偏估计值,这些估计值使残差平方和达到最小。
趋势面模型的适度性检验
趋势面分析拟合程度与回归模型的效果直接相关,因此,对趋势面分析进行适度性检验是一个关系到趋势面能否在实际研究中加以应用的关键问题,也是趋势面分析中不可缺少的重要环节。趋势面分析的适度性检验可以通过以下检验来完成:
(三)趋势面适度性的逐次检验
趋势面适度性逐次检验的基本思想是通过对相继两个阶次的模型适度性进行比较,来检验模型效果优劣的方法。
首先, 求出较高次多项式方程的回归平方和与较低次多项式方程的回归平方和之差;
其次,将此差除以回归平方和的自由度之差,得出由于多项式次数增高所产生的回归均方差;
第三,将此均方差除以较高次多项式的剩余均方差,得出相继两个阶次趋势面模型的适度性比较检验值。
最后,若所得的值是显著的,则较高次多项式对回归作出了新贡献,若F值不显著,则较高次多项式对于回归并无新贡献。
说明: 在实际应用中,往往用次数低的趋势面逼近变化比较小的数据,用次数高的趋势面逼近起伏变化比较复杂的数据。次数低的趋势面使用起来比较方便,但具体到某点拟合较差;次数较高的趋势面在观测点附近拟合效果较好,而在外推和内插时则效果较差。
趋势面分析的步骤
1、对趋势面模型进行识别。根据代数一般知识,一元一次多项式为直线,一元二次多项式为抛物线,一元三次多项式为三次曲线。相应地二元一次多项式是一个平面,二元二次多项式为抛物面、二元三次多项式为三次曲面。
2、求解正规方程组,进行模型参数估计。其中,求解正规方程组可以用正交变换法进行,也可以用主元消去法进行。
3、对趋势面模型进行适度性检验
本章内容讲授结束