SPC统计相关与回归分
析
(海量营销管理培训资料下载)
课时安排
本章的特点
描述统计与推断统计中相关回归分析的差别
第一节 相关与回归分析的基本概念 (1学时)
第二节 一元线性回归分析 (4学时)
第三节 多元线性回归分析 (2学时)
第四节 非线性回归分析 (1学时)
第五节 相关分析 (1学时)
(海量营销管理培训资料下载)
本章的特点
与以往的统计学原理教科书不同,本章
从推断统计的角度讲解相关分析与回归
分析。这是因为在有关现实经济和管理
问题的定量分析中,作为推断统计的相
关分析与回归分析更加具有广泛的应用
价值。
(海量营销管理培训资料下载)
描述统计与推断统计中相关回归分析的差别
描述统计:
不需要对随机误差项作出各种假定,各种参数
估计值是具体数值,是对总体存在的相关关系
的描述,不存在显著性检验.
推断统计:
需要对随机误差项作出各种假定,各种参数估
计量是随机变量,抽取的样本不同时,得到的估
计值也不同.可以用来推断总体.需要进行各种
检验.
(海量营销管理培训资料下载)
第一节 相关与回归分析的基本概念
一、 函数关系与相关关系
二、相关关系的种类
三、相关分析与回归分析
四、相关表和相关图
(海量营销管理培训资料下载)
一、 函数关系与相关关系
当一个或几个变量取一定的值时,另一个变
量有确定值与之相对应,称这种关系为确定性
的函数关系。
当一个或几个相互联系的变量取一定数值时,
与之相对应的另一变量的值虽然不确定,但它
仍按某种规律在一定的范围内变化。 变量间的
这种相互关系,称为具有不确定性的相关关系。
变量之间的函数关系和相关关系,在一定条
件下是可以互相转化的.
(海量营销管理培训资料下载)
二、相关关系的种类
按相关的程度可分为完全相关、不完全相关和不相关。一般的相
关现象是不完全相关。
按相关的方向可分为正相关和负相关。
按相关的形式可分为线性相关和非线性相关。
按变量多少可分为单相关、复相关和偏相关。一个变量对另一变
量的相关关系,称为单相关。一个变量对两个以上变量的相关关
系时,称为复相关。在某一现象与多种现象相关的场合,当假定
其他变量不变时,其中两个变量的相关关系称为偏相关。
按相关的性质可分为“真实相关”和“虚假相关”。判断什么是
“真实相关”什么是虚假相关,必须依靠实质性科学
(海量营销管理培训资料下载)
三、相关分析与回归分析
相关分析是用一个指标来表明现象间依存关系的密切程度。
回归分析是用数学模型近似表达变量间的平均变化关系。
相关分析可以不必确定变量中哪个是自变量,哪个是因变量,
其所涉及的变量都是随机变量。
回归分析必须事先确定具有相关关系的变量中哪个为自变量,哪
个为因变量。一般地说,回归分析中因变量是随机的,而把自变
量作为研究时给定的非随机变量。
一定要始终注意把定性分析和定量分析结合起来,在定性分析的
基础上开展定量分析。
(海量营销管理培训资料下载)
四、相关表和相关图
相关表是一种反映变量之间相关关系的统计表。
将某一变量按其取值的大小排列,然后再将与
其相关的另一变量的对应值平行排列,便可得
到简单的相关表。
相关图又称散点图。它是以直角坐标系的横轴
代表变量X,纵轴代表变量Y,将两个变量间相
对应的变量值用坐标点的形式描绘出来,用来
反映两变量之间相关关系的图形。根据表8-2
的资料绘制的相关图如下:
(海量营销管理培训资料下载)
(海量营销管理培训资料下载)
第二节 一元线性回归分析
一、标准的一元线性回归模型
二、一元线性回归模型的估计
三、一元线性回归模型的检验
四 、一元线性回归模型预测
(海量营销管理培训资料下载)
一、标准的一元线性回归模型
(一)总体回归函数
Yt=β1+β2Xt+ut ()
u t是随机误差项,又称随机干扰项,它是一个特
殊的随机变量,反映未列入方程式的其他各种因素对
Y的影响。
(二)样本回归函数:
t=1,2,... n
et称为残差,在概念上,et与总体误差项ut相互
对应;n是样本的容量。
(海量营销管理培训资料下载)
总体回归线与随机误差项
E(Yt)=β1+β2Xt
X
Yt
Y
。
。 。
。
。
ut
(海量营销管理培训资料下载)
样本回归函数与总体回归函数区别
总体回归线是未知的,只有一条。样本回归线是根据样本数据拟
合的,每抽取一组样本,便可以拟合一条样本回归线。
总体回归函数中的β1和β2是未知的参数,表现为常数。而样本回
归函数中的 是随机变量,其具体数值随所抽取的样本观测
值不同而变动。
总体回归函数中的ut是Yt与未知的总体回归线之间的纵向距离,
它是不可直接观测的。而样本回归函数中的et是Yt与样本回归线
之间的纵向距离,当根据样本观测值拟合出样本回归线之后,可
以计算出et的具体数值。
(海量营销管理培训资料下载)
误差项的标准假定
假定1: E(ut)=0
假定2: Var(ut)=E( )=
假定3: Cov(utus)=E(utus)=0 t≠s
假定4:自变量是给定变量,与误差项线性无关。
假定5:随机误差项服从正态分布。
满足以上标准假定的一元线性回归模型,称为标准的
一元线性回归模型。
(海量营销管理培训资料下载)
二、一元线性回归模型的估计
(一)回归系数的估计 最小二乘法
设
将Q对求偏导数,并令其等于零,可得:
加以整理后有:
(海量营销管理培训资料下载)
回归系数的最小二乘估计量
以上方程组称为正规方程组或标准方程
组,式中的n是样本容量。
求解这一方程组可得:
(海量营销管理培训资料下载)
(二)总体方差的估计
上式中,分母是自由度,其中n是样本观测值的个数,2是一元
线性回归方程中回归系数的个数。在一元线性回归模型中,残差
et必须满足
因而失去了两个自由度,所以其自由度为n-2。
S2的正平方根又叫做回归估计的标准误差。
S2=
=0; =0
(海量营销管理培训资料下载)
证明:
残差平方和计算
一般采用以下公式计算残差平方和:
(海量营销管理培训资料下载)
(三)最小二乘估计量的性质
最小二乘估计量是随机变量。
在标准假定能够得到满足的条件下,回归系数的最小
二乘估计量的期望值等于其真值,即有:
E( )=β1 E( )=β2
其方差为:
Var( )=
Var( )=
(海量营销管理培训资料下载)
估计量性质的数学证明
(一)线性估计量
将Yt=β1+β2Xt+ut代入估计量,得:
= = =
最小二乘估计量可表现为所要估计的参数的真值与随机
误差项的线性组合
(海量营销管理培训资料下载)
推导用的恒等式
=0
= Xt
=
令
(海量营销管理培训资料下载)
最小二乘估计量期望值和方差的推导
E( )=β2+E(∑wtut)
=β2+∑wtE(ut) (根据标准假定4)
=β2+∑wt×0 (根据标准假定1)
=β2
Var( )=Var(β2+∑wtut)
=E(∑wtut)2
= (根据标准假定4、3)
= (根据标准假定2)
=
(海量营销管理培训资料下载)
有效性证明:
设 = 为任意无偏线性估计量,
则有约束条件:
按照与上面同样的方法,可推导出Var(
)=
比较Var( )与Var( )的大小,有:
(海量营销管理培训资料下载)
Var( )-Var( )= -
= )
=
以上第二步到第三步之所以成立,是因为:
而利用前面关于线性无偏估计量的约束条件,可有:
(海量营销管理培训资料下载)
三、一元线性回归模型的检验
(一) 回归模型检验的种类
回归模型的检验包括理论意义检验、一级检验和二级检验。
(二)拟合程度的评价
总离差平方和的分解
SST=SSR+SSE ()
SST是总离差平方和;SSR是回归平方和;SSE是残差平
方和。
可决系数:
r2= =1- ()
可决系数的特性
(海量营销管理培训资料下载)
(三)显著性检验
1.提出假设。
2.确定显著水平α。
3.计算回归系数的t值。
= ()
4.确定临界值。
双侧检验查t分布表所确定的临界值是(-tα/2)和
(tα/2);单侧检验所确定的临界值是(tα)。
5.做出判断。
(海量营销管理培训资料下载)
四 、一元线性回归模型预测
(一) 简单回归预测的基本公式:
()
回归预测是一种有条件的预测,在进行回归预测时,必须先给出
Xf的具体数值。内插检验或事后预测。外推预测或事前预测。
(二)预测误差
发生预测误差的原因。
预测误差Var(ef)=σ
2 ()
(三)区间预测
Yf的(1-α)的置信区间为:Yf±tα/2(n-2)×Sef
回归预测的置信区间的特点。
(海量营销管理培训资料下载)
回归预测的置信区间
(海量营销管理培训资料下载)
第三节 多元线性回归分析
一、标准的多元线性回归模型
二、多元线性回归模型的估计
三、多元线性回归模型的检验和预测
四、多元线性回归预测
(海量营销管理培训资料下载)
一、标准的多元线性回归模型
多元线性回归模型总体回归函数的一般形式
()
多元线性回归模型的样本回归函数
()
多元线性回归分析的标准假定除了包括上一节中已
经提出的的假定外,还要追加一条假定。这就是回归
模型所包含的自变量之间不能具有较强的线性关系。
(海量营销管理培训资料下载)
二、多元线性回归模型的估计
(一)回归系数的估计
=(X'X)-1X'Y ()
(二)总体方差的估计
S2= ()
(三)最小二乘估计量的性质
标准的多元线性回归模型中,高斯.马尔可夫定理同样成立。
(海量营销管理培训资料下载)
三、多元线性回归模型的检验和预测
(一)拟合程度的评价
修正自由度的可决系数(理由)。
=1- ()
=1- (1-R2) ()
式中,n是样本容量;k是模型中回归系数的个数。
修正自由度的可决系数 的特点。
(海量营销管理培训资料下载)
(二)显著性检验
1.回归系数的显著性检验
t = j=1,2,…,k ()
式中, S 是的标准差的估计值。 按下式计算:
S = ()
式中, 是(X'X)-1的第j个对角线元素,S2是随机误差项方差
的估计值。()式的t统计量的原假设是H0:βj=0,因此t
的绝对值越大表明βj为0的可能性越小,即表明相应的自变量对
因变量的影响是显著的。
(海量营销管理培训资料下载)
2.回归方程的显著性检验
具体的方法步骤
回归模型方差分析表
(3)F统计量
F=
离差名称 平 方 和 自由度 方 差
回归平方和 SSR= k-1 SSR/(k-1)
残差平方和 SSE= n-k SSE/(n-k)
总离差平方和 SST=
(海量营销管理培训资料下载)
四、多元线性回归预测
基本公式:
()
式中,Xjf(j=2,3,……k)是给定的Xj在预测期的
具体数值; 是已估计出的样本回归系数;
是Xj给定时Y的预测值。
(海量营销管理培训资料下载)
第四节 非线性回归分析
一、非线性回归分析的意义
二、非线性函数形式的确定
确定函数形式的原则
实际分析中较常用的几种非线性函数的
特点
(海量营销管理培训资料下载)
三、非线性回归模型的估计
几种线性变换方法
实际应用时要注意:
第一、比较复杂的非线性函数,需综合利用上述的
几种方法。
第二、变换得到的方程式中的变量不允许包含未知
的参数。
第三、当变换后的新模型中包含的误差项能够满足
标准假定时,新模型中回归系数最小二乘估计量的理
想性质才能成立。
第四、严格地说,线性变换方法只是适用于变量为
非线性的函数。
第五、 并不是所有的非线性函数都可以通过变换得
到与原方程完全等价的线性方程。
(海量营销管理培训资料下载)
第五节 相关分析
一、单相关系数及其检验
二、等级相关系数及其检验
四、复相关系数和偏相关系数
六、相关指数
(海量营销管理培训资料下载)
一、单相关系数及其检验
(一)相关系数的定义
r= ()
样本相关系数的定义还可从另一个角度给出。设
Y倚X和X倚Y的样本回归方程为:
()
()
(海量营销管理培训资料下载)
样本相关系数可定义为样本回归系数的乘积的开方,即:
r= ± ()
上式中r的符号应与回归系数的符号一致。
(二)相关系数与可决系数
简单线性回归模型中相关系数r的平方等于可决系
数r2。
样本相关系数的特点:
(三)单相关系数的检验
(海量营销管理培训资料下载)
二、等级相关系数及其检验
(一)等级相关系数的定义和计算
rs = ()
式中, , 和 分别是两个变量按大小(或优劣)排
位的等级,n是样本的容量。
推导
通常的单相关系数为:
rs= i=1,2,……n ()
(海量营销管理培训资料下载)
注意到 和 是等级变量,其可能的取值范围均为:1,2,3,
……,n。利用有关数列求和的公式可得:
()
()
()
()
(海量营销管理培训资料下载)
=
=
整理后,可得:
()
将()、()和()式代入()式,便可导
出等级相关系数的计算公式()式。
(二)等级相关系数检验
(海量营销管理培训资料下载)
四、复相关系数和偏相关系数
(一)复相关系数
R= ()
实际计算复相关系数时,一般是先计算出可决系数,然后再求可决系数
的平方根。复相关系数只取正值。
(二)偏相关系数
计算偏相关系数时,需要掌握多个变量的数据,一方面考虑多个变量之
间可能产生的影响,一方面又用一定的方法控制其他变量,专门考察两
个特定变量的净相关关系。偏相关系数与单相关系数数值上可能相差很
大,甚至符号都可能相反。
(海量营销管理培训资料下载)
(三)样本偏相关系数的定义
偏相关系数等于两个相应偏回归系数的几何平均数。
设有3个变量X1、X2和X3。3个变量各自以另两个变
量为自变量拟合的样本回归方程如下
3个变量之间的偏相关系数可定义如下:
(海量营销管理培训资料下载)
六、相关指数
相关指数,也就是对非线性回归模型进
行拟合时所得到的可决系数。对相关指
数进行显著性检验的方法与对复相关系
数进行检验的方法类似。