回归分析理论的发展与应用
回归分析是重要统计推断方法。在实际应用中,回归分析是数理统计学与实际问题联系最为紧密,应用范围最为广泛,也是收效最为显著的统计分析方法;是分析数据,寻求变量之间关系有力的工具。随着科学技术的发展,生物、医学、农业、林业、经济、管理、金融、社会等领域的许多实际新问题提出,有力地推动了回归分析的发展。回归分析的研究主要是回归模型的参数估计、假设检验、模型选择等理论和有关计算方法。
一、经典回归模型
经典回归模型分为线性回归模型和非线性回归模型。线性回归模型是最基本的,也最简单的情形。线性回归模型是回归模型学习的起点,在现行的概率统计教材和其它应用性的教材中都有该模型的分析和应用。线性回归模型虽然简单,但比较有用,在许多实际应用工作发挥了很大作用。
非线性回归模型是上世纪六十年代初提出的,它是线性模型的自然推广,非线性回归模型现已发展成为近代回归分析的一个重要研究分支。在实际应用中严格符合线性回归模型规律的问题并不多见,大多数问题可以近似为线性回归模型,在不少情形下,用非线性回归模型去拟合给定的数据集可能更加符合实际。在经典回归模型研究中,通常假设响应变量的期望关于模型的未知参数是线性的或非线性的,随机误差是相互独立的,随机误差服从期望为零,方差相同的正态分布,其模型为:
,t=1,2,…,n (1)
其中为m维回归系数向量, (t=1,2,…,n)为随机误差,且满足Gauss-Markov假设:
(1)随机误差期望为零,即, t=1,2,…,n;
(2)随机误差具有等方差,即,t=1,2,…,n;
(3)随机误差彼此不相关,即 i≠j,i,j=1,2,…,n。
在Gauss-Markov假设中,假设(1)表明误差项不包含任何系统的趋势,因而,响应变量的均值
,t=1,2,…,n。
即响应变量的大于或小于其均值的波动完全是一种随机性的,这种随机性来自误差;假设(2)表明误差项是等方差,即要求响应变量在其均值附近的波动完全是一样的,这种要求比较苛刻,一般情况,应该放松,t=1,2,…,n;假设(3)表明响应变量在不同次的观测是不相关的,这种假设在实际应用中比较容易满足,但在一些实际问题中,特别是与时间相联系的问题中,误差往往是相关的。
1 线性回归模型
设与之间有线性的相关关系,即,令,则为一随机变量,它反映了当的值取定之后,各种随机因素以及对取值的非线性影响的综合效应.按中心极限定理,我们有理由认为服从正态分布.由于,故有~.
在这一模型下研究与之间的相关关系,称为一元正态线性回归分析.
这里主要讨论两个问题:
估计问题:如果与之间有线性的相关关系,如何根据样本值去求α、β的估计值.
(2)检验问题:如何根据样本值检验与之间存在线性相关关系.
α、β的最小二乘估计
设与之间确实存在正态线性相关关系~N(α+βx,σ2),取n个值,…, ,就可得到n个随机变量,…, .
q(α,β)=的值也就较小.
(α,β)的最小二乘估计值.
(1)
(2)
解此方程组,便得()的最小二乘估计值()
记,
则*=Lxy/Lxx,*=
2. ~N(,)的检验
下面介绍两种检验验H:~N(,)的方法.
⊙散点图法
如果与确有正态线性相关关系,即~N(,),那末,当取定时, 所取的值就必以很大的概率落在的近旁,从而在直角坐标纸上,各()便以很大的概率落在直线的近旁(i=1,2,…,n).这样,便可按数据表在坐标系中打点,如果图上各点分布在一条直线的附近,那么就可以认为与之间存在正态线性相关关系,否则便认为、之间不存在这种关系.按数据在坐标系中打点所得的图形称为散点图.
⊙相关系数检验法
2.非线性回归模型
在许多实际问题中.参数不全以线性形式出现,这样的回归模型称为非线性回归模型.
例1 理论上证明某人短时间喝2瓶啤酒后,体液内酒精浓度服从公式
其中t是喝酒后的时间,,是待估参数,对该人做一些测试得表1数据,试由此数据确定,从而得到该人体液内酒精浓度公式,并预测t=24时的值。
表1
时间(小时)
1
2
3
4
5
酒精含量
30
68
75
82
82
77
68
68
58
51
50
41
时间(小时)
6
7
8
9
10
11
12
13
14
15
16
酒精含量
38
35
28
25
18
15
12
10
7
7
4
例1中t是解释变量(也称为自变量或预报因子),是应变量(也称为应变量或预报对象),,是参数,t,是随机变量,E=0,Var()=,也是参数。,出现在指数上,是非线性形式出现。存在非线性形式出现参数的回归模型称为非线性回归模型。
定义1 非线性回归模型的一般形式是
其中不全是线性出现。
若令:
非线性回归模型可写为:
当,有n次观察值,时,我们可以估计未知参数的值.常用的方法是非线性最小二乘法(有时也用加权最小二乘或非线性最小一乘法,即LAD回归;),非线性最小二乘法即选择合适的使
最小从而估计的值。对于例1即是使
+…+
极小,从而估计,的值。
由于是非线性形式出现,非线性最小二乘法一般没有公式可用,只能通过“最优化”方法近似达到极小,即选择一个参数的初估计,从它出发,按一定规则反复迭代,最后得到非线性最小二乘的近似最优解。通常都编程用计算机计算。
非线性函数SSE往往有多个极小值。由最优化理论可知,初估计对迭代的结果影响很大,初估计不好,不仅收敛速度慢,而且可能不收敛最小值点。好的初估计称为优良初估计。通常求优良初估计的方法有2种,一是将非线性参数化为线性参数而用线性回归求出,即构造另一个线性回归模型,对同样的解释变量,应变量和观测数据,线性回归模型的最优解是非线性回归模型的优良初估计;另一是估计优良初估计的大致范围,在该范围内构造许多格点,以其中每个格点值为参数值计算SSE的值,选取SSE值最小的格点为优良初估计,
非线性回归模型参数不以线性形式出现,一般没有解析解,只能用用最优化方法求解:最速下降法(梯度法)、牛顿法、高斯—牛顿法、麦夸特法和DUD法。
当你想选用这些这些优化方法之一时,只要在SAS软件中data语句选项method后加上gradient、newton、gauss、marquardt或dud即可。
上表是近似方差分析表,在=,=附近将函数
展开成线性函数,并作线性回归,该线性回归的方差分析说明线性关系是显著的。
上表是参数估计值=,=,以及,近似95%置信区间(,)和(,)。
可见最优估计是=,=。酒精浓度公式是
例2 设某种化学反应速度y作为应变量,醇和烯的偏压强是解释变量,非线性
回归模型是
观测数据为表2,试求出回归方程。
表2
y
分析:为了把非线性参数a,b化为线性,将
EMBED 化为 ,
而令,,
原方程和没有常数项的线性回归方程
,
有相同的未知参数a,b,c。估计线性回归方程未知参数的参数估计表是
Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
u1 1
u2 1
x1 1
可见优良初值是a=, b=,c=。
用它作原问题非线性回归, 得参数估计a=,b=,c=,残差平方和是
所以回归方程是
另一个得到初估计的方法是将
化为
令,,,,
解线性回归
解得=,=,=从而得到初估计a=,b=,c=。这个方法得到的初估计效果更好。
非线性回归计算中,初始估计的选取很重要。选得不好,优化迭代过程可能不收敛,也可能收敛,但是收敛到的参数不是整体最优解。例2中若取初估计a=-10,b=-1,c=-20,则优化过程不收敛;若取初估计a=-1,b=-1,c=-1,则优化过程收敛,得到参数估计a=,b=,c=,残差平方和,因而所得参数估计不是整体最优解,也不符合实际。
3. Logistic 回归
实际问题中,许多变量不是数值而是反映事物的属性。例如变量“产品合格否”只有两个值“是”与“否”;变量“年降雨量”有3个值“旱”,“正常”,“涝”;变量“季节”有4个值“春”,“夏”,“秋”,“冬”。我们称这类变量属性变量。Logistic 回归模型是用数值变量(定量变量)预报属性变量的统计模型,目前其应用不断扩展。本节介绍仅有两个值的属性变量的Logestic 回归模型。
二值Logistic 回归模型
首先看一个例子
例3 为测验某种玻璃耐冲击性,用一个小球从不同高度h自由落下,冲击玻璃,玻璃被击碎记为y=1,未击碎记为y=0;26次试验结果如表3。试建立由h预报玻璃完好性的统计模型,当小球从3m高度自由落下时,预测玻璃是否碎裂。
表3 冲击性试验数据表
No
h(m)
y
1
0
2
0
3
0
25
1
26
1
这个例子中要预报的变量(应变量)是玻璃遭橦击后的状态,它是属性变量且只有两个值:“不开裂”与“开裂”。这可化为应变量Y取0或1表示。因为Y只能取0或1,解释变量h却能连续取值,因而线性回归模型不适用。
为此我们作如下考虑:(1)条件概率的值是连续的,但它的变化范围仍在(0,1);
(2)考虑的严格单调增函数(连接函数),当在(0,1)变化时,函数值在变化。通常使用的是连接函数是LOGISTIC函数。于是例3的模型是
定义2 设属性变量只有两值,分别表为y=0与y=1。属性变量的状态受解释变量 EMBED 影响,则模型
称为LOGISTIC回归模型。简记为
通常采用极大似然法估计参数。
注1 有的理论(如SSPS软件)取LOGISTIC回归模型为
注2 连接函数也可取为, 是标准正态分布函数;或。从而得到模型
。
SAS的LOGISTIC过程可用于解决LOGISTIC回归模型的参数拟合。
似然比、Score和Wald检验3种方法检验解释变量h是否显著。它们的卡方统计量值分别是、和;卡方统计量大于它们的概率分别是、、;它们都小于说明解释变量h是显著的。
二值变量分组数据的LOGISTIC模型
通常,属性数据的统计结果都以分组数据形式出现:即分若干组,每组试验若干次,统计其中所考虑状态发生次数。例如以下例4,这时如何估计参数?
例 4 钢锭加热和浸泡,使之适于扎制,对不同加热时间h和浸泡时间s试验不成功率。24组数据如表4。其中n表示试验组数,r表示n件钢锭中不适合扎制数。试建立由h,s预测不合格率的LOGISTIC回归方程。
表4
h
s
r
n
h
s
r
n
h
s
r
n
h
s
r
n
7
0
10
14
0
31
27
1
56
51
3
13
7
0
17
14
0
43
27
4
44
51
0
1
7
0
7
14
2
33
27
0
21
51
0
1
7
0
12
14
0
31
27
1
22
51
0
1
7
0
9
14
0
19
27
1
16
.
.
.
.
对此分组数据形式,可以把每组数据化为若干个单次试验情形,例如表4第一组可化为10行
0
0
. . .
7 0
其中第1,2列表示h,s的值;第3列取0表示适于扎制,第3列取1表示不适合扎制。第2组化为17行…,整个表4可排成387行。然后用极大似然估计法求解。这样当然很不方便。对于分组数据,SAS的LOGISTIC过程采用简化方法:对于分组数据,MODEL语句“=”前加“/”号,“/”前的变量表示所考虑状态发生次数,“/”后的变量表示每组试验(调查)次数。经计算分析只有选入模型,得到的回归方程是
或等价的
LOGISTIC回归也可处理解释变量是二值属性变量的情形,这只要将解释变量也用0-1变量表示。
例5 为判定美国法院审判中是否存在种族歧视,调查白人或黑人杀死白人或黑人后判决情况,得数据如下表,试分析法院审判中,在判不判死刑问题上是否存在种族歧视?
表5 美国审判数据调查表
白人被害
黑人被害
判决
死
否
总数
死
否
总数
白人被告
19
132
151
0
9
9
黑人被告
11
52
63
6
97
103
此问题应变量是判不判死刑,解释变量有两个:白人被告还是黑人被告,白人被害还是黑人被害。令
,,
建立LOGISTIC回归模型
其中。
经计算分析可见x的作用不显著,y的作用是显著的,即被害人的种族影响是否判死刑。
二、回归模型相关性和异方差检验的提出
随着回归模型发展,人们在实际问题中也出现许多随机误差序列相关和方差不同的现象,因此对回归模型随机误差的独立性和方差齐性假设产生了质疑,从而展开了回归模型相关性和异方差检验的研究,取得了很多成果。
在实际问题中,回归模型很难同时满足Gauss-Markov的三个假设,下面是两个具体的实例。
例6 美国零工招聘指数与失业率的数据
Damodar Gujarati(1995)分析了美国零工招聘指数与失业率的数据。这组数据含有1962—1967年24组观测值。回归模型是:
,~,t=1,2,…,24,
其中HWI为零工招聘指数,U为失业率。参数的最小二乘估计为
=(,)T。利用Durbin & Watson关于误差序列相关的d检验,计算得d值为,这表明数据有正的序列相关。
Durbin \& Watson关于误差序列相关的d检验统计量为
d=/, (2)
它是相继残差的差异平方和与RSS之比,它不同于t检验,F检验,检验,没有临界值,只有临界值的上、下限,如果通过(2)式计算出d值在这些临界值范围之外,就可以判断误差是否有正或负序列相关。
例7 欧洲野兔数据
Dudzinski & Mykytowycz(1961)对欧洲野兔数据进行了分析,并建立了相应的非线性回归模型。这组数据含有71组观测值。回归模型为:
,~,t=1,2,…,71,
其中, (t=1,2,…,71)为在澳大利亚的欧洲野兔的干燥眼球重量(单位:毫克),为野兔相应的年龄(单位:天),。
参数估计=(,,), =。 但是,通过数据分析,发现回归模型的学生化残差关于协变量的残差图呈现明显的喇叭状,由Bates & Watts(1988)的分析可知模型具有异方差性。
以上两个实例表明,在实际问题中,回归模型随机误差可能出现序列相关,也可能出现异方差性。
如果回归模型的随机误差出现序列相关,那么回归模型可表示为下列具有时间序列误差的回归模型:
,t=1,2,…,n (3)
其中为p维回归系数向量, (t=1,2,…,n)是序列误差。即
,~, t=1,2,…,n。
三、回归模型相关性和异方差的检验
1. 回归模型相关性的检验
具有序列误差回归模型的一般形式是:
,,~,t=1,2,…,n。 (4)
常见的序列误差为:
AR(p)序列误差,即
,t=1,2,…,n。
这时,对模型进行相关性检验,即H0:。如果假设H0成立,模型就是普通的回归模型。
MR(q)序列误差,即
,t=1,2,…,n。
这时,对模型进行相关性检验,即H0:。如果假设H0成立,模型就是普通的回归模型。
AR MR(p,q)序列误差,即
,t=1,2,…,n。
这时,对模型进行相关性检验,即
H0: EMBED 。
DBL(p,q,r)序列误差,即
+
,t=1,2,…,n。
H01:;
H02: EMBED ;
H03: EMBED EMBED 。
如果假设H0成立,模型就是普通的回归模型。
当观测值与时间有关时,数据之间往往存在序列相关(Bates & Watts, 1988; Seber & Wild, 1989)。因此,在实际应用中,应对回归模型进行相关性的检验。如果实际问题不存在相关性,回归模型就是普通的回归模型,这时,模型分析就比较简单。
2.回归模型异方差性的检验
具有异方差性回归模型的一般形式是:
,~,t=1,2,…,n。 (5)
该模型的异方差性检验为H0:。 Cook & Weisberg (1983)在很一般的假设下,利用参数结构化方法, 得到了诊断异方差性的score检验统计量,即假设
其中,为结构参数,为协变量,称为权函数,且假设存在, 使 ,
对一切t成立。因此,回归模型的异方差性检验为H0:。
人们在实际问题分析中还是偏爱方差齐性的回归模型。因此,在实际应用中,通常要进行方差齐性检验,如果方差齐性假设成立,则可基于模型(1)进行常规的统计分析。如果方差非齐,则可考虑进行数据变换或其它处理方法。
3. 回归模型相关性和异方差性的检验
当观测值与时间有关时,数据之间往往存在序列相关,尤其是自相关性。和普通的回归模型一样,这时模型不仅存在异方差性的检验问题,而且通常还要检验相关性。正如 Harrison & McCable (1979)所述,自相关和异方差可能同时发生。因此,对回归模型的相关性和异方差性的检验是必要。
(1)具有AR(p)误差的回归模型为:
,,~
其中。该模型应作三种情形的检验。
①相关性检验,即H0:;
②异方差性检验,即H0:;
③相关性和异方差性检验,即H0:,。
(2) 具有MR(q)序列误差,即
,,~
其中。该模型应作三种情形的检验。
①相关性检验,即H0:;
②异方差性检验,即H0:;
③相关性和异方差性检验,即H0:,。
(3)AR MR(p,q)序列误差,即
,,
~
其中。该模型应作三种情形的检验。
①相关性检验,即H0: EMBED ;
②异方差性检验,即H0:;
③相关性和异方差性检验,即
H0: EMBED ,。
DBL(p,q,r)序列误差,即
+
,t=1,2,…,n。
相关性检验,即
H01:;
H02: EMBED ;
H03: EMBED EMBED 。
②异方差性检验,即H0:;
③相关性和异方差性检验,即
H0: EMBED EMBED ,。
具有相关性和异方差性的回归模型比经典的回归模型复杂得多,迄今还没有一致认可的处理方法。人们在实际问题分析中还是偏爱独立、方差齐性的回归模型。因此,对于一组比较复杂的数据,如果要用回归模型进行拟合,通常要进行相关性和方差齐性检验,如果不存在相关性和异方差性,则可基于回归模型(1)进行常规的统计分析。如果方差非齐,则可考虑进行数据变换或其它处理方法。因此,检验数据的相关性和异方差性是否存在,是处理回归模型问题的重要步骤之一,它在理论上和应用上都是十分重要的问题。
四、 岭回归
若某个解释变量是其它解释变量的线性组合,则设计矩阵列不满秩,正规方程无解或有无穷组解。若解释变量近似的是其它解释变量的线性组合,则存在问题:设计矩阵列近似不满秩(这样的矩阵称为病态矩阵),正规方程的解存在较大误差,估计出的参数不稳定(观测值发生微小的变动,估计出的参数就有较大的变动),不能正确反映解释变量对应变量的影响且估计量的方差很大。
定义3:解释变量间线性相关,或者近似线性相关的现象称为共线性(collinearity)或多重共线性(multi collinearity)。
多重共线诊断常用下列三个方法:方差膨胀因子法、条件指数法和方差比例法。
方差膨胀因子法:把解释变量作为应变量,与其余m-1个解释变量做回归,设表示复相关系数,称为方差膨胀因子。解释变量的共线性会使方差增大,就是这种增加的一种相对度量。显然,预报因子近似是其余m-1个预报因子的线性组合 EMBED EMBED EMBED 很大;预报因子不是其余m-1个预报因子的线性组合 EMBED EMBED 接近于1。用来估计多重共线性的经验方法是:>10,预示第i个解释变量的多重共线性是高度显著的。
条件指数法:首先把矩阵X’X标准化,使对角线上元素全为1。若标准化的X’X有r个特征值近似于零,则预报因子中有r个共线关系,且共线关系的系数向量就是近似为零的特征值对应的特征向量。为了考察特征值是否为零,计算最大特征值与每个特征值之比,最大特征值与每个特征值之比的算术平方根称为条件指数,m+1个条件指数中最大的称为矩阵X的条件数。当条件指数k很大时,认为有严重共线性。估计多重共线性的经验方法是:预示解释变量间多重共线性较弱;预示解释变量间存在较强多重共线性;100<k预示解释变量间存在高度的多重共线性。
方差比例法:对每个解释变量(包括常数项),求出来自每个主成分的方差所占的比例,它们称为方差比例。当条件指数大,而对应的两个以上方差比例超过50%时,认为这些变量间存在相关性。
例6 统计31个人的跑步运动状况:年龄(age)、体重(weight)、肺活量(oxy)、英里跑步时间(runtime)、不运动时脉搏(rstpulse)、跑步时脉搏(runpulse)、跑步时最大脉搏(maxpulse),得数据如表5-4。以肺活量为响应变量,其余变量为解释变量,做共线分析。
表6 跑步运动数据
age
weight
oxy
runtime
rstpulse
runpulse
maxpulse;
44
62
178
182
40
62
185
185
44
45
156
168
42
40
166
172
38
55
178
180
47
58
176
176
40
70
176
180
43
64
162
170
54
44
168
172
51
59
186
188
57
49
148
155
49
56
186
188
48
52
170
176
52
53
170
172
输出的结果是
Model: MODEL1
Dependent Variable: OXY
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Prob>F
Model 6
Error 24
C Total 30
Root MSE R-square
Dep Mean Adj R-sq
.
以上是回归的方差分析表。
Parameter Estimates
Parameter Standard T for H0:
Variable DF Estimate Error Parameter=0 Prob > |T|
INTERCEP 1
RUNTIME 1
AGE 1
WEIGHT 1
RSTPULSE 1
RUNPULSE 1
MAXPULSE 1
Variance
Variable DF Inflation
INTERCEP 1
RUNTIME 1
AGE 1
WEIGHT 1
RSTPULSE 1
RUNPULSE 1
MAXPULSE 1
以上是参数估计表附膨胀因子表,由表可见,RUNPULSE 和 MAXPULSE的方差膨胀因子接近10,即共线性是很显著的。
Collinearity Diagnostics
Condition Var Prop Var Prop Var Prop Var Prop
Number Eigenvalue Index INTERCEP RUNTIME AGE WEIGHT
1
2
3
4
5
6
7
Var Prop Var Prop Var Prop
Number RSTPULSE RUNPULSE MAXPULSE
1
2
3
4
5
6
7
由上表可见条件数大于100,因而存在高度多重共线性。对应的方差比例中有两个(,)大于50%,因而他们间是相关的。
解决多重共线性方法当解释变量间存在多重共线性时,可采取如下方法处理多重共线性
删去一些解释变量。例如例中去掉解释变量最大脉搏maxpulse,以剩下的5个解释变量做回归,共线性就减轻了。
(2)做主成分回归。主成分回归的原理是:利用主成分分析方法,由m个解释变量选出q个主成分,它们是互不相关的;再用这q个主成分作为解释变量对应变量回归;最后,把回归结果转化成原来m个解释变量对应变量的回归。
(3)岭回归。岭回归的原理是:参数估计改用岭估计 ,其中c是(0,1)中的某个值,称为岭参数。虽然岭估计是有偏估计,即
但是参数误差方差为
可以缩小,从而预报误差减小了。
确定岭系数c的方法是:尝试不同的c,对它们计算岭回归系数,选取其中的一个c,使它尽可能小,而大于它的岭系数,对应的岭回归系数变化不大。
作岭回归,预计岭系数在(0,)的可能性大,在其中尝试点距小一些以提高精确度。
在GRAPH窗口得到的图形是
从图中可见runtime,age,weight,rstpusle的回归系数始终变化不快;当岭系数k在(0,)内变化时runpulse和maxpulse的回归系数变化很快,当岭系数k在(,1)内变化时runpulse和maxpulse的回归系数变化不快。于是取岭系数k=为好。
于是岭回归模型就是
Oxy=
+
五、多元线性回归模型
1.模型 现实世界中大量存在相关关系,具有相关关系的变量间由一些变量可以大体预报其它变量。前者称为解释变量,也叫做自变量或预报因子,后者称为因变量,也叫做(响)应变量或预报对象。首先让看一个例子:
例7统计1978-1993年大陆民航客运量y(万人),民航航线旅程(万公里)进入大陆访问旅游人数(万人),得表5-1。试建立由和预测y的公式。
表7 大陆民航客运量
年份
y
1978
231
1979
298
1980
343
1981
401
1992
2886
1993
3383
例7中,和影响y;但是不能完全决定y。、和y的关系是相关关系。我们建立数学模型
其中是零均值随机变量, 称为误差;其方差称为误差方差记为。是未知的参数,如果知道它们的值,预报公式(经验公式)就确定了,误差的大小也可以进行估计了,称它们为待估参数。和作为解释变量,其值作为固定值。
回归分析是建立预报公式的一种方法。其特点是:首先确定预报公式的类型,列出待估参数;然后取得解释变量和响应变量的多次观测值,这些观测值可能是实验得到的,也可能是调查出的;再用这些数据进行拟合。计算方法是数学的一个分支,它也包含数据拟合,回归分析与计算方法的数据拟合不同,计算方法的数据拟合只估计未知参数,而回归分析不仅仅估计参数,而且要对拟合的结果作统计分析,因此必须对观测值建立数学模型。最简单的回归模型是多元线性回归模型。
定义4
称为多元线性回归模型,其中是未知参数。称为自变量、解释变量或预报因子, 称为因变量、应变量或预报对象。
解释变量和未知参数都是线性出现的回归模型称为线性回归模型。为了确定线性回规模型的未知参数,必须配有解释变量和应变量的若干次观测值。
定义5
称为整体回归模型,其中附有假设(Gauss-Markov条件)
为了区别,称为理论回归模型。
为便于公式推演,可简写成矩阵形式,令
,,,。
则模型可写为
所以整体线性回归模型就是附有假设
其中称为回归设计矩阵(简称为设计矩阵)。
当n不大时总假设服从多元正态分布,。当n很大时,由中心极限定理可以不作此要求。通常假定X的秩为。
2.参数的估计
如何利用观测数据估计参数?通常用最小二乘法,即选择适当使离差平方和
最小。所解得的称为的最小二乘估计。
定理1 若的秩是(m+1),则的最小二乘估计是
。
其中
定义6 称为经验回归方程,简称为回归方程。
对例7可以求得
EMBED
回归方程就是y=++
定义7矩阵称为帽子矩阵。
定义8 称为的拟合值(回代值),拟合向量记为
定义9 称为第j次观测的残差。残差向量记为
。
例7拟合向量和残差向量分别是
定义10 EMBED 称为残差平方和,误差方差的估计为均方误差MSE,即
3. 多元线性回归假设检验
回归模型除拟合外存在许多检验问题,其中首先要考虑的是:(1)y与是否有较好的线性关系?即回归模型是否有意义?如果真正的模型中 ,或的绝对值都很小,则的值 对y影响都很小,不能起预报作用,我们认为y与没有较好的线性关系,回归模型没有意义。(2)回归模型能否简化,即中是否存在某个解释变量,它与y无关或它能被其它解释变量代替,因而回归模型中可以删去这个解释变量?为此可以做如下两类检验。
(1)线性关系显著性检验
检验 。
定理2指出SST=SSR+SSE,其中总方差SST反映应变量的发散程度;回归平方和SSR反映由回归引起的分散性,SSE反映误差变量的分散性。若成立,SSR/SSE应当很小,若SSR/SSE很大,则否定。为此取统计量SSR/SSE。由定理2
所以,只需计算F的值,并做F检验即可,若F很大,则否定。而F的大小可由F分布的95%,99%分位数(临界值)决定,当F的值大于这些分位数时,认为SSR很大,则否定。
对于例7,SSR=13668469,SSE=174902,n=16,m=2,F=(13668469/2)/(174902 /13)=。而查F分布表可得F(2,13)的95%,99%分位数分别是和。由大于它们可知,在高度显著水平下否定,即线性关系是高度显著的。
回归模型线性关系显著性其他检验方法:复相关系数平方
,
修正的复相关系数平方
。
由于
即复相关系数平方和修正的复相关系数平方越大,线性关系越显著。由于复相关系数和修正的复相关系数的分位数表不易查到,我们不介绍用这两个统计量做检验的方法。
(2) 单个解释变量显著性t检验。
常常要考虑第i个解释变量是否在模型中有作用。一个好的模型,所有变量都应起作用。如果的系数为零或绝对值很小,无作用。为此对每个i要检验
由于是的估计量,为零或绝对值很小,作用很小。由定理2,。
当成立时,统计量,若绝对值很大,则应当否定。由服从自由度为n-m-1的t分布知道,若绝对值很大,大于自由度为n-m-1的t分布随机变量的分位数,则应当否定,例如对于例7,
EMBED
于是对角线上第个元素分别是,,
。而所以
,,
。
所以
,,。
查表可得。由、和都大于可见截距、来访旅客数和航线公里数的作用都是显著的。
多元线性回归模型计算很麻烦,即使是例中简单情形,解释变量m=2,观测次数n=16
时用计算器计算也很麻烦。一般情况,变量个数很多,观测次数很多,用计算机软件却可以方便地完成这些计算,SAS的REG,RSREG,ORTHOREG和GLM过程都可以用来作回归。其中REG过程具有许多功能,例如模型选择、回归诊断等,所以一般情况下总用REG作线性回归。REG过程主要有两个语句:PROC REG语句和MODEL语句。
执行程序后计算机打出2个数表:方差分析表(表头Analysis of Variance),参数估计表(表头Parameter Estimate)。以下分别介绍这2个表所反映的信息。
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 2 13668469 6834235 <.0001
Error 13 174902 13454
Corrected Total 15 13843372
Root MSE R-Square
Dependent Mean Adj R-Sq
Coeff Var
上表是方差分析表,前几行即表,
方差来源
自由度
平方和
均方
F值
概率
回归平方和
2
13668469
6834235
<.0001
残差平方和
13
174902
13454
.
.
总方差
15
13843372
.
.
.
第1列指出各行平方和来源:第2行是回归平方和;第3行是残差平方和;第4行是前两行之和。第2列(DF)表示自由度,分别是2,13和2+13=15;第3列是平方和:SSR=13668469,
SSE=147902,SST=SSR+SSE=13843372。第4列是均方(平均平方和)13668469/2=6834235,174902/13=13454。第5列是F值:=6834235/13454。第6列是自由度为2,13的F分布随机变量大于的概率,这概率小于等价于F大于分位数数,因而线性关系是显著的。从表中还可见
参数估计表是
Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
Intercept 1 <.0001
x1 1 <.0001
x2 1
各列各行含义如下:第1列为变量,从中可见第2行是(intercept), 第3行是(的系数),第4行是(的系数)。第2列为自由度,各变量自由度都是1。第3列为参数估计值:=,=,=。第4列为标准误, ,。第5列为t值:,,。第6列为n-m-1=13个自由度t分布随机变量大于这些t值绝对的概率:
P(T>)<,P(T>)<,P(T>)=
概率小于表明变量的作用显著。由此可见个变量的作用都是显著的。
(3)多元线性回归预报
预报是回归分析的重要目的。对回归问题,当得到后,就有经验回归方程。若再给定解释变量的值,就可得到预报值
但是, y的真值满足,与上式相比,存在预报误差
由此可见,预报误差由两部分组成:与。因为观测值是随机变量,由他们算出的也是随机变量,所以
是随机变量。预报值的置信区间理论比较复杂。可以如下计算:设解释变量的值为,令,,则概率为的预报区间端点为(其证明见赛柏)
六、 多项式回归
在实际问题中,数学模型常是,其中往往不是线性函数,不能用多元线性回归模型描述。但由于连续函数可以用多项式逼近,所以常用多项式回归模型来近似实际问题。
例8 表8是美国1995年,各州公立学校师生比(平均每个教师所教学生数)和平均工资数,以及毕业率y,试以和的二次多项式拟合数据,即建立回归模型
其中是零均值随机变量。
表8 各州公立学校师生数据
州名
学生/教师
平均工资
毕业率
亚拉巴马
32549
阿拉斯加
50647
怀俄明
31721
由解释变量多项式和随机误差项组成的回归模型称为多项式回归模型.
定义11形为
的回归模型称为多项式回归,其中是未知参数。是解释变量,是应变量。
为了避免高次幂预报因子绝对值太大,系数绝对值太小而溢出,可用预报因子与其均值差的方幂代替其方幂。在例8中,均值分别约是17和38616,多项式回归模型可改为
也可用预报因子方幂除以较大数,避免高次幂预报因子绝对值太大,系数溢出,上式可写为
初看模型上式不是线性回归,因为其解释变量平方出现在模型中,但由于看成已知常数,其方幂和交叉积也可看成已知常数,未知参数都是线性出现,因此,只要令就能把多项式回归模型化为线性回归模型。从而可以用线性回归的计算公式和检验方法。
当解释变量的其它函数,例如,对数函数、指数函数、三角函数等出现在回归模型中,而未知参数都是以线性形式出现时,都可按上述方法化为线性回归处理。
七、 多元线性回归模型的选择
在例8中用二次多项式拟合时,有5个解释变量的方幂或交叉积当作预报因子,当用三次,四次多项式拟合时,随着多项式次数升高,预报因子个数急剧增加。在气象、经济等问题中,有时解释变量本身个数也非常多,例如解释变量是在全球180个地点,每个地点9个时段的温度,这时解释变量有1620个。过多的解释变量不仅使计算复杂,也不能抓住主要因素,还给计算带来麻烦(X’X不满秩或行列式近于零),从而降低精度。实际上,解释变量间很可能存在相关关系,有的解释变量可以用另几个解释变量很好地线性表示,这样的解释变量应当从模型中删去。所以我们应当从许多解释变量中选出一些解释变量,由它们组成的回归模型,既包含起显著作用的解释变量,同时又使解释变量个数尽可能少。选择解释变量过程称为模型选择。
怎样选择解释变量个数少的回归模型呢?有时可以从实际意义上判定,但更重要的情况是要我们用数学计算来判定。有许多数学原则可以用来选择解释变量,从而确定回归模型,例如(平均残差平方和)最小原则,复相关系数最大原则、修正复相关系数最大原则、统计量最小原则、统计量最小原则、统计量、平均估计方差(AEV)、刀切法(PRESS)、AIC、BIC等等。由此产生许多选择模型法。本节主要介绍F检验的向前选择法,向后选择法,逐步回归。
向前选择法的原理是:
选择1个F水平。
拟合仅有常数项,没有解释变量的模型。
若解释变量中已被选入回归模型,
,
对每一个未被选入的变量计算将它选入的F值。
(4)若其中有的大于,则将最大的变量选入模型,转(3);若其中所有的小于,则停止选择过程,输出计算结果。
于是得到若干个回归方程,从中选出最合意的一个。
向后选择法的原理是:
(1)选择1个F水平,将全部p个变量全选入回归方程。
(2)若解释变量已被选入回归模型,
,
对于中每1个,计算将它剔除的F值。
(3)若其中有的小于,则将其中F最小的的剔除,转(2);若所有的大于,则停止选择过程,输出计算结果。
于是得到若干个回归方程,从中选出最好的一个。
向前选择法的缺点是:1个变量一旦被选入,就不能被剔除。向后选择法的缺点是:1个变量一旦被剔除,就不能被选入。使用最广泛的是“逐步回归方法”也称为逐步选择法,1个变量被选入,有可能被剔除;1个变量一旦被剔除,有可能被选入。
逐步回归的一般步骤是:
选择两个F水平。
拟合仅有常数项,没有解释变量的模型。
若解释变量中是显著的,已被选入回归模型,
,
对每一个未被选入的变量计算将它选入的F值,若其中有的大于,则将最大的变量选入模型;若无解释变量能选入,则停止逐步回归过程,输出计算结果。
若解释变量已被选入回归模型,
,
对于中每1个,计算将它剔除的F值。若其中有的小于,则将其中F最小的剔除,再在剩下的解释变量中重复上述步骤,看能否再剔除,…;若无解释变量能剔除,则转步(3)。
例9 某种水泥在凝固时放出的热量y(卡/克)与水泥中下列4种化学成分有关:
的比例(%):。13次试验数据如表9,试用向前选择法,向后选择法,逐步回归法选择模型。
表9 水泥在凝固时放出的热量
7
26
6
60
1
29
15
52
11
56
8
20
11
31
8
47
7
52
6
33
11
55
9
22
3
71
17
6
1
31
22
44
2
54
18
22
21
47
4
26
1
40
23
34
11
66
9
12
10
68
8
12
Summary of Forward Selection
Variable Number Partial Model
Step Entered Vars In R-Square R-Square C(p) F Value Pr > F
1 x4 1
2 x1 2 <.0001
3 x2 3
上表为向前选择法的总括:
第1步:4个(自)变量中选择回归效果最好的变量 。
第2步:在剩下的3个(自)变量中选择,使,联合起来回归效果最好。
第3步:在剩下的2个(自)变量中选择,使,,联合起来回归效果最好。由检验知不能选入,所以合格的模型解释变量分别是:{},{,},{,,}。
Summary of Backward Elimination
Variable Number Partial Model
Step Removed Vars In R-Square R-Square C(p) F Value Pr > F
1 x3 3
2 x4 2
上表为 向后选择法总括表。
第1步:4个(自)变量中首先剔除回归效果最不好的变量 。第2步:在剩下的3个(自)变量中剔除回归效果最不好的变量。由检验知不能再剔除变量,所以合格的模型,解释变量分别是{,,, },{,,},{, }。
Summary of Stepwise Selection
Variable Variable Number Partial Model
Step Entered Removed Vars In R-Square R-Square C(p) F Value Pr > F
1 x4 1
2 x1 2 <.0001
3 x2 3
4 x4 2
上表为逐步回归法总括表。
第1步:4个(自)变量中选择回归效果最好的变量 。
第2步:在剩下的3个(自)变量中选择,使,联合起来回归效果最好。
第3步:在剩下的2个(自)变量中选择,使,,联合起来回归效果最好。
第4步,由检验知,,同时存在的模型中最差,且满足剔除条件,将它剔除。 中没有变量满足选入条件,,中也没有变量满足剔除条件,所以最优模型就是以,为解释变量的模型
例10 对于例9试找出主要的预报因子(解释变量)和相应回归方程,并作分析。
Stepwise Selection: Step 2
Variable t3 Entered: R-Square = and C(p) =
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 2
Error 48
Corrected Total 50
Parameter Standard
Variable Estimate Error Type II SS F Value Pr > F
Intercept 165566 <.0001
t1
t3
Bounds on condition number: ,
--------------------------------------------------------------------------------------------
All variables left in the model are significant at the level.
No other variable met the significance level for entry into the model.
最后2行可见筛选到此结束,由上面的参数估计表可见,筛选出的回归方程是
,
由上面的方差分析表可见,线性关系是显著的。对此筛选过程可以看出:教师工资的高低对毕业率影响不大、师生比对毕业率影响大。
PAGE
PAGE 42