多元线性回归分析
直线回归概念复习
例:为了研究3岁至8岁男孩身高与年龄的规律,在某地区在3岁至8岁男孩中随机抽样,共分6个年龄层抽样:3岁,4岁,…,8岁,每个层抽10个男孩,共抽60个男孩。资料如下:
60个男孩的身高资料如下
年龄
3岁
4岁
5岁
6岁
7岁
8岁
身
高
平均身高
从散点图上,我们可以发现样本点(X,Y)随机地出现在一条直线附近,并且从资料背景上考察,同一年龄的儿童身高应近似服从一个正态分布,而儿童身高的总体均数应随着年龄增长而增大,并由每个年龄的身高样本均数与儿童年龄的散点图可以发现:这些点非常接近一条直线以及样本均数存在抽样误差,因此推测儿童身高的总体均数与年龄可能呈直线关系。故假定身高Y在年龄X点上的总体均数与X呈直线关系。
其中y表示身高,x表示年龄。由于身高的总体均数与年龄有关,所以更准确地标记应为
表示在固定年龄情况下的身高总体均数。
身高的样本均数与年龄的散点图
故有理由认为身高的总体均数与年龄的关系可能是一条直线关系
上述公式称为直线回归方程。其中(为回归系数(regression coefficient),或称为斜率(slope);(称为常数项(constant),或称为截距(intercept)。回归系数(表示x变化一个单位y平均变化(个单位。当x和y都是随机的,x、y间呈正相关时(>0,x、y间呈负相关时(<0,x、y间独立时(=0。
一般情况而言,参数(和(是未知的。对于本例而言,不同民族和不同地区,(和(往往是不同的,因此需要进行估计的。由于不同年龄的身高实际观察值应在对应的身高总体均数附近(即:实际观察值与总体均数之间仅存在个体变异的差异),故可以用年龄和实际身高观察值的资料对未知参数(和(进行估计,一般采用最小二乘法进行参数估计。我们将借助Stata软件对本例资料进行直线回归。
数据格式
x
y
3
3
3
3
3
3
3
3
3
3
4
4
4
4
4
4
4
4
4
4
5
5
5
5
5
5
5
5
5
5
6
6
6
6
6
6
6
6
6
6
7
7
7
7
7
7
7
7
7
7
8
8
8
8
8
8
8
8
8
8
回归命令
regress y x
Source | SS df MS Number of obs = 60
-------------+------------------------------ F( 1, 58) =
Model | 1 Prob > F =
Residual | 58 R-squared =
-------------+------------------------------ Adj R-squared =
Total | 59 Root MSE =
------------------------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
x | .2099654
_cons |
------------------------------------------------------------------------------
回归方程
b= , a=
se(b)=
回归系数检验:H0:(=0 vs H1:((0
回归系数统计量t=b/se(b)= .2099654=,P值<,
95%CI of ( 为 (,)
简述单因素线性回归方程y=(+(x在实际分析中要注意的问题
残差(i=yi-a-bxi,引入回归模型yi=(+(xi+(i
(i~N(0,()且{(i}相互独立:说明有三个条件:
(i服从正态分布
{(i}相同的方差(2。
{(i}相互独立。
不满足上述3个条件时,反映在实际回归分析时,有如下情况:
散点在直线一侧较多而且靠直线很近,当在直线的另一侧,散点较少,而且离直线较远,反映在误差项(偏态分布。
散点随着自变量x增大而离散程度增大或减小(喇叭口状),反映了误差项(方差随着x变而变,即不满足相同方差(方差齐性)。
随着xi变化而(i呈某种规律性的变化。反映(还含有x的信息未利用到,还可以继续改进回归模型。
问题1:在同一总体中随机抽取2个相同样本量的样本,每个样本中都含有变量x和y,并以y为因变量和x为自变量,作线性回归,请问:两个样本作出的回归方程一样吗?它们之间什么关系?
问题2:回归方程所示的直线与原始数据的关系是什么?
不同,它们之间存在抽样误差
回归分析统计背景:对于固定自变量x,对y所在的总体进行抽样,得到在固定x情况下,y的样本值,因此对于每个xi,得到对应的抽样值yi。即:资料为:(x1,y1),(x2,y2),…,(xn,yn)。
因此对于同一个x值,y所对应的总体均数相同,不同的x值,y所对应的总体均数可能不同。
如果y的总体均数值与x的关系呈直线关系,则样本资料(x1,y1),(x2,y2),…,(xn,yn)呈带状直线散点图。
由于抽样资料y=总体均数+抽样误差
因此如果y的总体均数值与x呈直线关系,则抽样资料
当,则对于固定x,,而用样本资料(x1,y1),(x2,y2),…,(xn,yn)所估计得到的回归方程是固定x情况下,y的总体均数与x的线性方程的表达式。
即:b是β的样本估计值(无偏估计),a是α的样本估计值(无偏估计),是的样本估计值。
抽样误差(估计值)=样本资料-(a+bx) (即: 的估计值:残差)
所以要求回归分析的资料,其残差服从正态分布,且与x无关、方差齐性。
引入多元线性回归模型定义
例3-1,研究女中学生的肺活量与体重和胸围的关系,随机抽样了10名女中学生的体重x1(kg),胸围x2(cm)和肺活量y(ml),资料如表3-1,试建立一个因变量为y对自变量x1,x2的线性回归方程。
对于相同的体重x1和胸围x2,考查女中学生的肺活量y总是有一定的变异的,但总对应有一个总体均数(y|X,而且总体均数(y|X可能与体重x1和胸围x2有关。x1和x2与总体均数(y|X最简单的关系为线性关系:
同样的x1和x2,观察值y与总体均数(y总有一定的随机误差(,即y-(y|X=(,因此
若(~N(0,(2)分布且独立,而观察值,则称肺活量y、体重x1和胸围x2符合线性回归模型
对于一般的线性回归模型定义为:
设有p个观察自变量x1,x2,…,xp ,并用向量
X=( x1,x2,…,xp)’,因变量为y,且记y的总体均数为,随机误差(~N(0,(2)且独立,则线性回归模型可以表示为
对于观察值(y1,X1),(y2,X2),…,(yn,Xn),其中Xi=(xi1,xi2,…,xip),i=1,2,…,n。对应的线性回归模型为
且独立。
在本例中,作线性回归如下:(介绍一下数据结构)
. regress y x1 x2
Source
SS
df
MS
Number of obs = 10
F( 2, 7) =
回归平方和
回归均方和
Model
2
Prob > F =
残差平方和
残差均方和
决定系数
Residual
7
R-squared =
校正和决定系数
Adj R-squared =
Total
9
Root MSE =
总平方和SS总描述样本量为n=10的因变量y总的变异。回归平方和SSR描述了样本量为n时,由自变量x1,x2变化而引起的因变量y的这部分变异,SSe描述了样本量为n时,由随机误差项(所引起的因变量y的一部分变异,因此:
总变异=自变量引起y的变异+随机误差(引起变异
对应:SS总=SS回归+SS误差
由于SS总,SS回归和SS误差均与样本量n有关,样本量n越大,对应变异就越大。所以取平均变异指标:均方差MS
,
回归系数
回归系数标准误
t值
P值
95%可信区间
y
Coef.
.
t
P>|t|
[95% Conf. Interval]
x1
x2
_cons
回归方程
解释回归系数的意义
简述SST总=SSR回归+SSE残差,
自由度df回归=模型中的回归系数个数(不含常数项),df残差=n-df回归-1
,
模型的假设检验H0:(1=(2=0 vs (1,(2不全为0
当H0成立时,~F(df回归,df残差)
单个回归系数检验:H0:(=0 vs H1:((0
当H0:(=0成立时,
简述回归系数(的95%CI 意义与t检验的对应关系。
假设检验一般情况叙述
决定系数 EMBED
复相关系数R
H0:(1=(2=…=(r=0 vs (1,(2,…,(r不全为0。当H0成立时
((x1,x2,…,xp)的估计及其误差
(STATA命令:predict y1)
(STATA命令:predict meansd,stdp)(因为有抽样误差)
95%CI ,自由度v=n-1-p
个体预测值和标准误
(STATA命令:predict y1)
线性回归模型应用的条件总结
理论上
且独立。
具体检查是否复合线性回归模型步骤
先做线性回归
计算残差(i
检查残差(i是否服从正态分布(引起正态分布)
检查残差(i的离散程度是否与其它自变量呈某种趋势关系。(要求无任何趋势关系)
检查残差(i变化是否与其它自变量呈某种对应趋势关系。(要求无任何趋势关系)
多元线性回归常见的应用以及应用中的问题
全回归模型(析因分析)
多重共线对分析的影响VIFs (variance inflation factors)
对于自变量p个自变量x1,x2,…,xp中,以其中一个xi作为因变量作回归以及其它p-1个变量为自变量,得到相应的决定系数Ri。定义xi的膨胀因子
VIFi=1对应说明xi与其它p-1个自变量无共线。
当对应VIFi>1
当,说明xi与其它p-1个自变量完全共线,对应VIFi成为无穷大。
通常认为在p个自变量x1,x2,…,xp中,最大的VIF>10,则认为严重共线,最小二乘估计受到较严重的影响。
平均VIF=>>1,则认为
寻找影响因变量的主要因素。
用回归进行两组或多组的均数比较并校正混杂因素的影响。
全回归分析举例
例:据儿童保健部门的考察,4至7岁儿童的身高与年龄近似呈线性关系,且男女身高也有差异。下列收集了50名男孩和50名女孩的身高,年龄均在4岁至7岁之间。请试建立回归方程描述年龄与身高的关系(其中sex=1表示男,sex=0表示女)
sex
age
y
1
90
1
111
1
107
1
107
1
114
1
88
1
109
1
86
1
107
1
122
1
5
95
1
85
1
100
1
121
1
6
106
1
120
1
93
1
105
1
5
94
1
125
1
96
1
88
1
101
1
113
1
121
1
105
1
102
1
122
1
84
1
113
1
115
1
114
1
93
1
86
1
108
1
99
1
116
1
87
1
109
1
89
1
125
1
92
1
5
95
1
90
1
7
117
1
99
1
102
1
127
1
110
1
119
0
87
0
114
0
5
95
0
100
0
90
0
91
0
86
0
90
0
94
0
109
0
116
0
104
0
94
0
118
0
116
0
117
0
91
0
107
0
112
0
105
0
89
0
99
0
85
0
113
0
101
0
6
104
0
98
0
95
0
101
0
90
0
120
0
90
0
95
0
94
0
108
0
88
0
107
0
110
0
5
94
0
94
0
104
0
107
0
93
0
116
0
110
0
99
0
99
0
96
0
115
0
121
考虑身高总体均数为
模型为:
用拟合上述模型
gen sexage=sex*age
regress y age sex sexage
------------------------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
sex |
age | .1337354
sexage | .1883106
_cons | .7869668
回归方程为
则女孩为身高与年龄的回归方程为(sex=0)
age的回归系数的意义为每年身高增长的速度
则男孩为身高与年龄的回归方程为(sex=1)
age的回归系数的意义为每年身高增长的速度
因此女孩身高的增长速度为(2,样本估计值为
男孩身高的增长数为(2+(3,样本估计值为
男孩与女孩身高的增长速度差异为(3,(3>0说明男孩身高增长速度快,(3<0说明女孩身高增长速度快,(3说明女孩与男孩的身高增长速度是一样的。样本估计值为>0,P值<。因此男孩身高速度高于女孩,并且差别有统计学意义。
例:治疗缺铁性贫血100人,随机分为2组,给予不同疗法治疗:经过一个月治疗后,治疗前后的红细胞数(万/(l)如下:
A组
B组
治疗前
y1
治疗后
y2
组别
group
治疗前
y1
治疗后
y2
组别
group
325
337
1
327
348
0
312
325
1
334
354
0
331
343
1
347
368
0
328
341
1
317
337
0
316
330
1
351
371
0
367
380
1
299
319
0
354
367
1
336
357
0
311
325
1
317
338
0
364
378
1
305
326
0
345
360
1
362
382
0
335
348
1
315
333
0
329
344
1
370
394
0
336
349
1
346
368
0
293
306
1
324
345
0
345
358
1
324
346
0
364
378
1
362
383
0
311
325
1
318
338
0
347
360
1
329
350
0
350
364
1
356
378
0
295
308
1
356
376
0
369
383
1
356
378
0
323
336
1
340
362
0
385
399
1
322
342
0
324
338
1
310
330
0
312
325
1
357
378
0
322
336
1
345
365
0
340
353
1
340
361
0
330
344
1
330
351
0
347
361
1
358
380
0
361
374
1
306
329
0
374
389
1
322
342
0
327
340
1
304
325
0
335
349
1
327
348
0
363
377
1
353
374
0
338
350
1
355
376
0
328
344
1
346
369
0
303
316
1
369
390
0
329
342
1
326
348
0
317
331
1
333
355
0
334
346
1
367
389
0
334
348
1
363
384
0
335
348
1
337
360
0
330
343
1
368
389
0
338
353
1
339
361
0
353
366
1
337
358
0
332
345
1
369
390
0
303
317
1
358
380
0
369
384
1
357
378
0
328
343
1
345
368
0
治疗前
治疗后
第一组
(
(
第二组
(
(
考虑以治疗前后的改变量为评价的效应指标
先不考虑校正基线
则可以用成组t检验进行统计分析
gen y=y2-y1
ttest y,by(group)
结果如下:
Two-sample t test with equal variances
------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
0 | 49 .1524933
1 | 49 .1271081 .8897565
---------+--------------------------------------------------------------------
combined | 98 .3978661
---------+--------------------------------------------------------------------
diff | .1985212
------------------------------------------------------------------------------
Degrees of freedom: 96
Ho: mean(0) - mean(1) = diff = 0
Ha: diff < 0 Ha: diff ~= 0 Ha: diff > 0
t = t = t =
P < t = P > |t| = P > t =
现用线性回归完成上述分析
设B组(group=0)受试者的红细胞数改变量的总体均数为(d=(,
设A组(group=1)受试者的红细胞数改变量的总体均数为(d=(+(
因此两组的总体均数可以表示为(d=(+(group
用线性回归
. regress y group
Source | SS df MS Number of obs = 98
-------------+------------------------------ F( 1, 96) =
Model | 1 Prob > F =
Residual | 96 .965561224 R-squared =
-------------+------------------------------ Adj R-squared =
Total | 97 Root MSE = .98263
------------------------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
group | .1985212
_cons | .1403757
------------------------------------------------------------------------------
(的估计值为,正是B组的样本均数
(的估计值为,(+(==,正是A组的样本均数
(的估计值为两组样本均数的差值,(的检验统计量t=,与t检验结果对应,P值也对应。
可以证明:成组t检验也可以用线性回归分析进行。
从本例中可以发现回归系数(的意义就是两组总体均数的差值,其估计值同样为两组样本均数的差值。
gen y=y2-y1
regress y group y1
Source | SS df MS Number of obs = 98
-------------+------------------------------ F( 2, 95) =
Model | 2 Prob > F =
Residual | 95 .920700644 R-squared =
-------------+------------------------------ Adj R-squared =
Total | 97 Root MSE = .95953
------------------------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
group | .194777
y1 | .0114537 .0048069 .0019108 .0209966
_cons |
------------------------------------------------------------------------------
predict e,residual 计算残差值(i
sktest e 残差正态性检验
Skewness/Kurtosis tests for Normality
------- joint ------
Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2
-------------+-------------------------------------------------------
e |
gen ee=abs(e) 产生残差e的绝对值,放在变量ee
(检验方差齐性:Leven’s方差检验)
anova ee group
Number of obs = 98 R-squared =
Root MSE = .589872 Adj R-squared =
Source | Partial SS df MS F Prob > F
-----------+----------------------------------------------------
Model | .141918237 1 .141918237
group | .141918237 1 .141918237
Residual | 96 .347948928
-----------+----------------------------------------------------
Total | 97 .3458249
(=,P值>>(,因此说明两组残差的平均幅度差别无统计意义。说明残差方差齐性。
析因分析举例
例 为了研究A药和B药治疗患免疫球蛋白偏低的儿童的疗效,采用随机对照试验(RCT)和析因分析的研究设计方案:
第一组:仅是加强营养(作为对照组);
第二组:加强营养并服用A药;
第三组:加强营养并服用B药;
第四组:加强营养并服用A药且B药。
每组随机收集了25名患者进行治疗
评价药物疗效的指标为IgA(mg/dl 血清)并用y表示
定义协变量
a=1表示服用A药,a=0表示未服用A药;
b=1表示服用A药,b=0表示未服用B药;
y
a
b
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
对照组
(a=b=0)
服A药组
(a=1,b=0)
服B药组
(a=0,b=1)
服A药且B药组(a=b=1)
(
(
(
(
gen ab=a*b 产生交互作用变量
. regress y a b ab
Source | SS df MS Number of obs = 100
-------------+------------------------------ F( 3, 96) =
Model | 3 Prob > F =
Residual | 96 R-squared =
-------------+------------------------------ Adj R-squared =
Total | 99 Root MSE =
------------------------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
a |
b |
ab |
_cons | .9267277
------------------------------------------------------------------------------
三组均数的比较,资料正态分布且方差齐性()
分组变量g1和g2定义
方差分析中的分组变量表示
回归模型中的分组变量表示
对应总体均数
A组group=0
g1=0
g2=0
μA
B组group=1
g1=1
g2=0
μB
C组group=2
g1=0
g2=1
μC
数据结构
观察数据变量
回归分析的分组变量
方差分析的分组变量
y
g1
g2
group
A组观察数据
38
0
0
0
g1=0,g2=0
(或group=0)
表示A组
67
0
0
0
46
0
0
0
B组观察数据
87
1
0
1
g1=1,g2=0
(或group=1)
表示B组
73
1
0
1
115
1
0
1
C组观察数据
124
0
1
2
g1=0,g2=1
(或group=2)
表示C组
155
0
1
2
132
0
1
2
回归模型: 且独立。
即:总体均数
A组:g1=0,g2=0,对应的总体均数
B组:g1=1,g2=0,对应的总体均数
C组:g1=0,g2=1,对应的总体均数
因此,所以检验的问题就是检验的问题。
因此,所以检验的问题就是检验的问题。
因为,
所以检验就是检验
数据格式
y
g1
g2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
组别
均数
标准差
A组
=
B组
=
C组
=
regress y g1 g2
Source | SS df MS Number of obs = 150
-------------+------------------------------ F( 2, 147) =
Model | 2 Prob > F =
Residual | 147 R-squared =
-------------+------------------------------ Adj R-squared =
Total | 149 Root MSE =
------------------------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
g1 |
g2 |
_cons |
------------------------------------------------------------------------------
得到回归方程
A组:g1=g2=0,
正好等于
B组:g1=1,g2=0,
正好等于
C组:g1=0,g2=1,
正好等于
g1的总体回归系数β1=μB-μA,对应样本估计值
g2的总体回归系数β2=μC-μA,对应样本估计值
H0:μA=μB对应H0:β1=0,相应的检验值t=,P<
可以认为μA(μB,μB-μA=β1的95%CI为[, ]
因此至少有95%可能性可以肯定μB-μA>0,即:μB>μA。
H0:μA=μC对应H0:β2=0,相应的检验值t=,P<
可以认为μA(μC,μC-μA=β2的95%CI为[,]
因此至少有95%可能性可以肯定μC-μA>0,即:μC>μA。
为了检验H0:μB=μC vs μB(μC,
对应检验H0:β1=β2 vs H1: β1(β2,
因此在STATA软件中输入命令:
test g1=g2
( 1) g1 - g2 =
F( 1, 147) =
Prob > F =
P<,因此可以认为μB(μC。可以证明相应的μB-μC的95%CI不包含0,若,则相应的95%CI的下限大于0;若,则相应的95%CI的上限小于0。
为了考察某指标y对冠心病患病是否有关。通过病例对照研究,比较病例组(用group=1表示)和对照组(用group=0表示)的总体均数比较,并考虑该因素y可能受年龄age的影响:
数据结构
g
age
y
0
41
0
45
0
33
0
44
0
41
0
44
0
31
0
39
0
34
0
32
0
38
0
38
0
44
0
37
0
45
0
32
0
36
0
39
0
34
0
34
0
46
0
31
0
45
0
31
0
40
0
38
0
41
0
46
0
43
0
42
0
40
0
32
0
40
0
41
0
39
0
39
0
43
0
43
0
33
0
41
0
34
0
37
0
44
0
39
0
32
0
45
0
43
0
33
0
35
0
38
1
53
1
54
1
54
1
47
1
48
1
46
1
54
1
52
1
51
1
52
1
47
1
53
1
46
1
49
1
55
1
49
1
45
1
46
1
51
1
56
1
56
1
47
1
55
1
45
1
47
1
52
1
54
1
51
1
50
1
58
1
44
1
51
1
56
1
51
1
58
1
58
1
58
1
53
1
49
1
47
1
56
1
45
1
53
1
54
1
47
1
49
1
50
1
51
1
44
1
50
先进行两组均数的比较
. sktest y if g==0
Skewness/Kurtosis tests for Normality
------- joint ------
Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2
-------------+-------------------------------------------------------
y |
. sktest y if g==1
Skewness/Kurtosis tests for Normality
------- joint ------
Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2
-------------+-------------------------------------------------------
y |
(=,可以认为资料近似服从正态分布。
sdtest y,by(g)
Variance ratio test
------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
0 | 50 .2936639
1 | 50 .2475036
---------+--------------------------------------------------------------------
combined | 100 .1910994
------------------------------------------------------------------------------
Ho: sd(0) = sd(1)
F(49,49) observed = F_obs =
F(49,49) lower tail = F_L = 1/F_obs =
F(49,49) upper tail = F_U = F_obs =
Ha: sd(0) < sd(1) Ha: sd(0) ~= sd(1) Ha: sd(0) > sd(1)
P < F_obs = P < F_L + P > F_U = P > F_obs =
(=,可以认为两组方差齐性
. ttest y,by(g)
Two-sample t test with equal variances
------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
0 | 50 .2936639
1 | 50 .2475036
---------+--------------------------------------------------------------------
combined | 100 .1910994
---------+--------------------------------------------------------------------
diff | .0827939 .3840527 .844934
------------------------------------------------------------------------------
Degrees of freedom: 98
Ho: mean(0) - mean(1) = diff = 0
Ha: diff < 0 Ha: diff ~= 0 Ha: diff > 0
t = t = t =
P < t = P > |t| = P > t =
(=,两组均数的差异无统计学意义。
考虑下列线性回归模型
因此病例组group=1的总体均数为
对照组group=0的总体均数为
因此对于相同的年龄,两组总体均数的差值为
用上述模型进行回归分析,结果如下:
reg y g age
Source | SS df MS Number of obs = 100
-------------+------------------------------ F( 2, 97) =
Model | 2 Prob > F =
Residual | 97 R-squared =
-------------+------------------------------ Adj R-squared =
Total | 99 Root MSE =
------------------------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
g | .351174
age | .3749893 .0234455 .3284565 .421522
_cons | .9185587
------------------------------------------------------------------------------
得到回归方程
病例组group=1代入上述回归方程,得到病例组的回归方程
对照组group=0代入上述回归方程,得到对照组的回归方程
两组方程的斜率相同,两组的截距差为group的回归系数(1,对应检验表明差别有统计意义,由于(1为在相同的年龄下,两组均数的差值,因此可以认为病例组患者的y指标比对照组平均低((1背景意义)个单位。
考虑另一种典型情况:
研究背景同上例类似,考查另一指标y在病例对照研究中两组均数的比较。
数据结构与上例相同
g
age
y
0
41
0
45
0
33
0
44
0
41
0
44
0
31
0
39
0
34
0
32
0
38
0
38
0
44
0
37
0
45
0
32
0
36
0
39
0
34
0
34
0
46
0
31
0
45
0
31
0
40
0
38
0
41
0
46
0
43
0
42
0
40
0
32
0
40
0
41
0
39
0
39
0
43
0
43
0
33
0
41
0
34
0
37
0
44
0
39
0
32
0
45
0
43
0
33
0
35
0
38
1
53
1
54
1
54
1
47
1
48
1
46
1
54
1
52
1
51
1
52
1
47
1
53
1
46
1
49
1
55
1
49
1
45
1
46
1
51
1
56
1
56
1
47
1
55
1
45
1
47
1
52
1
54
1
51
1
50
1
58
1
44
1
51
1
56
1
51
1
58
1
58
1
58
1
53
1
49
1
47
1
56
1
45
1
53
1
54
1
47
1
49
1
50
1
51
1
44
1
50
同样先用t检验比较两组均数,再用上述模型进行回归分析并考虑年龄对这两组均数的影响:
. sktest y if g==0
Skewness/Kurtosis tests for Normality
------- joint ------
Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2
-------------+-------------------------------------------------------
y |
. sktest y if g==1
Skewness/Kurtosis tests for Normality
------- joint ------
Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2
-------------+-------------------------------------------------------
y |
. sdtest y,by(g)
Variance ratio test
------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
0 | 50 .3183926
1 | 50 .2666049
---------+--------------------------------------------------------------------
combined | 100 .3304763
------------------------------------------------------------------------------
Ho: sd(0) = sd(1)
F(49,49) observed = F_obs =
F(49,49) lower tail = F_L = 1/F_obs =
F(49,49) upper tail = F_U = F_obs =
Ha: sd(0) < sd(1) Ha: sd(0) ~= sd(1) Ha: sd(0) > sd(1)
P < F_obs = P < F_L + P > F_U = P > F_obs =
(=,可以认为资料近似服从正态分布,方差齐性。
. ttest y,by(g)
Two-sample t test with equal variances
------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
0 | 50 .3183926
1 | 50 .2666049
---------+--------------------------------------------------------------------
combined | 100 .3304763
---------+--------------------------------------------------------------------
diff | .4152734
------------------------------------------------------------------------------
Degrees of freedom: 98
Ho: mean(0) - mean(1) = diff = 0
Ha: diff < 0 Ha: diff ~= 0 Ha: diff > 0
t = t = t =
P < t = P > |t| = P > t =
(=,t检验结果为两组差别有统计学意义。
. reg y g age
Source | SS df MS Number of obs = 100
-------------+------------------------------ F( 2, 97) =
Model | 2 Prob > F =
Residual | 97 R-squared =
-------------+------------------------------ Adj R-squared =
Total | 99 Root MSE =
------------------------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
g | .0329006 .3505324 .7286105
age | .4166827 .0234026 .370235 .4631305
_cons | .9168807
------------------------------------------------------------------------------
得到回归方程
对照组group=0代入上式:得到对照组的回归方程
病例组group=1代入上式:得到病例组的回归方程
两组方程的斜率相同,两组的截距差为group的回归系数(1,对应检验差别无统计意义,所以对于相同的年龄,两组y的平均数无统计意义。说明作t检验得到差别有统计意义的结果受到年龄的混杂作用。
析因分析举例(析因分析.dta)
例 为了研究A药和B药治疗患免疫球蛋白偏低的儿童的疗效,采用随机对照试验(RCT)和析因分析的研究设计方案:
第一组:仅是加强营养(作为对照组);
第二组:加强营养并服用A药;
第三组:加强营养并服用B药;
第四组:加强营养并服用A药且B药。
每组随机收集了25名患者进行治疗
评价药物疗效的指标为IgA(mg/dl 血清)并用y表示
定义协变量
a=1表示服用A药,a=0表示未服用A药;
b=1表示服用A药,b=0表示未服用B药;
gen ab=a*b 产生交互作用变量
用回归模型,
其中
数据结构
y
a
b
40
0
0
41
0
0
42
0
0
44
0
0
45
0
0
46
0
0
47
0
0
47
0
0
48
0
0
49
0
0
50
0
0
50
0
0
51
0
0
51
0
0
51
0
0
51
0
0
51
0
0
52
0
0
53
0
0
53
0
0
53
0
0
54
0
0
55
0
0
57
0
0
59
0
0
47
1
0
50
1
0
50
1
0
53
1
0
57
1
0
57
1
0
58
1
0
58
1
0
59
1
0
59
1
0
59
1
0
59
1
0
61
1
0
61
1
0
61
1
0
61
1
0
61
1
0
61
1
0
62
1
0
62
1
0
62
1
0
64
1
0
64
1
0
65
1
0
70
1
0
42
0
1
46
0
1
47
0
1
48
0
1
50
0
1
51
0
1
51
0
1
52
0
1
55
0
1
55
0
1
55
0
1
55
0
1
56
0
1
56
0
1
57
0
1
58
0
1
58
0
1
58
0
1
59
0
1
59
0
1
59
0
1
60
0
1
60
0
1
61
0
1
63
0
1
56
1
1
57
1
1
60
1
1
64
1
1
65
1
1
65
1
1
66
1
1
66
1
1
66
1
1
68
1
1
68
1
1
68
1
1
68
1
1
70
1
1
70
1
1
71
1
1
71
1
1
71
1
1
72
1
1
73
1
1
73
1
1
74
1
1
77
1
1
78
1
1
81
1
1
对照组
(a=b=0)
服A药组
(a=1,b=0)
服B药组
(a=0,b=1)
服A药且B药组(a=b=1)
(
(
(
(
(=(0
(=(0+(1
(=(0+(2
(=(0+(1+(2+(3
. regress y a b ab
Source
SS
df
MS
Number of obs = 100
F( 3, 96) =
Model
3
Prob > F =
Residual
96
R-squared =
Adj R-squared =
Total
99
Root MSE =
y
Coef.
.
t
P>|t|
[95%Conf .Interval]
a
b
ab
.0566251
_cons
得到回归方程:
对照组a=b=0,
A药组:a=1,b=0,
B药组:a=0,b=1,
A药+B药组,a=b=1,
研究问题1:单独用A药,效应如何?
单独用B药,效应如何?
同时用A同时用B药的效应是否大于或小于单独用A药的效应+单独用B药效应?
A药的样本效应值为
B药的样本效应值为
A药+B药的样本效应值为++=>A药和B药单独使用的效应值的和+=,两者相差,且有统计意义。即有协同作用。
研究问题2:单独用A药和单独用B药,哪个药效果好?
H0:(1=(2 vs Ha:(1((2
STATA命令:test a=b
test a=b
( 1) a - b =
F( 1, 96) =
Prob > F = ,说明差别有统计意义且A药优于B要。
多个回归系数检验问题
例3-2 健康女性身体各部位脂肪分布情况
用x1表示三头肌皮褶厚度,x2表示大腿围,x3表示中臂围,用y表示身体脂肪。试用线性回归分析的方法分析身体脂肪与三头肌皮褶厚度,大腿围和中臂围之间的关系。
no
x1
x2
x3
y
no
x1
x2
x3
y
1
11
30
2
12
3
37
13
23
4
14
5
15
6
16
7
17
8
18
9
19
10
20
51
STATA命令
regress y x1 x2 x3
Source
SS
df
MS
Number of obs=20
F(3, 16)=
Model
3
Prob>F=
Residual
16
R-squared=
AdjR-squared=
Total
19
Root MSE=
H0:(1=(2=(3=0 vs H1:(1,(2,(3不全为0
P<,因此拒绝H0,并认为至少有一个回归系数不为0。
y
Coef.
.
t
P>|t|
[95%Conf.
Interval]
x1
x2
x3
.7020557
.978017
_cons
虽然所有单个回归系数的检验P>,但是单个回归系数的检验是指其它回归系数均在模型中的条件下,而该因素的回归系数(=0的检验。事实上,出现这种情况,很可能是自变量之间高度相关且某一个自变量可以被其它自变量线性表示。称为多重共线问题。
多重共线对分析的影响VIFs (variance inflation factors)
对于自变量p个自变量x1,x2,…,xp中,以其中一个xi作为因变量作回归以及其它p-1个变量为自变量,得到相应的决定系数Ri。定义xi的膨胀因子
VIFi=1对应说明xi与其它p-1个自变量无共线。
当对应VIFi>1
当,说明xi与其它p-1个自变量完全共线,对应VIFi成为无穷大。
通常认为在p个自变量x1,x2,…,xp中,最大的VIF>10,则认为严重共线,最小二乘估计受到较严重的影响。
平均VIF=>>1,则认为多重共线。
在本例中,自变量x1,x2,x3可能多重共线。因此在运行regress命令后,再输入计算膨胀因子的计算vif
Variable | VIF 1/VIF
x1 |
x2 |
x3 |
Mean VIF |
因此可以认为严重的多重共线。
. sw regress y x1 x2 x3,pe() pr()
begin with full model
p = >= removing x2
Source | SS df MS Number of obs = 20
-------------+------------------------------ F( 2, 17) =
Model | 2 Prob > F =
Residual | 17 R-squared =
-------------+------------------------------ Adj R-squared =
Total | 19 Root MSE =
------------------------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
x1 | .1282321 .7300389
x3 | .1766156
_cons |
------------------------------------------------------------------------------
当x2剔除模型后,x1和x3的回归系数均有统计意义。
所以模型中,出现多个回归系数的P值>,不能立刻断定这些P值大于的回归系数所对应的变量均无统计意义而剔除模型。
逐步回归也分为二种方式:前进法和后推法筛选变量。
以例3-3(pp46)为例分别说明逐步回归的前进法和逐步回归的后退法过程。
为了使资料较好地正态分布,对y取对数
gen yy=ln(y)/ln(10)
第一步:
寻找最佳的单变量线性回归模型
模型1 得到相应的F1= P值=
模型2 得到相应的F2= P值<
模型3 得到相应的F3= P值<
模型4 得到相应的F4= P值<
因此就单变量的线性回归模型而言,模型4是相对最好的。
第二步
考虑回归模型中引进第2个变量:
模型 5 得到相应的F1= P值>
模型 6 得到相应的F2= P值<
模型 7 得到相应的F3= P值<
因此选用模型7(既引进变量x3)
第三步
考虑回归模型中引进第3个变量:
模型 8
得到相应的F1= P值<
模型 9
得到相应的F2= P值<
因此选用模型9(既引进变量x2)
考虑回归模型中引进第4个变量:
模型 10
得到相应的F1= P值<,但是x4的P值=,相应F4=,因此x4应从模型10中剔除。因此得到模型11
模型 11
最后得到模型为的变量已经不能在引进模型并且模型中的变量也不能被剔除出模型。该模型具体结果为
Source
SS
df
MS
Number of obs=54
F(3, 50)=
Model
3
Prob>F=
Residual
.109885494
50
.00219771
R-squared=
Adj R-squared=
Total
53
.074957143
RootMSE=.04688
yy
Coef.
.
t
P>|t|
[95%Conf.
Interval]
x1
.0692287
.0040784
.0610369
.0774205
x2
.0092946
.0003826
.0085262
.010063
x3
.0095233
.0003064
.0089078
.0101388
_cons
.4836226
.0426339
.3979898
.5692553
应用回归结果前,应检查
残差是否近似正态分布(要求基本对称就可以了,大样本时要求可以更低一些)。
残差的离散程度是否各个自变量变化无关?若残差的离散程度与某个自变量的变化有关,则应采用某种变换或用关于方差稳健的回归分析(robust regression):在STATA软件中:如本例
regress yy x1 x2 x3,robust
若满足上述二条,回归系数的检验结果是可靠的。
若要应用回归模型进行预测,则还应满足各个自变量与残差无任何明显趋势变化。
在引入模型的自变量中,若有亚元变量,则亚元变量是一组变量(认为向量变量),所以对于某一组的亚元变量,则要么该组亚元变量全引进模型,要么该组亚元变量全剔除出模型。不能亚元变量的某几个成分的变量进入模型,另外几个成分的亚元变量未进入模型。