MBA智库文档经济统计学多元线性回归分析--直线回归概念复习.doc

多元线性回归分析--直线回归概念复习.doc

下载

用户#758152

41页 | 769KB | 0次下载 |

0.0

(0人评价)

我要评价：

投诉举报

用手机看文档

扫一扫,手机看文档

下载

开通VIP

多元线性回归分析直线回归概念复习例:为了研究3岁至8岁男孩身高与年龄的规律，在某地区在3岁至8岁男孩中随机抽样，共分6个年龄层抽样：3岁，4岁，…，8岁，每个层抽10个男孩，共抽60个男孩。资料如下： 60个男孩的身高资料如下年龄 3岁 4岁 5岁 6岁 7岁 8岁身高平均身高从散点图上，我们可以发现样本点(X,Y)随机地出现在一条直线附近，并且从资料背景上考察，同一年龄的儿童身高应近似服从一个正态分布，而儿童身高的总体均数应随着年龄增长而增大，并由每个年龄的身高样本均数与儿童年龄的散点图可以发现：这些点非常接近一条直线以及样本均数存在抽样误差，因此推测儿童身高的总体均数与年龄可能呈直线关系。故假定身高Y在年龄X点上的总体均数与X呈直线关系。其中y表示身高，x表示年龄。由于身高的总体均数与年龄有关，所以更准确地标记应为表示在固定年龄情况下的身高总体均数。身高的样本均数与年龄的散点图故有理由认为身高的总体均数与年龄的关系可能是一条直线关系上述公式称为直线回归方程。其中(为回归系数（regression coefficient），或称为斜率（slope）；(称为常数项（constant），或称为截距（intercept）。回归系数(表示x变化一个单位y平均变化(个单位。当x和y都是随机的，x、y间呈正相关时(>0，x、y间呈负相关时(<0，x、y间独立时(=0。一般情况而言，参数(和(是未知的。对于本例而言，不同民族和不同地区，(和(往往是不同的，因此需要进行估计的。由于不同年龄的身高实际观察值应在对应的身高总体均数附近(即：实际观察值与总体均数之间仅存在个体变异的差异)，故可以用年龄和实际身高观察值的资料对未知参数(和(进行估计，一般采用最小二乘法进行参数估计。我们将借助Stata软件对本例资料进行直线回归。数据格式 x y 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 8 8 回归命令 regress y x Source | SS df MS Number of obs = 60 -------------+------------------------------ F( 1, 58) = Model | 1 Prob > F = Residual | 58 R-squared = -------------+------------------------------ Adj R-squared = Total | 59 Root MSE = ------------------------------------------------------------------------------ y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- x | .2099654 _cons | ------------------------------------------------------------------------------ 回归方程 b= ， a= se(b)= 回归系数检验：H0：(=0 vs H1:((0 回归系数统计量t=b/se(b)= .2099654=，P值<， 95%CI of ( 为 (,) 简述单因素线性回归方程y=(+(x在实际分析中要注意的问题残差(i＝yi－a－bxi，引入回归模型yi=(+(xi+(i (i～N(0,()且{(i}相互独立：说明有三个条件： (i服从正态分布 {(i}相同的方差(2。 {(i}相互独立。不满足上述3个条件时，反映在实际回归分析时，有如下情况：散点在直线一侧较多而且靠直线很近，当在直线的另一侧，散点较少，而且离直线较远，反映在误差项(偏态分布。散点随着自变量x增大而离散程度增大或减小(喇叭口状),反映了误差项(方差随着x变而变，即不满足相同方差(方差齐性)。随着xi变化而(i呈某种规律性的变化。反映(还含有x的信息未利用到，还可以继续改进回归模型。问题1：在同一总体中随机抽取2个相同样本量的样本，每个样本中都含有变量x和y，并以y为因变量和x为自变量，作线性回归，请问：两个样本作出的回归方程一样吗？它们之间什么关系？问题2：回归方程所示的直线与原始数据的关系是什么？不同，它们之间存在抽样误差回归分析统计背景：对于固定自变量x，对y所在的总体进行抽样，得到在固定x情况下，y的样本值，因此对于每个xi，得到对应的抽样值yi。即：资料为：(x1，y1)，(x2，y2)，…，(xn，yn)。因此对于同一个x值，y所对应的总体均数相同，不同的x值，y所对应的总体均数可能不同。如果y的总体均数值与x的关系呈直线关系，则样本资料(x1，y1)，(x2，y2)，…，(xn，yn)呈带状直线散点图。由于抽样资料y=总体均数＋抽样误差因此如果y的总体均数值与x呈直线关系，则抽样资料当，则对于固定x，，而用样本资料(x1，y1)，(x2，y2)，…，(xn，yn)所估计得到的回归方程是固定x情况下，y的总体均数与x的线性方程的表达式。即：b是β的样本估计值(无偏估计)，a是α的样本估计值(无偏估计)，是的样本估计值。抽样误差(估计值)＝样本资料－(a+bx) （即：的估计值：残差）所以要求回归分析的资料，其残差服从正态分布，且与x无关、方差齐性。引入多元线性回归模型定义例3-1，研究女中学生的肺活量与体重和胸围的关系，随机抽样了10名女中学生的体重x1(kg)，胸围x2(cm)和肺活量y(ml)，资料如表3－1，试建立一个因变量为y对自变量x1,x2的线性回归方程。对于相同的体重x1和胸围x2，考查女中学生的肺活量y总是有一定的变异的，但总对应有一个总体均数(y|X，而且总体均数(y|X可能与体重x1和胸围x2有关。x1和x2与总体均数(y|X最简单的关系为线性关系：同样的x1和x2，观察值y与总体均数(y总有一定的随机误差(，即y-(y|X=(，因此若(～N(0,(2)分布且独立，而观察值，则称肺活量y、体重x1和胸围x2符合线性回归模型对于一般的线性回归模型定义为：设有p个观察自变量x1，x2，…，xp ，并用向量 X=( x1，x2，…，xp)’，因变量为y，且记y的总体均数为，随机误差(～N(0,(2)且独立，则线性回归模型可以表示为对于观察值(y1,X1)，(y2,X2)，…，(yn,Xn)，其中Xi=(xi1,xi2,…，xip)，i=1,2,…,n。对应的线性回归模型为且独立。在本例中，作线性回归如下：(介绍一下数据结构) . regress y x1 x2 Source SS df MS Number of obs = 10 F( 2, 7) = 回归平方和回归均方和 Model 2 Prob > F = 残差平方和残差均方和决定系数 Residual 7 R-squared = 校正和决定系数 Adj R-squared = Total 9 Root MSE = 总平方和SS总描述样本量为n＝10的因变量y总的变异。回归平方和SSR描述了样本量为n时，由自变量x1,x2变化而引起的因变量y的这部分变异，SSe描述了样本量为n时，由随机误差项(所引起的因变量y的一部分变异，因此：总变异＝自变量引起y的变异＋随机误差(引起变异对应：SS总＝SS回归＋SS误差由于SS总，SS回归和SS误差均与样本量n有关，样本量n越大，对应变异就越大。所以取平均变异指标：均方差MS ，回归系数回归系数标准误 t值 P值 95％可信区间 y Coef. . t P>|t| [95% Conf. Interval] x1 x2 _cons 回归方程解释回归系数的意义简述SST总＝SSR回归＋SSE残差，自由度df回归＝模型中的回归系数个数(不含常数项)，df残差=n－df回归－1 ，模型的假设检验H0：(1=(2=0 vs (1，(2不全为0 当H0成立时，～F(df回归,df残差) 单个回归系数检验：H0：(＝0 vs H1：((0 当H0：(＝0成立时，简述回归系数(的95％CI 意义与t检验的对应关系。假设检验一般情况叙述决定系数 EMBED 复相关系数R H0:(1=(2=…=(r=0 vs (1,(2,…,(r不全为0。当H0成立时 ((x1,x2,…,xp)的估计及其误差 (STATA命令：predict y1) (STATA命令：predict meansd,stdp)(因为有抽样误差) 95%CI ，自由度v=n-1-p 个体预测值和标准误 (STATA命令：predict y1) 线性回归模型应用的条件总结理论上且独立。具体检查是否复合线性回归模型步骤先做线性回归计算残差(i 检查残差(i是否服从正态分布(引起正态分布) 检查残差(i的离散程度是否与其它自变量呈某种趋势关系。(要求无任何趋势关系) 检查残差(i变化是否与其它自变量呈某种对应趋势关系。(要求无任何趋势关系) 多元线性回归常见的应用以及应用中的问题全回归模型(析因分析) 多重共线对分析的影响VIFs (variance inflation factors) 对于自变量p个自变量x1，x2，…，xp中，以其中一个xi作为因变量作回归以及其它p-1个变量为自变量，得到相应的决定系数Ri。定义xi的膨胀因子 VIFi=1对应说明xi与其它p-1个自变量无共线。当对应VIFi>1 当，说明xi与其它p-1个自变量完全共线，对应VIFi成为无穷大。通常认为在p个自变量x1，x2，…，xp中,最大的VIF>10，则认为严重共线，最小二乘估计受到较严重的影响。平均VIF＝>>1，则认为寻找影响因变量的主要因素。用回归进行两组或多组的均数比较并校正混杂因素的影响。全回归分析举例例：据儿童保健部门的考察，4至7岁儿童的身高与年龄近似呈线性关系，且男女身高也有差异。下列收集了50名男孩和50名女孩的身高，年龄均在4岁至7岁之间。请试建立回归方程描述年龄与身高的关系(其中sex=1表示男，sex=0表示女) sex age y 1 90 1 111 1 107 1 107 1 114 1 88 1 109 1 86 1 107 1 122 1 5 95 1 85 1 100 1 121 1 6 106 1 120 1 93 1 105 1 5 94 1 125 1 96 1 88 1 101 1 113 1 121 1 105 1 102 1 122 1 84 1 113 1 115 1 114 1 93 1 86 1 108 1 99 1 116 1 87 1 109 1 89 1 125 1 92 1 5 95 1 90 1 7 117 1 99 1 102 1 127 1 110 1 119 0 87 0 114 0 5 95 0 100 0 90 0 91 0 86 0 90 0 94 0 109 0 116 0 104 0 94 0 118 0 116 0 117 0 91 0 107 0 112 0 105 0 89 0 99 0 85 0 113 0 101 0 6 104 0 98 0 95 0 101 0 90 0 120 0 90 0 95 0 94 0 108 0 88 0 107 0 110 0 5 94 0 94 0 104 0 107 0 93 0 116 0 110 0 99 0 99 0 96 0 115 0 121 考虑身高总体均数为模型为: 用拟合上述模型 gen sexage=sex*age regress y age sex sexage ------------------------------------------------------------------------------ y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- sex | age | .1337354 sexage | .1883106 _cons | .7869668 回归方程为则女孩为身高与年龄的回归方程为(sex=0) age的回归系数的意义为每年身高增长的速度则男孩为身高与年龄的回归方程为(sex=1) age的回归系数的意义为每年身高增长的速度因此女孩身高的增长速度为(2，样本估计值为男孩身高的增长数为(2＋(3，样本估计值为男孩与女孩身高的增长速度差异为(3，(3>0说明男孩身高增长速度快，(3<0说明女孩身高增长速度快，(3说明女孩与男孩的身高增长速度是一样的。样本估计值为>0，P值<。因此男孩身高速度高于女孩，并且差别有统计学意义。例：治疗缺铁性贫血100人，随机分为2组，给予不同疗法治疗：经过一个月治疗后，治疗前后的红细胞数(万/(l)如下： A组 B组治疗前 y1 治疗后 y2 组别 group 治疗前 y1 治疗后 y2 组别 group 325 337 1 327 348 0 312 325 1 334 354 0 331 343 1 347 368 0 328 341 1 317 337 0 316 330 1 351 371 0 367 380 1 299 319 0 354 367 1 336 357 0 311 325 1 317 338 0 364 378 1 305 326 0 345 360 1 362 382 0 335 348 1 315 333 0 329 344 1 370 394 0 336 349 1 346 368 0 293 306 1 324 345 0 345 358 1 324 346 0 364 378 1 362 383 0 311 325 1 318 338 0 347 360 1 329 350 0 350 364 1 356 378 0 295 308 1 356 376 0 369 383 1 356 378 0 323 336 1 340 362 0 385 399 1 322 342 0 324 338 1 310 330 0 312 325 1 357 378 0 322 336 1 345 365 0 340 353 1 340 361 0 330 344 1 330 351 0 347 361 1 358 380 0 361 374 1 306 329 0 374 389 1 322 342 0 327 340 1 304 325 0 335 349 1 327 348 0 363 377 1 353 374 0 338 350 1 355 376 0 328 344 1 346 369 0 303 316 1 369 390 0 329 342 1 326 348 0 317 331 1 333 355 0 334 346 1 367 389 0 334 348 1 363 384 0 335 348 1 337 360 0 330 343 1 368 389 0 338 353 1 339 361 0 353 366 1 337 358 0 332 345 1 369 390 0 303 317 1 358 380 0 369 384 1 357 378 0 328 343 1 345 368 0 治疗前治疗后第一组 ( ( 第二组 ( ( 考虑以治疗前后的改变量为评价的效应指标先不考虑校正基线则可以用成组t检验进行统计分析 gen y=y2-y1 ttest y,by(group) 结果如下： Two-sample t test with equal variances ------------------------------------------------------------------------------ Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- 0 | 49 .1524933 1 | 49 .1271081 .8897565 ---------+-------------------------------------------------------------------- combined | 98 .3978661 ---------+-------------------------------------------------------------------- diff | .1985212 ------------------------------------------------------------------------------ Degrees of freedom: 96 Ho: mean(0) - mean(1) = diff = 0 Ha: diff < 0 Ha: diff ~= 0 Ha: diff > 0 t = t = t = P < t = P > |t| = P > t = 现用线性回归完成上述分析设B组(group=0)受试者的红细胞数改变量的总体均数为(d=(，设A组(group=1)受试者的红细胞数改变量的总体均数为(d=(+( 因此两组的总体均数可以表示为(d=(+(group 用线性回归 . regress y group Source | SS df MS Number of obs = 98 -------------+------------------------------ F( 1, 96) = Model | 1 Prob > F = Residual | 96 .965561224 R-squared = -------------+------------------------------ Adj R-squared = Total | 97 Root MSE = .98263 ------------------------------------------------------------------------------ y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- group | .1985212 _cons | .1403757 ------------------------------------------------------------------------------ (的估计值为，正是B组的样本均数 (的估计值为，(＋(＝＝，正是A组的样本均数 (的估计值为两组样本均数的差值，(的检验统计量t=，与t检验结果对应，P值也对应。可以证明：成组t检验也可以用线性回归分析进行。从本例中可以发现回归系数(的意义就是两组总体均数的差值，其估计值同样为两组样本均数的差值。 gen y=y2-y1 regress y group y1 Source | SS df MS Number of obs = 98 -------------+------------------------------ F( 2, 95) = Model | 2 Prob > F = Residual | 95 .920700644 R-squared = -------------+------------------------------ Adj R-squared = Total | 97 Root MSE = .95953 ------------------------------------------------------------------------------ y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- group | .194777 y1 | .0114537 .0048069 .0019108 .0209966 _cons | ------------------------------------------------------------------------------ predict e,residual 计算残差值(i sktest e 残差正态性检验 Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- e | gen ee=abs(e) 产生残差e的绝对值，放在变量ee (检验方差齐性：Leven’s方差检验) anova ee group Number of obs = 98 R-squared = Root MSE = .589872 Adj R-squared = Source | Partial SS df MS F Prob > F -----------+---------------------------------------------------- Model | .141918237 1 .141918237 group | .141918237 1 .141918237 Residual | 96 .347948928 -----------+---------------------------------------------------- Total | 97 .3458249 (＝,P值>>(，因此说明两组残差的平均幅度差别无统计意义。说明残差方差齐性。析因分析举例例为了研究A药和B药治疗患免疫球蛋白偏低的儿童的疗效，采用随机对照试验(RCT)和析因分析的研究设计方案：第一组：仅是加强营养(作为对照组)；第二组：加强营养并服用A药；第三组：加强营养并服用B药；第四组：加强营养并服用A药且B药。每组随机收集了25名患者进行治疗评价药物疗效的指标为IgA(mg/dl 血清)并用y表示定义协变量 a=1表示服用A药，a=0表示未服用A药； b=1表示服用A药，b=0表示未服用B药； y a b 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 对照组 (a=b=0) 服A药组 (a=1,b=0) 服B药组 (a=0,b=1) 服A药且B药组(a=b=1) ( ( ( ( gen ab=a*b 产生交互作用变量 . regress y a b ab Source | SS df MS Number of obs = 100 -------------+------------------------------ F( 3, 96) = Model | 3 Prob > F = Residual | 96 R-squared = -------------+------------------------------ Adj R-squared = Total | 99 Root MSE = ------------------------------------------------------------------------------ y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- a | b | ab | _cons | .9267277 ------------------------------------------------------------------------------ 三组均数的比较，资料正态分布且方差齐性() 分组变量g1和g2定义方差分析中的分组变量表示回归模型中的分组变量表示对应总体均数 A组group=0 g1=0 g2=0 μA B组group=1 g1=1 g2=0 μB C组group=2 g1=0 g2=1 μC 数据结构观察数据变量回归分析的分组变量方差分析的分组变量 y g1 g2 group A组观察数据 38 0 0 0 g1=0,g2=0 (或group=0) 表示A组 67 0 0 0 46 0 0 0 B组观察数据 87 1 0 1 g1=1,g2=0 (或group=1) 表示B组 73 1 0 1 115 1 0 1 C组观察数据 124 0 1 2 g1=0,g2=1 (或group=2) 表示C组 155 0 1 2 132 0 1 2 回归模型: 且独立。即：总体均数 A组:g1=0,g2=0,对应的总体均数 B组:g1=1,g2=0,对应的总体均数 C组:g1=0,g2=1,对应的总体均数因此，所以检验的问题就是检验的问题。因此，所以检验的问题就是检验的问题。因为，所以检验就是检验数据格式 y g1 g2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 组别均数标准差 A组 = B组 = C组 = regress y g1 g2 Source | SS df MS Number of obs = 150 -------------+------------------------------ F( 2, 147) = Model | 2 Prob > F = Residual | 147 R-squared = -------------+------------------------------ Adj R-squared = Total | 149 Root MSE = ------------------------------------------------------------------------------ y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- g1 | g2 | _cons | ------------------------------------------------------------------------------ 得到回归方程 A组：g1=g2=0，正好等于 B组：g1=1，g2=0，正好等于 C组：g1=0，g2=1，正好等于 g1的总体回归系数β1＝μB－μA，对应样本估计值 g2的总体回归系数β2＝μC－μA，对应样本估计值 H0：μA＝μB对应H0:β1=0，相应的检验值t=，P< 可以认为μA(μB，μB－μA=β1的95%CI为[, ] 因此至少有95%可能性可以肯定μB－μA>0，即：μB>μA。 H0：μA＝μC对应H0:β2=0，相应的检验值t=，P< 可以认为μA(μC，μC－μA=β2的95%CI为[，] 因此至少有95%可能性可以肯定μC－μA>0，即：μC>μA。为了检验H0:μB=μC vs μB(μC，对应检验H0:β1＝β2 vs H1: β1(β2，因此在STATA软件中输入命令： test g1=g2 ( 1) g1 - g2 = F( 1, 147) = Prob > F = P<，因此可以认为μB(μC。可以证明相应的μB－μC的95％CI不包含0，若,则相应的95％CI的下限大于0；若，则相应的95％CI的上限小于0。为了考察某指标y对冠心病患病是否有关。通过病例对照研究，比较病例组(用group=1表示)和对照组(用group=0表示)的总体均数比较，并考虑该因素y可能受年龄age的影响：数据结构 g age y 0 41 0 45 0 33 0 44 0 41 0 44 0 31 0 39 0 34 0 32 0 38 0 38 0 44 0 37 0 45 0 32 0 36 0 39 0 34 0 34 0 46 0 31 0 45 0 31 0 40 0 38 0 41 0 46 0 43 0 42 0 40 0 32 0 40 0 41 0 39 0 39 0 43 0 43 0 33 0 41 0 34 0 37 0 44 0 39 0 32 0 45 0 43 0 33 0 35 0 38 1 53 1 54 1 54 1 47 1 48 1 46 1 54 1 52 1 51 1 52 1 47 1 53 1 46 1 49 1 55 1 49 1 45 1 46 1 51 1 56 1 56 1 47 1 55 1 45 1 47 1 52 1 54 1 51 1 50 1 58 1 44 1 51 1 56 1 51 1 58 1 58 1 58 1 53 1 49 1 47 1 56 1 45 1 53 1 54 1 47 1 49 1 50 1 51 1 44 1 50 先进行两组均数的比较 . sktest y if g==0 Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- y | . sktest y if g==1 Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- y | (＝，可以认为资料近似服从正态分布。 sdtest y,by(g) Variance ratio test ------------------------------------------------------------------------------ Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- 0 | 50 .2936639 1 | 50 .2475036 ---------+-------------------------------------------------------------------- combined | 100 .1910994 ------------------------------------------------------------------------------ Ho: sd(0) = sd(1) F(49,49) observed = F_obs = F(49,49) lower tail = F_L = 1/F_obs = F(49,49) upper tail = F_U = F_obs = Ha: sd(0) < sd(1) Ha: sd(0) ~= sd(1) Ha: sd(0) > sd(1) P < F_obs = P < F_L + P > F_U = P > F_obs = (＝,可以认为两组方差齐性 . ttest y,by(g) Two-sample t test with equal variances ------------------------------------------------------------------------------ Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- 0 | 50 .2936639 1 | 50 .2475036 ---------+-------------------------------------------------------------------- combined | 100 .1910994 ---------+-------------------------------------------------------------------- diff | .0827939 .3840527 .844934 ------------------------------------------------------------------------------ Degrees of freedom: 98 Ho: mean(0) - mean(1) = diff = 0 Ha: diff < 0 Ha: diff ~= 0 Ha: diff > 0 t = t = t = P < t = P > |t| = P > t = (＝,两组均数的差异无统计学意义。考虑下列线性回归模型因此病例组group=1的总体均数为对照组group=0的总体均数为因此对于相同的年龄，两组总体均数的差值为用上述模型进行回归分析，结果如下： reg y g age Source | SS df MS Number of obs = 100 -------------+------------------------------ F( 2, 97) = Model | 2 Prob > F = Residual | 97 R-squared = -------------+------------------------------ Adj R-squared = Total | 99 Root MSE = ------------------------------------------------------------------------------ y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- g | .351174 age | .3749893 .0234455 .3284565 .421522 _cons | .9185587 ------------------------------------------------------------------------------ 得到回归方程病例组group=1代入上述回归方程,得到病例组的回归方程对照组group=0代入上述回归方程,得到对照组的回归方程两组方程的斜率相同，两组的截距差为group的回归系数(1，对应检验表明差别有统计意义，由于(1为在相同的年龄下，两组均数的差值，因此可以认为病例组患者的y指标比对照组平均低((1背景意义)个单位。考虑另一种典型情况：研究背景同上例类似，考查另一指标y在病例对照研究中两组均数的比较。数据结构与上例相同 g age y 0 41 0 45 0 33 0 44 0 41 0 44 0 31 0 39 0 34 0 32 0 38 0 38 0 44 0 37 0 45 0 32 0 36 0 39 0 34 0 34 0 46 0 31 0 45 0 31 0 40 0 38 0 41 0 46 0 43 0 42 0 40 0 32 0 40 0 41 0 39 0 39 0 43 0 43 0 33 0 41 0 34 0 37 0 44 0 39 0 32 0 45 0 43 0 33 0 35 0 38 1 53 1 54 1 54 1 47 1 48 1 46 1 54 1 52 1 51 1 52 1 47 1 53 1 46 1 49 1 55 1 49 1 45 1 46 1 51 1 56 1 56 1 47 1 55 1 45 1 47 1 52 1 54 1 51 1 50 1 58 1 44 1 51 1 56 1 51 1 58 1 58 1 58 1 53 1 49 1 47 1 56 1 45 1 53 1 54 1 47 1 49 1 50 1 51 1 44 1 50 同样先用t检验比较两组均数，再用上述模型进行回归分析并考虑年龄对这两组均数的影响： . sktest y if g==0 Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- y | . sktest y if g==1 Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- y | . sdtest y,by(g) Variance ratio test ------------------------------------------------------------------------------ Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- 0 | 50 .3183926 1 | 50 .2666049 ---------+-------------------------------------------------------------------- combined | 100 .3304763 ------------------------------------------------------------------------------ Ho: sd(0) = sd(1) F(49,49) observed = F_obs = F(49,49) lower tail = F_L = 1/F_obs = F(49,49) upper tail = F_U = F_obs = Ha: sd(0) < sd(1) Ha: sd(0) ~= sd(1) Ha: sd(0) > sd(1) P < F_obs = P < F_L + P > F_U = P > F_obs = (＝,可以认为资料近似服从正态分布，方差齐性。 . ttest y,by(g) Two-sample t test with equal variances ------------------------------------------------------------------------------ Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- 0 | 50 .3183926 1 | 50 .2666049 ---------+-------------------------------------------------------------------- combined | 100 .3304763 ---------+-------------------------------------------------------------------- diff | .4152734 ------------------------------------------------------------------------------ Degrees of freedom: 98 Ho: mean(0) - mean(1) = diff = 0 Ha: diff < 0 Ha: diff ~= 0 Ha: diff > 0 t = t = t = P < t = P > |t| = P > t = (＝,t检验结果为两组差别有统计学意义。 . reg y g age Source | SS df MS Number of obs = 100 -------------+------------------------------ F( 2, 97) = Model | 2 Prob > F = Residual | 97 R-squared = -------------+------------------------------ Adj R-squared = Total | 99 Root MSE = ------------------------------------------------------------------------------ y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- g | .0329006 .3505324 .7286105 age | .4166827 .0234026 .370235 .4631305 _cons | .9168807 ------------------------------------------------------------------------------ 得到回归方程对照组group=0代入上式:得到对照组的回归方程病例组group=1代入上式:得到病例组的回归方程两组方程的斜率相同，两组的截距差为group的回归系数(1，对应检验差别无统计意义，所以对于相同的年龄，两组y的平均数无统计意义。说明作t检验得到差别有统计意义的结果受到年龄的混杂作用。析因分析举例(析因分析.dta) 例为了研究A药和B药治疗患免疫球蛋白偏低的儿童的疗效，采用随机对照试验(RCT)和析因分析的研究设计方案：第一组：仅是加强营养(作为对照组)；第二组：加强营养并服用A药；第三组：加强营养并服用B药；第四组：加强营养并服用A药且B药。每组随机收集了25名患者进行治疗评价药物疗效的指标为IgA(mg/dl 血清)并用y表示定义协变量 a=1表示服用A药，a=0表示未服用A药； b=1表示服用A药，b=0表示未服用B药； gen ab=a*b 产生交互作用变量用回归模型，其中数据结构 y a b 40 0 0 41 0 0 42 0 0 44 0 0 45 0 0 46 0 0 47 0 0 47 0 0 48 0 0 49 0 0 50 0 0 50 0 0 51 0 0 51 0 0 51 0 0 51 0 0 51 0 0 52 0 0 53 0 0 53 0 0 53 0 0 54 0 0 55 0 0 57 0 0 59 0 0 47 1 0 50 1 0 50 1 0 53 1 0 57 1 0 57 1 0 58 1 0 58 1 0 59 1 0 59 1 0 59 1 0 59 1 0 61 1 0 61 1 0 61 1 0 61 1 0 61 1 0 61 1 0 62 1 0 62 1 0 62 1 0 64 1 0 64 1 0 65 1 0 70 1 0 42 0 1 46 0 1 47 0 1 48 0 1 50 0 1 51 0 1 51 0 1 52 0 1 55 0 1 55 0 1 55 0 1 55 0 1 56 0 1 56 0 1 57 0 1 58 0 1 58 0 1 58 0 1 59 0 1 59 0 1 59 0 1 60 0 1 60 0 1 61 0 1 63 0 1 56 1 1 57 1 1 60 1 1 64 1 1 65 1 1 65 1 1 66 1 1 66 1 1 66 1 1 68 1 1 68 1 1 68 1 1 68 1 1 70 1 1 70 1 1 71 1 1 71 1 1 71 1 1 72 1 1 73 1 1 73 1 1 74 1 1 77 1 1 78 1 1 81 1 1 对照组 (a=b=0) 服A药组 (a=1,b=0) 服B药组 (a=0,b=1) 服A药且B药组(a=b=1) ( ( ( ( (=(0 (=(0+(1 (=(0+(2 (=(0+(1+(2+(3 . regress y a b ab Source SS df MS Number of obs = 100 F( 3, 96) = Model 3 Prob > F = Residual 96 R-squared = Adj R-squared = Total 99 Root MSE = y Coef. . t P>|t| [95%Conf .Interval] a b ab .0566251 _cons 得到回归方程：对照组a=b=0， A药组：a=1,b=0, B药组：a=0，b=1, A药＋B药组，a=b=1，研究问题1：单独用A药，效应如何？单独用B药，效应如何？同时用A同时用B药的效应是否大于或小于单独用A药的效应＋单独用B药效应？ A药的样本效应值为 B药的样本效应值为 A药＋B药的样本效应值为++=>A药和B药单独使用的效应值的和+=，两者相差，且有统计意义。即有协同作用。研究问题2：单独用A药和单独用B药，哪个药效果好？ H0：(1=(2 vs Ha：(1((2 STATA命令：test a=b test a=b ( 1) a - b = F( 1, 96) = Prob > F = ，说明差别有统计意义且A药优于B要。多个回归系数检验问题例3－2 健康女性身体各部位脂肪分布情况用x1表示三头肌皮褶厚度，x2表示大腿围，x3表示中臂围，用y表示身体脂肪。试用线性回归分析的方法分析身体脂肪与三头肌皮褶厚度，大腿围和中臂围之间的关系。 no x1 x2 x3 y no x1 x2 x3 y 1 11 30 2 12 3 37 13 23 4 14 5 15 6 16 7 17 8 18 9 19 10 20 51 STATA命令 regress y x1 x2 x3 Source SS df MS Number of obs=20 F(3, 16)= Model 3 Prob>F= Residual 16 R-squared= AdjR-squared= Total 19 Root MSE= H0:(1=(2=(3=0 vs H1:(1，(2，(3不全为0 P<，因此拒绝H0，并认为至少有一个回归系数不为0。 y Coef. . t P>|t| [95%Conf. Interval] x1 x2 x3 .7020557 .978017 _cons 虽然所有单个回归系数的检验P>，但是单个回归系数的检验是指其它回归系数均在模型中的条件下，而该因素的回归系数(＝0的检验。事实上，出现这种情况，很可能是自变量之间高度相关且某一个自变量可以被其它自变量线性表示。称为多重共线问题。多重共线对分析的影响VIFs (variance inflation factors) 对于自变量p个自变量x1，x2，…，xp中，以其中一个xi作为因变量作回归以及其它p-1个变量为自变量，得到相应的决定系数Ri。定义xi的膨胀因子 VIFi=1对应说明xi与其它p-1个自变量无共线。当对应VIFi>1 当，说明xi与其它p-1个自变量完全共线，对应VIFi成为无穷大。通常认为在p个自变量x1，x2，…，xp中,最大的VIF>10，则认为严重共线，最小二乘估计受到较严重的影响。平均VIF＝>>1，则认为多重共线。在本例中,自变量x1,x2,x3可能多重共线。因此在运行regress命令后，再输入计算膨胀因子的计算vif Variable | VIF 1/VIF x1 | x2 | x3 | Mean VIF | 因此可以认为严重的多重共线。 . sw regress y x1 x2 x3,pe() pr() begin with full model p = >= removing x2 Source | SS df MS Number of obs = 20 -------------+------------------------------ F( 2, 17) = Model | 2 Prob > F = Residual | 17 R-squared = -------------+------------------------------ Adj R-squared = Total | 19 Root MSE = ------------------------------------------------------------------------------ y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- x1 | .1282321 .7300389 x3 | .1766156 _cons | ------------------------------------------------------------------------------ 当x2剔除模型后，x1和x3的回归系数均有统计意义。所以模型中，出现多个回归系数的P值>，不能立刻断定这些P值大于的回归系数所对应的变量均无统计意义而剔除模型。逐步回归也分为二种方式：前进法和后推法筛选变量。以例3-3(pp46)为例分别说明逐步回归的前进法和逐步回归的后退法过程。为了使资料较好地正态分布，对y取对数 gen yy=ln(y)/ln(10) 第一步：寻找最佳的单变量线性回归模型模型1 得到相应的F1= P值= 模型2 得到相应的F2= P值< 模型3 得到相应的F3= P值< 模型4 得到相应的F4= P值< 因此就单变量的线性回归模型而言，模型4是相对最好的。第二步考虑回归模型中引进第2个变量：模型 5 得到相应的F1= P值> 模型 6 得到相应的F2= P值< 模型 7 得到相应的F3= P值< 因此选用模型7(既引进变量x3) 第三步考虑回归模型中引进第3个变量：模型 8 得到相应的F1= P值< 模型 9 得到相应的F2= P值< 因此选用模型9(既引进变量x2) 考虑回归模型中引进第4个变量：模型 10 得到相应的F1= P值<，但是x4的P值＝，相应F4=,因此x4应从模型10中剔除。因此得到模型11 模型 11 最后得到模型为的变量已经不能在引进模型并且模型中的变量也不能被剔除出模型。该模型具体结果为 Source SS df MS Number of obs=54 F(3, 50)= Model 3 Prob>F= Residual .109885494 50 .00219771 R-squared= Adj R-squared= Total 53 .074957143 RootMSE=.04688 yy Coef. . t P>|t| [95%Conf. Interval] x1 .0692287 .0040784 .0610369 .0774205 x2 .0092946 .0003826 .0085262 .010063 x3 .0095233 .0003064 .0089078 .0101388 _cons .4836226 .0426339 .3979898 .5692553 应用回归结果前，应检查残差是否近似正态分布(要求基本对称就可以了，大样本时要求可以更低一些)。残差的离散程度是否各个自变量变化无关？若残差的离散程度与某个自变量的变化有关，则应采用某种变换或用关于方差稳健的回归分析(robust regression):在STATA软件中:如本例 regress yy x1 x2 x3,robust 若满足上述二条，回归系数的检验结果是可靠的。若要应用回归模型进行预测，则还应满足各个自变量与残差无任何明显趋势变化。在引入模型的自变量中，若有亚元变量，则亚元变量是一组变量(认为向量变量)，所以对于某一组的亚元变量，则要么该组亚元变量全引进模型，要么该组亚元变量全剔除出模型。不能亚元变量的某几个成分的变量进入模型，另外几个成分的亚元变量未进入模型。

联系我们

智库文档公众号

客服微信

多元线性回归分析--直线回归概念复习.doc

下载

标签

相关文档

相关专题更多

联系我们

意见反馈

标签

相关文档

相关专题 更多

联系我们

意见反馈

相关专题更多