相关与回归世间万物是普遍联系的。
关联、预测和一致性•分析一组观察个体的两个变量之间的关系,三个主要目的为:–关联–预测–一致性•分类变量之间的关联•连续变量之间的关联—相关correlation•线性回归linear regression
相关CORRELATION•相关系数—衡量两个连续变量之间关联的强度(x−x)(y−y)∑ii–Pearson‘s rr=; −1≤r≤+122(x−x)(y−y)∑∑ii–总体相关系数ρ的区间估计1+r1z=log, SE(z)=1n−3e21−rz=z−(1n−3),z=z+(1n−3)122z2z12e−1e−1,2z2z12e+1e+1–假设检验2r−01−rt=~t;s=;ν=n−2α,νrsn−2r
应用相关时应注意的问题•数据的分布随机样本、双正态、椭圆形、散点图•相关的应用–正确应用要求数据为:随机样本、双正态、独立–误用•多重两两相关•重复测量数据的相关•混合样本•相对于基线值的改变量的分析•部分与整体的相关
秩相关RANK CORRELATION•顺位之间的关联—Spearman’s r和Kendall’s τs•Pearson相关与Spearman相关的区别与联系–参数方法与非参数方法。–计算方法相同,但对象不同。–散点图的椭圆形判别。–Pearson’s r衡量的是直线相关,Spearman‘s rs衡量的是更为广义的相关。–Spearman相关可用于双向有序分类变量之间是否有关联的分析。
偏相关PARTIAL CORRELATION•去除第三个变量对两变量之间相关的影响xyxyzx1zyr1xyzrr1xzyz•偏相关的计算r−rrxyxzyz例r==(1−r)(1−r)xzyzr=≅=
相关的解释与表述•直线相关与曲线相关2•100r—数据的变异可由相关解释的部分•相关关系不提示因果关系•多个变量的两两相关分析•相关关系的推移•建议在做相关分析前作散点图•相关分析的结果表述:相关系数、P值、样本含量•利用相关阵表示多个变量间的两两相关
回归REGRESSION•变量x的变化导致变量y的多少变化。或者说变量y的变化有多少可以用x的变化来解释。•反应/结果/因变量—解释/预测/自变量•回归分析的目的是利用样本数据拟合一条直线,直线上的点是对应于x的每一个观测的y的估计值。•回归直线/回归方程/斜率slope/截距intercept y=a+bx•最小二乘估计Least Square Estimate•y的估计值fitted value与残差residual•残差平方和/残差方差/拟合优度goodness of fit•估计值的变异/回归直线的假设检验
应用回归分析的假设条件•对应于解释变量x的每一个观测值,反应变量y应服从正态分布(正态性)注:不同于相关分析,对x没有要求•对应于解释变量x的每一个观测值的y的变异应相同(方差齐性)•x与y呈线性相关(趋势性)•如果满足上述三个条件,残差应服从均数为0的正态分布—残差图
回归的应用•由对应于x的观测值的y的估计值的分布推断总体均数的可信区间带•回归系数(斜率)的估计b•个体观测值的预测区间带•y的总变异=可由回归解释的变异+误差•方差分析表
回归分析的计算•样本回归系数b(总体回归系数β的估计)和截距a的计算(x−x)(y−y)l∑iixyb==; a=y−bx2l(x−x)xx∑i•y的估计iˆy=a+bx=(y−bx)+bx=y+b(x−x)iiii2•残差的变异ˆ(y−y)1∑ii2ˆ残差=y−y; 残差方差s==()l−bliiresyyxyn−2n−2•总体回归系数β的区间估计sresSE(b)=; b±tSE(b),n−2lxx
回归分析的计算(续)•y的估计值的总体均数的可信区间i21(x−x)iˆˆˆSE(y)=s+; y±tSE(y),n−2inlxx•预测区间21(x−x)iˆs=s1++; y±,n−2prednlxx•样本回归系数b的假设检验b−0t=SE(b)
回归的解释•样本数据范围内的预测•样本数据范围外的预测•由y预测x•混合样本•独立性•解释变量x•异常值(outlier)
其他•与完全随机设计的方差分析(t检验)的关系2•与2×C表C有序统计分析(趋势χ检验)的关系•回归分析结果的表述–回归方程和残差的标准差–散点图和回归线–回归系数的估计b的标准误和假设检验结果–可信区间和预测区间•相关与回归