第八章 直线回归与相关
前面各章我们讨论的问题,都只涉及到一
个变量,如体重 、日增重、产仔数、体温、血
糖浓度 、产奶量 、产毛量或孵化率 、发病率
等。 但是,由于客观事物在发展过程中相互联
系、相互影响,因而在畜牧、水产等试验研究
中常常要研究两个或两个以上变量间的关系。
下一张 主 页 退 出 上一张
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
最高月产、
猪瘦肉率与背膘厚度、眼肌面积、胴体长;猪瘦肉率与背膘厚度、眼肌面积、胴体长;
绵羊产毛量与体重、胸围、体长 ;
黑白花奶牛的一胎305天产奶量与
、最高日产天数;
90天产奶量、
最高日产
猪的增重与饲料消耗;
雏鹅重与雏鹅重与7070日龄重;日龄重;
绵羊胸围与体绵羊胸围与体长;;
仔猪初生重与断奶重;仔猪初生重与断奶重;
例如
变量间的关系有两类:
一类是变量间存在着完全确定性的关系,
可以用精确的数学表达式来表示。
如长方形的面积 (S) 与 长(a)和 宽
(b)的关系可以表达为: S=ab。它们之间
的关系是确定性的,只要知道了其中两个变量
的值就可以精确地计算出另一个变量的值,这
类变量间的关系称为函数关系。
下一张 主 页 退 出 上一张
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
另一类是 变 量 间不存在完全的确定性关
系,不能用精确的数学公式来表示。
如黄牛的体长与体重的关系;仔猪初生重
与断奶重的关系;猪瘦肉率与背膘厚度、眼肌
面积、胴体长等的关系等等,这些变量间都存
在着十分密切的关系,但不能由一个或几个变
量的值精确地求出另一个变量的值。像这样一
类关系在生物界中是大量存在的,统计学中把
这些变量间的关系称为相关关系,把存在相关
关系的变量称为相关变量。
下一张 主 页 退 出 上一张
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
相关变量间的关系一般分为两种:
一种是因果关系,即一个变量的变化受另
一个或几个变量的影响。如仔猪的生长速度受
遗传特性、营养水平、饲养管理条件等因素的
影响,子代的体高受亲本体高的影响;
另一种是平行关系,它们互为因果或共同
受到另外因素的影响。如黄牛的体长和胸围之
间的关系,猪的背膘厚度和眼肌面积之间的关
系等都属于平行关系。
下一张 主 页 退 出 上一张
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
统计学上采用回归分析 (regression
analysis)研究呈因果关系的相关变量间的关
系。表示原因的变量称为自变量,表示结果的
变量称为依变量。
研究“一因一果”,即一个自变量与一个
依变量的回归分析称为一元回归分析;
研究“多因一果”,即多个自变量与一个
依变量的回归分析称为多元回归分析。
一元回归分析又分为直线回归分析与曲线
回归分析两种;多元回归分析又分为多元线性
回归分析与多元非线性回归分析两种。
下一张 主 页 退 出 上一张
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
回归分析的任务是揭示出呈
因果关系的相关变量间的联系形
式,建立它们之间的回归方程,
利用所建立的回归方程,由自变
量(原因)来预测、控制依变量
(结果)。
统计学上采用相关分析 ( correlation
analysis)研究呈平行关系的相关变量之间的关
系。
对两个变量间的直线关系进行相关分析称为
简单相关分析(也叫直线相关分析);
对多个变量进行相关分析时,研究一个变量
与多个变量间的线性相关称为复相关分析;研究
其余变量保持不变的情况下两个变量间的线性相
关称为偏相关分析。
下一张 主 页 退 出 上一张
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
第一节 直线回归
一、直线回归方程的建立
对于两个相关变量,一个变量用x表示,另
一个变量用y表示,如果通过试验或调查获得两
个变量的n对观测值:
(x1,y1),(x2,y2),……,(xnn,ynn)
下一张 主 页 退 出 上一张
为了直观地看出x和y间的变化趋势,可将
每一对 观 测 值 在 平 面直角坐标系描点,作
出散点图 (见图8-1)。
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
..%5C%E5%9B%BE%E7%89%871%5C%E5%9B%
..%5C%E5%9B%BE%E7%89%871%5C%E5%9B%
..%5C%E5%9B%BE%E7%89%871%5C%E5%9B%
从散点图(图8-1)可以看出:
②两个变量间直线关系的性质(是正相关还
是负相关)和程度(是相关密切还是不密切);
下一张 主 页 退 出 上一张
散点图直观地、定性地表示了两个变量之
间的关系。为了探讨它们之间的规律性,还必
须根据观测值将其内在关系定量地表达出来。
①两个变量间有关或无关;若有关,两个变量
间关系类型,是直线型还是曲线型;
..%5C%E5%9B%BE%E7%89%871%5C%E5%9B%
..%5C%E5%9B%BE%E7%89%871%5C%E5%9B%
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
如果呈因果关系的两个相关变量y(依变量
)与x(自变量)间的关系是直线关系,根据n对
观测值所描出的散点图,如图8—1(b)和图
8—1(e)所示。
由于依变量y的实际观测值总是带有随机误
差,因而依变量y的实际观测值yii可用自变量x
的实际观测值xii表示为:
((ii=1,2, …, =1,2, …, nn) ) ((8—18—1))
..%5C%E5%9B%BE%E7%89%871%5C%E5%9B%
..%5C%E5%9B%BE%E7%89%871%5C%E5%9B%
..%5C%E5%9B%BE%E7%89%871%5C%E5%9B%
..%5C%E5%9B%BE%E7%89%871%5C%E5%9B%
..%5C%E5%9B%BE%E7%89%871%5C%E5%9B%
..%5C%E5%9B%BE%E7%89%871%5C%E5%9B%
..%5C%E5%9B%BE%E7%89%871%5C%E5%9B%
其中:
x 为可以观测的一般变量(也可以是可以观测
的随机变量);
y 为可以观测的随机变量;
这就是直线回归的数学模型。我们可以根据
实际观测值对α,β以及方差 做出估计。
ii为相互独立,且都服从N(0, )的随机
变量。
在x、y直角坐标平面上可以作出无数 条
直线,我们把所有直线中最接近散点图中全部散
点的直线用来表示x与y的直线关系,这条直线称
为回归直线。
下一张 主 页 退 出 上一张
设回归直线的方程为:
(8-2)
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
其中,a是α的估计值,b是β的估计值。
a、b应使回归估计值 与实际观测值y的偏差
平方和最小,即:
根据微积分学中的求极值的方法,令 Q对a、
b的一阶偏导数等于0,即:
最 小
整理得关于a、b的正规方程组:
下一张 主 页 退 出 上一张
解正规方程组,得:
(8-3)
(8-4)
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
(8-3)式中的分子是自变量x的离均
差 与 依 变 量 y 的 离 均 差 的 乘 积
和 ,简 称 乘积和,记作
,分母是自变量x的离均差 平方和
,记作SSX。
a叫做样本回归截距,是回归直线与
y轴交点的纵坐标,当x=0时, =a;
b叫做样本回归系数,表 示 x 改 变
一个单位,y平均改变的数量;b 的符号
反映了x影响y的性质,b的绝对值大小反
映了 x 影响 y 的 程度;
的估计值。
叫做回归估计值,是当x在在其研
究 范 围 内 取某一个值时,y值平均数
回归方程的基本性质:
如果将(8-4)式代入(8-2)式,得到
回归方程的另一种形式(中心化形式):
下一张 主 页 退 出 上一张
性质1 最小;
性质2 ;;
性质3 回 归 直 线 通 过 点 。。
(8-5)
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
【例】在四川白鹅的生产性能研究中,
得到如下一组关于雏鹅重(g)与70日龄重(g)
的数据,试建立70日龄重(y)与雏鹅重(x)的直
线回归方程。
表8-1 四川白鹅雏鹅重与70日龄重测定结果
(单位:g)
下一张 主 页 退 出 上一张
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
1、作散点图 以雏鹅重(x)为横坐
标,70日龄重(y)为纵坐标作散点图,
见图8-3。
2、计算回归截距a,回归系数b,
建立直线回归方程
首先根据实际观测值计算出 下 列数
据:
..%5C%E5%9B%BE%E7%89%871/%E5%9B%
..%5C%E5%9B%BE%E7%89%871/%E5%9B%
下一张 主 页 退 出 上一张
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
进而计算出b、a:
得到四川白鹅的70日龄重y对雏鹅重x的
直线回归方程为:
根据直线回归方程可作出回归直线,见图
8-3。从图8-3看出,并不是所有的散点都恰
好落在回归直线上,这说明用 去估计y是有
偏差的。
下一张 主 页 退 出 上一张
..%5C%E5%9B%BE%E7%89%871%5C%E5%9B%
..%5C%E5%9B%BE%E7%89%871%5C%E5%9B%
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
33、直线回归的偏离度估计、直线回归的偏离度估计
偏差平方和偏差平方和 的大小表示了实测点与回归的大小表示了实测点与回归
直线偏离的程度,因而偏差平方和又称为直线偏离的程度,因而偏差平方和又称为离回归平方离回归平方
和和。统计学已经证明:在直线回归分析中离回归平方。统计学已经证明:在直线回归分析中离回归平方
和的自由度为和的自由度为nn-2-2。于是可求得。于是可求得离回归均方离回归均方为:为:
离回归均方是模型(离回归均方是模型(8-18-1)中)中σσ22的估计值。的估计值。
离回归均方的平方根叫离回归均方的平方根叫离回归标准误离回归标准误,记为,记为 ,,
即即
(8-6)
离回归标准误Syx的大小表示了回归直线与
实测点偏差的程度,即回归估测值 与 实 际
观测值y偏差的程度,于是我们把离回归标准
误Syx用来表示回归方程的偏离度。
下一张 主 页 退 出 上一张
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
以后我们将证明:
(8-7)
利用(8-7)式先计算出 ,然后
再代入(8-6)式求Syx 。
对于【例】有
所以
二、直线回归的显著性检验
若x和y变量间并不存在直线关系, 但由n
对观测值(xi,yi)也可以根据上面介绍的方
法求得一个回归方程 =a+bx。 显然,这样
的回归方程所反应的两个变量间 的直线关系是
不真实的。 如何判断直线回归方程所反应的两
个变量间的直线关系的真实性呢?这取决于变
量x与y间是否存在直线关系。我们先探讨依变
量y的变异,然后再作出统计推断。
下一张 主 页 退 出 上一张
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
1、直线回归的变异来源
图8-4 的分解图
从图8-4看到:
上式两端平方,然后对所有的n点求和,则有
下一张 主 页 退 出 上一张
由 于
所 以
于 是
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
所以有所以有
((8-88-8))
反映了反映了yy的总变异程度,称为的总变异程度,称为yy的总的总
平方和,记为平方和,记为SSSSyy;;
反映了由于反映了由于yy与与xx间存在直线关系所间存在直线关系所
引起的引起的yy的变异程度,称为回归平方和,记为的变异程度,称为回归平方和,记为SSSSRR;;
反映了除y与x存在直线关系以外的
原因,包括随机误差所引起的y的变异程度,称
为离回归平方和或剩余平方和,记为SSr。
(8-8)式又可表示为:
(8-9)
这表明y的总平方和剖分为 回归平方和 与离
回归平方和两部分。与此相对应,y的总自由度
dfy也划分为回归自由度dfr与离回归自由度dfr
两部分,即
下一张 主 页 退 出 上一张
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
(8-10)
在直线回归分析中,回归自由度等于自
变量的个数, 即 ;y 的 总 自 由
度 ;离回归自由度 。于是:
离回归均方 , 回 归 均 方
。
2、回归关系显著性检验—F检验
x与y两个变量间是否存在直线关系,可用F
检验法进行检验。
无效假设HO:=0,备择假设HA:≠0。
在无效假设成立的条件下,回归均方与离回
归均方的比值服从 和 的F分布,
所以可以用
dfdf11=1,=1,dfdf22==nn-2-2 (8-11)
下一张 主 页 退 出 上一张
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
来检验回归关系即回归方程的显著性。
回归平方和还可用下面的公式计算得到:
(8-12)
(8-13)
根据(8-9)式,可得到离回归平方和计算
公式为:
下一张 主 页 退 出 上一张
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
对于【例】资料,有
而 。于是可以
列出方差分析表进行回归关系显著性检验。
表8-2 四川白鹅70日龄重与雏鹅重回归关系
方差分析
下一张 主 页 退 出 上一张
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
因为 ,表
明四川白鹅70日龄重与雏鹅重间存在极显著的
直线关系。
3、回归系数的显著性检验—t检验
采用回归系数的显著性检验—t检验也可检
验x与y间是否存在直线关系。回归系数显著性
检验的无效假设和备择假设为
HO:β=0,HA:β≠0。
t 检验的计算公式为:
(8-14)
(8-15)
其中,Sbb为回归系数标准误。
对于 【例】 资 料 ,已计算得
故有
下一张 主 页 退 出 上一张
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
当 ,查t值表,得
因 , ,
否定HO:β=0,接受HA:β≠0,即直线
回归系数b=是极显著的,表明四川
白鹅 70 日龄重 与雏鹅重间存在极显著的直线
关系,可用所建立的直线回归方程来进行 预测
和控制。
F检验的结果与t检验的结果一致。
事实上,统计学已证明,在直线回归分析
中,这二种检验方法是等价的,可任选一种进
行检验。
下一张 主 页 退 出 上一张
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
特别要指出的是:利用直线回归方程进行预
测或控制时,一般 只 适 用于原来研究的范围,
不能随意把范围扩大,因为在研究的范围内两变
量是直线关系,这并不能保证在这研究范围之外
仍然是直线关系。若需要扩大预测和控制范围,
则要有充分的理论依据或进一步的实验依据。利
用直线回归方程进行预测或控制 , 一 般只能内
插,不要轻易外延。
第二节 直线相关
进行直线相关分析的基本任务在于根据
x、y的实际观测值,计算表示两个相关变量
x、y间线性相关程度和性质的统计量——相
关系数r并进行显著性检验。
下一张 主 页 退 出 上一张
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
一、决定系数和相关系数
在上一节中已经证明了等式:在上一节中已经证明了等式:
从这个等式不难看到:从这个等式不难看到:yy与与xx直线回归效果的好直线回归效果的好
坏取决于回归平方和坏取决于回归平方和 与离回归平方和与离回归平方和
的大小,或者说取决于回归平方和在的大小,或者说取决于回归平方和在yy的的
总平方和总平方和 中所占的比例的大小。这个比例越中所占的比例的大小。这个比例越
大,大,yy与与xx的直线回归效果就越好,反之则差。的直线回归效果就越好,反之则差。
我们把比值我们把比值
叫叫 做做 x x 对对 y y 的的决定系数决定系数 (( coefficient of coefficient of
determinationdetermination),记为),记为 r r22,即,即
下一张 主 页 退 出 上一张
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
(8-24)
决定系数的大小表示了回归方程估测可靠
程度的高低,或者说表示了回归直线拟合度的
高低。显然有0≤r2≤1。因为
而SPxy/SSx是以x为自变量、y为依变量时
的回归系数byxyx。 若把y作为自变量 、 x作为
依变量 ,则回归系数 bxy xy =SPxy/Ssy ,所以
决定系数r2等于y对x的回归系数与 x对y的回
归系数的乘积。这就是说,决定系数反应了x
为自变量、y为依变量和y为自变量 、 x为依
变量时两个相关变量x与y直线相关的信息 ,
即决定系数表示了 两个互为因果关系的相关变
量间直线相关的程度。但决定系数介于0和1之
间,不能反应直线关系的性质——是同向增减
或是异向增减。
下一张 主 页 退 出 上一张
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
若求r2的平方根,且取平方根的符号与乘
积和SPxy的符号一致,即与bxy 、byx的符号
一致,这样求出的平方根既可表示y与x的直线
相关的程度,也可表示直线相关的性质。统计
学上把这样计算所得的统计量称为x与y的相关
系数(coefficient of correlation),记
为r,即
(8-25)
(8-26)
下一张 主 页 退 出 上一张
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
二、相关系数的计算
【例】 计算10只绵羊的胸围(cm)
和体重(kg) 的相关系数。
表8-3 10只绵羊胸围和体重资料
下一张 主 页 退 出 上一张
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
根据表8-3所列数据先计算出:
代入(8-25)式得:
即绵羊胸围与体重的相关系数为。
下一张 主 页 退 出 上一张
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
三、相关系数的显著性检验
上述根据实际观测值计算得来的相关系数r
是样本相关系数, 它是双变量正态总体中的总
体相关系数ρ的估计值。样本相关系数r是否来
自ρ≠0的总体,还须对样本相关系数r 进行显
著性检验。 此 时 无 效 假 设、备 择 假 设 为
HO:ρ=0,HA:ρ≠0。 与直线回归关系显著
性检验一样,可采用t检验法与F检验法对相关
系数r的显著性进行检验。
t 检验的计算公式为:
t= , df=n-2 (8-27)
其中, ,叫做相关系数标准
误。
F检验的计算公式为:
F= , dfdf11=1=1,,dfdf22==nn-2-2 (8-28)
下一张 主 页 退 出 上一张
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
统计学家已根据相关系数统计学家已根据相关系数rr显著性显著性tt检验法计算出了检验法计算出了
临界临界rr值并列出了表格。值并列出了表格。 所以所以 可以直接采用查表法对相可以直接采用查表法对相
关系数关系数rr进行显著性检验。进行显著性检验。
具体作法是:具体作法是:
先先 根根 据据 自自 由由 度度 nn-2 -2 查临界查临界 r r 值值 ( ( 附附 表表 8 ) 8 ),,
得得 ,, 。。 若若||rr||<< ,,PP>>,则相,则相
关系数关系数rr不显著,在不显著,在rr的右上方标记的右上方标记““nsns””;若;若
≤|≤|rr||<< ,,<<PP≤≤,则相关系数,则相关系数 r r 显著,显著,
在在rr的右上方标记的右上方标记“*”“*”;若;若||rr|≥ |≥ ,, P P ≤ ≤
,, 则相则相 关关 系系 数数 r r 极显著,在极显著,在 r r 的右上方标记的右上方标记“**”“**”。。
对于【例8-6】,因为 df =n-2=10-2
=8,查附表8得: =,
=,而r=> ,P<,
表明绵羊胸围与体重的相关系数极显著。
四、相关系数与回归系数的关系
从相关系数计算公式的导出可以看到:相关
变量x与y的相关系数r是y对x的回归系数与x对
y的相关系数bxv的几何平均数:
下一张 主 页 退 出 上一张
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
表明直线相关分析与回归分析关系十分密
切。事实上,它们的研究对象都是呈直线关系
的相关变量。直线回归分析将二个相关变量区
分为自变量和依变量,侧重于寻求它们之间的
联系形式——直线回归方程;直线相关分析不
区分自变量和依变量,侧重于揭示它们之间的
联系程度和性质——计算出相关系数。两种分
析所进行的显著性检验都是解决y与x间是否存
在直线关系。因而二者的检验是等价的。即相
关系数显著 , 回归系数亦显著; 相关系数不
显著,回归系数也必然不显著。由于利用查表
法对相关系数进行检验十分简便,因此在实际
进行直线回归分析时,可用相关系数显著性检
验代替直线回归关系显著性检验,即可先计算
出相关系数r并对其进行显著性检验,若检验结
果r不显著,则用不着建立直线回归方程;若r
显著,再计算回归系数b、回归截距a,建立直
线回归方程,此时所建立的直线回归方程代表
的直线关系是真实的,可利用来进行预测和控
制。
下一张 主 页 退 出 上一张
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
五、应用直线回归与相关的注意事项
直线回归分析与相关分析在生物科学
研究领域中已得到了广泛的应用,但在实
际工作中却很容易被误用或作出错误的解
释。为了正确地应用直线回归分析和相关
分析这一工具,必须注意以下几点:
1 1、变量间是否存在相关、变量间是否存在相关
直线回归分析和相关分析毕竟是处理变量间关系直线回归分析和相关分析毕竟是处理变量间关系
的数学方法,在将这些方法应用于生物科学研究时要的数学方法,在将这些方法应用于生物科学研究时要
考虑到生物本身的客观实际情况,譬如变量间是否存考虑到生物本身的客观实际情况,譬如变量间是否存
在直线相关以及在什么条件下会发生直线相关,求出在直线相关以及在什么条件下会发生直线相关,求出
的直线回归方程是否有意义,某性状作为自变量或依的直线回归方程是否有意义,某性状作为自变量或依
变量的确定等等,都必须由生物科学相应的专业知识变量的确定等等,都必须由生物科学相应的专业知识
来决定,并且还要用到生物科学实践中去检验。如果来决定,并且还要用到生物科学实践中去检验。如果
不以一定的生物科学依据为前提,把风马牛不相及的不以一定的生物科学依据为前提,把风马牛不相及的
资料随意凑到一块作直线回归分析或相关分析,那将资料随意凑到一块作直线回归分析或相关分析,那将
是根本性的错误。是根本性的错误。
下一张 主 页 退 出 上一张
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
2 2、其余变量尽量保持一致、其余变量尽量保持一致
由于自然界各种事物间的相互联系和相互制约,由于自然界各种事物间的相互联系和相互制约,
一个变量的变化通常会受到许多其它变量的影响,因一个变量的变化通常会受到许多其它变量的影响,因
此,在研究两个变量间关系时,要求其余变量应尽量此,在研究两个变量间关系时,要求其余变量应尽量
保持在同一水平,否则,回归分析和相关分析可能会保持在同一水平,否则,回归分析和相关分析可能会
导致完全虚假的结果。例如研究人的身高和胸围之间导致完全虚假的结果。例如研究人的身高和胸围之间
的关系,如果体重固定,身高越高的人,胸围越小,的关系,如果体重固定,身高越高的人,胸围越小,
但当体重在变化时,其结果也就会变化。但当体重在变化时,其结果也就会变化。
下一张 主 页 退 出 上一张
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
3 3、观测值要尽可能的多、观测值要尽可能的多
在在进进行行直直线线回回归归与与相相关关分分析析时时,,两两个个变变量量成成对对观观
测测值值应应尽尽可可能能多多一一些些,,这这样样可可提提高高分分析析的的精精确确性性,,一一
般般至至少少有有55对对以以上上的的观观测测值值。。同同时时变变量量xx的的取取值值范范围围要要
尽尽可可能能大大一一些些,,这这样样才才容容易易发发现现两两个个变变量量间间的的变变化化关关
系。系。
4 4、外推要谨慎、外推要谨慎
直线回归与相关分析一般是在一定取值区间内对直线回归与相关分析一般是在一定取值区间内对
两个变量间的关系进行描述,超出这个区间,变量间两个变量间的关系进行描述,超出这个区间,变量间
关系类型可能会发生改变,所以回归预测必须限制在关系类型可能会发生改变,所以回归预测必须限制在
自变量自变量xx的取值区间以内,外推要谨慎,否则会得出的取值区间以内,外推要谨慎,否则会得出
错误的结果。错误的结果。
下一张 主 页 退 出 上一张
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%
5、正确理解回归或相关显著与否的含义
一个不显著的相关系数并不意味着变量x和
y之间没有关系,而只有能说明两变量间没有
显著的直线关系;一个显著的相关系数或回归
系数亦并不意味着x和y的关系必定为直线,因
为并不排除有能够更好地描述它们关系的非线
性方程的存在。
6 6、一个显著的回归方程并不一定具有实践上的预、一个显著的回归方程并不一定具有实践上的预
测意义测意义
如如 一一 个个 资资 料料 x x 、、y y 两两 个变量间的相关系数个变量间的相关系数 r r
==,在,在 df df = 2 4 = 2 4 时时 ,,(24) (24) = 0. 4 9 6 = 0. 4 9 6,,
rr>>(24)(24),表明相关系数极显著。而,表明相关系数极显著。而rr
22==,即,即xx
变量或变量或yy变量的总变异能够通过变量的总变异能够通过yy变量或变量或xx变量以直线回变量以直线回
归的关系来估计的比重只占归的关系来估计的比重只占25%25%,其余的,其余的 75% 75% 的变的变
异无法借助直线回归来估计。异无法借助直线回归来估计。
下一张 主 页 退 出 上一张
%E7%BB%93%E6%9E%84%E5%8A%9B%E5%AD%A6CAI%E8%AF%BE%E4%BB%