第二章 计量资料的统计描述
Descriptions of Measurement Data
Content
. Frequency distribution
. Description of central tendency
. Measures of dispersion
. Normal distribution
. Range of reference value
一、频数分布表(frequency table) :
例 某地150名正常成年男子红细胞数
例2-2 某单位1999年的职工体检资料中获得
101名正常成年女子的血清总胆固醇的测量
结果。
试编制频数分布表。
第一节 频数分布
表表 某地某地150150名正常成年男子红细胞数名正常成年男子红细胞数
((10101212/L/L))
编号编号 红细胞数红细胞数 编号编号 红细胞数红细胞数
11 …… ……
22 143143
33 144144
44 145145
55 146146
66 147147
77 148148
88 149149
…… …… 150150
例2-2 用直接法计算例2-1某单位101名正常
成年女子的血清总胆固醇的均数。
一、频数分布表 (frequency table)
用途:用途:用于描述资料的分布特征用于描述资料的分布特征
频数:在一批样本中,相同情形出现的次数称为该频数:在一批样本中,相同情形出现的次数称为该
情形的频数。情形的频数。
资料类型资料类型 组段组段 频数频数
计数和等级计数和等级 观察结果的所有观察结果的所有
分类分类
相同类别出现的相同类别出现的
次数次数
计量计量 根据观察结果重根据观察结果重
新划分新划分
分组统计分组统计
1. 频数表的编制步骤
例1 求极差(range):即最大值与最小值之差,
本例极差:
R=-=(1012/L)
(2) 决定组数、组段和组距:根据研究目的和
样本含量n确定。组距=极差/组数,通常分10-15
个组,为方便计,组距参考极差的十分之一, 再略
加调整。
本例i= R /10=
(3) 列出组段:第一组段的下限略
小于最小值,最后一个组段上限必须
包含最大值,其它组段上限值忽略。
(4) 划记计数:用划记法将所有数
据归纳到各组段,得到各组段的频数。
组段组段
((11))
频数,频数,ff
((22))
组中值,组中值,XX
((33))
fX fX
(4)= (2)×(3)(4)= (2)×(3)
~~ 11
~~ 44
~~ 1111
~~ 1717
~~ 2626
~~ 3232
~~ 2626
~~ 1818
~~ 1010
~~ 44
~~
合合计计
11
150150
二、频数分布图
三、频数表和频数分布图用途
11..描述频数分布的类描述频数分布的类
型型
((11)对称分布)对称分布 ::若若
各组段的频数以频数各组段的频数以频数
最多组段为中心左右最多组段为中心左右
两侧大体对称,就认两侧大体对称,就认
为该资料是对称分布为该资料是对称分布
((22))偏态分布偏态分布 ::
11))右偏态分布右偏态分布
((skewed to the skewed to the
right distributionright distribution)也)也
称正偏态分布称正偏态分布
((positive skewness positive skewness
distributiondistribution):):右侧右侧
的组段数多于左侧的的组段数多于左侧的
组段数,频数向右侧组段数,频数向右侧
拖尾拖尾
22)左偏态分布)左偏态分布
(( skewed skewed to to the the
left left distributiondistribution))
也也称称负负偏偏态态分分布布
((negative negative
skewness skewness
distributiondistribution))::左左
侧侧的的组组段段数数多多于于右右
侧侧的的组组段段数数,,频频数数
向左侧拖尾向左侧拖尾
2. 描述计量资料分布的集中趋势和离散
趋势
①集中趋势(central tendency):变量值集中位置。
本例在组段“~”。
——平均水平指标
②离散趋势(tendency of dispersion):变量值围绕集
中位置的分布情况。离“中心”位置越远,频数越
小;且围绕“中心”左右对称。
——变异水平指标
3.便于发现一些特大或特小的可疑值
4.便于进一步做统计分析和处理
第二节 集中趋势的描述
计量资料(定量资料、数值变量资料)
总体:有限或无限个(定量)变量值
样本:从总体随机抽取的n个变量值:
X1, X2, X3,……, Xn
n为样本例数(样本大小、样本含量)
一、描述集中趋势的特征数(平均指标)
总称为总称为平均数平均数((averageaverage)反映了资料的集中)反映了资料的集中
趋势(趋势( central tendencycentral tendency )。常用的有:)。常用的有:
1. 1. 算术均数算术均数(arithmetic mean)(arithmetic mean),简称,简称均数均数 (mean)(mean)
2. 2. 几何均数几何均数(geometric mean)(geometric mean)
3. 3. 中位数中位数 (median)(median)
一、算术均数
算术均数:简称均数(mean)
可用于反映一组呈对称分布的变量值在
数量上的平均水平或者说是集中位置的特
征值。
符号:总体 样本
适用条件:资料呈对称分布,尤其是正态或
近似正态。计算:
(1)直接法
(2)频数表法
1. 均数(mean)
Σ为求和符号,读成sigma;f :“权数”
例:计算4,4,4,6,6,8,8,8,10的
均数?
例2-2 用直接法计算例2-1某单位101名正常
成年女子的血清总胆固醇的均数。
例例: : 计算计算101101名正常成年女子的血总胆固醇的均数。名正常成年女子的血总胆固醇的均数。
二、 几何均数
几何均数(geometric mean):变量对数
值的算术均数的反对数。 可用于反映一组
经对数转换后呈对称分布的变量值在数量
上的平均水平。
2. 几何均数(geometric mean)
几何均数的适用条件与实例
适用条件:呈倍数关系的等比资料或对数正态分
布(正偏态)资料;如抗体滴度资料
例 血清的抗体效价滴度的倒数分别为:10、
100、1000、10000、100000,求几何均数。
此例的算术均数为22222,显然不能代表滴度的
平均水平。同一资料,几何均数<均数
例例 某地某地55例微丝蚴血症患者治疗七年后用间接荧例微丝蚴血症患者治疗七年后用间接荧
光抗体试验测得其抗体滴度倒数分别为,光抗体试验测得其抗体滴度倒数分别为,1010,,2020,,
4040,,40,16040,160,求几何均数。,求几何均数。
(2)加权法
公式:
例例2-5 692-5 69例类风湿关节炎(例类风湿关节炎(RARA)患者血清)患者血清EBV-EBV-
VCA-lgGVCA-lgG抗体滴度的分布见表抗体滴度的分布见表2-42-4第第(1)(1)、、(2)(2)栏,求栏,求
其平均抗体滴度。其平均抗体滴度。
故例类风湿关节炎患者血清EBV-VCA-lgG
抗体的平均滴度为:1:。
3. 中位数(median)
意义:中位数是将一批数据从小至大排列后
位次居中的数据值,反映一批观察值在位次上的平
均水平。
符号:Md
适用条件:适合各种类型的资料。尤其适合于
①大样本偏态分布的资料; ②资料有不确定数值;
③资料分布不明等。
中位数计算公式与实例
先将观察值按从小到大顺序排列,再按以下公式计算:
特点:仅仅利用了中间的1~2个数据
例2-6 7名病人患某病的潜伏期分别为
2,3,4,5,6,9,16天,求其中位数
本例n=7,为奇数
例2-7 8名患者食物中毒的潜伏期分别为
1,2,2,3,5,8,15,24小时,求其中位数。
本例n=8,为偶数
均数、中位数二者关系
正态分布时: 均数=中位数
正偏态分布时:均数>中位数
负偏态分布时:均数<中位数
小结:
集中趋势的描述——平均数
平均数:描述一组变量值的集中位置或平均
水平的指标体系。
不同的分布使用不同的指标
((算术算术))均数:均数:正态或近似正态或观察值相差不正态或近似正态或观察值相差不
大的小样本资料大的小样本资料
几何均数:几何均数:对数正态分布或等比级数资料对数正态分布或等比级数资料
中位数中位数 ::一般偏态分布(传染病发病的潜伏一般偏态分布(传染病发病的潜伏
期)期)
第三节 离散趋势的描述
例2-11 三组同龄男孩的身高值(cm)
描述离散趋势的特征数
(变异(variation)指标)
反映数据的离散度( Dispersion )。即
个体观察值的变异程度。常用的指标有:
1. 极差(Range) (全距)
2. 百分位数与四分位数间距
Percentile and Quartile range
3. 方差 Variance
4. 标准差Standard Deviation
5. 变异系数 Coefficient of Variation
盘编号 盘编号 甲甲 乙乙 丙丙
11 440440 480480 490490
22 460460 490490 495495
33 500500 500500 500500
44 540540 510510 505505
55 560560 520520 510510
合计合计 25002500 25002500 25002500
均数均数 500500 500500 500500
例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞
计数,每人数5个计数盘,得结果如下(万/mm3)
甲 乙 丙
1.极差(Range)
120
40
20
符号:R
意义:反映全部变量值
的变动范围。
优点:简便,如说明传染
病、食物中毒的最长、
最短潜伏期等。
缺点:1. 只利用了两个
极端值
大,R也会大
3.不稳定
适用范围:任何计量资
料;是参考变异指标
2.百分位数与四分位数间距
Percentile and quartile range
百分位数 :数据从
小到大 排列;在百分
尺度下,所占百分比
对应的值。记为Px。
四分位间距:
Q=P75- P25
P100(max)
P75
P50(中位数)
P25
P0(min)
Px
百分位数的应用
确定医学参考值范围 (reference range):
如95%参考值范围=-;
表示有95%正常个体的测量值在此范围。
二、方差与标准差
11、、 方差(方差(variancevariance)也称均方差()也称均方差(mean square mean square
deviationdeviation),),样本观察值的离均差平方和的均值。样本观察值的离均差平方和的均值。
表示一组数据的平均离散情况。表示一组数据的平均离散情况。反映一组数据的反映一组数据的
平均离散水平。平均离散水平。
总体方差用 表示
样本方差用 S2 表示
样本方差为什么要除以(n-1)?
数理统计证明,n代替N后,计算出的样本方差对总
体方差的估计偏小。对于样本资料,对离均差平方
和取平均时分母用n-1代替n。分母为n-1,称为自由
度(能自由取值的变量的个数)。
4.标准差
标准差 (standard deviation)即方差的正平
方根;其单位与原变量X的单位相同。
标准差的公式还可以写成 :
利用频数表计算标准差的公式为
标准差的计算
盘编号 盘编号 甲甲 乙乙 丙丙 甲甲22 乙乙22 丙丙22
11 440440 480480 490490 193600193600 230400230400 240100240100
22 460460 490490 495495 211600211600 240100240100 245025245025
33 500500 500500 500500 250000250000 250000250000 250000250000
44 540540 510510 505505 291600291600 260100260100 255025255025
55 560560 520520 510510 313600313600 270400270400 260100260100
合计合计 25002500 25002500 25002500 12604001260400 12510001251000 12502501250250
标准差标准差
5.变异系数(coefficient of variation)
符号:CV
适用条件:①观察指标单位不同,如身高、体重
②同单位资料,但均数相差悬殊
均数均数 标准差标准差 变异系数变异系数
青年男子青年男子 身高身高 170 cm170 cm 6 cm6 cm %%
体重体重 60 kg60 kg 7 kg7 kg %%
意义:挑选指标时变异系数越小,指标越好。
变异指标小结
1.极差较粗,适合于任何分布
2.标准差与均数的单位相同,最常用,适合于近似正态分布
3.变异系数主要用于单位不同或均数相差悬殊资料
4.平均指标和变异指标分别反映资料的不同特征,
常配套使用 如 正态分布:均数、标准差;
偏态分布:中位数、四分位半间距