本资料来源
第二章 统计数据的描述
第2节 分布集中趋势的测度
一、众数
二、中位数
三、四分位数
四、均值
五、几何平均数
六、切尾均值
七、众数、中位数和均值的比较
集中趋势
(central tendency)
一组数据向其中心值靠拢的倾向和程度一组数据向其中心值靠拢的倾向和程度
测度集中趋势就是寻找数据水平的代表值或中测度集中趋势就是寻找数据水平的代表值或中
心值心值
不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值
低层次数据的测度值适用于高层次的测量数据,低层次数据的测度值适用于高层次的测量数据,
但高层次数据的测度值并不适用于低层次的测但高层次数据的测度值并不适用于低层次的测
量数据量数据
众数
(mode)
1. 一组数据中出现次数最多的变量值一组数据中出现次数最多的变量值
2. 一般情况下,只有在数据量较大且集中趋势明一般情况下,只有在数据量较大且集中趋势明
显的情况下,才能用众数作为总体的代表值。显的情况下,才能用众数作为总体的代表值。
3. 众数是一个位置代表值,不受极端值的影响众数是一个位置代表值,不受极端值的影响
4. 主要用于定类尺度数据,也可用于定序尺度数主要用于定类尺度数据,也可用于定序尺度数
据和定比尺度数据据和定比尺度数据
众数的种类
无众数
data: 10 5 9 12 6 8
一个众数
data: 6 5 9 8 5 5
双众数
data: 25 28 28 36 42 42
多众数
data:32 32 32 33 34 34 34 35 36 36
36
定类尺度数据的众数
(例题分析)
解解::众众数数为为““SP09-05”SP09-05” ,,
即即
MMoo== SP09-05SP09-05
某专卖店新品球衣销售情况(单位:件)
定序尺度数据的众数定序尺度数据的众数
((例题分析例题分析))
解解::众众数数为为““副副教教授授
””这一级别,即这一级别,即
MMoo=副教授=副教授
某高校在职教师职称分布
职称 人数
百分比
(%)
教授
副教授
讲师
助教
其他教师
151
382
297
203
17
合计 1050
日产量(日产量(件)件) 工人人数(人)工人人数(人)
1010
1111
1212
1313
1414
7070
100100
380380
150150
100100
合计合计 800800
【例】已知某企业某日工人的日产量资料如下:
解:该企业该
日全部工人日
产量的众数为
12件。
定比尺度数据的众数
(单变量值分组)
符号含义:
(A)L为众数组的下限;
(B)1=fm-fm-1,即众数组的次数与前一组次数之
差;
2=fm -fm+1,即众数组的次数与后一组次数
之差;
(C) i为众数组的组距。
定比尺度数据的众数
(组距分组)
组距分组计算众数
收入组别 人均收入(元) 频数(人)
1
2
3
4
5
6
2 000以下
2 000~4 000
4 000~6 000
6 000~8 000
8 000~10 000
10 000以上
23
43
68
32
24
10
合 计 - 200
某地区的人均月收入调查数据
• 排序后处于中间位置上的值排序后处于中间位置上的值
• 不受极端值的影响不受极端值的影响
• 主要用于定序尺度数据,也可用于定比尺度数主要用于定序尺度数据,也可用于定比尺度数
据,但不能用于定类尺度数据据,但不能用于定类尺度数据
MMee
50% 50%
中位数
(median)
1、确定中位数的位置
定序尺度数据的中位数
2、确定中位数
定序尺度数据的中位数定序尺度数据的中位数
((例题分析例题分析))
解:中位数的位置为解:中位数的位置为
300/2300/2==150150
从从累累计计频频数数看看,,
中中位位数数在在““一一般般””这这
一组别中一组别中
中位数为中位数为
Me=一般
甲城市家庭对住房状况评价的频数分布
回答类别
甲城市
户数 (户) 累计频数
非常不满意
不满意
一般
满意
非常满意
24
108
93
45
30
24
132
225
270
300
合计 300 —
(1)由未分组资料确定中位数
(2)由单变量值分组确定中位数
(3)由组距分组数据确定中位数
定比尺度数据的中位数
(计算方法)
(1)由未分组资料确定中位数
排序:确定中位数位置
奇数:中间位置的变量值为中位数。奇数:中间位置的变量值为中位数。
偶数:中间位置相邻两个变量值的简单平均数是偶数:中间位置相邻两个变量值的简单平均数是
中位数。中位数。
定比尺度数据的中位数定比尺度数据的中位数
((计算方法计算方法))
中位数 (9个数据的算例)
【例】9个家庭的人均月收入数据
原始数据: 1500 750 780 1080 850 960 2000 1250 1630
排序: 750 780 850 960 1080 1250 1500 1630 2000
位 置: 1 2 3 4 5 6 7 8 9
中位数Me 1080
中位数(10个数据的算例)
【例】:10个家庭的人均月收入数据
排序: 660 750 780 850 960 1080 1250 1500 1630 2000
位置: 1 2 3 4 5 6 7 8 9 10
(2)由单变量值分组确定中位数
中位数位置:
从累计频数看,中位数在“80”这一组别中,中位数为
MMe=34e=34(台)(台)
40
2
80
2
nOm
某公司销售人员月销售冰箱中位数计算
销售冰箱分组
(台)
销售人员数
(人)
向下累计
频数
向上累计
频数
25
30
32
34
36
39
3
10
14
27
18
8
3
13
27
54
72
80
80
77
67
53
26
8
合 计 80 - -
(3)由组距分组数据确定中位数
第一步:确定中位数位置
其中:
L是中位数所在组的下限
fm是中位数所在组的次数
Sm-1是中位数所在组前面各组累计次数
i是中位数所在组的组距
第二步:采用公式计算
按家庭收入分组(元) 家庭数(户) 向下累计频数
5 000以下
5 000~10 000
10 000~15 000
15 000~20 000
20 000以上
21
45
14
6
6
21
66
80
86
92
合 计 92 -
某地区家庭收入分组
中位数的位置在第46(92/2)位,应在第二组
分位数
1、四分位数
2、十分位数
3、百分位数
四分位数四分位数
(quartile)(quartile)
2. 不受极端值的影响
1. 排序后处于排序后处于25%25%和和75%75%位置上的值位置上的值
QQ11 QQ22 QQ33
25% 25% 25% 25%
3、主要用于定序尺度数据,也可用于定比尺
度数据,但不能用于定类尺度数据
1、由定序数据确定四分位数
(2)确定四分位数
(1)确定位置:
四分位数
定序尺度数据的四分位数定序尺度数据的四分位数
((例题分析例题分析))
解:解:QQ11位置位置= (300)/4 =75= (300)/4 =75
Q Q33位置位置 =(3×300)/4=(3×300)/4
=225 =225
从从累累计计频频数数看看,, QQ11在在““
不不
满意满意””这一组别中;这一组别中; QQ33在在
““一般一般””这一组别中这一组别中
四分位数为四分位数为
QQ11 = = 不满意不满意
QQ33 = = 一般一般
甲城市家庭对住房状况评价的频数分布
回答类别
甲城市
户数 (户) 累计频数
非常不满意
不满意
一般
满意
非常满意
24
108
93
45
30
24
132
225
270
300
合计 300 —
四分位数
2、由未分组数据确定四分位数
(1)确定位置:
四分位数
(2)确定四分位数
【【例例】】::99个家庭的人均月收入数据个家庭的人均月收入数据
原始数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630: 1500 750 780 1080 850 960 2000 1250 1630
排排 序序: 750 780 850 960 1080 1250 1500 1630 2000: 750 780 850 960 1080 1250 1500 1630 2000
位位 置置:: 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
四分位数
【【例例】】::1010个家庭的人均月收入数据个家庭的人均月收入数据
排序排序: 660 750 780 850 960 1080 1250 1500 1630 2000: 660 750 780 850 960 1080 1250 1500 1630 2000
位置位置: 1 2 3 4 5 6 7 8 9 10 : 1 2 3 4 5 6 7 8 9 10
四分位数
均值
(mean)(mean)
1. 集中趋势的最常用测度值集中趋势的最常用测度值
2. 一组数据的均衡点所在一组数据的均衡点所在
3. 体现了数据的必然性特征体现了数据的必然性特征
4. 易受极端值的影响易受极端值的影响
5. 用于定比尺度数据,不能用于定类尺度数据和定用于定比尺度数据,不能用于定类尺度数据和定
序尺度数据序尺度数据
简单平均数与加权平均数简单平均数与加权平均数
(simple mean / weighted mean)(simple mean / weighted mean)
设一组数据为:设一组数据为: xx1 1 ,,xx2 2 ,,… … ,,xxnn
各组的组中值为:各组的组中值为:MM1 1 ,,MM2 2 ,,… … ,,MMkk
相应的频数为:相应的频数为: ff1 1 ,, ff2 2 ,,… … ,,ffkk
简单平均数简单平均数
加权平均数加权平均数
某电脑公司销售量数据分组表
按销售量分组 组中值(Mi) 频数(fi) Mi fi
140~150
150~160
160~170
170~180
180~190
190~200
200~210
210~220
220~230
230~240
145
155
165
175
185
195
205
215
225
235
4
9
16
27
20
17
10
8
4
5
580
1395
2640
4725
3700
3315
2050
1720
900
1175
合计 — 120 22200
加权平均数加权平均数((例题分析例题分析))
加权平均数加权平均数
((权数对均值的影响权数对均值的影响))
甲乙两组各有甲乙两组各有1010名学生,他们的考试成绩及其分布数据如下名学生,他们的考试成绩及其分布数据如下
甲组:甲组: 考试成绩(考试成绩(x x )):: 0 20 100 0 20 100
人数分布(人数分布(f f ):):1 1 81 1 8
乙组:乙组: 考试成绩(考试成绩(xx)):: 0 20 100 0 20 100
人数分布(人数分布(f f ):):8 1 18 1 1
几何平均数几何平均数
(geometric mean)(geometric mean)
. n n 个变量值乘积的个变量值乘积的 n n 次方根次方根
. 适用于对比率数据的平均适用于对比率数据的平均
. 主要用于计算平均增长率主要用于计算平均增长率
. 计算公式为计算公式为
5. 5. 当数据中出现零值或负值时不宜计算几何平均数当数据中出现零值或负值时不宜计算几何平均数
某电器销售公司2003~2008年销售量的环比增长
率分别为:%、%、%、%和%。求这
期间销售量的平均增长率。
几何平均数的计算示例
销售量的平均增长率=%-1=%
G
切尾均值
(trimmed Mean)(trimmed Mean)
1、去掉大小两端的若干数值后计算中间数据的均
值
2、在电视大奖赛、体育比赛及需要人们进行综合
评价的比赛项目中已得到广泛应用
3、计算公式为
nn 表示观察值的个数;表示观察值的个数;αα表示切尾系数,表示切尾系数,
【例】某次比赛共有11名评委,对某位歌手的给分分别是:
经整理得到顺序统计量值为经整理得到顺序统计量值为
去掉一个最高分和一个最低分,取去掉一个最高分和一个最低分,取1/111/11
众数、中位数和平均
数的比较
众数、中位数和平均数的关系众数、中位数和平均数的关系
左偏分布左偏分布
均值均值 中位数中位数
众数众数
对称分布对称分布
均值均值 = = 中位数中位数 == 众数众数
右偏分布右偏分布
众数众数
中位数中位数 均值均值
众数、中位数、平均数的特点和应用众数、中位数、平均数的特点和应用
1. 众数众数
不受极端值影响不受极端值影响
具有不惟一性具有不惟一性
数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用
2. 中位数中位数
不受极端值影响不受极端值影响
数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用
3. 平均数平均数
易受极端值影响易受极端值影响
数学性质优良数学性质优良
数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用
第3节 分布离散程度的测度
一、极差(全距)一、极差(全距)
二、内距(四分位差)二、内距(四分位差)
三、方差和标准差三、方差和标准差
四、离散系数四、离散系数
离散程度
1. 数据分布的另一个重要特征数据分布的另一个重要特征
2. 反映各变量值远离其中心值的程度(离散程度)反映各变量值远离其中心值的程度(离散程度)
3. 从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度
4. 不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值
极差
(range)(range)
1. 一组数据的最大值与最小值之差
2. 离散程度的最简单测度值
3. 易受极端值影响
计算公式为计算公式为
最大变量值或最
高组上限或开口
组假定上限
最小变量值或最
低组下限或开口
组假定下限
【例A】某售货小组5人某天的销售额分别为
440元、480元、520元、600元、750元,则
甲组 乙组
0-100 4 0
100-200 4 9
200-300 1 0
【【例例BB】】空调耐用性分组测试表 (单位:小时)
甲组 R = 300-0 = 300(小时)
乙组 R = 200-100 = 100 (小时)
【【例例CC】】某季度某工业公司某季度某工业公司1818个工业企业产值计划完个工业企业产值计划完
成情况如下,计算极差。成情况如下,计算极差。
计划完成程度计划完成程度
((﹪﹪))
组中值组中值
((﹪﹪))
企业数企业数
(个)(个)
计划产值计划产值
(万元)(万元)
9090以下以下
9090~~100100
100100~~110110
110110以上以上
8585
9595
105105
115115
22
33
1010
33
800800
25002500
1720017200
44004400
合计合计 —— 1818 2490024900
内距
(Inter-Quartile Range,IQR)(Inter-Quartile Range,IQR)
1. 也称四分位差也称四分位差
2. 上四分位数与下四分位数之差上四分位数与下四分位数之差
内内 距距= = QQUU – – QQLL
3. 反映了中间反映了中间50%50%数据的离散程度数据的离散程度
4. 不受极端值的影响不受极端值的影响
5. 可用于衡量中位数的代表性可用于衡量中位数的代表性
例:某数学补习小组11人年龄(岁)为:
17、19、22、24、25、28、34、35、36、37、38
结论:该小组约有50%的人年龄在22~36岁之间,并且
他们之间最大差异为14岁。
解:
方差和标准差
(Variance and Standard Deviation)(Variance and Standard Deviation)
数据离散程度的最常用测度值数据离散程度的最常用测度值
反映了各变量值与均值的平均差异反映了各变量值与均值的平均差异
根据总体数据计算的,称为总体方差或标准差;根据总体数据计算的,称为总体方差或标准差;
根据样本数据计算的,称为样本方差或标准差根据样本数据计算的,称为样本方差或标准差
4 6 8 10 124 6 8 10 12
xx = =
总体方差和标准差
(Population variance and Standard deviation)
未分组数据:
组距分组数据:组距分组数据:
未分组数据:未分组数据:
组距分组数据:组距分组数据:
方差的计算公式方差的计算公式 标准差的计算公式标准差的计算公式
样本方差和标准差
(sample variance and standard deviation)
未分组数据:
组距分组数据:组距分组数据:
未分组数据:未分组数据:
组距分组数据:组距分组数据:
方差的计算公式方差的计算公式 标准差的计算公式标准差的计算公式
注意:注意:
样本方差用自样本方差用自
由度由度nn-1-1去除去除!!
根据以下资料,计算企业职工平均工资的标准差。(已知平
均工资为760元)
某企业职工工资分组数据表
总体方差和标准差计算示例
总体方差和标准差计算示例
总体方差为:
总体标准差为:
样本标准差样本标准差
((例题分析例题分析))
55400
160
270
320
270
0
170
200
240
160
250
—
40
30
20
10
0
10
20
30
40
50
120—合计
4
9
16
27
20
17
10
8
4
5
145
155
165
175
185
195
205
215
225
235
140~150
150 ~ 160
160 ~170
170 ~180
180 ~ 190
190 ~ 200
200 ~ 210
210 ~220
220 ~230
230 ~240
频数(fi)组中值(Mi)按销售量分组
某电脑公司120天销售量数据平均差计算表
样本标准差样本标准差
((例题分析例题分析))
含义:每一天的销售量与平均数相比,平均相
差台。
离散系数
(coefficient of variation)(coefficient of variation)
标准差与其相应的均值之比标准差与其相应的均值之比
对数据相对离散程度的测度对数据相对离散程度的测度
消除了数据水平高低和计量单位的影响消除了数据水平高低和计量单位的影响
用于对不同组别数据离散程度的比较用于对不同组别数据离散程度的比较
计算公式为计算公式为
例:甲乙企业职工的年均收入分别为20000元和50000元,
收入的标准差分别为3000和5000元,哪家企业职工的
收入差距小一些?
甲企业离散系数
乙企业离散系数
[结论] 乙企业职工收入差距小于甲企业。
结论:比较两组数据的离散程度时,如两组
均值相等,可以直接比较标准差(也可以比较
离散系数);如两组均值相差很大,则需比较
两组的离散系数(不能直接比较标准差)。
第4节 分布偏态与峰度的测度
偏态与峰态分布的形状偏态与峰态分布的形状
扁平分布扁平分布
尖峰分布尖峰分布
偏态偏态 峰态峰态
左偏分布左偏分布
右偏分布右偏分布
与标准正态与标准正态
分布比较!分布比较!
偏态
(skewness)(skewness)
1. 统计学家统计学家PearsonPearson于于18951895年首次提出年首次提出
2. 数据分布偏斜程度的测度数据分布偏斜程度的测度
偏态系数偏态系数=0=0为对称分布为对称分布
偏态系数偏态系数> 0> 0为右偏分布为右偏分布
偏态系数偏态系数< 0< 0为左偏分布为左偏分布
偏态系数偏态系数
(skewness coefficient)(skewness coefficient)
1. 根据原始数据计算根据原始数据计算
2. 根据分组数据计算根据分组数据计算
偏态系数偏态系数((例题分析例题分析))
某电脑公司销售量偏态及峰度计算表
按销售量份组
(台)
组中值(Mi) 频数 fi
140 ~ 150
150 ~ 160
160 ~ 170
170 ~ 180
180 ~190
190 ~200
200 ~210
210 ~220
220 ~ 230
230 ~ 240
145
155
165
175
185
195
205
215
225
235
4
9
16
27
20
17
10
8
4
5
-256000
-243000
-128000
-27000
0
17000
80000
216000
256000
625000
合计 — 120 540000
偏态系数偏态系数((例题分析例题分析))
结论:偏态系数为正值,但与结论:偏态系数为正值,但与00的差异不大,说明的差异不大,说明
电脑销售量为轻微右偏分布,即销售量较少的天电脑销售量为轻微右偏分布,即销售量较少的天
数占据多数,而销售量较多的天数则占少数。数占据多数,而销售量较多的天数则占少数。
偏态与峰态偏态与峰态((从直方图上观察从直方图上观察))
按销售量分组按销售量分组((台台))
结论:结论:1. 1. 右偏分布右偏分布
.略有平峰略有平峰
140140 150150 210210
某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图
190190 200200180180160160 170170
频频
数数
((天天))
2525
2020
1515
1010
55
3030
220220 230230 240240
峰态
(kurtosis)(kurtosis)
1. 统计学家统计学家PearsonPearson于于19051905年首次提出年首次提出
2. 数据分布扁平程度的测度数据分布扁平程度的测度
3. 峰度系数峰度系数=0=0为对称分布为对称分布
4. 峰度系数峰度系数<0<0为平峰分布为平峰分布
5. 峰度系数峰度系数>0>0为尖峰分布为尖峰分布
峰态系数峰态系数
(kurtosis coefficient)(kurtosis coefficient)
1. 根据原始数据计算
2. 根据分组数据计算
峰态系数峰态系数((例题分析例题分析))
某电脑公司销售量偏态及峰度计算表
按销售量份组
(台)
组中值(Mi) 频数 fi
140 ~ 150
150 ~ 160
160 ~ 170
170 ~ 180
180 ~190
190 ~200
200 ~210
210 ~220
220 ~ 230
230 ~ 240
145
155
165
175
185
195
205
215
225
235
4
9
16
27
20
17
10
8
4
5
-256000
-243000
-128000
-27000
0
17000
80000
216000
256000
625000
10240000
7290000
2560000
270000
0
170000
1600000
6480000
10240000
31250000
合计 — 120 540000 70100000
峰态系数峰态系数
((例题分析例题分析))
结论:峰态系数为负值,但与结论:峰态系数为负值,但与00的差异不大,说明的差异不大,说明
电脑销售量的分布与正态分布相比略有一些平峰。电脑销售量的分布与正态分布相比略有一些平峰。
偏态与峰态偏态与峰态
((从直方图上观察从直方图上观察))
按销售量分组按销售量分组((台台))
结论:结论:1. 1. 右偏分布右偏分布
.略有平峰略有平峰
140140 150150 210210
某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图
190190 200200180180160160 170170
频频
数数
((天天))
2525
2020
1515
1010
55
3030
220220 230230 240240
用Excel计算描述统计量