第 5 章 平均指标与标志变异指标
统计学
一、平均指标的意义和作用
第一节 平均指标
2.特点
- 数量抽象性
- 集中趋势代表性
1.概念 平均指标是指在同质总体内将各单位某一数量标志的差异抽象化,用以反映总体在具体条件下的一般水平。
3.作用
- 比较作用
a. 同类现象在不同空间的对比。
b. 同一总体在不同时间上的比较。
- 利用平均指标可以分析现象之间的依存关系
- 利用平均指标可以进行数量上的推算,还可以作为论断事物的一种数量标准或参考
4.种类
算术平均数 数值平均数 调和平均数
几何平均数
众数 位置平均数 中位数
二、算术平均数
1.算术平均数的基本公式
式中: —— 算术平均数
X —— 各单位的标志值
n —— 总体单位数
—— 总和符号
2.简单算术平均数
当总体各单位未分组,直接掌握了总体各单位标志值时,将总体各单位的标志值相加,然后除以总体单位数。
式中: —— 算术平均数
X —— 各组数值
f —— 各组数值出现的次数(即权数)
3.加权算术平均数
如果资料是变量数列,并且各组的单位数不相同,就采用加权平均法。
设某厂职工按日产量分组后所得组距数列如下,据此求平均日产量。
13550
164
-
合 计
920
8
115
110 以上
1470
14
105
100 – 110
2565
27
95
90 – 100
3060
36
85
80 – 90
3750
50
75
70 – 80
1235
19
65
60 – 70
550
10
55
60 以下
Xf
工人数f
(人)
组中值X
(千克)
按日产量分组
(千克)
例
在掌握比重权数的情况下,可以直接利用权数系数来求加权算术平均数,其公式为:
164
8
14
27
36
50
19
10
f
工人数f (人)
-
合 计
115
110 以上
105
100 – 110
95
90 – 100
85
80 – 90
75
70 – 80
65
60 – 70
55
60 以下
f / ∑f
组中值X
(千克)
按日产量分组
(千克)
例:某公司下属各店职工按工龄分组情况
五店
四店
三店
二店
一店
—
平均工龄
20
20
100
28
4
—
合计
10
6
3
1
1
3
6
10
25
25
25
25
7
7
7
7
1
1
1
1
0~2年
2 ~5年
5 ~10年
10 ~20年
人 数 f
组中值
x
工龄
一、二、三店人数相差很远,但平均工龄相等。
四、五店人数相等,但平均工龄相差很大。
结论:平均数水平高低受两个因素的影响
加权算术平均数受两因素的影响:
变量值大小的影响。
次数多少的影响。
简单算术平均数只反映变量值大小这一因素的影响。
A
A D
① 各个变量值与算术平均数离差之和等于零
4.算术平均数的数学性质
简单平均数:
加权平均数:
② 各个变量值与算术平均数离差平方之和
等于最小值
△ 算术平均数的特点
算术平均数适合用代数方法运算,因此运用
比较广泛;
易受极端变量值的影响,使 的代表性变小;
受极大值的影响大于受极小值的影响;
当组距数列为开口组时,由于组中点不易确
定,使 的代表性也不很可靠。
三、调和平均数(又称“倒数平均数”)
调和平均数是各个变量值倒数的算术平均数的倒数。
其计算方法如下:
在社会经济统计学中经常用到的是一种特定权数的加权调和平均数。
调和平均数作为算术平均数的变形使用
m是一种特定权数,它不是各组变量值出现的次数,而是各组标志值总量。
已知某商品在三个集市贸易市场上的平均价格及销售额资料如下:
75 000
95 000
-
合计
25 000
35 000
丙
20 000
30 000
乙
30 000
30 000
甲
销售额(元) ÷平均价格(元)
(即销售量)
销售额(元)
m=Xf
平均价格(元)
X
市场
1.由平均数计算平均数时调和平均数法的应用:
例
例,某农贸市场某日鸡蛋价格及销售额资料如下表所示,试求其鸡蛋的平均售价。
鸡蛋种类 价格(元/KG) 销售额(元)
A 15200
B 8000
C 4100
鸡蛋的平均价格等于销售总额除以销售量:
某公司有四个工厂,已知其计划完成程度(%)及实际产值资料如下:
300
330
110
丙
1,000
1,100
-
合计
400
480
120
丁
200
200
100
乙
100
90
90
甲
实际产值÷计划完成程度(%)
(即计划产值) (万元)
实际产值(万元)
m=Xf
计划完成程度(%)
X
工厂
2.由相对数计算平均数时调和平均数法的应用:
例
△ 调和平均数的特点
如果数列中有一变量值等于零,则无法
计算 ;
较之算术平均数, 受极端值的影响要小。
例题
例一 水果甲级每元1公斤,乙级每元1。5公斤,丙级每元2公斤。问:
(1)若各买1公斤,平均每元可买多少公斤?
(2)各买公斤,平均每元可买多少公斤?
(3)甲级3公斤,乙级2公斤,丙级1公斤,平均每元可买几公斤?
(4)甲乙丙三级各买1元,每元可买几公斤?
例二 自行车赛时速:甲30公里,乙28公里,丙20公里,全程200公里,问三人平均时速是多少?若甲乙丙三人各骑车2小时,平均时速是多少?
解:例一
(1)
(2)
(3)
(4)
例二
四、几何平均数(又称“对数平均数”)
1.简单几何平均数
n个变量连乘积的n次方根
例
某机械厂有铸造车间、机加工车间、装配车间三个连续流水作业车间。本月份这三个车间产品合格率分别为95%、92%、90%,求平均车间产品合格率。
解:
这说明该厂车间产品平均合格率为%
2.加权几何平均数
式中:f为各变量值的次数或权重。
例题:
假定某地储蓄年利率(按复利计算):5%持续年,3%持续年,%持续1年。请问此5年内该地平均储蓄年利率。
△ 几何平均数的特点
如果数列中有一个标志值等于零或负值,就无法
计算 ;
受极端值的影响较 和 小;
它适用于反映特定现象的平均水平,即现象的总
标志值是各单位标志值的连乘积。
数据分布的特征
集中趋势
(位置)
偏态和峰态
(形状)
离中趋势
(分散程度)
集中趋势
(central tendency)
一组数据向其中心值靠拢的倾向和程度
测度集中趋势就是寻找数据水平的代表值或中心值
不同类型的数据用不同的集中趋势测度值
五、众数 M0
可以用来大致说明现象的一般水平。
1.概念:众数是在总体中出现次数最多的那个变量值。
① 根据单项数列确定众数;
60
140
300
合计
80
20
销售数量 (千克)
价格 (元)
某种商品的价格情况
众数M0=(元)
2.众数的计算方法
例
② 根据组距数列确定众数
⑵ 利用比例插值法推算众数的近似值。
⑴ 由最多次数来确定众数所在组;
19
60 - 70
50
70 - 80
36
80 - 90
27
90-100
14
100-110
8
110以上
10
60以下
工人人数 (人)
按日产量分组(千克)
表中70-80,即众数所在组。
例
计算公式:
公式1(上限公式):用众数所在组的上限为起点值的计算公式。
公式2(下限公式):用众数所在组的下限为起点值的计算公式。
U为众数所在组组距的上限,L为众数所在组组距的下限, 为众数组次数与前一组次数之差, 为众数组次数与后一组次数之差, 众数组组距。
计算众数的近似值:
下限公式:
上限公式:
由下限公式,日产量众数
由上限公式,日产量众数
△ 众数的特点
众数是一个位置平均数,它只考虑总体分布中最频繁出现的变量值,而不受各单位变量值的影响,从而增强了对变量数列一般水平的代表性。不受极端值和开口组数列的影响。
众数是一个不容易确定的平均指标,当分布数列没有明显的集中趋势而趋均匀分布时,则无众数可言;当变量数列是不等距分组时,众数的位置也不好确定。
六、中位数 Me
① 由未分组资料确定中位数
2.中位数的计算方法
1.概念:将总体中各单位标志值按大小顺序排列,
居于中间位置的那个标志值就是中位数。
⑴ n为奇数时,则居于中间位置的那个标志值
就是中位数。
例
⑵ n为偶数时,则中间位置的两个变量值的算术
平均数为中位数。
统计函数—MEDIAN
② 由单项数列确定中位数
某企业按日产零件分组如下:
-
-
80
合计
8
80
8
41
26
72
18
36
53
54
27
34
67
27
14
32
77
13
10
31
80
3
3
26
较大制累计
较小制累计
工人数
(人)
按日产零件分组(件)
例
③ 由组距数列确定中位数
第一步:确定中位数所处位置。
第二步:采用公式计算
上限法:
下限法:
其中:U是中位数所在组的上限,L是中位数所在组的下限,fm是中位数所在组的次数,Sm+1是中位数所在组后面各组累计数, Sm-1是中位数所在组前面各组累计数,d是中位数所在组的组距。
85
115
36
80 – 90
-
-
164
合计
8
164
8
110以上
22
156
14
100-110
49
142
27
90–100
135
79
50
70 – 80
154
29
19
60 – 70
164
10
10
50 – 60
较大制累计
较小制累计
工人数
(人)
按日产量分组(千克)
下限公式:
上限公式:
① 中位数不受极端值及开口组的影响,
具有稳健性。
② 各单位变量值与中位数离差的绝对值之和
是个最小值。
③ 对某些不具有数学特点或不能用数字测定的 现象,可用中位数求其一般水平。
3.中位数的特点
七、各种平均数之间的相互关系
(一)
三者的关系
表示为:
例
f
如图:
(二)
三者的关系
1.当总体分布呈对称状态时,三者合而为一,
如图:
f
X
2. 当总体分布呈非对称状态时
如图:
f
X
众数、中位数和平均数的关系
左偏分布
均值
中位数
众数
对称分布
均值
=
中位数
=
众数
右偏分布
众数
中位数
均值
所以
如果
,则说明分布右偏(或上偏)
如果
,则说明分布左偏(或下偏)
如果
,则说明分布对称
在偏斜度适度的情况下,不论是左偏还是右偏,中位数与算术平均数之差约等于众数与算术平均数之差的1/3,即有如下经验公式(卡尔·皮尔逊经验公式):
一组工人的月收入众数为700元,月收入的算术平均数
为1000元,则月收入的中位数近似值是:
例
根据卡尔·皮尔逊经验公式,还可以推算出:
八、平均指标的运用原则
1.平均指标只能适用于同质总体。
2.用组平均数补充说明总平均数。
某生产小组基期有工人15人,报告期人数增加到30人,两时期各技术等级的工人数和工资总额如下:
880
26400
30
1047
15700
15
合计
1700
6800
4
1500
7500
5
七级工
1000
10000
10
900
7200
8
四级工
600
9600
16
500
1000
2
二级工
平均工资
(元)
工资总额
(元)
比重
(%)
工人数
(人)
平均工资
(元)
工资总额
(元)
比重
(%)
工人数
(人)
报 告 期
基 期
级别
例
众数、中位数、平均数的特点和应用
众数
不受极端值影响
具有不惟一性
数据分布偏斜程度较大且有明显峰值时应用
中位数
不受极端值影响
数据分布偏斜程度较大时应用
平均数
易受极端值影响
数学性质优良
数据对称分布或接近对称分布时应用
C
C
第四节 标志变动度
① 标志变动度是评价平均数代表性的依据。
2.作用:
1.概念: 标志变动度是指总体中各单位标志值差别大小的程度,又称离散程度或离中程度。
一、标志变动度的意义、作用和种类
甲、乙两学生某次考试成绩列表
75
80
50
95
70
110
乙
85
75
70
65
90
95
甲
英语
政治
化学
物理
数学
语文
甲、乙两学生的平均成绩为80分,集中趋势一样,但是他们偏离平均数的程度却不一样。乙组数据的离散程度大,数据分布越分散,平均数的代表性就越差;甲组数据的离散程度小,数据分布越集中,平均数的代表性越大。
例
② 标志变动度可用来反映社会生产和其他社会经济活动过程的均衡性或协调性,以及产品质量的稳定程度。
50
30
20
100
乙
34
34
32
100
甲
钢
厂
三月
二月
一月
季度总供货计划执行结果
供货计划完成百分比(%)
例
3.标志变动度的种类
即测定标志变动度的方法,主要有:全距、四分位差、平均差、标准差、离散系数等。
全 距 R
四分位差 .
平 均 差 .
标 准 差 .(σ)
离散系数 Vσ
① 优点: 计算方便,易于理解。
② 缺点: 全距只考虑数列两端数值差异,它是测定标志变动度的一种粗略方法,不能全面反映总体各单位标志的变异程度。
1. 全距是总体各单位标志值最大值和最小值之差,
2. 全距的特点
二、全距 R
1.概念: 将总体各单位的标志值按大小顺序排列,然后将数列分为四等分,形成三个分割点(Q1、Q2、Q3),这三个分割点称为四分位数,(其中第二个四分位数Q2就是数列的中位数Me)。
四分位差 .=Q3-Q1
三、四分位差 .
四分位数
(quartile)
排序后处于25%和75%位置上的值
不受极端值的影响
用于顺序数据,也可用于数值型数据,但不能用于分类数据
Q1
Q2
Q3
25%
25%
25%
25%
① 根据未分组资料求.
2.计算:
例
数值型数据的四分位数
(9个数据的算例)
【例】:9个家庭的人均月收入数据
原始数据: 1500 750 780 1080 850 960 2000 1250 1630
排 序: 750 780 850 960 1080 1250 1500 1630 2000
位 置: 1 2 3 4 5 6 7 8 9
② 根据分组资料求.
2) 若单项数列,则Q1与Q3所在组的标志值就是Q1与Q3的数值;
若组距数列,确定了Q1与Q3所在组后,还要用以下公式求近似值:
根据某车间工人日产零件分组资料,求.
-
100
合 计
100
6
20-25
94
36
15-20
58
46
10-15
12
12
5-10
累计工人数(人)(较小制)
工人数(人)
按日产零件分组(件)
例
这表明有一半工人的日产量分布在件至
件之间,且相差件。
① 四分位差不受两端各25%数值的影响,能对开口组数列的差异程度进行测定;
② 用四分位差可以衡量中位数的代表性高低;
③ 四分位差不反映所有标志值的差异程度,它所描述的只是次数分配中一半的离差,所以也是一个比较粗略的指标。
3. 四分位差的特点
平均差是数列中各单位标志值与平均数之间绝对离差的平均数。能全面反映一组数据的离散程度。
1.概念和计算:
四、平均差 .
以某车间100个工人按日产量编成变量数列的资料:
660
-
4200
-
100
合 计
195
13
825
55
15
50-60
135
3
2025
45
45
40-50
245
-7
1225
35
35
30-40
85
-17
125
25
5
20-30
Xf
组中值
X
工人数(人)
f
工人按日产量分组(千克)
例
① 平均差是根据全部标志值与平均数离差而计算
出的变异指标,能全面反映标志值的差异程度;
② 平均差计算有绝对值符号,不适合代数方法的
演算使其应用受到限制。
2.平均差的特点
统计函数—AVEDEV
反映了各变量值与均值的平均差异。
数据离散程度的最常用测度值。
根据总体数据计算的,称为总体方差或标准差,记为2();根据样本数据计算的,称为样本方差或标准差,记为s2(s)。
1.意义和计算:
五、方差和标准差
样本方差和标准差
(simple variance and standard deviation)
未分组数据
组距分组数据
未分组数据
组距分组数据
方差的计算公式
标准差的计算公式
注意:
样本方差用自由度n-1去除!
自由度
(degree of freedom)
自由度是指附加给独立的观测值的约束或限制的个数
从字面涵义来看,自由度是指一组数据中可以自由取值的个数
当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值
按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k
自由度
(degree of freedom)
样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值。
为什么样本方差的自由度是n-1呢?因为在计算离差平方和时,必须先求出样本均值x ,而x则是附加给离差平方和的一个约束,因此,计算离差平方和时只有n-1个独立的观测值,而不是n个。
样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差σ2时,它是σ2的无偏估计量。
样本标准差
(例题分析)
55400
160
270
320
270
0
170
200
240
160
250
—
40
30
20
10
0
10
20
30
40
50
120
—
合计
4
9
16
27
20
17
10
8
4
5
145
155
165
175
185
195
205
215
225
235
140~150
150 ~ 160
160 ~170
170 ~180
180 ~ 190
190 ~ 200
200 ~ 210
210 ~220
220 ~230
230 ~240
频数(fi)
组中值(Mi)
按销售量分组
某电脑公司销售量数据平均差计算表
样本标准差
(例题分析)
含义:每一天的销售量与平均数相比,
平均相差台
统计函数—STDEV
总体方差和标准差
(Population variance and Standard deviation)
未分组数据
组距分组数据
未分组数据
组距分组数据
方差的计算公式
标准差的计算公式
① σ与R的关系
② σ与.的关系
经验表明,当分布数列接近于正态分布时,R和σ之间存在以下经验公式:
R为4至6个σ: 当标志值项数较少时,R≈4σ
当标志值项数较多时,R≈6σ
对同一资料,所求的平均差一般比标准差要小,即.≤ σ
2.标准差与全距、平均差的关系
离散系数,是各种变异指标与平均数的比率。反映总体各单位标志值的相对离散程度,最常用的是标准差系数。
六、离散系数 Vσ
离散系数
(例题分析)
170
220
390
430
480
650
950
1000
1
2
3
4
5
6
7
8
销售利润(万元)
x2
产品销售额(万元)
x1
企业编号
某管理局所属8家企业的产品销售数据
【 例 】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度
离散系数
(例题分析)
结论: 计算结果表明,v1<v2,说明产品销售额的离散程度小于销售利润的离散程度
v1=
=
v2=
=
例
作业:练习题1-7
A D
为研究少年儿童的成长发育状况,某研究所的一位调查人员在某城市抽取100名7~17岁的少年儿童作为样本,另一位调查人员则抽取了1000名7~17岁的少年儿童作为样本。请回答下面的问题,并解释其原因。
(1)哪一位调查研究人员在其所抽取的样本中得到的少年儿童的平均身高较大?或者这两组样本的平均身高相同?
(2)哪一位调查研究人员有可能得到这1100名少年儿童的最高者或最低者?或者对两位调查研究人员来说,这种机会是相同的?
解:(1)两位调查人员所得到的平均身高和标准差应该差不多相同,因为均值和标准差的大小基本上不受样本大小的影响。
(2)具有较大样本的调查人员有更大的机会取到最高或最低者,因为样本越大,变化的范围就可能越大。
一项关于大学生体重状况的研究发现,男生的平均体重为60公斤,标准差为5公斤;女生的平均体重为50公斤,标准差为5公斤。请回答下面的问题:
(1)是男生的体重差异大还是女生的体重差异大?为什么?
(2)以磅为单位(1公斤=磅),求体重的平均数和标准差。
(3)粗略地估计一下,男生中有百分之几的人体重在55公斤到65公斤之间?
(4)粗略地估计一下,女生中有百分之几的人体重在40公斤到60公斤之间?
解:(1)由于两组的平均体重不相等,应通过比较离散系数确定体重差异较大的组:
因为女生的离散系数为
V=S/X=5/50=
男生体重的离散系数为
V=S/X=6/50=
对比可知女生的体重差异较大。
(2) 男生:=60/=(磅),s =5/=(磅)
女生:=50/=(磅),s =5/=(磅);
(3)68%;
(4)95%。
对10名成年人和10名幼儿的身高(厘米)进行抽样调查,结果如下:
(1)要比较成年组和幼儿组的身高差异,你会采用什么样的指标测度值?为什么?
(2)比较分析哪一组的身高差异大?
75
74
73
72
73
71
70
68
69
68
幼儿组
173
168
174
172
170
180
177
172
169
166
成年组
解:(1)应采用离散系数,因为成年人和幼儿的身高处于不同的水平,采用标准差比较不合适。离散系数消除了不同组数据水平高低的影响,采用离散系数就较为合理。
(2)利用Excel进行计算,得成年组身高的平均数为,标准差为,从而得:
成年组身高的离散系数:v=
又得幼儿组身高的平均数为,标准差为,从而得:
幼儿组身高的离散系数: v= ;
由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大。
甲乙两个企业生产三种产品的单位成本和总成本资料如下:
比较哪个企业的总平均成本高?并分析其原因。
3255
1500
1500
2100
3000
1500
15
20
30
A
B
C
乙企业
甲企业
总成本(元)
单位成本
(元)
产品
名称
解:设产品单位成本为 x,产量为f,则总成本为xf,
甲企业平均成本=(元)
乙企业平均成本= (元)
对比可见,甲企业的总平均成本较高。
原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。
一种产品需要人工组装,现有三种可供选择的组装方法。为检验哪种方法更好,随机抽取15个工人,让他们分别用三种方法组装。下面是15个工人分别用三种方法在相同的时间内组装的产品数量(单位:个):
125
132
165
126
125
166
116
128
167
126
128
166
125
127
163
127
128
162
127
128
164
126
127
168
127
129
164
128
130
165
126
131
170
127
130
165
126
129
168
126
130
167
125
129
164
方法C
方法B
方法A
你准备采用什么方法来评价组装方法的优劣?
如果让你选择一种方法,你会作出怎样的选择?试说明理由。
解:(1)下表给计算出这三种组装方法的一些主要描述统计量:
128
最大值
132
最大值
170
最大值
116
最小值
125
最小值
162
最小值
12
极差
7
极差
8
极差
标准偏差
标准偏差
标准偏差
126
众数
128
众数
164
众数
126
中位数
129
中位数
165
中位数
平均
平均
平均
方法C
方法B
方法A
评价优劣应根据离散系数,据上得:
方法A的离散系数VA= ,
方法B的离散系数VB= ,
方法C的离散系数VC= ;
对比可见,方法A的离散系数最低,说明方法A最优。
我会选择方法A,因为方法A的平均产量最高而离散系数最低,说明方法A的产量高且稳定,有推广意义。
Location (Position)
Concerned with where values are concentrated.
Variation (Dispersion)
Concerned with the extent to which values vary.
Shape
Concerned with extent to which values are symmetrically distributed.
Shape
Concerned with extent to which values are symmetrically distributed.
Kurtosis
The extent to which a distribution is peaked (flatter or taller).
For example, a distribution could be more peaked than a normal distribution (still may be 慴ell-shaped). If values are negative, then distribution is less peaked than a normal distribution.
Skew
The extent to which a distribution is symmetric or has a tail. Values are 0 if normal distribution. If the values are negative, then negative or left-skewed.