经济统计学
第五章 平均指标与标志变异指标
第五章 平均指标与标志变异指标
第一节 平均指标
第二节 标志变异指标
第三节 偏度与峰度
统计数据分布的特征,可以从三个方面进行测度和描述:
一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度,可以用平均指标表示;
二是分布的离中趋势,反映各数据远离其中心值的程度,可以用标志变异指标表示;
三是分布的偏态和峰度,反映数据分布的形状。
本章主要从这三个方面讨论数据分布的特征。
第一节 平均指标
一、平均指标的概念及作用
平均指标是表明同质总体内某一标志在具体时间、地点、条件下达到的一般水平的统计指标,也称为平均数。
作用:
1.反映社会现象的综合特征。
2.反映分配数列中各变量值分布的集中趋势。
3.对同类现象在不同空间、时间、条件下的指标数值进行对比分析,反映现象在不同地区之间的差异。
二、平均指标的种类和计算方法
(一)平均指标的种类
1、按反映的时间状态不同,分为静态平均指标和动态平均指标。
静态平均数是反映同一时间总体各单位标志值的一般水平。例如,某企业某月职工的平均工资。
动态平均数是反映不同时间总体指标的一般水平。例如,某企业根据某年12个月计算的职工月平均工资。
2、按计算或确定的方法不同,分为数值平均数和位置平均数。
数值平均数是根据总体各单位的标志值计算得到的平均值,主要有算术平均数、调和平均数、几何平均数。
位置平均数是根据标志值在分配数列中的位置或出现次数的多少确定的,主要有中位数和众数。
(二)平均指标的计算
算术平均数
算术平均数是总体单位某一数量标志值之和除以总体单位总量(即总体单位数)。其计算公式为:
例如,某企业2006年12月职工平均人数为500人,其工资总额为 1000000元,则该企业职工月平均工资为 2000元。
算术平均数可分为简单算术平均数和加权算术平均数。
简单算术平均数:若总体资料未进行分组,则先计算总体标志总量,再用总体单位数去除,计算的结果为简单算术平均数。其计算公式为:
式中, 表示算术平均数;x表示各单位的标志值; n表示总体单位数;∑x表示总和。
例如,某生产小组有6人,某天生产的产品零件数分别为12件,14件,13件,12件,16件,11件,则平均每人日生产零件数为:78/6=13(件)
加权算术平均数:若总体资料已经分组,编成分配数列,这时将各组标志值乘以相应的次数,然后加总求和,再除以总次数(总体单位数),所得结果为加权算术平均数。其计算公式为:
式中, 表示加权算术平均数;x表示各组标志值;f表示各组标志值出现的次数(也称为权数);∑xf表示总体标志总量; ∑f表示总体单位数。
若分组资料为单项数列,则可直接按公式计算加权算术平均数;若分组资料是组距数列,则先计算组中值,用组中值代替各组标志值的一般水平,再计算加权算术平均数。
算术平均数的数学性质
1)各标志值与算术平均数的离差之和等于零。即
未分组资料: ∑(x- )=0
分组资料: ∑(x- )f=0
2)各标志值与算术平均数的离差平方和等于最小值。即
未分组资料: ∑(x- )2 =最小值
分组资料: ∑(x- )2 f=最小值
这两个性质是进行趋势预测、回归预测、建立数学模型的重要数学理论依据,在以后的章节中还会碰到。
算术平均数的优缺点:
优点:
计算方法简单,容易掌握
缺点:
易受极端数值的影响
2. 调和平均数
调和平均数是总体各单位标志值倒数的算术平均数的倒数,也称倒数平均数。
调和平均数按其计算方法不同,可分为简单调和平均数和加权调和平均数。
(1)简单调和平均数
(2)加权调和平均数
m表示调和平均数的权数。
调和平均数的特点:
调和平均数也容易受极端数值的影响,而且受极小值的影响大于受极大值的影响。调和平均数的应用范围较小,当变量值中有一项为0时,无法计算调和平均数。
调和平均数的运用:
在社会经济领域中,调和平均数经常作为算术平均数的变形使用。主要适用于质量指标求平均。
如果知道该质量指标的分子资料,则用加权调和平均数公式计算该指标的平均数;如果知道该质量指标的分母资料,则用加权算术平均数公式计算该指标的平均数。
练一练:
已知某商品在三个集市贸易市场上的平均价格及销售量资料如下,求该商品在市场上的总平均价格
(提示:总平均价格=销售总额÷总销售量,已知分母总销售量,应用加权算术平均数)
解:
市场
平均价格(元/千克)
销售量(千克)
甲
30 000
乙
20 000
丙
25 000
合计
-----
75 000
练一练:
已知某商品在三个集市贸易市场上的平均价格及销售量资料如下,求该商品在市场上的总平均价格
(提示:总平均价格=销售总额÷总销售量,已知分子销售总额,应用加权调和平均数)
解:
市场
平均价格(元/千克)
销售额(元)
甲
60 000
乙
50 000
丙
60 000
合计
-----
170 000
3. 几何平均数
几何平均数是n个比率乘积的n次方根,即把若干个变量连乘,得其乘积再开n次方根。社会经济统计中,几何平均数适用于计算平均比率和平均速度。
几何平均数按计算方法不同分为简单几何平均数和加权几何平均数。
(1)简单几何平均数
式中, 表示几何平均数;x表示变量值;n表示变量值个数; ∏为连乘符号
(2)加权几何平均数
社会经济现象用几何平均法计算平均数应满足两个条件:
(1)若干个比率或速度的乘积等于总比率或总速度。
(2)相乘的各比率或速度不得为负值。
4. 众数
众数是总体中出现次数最多的标志值,一般用字母 M0 表示,反映一种最普遍、最常见的现象。
众数的确定
(1)单项数列确定众数
采用直接观察法确定众数。单项数列确定众数比较简单,只需找出次数最多的标志值即为众数。例如:
解:上面数列中比较满意的户数最多,即出现次数最多,所以众数 M0 为“比较满意”。也就是总体来说,该城市居民对现有住房还是比较满意的。
住房满意程度
很不满意
不满意
一般
比较满意
满意
户数
80
100
180
250
160
(2)组距数列确定众数
首先根据出现的最多次数确定众数所在组(简称众数组),然后利用公式计算众数的近似值。
其计算公式为:
下限公式:
上限公式:
式中,M0 表示众数;L 表示众数组的下限;U 表示众数组的上限;△1表示众数组次数与前一组次数之差;△2表示众数组次数与后一组次数之差;d 表示众数组的组距。
练一练:
某校计算机专业毕业学生实习月工资统计如下,求众数
解:首先确定众数组,人数最多者为25人,对应组为1100-1400,则该组为总数所在组。
根据下限公式:
根据上限公式:
月工资(元)
学生数(人)
月工资(元)
学生数(人)
500以下
1
1400-1700
14
500-800
9
1700-2000
7
800-1100
18
2000以上
4
1100-1400
25
众数的特点
众数是位置平均数,不受极端数值的影响。
众数只有在总体单位数多,而且具有明显的集中趋势时,才有合理的代表性和现实意义。
当总体单位数少,或者总体单位数虽多,但无明显集中趋势时,就不存在众数。
5. 中位数
将总体各单位的标志值按大小顺序排列,处于数列中点位置的标志值为中位数,一般用字母Me表示。
中位数的确定
(1)未分组资料确定中位数。
根据未分组资料确定中位数时,首先将标志值按大小顺序排列,然后确定中点位次Om=(n+1)÷2,再根据中位数的位次找出对应的标志值。
当总体单位数n是奇数时,中位数即处于中间位置的变量值;如果n是偶数时,中位数则是中间的两个数值的算术平均数。
例如:
某班7个学生的数学成绩依次排列为65分,75分,78分,82分,89分,91分,95分,则该数列的中点位次为:
Om=(7+1)÷2=4
所以,排在第4位的标志值即为中位数,即82分。
若有8位学生的成绩,他们依次为65分,68分,75分,78分,82分,89分,91分,95分,则该数列的中点位次为:
Om=(8+1)÷2=
在第4和第5位次中间,则中位数为第4、第5位次对应的标志值的算术平均数。即Me=(78+82)÷2=80分。
中位数的确定
(2)单项数列确定中位数。
直接用公式(∑f+1)÷2或 ∑f÷2确定中点位次,再根据位次用较小累计次数或较大累计次数的方法将累计次数刚超过中点位次的组确定为中位数组,该组的标志值即为中位数。
例如:
由表可知,∑f÷2=770÷2=385,所以,中点位次是该数列的第385户人家。即第四组“比较满意”。
住房满意程度
很不满意
不满意
一般
比较满意
满意
户数
80
100
180
250
160
中位数的确定
(3)组距数列确定中位数。
根据中点位次及累计次数确定中位数组后,无法得到中位数的准确值,而要用公式计算中位数的近似值。
下限公式:
上限公式:
式中,L表示中位数组的下限;U表示中位数组的上限;fm表示中位数组的次数;Sm-1 表示中位数组以前各组的次数之和;Sm+1表示中位数组以后各组的次数之和;d表示中位数组的组距。
练一练:
某校计算机专业毕业学生实习月工资统计如下,求中位数
解:中位次数为∑f÷2=78÷2=39,所以,中位数为1100-1400这一组,根据下限公式:
月工资(元)
学生数(人)
月工资(元)
学生数(人)
500以下
1
1400-1700
14
500-800
9
1700-2000
7
800-1100
18
2000以上
4
1100-1400
25
三、各种平均数之间的关系
1.在对称正态分布时有:Mo=Me=
2.在非对称正态分布时,三者之间有差异。当变量的次数分布左偏时,有 Mo>Me> ;当变量的次数分布右偏时,有 Mo<Me< 。
英国统计学家卡尔.皮尔逊根据其经验认为:当正态分布适度偏态时,三者之间还存在如下的近似关系:
第二节 标志变异指标
一、标志变异指标的概念和作用
标志变异指标又称为标志变动度,是反映总体各单位标志值之间差异程度的综合指标。
标志变异指标的作用:
1. 衡量平均指标代表性的大小。
2. 研究现象的稳定性和均衡性。
二、标志变异指标的计算方法
(一)异众比率
异众比率是指非众数组的次数占总次数的比率,用Vr表示。计算公式为:
式中,ft表示众数组的次数。
异众比率的作用是衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的次数占总次数的比重越大,众数的代表性越差。异众比率越小,则相反。
例5-11 P74
(二)四分位差
四分位差是第三个四分位数和第一个四分位数相减得数:
.= Q3 -Q1
即舍去数列中最低和最高的1/4值,仅用中间部分50%的数据来反映其差异、离散程度。.值越大,表明Q1、Q3之间变量值分布越远离中位数,说明中位数的代表性越差,反之说明中位数的代表性好。
例5-12 P75
(三)全距(极差)
全距也称极差,它是总体各单位标志值中最大值与最小值之差,用 R 表示。即
R=Xmax-Xmin
例.两组工人的工资数据(单位;元)如下:
甲:900 1000 1100 1200 1280 1480 2000
乙:1200 1250 1400 1500 1560 1700 1750
工资的全距,甲组为1100元,乙组为550元,说明甲组工人工资水平差别比乙组工人工资水平差别大。
1991-2004年上证指数的全距
极差(全距)的优缺点
优点:
计算简单。
缺点:
但提供的信息不全面。
不能全面反映标志值的离散程度。如果极端数值相差较大,而中间数值分布比较均匀时,全距便不能确切反映其离散程度。
(四)平均差
平均差是总体各单位的标志值同其算术平均数的离差绝对值的算术平均数,用.表示。
1.简单平均法。对未分组资料计算平均差。
例5-14 P76
2.加权平均法。对已分组资料计算平均差。
例5-15 P77
优点:能全面反映总体各标志值的变动范围
缺点:不可导,不便于进行进一步的计算分析
(五)标准差
标准差表示各标志值对算术平均数的平均距离,用 表示。
1.简单平均法。根据未分组的资料计算标准差。
2.加权平均法。在分组情况下,计算标准差。
标准差的平方称为方差S2,它是描述变量之间差异程度的重要指标。
练一练
已知某企业的工人工资资料如表所示,计算工资的平均差、标准差。
工资的平均数为:
工资的平均差为:
工资的标准差为:
按工资水平分组(元)
组中值
工人人数
工资总额
离差绝对值
离差绝对值乘权数
1000以下
750
9
6750
750
6750
1000-1500
1250
15
18750
250
3750
1500-2000
1750
18
31500
250
4500
2000以上
2250
8
18000
750
6000
合计
-
50
75000
-
21000
(六)离散系数
在比较两个数列的平均数代表性大小时,如果它们的平均水平不同或计量单位不同,就不能用前述的标志变异指标直接比较它们的差异程度,而应该用标志变异指标的相对指标即离散系数进行比较。
1.平均差系数
2.标准差系数
第三节 偏度与峰度
一、偏度
偏度是描述变量取值分布形态是否对称的指标。
资料没有分组时,偏度的计算公式为:
资料分组时,偏度的计算公式为:
当分布对称时,正负总偏差相等,偏度值为0;当分布不对称时,正负总偏差不等,偏度值大于0或小于0。偏度值大于0表示正偏差值大,可以判断为正偏或者右偏;偏度值小于0表示负偏差值大,可以判断为负偏或者左偏。偏度绝对值越大,表示数据分布形态的偏斜程度越大。
二、峰度
峰度是描述变量值取值分布形态陡峭程度的指标。
资料没有分组时,峰度的计算公式为:
资料分组时,峰度的计算公式为:
当峰度值等于0时,数据分布与标准正态分布的陡峭程度相同,为正态分布;峰度值大于0时,数据分布比标准正态分布更陡峭,为尖峰分布;峰度值小于0时,数据分布比标准正态分布平缓,为平峰分布。
例5-19 P81
复习与思考
一、应掌握名词
1.算术平均数 2.调和平均数 3.几何平均数 4.中位数 5.众数
6.标准差 7.平均差 8.标准差系数 9.方差 10.四分位差
11.异众比率 12.偏度 13.峰度
二、思考题
1.什么是平均指标?其作用是什么?
2.什么是标志变异指标?其作用是什么?常用的标志变异指标有哪些?
3.什么是离散系数?为什么要计算离散系数?
4.异众比率、四分位差和标准差分别适用于对什么类型的数据进行测定?
本章结束