第四章 平均指标与
标志变异指标
Average indicator and
variability indicator
第一节 平均指标的概念与作用
一、平均指标的概念
平均指标又称统计平均数,是反映同质总体内各单位在某一数量标志值上一般水平的综合指标。它是统计分析中最常用的指标之一。
平均指标的特点
1.将数量差异抽象化。
2.只能就同类现象计算。
3.能反映总体变量值的集中趋势。
二、平均指标的作用
(一)平均指标可用于同类现象在不同空间、不同时间条件下的对比。
(二)平均指标是评价事物或现象的数量依据。
(三)平均指标也可用于分析现象之间的依存关系和进行数量上的估算。
三、平均指标的种类
平均指标有静态平均数和动态平均数之分。
静态平均数是反映同质总体各单位在同一时间某一数量标志值上的一般水平。
动态平均数反映的是现象某一数量标志在不同时间上的一般水平。这种平均数又叫序时平均数
统计学中常用的平均指标有算术平均数、调和平均数、几何平均数、众数 mode和 中位数median。
第二节 算术平均数
arithmetic mean
一、算术平均数的基本计算公式
Basic formula of arithmetic mean
平均数与强度相对数的区别
1、人均书籍20本
2、人均耕地2亩
人均课本20本
人均馆藏图书20本
某村人均耕地2亩
某地区人均耕地2亩
强度
相对数
平均数
二、简单算术平均数
simple arithmetic mean
将各单位的标志值xi直接相加得出标志总量,再除以总体单位数n,就得到简单算术平均数。用公式表示为
式中: X —算术平均数;
X1,X2,…,Xn—总体各单位标志值;n—总体单位数;∑—总和符号。
Σ的性质
1、
2、
3、
?
?
三、加权算术平均数
weighted arithmetic mean
当掌握的资料是经过加工整理的变量数列,并且各组的单位数不相等时,就需要以各组的单位数为权数,采用加权的办法计算平均指标。这样计算的平均指标称为加权算术平均数。
加权算术平均数公式
总体标志值 为y1、 y2 、 …、 yk ,将相同的标志值分为一 组,共分n组。第一组有f1个,标志值为X1, …,第n组有fn个,标志值为Xn 。
算术平均数公式
采用加权的办法计算平均指标
是一种简便运算
例:抽样调查某地200个3口之家的居民户,得其生活费用支出资料如下表:
月生活费支出(元)
组中值Xi
户数(户)fi
Xifi
400以下
300
26
7800
400-600
500
35
17500
600-800
700
59
41300
800-1200
1000
40
40000
1200-1800
1500
26
39000
1800以上
2100
14
29400
合计
—
200
175000
要求:计算居民户月平均生活支出。
解:取组中值作Xi,户数作权数fi,中间计算过程见上表。则居民户月平均生活支出为:
公式的变形
某车间生产三批产品的废品率分别是2%、1%、4%,三批产量占全部产量的比重分别是45%、30%、25%,试求该车间三批产品的平均废品率。
解:平均废品率
某小贩以2元/千克的价格购进100千克苹果,以3元/千克的价格卖出60千克,以元/千克的价格卖出40千克,剩余的20千克以购进价卖出,平均名义卖价是多少?实际平均每千克赚了多少?
解:
1、平均名义价格
2、实际价差
加权算术平均数的特征
加权算术平均数受两个因素的影响:
①变量值的大小;
②权数的结构。
权数有绝对数权数和相对数权数两种。绝对数权数就是变量值个数以绝对数形式表示,即次数或频数;相对数权数则是变量值个数以相对数形式表示,即频率。
第三节 调和平均数
harmonic average
一、调和平均数的概念和计算
调和平均数又称“倒数平均数”,它是各个变量值倒数的算术平均数的倒数。通常用H表示。
根据同一资料计算出的算术平均数和调和平均数是不相同的。事实上,变量值的调和平均数本身无实际意义,但在社会经济统计中,有时由于资料的原因不能直接计算出算术平均数,而采用调和平均数的形式。因此,可以把调和平均数看作是算术平均数的变形。
(一)简单调和平均数
简单调和平均数的计算公式是:
式中: (X—变量值;n—总体单位总量。)
(二)加权调和平均数
由算术平均数的公式
令 Xifi=Mi 则有 fi=Mi/Xi 于是上式变为
班长购一批教材:在图书城用去420元,单价为14元;在一小书店用去425元,单价为15元;在新华书店用去80元,单价为14元。班上每位同学应出多少钱?
解:平均价格
二、调和平均数的应用
调和平均数是作为算术平均数的变形来使用的,它们在实质上相同,都满足平均数的基本计算公式:标志总量/总体单位总量。计算平均数时,如果掌握了基本公式中分母项的资料,即总体单位总量,则直接采用算术平均数的形式;如果只掌握了基本公式中分子项的资料,即标志总量,而未掌握其分母项资料,则需采用调和平均数的形式。
例2 已知甲、乙、丙三个企业的有关资料如表4-5,要求计算这三个企业的平均计划完成程度。
表4-5 三个企业实际计划完成情况表
企业
计划完成(%)
实际完成数(万元)
甲
95
95
乙
102
153
丙
108
合计
—
解:由计划完成相对数的计算公式和已知条件,有:平均计划完成程度
从以上例可以看出,计算平均数时,要依据客观存在的经济关系式和已知条件作具体分析,而不能简单地套用公式,否则容易出现错误。
我们可将平均数的计算归纳为以下几个步骤:
第一步:确定变量X,求谁的平均数谁即为X;
第二步:依资料及客观经济关系式写出平均数的基本计算公式;
第三步:根据资料,若已知各组标志值的次数f,则采用算术平均数的公式计算平均数;若已知各组标志总量M,则采用调和平均数的计算公式求出平均数。
要点:弄清各个量之间的关系。
某银行营业部只有两笔大额贷款,一笔为200万元,年利率10%,另一笔为1000万元,年利率13%,求该营业部大额贷款的平均年利率。
年利率=(10%+13%)÷2=%
错啦!
对啦!
分析
单位:万元
某人购房欲贷款12万元,根据其资信水平,贷款10万元的年利率是8%,若增加2万元,则这12万元贷款的年利率变为10%,求增加的2万元贷款的年利率。
解:
第四节 几何平均数
geometric mean
几何平均数是n个变量值连乘积的n次方根。通常用G表示。
几何平均数适合于计算现象比率或速度的平均值,并且还要求现象在各阶段上的比率或速度之积等于总比率或总速度。不满足上述条件计算得到的几何平均值无实际意义。
几何平均数根据资料情况,可分为简单几何平均数和加权几何平均数两种。前者适用于未分组资料,后者适用于分组后的变量数列。
一、简单几何平均数
简单几何平均数是n个变量值连乘积的n次方根。
式中: (Xi —数列中第i个变量值(i=1,2,…,n)
n —变量值个数
∏—连乘符号)
例如,生产某产品需连续经过4道工序,根据经验,各道工序的合格率分别为98%、95%、92%、90%,求该产品4道工序的平均合格率
二、加权几何平均数
当各个变量值的次数(权数)不相同时,应采用加权几何平均数 。
式中,fi为变量值Xi出现的次数,又称权数。
例如,投资银行某笔投资的年利率是按复利计算的,10年的年利率分配是:第1年至第2年为5%;第3年至第5年为8%;第6年至第8年为10%;第9年至第10年为12%,则平均年利率:
问题:如果不按复利计算,平均年利率是多少?
解:设本金为C,则
平均年利率
三、平均发展速度
设各个时期的发展水平为
a0 , a1 , a2 , a3 , …,an
平均发展速度的计算公式为
或者
四、平均增长速度
1、已知发展速度υi
2、已知增长速度θi
(1)已知利率、经济增长率θi
(2)已知废品率、淘汰率θi
有32支球队参加比赛,经5轮决出冠军,求每一轮的平均淘汰率。
平均淘汰率
解:n=5 a0=32 an=1
几何平均数较之算术平均数,应用范围较窄,它有如下特点:
①如果数列中有一个标志值等于零或负值,就无法计算G
②G受极端值影响较X和H小;
③它适用于反映特定现象的平均水平,即现象的总标志值不是各单位标志值的总和,而是各单位标志值的连乘积的情形。对于这类社会经济现象,不能采用算术平均数反映其一般水平,而需采用几何平均数。。
算术平均数、调和平均数和几何平均数三者间存在如下数量关系:
H≤G≤X
并且只有当所有变量值都相等时,这三种平均数才相等
第五节 众数和中位数
算术平均数、调和平均数、几何平均数都是依据总体单位的标志值及其所出现的次数求得的。在实践中,有时为了方便,通常依据变量的分布情况来确定标志值的一般水平,这便引出了众数和中位数。
一、众数 Mode
众数是总体中出现次数最多的标志值。它可用来大致说明现象的一般水平。
如果总体中出现次数最多的标志值不是一个,而是两个,那么就存在复众数。众数可以有一个或多个,这是与算术平均数所不同的。
就是总体的单位数较多,各标志值的次数分配又有明显的集中趋势时计算众数才有意义;如果总体单位数很少,尽管次数分配较集中,那么计算出来的众数意义不大;如果总体单位数较多,但次数分配不集中,即各单位的标志值在总体中的分布比较均匀,那么也无所谓众数。
众数的计算方法
1.单项式变量数列
由单项式变量数列确定众数,可直接观察次数,出现次数最多的标志值就是众数。
2.组距数列
由组距数列确定众数,首先要由最多次数来确定众数所在组,然后再用比例插值法计算众数。
由组距数列确定众数
下限公式:
上限公式:
式中: (M0—众数;
L—众数组的下限;
U—众数组的上限;
△1—众数组次数与前一组次数之差;
△2—众数组次数与后一组次数之差;
d—众数组组距。)
从众数的计算可看到众数的特点:
①众数不受极端值的影响,组距数列中出现开口组时,对众数也无影响;
②众数的计算公式只适用于等距数列,如果是不等距数列,则应先将其换算为等距数列,然后再利用上、下限公式求众数。
二、中位数Median
(一)中位数的概念
将现象总体中各单位的标志值按大小顺序排列,位于中间位置的那个标志值就是中位数。通常用Me表示。
由中位数的定义可知:中位数把全部标志值分为两个部分,一半的标志值不高于中位数,另一半的标志值不低于中位数,中位数位置前后的总体单位个数相等。中位数和众数一样,有时可代替算术平均数来反映现象的一般水平。
(二)中位数的计算
1.由未分组资料确定中位数
在数据量不大的情况下,确定中位数的步骤是:
①先对变量值由小到大顺序排列;
②根据项数n确定中位数的位置,中位数位置=(n+1/2),n代表总体单位数;
③根据中位数位置找出中位数。当项数n为奇数,则居于中间位置的那个变量值就是中位数;当项数为偶数,即(n+1/2)为非整数时,位于中间位置的第(n/2)项和第(n/2) +1项的两个变量值的算术平均数就是中位数。
2.由单项式变量数列确定中位数
当数据量较大时,资料常以分组数列的形式出现,如果是单项式变量数列,则确定中位数的步骤是;计算累计次数,累计次数第一次超过 (∑f/2) 的那一组即为中位数所在组;与该组对应的标志值即为中位数。其中∑f为总次数。
3.由组距式数列确定中位数
由组距数列确定中位数,应先找出中位数所在组,累计次数第一次超过(∑f/2)的那一组即为中位数所在组,然后再用比例插值法计算中位数的值。
用比例插值法计算中位数
下限公式:
上限公式:
式中:(Me—中位数;L—中位数组的下限;U—中位数组的上限;fm—中位数组的次数;∑f—总次数即总体单位数;Sm-1—中位数组前各组的次数之和;Sm+1—中位数组后各组的次数之和;d—中位数组的组距。)
第六节 标志变异指标
一、标志变异指标的概念和作
(一)标志变异的概念
标志变异指标也称标志变动度,是反映总体各单位标志值之间差异程度的综合指标。
平均指标把总体各单位数量标志值间的差异抽象化了,反映现象的一般水平,表明事物的集中趋势。但被抽象化了的各单位标志值之间的差异究竟有多大,平均指标的代表性又如何,这需要计算标志变异指标来测定。
(二)标志变异指标的作用
1.标志变异指标是评价平均数代表性的依据。
2.标志变异指标可用来反映社会经济活动过程的均衡性和稳定性。标志变异指标值小,说明社会经济活动过程的均衡性和稳定性好,反之则差。
3.标志变异指标还是抽样调查中计算抽样误差和抽样数目的依据。
二、标志变异指标的种类和计算
据计算方法不同可将标志变异指标分为不同类型。
有一类是将总体标志值按顺序排列之后取特定位置的标志值,求其离差,以表明次数分布的变化范围,如全距指标,四分位数指标等。
另一类是求各标志值对平均数的平均离差来反映标志值相对于平均数的离差程度,如平均差、标准差(又称均方差)或方差等。
用上述标志变异指标还可以计算各种变异系数或离散系数,以表示标志值离差的相对水平。
此外还有描述标志值分布状态的指标如偏度系数指标和峰度系数指标,它们说明实际统计分布偏离正态分布的程度。
(一)全距
range
全距又称极差,是总体各单位标志值中最大值与最小值之差,常记为R。它表示标志值的变化范围。
全距(R)=最大标志值-最小标志值
一般而言,全距的值愈小,则变量值愈集中,表明标志值的变异程度小,反之则愈大。
但由于全距只决定于两个极端值而与其它中间值没有关系,因此不能准确反映全部标志值的变化状况,由此据全距得出的结论有时不够准确,尤其是两个极端值与其它值偏离较大时,用全距说明各标志值的变异程度则更不准确。
*四分位差
把一个变量数列分成四等份,形成三个分割点Q1 、 Q2 、 Q3,这三个分割点的数值就称为四分位数, Q2 也是中位数,四分位差为.
.= Q3 - Q1
(二)平均差
mean absolute deviation
平均差是各单位标志值对平均数的离差绝对值的平均数,常用表示。计算时之所以取绝对值,是为了避免各种离差之和出现正负相互抵消。
平均差实际上说明每个标志值对其平均值的平均偏离程度,它考虑到了每一个标志值的情况,因此能比较全面、准确地反映标志值的变异程度。但由于计算中取绝对值,从而不便于代数运算,使用范围受到限制。
平均差的计算公式
未分组资料:
ungrouped
分组资料:
grouped
(三)标准差
standard deviation
未分组资料:
分组资料:
标准差的简捷计算公式
shortcut method
未分组资料:
分组资料:
(四)离散系数
coefficient of variation
离散系数V是标准差与平均数之比,用于反映总体各单位标志值的相对离散程度。通常所讲的离散系数就是指标准差系数。
注意:离散系数常用于不同数列间变异程度(平均数代表性高低、均衡性、稳定性等)的比较。
例2 为比较两个不同城市居民家庭收入的差异程度,现从甲市任抽100户,得其平均年收入是42000元,年收入的标准差是38060元;从乙市任抽150户,得其平均年收入是62000元,年收入的标准差是50980元。
解:利用离散系数进行比较
甲市:
乙市:
由于V乙<V甲,据上述抽样资料可知,乙市家庭的收入差异程度低于甲市家庭的收入差异程度。
注意,在这里不能用标准差作比较,否则会得出错误结论。
标志变异指标度量风险
1964—1976年台湾省各种投资工具报酬率比较
离散系数
标准差
平均值
通货膨胀率
国库券
银行定存单
房地产
黄金
股票
全距、平均差、方差和离散系数
作用比较
(五)偏态系数Skewness
标准正态分布
右偏分布positive skewness
左偏分布negative skewness
Skewness
A measure of the asymmetry of a distribution. The normal distribution is symmetric, and has a skewness value of zero. A distribution with a significant positive skewness has a long right tail. A distribution with a significant negative skewness has a long left tail. As a rough guide, a skewness value more than twice it's standard error is taken to indicate a departure from symmetry.
(六)峰度系数
标准正态分布
尖峰分布
扁平分布
Kurtosis
A measure of the extent to which observations cluster around a central point. For a normal distribution, the value of the kurtosis statistic is 0. Positive kurtosis indicates that the observations cluster more and have longer tails than those in the normal distribution and negative kurtosis indicates the observations cluster less and have shorter tails.
Chebishev定理
方差和标准差的大小说明各数值在均值周围分布的情况,当一组资料的标准差较小时,说明大多数的数值集中于均值附近。
问题:究竟有多少个数值落在均值附近的某一个区间内呢?
Chebishev定理:对任何的一组资料,观测值落于均值左右k个标准差的区间内的比例,至少为(1-1/ k2 )
例如,有一组关于顾客购物付帐时等候时间的资料,已知等候时间的均值为4分钟,标准差为分钟,则根据Chebishev定理,当k =2时,至少有1-(1/2)2 =3/4或75%的观测值落在均值左右两个标准差的区间内,即[4±2×]区间内。也就是说,等候时间介于分钟至分钟之间的顾客至少占75%。
各种不同K值所对应的观测值落入的区间
K
区间
落在该区间内的比例
1
, )
至少为0
2
(-2 ,+2 )
至少为3/4(75%)
3
(-3 ,+3 )
至少为8/9 (89%)
4
(-4 ,+ 4 )
至少为15/16 (94%)
(七)交替标志
dichotomous qualitative variable
交替标志又叫是非标志或相对标志。
设总体单位数为N,具有某种特征的单位数为N1,不具有该种特征的单位数为N0,若再假设具有某种特征的单位数占总单位数的比重为P(P=N1/N),不具有该种特征的单位数占总单位数的比重为Q(Q= N0/N),则有:
N= N1+N0 P+Q=( N1/N)+( N0/N)=1
P =1- Q 或 Q =1- P
交替标志的平均数和标准差
标准差σ
标志值X
次数f
Xf
X2f
1
N1
N1
N1
0
N0
0
0
合计
N
N1
N1
由上面的计算可见,交替标志的平均数就是具有某种特征的单位数所占的比重,也叫成数。
交替标志的标准差就是具有某种特征的单位数所占的比重和不具有该种特征的单位数所占比重乘积的平方根。
重点习题
第13、15、18、21、22、24、26题
(P116—119)