第四章 集中趋势测量法
本章主要内容:
集中趋势的测定方法(重、难点)
平均数、中位数、众数的比较(重点)
第一节 集中趋势的含义及作用
一、集中趋势的含义
指一组数据向某一个典型值或代表值集中的情况。如“大部分学生是女生”、“平均年龄为24岁”等。主要形式有:平均数、中位数、众数。
一组数据向其中心值靠拢的倾向和程度。
测度集中趋势就是寻找数据一般水平的代表值或中心值。
不同类型的数据用不同的集中趋势测度值。
低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据。
选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定。
二、作用
1、反映总体各单位变量分布的集中趋势和一般水平,说明社会现象在一定历史条件下的共同性质。如用家庭户平均人数说明家庭结构的一般性质。
2、便于比较同类现象在不同单位间的发展水平,对社会现象的特征能够从数量方面在空间上进行比较。如不同省份家庭户平均人数不同,说明不同省份家庭观念不同。
3、对社会现象的特征能够从数量方面在时间上进行比较,能够比较同类现象在不同时期的发展变化趋势或规律。
4、分析社会现象之间的相互依存关系。如生活水平的高低与家庭人口数的多少成反方向变化。
第二节 平均数
一、算术平均数
(一)、定义:算术平均数(Arithmetic mean)也称为均值(Mean),是全部数据算术平均的结果。算术平均法是计算平均指标最基本、最常用的方法。计算公式为:
算术平均数 = 总体标志总量 /总体单位总量
= (X1+X2+X3+……+Xn )/N
= ∑Xi/N
其中:∑为连加符号; N为总体单位数。
很多社会经济现象,总体标志总量常常是总体单位变量值的算术总和。例如,工人工资总额是总体中每个工人工资的总和,某地区小麦总产量是所有耕地小麦产量的总和。在总体标志总量和总体单位总量的基础上,就可以计算平均指标。
算术平均数在统计学中具有重要的地位,是集中趋势的最主要度量值,通常用(读作 )表示。根据所掌握数据形式的不同,算术平均数有简单算术平均数和加权算术平均数。
(二)简单算术平均数(Simple arithmetic mean)
未经分组整理的原始数据,其算术平均数的计算就是直接将一组数据的各个数值相加除以数值个数。设统计数据为…,则算术平均数的计算公式为:
[例] 某班级40名同学统计学的考试成绩原始资料如表—2所示。
表 40名同学统计学原始成绩
该班40名同学统计学的平均成绩为:
(三)、加权算术平均数(Weighted arithmetic mean)
当数据资料比较多,且已编制成变量数列的情况下,就要计算加权算术平均数,以反映总体中各总体单位某一数量的情况。
公式为:
X=(X1f1+X2f2+…+Xnfn)/(f1+f2+…+fn)=∑Xifi/∑fi
其中:f为权数,即变量在总体中出现的次数。
由于变量数列可分为单项数列(单项分组)和组距数列(组距分组),
计算加权算术平均值的方法也有两种:
①由单项分组资料求算术平均值
计算公式为:
X = ∑Xifi / ∑fi
例如:P48 例2
②由组距分组资料求算术平均值
计算公式为:
X = ∑Xmid*f /∑f
其中:Xmid表示各组组中值,f表示每组次数。
注意:组中值是假定值(近似值),与实际有差距,但误差很小。
根据分组整理的数据计算算术平均数,就要以各组变量值出现的次数或频数为权数计算加权的算术平均数。设原始数据被分成组,各组的变量值为…,各组变量值的次数或频数分别为…,则加权的算术平均数为:
[例] 根据例提供的40名同学的统计学成绩原始资料分组整理如表—3,根据此表资料计算平均成绩。
表3. 3 40名同学统计学成绩汇总表
根据()式得
根据()式计算的平均成绩是分,而与根据()式计算的平均成绩分相比,相差分,显然分是准确的平均成绩,因为()式所用的是原始数据的全部信息。而(3. 12)式是用各组的组中值代表各组的实际数据,使用代表值时是假定各组数据在各组中是均匀分布的,但实际情况与这一假定会有一定的偏差,使得利用分组资料计算的平均数与实际的平均值会产生误差,它是实际平均值的近似值。
加权算术平均数其数值的大小,不仅受各组变量值()大小的影响,而且受各组变量值出现的频数即权数()大小的影响。如果某一组的权数大,说明该组的数据较多,那么该组数据的大小对算术平均数的影响就越大,反之,则越小。实际上,我们将()式变形为下面的形式,就更能清楚地看出这一点。
由()式可以清楚地看出,加权算术平均数受各组变量值()和各组权数即频率大小的影响。频率越大,相应的变量值计入平均数的份额也越大,对平均数的影响就越大;反之,频率越小,相应的变量值计入平均数的份额也越小,对平均数的影响就越小。这就是权数权衡轻重作用的实质。
当我们掌握的权数不是各组变量值出现的频数,而是频率时,可直接根据()式计算算术平均数。
如例3. 2,根据各组的频数计算的频率分别为:、、、、,各组频率之和为1,则用频率计算的加权算术平均数为:
从计算结果看,用频率加权计算的结果与用频数加权计算的结果是一致的。
在实际生活中,我们也会经常遇到由相对数计算平均数的情况。一般地说,求相对数的平均数应采用加权平均的方法,此时,用于加权平均的权数不再是频数或频率,而应根据相对数的含义,选择适当的权数。下面举一个实例说明。
[例] 某公司所属10个企业资金利润率分组资料如表,要求计算该公司10个企业的平均利润率。
表 某公司所属10个企业资金利润率分组资料
该例子的平均对象是各企业的资金利润率,表中的企业数虽然是次数或频数,但却不是合适的权数。要正确计算公司10个企业的平均资金利润率,因为资金利润率=利润总额/资金总额,所以计算平均资金利润率需要以资金总额为权数,才能符合该指标的性质。因此,该公司10个企业的平均利润率为:
(四)算数平均数的数学性质
算术平均数在统计学中具有重要的地位,它是进行统计分析和统计推断的基础。从统计思想上看,算术平均数是一组数据的重心所在,它是消除了一些随机因素影响后或者数据误差相互抵消后的必然性的结果。例如每年分季度的观测数据,各年同季的数据由于受一些偶然性随机因素的影响,其数值表现出一定的差异性,但将各年同季的数据加以平均,计算的算术平均数,就消除了一些随机因素的影响,反映出季节变动必然性的数量特征。再如,对同一事物进行多次测量,由于测量误差所致,或者其它因素的偶然影响,使得测量结果不一致,但利用算术平均数作为其代表值,则可以使误差相互抵消,反映出事物固有的数量特征。另外,算术平均数具有下面一些重要的数学性质,这些数学性质在实际中有着广泛的应用,同时也体现了算术平均数的统计思想。
二、调和平均数(Harmonic mean)
在实际工作中,经常会遇到只有各组变量值和各组标志总量而缺少总体单位数的情况,这时就要用调和平均数法计算平均指标。
为了方便调和平均数的概念和计算方法的说明,我们先看一个简单的例子。
[例] 市场上早、中、晚蔬菜的价格分别是早晨: 公斤/元,中午公斤/元,晚上公斤/元。现在,我们分别按四种方法在购买蔬菜,分别计算平均价格(不管按什么方法购买,平均价格都应该等于花费的现金除所买蔬菜的数量):
第三种买法:早、中、晚各买一元
在这种情况下,计算蔬菜平均价格比上述两种方法稍微复杂一些,我们得先计算出一元钱所购买蔬菜的数量,然后再计算蔬菜的平均价格。
要计算蔬菜的平均价格,首先应该计算出早、中、晚各花费1元钱所购买蔬菜的数量:
这种计算平均指标的方法同算术平均法有很大的不同,由于资料中缺乏总体单位总量,所以,就不可能直接用算术平均的方法计算平均指标。为了达到计算目的,首先要用变量值的倒数计算出总体单位总量来,然后再计算平均指标,调和平均数法因此而得名,也正是由于这个原因,调和平均数又称为倒数平均数。
在上述计算平均价格的过程中,早、中、晚三个时段购买蔬菜所花费的现金是计算平均价格的权数,这种方法我们称为加权调和平均法。
由以上分析过程得出调和平均数的定义:
调和平均数是各个变量值倒数的算术平均数的倒数,习惯上用(H)表示。
在实际工作中,调和平均数通常是作为算术平均数的变形使用的,也就是由于受所掌握资料的限制,有时不能直接采用算术平均数的计算公式计算平均数,这就需要使用调和平均数的形式进行计算。为了更好地理解调和平均数的应用场合,我们看下面的例子。
[例] 某商品有三种不同的规格,销售单价与销售量如表所示,求这三种不同规格商品的平均销售单价。
表 某商品三种规格的销售数据
如果已知的不是销售量数据,而是销售额,如表—6所示,就应改变计算方法。
表 某商品三种规格的销售数据
由此可见,调和平均数和算术平均数在本质上是一致的,惟一的区别是计算时使用了不同的数据。在实际应用时,可掌握这样的原则,当计算算术平均数其分子资料未知时,就采用加权算术平均数计算平均数,分母资料未知时,就采用加权调和平均数计算平均数。
三、几何平均数(Geometric mean)
几何平均数是个变量值乘积的次方根。可分为简单几何平均数和加权几何平均数,计算公式分别为:
几何平均数是适应于特殊数据的一种平均数,在实际生活中,通常用来计算平均比率和平均速度。当所掌握的变量值本身是比率的形式,而且各比率的乘积等于总的比率时,就应采用几何平均法计算平均比率。
[例] 某产品需经三个车间连续加工,已知三个车间制品的合格率分别为95%、90%、98%,求三个车间平均合格率。
[例] 某地区GDP 1991~1995年平均发展速度为%,1996~1998年平均发展速度为%,1999~2000年平均发展速度为110%,求该地区1991~2000年间的平均发展速度。
第三节、中位数和分位数
一、概念要点
中位数是将总体各单位标志值按大小顺序排列后,处于中间位置的那个数值。
四、分位数
中位数是从中间点将全部数据等分为两部分。与中位数类似的还有四分位数(quartile)、十分位数(decile)和百分位数(percentile)等。它们分别是用3个点、9个点和99个点将数据四等分、10等分和100等分后各分位点上的值。这里只介绍四分位数的计算,其他分位数与之类似。
一组数据排序后处于25%和75%位置上的值,称为四分位数,也称四分位点。
四分位数是通过三个点将全部数据等分为四部分,其中每部分包含25%的数据。很显然,中间的四分位数就是中位数,因此通常所说的四分位数是指处在25%位置上的数值(下四分位数)和处在75%位置上的数值(上四分位数)。与中位数的计算方法类似,根据未分组数据计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置。
[例]在某城市中随机抽取9个家庭,调查得到每个家庭的人均月收入数据如下(单位:元),1500、750、780、1080、850、960、2000、1250、1630,计算人均月收入的四分位数。
第四节、众数(Mode)
一、 概念要点
众数是指一组数据中出现次数最多的变量值,用表示。从变量分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数。当然,如果数据的分布没有明显的集中趋势或最高峰点,众数也可以不存在;如果有多个高峰点,也就有多个众数。
1.集中趋势的测度值之一
2.出现次数最多的变量值
3.不受极端值的影响
4.可能没有众数或有几个众数
5.主要用于定类数据,也可用于定序数据和数值型数据
众数的不唯一性:
无众数原始数据: 10 5 9 12 6 8
一个众数原始数据: 6 5 9 8 5 5
多于一个众数原始数据: 25 28 28 36 42 42
二、众数的计算
根据未分组数据或单变量值分组数据计算众数时,我们只需找出出现次数最多的变量值即为众数。对于组距分组数据,众数的数值与其相邻两组的频数分布有一定的关系,这种关系可作如下的理解:
利用上述公式计算众数时是假定数据分布具有明显的集中趋势,且众数组的频数在该组内是均匀分布的,若这些假定不成立,则众数的代表性就会很差。从众数的计算公式可以看出,众数是根据众数组及相邻组的频率分布信息来确定数据中心点位置的,因此,众数是一个位置代表值,它不受数据中极端值的影响。
第五节、平均数之间的关系
一、算术平均数、调和平均数和几何平均数的关系
算术平均数、调和平均数和几何平均数都是数值平均数,即都是根据所有数据计算的。如果从纯数量关系上考察,这三种平均数的关系如下:
三种数值平均数的这种关系是纯数学意义上的。当然,在实际应用中,采用何种平均数应取决于现象的客观性质和研究目的。就是说,适宜用算术平均数计算的,就不能用调和平均数或几何平均数计算,反之亦然。算术平均数是应用最为广泛的一种平均数,因为其计算方法是与许多社会经济现象的数量关系相符合的,即许多社会经济现象总体各单位的标志值之和等于总体的标志总量,且这种方法易理解并具有优良的数学性质。调和平均数在实际应用中,通常是作为算术平均数的变形使用的,即利用调和平均数的形式来计算算术平均数。几何平均数适合于对一些特殊数据如比率、速度等的平均。
二、算术平均数与众数、中位数的关系
算术平均数与众数、中位数的关系取决于频数分布的状况。它们的关系如下:
从上面的分析我们可以看出,当频数分布出现偏态时,极端值对算术平均数产生很大的影响,而对众数、中位数没有影响,此时,用众数、中位数作为一组数据的中心值比算术平均数有较高的代表性。
[例] 根据某城市住户家庭月收入的抽样调查资料算得众数为2043元,中位数为2271元,问算术平均数为多少?其分布呈何形态?
三、众数、中位数和均值的特点和应用场合
众数、中位数和均值的应用场合根据三者各自的特点和分布情况去确定其应用的场合。
评价集中量数的优劣有一个标准,即:哪一种集中量数能最准确、最稳定地反映数据整体的集中趋势,哪一种集中量数就是最好的集中量数。从这个标准看,三者各有其优缺点。其中平均数是公认的最好的一种,也是使用的最多的一种。由于计算平均数时每个数据均参与了计算,因而它能最全面、最准确地反映数据整体的集中趋势。但是它往往受少数几个极端数据的影响,因此当存在着极端数据、或数据整体中有个别数据不准确、不清楚的情况下,中位数比平均数更准确、更稳定地反映数据的整体集中趋势。相比之下,众数是最差的一种,但它的优点是,在需要快速而又粗略地找出一组数据的代表值时,众数就表现出它的优越性。