MBA智库文档管理人力资源岗位设计统计数据的描述之分布集中趋势的测度.ppt

统计数据的描述之分布集中趋势的测度.ppt

下载

Fael19

69页 | 917KB | 0次下载 |

0.0

(0人评价)

我要评价：

投诉举报

用手机看文档

扫一扫,手机看文档

下载

开通VIP

本资料来源第二章统计数据的描述第2节分布集中趋势的测度 一、众数 二、中位数 三、四分位数 四、均值 五、几何平均数 六、切尾均值 七、众数、中位数和均值的比较集中趋势 (central tendency)  一组数据向其中心值靠拢的倾向和程度一组数据向其中心值靠拢的倾向和程度  测度集中趋势就是寻找数据水平的代表值或中测度集中趋势就是寻找数据水平的代表值或中心值心值  不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值  低层次数据的测度值适用于高层次的测量数据，低层次数据的测度值适用于高层次的测量数据，但高层次数据的测度值并不适用于低层次的测但高层次数据的测度值并不适用于低层次的测量数据量数据众数 (mode) 1. 一组数据中出现次数最多的变量值一组数据中出现次数最多的变量值 2. 一般情况下，只有在数据量较大且集中趋势明一般情况下，只有在数据量较大且集中趋势明显的情况下，才能用众数作为总体的代表值。显的情况下，才能用众数作为总体的代表值。 3. 众数是一个位置代表值，不受极端值的影响众数是一个位置代表值，不受极端值的影响 4. 主要用于定类尺度数据，也可用于定序尺度数主要用于定类尺度数据，也可用于定序尺度数据和定比尺度数据据和定比尺度数据众数的种类无众数 data: 10 5 9 12 6 8 一个众数 data: 6 5 9 8 5 5 双众数 data: 25 28 28 36 42 42 多众数 data:32 32 32 33 34 34 34 35 36 36 36 定类尺度数据的众数 (例题分析) 解解：：众众数数为为““SP09-05”SP09-05” ，，即即 MMoo＝＝ SP09-05SP09-05 某专卖店新品球衣销售情况（单位:件）定序尺度数据的众数定序尺度数据的众数 ((例题分析例题分析)) 解解：：众众数数为为““副副教教授授 ””这一级别，即这一级别，即 MMoo＝副教授＝副教授某高校在职教师职称分布职称人数百分比 (%) 教授副教授讲师助教其他教师 151 382 297 203 17 合计 1050 日产量（日产量（件）件）工人人数（人）工人人数（人） 1010 1111 1212 1313 1414 7070 100100 380380 150150 100100 合计合计 800800 【例】已知某企业某日工人的日产量资料如下: 解：该企业该日全部工人日产量的众数为 12件。定比尺度数据的众数 (单变量值分组) 符号含义：（A）L为众数组的下限；（B）1=fm－fm-1，即众数组的次数与前一组次数之差； 2=fm －fm+1，即众数组的次数与后一组次数之差; （C） i为众数组的组距。定比尺度数据的众数 (组距分组) 组距分组计算众数收入组别人均收入（元）频数（人） 1 2 3 4 5 6 2 000以下 2 000～4 000 4 000～6 000 6 000～8 000 8 000～10 000 10 000以上 23 43 68 32 24 10 合计－ 200 某地区的人均月收入调查数据 • 排序后处于中间位置上的值排序后处于中间位置上的值 • 不受极端值的影响不受极端值的影响 • 主要用于定序尺度数据，也可用于定比尺度数主要用于定序尺度数据，也可用于定比尺度数据，但不能用于定类尺度数据据，但不能用于定类尺度数据 MMee 50% 50% 中位数 (median) 1、确定中位数的位置定序尺度数据的中位数 2、确定中位数定序尺度数据的中位数定序尺度数据的中位数 ((例题分析例题分析)) 解：中位数的位置为解：中位数的位置为 300/2300/2＝＝150150 从从累累计计频频数数看看，，中中位位数数在在““一一般般””这这一组别中一组别中中位数为中位数为 Me=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数 (户) 累计频数非常不满意不满意一般满意非常满意 24 108 93 45 30 24 132 225 270 300 合计 300 — （1）由未分组资料确定中位数（2）由单变量值分组确定中位数（3）由组距分组数据确定中位数定比尺度数据的中位数 (计算方法) （1）由未分组资料确定中位数排序：确定中位数位置 奇数：中间位置的变量值为中位数。奇数：中间位置的变量值为中位数。 偶数：中间位置相邻两个变量值的简单平均数是偶数：中间位置相邻两个变量值的简单平均数是中位数。中位数。定比尺度数据的中位数定比尺度数据的中位数 ((计算方法计算方法)) 中位数 (9个数据的算例) 【例】9个家庭的人均月收入数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排序: 750 780 850 960 1080 1250 1500 1630 2000 位置: 1 2 3 4 5 6 7 8 9 中位数Me  1080  中位数(10个数据的算例) 【例】：10个家庭的人均月收入数据排序: 660 750 780 850 960 1080 1250 1500 1630 2000 位置: 1 2 3 4 5 6 7 8 9 10  （2）由单变量值分组确定中位数中位数位置：从累计频数看，中位数在“80”这一组别中,中位数为 MMe=34e=34（台）（台） 40 2 80 2  nOm 某公司销售人员月销售冰箱中位数计算销售冰箱分组 (台) 销售人员数 (人) 向下累计频数向上累计频数 25 30 32 34 36 39 3 10 14 27 18 8 3 13 27 54 72 80 80 77 67 53 26 8 合计 80 －－ （3）由组距分组数据确定中位数第一步：确定中位数位置其中： L是中位数所在组的下限 fm是中位数所在组的次数 Sm-1是中位数所在组前面各组累计次数 i是中位数所在组的组距第二步：采用公式计算按家庭收入分组（元）家庭数（户）向下累计频数 5 000以下 5 000～10 000 10 000～15 000 15 000～20 000 20 000以上 21 45 14 6 6 21 66 80 86 92 合计 92 －某地区家庭收入分组中位数的位置在第46（92/2）位，应在第二组分位数 1、四分位数 2、十分位数 3、百分位数四分位数四分位数 (quartile)(quartile) 2. 不受极端值的影响 1. 排序后处于排序后处于25%25%和和75%75%位置上的值位置上的值 QQ11 QQ22 QQ33 25% 25% 25% 25% 3、主要用于定序尺度数据，也可用于定比尺度数据，但不能用于定类尺度数据 1、由定序数据确定四分位数（2）确定四分位数（1）确定位置：四分位数定序尺度数据的四分位数定序尺度数据的四分位数 ((例题分析例题分析)) 解：解：QQ11位置位置= (300)/4 =75= (300)/4 =75 Q Q33位置位置 =(3×300)/4=(3×300)/4 =225 =225 从从累累计计频频数数看看，， QQ11在在““ 不不满意满意””这一组别中；这一组别中； QQ33在在 ““一般一般””这一组别中这一组别中四分位数为四分位数为 QQ11 = = 不满意不满意 QQ33 = = 一般一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数 (户) 累计频数非常不满意不满意一般满意非常满意 24 108 93 45 30 24 132 225 270 300 合计 300 — 四分位数 2、由未分组数据确定四分位数（1）确定位置：四分位数（2）确定四分位数【【例例】】：：99个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630: 1500 750 780 1080 850 960 2000 1250 1630 排排序序: 750 780 850 960 1080 1250 1500 1630 2000: 750 780 850 960 1080 1250 1500 1630 2000 位位置置:: 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9   四分位数【【例例】】：：1010个家庭的人均月收入数据个家庭的人均月收入数据排序排序: 660 750 780 850 960 1080 1250 1500 1630 2000: 660 750 780 850 960 1080 1250 1500 1630 2000 位置位置: 1 2 3 4 5 6 7 8 9 10 : 1 2 3 4 5 6 7 8 9 10   四分位数均值 (mean)(mean) 1. 集中趋势的最常用测度值集中趋势的最常用测度值 2. 一组数据的均衡点所在一组数据的均衡点所在 3. 体现了数据的必然性特征体现了数据的必然性特征 4. 易受极端值的影响易受极端值的影响 5. 用于定比尺度数据，不能用于定类尺度数据和定用于定比尺度数据，不能用于定类尺度数据和定序尺度数据序尺度数据简单平均数与加权平均数简单平均数与加权平均数 (simple mean / weighted mean)(simple mean / weighted mean) 设一组数据为：设一组数据为： xx1 1 ，，xx2 2 ，，… … ，，xxnn 各组的组中值为：各组的组中值为：MM1 1 ，，MM2 2 ，，… … ，，MMkk 相应的频数为：相应的频数为： ff1 1 ，， ff2 2 ，，… … ，，ffkk 简单平均数简单平均数加权平均数加权平均数某电脑公司销售量数据分组表按销售量分组组中值(Mi) 频数(fi) Mi fi 140~150 150~160 160~170 170~180 180~190 190~200 200~210 210~220 220~230 230~240 145 155 165 175 185 195 205 215 225 235 4 9 16 27 20 17 10 8 4 5 580 1395 2640 4725 3700 3315 2050 1720 900 1175 合计 — 120 22200 加权平均数加权平均数((例题分析例题分析)) 加权平均数加权平均数 ((权数对均值的影响权数对均值的影响)) 甲乙两组各有甲乙两组各有1010名学生，他们的考试成绩及其分布数据如下名学生，他们的考试成绩及其分布数据如下  甲组：甲组：考试成绩（考试成绩（x x ））:: 0 20 100 0 20 100  人数分布（人数分布（f f ）：）：1 1 81 1 8  乙组：乙组：考试成绩（考试成绩（xx））:: 0 20 100 0 20 100  人数分布（人数分布（f f ）：）：8 1 18 1 1 几何平均数几何平均数 (geometric mean)(geometric mean) . n n 个变量值乘积的个变量值乘积的 n n 次方根次方根 . 适用于对比率数据的平均适用于对比率数据的平均 . 主要用于计算平均增长率主要用于计算平均增长率 . 计算公式为计算公式为 5. 5. 当数据中出现零值或负值时不宜计算几何平均数当数据中出现零值或负值时不宜计算几何平均数　某电器销售公司2003～2008年销售量的环比增长率分别为：%、%、％、%和%。求这期间销售量的平均增长率。几何平均数的计算示例销售量的平均增长率=%-1=% G 切尾均值 (trimmed Mean)(trimmed Mean) 1、去掉大小两端的若干数值后计算中间数据的均值 2、在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用 3、计算公式为 nn 表示观察值的个数；表示观察值的个数；αα表示切尾系数，表示切尾系数，  【例】某次比赛共有11名评委，对某位歌手的给分分别是：经整理得到顺序统计量值为经整理得到顺序统计量值为去掉一个最高分和一个最低分，取去掉一个最高分和一个最低分，取1/111/11 众数、中位数和平均数的比较众数、中位数和平均数的关系众数、中位数和平均数的关系左偏分布左偏分布均值均值中位数中位数众数众数对称分布对称分布均值均值 = = 中位数中位数 == 众数众数右偏分布右偏分布众数众数中位数中位数均值均值众数、中位数、平均数的特点和应用众数、中位数、平均数的特点和应用 1. 众数众数  不受极端值影响不受极端值影响  具有不惟一性具有不惟一性  数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用 2. 中位数中位数  不受极端值影响不受极端值影响  数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用 3. 平均数平均数  易受极端值影响易受极端值影响  数学性质优良数学性质优良  数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用第3节分布离散程度的测度  一、极差（全距）一、极差（全距）  二、内距（四分位差）二、内距（四分位差）  三、方差和标准差三、方差和标准差  四、离散系数四、离散系数离散程度 1. 数据分布的另一个重要特征数据分布的另一个重要特征 2. 反映各变量值远离其中心值的程度（离散程度）反映各变量值远离其中心值的程度（离散程度） 3. 从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度 4. 不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值极差 (range)(range) 1. 一组数据的最大值与最小值之差 2. 离散程度的最简单测度值 3. 易受极端值影响计算公式为计算公式为最大变量值或最高组上限或开口组假定上限最小变量值或最低组下限或开口组假定下限【例A】某售货小组5人某天的销售额分别为 440元、480元、520元、600元、750元，则甲组乙组 0-100 4 0 100-200 4 9 200-300 1 0 【【例例BB】】空调耐用性分组测试表（单位：小时） 甲组 R = 300-0 = 300（小时） 乙组 R = 200-100 = 100 （小时）【【例例CC】】某季度某工业公司某季度某工业公司1818个工业企业产值计划完个工业企业产值计划完成情况如下，计算极差。成情况如下，计算极差。计划完成程度计划完成程度（（﹪﹪））组中值组中值（（﹪﹪））企业数企业数（个）（个）计划产值计划产值（万元）（万元） 9090以下以下 9090～～100100 100100～～110110 110110以上以上 8585 9595 105105 115115 22 33 1010 33 800800 25002500 1720017200 44004400 合计合计 —— 1818 2490024900 内距 (Inter-Quartile Range,IQR)(Inter-Quartile Range,IQR) 1. 也称四分位差也称四分位差 2. 上四分位数与下四分位数之差上四分位数与下四分位数之差  内内距距= = QQUU – – QQLL 3. 反映了中间反映了中间50%50%数据的离散程度数据的离散程度 4. 不受极端值的影响不受极端值的影响 5. 可用于衡量中位数的代表性可用于衡量中位数的代表性例：某数学补习小组11人年龄（岁）为： 17、19、22、24、25、28、34、35、36、37、38 结论：该小组约有50%的人年龄在22~36岁之间，并且他们之间最大差异为14岁。解：方差和标准差 (Variance and Standard Deviation)(Variance and Standard Deviation)  数据离散程度的最常用测度值数据离散程度的最常用测度值  反映了各变量值与均值的平均差异反映了各变量值与均值的平均差异  根据总体数据计算的，称为总体方差或标准差；根据总体数据计算的，称为总体方差或标准差；根据样本数据计算的，称为样本方差或标准差根据样本数据计算的，称为样本方差或标准差 4 6 8 10 124 6 8 10 12 xx = = 总体方差和标准差 (Population variance and Standard deviation)  未分组数据：组距分组数据：组距分组数据：未分组数据：未分组数据：组距分组数据：组距分组数据：方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式样本方差和标准差 (sample variance and standard deviation)  未分组数据：组距分组数据：组距分组数据：未分组数据：未分组数据：组距分组数据：组距分组数据：方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式注意：注意：样本方差用自样本方差用自由度由度nn-1-1去除去除!! 根据以下资料，计算企业职工平均工资的标准差。（已知平均工资为760元） 某企业职工工资分组数据表总体方差和标准差计算示例总体方差和标准差计算示例总体方差为：总体标准差为：样本标准差样本标准差 ((例题分析例题分析)) 55400 160 270 320 270 0 170 200 240 160 250 — 40 30 20 10 0 10 20 30 40 50 120—合计 4 9 16 27 20 17 10 8 4 5 145 155 165 175 185 195 205 215 225 235 140~150 150 ~ 160 160 ~170 170 ~180 180 ~ 190 190 ~ 200 200 ~ 210 210 ~220 220 ~230 230 ~240 频数(fi)组中值(Mi)按销售量分组某电脑公司120天销售量数据平均差计算表样本标准差样本标准差 ((例题分析例题分析)) 含义：每一天的销售量与平均数相比,平均相差台。  离散系数 (coefficient of variation)(coefficient of variation)  标准差与其相应的均值之比标准差与其相应的均值之比  对数据相对离散程度的测度对数据相对离散程度的测度  消除了数据水平高低和计量单位的影响消除了数据水平高低和计量单位的影响  用于对不同组别数据离散程度的比较用于对不同组别数据离散程度的比较  计算公式为计算公式为例:甲乙企业职工的年均收入分别为20000元和50000元，收入的标准差分别为3000和5000元，哪家企业职工的收入差距小一些？甲企业离散系数乙企业离散系数 [结论] 乙企业职工收入差距小于甲企业。结论：比较两组数据的离散程度时，如两组均值相等，可以直接比较标准差(也可以比较离散系数)；如两组均值相差很大，则需比较两组的离散系数(不能直接比较标准差)。第4节分布偏态与峰度的测度偏态与峰态分布的形状偏态与峰态分布的形状扁平分布扁平分布尖峰分布尖峰分布偏态偏态峰态峰态左偏分布左偏分布右偏分布右偏分布与标准正态与标准正态分布比较！分布比较！偏态 (skewness)(skewness) 1. 统计学家统计学家PearsonPearson于于18951895年首次提出年首次提出 2. 数据分布偏斜程度的测度数据分布偏斜程度的测度  偏态系数偏态系数=0=0为对称分布为对称分布  偏态系数偏态系数> 0> 0为右偏分布为右偏分布  偏态系数偏态系数< 0< 0为左偏分布为左偏分布偏态系数偏态系数 (skewness coefficient)(skewness coefficient) 1. 根据原始数据计算根据原始数据计算 2. 根据分组数据计算根据分组数据计算偏态系数偏态系数((例题分析例题分析)) 某电脑公司销售量偏态及峰度计算表按销售量份组 (台) 组中值(Mi) 频数 fi 140 ~ 150 150 ~ 160 160 ~ 170 170 ~ 180 180 ~190 190 ~200 200 ~210 210 ~220 220 ~ 230 230 ~ 240 145 155 165 175 185 195 205 215 225 235 4 9 16 27 20 17 10 8 4 5 -256000 -243000 -128000 -27000 0 17000 80000 216000 256000 625000 合计 — 120 540000 偏态系数偏态系数((例题分析例题分析)) 结论：偏态系数为正值，但与结论：偏态系数为正值，但与00的差异不大，说明的差异不大，说明电脑销售量为轻微右偏分布，即销售量较少的天电脑销售量为轻微右偏分布，即销售量较少的天数占据多数，而销售量较多的天数则占少数。数占据多数，而销售量较多的天数则占少数。偏态与峰态偏态与峰态((从直方图上观察从直方图上观察)) 按销售量分组按销售量分组((台台)) 结论：结论：1. 1. 右偏分布右偏分布 .略有平峰略有平峰 140140 150150 210210 某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图 190190 200200180180160160 170170 频频数数 ((天天)) 2525 2020 1515 1010 55 3030 220220 230230 240240 峰态 (kurtosis)(kurtosis) 1. 统计学家统计学家PearsonPearson于于19051905年首次提出年首次提出 2. 数据分布扁平程度的测度数据分布扁平程度的测度 3. 峰度系数峰度系数=0=0为对称分布为对称分布 4. 峰度系数峰度系数<0<0为平峰分布为平峰分布 5. 峰度系数峰度系数>0>0为尖峰分布为尖峰分布峰态系数峰态系数 (kurtosis coefficient)(kurtosis coefficient) 1. 根据原始数据计算 2. 根据分组数据计算峰态系数峰态系数((例题分析例题分析)) 某电脑公司销售量偏态及峰度计算表按销售量份组 (台) 组中值(Mi) 频数 fi 140 ~ 150 150 ~ 160 160 ~ 170 170 ~ 180 180 ~190 190 ~200 200 ~210 210 ~220 220 ~ 230 230 ~ 240 145 155 165 175 185 195 205 215 225 235 4 9 16 27 20 17 10 8 4 5 -256000 -243000 -128000 -27000 0 17000 80000 216000 256000 625000 10240000 7290000 2560000 270000 0 170000 1600000 6480000 10240000 31250000 合计 — 120 540000 70100000 峰态系数峰态系数 ((例题分析例题分析)) 结论：峰态系数为负值，但与结论：峰态系数为负值，但与00的差异不大，说明的差异不大，说明电脑销售量的分布与正态分布相比略有一些平峰。电脑销售量的分布与正态分布相比略有一些平峰。偏态与峰态偏态与峰态 ((从直方图上观察从直方图上观察)) 按销售量分组按销售量分组((台台)) 结论：结论：1. 1. 右偏分布右偏分布 .略有平峰略有平峰 140140 150150 210210 某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图 190190 200200180180160160 170170 频频数数 ((天天)) 2525 2020 1515 1010 55 3030 220220 230230 240240 用Excel计算描述统计量

联系我们

智库文档公众号

客服微信

统计数据的描述之分布集中趋势的测度.ppt

下载

标签

相关专题更多

联系我们

意见反馈

标签

相关专题 更多

联系我们

意见反馈

相关专题更多