MBA智库文档营销市场调研营销研究第六章收集资料的处理与描述性统计.ppt

营销研究第六章收集资料的处理与描述性统计.ppt

下载

系统介绍市场营销中常用调查、统计、分析方法，令你的报告增加分量

付万天

60页 | 960KB | 7次下载 |

0.0

(0人评价)

我要评价：

投诉举报

用手机看文档

扫一扫,手机看文档

下载

开通VIP

第六章收集资料的处理与描述性统计第一节资料的处理第二节类别变量的描述性统计第三节数量变量的描述性统计第四节描述统计量的解释营销研究6 第一节资料的处理资料编辑分类编码资料建档营销研究6 数据处理与描述统计数据处理是指对所收集的数据进行编辑、分类和建立数据库。描述统计是对类别变量数据和数量变量数据所进行统计，以列表、图形或数值的方式表示。营销研究6 资料编辑在资料编辑之前，先对所收集的资料是否符合要求，调查人员有否不符合规定的调查行为进行甄别，确认调查本身是有效的。然后才对调查人员和被调查者的资料收集和资料提供中的错误进行编辑。编辑分为：错误编辑补缺编辑前后矛盾：明显错误不符提问要求针对问题项没有回答的补缺记录不全的补缺对开放性的问题补上答案的编码营销研究6 资料编辑举例前后矛盾：如：前面回答从未上网，后面又回答上网的感觉真好明显错误：回答的年龄是124岁不符提问要求：回答了被调查者不该回答的问题，如跳跃模式的问题，本该是回答“是”的被调查者才回答的问题，结果回答“否”的被调查者也回答了。营销研究6 分类编码定义：对一个所提的问题，将应答者回答的答案分成若干个类别并分别给予其一个代码的过程。分类编码便于计算机处理和资料的分析。分类编码过程封闭性问题的分类编码：直接用备选答案的分类并进行编码开放性的问题的分类编码： •列出所有应答者对该问题的回答答案 •对答案进行归类，将意思相同的答案归在一类中 •对每一类设置编码 •对每个应答者该问题的答案记上相应的编码营销研究6 分类编码举例问题Q 答案问卷编号您为什么喜欢喝B品牌的啤酒？ 1 2 3 4 5 6 7 8 9 1011121314151617 因为它口味好它具有最好的味道我喜欢它的口味我不喜欢其他啤酒太重的口味它最便宜我买任何打折的啤酒，它大部分时间打折它不像其他牌子的啤酒那样使我的胃不舒服其他牌子使我头痛，但这种不会我总是选择这个牌子我已经喝了二十多年了它是大多数同事喝的品牌我的所有朋友都喝它这是我妻子在食品店里买的牌子这是我爱人最喜欢的牌子我没有想过不知道没有特别的原因营销研究6 分类编码结果分类的答案描述分类的编码答案归类口味好/喜欢味道/比其他味道好底/较底的价格不会引起头痛，胃不适长时间喝习惯因朋友喝/受朋友的影响爱人喝/已买不知道 1 2 3 4 5 6 7 1、2、3、4 5、6 7、8 9、10 11、12 13、14 15、16、17 营销研究6 分类编码的要求 一个应答者的某个问题的答案只能在一个类别中 意思相同的答案多，则归在一类中 个别答案不必分别归类，而是放在“其他”类中 分类编码要符合分析的要求，比如要进行今年调查的消费者情况与去年消费者的情况的比较分析，则年龄段的分类中要与去年的分类一致。营销研究6 资料建档资料建档就是资料录入计算机，建立所收集资料的资料库。在所收集的资料分类编码的基础上，按应答者和所提问题及应答者的答案建立如下的资料档案问题答案问卷编号 1 2 3 . i . n Q1 Q2 Q3 … … … … Qk … … … … Qm c11 c12 c1k c1m c21 c22 c2k c2m c31 c32 c3k c3m cn1 cn2 cnk cnm 注：其中cik是i份问卷对第k问题的答案，它或者是某个编码（类别），或者是一个数值。 ci1 ci2 cik cim 营销研究6 第二节类别变量的描述统计单个类别变量的频数统计两个及以上类别变量的频数统计营销研究6 单个类别变量数据的频数统计单个类别变量数据的频数统计，就是将所收集的样本集合中关于某一类别变量的数据，按照它们表示的类别进行记数统计。对于一个类别变量X，它的变化范围一般就是若干的类别，表示为： X= 类别1（A）类别2（B） …… …… 类别n（ … ）结果就是，样本集合中关于这一类别变量的类别1、类别2、……类别n的记数各有多少。这种统计的结果也称为频数分布。它们可以用表格的形式表示。营销研究6 举例：超市可乐购买统计某超市，对30名购买可乐的情况进行统计。该超市总共有A、B、C、D四个品牌的可乐。收集的数据如下： B 30 C 20 A 10 C 29 D 19 A 9 A 28 C 18 B 8 B 27 B 17 B 7 D 26 A 16 A 6 A 25 A 15 B 5 A 24 B 14 A 4 A 23 D 13 A 3 B 22 A 12 B 2 B 21 C 11 A 1 品牌顾客品牌顾客品牌顾客营销研究6 频数统计： 30 3 4 10 13 频数总计 D C B A 品牌营销研究6 相对频数分布和百分比频数分布某一类别的相对频数= 该类别的频数样本集合中的样本总数某一类别的百分比频数=该类别的相对频数×100% 所有以上的结果分别构成了相对频数分布和百分比频数分布。我们常常把它们和频数分布放在一张表中。营销研究6 相对频数和百分比频数分布表 100 10 13 33 44 百分比频数(%) 1 相对频数 30 3 4 10 13 频数总计 D C B A 品牌营销研究6 类别变量数据分布的图形表示柱形图饼形图图形类型营销研究6 举例某学校新生被调查喜欢的专业，数据如下： 100 29 22 26 24 百分比(%) 234 68 51 60 55 频数总计财务会计营销管理专业营销研究6 单变量频数统计举例单选题频数统计，每个应答者对某个问题只提供一个答案，此时，各个答案的频数之和等于回答者的总人数。如下：问题频数答案总计节假日，您和家人到市中心购物观光，最常在什么地方用餐？大中饭店小餐馆快餐店其他 350 35 71 150 94 营销研究6 单变量频数统计举例（续）多选题频数表，每个应答者对某个问题提供了多个答案，此时，各个答案的频数之和不等于回答者的总人数，一般大于回答者的总人数。如下：（应答者人数为350人）问题频数答案总计节假日，您和家人到市中心购物观光，会在那些地方用餐？大中饭店小餐馆快餐店其他 452 40 100 202 110 营销研究6 单变量百分比统计举例问题频数答案总计节假日，您和家人到市中心购物观光，最常在什么地方用餐？大中饭店小餐馆快餐店其他 350 35 71 150 94 100% 10% % % % 问题频数答案样本数节假日，您和家人到市中心购物观光，会在那些地方用餐？大中饭店小餐馆快餐店其他 350 40 100 202 110 % % % % 营销研究6 两个类别变量的交叉频数统计交叉统计是将两个或以上的类别变量进行交叉统计，即统计样本集合中同时属于类别变量X的类别i和类别变量Y的类别j的频数及其百分比。这种统计也称为多变量统计，其中频数称为交叉频数，百分比称为交叉百分比。交叉统计的百分比中，该百分比的分母，可以选择总样本数，也可以选择该单元所在列的类别频数或所在行的类别频数作为分母。例：问题：收入？和问题：最常去哪里用餐？这两个变量的交叉频数和百分比统计如下：问题频数答案总计高收入中收入低收入大中饭店小餐馆快餐店其他 350 35 71 150 94 总计 49 231 70 26 12 8 3 6 52 108 65 3 7 34 26 营销研究6 两个类别变量的交叉百分比统计问题频数答案总计高收入中收入低收入大中饭店小餐馆快餐店其他 350 35 71 150 94 总计 100% 100% 100% % % % % % % % % % 10% % % 问题频数答案总计高收入中收入低收入大中饭店小餐馆快餐店其他 350 100% 100% 100% 100% 总计 49 231 70 % % % % 17. 14% % 72% % % % % % 营销研究6 交叉百分比统计（续）问题频数答案总计高收入中收入低收入大中饭店小餐馆快餐店其他 100% 10% % % % 总计 14% 66% 20% % % % % % % % % % 2% % % 营销研究6 类别变量统计的Excel方法点击菜单栏的“数据”项中的“数据透视表和图表报告”。在数据透视表中“字段设置”中选择频数和百分比统计表示。营销研究6 举例操作 … … … … … b b b a 9 c a b a 8 a b d a 7 a a a a 6 a a b b 5 a a b b 4 a b d b 3 a a b b 2 a b c b 1 收入职业年龄性别问卷编号操作营销研究6 第三节数量变量的描述统计单个数量变量的频数统计单个数量变量的位置的度量单个数量变量的变异程度的度量营销研究6 单个数量变量的频数统计数量数据的频数分布是指在确定的分段区间（组）中的数据频数的分布。如，在调查消费者的收入中，问题是“请问您的年收入是多少？”。此时的数据统计中可以将收入数据分成几个区间进行统计。如5千元以下 5千元~1万元 1万元~3万元 3万元以上。注意：数量数据统计频数时，划分数据的分段区间不能交叉，分段区间的个数应根据研究需要而定。区间的长短应相等或近似相等。一般根据数据集的大小，确定的区间数5~20，区间长短（组宽）及区间两端点（组的上、下限）由以下方法确定。营销研究6 分段区间长度（组宽）区间长度= 区间数最大数据值－最小数据值区间的端点确定原则是使数据中的最小值入在所有区间的最小端点所在的区间，其位置与数据中的最大值入在所有区间的最大端点所在区间的位置基本对称。如果区间长度的数值有小数的话，取小数进位的正整数。营销研究6 举例被审计的公司要求会计事务所在年终审计时，审计时间不要太长，有一个20家公司的样本，他们对审计时间的要求如下：年末审计时间要求单位（天） 13 16 18 14 28 33 21 22 23 22 27 20 17 18 15 15 18 19 14 12 营销研究6 区间数目、区间长度、区间端点根据数据集的的大小，区间数目确定为5个。区间长度= 33-12 5 = 故长度取5 区间端点：10~14、15~19、20~24、25~29、30~34 营销研究6 频数及百分比统计结果： 20 总计 1 2 5 8 4 频数 30~34 25~29 20~24 15~19 10~14 审计时间要求统计后，你能说明什么？ 100 5 10 25 40 20 百分比(%) 1 总计相对频数 30~34 25~29 20~24 15~19 10~14 审计时间要求营销研究6 区间的中值(组中值) 即每个分段区间的中值，本例区间中值分别时12、17、22、27、32 营销研究6 数量变量数据的图形表示直方图：在横坐标中，表示数据的分段区间，纵坐标表示频数、相对频数、百分比。每一区间的频数、相对频数和百分比用长方形表示，形成如下形状的直方图。以上面的举例数据为例：营销研究6 数量变量数据的累积分布累积分布是小于等于每个区间上限的这种新区间的频数、相对频数和百分比分布情况。它也可以用表和图的形式表示。如上例 100 20 小于等于34 95 19 小于等于29 85 17 小于等于24 60 12 小于等于19 20 4 小于等于14 累积百分比(%) 累积相对频数累积频数审计时间/天累积分布见前图营销研究6 数量变量的平均值平均数或平均值：衡量某个数据集的中心位置 x n ∑xi = 例：40名司机的考试成绩如下，平均值为66 73 40 86 30 64 20 55 10 75 39 62 29 68 19 64 9 53 38 62 28 56 18 86 8 82 37 76 27 45 17 64 7 58 36 71 26 56 16 83 6 74 35 54 25 87 15 74 5 57 34 73 24 65 14 71 4 70 33 50 23 72 13 49 3 86 32 60 22 65 12 78 2 58 31 42 21 58 11 58 1 得分司机得分司机得分司机得分司机营销研究6 中位数将所有数据项按递增顺序排列，位于中间的数据值，称为中位数。它也反映了数据中心位置的度量。不妨设数据的递增排列为：x1≤ x2 ≤…… ≤ xn X中位数 = n奇数，中间的数 n偶数，中间两个数的平均值如，23，25，36，78，91，中位数是36 如，23，25，36，78，中位数是1/2(25+36)= 营销研究6 平均值与中位数的不同作用平均值反映数据的平均状况。如消费者家庭的收入平均值，反映了一地区或一国家消费者的平均收入状况。通过纵向和横向的比较，即通过与自己过去和通过与其它地区的收入平均值比较可以分析得出很多有意义的结论。例：对一地区的消费者家庭月收入的抽样调查，获得的数据是：270元、560元、590元、180元、220元、570元、800元、350元、280元、440元、350元、1200元、3500元、4000元、4500元，统计得到它们的平均值是1187元。可以用这一结果反映该地区的总体平均的收入状况。如果该地区有以前的平均收入数据就可以进行纵向比较了，如果有当前其他地区的平均收入数据就可以进行横向比较了。中位数反映总体两个一半个体的情况，说明总体的一半小于中位数，而另一半大于中位数。如，上例中，中位数是560元，说明样本中有一半消费者家庭小于560元。这两个统计量都可以反映一组数据的中间情况，但不同情况下，效果是不同。有时平均值来分析一组数据效果并不好。营销研究6 举例比如，有两组数据，其中一组是：1、4、5、6、9，另一组是：4、4、5、6、6，这两组数据的平均值都是5，但很明显，后一组用平均值去反映数据中间情况要比第一组好。在前面家庭收入调查中也是这样，平均值并不能很好地反映该地区的消费者家庭收入情况。从平均值看，平均收入并不低，但实际情况却是，有很多低收入的家庭。该例中，中位数是560元，说明样本中有一半家庭的收入不超过560元，这是比较严重的。因此，此时用中位数分析效果更好。平均值反映数据的中间情况的好坏与方差大小有很大关系。比如，第一组数据方差小，因此用该数据的平均值反映这组数据比较好，而第二组方差大，则用该组数据平均值反映该组数据就比较差。营销研究6 众数众数：它是指在数据中发生频数最高的数据。最大频数的数据，可能是两个或以上。这时有双众数和多众数。例，数据为12、21、43、28、14、21、14、18，则众数是21和14 注，类别变量也有众数的概念，而且用它能进行有意义的分析。如，可乐的举例中， 30 3 4 10 13 频数总计 D C B A 品牌最大频数的数据是A，A是众数，反映A可乐销量最大。营销研究6 百分位数第p百分位数是这样一个值，它使得至少有p%的数据项小于或等于这个值，且至少有(100- p)%的数据项大于多等于这个值。百分位数提供了有关各数据项如何在最小值和最大值之间分布的信息。如，某学生的语文考试54分。它恰好对应的是第70百分位数，则知，大约70%的学生的成绩比他低。约30%的学生考分比他高。第p百分位数的计算： 10数据按递增排列 20计算指数i i= p 100 n 这里的i是所求的p百分位数的位置，n是数据项数。 30若i 不是整数， i 向上取整，即大于i 的毗邻整数指示第p百分位数，若i 是整数，则第p百分位数是第i 项和第(i+1) 项数据的平均值。营销研究6 举例已知收入数据是： 2210 2225 2350 2380 2380 2390 2420 2440 2450 2550 2630 2825 求其85和50的百分位数。 i= p 100 n= 85 100 ×12= 第85百分位数为2630 i= p 100 n= 50 100 ×12=6 第50的百分位数为(2390+2420)/2=2405。营销研究6 四分位数在数据分析中，我们经常会把数据分成四部分，每个部分大约包含有1/4或25%的数据项。这种划分的临界点即为四分位数。第一个四分位数，即第25百分位数第二个四分位数，即第50百分位数第三个四分位数，即第75百分位数这三个分位点把数据分成了四部分。一二三四 Q1 Q2 Q3 注：四分位数是特殊的百分位数，因此确定方法如上营销研究6 举例已知收入数据是： 2210 2225 2350 2380 2380 2390 2420 2440 2450 2550 2630 2825 Q1 ：求第25百分位数 i= p 100 n= 25 100 ×12=3 Q1 =(2350+2380)/2=2365 Q2 =2405 Q3 =(2450+2550)/2=2500 这段数据最感兴趣营销研究6 变异程度的度量变异程度即离散程度。变异程度反映了数据的集中与分散。它能对相同平均值下分析数据反映结果的好坏产生影响。如有家生产厂家同时向两家供应商购买材料，两家供应商都说大约10天交货。一段时间下来，两家供应商交货的平均值都是10天。交货情况的频数分布如下：你会选择哪个供应商呢？营销研究6 全距、四分位距全距亦即极差，它等数据的最大值减最小值。全距=最大值－最小值四分位数间距（IQR），它等于第三个四分位数减第一四分位数，即数据按大小排列的中间50%的数据的全距。 IQR=Q3 － Q1 营销研究6 方差方差是基于各数据值与它们的平均值之间的差异而来。总体方差2= N ∑(xi －)2 样本方差s2= n -1 ∑(xi －x)2 (xi －x)称为样本离差， (xi －)称为总体离差。营销研究6 标准差、标准差系数样本标准差s=√s2 总体标准差=√2 标准差系数是标准差相对于平均数的大小。标准差系数= 标准差平均数 ×100 营销研究6 加权平均数和分组数据的度量加权平均值是一组数据中的每个数据加权后再平均的数值。 x=∑ixi xi ——第i 项数据值 i ——第i 项数据值的权重，∑i =1，0≤i ≤1 营销研究6 举例：某公司在前3个月里5次采购愿材料，数据如下： 800 1000 2500 500 1200 购买量/磅每磅价格/$ 5 4 3 2 1 购买批次公司经理想知道，采购的平均成本是多少？ x= 1200×+500 ×+2500 ×+1000×+800 × 1200+500 +2500 +1000+800 = 营销研究6 分组数据度量对于分组数据，由于知道区间中频数，因此对它们的度量计算需采用近似方法。主要计算它们的平均值、方差和标准差。分组数据样本平均数： x ∑fi ∑fiMi = Mi ——第i 组的组中值 fi ——第i 组的频数分组数据样本方差： s2 n －1 ∑fi ( Mi －x)2 = 在调查中关于年龄、收入，数据常常是间区类，但分析时又需要把它们按数量变量进行，如计算它们的平均值、方差。营销研究6 例：审计天数 32 27 22 17 12 组中值 20 总计 1 2 5 8 4 频数 30~34 25~29 20~24 15~19 10~14 审计时间要求 x ∑fi ∑fiMi = = 20 380 =19 s2 n －1 ∑fi ( Mi －x)2 = = 19 579 =30 营销研究6 数量数据描述统计的Excel方法在Excel表的菜单栏点击工具中的数据分析，或点击函数并从中找到相应的统计函数。营销研究6 点击工具栏营销研究6 点击数据分析的描述统计栏营销研究6 确定统计的数据营销研究6 举例 73 40 86 30 64 20 55 10 75 39 62 29 68 19 64 9 53 38 62 28 56 18 86 8 82 37 76 27 45 17 64 7 58 36 71 26 56 16 83 6 74 35 54 25 87 15 74 5 57 34 73 24 65 14 71 4 70 33 50 23 72 13 49 3 86 32 60 22 65 12 78 2 58 31 42 21 58 11 58 1 得分司机得分司机得分司机得分司机已知司机成绩，对其进行描述统计营销研究6 第四节描述统计的图形表示类别变量统计的图形表示数值变量统计的图形表示营销研究6 类别变量统计的图形表示柱形图饼形图营销研究6 数量变量统计的盒形图盒形图的表示方法：有一个方盒，方盒两边各有一条直线，从一条直线的端点到另一条直线的端点总长度等于数据的极差，方盒左边直线的左端点表示最小值，方盒右边直线的右端点表示最大值，方盒的左边界表示数据的第一个四分位数，方盒的右边界表示数据的第三个四分位数。方盒中对应中位数位置画一直线段。如已知某样本收入分别是2210 、2225 、2350、 2380、 2380 、2390 、2420 、2440、 2450 、2550 、2630 、2825元， 2210 2825 Q2 =2405 Q3 = 2500 Q1 = 2365 此图形表示了数量变量描述统计中的五数，即最小值、最大值、中位数、第一个四分位数和第三个四分位数。并且一目了然数据的大致状况。营销研究6

联系我们

智库文档公众号

客服微信

营销研究第六章收集资料的处理与描述性统计.ppt

下载

标签

相关专题更多

联系我们

意见反馈

标签

相关专题 更多

联系我们

意见反馈

相关专题更多