第六章 收集资料的处理与描述性统计
第一节 资料的处理
第二节 类别变量的描述性统计
第三节 数量变量的描述性统计
第四节 描述统计量的解释
营销研究6
第一节 资料的处理
资料编辑
分类编码
资料建档
营销研究6
数据处理与描述统计
数据处理是指对所收集的数据进行编辑、分类和建立数据库。
描述统计是对类别变量数据和数量变量数据所进行统计,以列表、图形或数值的方式表示。
营销研究6
资料编辑
在资料编辑之前,先对所收集的资料是否符合要求,调查人员有否不符合规定的调查行为进行甄别,确认调查本身是有效的。然后才对调查人员和被调查者的资料收集和资料提供中的错误进行编辑。
编辑分为:
错误编辑
补缺编辑
前后矛盾:
明显错误
不符提问要求
针对问题项没有回答的补缺
记录不全的补缺
对开放性的问题补上答案的编码
营销研究6
资料编辑举例
前后矛盾:如:前面回答从未上网,后面又回答上网的感觉真好
明显错误:回答的年龄是124岁
不符提问要求:回答了被调查者不该回答的问题,如跳跃模式的问题,本该是回答“是”的被调查者才回答的问题,结果回答“否”的被调查者也回答了。
营销研究6
分类编码
定义:对一个所提的问题,将应答者回答的答案分成若干个类别并分别给予其一个代码的过程。分类编码便于计算机处理和资料的分析。
分类编码过程
封闭性问题的分类编码:直接用备选答案的分类并进行编码
开放性的问题的分类编码: •列出所有应答者对该问题的回答答案 •对答案进行归类,将意思相同的答案
归在一类中 •对每一类设置编码 •对每个应答者该问题的答案记上相应
的编码
营销研究6
分类编码举例
问题Q
答案
问卷编号
您为什么喜欢喝B品牌的啤酒?
1 2 3 4 5 6 7 8 9 1011121314151617
因为它口味好
它具有最好的味道
我喜欢它的口味
我不喜欢其他啤酒太重的口味
它最便宜
我买任何打折的啤酒,它大部分时间打折
它不像其他牌子的啤酒那样使我的胃不舒服
其他牌子使我头痛,但这种不会
我总是选择这个牌子
我已经喝了二十多年了
它是大多数同事喝的品牌
我的所有朋友都喝它
这是我妻子在食品店里买的牌子
这是我爱人最喜欢的牌子
我没有想过
不知道
没有特别的原因
营销研究6
分类编码结果
分类的答案描述
分类的编码
答案归类
口味好/喜欢味道/比其他味道好
底/较底的价格
不会引起头痛,胃不适
长时间喝习惯
因朋友喝/受朋友的影响
爱人喝/已买
不知道
1
2
3
4
5
6
7
1、2、3、4
5、6
7、8
9、10
11、12
13、14
15、16、17
营销研究6
分类编码的要求
一个应答者的某个问题的答案只能在一个类别中
意思相同的答案多,则归在一类中
个别答案不必分别归类,而是放在“其他”类中
分类编码要符合分析的要求,比如要进行今年调查的消费者情况
与去年消费者的情况的比较分析,则年龄段的分类中要与去年的
分类一致。
营销研究6
资料建档
资料建档就是资料录入计算机,建立所收集资料的资料库。在所收集的资料分类编码的基础上,按应答者和所提问题及应答者的答案建立如下的资料档案
问题
答案
问卷编号
1
2
3
.
i
.
n
Q1 Q2 Q3 … … … … Qk … … … … Qm
c11 c12 c1k c1m
c21 c22 c2k c2m
c31 c32 c3k c3m
cn1 cn2 cnk cnm
注:其中cik是i份问卷对第k问题的答案,它或者是某个编码(类别),或者是一个数值。
ci1 ci2 cik cim
营销研究6
第二节 类别变量的描述统计
单个类别变量的频数统计
两个及以上类别变量的频数统计
营销研究6
单个类别变量数据的频数统计
单个类别变量数据的频数统计,就是将所收集的样本集合中关于某一类别变量的数据,按照它们表示的类别进行记数统计。对于一个类别变量X,它的变化范围一般就是若干的类别,表示为:
X=
类别1(A)
类别2(B)
…… ……
类别n( … )
结果就是,样本集合中关于这一类别变量的类别1、类别2、……类别n的记数各有多少。这种统计的结果也称为频数分布。它们可以用表格的形式表示。
营销研究6
举例:超市可乐购买统计
某超市,对30名购买可乐的情况进行统计。该超市总共有A、B、C、D四个品牌的可乐。收集的数据如下:
B
30
C
20
A
10
C
29
D
19
A
9
A
28
C
18
B
8
B
27
B
17
B
7
D
26
A
16
A
6
A
25
A
15
B
5
A
24
B
14
A
4
A
23
D
13
A
3
B
22
A
12
B
2
B
21
C
11
A
1
品牌
顾客
品牌
顾客
品牌
顾客
营销研究6
频数统计:
30
3
4
10
13
频数
总计
D
C
B
A
品牌
营销研究6
相对频数分布和百分比频数分布
某一类别的相对频数=
该类别的频数
样本集合中的样本总数
某一类别的百分比频数=该类别的相对频数×100%
所有以上的结果分别构成了相对频数分布和百分比频数分布。我们常常把它们和频数分布放在一张表中。
营销研究6
相对频数和百分比频数分布表
100
10
13
33
44
百分比
频数(%)
1
相对频数
30
3
4
10
13
频数
总计
D
C
B
A
品牌
营销研究6
类别变量数据分布的图形表示
柱形图
饼形图
图形类型
营销研究6
举例
某学校新生被调查喜欢的专业,数据如下:
100
29
22
26
24
百分比(%)
234
68
51
60
55
频数
总计
财务
会计
营销
管理
专业
营销研究6
单变量频数统计举例
单选题频数统计,每个应答者对某个问题只提供一个答案,此时,各个答案的频数之和等于回答者的总人数。如下:
问题
频数
答案
总计
节假日,您和家人到市中心购物观光,最常在什么地方用餐?
大中饭店
小餐馆
快餐店
其他
350
35
71
150
94
营销研究6
单变量频数统计举例(续)
多选题频数表,每个应答者对某个问题提供了多个答案,此时,各个答案的频数之和不等于回答者的总人数,一般大于回答者的总人数。如下:(应答者人数为350人)
问题
频数
答案
总计
节假日,您和家人到市中心购物观光,会在那些地方用餐?
大中饭店
小餐馆
快餐店
其他
452
40
100
202
110
营销研究6
单变量百分比统计举例
问题
频数
答案
总计
节假日,您和家人到市中心购物观光,最常在什么地方用餐?
大中饭店
小餐馆
快餐店
其他
350
35
71
150
94
100%
10%
%
%
%
问题
频数
答案
样本数
节假日,您和家人到市中心购物观光,会在那些地方用餐?
大中饭店
小餐馆
快餐店
其他
350
40
100
202
110
%
%
%
%
营销研究6
两个类别变量的交叉频数统计
交叉统计是将两个或以上的类别变量进行交叉统计,即统计样本集合中同时属于类别变量X的类别i和类别变量Y的类别j的频数及其百分比。这种统计也称为多变量统计,其中频数称为交叉频数,百分比称为交叉百分比。交叉统计的百分比中,该百分比的分母,可以选择总样本数,也可以选择该单元所在列的类别频数或所在行的类别频数作为分母。例:问题:收入?和问题:最常去哪里用餐?这两个变量的交叉频数和百分比统计如下:
问题
频数
答案
总计
高收入
中收入
低收入
大中饭店
小餐馆
快餐店
其他
350
35
71
150
94
总计
49
231
70
26
12
8
3
6
52
108
65
3
7
34
26
营销研究6
两个类别变量的交叉百分比统计
问题
频数
答案
总计
高收入
中收入
低收入
大中饭店
小餐馆
快餐店
其他
350
35
71
150
94
总计
100%
100%
100%
%
%
%
%
%
%
%
%
%
10%
%
%
问题
频数
答案
总计
高收入
中收入
低收入
大中饭店
小餐馆
快餐店
其他
350
100%
100%
100%
100%
总计
49
231
70
%
%
%
%
17. 14%
%
72%
%
%
%
%
%
营销研究6
交叉百分比统计(续)
问题
频数
答案
总计
高收入
中收入
低收入
大中饭店
小餐馆
快餐店
其他
100%
10%
%
%
%
总计
14%
66%
20%
%
%
%
%
%
%
%
%
%
2%
%
%
营销研究6
类别变量统计的Excel方法
点击菜单栏的“数据”项中的“数据透视表和图表报告”。
在数据透视表中“字段设置”中选择频数和百分比统计表示。
营销研究6
举例操作
…
…
…
…
…
b
b
b
a
9
c
a
b
a
8
a
b
d
a
7
a
a
a
a
6
a
a
b
b
5
a
a
b
b
4
a
b
d
b
3
a
a
b
b
2
a
b
c
b
1
收入
职业
年龄
性别
问卷编号
操作
营销研究6
第三节 数量变量的描述统计
单个数量变量的频数统计
单个数量变量的位置的度量
单个数量变量的变异程度的度量
营销研究6
单个数量变量的频数统计
数量数据的频数分布是指在确定的分段区间(组)中的数据频数的分布。如,在调查消费者的收入中,问题是“请问您的年收入是多少?”。此时的数据统计中可以将收入数据分成几个区间进行统计。如5千元以下 5千元~1万元 1万元~3万元 3万元以上。
注意:数量数据统计频数时,划分数据的分段区间不能交叉,分段区间的个数应根据研究需要而定。区间的长短应相等或近似相等。一般根据数据集的大小,确定的区间数5~20,区间长短(组宽)及区间两端点(组的上、下限)由以下方法确定。
营销研究6
分段区间长度(组宽)
区间长度=
区间数
最大数据值-最小数据值
区间的端点确定原则是使数据中的最小值入在所有区间的最小端点所在的区间,其位置与数据中的最大值入在所有区间的最大端点所在区间的位置基本对称。
如果区间长度的数值有小数的话,取小数进位的正整数。
营销研究6
举例
被审计的公司要求会计事务所在年终审计时,审计时间不要太长,有一个20家公司的样本,他们对审计时间的要求如下:
年末审计时间要求 单位(天)
13
16
18
14
28
33
21
22
23
22
27
20
17
18
15
15
18
19
14
12
营销研究6
区间数目、区间长度、区间端点
根据数据集的的大小,区间数目确定为5个。
区间长度=
33-12
5
= 故长度取5
区间端点:10~14、15~19、20~24、25~29、30~34
营销研究6
频数及百分比统计结果:
20
总计
1
2
5
8
4
频数
30~34
25~29
20~24
15~19
10~14
审计时间要求
统计后,你能说明什么?
100
5
10
25
40
20
百分比(%)
1
总计
相对频数
30~34
25~29
20~24
15~19
10~14
审计时间要求
营销研究6
区间的中值(组中值)
即每个分段区间的中值,本例区间中值分别时12、17、22、27、32
营销研究6
数量变量数据的图形表示
直方图:在横坐标中,表示数据的分段区间,纵坐标表示频数、相对频数、百分比。每一区间的频数、相对频数和百分比用长方形表示,形成如下形状的直方图。以上面的举例数据为例:
营销研究6
数量变量数据的累积分布
累积分布是小于等于每个区间上限的这种新区间的频数、相对频数和百分比分布情况。它也可以用表和图的形式表示。如上例
100
20
小于等于34
95
19
小于等于29
85
17
小于等于24
60
12
小于等于19
20
4
小于等于14
累积百分比(%)
累积相对频数
累积频数
审计时间/天
累积分布见前图
营销研究6
数量变量的平均值
平均数或平均值:衡量某个数据集的中心位置
x
n
∑xi
=
例:40名司机的考试成绩如下,平均值为66
73
40
86
30
64
20
55
10
75
39
62
29
68
19
64
9
53
38
62
28
56
18
86
8
82
37
76
27
45
17
64
7
58
36
71
26
56
16
83
6
74
35
54
25
87
15
74
5
57
34
73
24
65
14
71
4
70
33
50
23
72
13
49
3
86
32
60
22
65
12
78
2
58
31
42
21
58
11
58
1
得分
司机
得分
司机
得分
司机
得分
司机
营销研究6
中位数
将所有数据项按递增顺序排列,位于中间的数据值,称为中位数。它也反映了数据中心位置的度量。
不妨设数据的递增排列为:x1≤ x2 ≤…… ≤ xn
X中位数 =
n奇数,中间的数
n偶数,中间两个数的平均值
如,23,25,36,78,91,中位数是36
如,23,25,36,78, 中位数是1/2(25+36)=
营销研究6
平均值与中位数的不同作用
平均值反映数据的平均状况。如消费者家庭的收入平均值,反映了一地区或一国家消费者的平均收入状况。通过纵向和横向的比较,即通过与自己过去和通过与其它地区的收入平均值比较可以分析得出很多有意义的结论。例:对一地区的消费者家庭月收入的抽样调查,获得的数据是:270元、560元、590元、180元、220元、570元、800元、350元、280元、440元、350元、1200元、3500元、4000元、4500元,统计得到它们的平均值是1187元。可以用这一结果反映该地区的总体平均的收入状况。如果该地区有以前的平均收入数据就可以进行纵向比较了,如果有当前其他地区的平均收入数据就可以进行横向比较了。
中位数反映总体两个一半个体的情况,说明总体的一半小于中位数,而另一半大于中位数。如,上例中,中位数是560元,说明样本中有一半消费者家庭小于560元。
这两个统计量都可以反映一组数据的中间情况,但不同情况下,效果是不同。有时平均值来分析一组数据效果并不好。
营销研究6
举例
比如,有两组数据,其中一组是:1、4、5、6、9,另一组是:4、4、5、6、6,这两组数据的平均值都是5,但很明显,后一组用平均值去反映数据中间情况要比第一组好。在前面家庭收入调查中也是这样,平均值并不能很好地反映该地区的消费者家庭收入情况。从平均值看,平均收入并不低,但实际情况却是,有很多低收入的家庭。该例中,中位数是560元,说明样本中有一半家庭的收入不超过560元,这是比较严重的。因此,此时用中位数分析效果更好。平均值反映数据的中间情况的好坏与方差大小有很大关系。比如,第一组数据方差小,因此用该数据的平均值反映这组数据比较好,而第二组方差大,则用该组数据平均值反映该组数据就比较差。
营销研究6
众数
众数:它是指在数据中发生频数最高的数据。最大频数的数据,可能是两个或以上。这时有双众数和多众数。
例,数据为12、21、43、28、14、21、14、18,
则众数是21和14
注,类别变量也有众数的概念,而且用它能进行有意义的分析。如,可乐的举例中,
30
3
4
10
13
频数
总计
D
C
B
A
品牌
最大频数的数据是A,A是众数,反映A可乐销量最大。
营销研究6
百分位数
第p百分位数是这样一个值,它使得至少有p%的数据项小于或等于这个值,且至少有(100- p)%的数据项大于多等于这个值。百分位数提供了有关各数据项如何在最小值和最大值之间分布的信息。
如,某学生的语文考试54分。它恰好对应的是第70百分位数,则知,大约70%的学生的成绩比他低。约30%的学生考分比他高。
第p百分位数的计算:
10数据按递增排列
20计算指数i
i=
p
100
n
这里的i是所求的p百分位数的位置,n是数据项数。
30若i 不是整数, i 向上取整,即大于i 的毗邻整数指示第p百分位
数,若i 是整数,则第p百分位数是第i 项和第(i+1) 项数据的平均
值。
营销研究6
举例
已知收入数据是:
2210 2225 2350 2380 2380 2390 2420 2440 2450 2550 2630 2825
求其85和50的百分位数。
i=
p
100
n=
85
100
×12=
第85百分位数为2630
i=
p
100
n=
50
100
×12=6
第50的百分位数为(2390+2420)/2=2405。
营销研究6
四分位数
在数据分析中,我们经常会把数据分成四部分,每个部分大约包含有1/4或25%的数据项。这种划分的临界点即为四分位数。
第一个四分位数,即第25百分位数
第二个四分位数,即第50百分位数
第三个四分位数,即第75百分位数
这三个分位点把数据分成了四部分。
一
二
三
四
Q1
Q2
Q3
注:四分位数是特殊的百分位数,因此确定方法如上
营销研究6
举例
已知收入数据是:
2210 2225 2350 2380 2380 2390 2420 2440 2450 2550 2630 2825
Q1 :求第25百分位数
i=
p
100
n=
25
100
×12=3
Q1 =(2350+2380)/2=2365
Q2 =2405
Q3 =(2450+2550)/2=2500
这段数据最感兴趣
营销研究6
变异程度的度量
变异程度即离散程度。变异程度反映了数据的集中与分散。它能对相同平均值下分析数据反映结果的好坏产生影响。如有家生产厂家同时向两家供应商购买材料,两家供应商都说大约10天交货。一段时间下来,两家供应商交货的平均值都是10天。交货情况的频数分布如下:
你会选择哪个供应商呢?
营销研究6
全距、四分位距
全距亦即极差,它等数据的最大值减最小值。
全距=最大值-最小值
四分位数间距(IQR),它等于第三个四分位数减第一四分位数,即数据按大小排列的中间50%的数据的全距。
IQR=Q3 - Q1
营销研究6
方差
方差是基于各数据值与它们的平均值之间的差异而来。
总体方差2=
N
∑(xi -)2
样本方差s2=
n -1
∑(xi -x)2
(xi -x)称为样本离差, (xi -)称为总体离差。
营销研究6
标准差、标准差系数
样本标准差s=√s2
总体标准差=√2
标准差系数是标准差相对于平均数的大小。
标准差系数=
标准差
平均数
×100
营销研究6
加权平均数和分组数据的度量
加权平均值是一组数据中的每个数据加权后再平均的数值。
x=∑ixi
xi ——第i 项数据值
i ——第i 项数据值的权重,∑i =1,0≤i ≤1
营销研究6
举例:
某公司在前3个月里5次采购愿材料,数据如下:
800
1000
2500
500
1200
购买量/磅
每磅价格/$
5
4
3
2
1
购买批次
公司经理想知道,采购的平均成本是多少?
x=
1200×+500 ×+2500 ×+1000×+800 ×
1200+500 +2500 +1000+800
=
营销研究6
分组数据度量
对于分组数据,由于知道区间中频数,因此对它们的度量计算需采用近似方法。主要计算它们的平均值、方差和标准差。
分组数据样本平均数:
x
∑fi
∑fiMi
=
Mi ——第i 组的组中值
fi ——第i 组的频数
分组数据样本方差:
s2
n -1
∑fi ( Mi -x)2
=
在调查中关于年龄、收入,数据常常是间区类,但分析时又需要把它们按数量变量进行,如计算它们的平均值、方差。
营销研究6
例:审计天数
32
27
22
17
12
组中值
20
总计
1
2
5
8
4
频数
30~34
25~29
20~24
15~19
10~14
审计时间要求
x
∑fi
∑fiMi
=
=
20
380
=19
s2
n -1
∑fi ( Mi -x)2
=
=
19
579
=30
营销研究6
数量数据描述统计的Excel方法
在Excel表的菜单栏点击工具中的数据分析,或点击函数并从中找到相应的统计函数。
营销研究6
点击工具栏
营销研究6
点击数据分析的描述统计栏
营销研究6
确定统计的数据
营销研究6
举例
73
40
86
30
64
20
55
10
75
39
62
29
68
19
64
9
53
38
62
28
56
18
86
8
82
37
76
27
45
17
64
7
58
36
71
26
56
16
83
6
74
35
54
25
87
15
74
5
57
34
73
24
65
14
71
4
70
33
50
23
72
13
49
3
86
32
60
22
65
12
78
2
58
31
42
21
58
11
58
1
得分
司机
得分
司机
得分
司机
得分
司机
已知司机成绩,对其进行描述统计
营销研究6
第四节 描述统计的图形表示
类别变量统计的图形表示
数值变量统计的图形表示
营销研究6
类别变量统计的图形表示
柱形图
饼形图
营销研究6
数量变量统计的盒形图
盒形图的表示方法:有一个方盒,方盒两边各有一条直线,从一条直线的端点到另一条直线的端点总长度等于数据的极差,方盒左边直线的左端点表示最小值,方盒右边直线的右端点表示最大值,方盒的左边界表示数据的第一个四分位数,方盒的右边界表示数据的第三个四分位数。方盒中对应中位数位置画一直线段。如已知某样本收入分别是2210 、2225 、2350、 2380、 2380 、2390 、2420 、2440、 2450 、2550 、2630 、2825元,
2210
2825
Q2 =2405
Q3 = 2500
Q1 = 2365
此图形表示了数量变量描述统计中的五数,即最小值、最大值、中位数、第一个四分位数和第三个四分位数。并且一目了然数据的大致状况。
营销研究6