数据整理、分析与图表绘制
仁达方略知识管理中心
北京仁达方略管理咨询公司
知识管理中心
2006年5月•北京
自我介绍
李明
1978年7月出生于吉林省长春市
现任北京仁达方略管理咨询公司知识管理中心总经理
2002年7月毕业于中国人民大学统计系学院,主修统计学、风险管理与精算数学
2005年9月进入北京大学光华管理学院攻读MBA,侧重于金融方向
研究领域
组织文化
消费者行为
兼并与收购
联系方式
手机:860-13691259001
Msn:Lming_78@
目录
关于统计、数字与图表
常用统计数据
SPSS基本应用
Excel中的图表绘制
图表的复制与粘贴
关于统计
如果你不能量化某些事物,你就无法准确地描述它;
如果你不能准确的描述它,你就无法深刻地理解它;
如果你不能深刻的理解它,你就无法很好地控制它;
如果你不能很好的控制它,你就无法适时地改进它。
——仁达方略 Ming Lee
历史是一面镜子!
而数据是会说话的!
多少财务漏洞都是从简单的统计分析中发现的!
统计学是什么?
统计学是用以(1)收集数据、(2)整理分析数 据和(3)由数据得出结论的一组 概念、原则和方法
关于统计
S代表Statistics
I代表Input也就是指原料:数据
P代表Production也就是指加工:计算
O代表Output也就是成品:有意义的情报
关于统计
统计学在商务管理中的应用
•市场调研;
•销售预测;
•财务分析;
•生产管理;
………….
计算机和互联网在数据来源和分析方法上为统计学的应用开阔了更广泛的空间
统计学分类
描述统计:利用表格、图形或数值(社会经济统计中的指标)来展示和刻画数据中的信息;
推断统计:利用样本获得的数据对总体的性质进行估计或者检验。总体的性质通常用概率模型刻画。
目录
关于统计、数字与图表
常用统计数据
SPSS基本应用
Excel中的图表绘制
图表的复制与粘贴
常用统计数据
数据的统计描述
数据及其分类
有关数据的概念
数据是所收集、分析、汇总表述和解释的事实及数字;
个体是从中收集数据的实体;
变量是关于个体的特征,也是数据的内涵。
数据的分类
按照取值类型:品质数据和数量数据(连续,离散,定序);
按照获取时间空间:截面数据、时间序列;
… … … … … … … … …
一个数据文件
代号 性别 是否锻炼 出生日期 身高 体重
1 男 非常喜欢 08/12/77 170 65
2 女 喜欢 03/21/78 175 60
3 女 一般 09/30/80 165 61
4 男 不太喜欢 02/12/81 179 70
5 男 很讨厌 06/21/77 153 45
6 男 喜欢 08/20/76 180 65
7 女 一般 10/11/79 172 55
8 女 非常喜欢 02/12/83 167 52
9 女 一般 08/11/81 156 45
10 男 非常喜欢 02/10/80 168 55
11 男 喜欢 03/17/81 179 60
一个数据文件(续)
代号 性别 是否锻炼 出生日期 身高 体重
12 女 讨厌 11/25/78 167 56
13 女 一般 10/24/76 154 51
14 女 很讨厌 12/20/81 160 52
15 男 喜欢 12/12/79 175 67
16 男 非常喜欢 08/09/79 181 75
17 男 喜欢 09/23/82 174 62
18 女 讨厌 09/21/80 168 63
19 女 喜欢 10/12/79 173 60
20 女 一般 11/10/81 154 43
对这一个数据文件,可以提什么统计问题?
描述统计学Ⅰ:数据描述的表格法和图形法
品质数据的描述方法(一)--- 表格法
频数分布:按变量(数据特征)取值数归类成既不重叠又不遗漏的一列数据组,其各个组别所包含的数据数目(频数)的表格汇总。
相对频数(频率):每一组的相对频数=该组的频数/数据总数N
百分比频数(率):每一组的百分比频数=100*该组相对频数%
是否锻炼 人数(频数) 相对频数 百分比 累计百分比
非常喜欢 4 % %
喜欢 6 % %
一般 5 % %
不太喜欢 1 % %
讨厌 2 % %
很讨厌 2 % %
求和 20 %
品质数据的描述方法(二)
------条形图、柱形图、饼图
数量数据的图表描述方法(一)
--数量数据频数分布的几个概念
频数分布
组数:根据数据情况确定。
组限:每组的上限值、下限值,开口组、闭口组,要求每个数据都归属一组。
组距(组宽度):各组上下限值之差。一般为等距组,也有不等距组。
组中值:各组上下限值之平均值,为该组的组中值,表示该组的位置。
数量数据的图表描述方法(二)
--表格法
数量数据的图表描述方法(三)
--饼图法
两个变量关系的图表描述方法(一)
交叉分组列表:
两个变量关系的图表描述方法(一)
交叉分组列表:
两个变量关系的图表描述方法(二)
散点图
两个变量关系的图表描述方法(二)
散点图
描述统计学Ⅱ :数据描述的数值方法
通过数据指标来概括数据中的信息。
如何刻画数据的集中位置;
如何刻画数据的变异程度;
如何刻画检验异常值;
如何刻画两个变量之间的关系;
一、数据集中位置的度量
平均数
中位数
众数
四分位数
百分位数
1. 平 均 数
数据值的算术平均:
最常用的中心位置度量,每个数据都平等参与,受极端值影响
0 1 2 3 4 5 6 7 8 9 10
平均数 = 5
平均数 = 6
1 2 3 4 5 6 7 14
2. 中 位 数
数据的中心位置度量 υ
在递增排序后的数据列中,
若 n 是 奇数,中位数是正中央的数.
若 n 是 偶数,中位数是正中央的两数的平均值.
只由排序正中央的一个或两个数决定,不受极端值的影响.
0 1 2 3 4 5 6 7 8 9 10
0 1 2 3 4 5 6 7 8 9 10 12 14
中位数= 5
中位数= 5
另一种定义:至少有一半≤ υ,至少有一半≥ υ.
3. 众 数
发生频数最高的数据值 M
不受极端值的影响
众数可能不存在
可能有多个众数
可用于数量型或品质型数据
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
众数 = 9
没有众数
4. 百 分 位 数
第p百分位数 :使得至少有p%的数据小于或等于这个值,且使得至少有(100-p)%的数据大于或等于这个值,其中0<p<100 。又称百分位点。
计算: 1.将原数据从小到大排列
2. 计算i=(p/100)n
3.若i是整数, 则第p百分位数为第i 与第 i+1 项的平均。
3.若i是非整数, 则第p百分位数为第[i]+1 项。其中 [i]是i取整。
5. 四 分 位 数
将排序后的数据分为四个等份,Q1是第25百分位数,又称下四分位数,Q3是第75百分位数,又称上四分位数, Q2 是中位数。
25%
25%
25%
25%
Q1
Q2
Q3
11 12 13 16 16 17 17 18 21
Q1
=13
Q3
=17
二、变异程度的度量
变异程度
方差
标准差
变异系数
总体方差
样本方差
总体标准差
样本标准差
全距
四分位点内距
1. 全 距
全距= 最大值 – 最小值
忽略数据的分布
全距= 12 - 7 = 5 全距= 12 - 7 = 5
受极端值的影响
全距= 15 - 7 = 8
7 8 9 10 11 12
7 8 9 10 11 12
7 8 9 10 11 12 13 14 15
四分位点内距(间距)=
与全距不同,不受极端值的影响
序列1: 11 12 13 13 16 16 17 18 21
序列2: 8 12 13 13 16 16 17 18 25
=x7 - x3= 17- 13 = 4
2. 四分位点内距
重要度量
对于总体: N:个体总数
对于样本: n:样本数
μ 是总体的平均数, 是样本平均数。
3. 方 差
最重要的变异程度的度量
反映了关于平均值的变异程度
对于总体:
对于样本:
4. 标 准 差
Mean =
s =
11 12 13 14 15 16 17 18 19 20 21
11 12 13 14 15 16 17 18 19 20 21
Data B
Data A
Mean =
s =
11 12 13 14 15 16 17 18 19 20 21
Mean =
s =
Data C
标准差的比较
5. 变异系数
反映相对于平均值的变异程度,又称标
准差系数
可用来比较两组或多组数据的变异程度
公式 ( 对样本):
变异系数的比较
Stock A: 去年的平均价格 = $50
标准差 = $5
Stock B: 去年的平均价格 = $100
标准差= $5
变异系数:
Stock A: 10%
Stock B: 5%
三、异常值的检测的经验法则
1.对于钟型分布(正态分布)的数据:
约68%的数据与平均数相差在1个标准差之内;
约95%的数据与平均数相差在2个标准差之内;
几乎所有的数据与平均数相差在3个标准差之内;
与平均数的距离超过3个标准差的数据应作为异常值对待。
2. 探索性的数据分析
五数概括:
最小值;下四分位数;中位数;上四分位数;最大值。
盒型图:
盒 型 图
中位数
Q
3
Q
1
上限
下限
440
680
S
410
Q1
530
Q2
560
Q3
590
L
700
四分位点内距(IQR) =
Q3 –Q1 = 590 - 530 = 60
界限(Fences) ={(IQR), Q3+(IQR )} = {440, 680}
异常值(Outliers)是 700和 410,是界限(440和680)之外的两个极端值 , 需要关注.
盒型图结果的解释:
数的范围是 410 到 700.
约有一半的数小于 560,约一半的数大于 560.
约有一半的数在530和 590之间.
约有四分之一的数小于 530,约有四分之一的数大于 590.
440
680
S
410
Q1
530
Q2
560
Q3
590
L
700
25%
50%
25%
四、两个变量相关性的度量
对于数量型的变量:
协方差
相关系数
注: 描述的是线性相关关系的程度
例:一个小企业主想评估一下广告对销售水平的影响.
收集了成对的观测数据, 每对数据是由每月的广告支出和销售量组成
散点图可以描述广告支出和销售量之间的关系
散点图
广告支出
销售
广告支出与销售量“正相关”
广告支出与销售量呈现“线性关系”
计算协方差和相关系数来度量广告支出和销售水平的相关关系
Sx Sy 分别是 x y 的标准差
通过以下过程计算相应的值
同样, sy =
COV(X,Y)=0
r or r →
→+1
→ 0
→ -1
强的正线性关系
没有线性关系
强的负线性关系
or
COV(X,Y)>0
COV(X,Y)<0
用EXCEL对数据进行描述分析
数据录入;
图表;
数据分析;
计算描述统计量;
协方差和相关系数
目录
关于统计、数字与图表
常用统计数据
SPSS基本应用
Excel中的图表绘制
图表的复制与粘贴
SPSS从安装到应用
SPSS从安装到应用
SPSS从安装到应用
目录
关于统计、数字与图表
常用统计数据
SPSS基本应用
Excel中的图表绘制
图表的复制与粘贴
目录
关于统计、数字与图表
常用统计数据
SPSS基本应用
Excel中的图表绘制
图表的复制与粘贴
Thank you!