统计软件的种类很多。
有些功能齐全,有些价格便宜;
有些容易操作,有些需要更多的实践才能掌握。
还有些是专门的软件,只处理某一类统计问题。
面对太多的选择往往给决策带来困难。
这里介绍最常见的几种。
统计软件
几种常用的统计软件
典型的统计软件
SAS
SPSS
MINITAB
Eviews
Excel
MINITAB
STATISTICA
Excel
SAS
SPSS
SAS:这是功能非常齐全的软件;尽管价格相当不菲,许多公司,特别是美国制药公司,还是因为其功能众多和某些美国政府机构认可而使用。尽管现在已经尽量“通俗化”,但仍然需要一定的训练才可以进入。也可以对它编程;但对于基本统计课程则不那么方便。
SPSS:很受欢迎;容易操作,输出漂亮,功能齐全,价格合理。它也有自己的程序语言,但基本上已经“通俗化”。它对于非专业统计工作者是很好的选择。
Minitab:这个软件是很方便的功能强大而又齐全的软件,在我国用的不如SPSS与SAS那么普遍。
Eviews:一个主要处理回归和时间序列的软件。采用计量经济学方法与技术,对社会经济关系与经济活动的数量规律进行“观察”,是一个得到普遍使用计量经济学软件包。
Excel:凡是有Microsoft Office的计算机,基本上都装有Excel。但要注意,有时在装Office时没有装数据分析的功能,那就必须装了才行。当然,画图功能是都具备的。对于一般分析,Excel还算方便,但随着问题的深入,Excel需要使用函数。当然专门一些的统计推断问题还需要其他专门的统计软件来处理。
统计软件的种类很多。只要学会使用一种软件或编程软件,使用其他类似的软件也不会困难;最多看看帮助和说明即可。
学习软件的最好方式是需要时在使用中学。
虽然Minitab、SPSS、SAS等知名的统计分析软件的计算机能力超强,提供的统计结果非常详尽,但它们在市面上的普及率非常低。
Excel具有易学易懂的特性,虽然有些功能和SPSS、SAS无法相提并论,但对绝大多数人而言,Excel在统计方面的应用已经足够用了。
强大的数据分析能力
操作简便
图表能力
数据库管理能力
宏语言功能
样式功能
对象连接和嵌入功能
Excel具有强有力的数据库管理功能、丰富的宏命令和函数、强有力的决策支持工具,它具有以下主要特点:
Excel在统计中的应用
从统计方法的构成分类
统计方法
描述统计
推断统计
描述统计:
是用图形、表格和概括性的数字对数据进行描述的统计方法。
内容:
搜集数据
整理数据
显示数据
目的
描述数据特征
找出数据的基本规律
0
25
50
Q1
Q2
Q3
Q4
¥
= 30 s2 = 105
推断统计:
研究如何根据样本数据对总体进行估计、假设检验、预测和其他推断的统计方法。
内容
参数估计
假设检验
目的
对总体特征作出推断
可靠性测度
样本
总体
第一节 数据的输入
第二节 描述统计
第三节 推断统计
第一节 数据的输入
1. 数据的输入
2. 数据的引用
用Excel录入数据的基本规则
数据输入使用列表格式,每一行称为一个观测,每一列称为一个变量;
数据表的第一行中输入变量名;
在原始数据中设置一个标识变量,例如:观测序号、问卷编号;
尽量用数字编码来表示分类变量;
对于缺失值,将相应的单元格保留为空白。
1.数据的输入
Excel 的数据输入
*针对数据量较小,没有规律的数据
手工输入
自动生成
数据库导入
Internet导入
*针对有规律的数据,如连续的数字或字符序列
*针对数据库已有数据
*针对Internet搜索数据
手动输入
建立一个新的Excel文件之后,便可进行数据的输入操作。
Excel中以单元格为单位进行数据的输入操作。一般用上下左右光标键,Tab键或鼠标选中某一单元格,然后输入数据。
Excel中的数据按类型不同通常可分为四类:
数值型; 字符型; 日期型; 逻辑型。
Excel根据输入数据的格式自动判断数据属于什么类型。
日期型的数据输入格式为“年/月/日”,“年-月-日” ;
逻辑型的数据,输入“true”(真)或 “false”(假);
若数据由数字与小数点构成,Excel自动将其识别为数字型;
Excel允许在数值型数据前加入货币符号,Excel将其视为货币数值型;
Excel也允许数值型数据用科学记数法表示,如2×109在Excel中可表示为2E+9。
除了以上三种格式以外的数据,Excel将其视为字符型处理。
自动生成
Excel提供了数据填充功能,用以自动生成有规律的数据,以简化数据的输入工作
(1)在一行或一列中产生相同数据
操作步骤如下;
①向某单元格输入第一个数据。
②鼠标指向此单元格填充句柄变为+号。
(当前单元格矩形框右下角实点)
③按住鼠标左键,向下(也可以是向上、左或右)拖动。
(2)在一行或一列中产生等差或等比数列
操作步骤如下:
①向某单元格输入第一个数据,从而确定数列中第一个数据及所在位置;
②单击“编辑”“填充”子菜单,选择“序列”菜单项。出现对话框;
③在对话框中,确定如下内容:数列在工作表上是以行还是列方式生成;数列的类型;对日期型数列,按哪种时间单位增加或减少:确定等差或等比数列步长值及其数列的终止值。
④单击“确定”按钮,即可生成相应数列。
Internet导入
*创建Web查询,“数据”—“导入Web查询”—“新建Web查询”,打开“新建Web查询”对话框,在地址栏中输入数据源的web地址,打开网页,单击所需数据旁的“ ”标志,单击“导入”,可将数据导入到Excel中,此外,Excel中有“数据”—“刷新”命令可以更新从Web中导入的数据。
2.数据的引用
相对引用;
绝对引用;
混合引用;
相对引用:使用单元格所在的列标和行号作为引用,(例如A1),这是最常用的单元格引用方法。
特点:
如果公式所在单元格的位置改变,引用也随之改变。如果多行或多列地复制公式,引用会自动调整。
默认情况下,公式使用相对引用。
在大量类似公式时,可以节约输入公式的时间。
例如: 求和;
绝对引用:当在公式中需要引用一个固定的单元格内容,无论将公式复制或填充到什么位置都不发生改变时,需要绝对引用。
绝对单元格引用格式为:
在列标和行号前分别加上“$”符号,例如绝对引用A1单元格,表示为:$A$1。
如果公式所在单元格的位置改变,绝对引用保持不变。如果多行或多列地复制公式,绝对引用将不作调整。
例如:计算构成比。分母是不变的。
混合引用:
①具有绝对列和相对行,绝对引用列采用$A1、$B1等形式;
②具有绝对行和相对列,绝对引用行采用A$1、B$1等形式。
如果公式所在单元格的位置改变,则相对引用改变,而绝对引用不变。如果多行或多列地复制公式,相对引用自动调整,而绝对引用不作调整。
例如: 乘法表
为操作简便,可采用F4功能键加“$”符号。
例如:将光标放在A1旁边,第一次按F4,会变为$A$1,第二次按F4变为A$1,第三次按变为$A1,第四次回到相对引用状态A1
复制粘贴计算公式的数据:
①选中计算结果的单元格,点击主菜单中“复制”图标。
②选中需放置的单元格,点击“编辑”菜单,选择“选择性粘贴”选项,在出现的选择性粘贴对话框中选择“值”,单击“确定”按钮。
第二节 描述统计
作为一条普遍的规则,当一批数据中的数据有20个左右或者更多的时候,就应该制作表格或者图表。
这样,数据的重要特征就能从表格或者图表中反映出来。
其目标也是提高数据分析和数据解释的效率——这是决策过程的两个关键方面。
1. 数据的组织和整理
(1)排序
(2)筛选
(1)排序:是按照某一或某几个特定字段重新排列数据
*排序按钮
排序按钮是一种比较简单的方法,选择要排序的单元格区域,点击“常用”工具栏上的排序按钮“ ”,即可对选择的区域进行升序或降序排列
*排序命令 首先选中整个数据区域,执行“数据”—“排序”命令,打开“排序”对话框,在“主要关键字”、“次要关键字”、“第三关键字”中选择标题,选择要排序的次序。在选项按钮打开“排序选项”对话框,对排序的进行设置,确定完成数据的排序。在自定义排序中,可以事先在“选项”的“自定义序列”中设置自己的序列次序
例 某集团公司欲在某地区投资于医疗卫生事业,为了减少风险,获得利润,该集团企划部门决定先了解一下市场潜力。企划部王经理随机访问了该地区几家医院中就医的36名患者,询问其等候看病的时间,根据这些数据,王经理会得到什么信息呢?
对数据进行排序
①打开“等候时间”工作表。
②选定单元格A1:B37区域。
③在菜单中选择“数据”中的“排序”选项,弹出排序对话框。
④在排序对话框窗口中,选择“主要关键字”列表中的“等候时间”作为排序关键字,并选择按“升序”排序。由于所选取数据中已经包含标题,所以在“我的数据区域”中选择“有标题行”,然后单击“确定”按钮,即可得到排序的结果。
从数据排序结果可以看出,数据按等候时间从1分钟到55分钟的递增顺序排列,从而提供了患者等候时间的变动范围。
“排序”功能 不能对总体的分布状况进行描述。
如果想知道每个时间段上有多少个患者等待,可利用Excel中的“分类汇总”功能完成这个任务。
(2)筛选:是查找和处理区域中数据子集的一种比较快捷
的方法
*自动筛选 适用于简单的筛选。选定要筛选的内容,执行“数据”—“ 筛选”—“自动筛选”命令,工作表每列标题行的右侧会出现筛选按钮 ,点击筛选按钮,在下拉列表框筛选数据。
用Excel进行数据筛选
8名学生的考试成绩数据
高级筛选的重点在条件区域。在筛选数据的工作表中,在条件区域建立筛选条件。不同变量的条件位于同一行,代表“并”;不同行代表“或”
单列多个条件 一列具有多个筛选条件,可以直接在一列从上到下键入条件,如表1,筛选统计学成绩小于80或是大于90的学生
>90
< 80
统计成绩
姓名
>70
数学成绩
>70
英语成绩
>70
>70
经济成绩
统计成绩
姓名
>90
>75
>85
英语成绩
数学成绩
统计成绩
姓名
多列具有单个条件 在多列中查找需要的数据时,在条件区域的同一行键入条件,如表2 ,筛选四门功课都>70的学生
多行或多列具有单个条件 满足多行或多列条件的数据,需在条件区域的不同列中输入条件,如表3,筛选统计成绩>85或者数学成绩>75或者英语成绩>90的学生
表1
表2
表3
高级筛选妙用:剔除重复数据
在实务中,我们的数据经常会出现重复数据的情况,此时若逐一剔除,在大量数据的情况下就太太麻烦了。我们可以巧妙地运用高级筛选来解决这一问题。在条件区域不设任何条件,选择”数据”-“筛选”-“高级筛选“,在”高级筛选“对话框中勾选”选择不重复的记录“,确定后就可以得到无重复数据的结果。如图。
例题:考试成绩
2. 表格
(1)频数分布表
(2)数据透视表
(1)频数分布表
当数据量较多时,可以把数据进一步压缩成汇总性的表格,以更好的表现数据、分析数据以及解释其中可能发现的数据特征。
可以很容易的把数据的取值范围分成若干个区间,然后按照这些区间把数据归入其中。
以表格的形式进行上述数据组织整理的形式称为频数分布。
构建频数分布时,要注意的3个方面:
1)确定表格中适当的组数;
2)确定合适的组距;
3) 分隔分组区间防止互相重合。
等距分组步骤
1)确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。一般情况下,组数不应少于5组,也不应多于15组。
在实际分组时,可以按 Sturges 提出的经验公式来确定组数K(四舍五入取整)
例如30个数据:
2) 确定各组的组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即
组距=(最大值 - 最小值)÷组数
例:数据中最大值为128,最小值为84,则
组距=(128 - 84)/6=。
组距宜取5或10的倍数;(近似值)
在实践中,组数和组距要通过反复的实验确定,最终确定出最有意义的组数和组距的组合。
3)确定组限:组限是分组的数量界限,是表明每组界限的两头数值。
下 限(low limit) :一个组的最小值
上 限(upper limit) :一个组的最大值
组限的具体形式有:重合组限和间断组限;闭口组限和开口组限。
确定组限的原则1:最小一组的下限必须包含数列中最小变量值;最大组的上限必须包含数列中最大变量值。
确定组限的原则2:遵循不重不漏的原则。
★“不重”是指一项数据只能分在其中的某一组,不能在其他组中重复出现;
★“不漏”是指组别能够穷尽,即在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。
4)根据分组计算频数,整理成频数分布表:将原始数据按照各自的大小分配到各组中。
30
2
5
13
7
3
次数(频数)
100
10
频率(%)
合计
120—130
110—120
100—110
90—100
80—90
按周加工零件数分组
频数分布表
重合组限、闭口组限
对于重合组限的形式,为解决“不重”的问题,统计分组时习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于其一组上限的变量值不算在本组内,而计算在下一组内。
重合组限既适用于连续型变量分组也适用于离散型变量分组,应用非常广泛。
对于离散变量,可以采用相邻两组组限间断的办法(间断组限)解决“不重”的问题。
30
合计
2
120—129
5
110—119
13
100—109
7
90—99
3
80—89
次数(频数)
按周加工零件数分组
常用函数
• 财务函数 • 日期与时间函数
• 数学和三角函数 • 统计函数
• 查找与引用函数 • 数据库函数
• 文本函数 • 逻辑函数
• 信息函数 • 工程函数
统计函数模块中有76个统计函数,这些函数覆盖了统计基本理论与分析方法。频数分布函数是其中的一个。
A 利用频数分布函数
频数分布函数 (FREQUENCY)
可以对一列垂直数组返回某个区域中数据的频数分布。
频数分布函数 (FREQUENCY)的语法形式为:
FREQUENCY(data_array,bins_array)
其中:Data_array为用来编制频数分布的原始数据
Bins_array为频数或次数的接收区间。
使用时:先对数据进行排序,以了解全部数据的变动范围;然后选择全部数据的分组组数;再确定分组的组限,最后对各组数值所出现的频数进行计数。
统计函数“FREQUENCY”创建频数分布表步骤是:
1.列出组距分组,以及各组的上限值。
2.选择与接受区域相临近的单元格区域,作为频数分布表输出的区域
3.选择插入—函数中的“FREQUENCY”函数
4.在对话框Date-array后输入原始数据区域,在Bins-array后输入各组上限区域
5.由于是数组操作,所以不能按“确定”,应该同时按下ctrl-shift-Enter组合键,即得到频数分布
统计函数—FREQUENCY
注意:
Excel所说的“频率”实际上是“频数(次数)”;
“FREQUENCY”函数进行频数统计时采用的是“上组限在内”的原则。为了符合统计中“上组限不在内”原则,因此,分组时相邻组限不应重合。
例 等候看病的时间分组
(一)简介:
直方图工具,用于计算数据的个别和累积频率,再根据有限集中某个数值元素的出现次数建立图表。
(二)操作步骤:
1.用鼠标点击表中待分析数据的任一单元格。
2.选择“工具”菜单的“数据分析”子菜单。用鼠标双击数据分析工具中的“直方图”选项 。
3.出现“直方图”对话框,对话框内主要选项的含义如下:
输入区域:在此输入待分析数据区域的单元格范围。
接收区域(可选):在此输入接收区域的单元格范围,该区域应包含一组可选的用来计算频数的边界值。这些值应当按升序排列。只要存在的话,Excel 将统计在各个相邻边界值之间的数据出现的次数。如果省略此处的接收区域,Excel 将在数据组的最小值和最大值之间创建一组平滑分布的接收区间。
B 利用直方图工具产生频数分布表
标志:如果输入区域的第一行或第一列中包含标志项,则选中此复选框;如果输入区域没有标志项,则清除此该复选框,Excel 将在输出表中生成适宜的数据标志。
输出区域:在此输入结果输出表的左上角单元格的地址用于控制计算结果的显示位置。如果输出表将覆盖已有的数据,Excel 会自动确定输出区域的大小并显示信息。
累积百分比:选中此复选框,可以在输出结果中添加一列累积百分比数值,并同时在直方图表中添加累积百分比折线。如果清除此选项,则会省略以上结果。
4. 按需要填写完“直方图”对话框之后,按“确定”按扭即可。
(三)结果说明:完整的结果包括三列数据,第一列是数值的区间范围,第二列是数值分布的频数,第三列是频数分布的累积百分比。
例子:数学成绩
2. 利用数据透视表进行数据整理
在数据处理过程中,不仅需要处理以数据形式表现的资料,有时也需要处理以文字形式表现的资料,如性别、职业、文化程度等。通过数据透视表则既简捷又方便。
数据透视表是Excel中强有力的数据列表分析工具。它不仅可以用来作单变量数据的次数分布或总和分析,还可以用来作双变量数据的交叉频数分析、总和分析和其它统计量的分析。
前者称为单向表,后者称为交叉表。
单向表
例 某移动通讯公司要制定新一年的销售计划,需要向市场了解移动用户对数字移动电话类型的需求。
经过问卷设计,在该地区抽取了1000个样本进行问卷调查,获得关于移动电话用户消费行为的一些数据资料
试根据工作表中的数据分析该地区移动电话用户的电话类型偏好。
①打开“移动电话调查”工作表
②单击“数据”菜单中的“数据透视表和透视图”选项,Excel弹出数据透视表向导对话框。
③根据向导要求,第1步是指定“数据源类型”和确定所需创建的“报表类型”。选择“数据列表或数据库”作为数据源,选择“数据透视表”作为报表类型。最后单击“下一步”。
④第2步是确定数据区域,本例中数据所覆盖区域为A1:D1001单元格,单击“下一步”按钮,向导给出第3步操作对话框窗口。
⑤第3步确定数据透视表的位置。选择现有工作表,并利用鼠标将数据透视表的位置确定在E1单元格中。
⑥单击“布局”,Excel弹出对话框窗口,选择右边的“数字移 动电话类型”字 段,并将它拖 到左边的“行” 区,再选择“数字移动电话类型” 字段,将其拖放在“数据”区域中, 显示为“计数项: 数字移动电话类型”,以便进行数据汇总。
⑧如果想选择数据显示方式,可单击图右侧的 “选项”按钮,则EXCEL 弹出“数据显示方式”。
在“数据显示方式”的下拉选项中确定“占同列数据总和的百分比”选项, 单击“确定”按钮,则布局调整完毕。
再单击 “确定”按钮,回到数据透视表步骤3。
⑦双击数据区域中的“计数项:数字移动电话类型”字段,打开“数据透视表字段”对话框,在“汇总方式”列表中选择“计数”。
⑨单击数据透视表步骤3中的“完成”按钮,数字移动电话调查单向表完成。
单向表描述了各移动电话用户对移动电话类型偏好的分布情况。
从表中可以看出“全球通”是该地区的主要消费特征,其次是“长白行”,因而该公司应当注重这两种电话类型的开发与服务。
交叉表
交叉表用于表示两个用文字表示的品质变量之间的关系,用于市场研究,进行市场机会、市场细分分析等。
例 该公司市场部经理希望根据上例中的调查结果,确认不同性别的用户,其移动电话类型偏好是否存在着不同。
①打开 “移动电话调查”工作表。
②从“数据”菜单中选择“数据透视表和数据透视图”选项,得到“数据透视表对话框”窗口。在第1步之中选择“数据清单或数据库”与“数据透视表”,单击“下一步”按钮。
③在第2步中,确定数据区域A1:D1001,单击“下一步”按钮。
步骤:
④在第3步中,确定数据透视表的位置,但将其位置调整到“H1”单元格。然后,单击“布局”按钮,打开“布局”对话框。
⑤将对话框右边的“数字移动电话类型”字段拖到左边的
“行”区作为分组变量,再将右边的“性别” 字段拖到“列”区,作为交叉分析的变量,最后将右边的“性别” 字段拖放到“数据”区域中,并选择计数项。
如果希望结果是以百分比的形式显示,则可双击数据区域中的“计数项,性别”,则会弹出“数据透视表字段”对话框。选择“占同列数据总和的百分比”选项,来表示所出现的频率,最后,单击“确定”按钮,又回到“布局”对话框。
⑥单击“确定”按钮,回到第3步,要注意数据透视表的位置定在单元格H1,最后,单击“完成”按钮,得到交叉表.
从交叉表中可以看出,对于移动电话类型来讲,其性别之间并无太大的差异,无论是“长白行”,还是“全球通”,或是“神州行”,其男女之间的偏好程度都不是特别大,这说明在移动电话类型的生产与营销过程中可以不考虑性别的差异。当然这只是一种数据整理的结果,要想准确地说明移动电话消费是否存在着性别差异,还需要使用推断统计方法进行假设检验。
例子:根据英美两个国家的销售员销售的数据:收到的订单金额、订单的日期、订单号做数据透视表
要求:
1: 创建报表视图 ;设置报表布局 ;转动报表;
2: 创建页视图 ;
3: 更改数据汇总的方式;
4: 在同一拖放区使用两个字段
5: 按季度组合订单日期
6: 交换位置以获得不同的视图
7: 确定每位销售人员每季度的销售订单数量
8: 格式化报告
9: 确定奖金百分比
10: 关闭自动分类汇总
11: 确定奖金额
练习 1:创建报表视图,设置报表布局,转动报表
在工作表中,选择包含数据的任意单元格。例如,单击单元格 A4。在“数据”菜单上,单击“数据透视表和数据透视图”。将显示向导。
在向导的步骤 1 中,确保选择“Microsoft Excel 数据列表或数据库”作为第一个问题的答案。
确保选择“数据透视表”作为下一个问题的答案。
现在将设置报表布局,以算出每位销售人员的销量。将字段放置到布局中时,报表布局的外观将发生更改。
从“数据透视表字段列表”中,将“销售人员”字段拖动到标签为“将行字段拖至此处”的拖放区域。
注意 拖放字段名称后,它们仍保留在列表上,但是更改为黑体。
从“数据透视表字段列表”中,将“订单金额”字段拖动到标签为“请将数据项拖至此处”的拖放区域。
把数据从行方向转到列方向。
单击“销售人员” 字段标题。
拖放“销售人员”字段标题到“汇总”正上方的单元格。拖动时,只要获得灰色框光标并把光标指向目标单元格即可。
练习 2 : 创建页视图
在本示例中,将显示销售人员的订单金额,不同国家/地区的数量显示在不同页面上。
将“国家/地区”字段从“数据透视表字段列表”拖放到“将页字段拖至此处”区域。
可以查看三个页面。在国家/地区页面上,按国家/地区显示每个销售人员的销售数量,在“(全部)”页面上显示他们在所有国家/地区销售的总量。
练习 3:更改数据汇总的方式
假设您需要统计每位销售人员成交订单的笔数,而不是统计他们的销售额。
单击数据透视表汇总区域中的任何单元格。
单击“数据透视表”工具栏上的“字段设置”按钮 。
在“汇总方式”列表中,单击“计数”,然后单击“确定”。
现在透视表中显示每个人成交订单的笔数。
练习 4:在同一拖放区使用两个字段
要按季度比较单个销售人员的销售额.
操作步骤 从“数据透视表字段列表”将“订单日期”字段拖动到“销售人员”字段的左边。
当灰色框出现在单元格 “销售人员” 的最左边时则说明该位置是正确的:
销售结果按日显示,然后是每天的汇总。
练习 5:按季度组合订单日期
在“订单日期”字段的单元格 A7 中单击鼠标右键。注意,本步骤中不能单击报告中的任何单元格,必须单击包含在“订单日期”字段中的某个单元格。
在快捷键菜单上指向“组及显示明细数据”,单击“组合”。
在“组合”对话框中,单击“季度”。如果同时选择了“月”,请单击取消选择它,然后单击“确定”。
现在销售额数据在左边按季度分开,每位销售人员的姓名列在每季度的右边。
内部字段中的项可以按需重复,外部字段的项只能显示一次。在本报告中,“销售人员”是内部字段,所以所有销售人员的姓名列在每个季度的旁边。“订单日期”是外部字段,所以一次只列出一个季度。
要使标题与新的组合匹配,需要重命名订单日期字段。 选择“订单日期”字段。键入新名字“季度”,然后按 Enter。
练习 6:交换位置以获得不同的视图: 按季度比较每个人的业绩
操作步骤 将“季度”字段拖到“销售人员”字段的右边。记住,该字段在报告中是灰色框,包含“季度”。在列 B 与列 C 的中间看到灰色框时释放鼠标键。
透视报告,转换内部与外部字段的位置。在本报告中,“季度”是内部字段,依次列出了所有四个季度。现在“销售人员”是外部字段,所以销售人员的姓名只列出了一次。
练习 7:确定每位销售人员每季度的销售订单数量
方法是将“订单金额”字段再次拖动到“数据”拖放区,然后选择不同的汇总函数。
在“数据透视表字段列表”上单击“订单金额”,并将它拖动到包含订单金额字段的任何地方。例如,将它拖动到单元格 C6。
该报告现在有两个数据字段:“订单金额总和”与“订单金额总和2”。
单击任何标为“订单金额总和2”的单元格,然后单击“数据透视表”工具栏上的“字段设置”按钮 。
在“汇总方式”列表中,单击“计数”,然后单击“确定”。
现在这两个数据字段是“订单金额总和”与“订单金额计数2”。
“订单金额计数2”单元格现在显示每位销售人员每季度的销售数。
练习 8:格式化报告
单击报告,然后单击“数据透视表”工具栏上的“设置报告格式”按钮 。
在“自动套用格式”对话框中,单击“报告 5”,然后单击“确定”。
现在更改“订单金额计数2”字段的名称。
操作步骤 选择“订单金额计数2”字段标题。键入新的名称“订单 #”,然后按 Enter。
如果希望列 D 更窄些以放置新的名字,请双击列标题的“D”右边的边界。
练习 9:确定奖金百分比
销售人员每季度若销售额超过 ¥25,000,会获得 10% 的奖金,否则 会得到 7% 的奖金。这里是公式: =IF('订单金额’>25000,10%,7%)
单击报告内部。然后在“数据透视表”工具栏上单击“数据透视表”,指向“公式”,然后单击“计算字段”。
在“名称”框中输入公式名。例如,输入“奖金 %”。
在“字段”列表中,单击“订单金额”,然后单击“插入字段”。
接着输入公式的其他部分:>25000,10%,7%),然后单击“确定”。
名为“奖金 %”的新字段将插入报告中。
结果不是百分号。将奖金百分比格式化。操作步骤 单击“奖金 %”字段内部。例如,单击单元格 D6。单击“数据透视表”工具栏上的“字段设置”按钮 。然后单击“数字”。在“分类”列表中单击“百分比”,并在“小数点”位数列表中单击向下箭头到达“0”(消除小数位数)。单击“确定”两次。
练习 10:关闭自动分类汇总
“林丹” 四季度的总的奖金百分比是 10%,虽然她每个季度都是7%。是因为自动分类汇总打开了。又由于总和大于 ¥25,000,所以计算字段公式在带有分类汇总的行上输入 10%。为了避免混淆,应该关闭分类汇总。
单击“销售人员”字段中的任何地方,因为您希望关闭该字段的分类汇总。例如,单击单元格 A6。
在“数据透视表”工具栏上单击“数据透视表”,然后单击“分类汇总”清除复选标记。(如果在菜单上看不到“分类汇总”,请单击底部的展开按钮以展开菜单。)
这样将关闭分类汇总。
练习 11: 确定奖金额
创建另一个计算字段公式以确定每位销售人员每季度的奖金额。这里是公式: = 订单金额 * 奖金 %
操作步骤 在“数据透视表”工具栏上,单击“数据透视表”,指向“公式”,然后单击“计算字段”。在“名称”框中输入公式名。例如,键入奖金 。
在“公式”框中,输入公式:= 订单金额 * 奖金 %
在数据透视表外部创建公式,汇总某人的季度奖金额。
3、图表处理
(1)基本图表的处理
(2)组合图表
(1)基本图表处理
图表是使用Excel进行各种运算分析时一个非常有用的工具,通过图表,可以更加直观地提示数据之间的内在关系和变化趋势。
Excel中提供了14种内置的图表类型,每种图表类型中含有2~7 种子图表类型,还有20 种自定义图表类型可以套用。
基本图表处理
*建立图表
单击常用工具栏上的 按钮,出现图表向导,选择正确的图表类型
确定数据源
设定图表选项
*设置图表格式 方法:右击图表每一元素(如图表区、坐标轴、图表网格线图例等),在快捷菜单中逐一设置
右击图表区域,“图表区格式”-“填充效果”-“纹理”
右击绘图区,“绘图区格式”-“填充效果”-“双色”
统计图
数据类型与显示
数量数据
品质数据
分组数据
总计表
茎叶图
条形图
圆形图
环形图
直方图
箱线图
折线图
原始数据
时序数据
线
图
雷达图
多元数据
散点图
1.条形图 (bar Chart)
条形图是用宽度相同的条形的高度或长短来表示数据变动的图形。
条形图有单式、复式等形式。
在表示定类数据的分布时,是用条形图的高度来表示各类别数据的频数或频率。
绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图。
【例】一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天对50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次 。右边就是记录的原始数据
绿色
健康饮品
条形图
2.饼图(pie Chart)
也称圆形图,是用圆形及圆内扇形的面积来表示数值大小的图形
主要用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有用
绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形面积表示,这些扇形的中心角度,是按各部分数据百分比占3600的相应比例确定的
饼图
3.环形图(annular chart)
环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示
环形图与圆形图类似,但又有区别
圆形图只能显示一个总体各部分所占的比例
环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环
环形图可用于进行比较研究
8%
36%
31%
15%
7%
33%
26%
21%
13%
10%
非常不满意
不满意
一般
满意
非常满意
图 甲乙两城市家庭对住房状况的评价
4. 直方图
用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布
在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram)
直方图下的总面积等于1
直方图工具
操作步骤:
1.用鼠标点击表中待分析数据的任一单元格。
2.选择“工具”菜单的“数据分析”子菜单。用鼠标双击数据分析工具中的“直方图”选项 。
3.出现“直方图”对话框,对话框内主要选项 :
输入区域;
接收区域(可选);
标志;
输出区域;
累积百分比;
柏拉图:选中此复选框,可以在输出表中同时显示按降序排列频率数据。如果此复选框被清除,Excel 将只按升序来排列数据。
图表输出:选中此复选框,可以在输出表中同时生成一个嵌入式直方图表。
例 已知一所大学34名学生某一学期高等数学成绩,用直方图来描述。
Excel所说的“频率”实际上是“频数(次数)”;
Excel在对数据分组时总会增加一组(大于接受区域最后一个组限的数据个数),即使这个组中没有数据;
直方图问题:
1. 各条形之间不应该有间隔;
2. 横轴标注的刻度应该是连续区间;
要使直方图相连,操作步骤如下:
1. 鼠标指向某柱形,单击鼠标右键;
2. 选择“数据系列格式”,弹出对话框;
3. 单击“选项”,将“分类间距”从150改为0;
4. 单击“确定”,得到不分开的直方图。
横轴刻度变为连续区间,步骤:
双击图形横轴,把横轴字体颜色改为白色,字体背景改为透明,把原来的横轴数值隐藏起来;
然后在图形中添加一个文本框,在横轴的对应位置标出相应数值;
5.折线图(frequency polygon)
折线图也称频数多边形图
是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉
折线图的两个终点要与横轴相交,具体的做法是
第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴
折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的
折线图的绘制
折线图与直方图
下的面积相等!
折线图的操作
右键:源数据——系列——添加——录入频数——确定,即得折线图
在图中右键——清除。即可得单一的折线图
时间序列数据—线图
【例】已知1991~2000年我国城乡居民家庭的人均收入数据如表。试绘制线图
¥
$
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
农村居民
城镇居民
年份
1991~2000年城乡居民家庭人均收入
时间序列数据—线图
6.多变量数据—雷达图
雷达图(Radar Chart)是显示多个变量的常用图示方法
在显示或对比各变量的数值总和时十分有用
假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比
可用于研究多个样本之间的相似程度
多变量数据—雷达图的制作
设有n组样本S1,S2,…Sn,每个样本测得P个变量X1,X2,Xp,要绘制这P个变量的雷达图,其具体做法是
先做一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,再将这P个点与圆心连线,得到P个幅射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示
再将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一个雷达图
多变量数据—雷达图
【例】2000年我国城乡居民家庭平均每人各项生活消费支出构成数据如表。试绘制雷达图。
今天的主食是面包
食品
衣着
家庭设备用品及服务
医疗保健
交通通讯
娱乐教育文化服务
居住
杂项商品与服务
农村居民
城镇居民
项 目
2000年城乡居民家庭平均每人生活消费支出构成(%)
多变量数据—雷达图
在金融计算中,各种图表类型都有可能用到。但从数量分析的角度来看,应用最多的是散点图和带有折线或曲线的散点图。
数据透视图
——用图形的方式显示数据透视表的内容
将包含大量数据的表格变成生动的图形,使数据以更直观的形式表现出来,可以达到比表格更好的效果。
因为数据透视图与包含其源数据的数据透视表是相关联的,所以当数据透视表中的数据改变后,数据透视图也会自动随之改变,也就是说数据透视图具有自动更新功能。
数据透视图的生成1:
可在已编制的数据透视表上右击,选择菜单中的“数据透视图”;也可以编制数据透视表时就选择同时生成数据透视图
数据透视图的生成2:
数据透视图可以比数据透视表更加直观地反映数据在多维分类下的比较汇总状况。同数据透视表一样,数据透视图的页、行和列均提供了下拉列表以动态地分析数据
(1)在“数据透视表”工具栏中单击【图表向导】按钮
(2)Excel立即会在新的工作表中创建数据透视图
更改数据透视图的显示方式:
1.可以单击“图表”工具栏中的【图表向导】,可以更改图表的显示方式
2.也可以单击“图表”工具栏中的【图表类型】下拉列表,可以更改图表的显示方式
(2)组合图表
所谓组合图表是指在同一幅图表中使用不同的图表类型表示不同组别的数据,它是在用图表表示多组数据之间的对比关系时的一个常用工具。
为考察30家企业当前的股利收益率和股利支付比例,将其绘制在同一图表内。为区别两项不同的指标,分别用折线图和柱形图表示。
操作方法:先做股利收益率图,在已建立图表的图表区右击,选择“源数据”-“系列”,点击“添加”,名称设为“股利支付比例”,“值”处输入数据,确定即可。
加入股利支付率这一系列后,由于其数值均较大而拉升了纵坐标坐标值,导致股利收益率的曲线图不能很好显示,此时,如何实现对比?
图表处理
次坐标轴 次坐标轴是指在组合图表中因多组数据的数据范围差别较大时,为更好地表示多组数据的对比关系而设立两条不同的纵坐标轴的技巧。
Step1: 选中股利收益率系列,右击“图表类型”
Step2:在图表类型中选择柱形图
Step3:选中股利收益率系列,右击“数据系列格式”
Step4:在“数据系列格式”选项卡中选择“坐标轴”-“次坐标轴”
绘制统计图时的注意事项
1、通过选择恰当的图形类型、刻度、长宽比例等,使图形能够准确反映数据中包含的信息。
时间一般绘在横轴,指标数据绘在纵轴。
长宽比例要适当 ,其长宽比例大致为10:7。
一般情况下,纵轴数据下端应从“0”开始。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断。
2、图形要尽量简明。图形应该突出所要传达的信息,不必要的标签、背景、网格线等会分散读者的注意力。
3、图形应该有清楚的标题和必要的说明,明确图形的含义、计量单位、坐标轴代表的变量、资料来源等等。
4、反复加工和修改是获得优秀统计图形的重要步骤。统计软件给出的统计图形没有多少可以不加修改而直接应用。
不恰当的统计图形将带来错觉
不恰当的统计图形举例:纵横比例
下图增长速度惊人
上图增长速度缓慢
不恰当的统计图形举例:三维效果
不必要的三维效果:三维图形可能比二维图形更能吸引读者的注意,但只能用来反映变化的趋势,不能用来进行精确的比较。
不恰当的统计图形举例:压缩纵轴
Quarterly Sales
不好的图形
0
100
200
Q1
Q2
Q3
Q4
$
好的图形
Quarterly Sales
0
25
50
Q1
Q2
Q3
Q4
$
不恰当的统计图形举例:纵轴无零点
好的图形
Monthly Sales
不好的图形
36
39
42
45
J
F
M
A
M
J
$
Monthly Sales
0
39
42
45
J
F
M
A
M
J
$
36
描述统计工具
Excel还提供了一组数据分析工具,称为“分析工具库”,在建立复杂的统计分析时,使用现成的数据分析工具,可以节省很多时间。只需为每一个分析工具提供必要的数据和参数,该工具就会在输出表格中显示相应的结果。其中的一些工具在生成输出表格时还能同时产生图表。
要浏览已有的分析工具,可以单击“工具”菜单中的“数据分析”命令。
如果“数据分析”命令没有出现在“工具”菜单上,则必须运行“安装”程序来加载“分析工具库”,安装完毕之后,再通过“工具”菜单中的“加载宏”命令,在“加载宏”对话框中选择并启动它。
EXCEL 2007
如果在“数据”工具栏里没有数据分析,就点左上角的Office按钮,然后点Excel选项;
在左侧点“加载项”,然后在管理下拉列表选“Excel加载项”,再点右侧的“转到……”按钮,然后选“分析数据库”复选框,再点确定,等待安装就行了。
加载好之后,在“数据”菜单栏最右侧,分析项的数据分析就OK啦!
(一)简介:此分析工具用于对输入区域中数据的单变量分析,并提供数据趋中性和易变性等有关信息。
(二)操作步骤:
1.用鼠标点击工作表中待分析数据的任一单元格。
2.选择“工具”菜单的“数据分析”子菜单,用鼠标双击数据分析工具中的“描述统计”选项 。
3.出现“描述统计”对话框,对话框内各选项的含义如下:
输入区域:在此输入待分析数据区域的单元格范围。
分组方式:如果需要指出输入区域中的数据是按行还是按列排列,则单击“行”或“列”,“描述统计”工具可以同时对多列或多行数据进行统计分析。
标志位于第一行/列:如果输入区域的第一行中包含标志项(变量名),则选中“标志位于第一行”复选框;如果输入区域的第一列中包含标志项,则选中“标志位于第一列”复选框;如果输入区域没有标志项,则不需要选择该复选框,Excel 将在输出表中生成适宜的数据标志。
描述统计工具
输出区域:在此框中可填写输出结果表左上角单元格地址,用于控制输出结果的存放位置。整个输出结果分为两列,左边一列包含统计标志项,右边一列包含统计值。根据所选择的“分组方式”选项的不同,Excel 将为输入表中的每一行或每一列生成一个两列的统计表。
新工作表:单击此选项,可在当前工作簿中插入新工作表,并由新工作表的 A1 单元格开始存放计算结果。如果需要给新工作表命名,则在右侧编辑框中键入名称。
新工作簿:单击此选项,可创建一新工作簿,并在新工作簿的新工作表中存放计算结果。
汇总统计:指定输出表中生成下列统计结果,则选中此复选框。这些统计结果有:平均值、标准误差、中值(中位数)、众数(模式)、标准差、方差、峰值、偏斜度、区域(全距)最小值、最大值、总和、样本个数。
均值置信度:若需要输出由样本均值推断总体均值的置信区间,则选中此复选框,然后在右侧的编辑框中,输入所要使用的置信度。例如,若置信度95%计算出的总体样本均值置信区间为10,则表示:在5%的显著水平下总体均值的置信区间为
(样本均值-10,样本均值+10)。
第 K 个最大/小值:如果需要输出每个区域的数据的第 k 个最大或最小值,则选中此复选框。然后在右侧的编辑框中,输入 k 的数值。
4.填写完“描述统计”对话框之后,按“确定”按扭即可。
(三)结果说明:描述统计工具可生成以下统计指标,按从上到下的顺序其中包括样本的平均值,标准误差,中位数(Medium),众数(Mode), 样本标准差(S),样本方差(S2), 峰度值,偏度值,极差(Max-Min), 最小值(Min),最大值(Max),样本总和,样本个数(n)和一定显著水平下总体均值的置信区间。
数值描述
分布的形状
集中趋势
离散程度
众数(模式)
中值(中位数)
平均值
标准误差
方差
峰 态
标准差
区域(全距)
偏 态
众数:在总体中出现次数最多的那个标志值
不受极端值影响
具有不惟一性
数据分布偏斜程度较大时应用
中位数:一组排序的数据中,在中间位置上的数据
不受极端值影响
数据分布偏斜程度较大时应用
均值:全部数据的算术平均
易受极端值影响
数学性质优良
数据对称分布或接近对称分布时应用
集中趋势的测度值:
数据类型和所适用的集中趋势测度值
调和平均数
几何平均数
均值*
中位数
中位数*
众数
众数
众数*
适用的测度值
数量数据
定序数据
定类数据
* 表示最适合
全距:最大值与最小值的差
计算方便,易于理解
只考虑两端数据,比较粗略
方差:离差平方的平均数
准确反映数据的离散程度
数据离散程度的最常用测度值
标准差:离差平方平均数的平方根
准确反映数据的离散程度
具有量纲,实际意义清楚
数据离散程度的最常用测度值
离散程度的测度值:
数据类型和所适用的离散程度测度值
离散系数*(比较)
方差、标准差*
极差、平均差
四分位差
四分位差*
异众比率
异众比率
异众比率*
适用的测度值
数量数据
定序数据
定类数据
* 表示最适合
偏态:分布偏斜方向及程度
偏态系数 SK=0 为对称分布
偏态系数 SK>0 为右偏分布
偏态系数 SK<0 为左偏分布
SK的绝对值越大,表示偏斜的程度就越大
分布的形状:
左偏分布
均值
中位数
众数
f
x
右偏分布
众数
中位数
均值
f
x
峰度:分布集中趋势高峰的形状
峰态系数 K=0 标准正态分布
峰态系数 K<0 为扁平分布
峰态系数 K>0 为尖峰分布
分布的形状:
扁平分布
尖峰分布
与标准正态分布比较!
例:已知一所大学34名学生某一学期高等数学和英语的成绩:
高等数学:78,88,91,90,73,86,87,91,84,93,91,92,91,96,82,100,96,99,84,92,84,71,74,85,96,96,74,89,71,94,87,61, 88,92。
英语:67,76,71,60,64,82,75,76,68,76,76,72,70,77,65,82,74,71,64,80,71,62,60,66,82,64,65,71,60,73,70,55,64, 78。
现要求对成绩进行描述统计分析。
主要步骤如下:
1. 选择“工具”菜单的“数据分析”子菜单。
2. 用鼠标双击选定数据分析工具中的“描述统计”选项, 出现“描述统计”对话框。
3. 在输入区域中输入待分析数据区域。
4. 分组方式:单击“逐列”。
5. 选中“标志位于第一行”复选框
6. 在“输出区域”框输入单元格地址D1。
7. 选汇总统计、平均数置信度、第K 大值/小值:本例中输入3。
注:输入区域和输出区域除了可直接输入单元格地址外,也可点击所圈的图标,用鼠标拖曳所需区域。
案例研究:
“Old Faithful”间歇喷泉的喷发
间歇喷泉是一种向空中喷出热水和热气的温泉,其名字的由来是因为这种喷泉要经过一段相对稳定的状态后才能喷发。有时它喷射的时间间隔不太稳定。
Ohio(俄亥俄)州黄石国家公园中的“Old Faithful”间歇喷泉是世界上最著名的间歇喷泉之一。参观者们都希望到公园后不用等多久就能看到喷泉的喷发。
国家公园的服务部门就在喷泉处安装了一个指示牌预报下次喷泉喷发的时间如下表所示。
注:数据来源:《应用线性回归》第二版,作者:S.Weisberg。
3:01am
55分
1分41秒
2:06
中午吃饭
12:44am
58分
1分42秒
11:46
11:41am
89分
4分33秒
10:12
9:57am
58分
1分51秒
8:59
8:54am
82分
接近4秒
7:32
7:33am
58分
1分55秒
6:35
预测下一次喷发时间
预测区间
持续时间
开始时间
“Old Faithful”间歇喷泉喷发时间表
那么,公园是如何得到这个结果的呢?为了了解喷泉喷发间隔时间的规律,以1978年8月至1979年8月间喷泉222次喷发的间隔时间记录为样本,进行分析。
①打开“喷泉”工作表。
②单击“工具”菜单,选择“数据分析”选项,打开“直方图”对话框。
③在输入区域输入单元格B1:B223,选择“标志”,在输出区域中输入单元格“D1”,选择“图表输出”,单击“确定”按钮。
将所得的直方图进行修饰,便得到下图:
从图中可以看出,喷泉喷发的间隔时间一般在40~100分钟内变
动。但是,在数据中明显地存在两个子群,它们的中心大约分
别在喷发间隔55分钟和80分钟,这样在图形中间形成一个缺口。
间歇时间大致呈现出双峰分布。
然而我们利用描述统计分析工具所得的结果与此大不一样。
利用描述统计分析工具分析该喷泉的间隔时间,
方法如下:
①打开 “喷泉”工作表。
②从“工具”菜单中选择“数据分析”选项,打开“描述统计”对话框。
③在输入区域中输入“B1:B223”,选择标志位于第一行。“输出区域”选择D19。
⑥选择“汇总统计”和“平均数置信度”,单击“确定”按钮,结果如下表所示。
“Old Faithfaul” 喷泉间隔时间描述统计表
峰度
样本方差
标准差
75
众数
75
中位数
标准误差
平均数
数值
统计指标
置信度
222
单位数
15764
合计
95
最大值
42
最小值
53
全距
偏度
数值
统计指标
由于描述统计指标的概括性与抽象性,容易使人对事物的真实情况产生误解。例如:从上表中可以看出平均间隔时间大约为71分钟。事实上,间歇时间大致呈现双峰分布,因而这一平均数并不能确切描述上述两个子群中任何一个子群的特征。
喷泉喷发间歇时间的主要描述统计指标
最大值
中位数
最小值
标准差
平均数
155
67
样本数
喷发时间>=3分钟
喷发时间<3分钟
间歇时间
统计指标
按喷发持续的时间将观察值分成两组,可以对两种喷发的不同特性在更多细节上作出检测。下表是以喷发持续的时间是少于还是大于3分钟为依据分组,分别列出喷发间歇时间的主要统计指标。
根据上述统计指标和图表,可以得出一个简单的预测规律:一个持续时间少于3分钟的喷发将必然伴随着一个大约55分钟的间歇;一个持续时间大于3分钟的喷发将必然伴随着一个大约80分钟的间歇。
这样,通过一个非常简单的规则,国家公园的工作人员能够保证来黄石公园的游客不用等很长时间就会观看到间歇喷泉的喷发。
5