统计、计算机与统计软件现代生活越来越离不开计算机了最初的计算机仅仅是为科学计算而设计和建造的。统计是大型计算机的最早用户,现在仍然是数值计算的主要用户计算机的使用,从计算机语言到“通俗”地点击鼠标,输出结果也从数字输出到各种可以想象得到的形式。输入数据,点鼠标做一些选项,就可得到漂亮结果但其中充满了危险的陷阱/计算机无法识别你的统计方面的错误2010/9/151
国外法律或医学方面的软件都有不少警告,不时提醒你去咨询律师或医生。但统计软件则不那么负责。只要数据格式无误、方法不矛盾(比如不用零作为除数)就一定给你结果,而且一般没有任何警告。另外,统计软件输出的结果太多;即使是同样的方法,不同软件输出的内容还不一样;有时同样的内容名称也不一样。这就使得使用者大伤脑筋。因此,就应该特别留神,明白自己是在干什么。不要在得到一堆毫无意义的垃圾之后还沾沾自喜。2010/9/152
统计软件的种类很多。有些功能齐全,有些价格便宜;有些容易操作,有些需要更多的实践才能掌握。还有些是专门的软件,只处理某一类统计问题。面对太多的选择往往给决策带来困难。这里介绍最常见的几种。2010/9/153
几种常用的统计软件(Software))典型的统计软件\SAS\SPSS\MINITABSTATISTICA\EViewsMINITABExcelSAS\ExcelSPSS2010/9/154
SAS:这是功能非常齐全的软件;尽管价格相当不菲,许多公司,特别是美国制药公司,还是因为其功能众多和某些美国政府机构认可而使用。尽管现在已经尽量“通俗化”,但仍然需要一定的训练才可以进入。也可以对它编程;但对于基本统计课程则不那么方便。SPSS:很受欢迎;容易操作,输出漂亮,功能齐全,价格合理。它也有自己的程序语言,但基本上已经“通俗化”。它对于非专业统计工作者是很好的选择。2010/9/155
Minitab:这个软件是很方便的功能强大而又齐全的软件,在我国用的不如SPSS与SAS那么普遍。Eviews:一个主要处理回归和时间序列的软件。采用计量经济学方法与技术,对社会经济关系与经济活动的数量规律进行“观察”,是一个得到普遍使用计量经济学软件包。2010/9/156
Excel:凡是有Microsoft Office的计算机,基本上都装有Excel。但要注意,有时在装Office时没有装数据分析的功能,那就必须装了才行。当然,画图功能是都具备的。对于一般分析,Excel还算方便,但随着问题的深入,Excel需要使用函数。当然专门一些的统计推断问题还需要其他专门的统计软件来处理。2010/9/157
统计软件的种类很多。仅介绍最常见的几种。只要学会使用一种软件或编程软件,使用其他类似的软件也不会困难;最多看看帮助和说明即可。学习软件的最好方式是需要时在使用中学。2010/9/158
Excel在统计中的应用2010/9/159
第一节中文Excel概述 第二节数据整理2010/9/1510
第一节中文Excel概述Microsoft Excel是美国微软公司开发的Windows环境下的电子表格系统,是Microsoft Office办公室自动化集成软件的重要组成部分,它是目前应用最为广泛的表格处理软件之一。Excel强大的数据处理功能和操作的简易性使Excel成为现代办公软件重要的组成部分。2010/9/1511
Excel具有强有力的数据库管理功能、丰富的宏命令和函数、强有力的决策支持工具,它具有以下主要特点: 强大的数据分析能力 操作简便 图表能力 数据库管理能力 宏语言功能 样式功能 对象连接和嵌入功能2010/9/1512
网上相关资源Excel之家,,研究Microsoft Excel的应用,提供大量的基础和高级教程。办公学苑联盟,,excel、word、access 等办公软件的使用技巧、VBA。联数工作室主页,,统计软件下载、相关论文下载、国内统计资源索引。国外统计资源总索引,。Excel多元统计分析插件XLSTAT下载,。2010/9/1513
第二节数据整理一、数据的输入及预处理二、数据的分组整理三、图表处理四、描述统计工具2010/9/1514
一、数据的输入及预处理1、数据的输入2、数据的预处理2010/9/1515
1.数据的输入用Excel录入数据的基本规则数据输入使用列表格式,每一行称为一个观测,每一列称为一个变量;数据表的第一行中输入变量名;在原始数据中设置一个标识变量,例如:观测序号、问卷编号;尽量用数字编码来表示分类变量;对于缺失值,将相应的单元格保留为空白。2010/9/1516
Excel 的数据输入Internet导入手工输入自动生成数据库导入*针对有规律的*针对数据量*针对数据库*针对Internet搜数据,如连续较小,没有已有数据索数据的数字或字符规律的数据序列2010/9/1517
手动输入建立一个新的Excel文件之后,便可进行数据的输入操作。Excel中以单元格为单位进行数据的输入操作。一般用上下左右光标键,Tab键或鼠标选中某一单元格,然后输入数据。2010/9/1518
Excel中的数据按类型不同通常可分为四类:¾数值型; 字符型; 日期型; 逻辑型。Excel根据输入数据的格式自动判断数据属于什么类型。日期型的数据输入格式为“年/月/日”,“年-月-日”; 逻辑型的数据,输入“true”(真)或“false”(假);若数据由数字与小数点构成,Excel自动将其识别为数字型;Excel允许在数值型数据前加入货币符号,Excel将其视为货币数值型;9Excel也允许数值型数据用科学记数法表示,如2×10在Excel中可表示为2E+9。除了以上三种格式以外的数据,Excel将其视为字符型处理。2010/9/1519
自动生成Excel提供了数据填充功能,用以自动生成有规律的数据,以简化数据的输入工作(1)在一行或一列中产生相同数据操作步骤如下;①向某单元格输入第一个数据。②鼠标指向此单元格填充句柄变为+号。(当前单元格矩形框右下角实点)③按住鼠标左键,向下(也可以是向上、左或右)拖动。2010/9/1520
(2)在一行或一列中产生等差或等比数列操作步骤如下:①向某单元格输入第一个数据,从而确定数列中第一个数据及所在位置;②单击“编辑”Γ填充”子菜单,选择“序列”菜单项。出现对话框;2010/9/1521
③在对话框中,确定如下内容:数列在工作表上是以行还是列方式生成;数列的类型;对日期型数列,按哪种时间单位增加或减少:确定等差或等比数列步长值及其数列的终止值。④单击“确定”按钮,即可生成相应数列。2010/9/1522
Internet导入*创建Web查询,“数据”—“导入Web查询”—“新建Web查询”,打开“新建Web查询”对话框,在地址栏中输入数据源的web地址,打开网页,单击所需数据旁的“”标志,单击“导入”,可将数据导入到Excel中,此外,Excel中有“数据”—“刷新”命令可以更新从Web中导入的数据。2010/9/1523
数据的引用z相对引用;z绝对引用;z混合引用;2010/9/1524
相对引用:使用单元格所在的列标和行号作为引用,(例如A1),这是最常用的单元格引用方法。特点:如果公式所在单元格的位置改变,引用也随之改变。如果多行或多列地复制公式,引用会自动调整。默认情况下,公式使用相对引用。在大量类似公式时,可以节约输入公式的时间。例如:求和;2010/9/1525
绝对引用:当在公式中需要引用一个固定的单元格内容,无论将公式复制或填充到什么位置都不发生改变时,需要绝对引用。绝对单元格引用格式为:在列标和行号前分别加上“$”符号,例如绝对引用A1单元格,表示为:$A$1。如果公式所在单元格的位置改变,绝对引用保持不变。如果多行或多列地复制公式,绝对引用将不作调整。例如:计算构成比。分母是不变的。2010/9/1526
混合引用:①具有绝对列和相对行,绝对引用列采用$A1、$B1等形式;②具有绝对行和相对列,绝对引用行采用A$1、B$1等形式。如果公式所在单元格的位置改变,则相对引用改变,而绝对引用不变。如果多行或多列地复制公式,相对引用自动调整,而绝对引用不作调整。例如:乘法表为操作简便,可采用F4功能键加“$”符号。例如:将光标放在A1旁边,第一次按F4,会变为$A$1,第二次按F4变为A$1,第三次按变为$A1,第四次回到相对引用状态A12010/9/1527
2.数据的预处理(1)数据的排序(2)数据的筛选2010/9/1528
(1)排序:是按照某一或某几个特定字段重新排列数据*排序按钮排序按钮是一种比较简单的方法,选择要排序的单元格区域,点击“常用”工具栏上的排序按钮“”,即可对选择的区域进行升序或降序排列2010/9/1529
*排序命令首先选中整个数据区域,执行“数据”—“排序”命令,打开“排序”对话框,在“主要关键字”、“次要关键字”、“第三关键字”中选择标题,选择要排序的次序。在选项按钮打开“排序选项”对话框,对排序的进行设置,确定完成数据的排序。在自定义排序中,可以事先在“选项”的“自定义序列”中设置自己的序列次序2010/9/1530
例某集团公司欲在某地区投资于医疗卫生事业,为了减少风险,获得利润,该集团企划部门决定先了解一下市场潜力。企划部王经理随机访问了该地区几家医院中就医的36名患者,询问其等候看病的时间,根据这些数据,王经理会得到什么信息呢?2010/9/1531
对数据进行排序①打开“等候时间”工作表。②选定单元格A1:B37区域。③在菜单中选择“数据”中的“排序”选项,弹出排序对话框。④在排序对话框窗口中,选择“主要关键字”列表中的“等候时间”作为排序关键字,并选择按“升序”排序。由于所选取数据中已经包含标题,所以在“我的数据区域”中选择“有标题行”,然后单击“确定”按钮,即可得到排序的结果。2010/9/1532
对数据进行分析从数据排序结果可以看出,数据按等候时间从1分钟到55分钟的递增顺序排列,从而提供了患者等候时间的变动范围。“排序”功能不能对总体的分布状况进行描述。如果想知道每个时间段上有多少个患者等待,可利用Excel中的“分类汇总”功能完成这个任务。2010/9/1533
(2)筛选:是查找和处理区域中数据子集的一种比较快捷的方法*自动筛选适用于简单的筛选。选定要筛选的内容,执行“数据”—“筛选”—“自动筛选”命令,工作表每列标题行的右侧会出现筛选按钮,点击筛选按钮,在下拉列表框筛选数据。2010/9/1534
用Excel进行数据筛选8呩寂畻盠聟谱扬罅旌揊2010/9/1535
高级筛选的重点在条件区域。在筛选数据的工作表中,在条件区域建立筛选条件。不同变量的条件位于同一行,代表“并”;不同行代表“或”•单列多个条件一列具有多个筛选条件,可以直接在一列从上到下键入条件,如表1,筛选统计学成绩小于80或是大于90的学生•多列具有单个条件在多列中查找需要的数据时,在条件区域的同一行键入条件,如表2 ,筛选四门功课都>70的学生•多行或多列具有单个条件满足多行或多列条件的数据,需在条件区域的不同列中输入条件,如表3,筛选统计成绩>85或者数学成绩>75或者英语成绩>90的学生姓统计姓统计数学英语经济姓统计数学英语名成绩成绩名成绩成绩成绩名成绩成绩成绩>85< 80>70>70>70>70>75>90>90表1表2表32010/9/1536
高级筛选妙用:剔除重复数据在实务中,我们的数据经常会出现重复数据的情况,此时若逐一剔除,在大量数据的情况下就太太麻烦了。我们可以巧妙地运用高级筛选来解决这一问题。在条件区域不设任何条件,选择”数据”-“筛选”-“高级筛选“,在”高级筛选“对话框中勾选”选择不重复的记录“,确定后就可以得到无重复数据的结果。如图。例题:考试成绩2010/9/1537
二、数据的分组整理1、分类汇总2、利用Excel频数分布函数进行分组3、利用透视表进行数据整理2010/9/1538
1. 分类汇总分类汇总不需要建立数学公式,只需在“数据”菜单中选择“分类汇总”选项,Excel便会自动地创建公式,生成自动分级显示的数据清单。但要注意在分类汇总前需要先对数据进行排序。例等候看病的时间分类汇总2010/9/1539
使用分类汇总的方法如下:¾先选择需要分类汇总的数据区域A1:B37,然后选择“数据”菜单中的“分类汇总”选项,打开“分类汇总”对话框。¾在“分类字段”的下拉式列表中选择要进行分类的列标题,在“汇总方式”的下拉式列表中选择进行汇总的方式,本例中选择按“等候时间”进行分类,选择按“计数”进行汇总,单击“确定”按钮,得到分类汇总的结果如图所示。2010/9/1540
在对数据进行了分类汇总之后,可以观察到等候时间为1分钟的人次为1,等候时间为3分钟的人次为2等等。尽管分类汇总可以给出各个数值所出现的次数,但从这些次数中还是无法得出其数据分布的规律性。这是因为没有将数值相近的数据进行合并,因而不能理想地抽象概括现象的数量特征。2010/9/1541
2、利用Excel频数分布函数进行分组常用函数•财务函数•日期与时间函数•数学和三角函数•统计函数•查找与引用函数•数据库函数•文本函数•逻辑函数•信息函数•工程函数统计函数模块中有76个统计函数,这些函数覆盖了统计基本理论与分析方法。频数分布函数是其中的一个。2010/9/1542
频数分布函数(FEQUENCY)可以对一列垂直数组返回某个区域中数据的频数分布。频数分布函数(FEQUENCY)的语法形式为:FREQUENCY(data_array,bins_array)其中:Data_array为用来编制频数分布的原始数据Bins_array为频数或次数的接收区间。使用时:先对数据进行排序,以了解全部数据的变动范围;然后选择全部数据的分组组数;再确定分组的组限,最后对各组数值所出现的频数进行计数。2010/9/1543
统计函数“FREQUENCY”创建频数分布表步骤是:1.列出组距分组,以及各组的上限值。2.选择与接受区域相临近的单元格区域,作为频数分布表输出的区域3.选择插入—函数中的“FREQUENCY”函数4.在对话框Date-array后输入原始数据区域,在Bins-array后输入各组上限区域5.由于是数组操作,所以不能按“确定”,应该同时按下ctrl-shift-Enter组合键,即得到频数分布2010/9/1544缻诽剙旌—FREQUENCY
注意:Excel所说的“频率”实际上是“频数(次数)”;“FREQUENCY”函数进行频数统计时采用的是“上组限在内”的原则。为了符合统计中“上组限不在内”原则,因此,分组时相邻组限不应重合。例等候看病的时间分组2010/9/1545
3. 利用数据透视表进行数据整理在数据处理过程中,不仅需要处理以数据形式表现的资料,有时也需要处理以文字形式表现的资料,如性别、职业、文化程度等。在处理这些资料时,频数分布使显得无能为力,而通过数据透视表则既简捷又方便。数据透视表是Excel中强有力的数据列表分析工具。它不仅可以用来作单变量数据的次数分布或总和分析,还可以用来作双变量数据的交叉频数分析、总和分析和其它统计量的分析。前者称为单向表,后者称为交叉表。2010/9/1546
单向表例某移动通讯公司要制定新一年的销售计划,需要向市场了解移动用户对数字移动电话类型的需求。\经过问卷设计,在该地区抽取了1000个样本进行问卷调查,获得关于移动电话用户消费行为的一些数据资料\试根据工作表中的数据分析该地区移动电话用户的电话类型偏好。2010/9/1547
①打开“移动电话调查”工作表②单击“数据”菜单中的“数据透视表和透视图”选项,Excel弹出数据透视表向导对话框。③根据向导要求,第1步是指定“数据源类型”和确定所需创建的“报表类型”。选择“数据列表或数据库”作为数据源,选择“数据透视表”作为报表类型。最后单击“下一步”。④第2步是确定数据区域,本例中数据所覆盖区域为A1:D1001单元格,单击“下一步”按钮,向导给出第3步操作对话框窗口。⑤第3步确定数据透视表的位置。选择现有工作表,并利用鼠标将数据透视表的位置确定在E1单元格中。⑥单击“布局”,Excel弹出对话框窗口,选择右边的“数字移动电话类型”字段,并将它拖到左边的“行”区,再选择“数字移动电话类型”字段,将其拖放在“数据”区域中,显示为“计数项:数字移动电话类型”,以便进行数据汇总。2010/9/1548
⑦双击数据区域中的“计数项:数字移动电话类型”字段,打开“数据透视表字段”对话框,在“汇总方式”列表中选择“计数”。⑧如果想选择数据显示方式,可单击图右侧的“选项”按钮,则EXCEL 弹出“数据显示方式”。在“数据显示方式”的下拉选项中确定“占同列数据总和的百分比”选项, 单击“确定”按钮,则布局调整完毕。再单击“确定”按钮,回到数据透视表步骤3。⑨单击数据透视表步骤3中的“完成”按钮,数字移动电话调查单向表完成。2010/9/1549
单向表描述了各移动电话用户对移动电话类型偏好的分布情况。从表中可以看出“全球通”是该地区的主要消费特征,其次是“长白行”,因而该公司应当注重这两种电话类型的开发与服务。2010/9/1550
交叉表交叉表用于表示两个用文字表示的品质变量之间的关系,用于市场研究,进行市场机会、市场细分分析等。例该公司市场部经理希望根据上例中的调查结果,确认不同性别的用户,其移动电话类型偏好是否存在着不同。2010/9/1551
步骤:①打开“移动电话调查”工作表。②从“数据”菜单中选择“数据透视表和数据透视图”选项,得到“数据透视表对话框”窗口。在第1步之中选择“数据清单或数据库”与“数据透视表”,单击“下一步”按钮。③在第2步中,确定数据区域A1:D1001,单击“下一步”按钮。④在第3步中,确定数据透视表的位置,但将其位置调整到“H1”单元格。然后,单击“布局”按钮,打开“布局”对话框。2010/9/1552
⑤将对话框右边的“数字移动电话类型”字段拖到左边的“行”区作为分组变量,再将右边的“性别”字段拖到“列”区,作为交叉分析的变量,最后将右边的“性别”字段拖放到“数据”区域中,并选择计数项。如果希望结果是以百分比的形式显示,则可双击数据区域中的“计数项,性别”,则会弹出“数据透视表字段”对话框。选择“占同列数据总和的百分比”选项,来表示所出现的频率,最后,单击“确定”按钮,又回到“布局”对话框。⑥单击“确定”按钮,回到第3步,要注意数据透视表的位置定在单元格H1,最后,单击“完成”按钮,得到交叉表.2010/9/1553
从交叉表中可以看出,对于移动电话类型来讲,其性别之间并无太大的差异,无论是“长白行”,还是“全球通”,或是“神州行”,其男女之间的偏好程度都不是特别大,这说明在移动电话类型的生产与营销过程中可以不考虑性别的差异。当然这只是一种数据整理的结果,要想准确地说明移动电话消费是否存在着性别差异,还需要使用推断统计方法进行假设检验。2010/9/1554
数据透视图的生成:可在已编制的数据透视表上右击,选择菜单中的“数据透视图”;也可以编制数据透视表时就选择同时生成数据透视图数据透视图可以比数据透视表更加直观地反映数据在多维分类下的比较汇总状况。同数据透视表一样,数据透视图的页、行和列均提供了下拉列表以动态地分析数据数据透视表的页、行和列均可以容纳多个字段使数据透视表能将二维的Excel数据表扩展2010/9/1555到多维!!!!
例子:根据英美两个国家的销售员销售的数据:收到的订单金额、订单的日期、订单号做数据透视表要求:1:创建报表视图;设置报表布局;转动报表;2:创建页视图;3:更改数据汇总的方式;4:在同一拖放区使用两个字段5:按季度组合订单日期6:交换位置以获得不同的视图7:确定每位销售人员每季度的销售订单数量8:格式化报告9:确定奖金百分比10: 关闭自动分类汇总11: 确定奖金额2010/9/1556
练习1:创建报表视图,设置报表布局,转动报表在工作表中,选择包含数据的任意单元格。例如,单击单元格A4。在“数据”菜单上,单击“数据透视表和数据透视图”。将显示向导。在向导的步骤1 中,确保选择“Microsoft Excel 数据列表或数据库”作为第一个问题的答案。确保选择“数据透视表”作为下一个问题的答案。单击“完成”现在将设置报表布局,以算出每位销售人员的销量。将字段放置到布局中时,报表布局的外观将发生更改。从“数据透视表字段列表”中,将“销售人员”字段拖动到标签为“将行字段拖至此处”的拖放区域。注意拖放字段名称后,它们仍保留在列表上,但是更改为黑体。从“数据透视表字段列表”中,将“订单金额”字段拖动到标签为“请将数据项拖至此处”的拖放区域。把数据从行方向转到列方向。单击“销售人员”字段标题(在单元格A4 中)。拖放“销售人员”字段标题到单元格B3,B3 是在“总额”正上方的单元格。拖动时,只要获得灰色框光标并把光标指向目标单元格即可。2010/9/1557
练习2 : 创建页视图在本示例中,将显示销售人员的订单金额,不同国家/地区的数量显示在不同页面上。将“国家/地区”字段从“数据透视表字段列表”拖放到“将页字段拖至此处”区域。可以查看三个页面。在国家/地区页面上,按国家/地区显示每个销售人员的销售数量,在“(全部)”页面上显示他们在所有国家/地区销售的总量。2010/9/1558
练习3:更改数据汇总的方式假设您需要统计每位销售人员成交订单的笔数,而不是统计他们的销售额。单击数据区域中的任何单元格。例如,单击单元格B5。单击“数据透视表”工具栏上的“字段设置”按钮。在“汇总方式”列表中,单击“计数”,然后单击“确定”。现在透视表中显示每个人成交订单的笔数。2010/9/1559
练习4:在同一拖放区使用两个字段要按季度比较单个销售人员的销售额.操作步骤从“数据透视表字段列表”将“订单日期”字段拖动到“销售人员”字段的左边。当灰色框出现在单元格A4 的最左边时则说明该位置是正确的:销售结果按日显示,然后是每天的汇总。2010/9/1560
练习5:按季度组合订单日期在“订单日期”字段的单元格A7 中单击鼠标右键。注意,本步骤中不能单击报告中的任何单元格,必须单击包含在“订单日期”字段中的某个单元格。在快捷键菜单上指向“组及显示明细数据”,单击“组合”。在“组合”对话框中,单击“季度”。如果同时选择了“月”,请单击取消选择它,然后单击“确定”。现在销售额数据在左边按季度分开,每位销售人员的姓名列在每季度的右边。内部字段中的项可以按需重复,外部字段的项只能显示一次。在本报告中,“销售人员”是内部字段,所以所有销售人员的姓名列在每个季度的旁边。“订单日期”是外部字段,所以一次只列出一个季度。要使标题与新的组合匹配,需要重命名订单日期字段。选择“订单日期”字段。键入新名字“季度”,然后按Enter。2010/9/1561
练习6:交换位置以获得不同的视图: 按季度比较每个人的业绩操作步骤将“季度”字段拖到“销售人员”字段的右边。记住,该字段在报告中是灰色框,包含“季度”。在列B 与列C 的中间看到灰色框时释放鼠标键。透视报告,转换内部与外部字段的位置。在本报告中,“季度”是内部字段,依次列出了所有四个季度。现在“销售人员”是外部字段,所以销售人员的姓名只列出了一次。2010/9/1562
练习7:确定每位销售人员每季度的销售订单数量方法是将“订单金额”字段再次拖动到“数据”拖放区,然后选择不同的汇总函数。在“数据透视表字段列表”上单击“订单金额”,并将它拖动到包含订单金额字段的任何地方。例如,将它拖动到单元格C6。该报告现在有两个数据字段:“订单金额总和”与“订单金额总和2”。单击任何标为“订单金额总和2”的单元格,然后单击“数据透视表”工具栏上的“字段设置”按钮。在“汇总方式”列表中,单击“计数”,然后单击“确定”。现在这两个数据字段是“订单金额总和”与“订单金额计数2”。“订单金额计数2”单元格现在显示每位销售人员每季度的销售数。2010/9/1563
练习8:格式化报告单击报告,然后单击“数据透视表”工具栏上的“设置报告格式”按钮。在“自动套用格式”对话框中,单击“报告5”,然后单击“确定”。现在更改“订单金额计数2”字段的名称。操作步骤选择“订单金额计数2”字段标题。键入新的名称“订单#”,然后按Enter。如果希望列D 更窄些以放置新的名字,请双击列标题的“D”右边的边界。2010/9/1564
练习9:确定奖金百分比销售人员每季度若销售额超过¥25,000,会获得10% 的奖金,否则会得到7% 的奖金。这里是公式:=IF('订单金额’>25000,10%,7%)单击报告内部。然后在“数据透视表”工具栏上单击“数据透视表”,指向“公式”,然后单击“计算字段”。在“名称”框中输入公式名。例如,输入“奖金%”。在“字段”列表中,单击“订单金额”,然后单击“插入字段”。接着输入公式的其他部分:>25000,10%,7%),然后单击“确定”。名为“奖金%”的新字段将插入报告中。结果不是百分号。将奖金百分比格式化。操作步骤单击“奖金%”字段内部。例如,单击单元格D6。单击“数据透视表”工具栏上的“字段设置”按钮。然后单击“数字”。在“分类”列表中单击“百分比”,并在“小数点”位数列表中单击向下箭头到达“0”(消除小数位数)。单击“确定”两次。2010/9/1565
练习10:关闭自动分类汇总“林丹”四季度的总的奖金百分比是10%,虽然她没有每个季度都是7%。是因为自动分类汇总打开了。又由于总和大于¥25,000,所以计算字段公式在带有分类汇总的行上输入10%。为了避免混淆,应该关闭分类汇总。单击“销售人员”字段中的任何地方,因为您希望关闭该字段的分类汇总。例如,单击单元格A6。在“数据透视表”工具栏上单击“数据透视表”,然后单击“分类汇总”清除复选标记。(如果在菜单上看不到“分类汇总”,请单击底部的展开按钮以展开菜单。)这样将关闭分类汇总。2010/9/1566
练习11: 确定奖金额创建另一个计算字段公式以确定每位销售人员每季度的奖金额。这里是公式:='订单金额'*'奖金%'操作步骤在“数据透视表”工具栏上,单击“数据透视表”,指向“公式”,然后单击“计算字段”。在“名称”框中输入公式名。例如,键入奖金。在“公式”框中,输入公式:='订单金额'*‘奖金%’在数据透视表外部创建公式,汇总某人的季度奖金额。2010/9/1567
三、图表处理1、基本图表的处理2、组合图表2010/9/1568
1.基本图表处理图表是使用Excel进行各种运算分析时一个非常有用的工具,通过图表,可以更加直观地提示数据之间的内在关系和变化趋势。Excel中提供了14种内置的图表类型,每种图表类型中含有2~7 种子图表类型,还有20 种自定义图表类型可以套用。2010/9/1569
在金融计算中,各种图表类型都有可能用到。但从数量分析的角2010/9/1570度来看,应用最多的是散点图和带有折线或曲线的散点图。
基本图表处理*建立图表单击常用工具栏上确的按钮,出现定图表向导,选择正数确的图表类型据源设定图表选2010/9/1571项
*设置图表格式方法:右击图表每一元素(如图表区、坐标轴、图表网格线图例等),在快捷菜单中逐一设置右击图表区域,“图表区格式”-“填充效果”-“纹理”右击绘图区,“绘图区格式”-“填充效果”-“双色”2010/9/1572
(二)统计图数据类型与显示数量数据品质数据总计表分组数据原始数据多元数据时序数据直折茎箱线雷条圆环方线叶线达形形形图图图图图图图图图2010/9/1573
1.条形图(bar Chart)①条形图是用宽度相同的条形的高度或长短来表示数据变动的图形。②条形图有单式、复式等形式。③在表示定类数据的分布时,是用条形图的高度来表示各类别数据的频数或频率。④绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图。2010/9/1574
【例】一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天对50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。右边就是记录的原始数据罛苎2010/9/1575僁弓駊唝
条形图15161112998640呋吿晉晁厣盚仧沣滬鞎鞎呋京刌莒呋京柸沝唝犨乩周唝犨駊旵盠飭旌剢幟2010/9/1576飭旌
2.饼图(pie Chart)①也称圆形图,是用圆形及圆内扇形的面积来表示数值大小的图形②主要用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有用③绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形面积表示,这些扇形的中心角度,0是按各部分数据百分比占360的相应比例确定的2010/9/1577
饼图鞎鞎呋吿呋京18%30%沣滬柸沝12%盚仧呋京晉晁厣刌莒18%22%乩周唝犨駊旵盠柠扬2010/9/1578
3.环形图(annular chart)①环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示②环形图与圆形图类似,但又有区别a.圆形图只能显示一个总体各部分所占的比例b.环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环③环形图可用于进行比较研究2010/9/1579
7%13%8%10%鞺应乩漽慫15%乩漽慫21%33%36%乜芈漽慫31%鞺应漽慫26%坚疎亵亀堪幞尒弉展侫抛猒刑盠谠体2010/9/1580
4. 直方图①用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布②在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram)③直方图下的总面积等于12010/9/1581
直方图工具(一)简介:直方图工具,用于计算数据的个别和累积频率,再根据有限集中某个数值元素的出现次数建立图表。例如,在一个有50 名学生的班级里,可以通过直方图确定考试成绩的分布情况,它会给出考分出现在指定成绩区间的学生个数。(二)操作步骤:1.用鼠标点击表中待分析数据的任一单元格。2.选择“工具”菜单的“数据分析”子菜单。用鼠标双击数据分析工具中的“直方图”选项。3.出现“直方图”对话框,对话框内主要选项的含义如下:输入区域:在此输入待分析数据区域的单元格范围。接收区域(可选):在此输入接收区域的单元格范围,该区域应包含一组可选的用来计算频数的边界值。这些值应当按升序排列。只要存在的话,Excel 将统计在各个相邻边界值之间的数据出现的次数。如果省略此处的接收区域,Excel 将在数据组的最小值和最大值之间创建一组平滑分布的接收区间。2010/9/1582
标志:如果输入区域的第一行或第一列中包含标志项,则选中此复选框;如果输入区域没有标志项,则清除此该复选框,Excel 将在输出表中生成适宜的数据标志。输出区域:在此输入结果输出表的左上角单元格的地址用于控制计算结果的显示位置。如果输出表将覆盖已有的数据,Excel 会自动确定输出区域的大小并显示信息。柏拉图:选中此复选框,可以在输出表中同时显示按降序排列频率数据。如果此复选框被清除,Excel 将只按升序来排列数据。累积百分比:选中此复选框,可以在输出结果中添加一列累积百分比数值,并同时在直方图表中添加累积百分比折线。如果清除此选项,则会省略以上结果。图表输出:选中此复选框,可以在输出表中同时生成一个嵌入式直方图表。4.按需要填写完“直方图”对话框之后,按“确定”按扭即可。(三)结果说明:完整的结果包括三列数据和一个频率分布图,第一列是数值的区间范围,第二列是数值分布的频数,第三列是频数分布的累积百分比。2010/9/1583
例已知一所大学34名学生某一学期高等数学成绩,用直方图来描述。Excel所说的“频率”实际上是“频数(次数)”;Excel在对数据分组时总会增加一组(大于接受区域最后一个组限的数据个数),即使这个组中没有数据;2010/9/1584
直方图问题:1. 各条形之间不应该有间隔;2. 横轴标注的刻度应该是连续区间;2010/9/1585
要使直方图相连,操作步骤如下:1. 鼠标指向某柱形,单击鼠标右键;2. 选择“数据系列格式”,弹出对话框;3. 单击“选项”,将“分类间距”从150改为0;4. 单击“确定”,得到不分开的直方图。2010/9/1586
横轴刻度变为连续区间,步骤:双击图形横轴,把横轴字体颜色改为白色,字体背景改为透明,把原来的横轴数值隐藏起来;然后在图形中添加一个文本框,在横轴的对应位置标出相应数值;2010/9/1587
5.折线图(frequency polygon)①折线图也称频数多边形图②是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉③折线图的两个终点要与横轴相交,具体的做法是a.第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴b.折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的2010/9/1588
折线图的绘制拴缛坚乪睐昕坚12乧盠鞾穋睔箥!84080901001101201302010/9/1589
折线图的操作右键:源数据——系列——添加——录入频数——确定,即得折线图在图中右键——清除。即可得单一的折线图2010/9/1590
时间序列数据—线图(例题分析)1991~2000廐堪亽岡汭尒弉伖垣斒凁【例】已知廐余堪閣岡汭凸枭岡汭1991~2000年我国城乡居民家庭的人均收入数据如表。试绘制线图丼﹞
0002999189917991699159914991399129911991时间序列数据—线图8000堪閣岡汭凸枭岡汭6000400020000廐余 堪亽岡汭尒弉伖垣斒凁2010/9/1592斒凁
6.多变量数据—雷达图①雷达图(Radar Chart)是显示多个变量的常用图示方法②在显示或对比各变量的数值总和时十分有用③假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比④可用于研究多个样本之间的相似程度2010/9/1593
多变量数据—雷达图的制作设有n组样本S,S,…S,每个样本测得Pn12个变量X,X,X,要绘制这P个变量的雷达p12图,其具体做法是先做一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,再将这P个点与圆心连线,得到P个幅射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示再将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一个雷达图2010/9/1594
多变量数据—雷达图(例题分析)【例】2000年我2000廐堪亽岡汭尒弉廏垣氫伖畻涗淤趕斋剖柠扬(%)国城乡居民家庭飕睊堪閣岡汭凸枭岡汭平均每人各项生活消费支出构成数据如表。试绘餻唝制雷达图。袿瞜尒弉谚奣疄唝否杩勽厗痳倹僁伀遶遶谋媍京斵脎旣卲杩勽岡侫伦妅盠亗枞飕喢唝乪杩勽餻暋鞾卡2010/9/1595
多变量数据—雷达图餻唝5040枞飕喢唝袿瞜乪杩勽302010尒弉谚奣0岡侫疄唝否杩勽媍京斵脎厗痳倹僁旣卲杩勽堪閣岡汭 凸枭岡汭伀遶遶谋2010/9/152000廐堪亽岡汭尒弉伖垣淤趕斋剖柠扬96
多变量数据—雷达图(实例)【例】为研究某条裄乩周梓枈焕盠卲髨捣档河流的污染程度,捣档1捣档2捣档3捣档4捣档5环保局分别在上游、中游和下游设立取样点,每个取样书溔点化验水中的五项污染指标,所得数争溔据如表。将各指标用雷达图表示出来,并分析该河流的乧溔主要污染源。2010/9/1597
多变量数据—雷达图1捣档10001001052捣档捣档书溔争溔乧溔43捣档捣档坚洏涝沽栯捣档靓通坚2010/9/1598
2.组合图表所谓组合图表是指在同一幅图表中使用不同的图表类型表示不同组别的数据,它是在用图表表示多组数据之间的对比关系时的一个常用工具。为考察30家企业当前的股利收益率和股利支付比例,将其绘制在同一图表内。为区别两项不同的指标,分别用拆线图和柱形图表示。操作方法:先做股利收益率图,在已建立图表的图表区右击,选择“源数据”-“系列”,点击“添加”,名称设为“股利支付比例”,“值”处输入数据,确定即可。加入股利支付率这一系列后,由于其数值均较大而拉升了纵坐标坐标值,导致股利收益率的曲线图不能很好显示,此时,如何实现对比?2010/9/1599
图表处理次坐标轴次坐标轴是指在组合图表中因多组数据的数据范围差别较大时,为更好地表多组数据的对比关系而设立两条不同的纵坐标轴的技巧。Step2:垄坚裄糗埧争遥捅Step1: 遥争能劅斒眦珣絗桍徾坚剳,呏剗“坚裄糗埧”Step4:垄“旌揊絗剳梘彫”遥Step3:遥争能劅斒眦珣絗飕厽争遥捅“垬档运”-“歽垬剳,呏剗“旌揊絗剳梘彫”档运”2010/9/15100
四、描述统计工具Excel还提供了一组数据分析工具,称为“分析工具库”,在建立复杂的统计分析时,使用现成的数据分析工具,可以节省很多时间。只需为每一个分析工具提供必要的数据和参数,该工具就会在输出表格中显示相应的结果。其中的一些工具在生成输出表格时还能同时产生图表。要浏览已有的分析工具,可以单击“工具”菜单中的“数据分析”命令。如果“数据分析”命令没有出现在“工具”菜单上,则必须运行“安装”程序来加载“分析工具库”,安装完毕之后,再通过“工具”菜单中的“加载宏”命令,在“加载宏”对话框中选择并启动它。2010/9/15101
2010/9/15102
EXCEL 2007如果在“数据”工具栏里没有数据分析,就点左上角的Office按钮,然后点Excel选项;在左侧点“加载项”,然后在管理下拉列表选“Excel加载项”,再点右侧的“转到……”按钮,然后选“分析数据库”复选框,再点确定,等待安装就行了。加载好之后,在“数据”菜单栏最右侧,分析项的数据分析就OK啦!2010/9/15103
描述统计工(一)简介:此分析工具用于对输入区域中数据的单变量分析,并提供数据趋中性和易变性等有关信息。(二)操作步骤:1.用鼠标点击工作表中待分析数据的任一单元格。2.选择“工具”菜单的“数据分析”子菜单,用鼠标双击数据分析工具中“描述统计”选项。3.出现“描述统计”对话框,对话框内各选项的含义如下:输入区域:在此输入待分析数据区域的单元格范围。分组方式:如果需要指出输入区域中的数据是按行还是按列排列,则单击“行”或“列”,“描述统计”工具可以同时对多列或多行数据进行统计分析。标志位于第一行/列:如果输入区域的第一行中包含标志项(变量名),则选中“标志位于第一行”复选框;如果输入区域的第一列中包含标志项,则选中“标志位于第一列”复选框;如果输入区域没有标志项,则不需要选择该复选框,Excel 将在输出表中生成适宜的数据标志。2010/9/15104
输出区域:在此框中可填写输出结果表左上角单元格地址,用于控制输出结果的存放位置。整个输出结果分为两列,左边一列包含统计标志项,右边一列包含统计值。根据所选择的“分组方式”选项的不同,Excel 将为输入表中的每一行或每一列生成一个两列的统计表。新工作表:单击此选项,可在当前工作簿中插入新工作表,并由新工作表的A1 单元格开始存放计算结果。如果需要给新工作表命名,则在右侧编辑框中键入名称。新工作簿:单击此选项,可创建一新工作簿,并在新工作簿的新工作表中存放计算结果。汇总统计:指定输出表中生成下列统计结果,则选中此复选框。这些统计结果有:平均值、标准误差、中值(中位数)、众数(模式)、标准差、方差、峰值、偏斜度、区域(全距)最小值、最大值、总和、样本个数。均值置信度:若需要输出由样本均值推断总体均值的置信区间,则选中此复选框,然后在右侧的编辑框中,输入所要使用的置信度。例如,若置信度95%计算出的总体样本均值置信区间为10,则表示:在5%的显著水平下总体均值的置信区间为(样本均值-10,样本均值+10)。2010/9/15105
第K 个最大/小值:如果需要输出每个区域的数据的第k 个最大或最小值,则选中此复选框。然后在右侧的编辑框中,输入k 的数值。4.填写完“描述统计”对话框之后,按“确定”按扭即可。(三)结果说明:描述统计工具可生成以下统计指标,按从上到下的顺序其中包括样本的平均值,标准误差,组中值2(Medium),众数(Mode), 样本标准差(S),样本方差(S), 峰度值,偏度值,极差(Max-Min), 最小值(Min),最大值(Max),样本总和,样本个数(n)和一定显著水平下总体均值的置信区间。2010/9/15106
数值描述集中趋势:平均值、中值(中位数)、众数(模式);离散趋势:标准差、方差、峰值、偏斜度、区域(全距)、标准误差2010/9/15107
例已知一所大学34名学生某一学期高等数学和英语的成绩:高等数学:78,88,91,90,73,86,87,91,84,93,91,92,91,96,82,100,96,99,84,92,84,71,74,85,96,96,74,89,71,94,87,61,88,92。英语:67,76,71,60,64,82,75,76,68,76,76,72,70,77,65,82,74,71,64,80,71,62,60,66,82,64,65,71,60,73,70,55,64,78。现要求对成绩进行描述统计分析。2010/9/15108
主要步骤如下:1. 选择“工具”菜单的“数据分析”子菜单。2. 用鼠标双击选定数据分析工具中的“描述统计”选项,出现“描述统计”对话框。3. 在输入区域中输入待分析数据区域。4. 分组方式:单击“逐列”。5. 选中“标志位于第一行”复选框6. 在“输出区域”框输入单元格地址D1。7. 选汇总统计、平均数置信度、第K 大值/小值:本例中输入3。注:输入区域和输出区域除了可直接输入单元格地址外,也可点击所圈的图标,用鼠标拖曳所需区域。2010/9/15109
案例研究:“Old Faithful”间歇喷泉的喷发间歇喷泉是一种向空中喷出热水和热气的温泉,其名字的由来是因为这种喷泉要经过一段相对稳定的状态后才能喷发。有时它喷射的时间间隔不太稳定。Ohio(俄亥俄)州黄石国家公园中的“Old Faithful”间歇喷泉是世界上最著名的间歇喷泉之一。参观者们都希望到公园后不用等多久就能看到喷泉的喷发。国家公园的服务部门就在喷泉处安装了一个指示牌预报下次喷泉喷发的时间如下表所示。2010/9/15110
“Old Faithful”间歇喷泉喷发时间表开始时间持续时间预测区间预测下一次喷发时间6:351分55秒58分7:33am7:32接近4秒82分8:54am8:591分51秒58分9:57am10:124分33秒89分11:41am11:461分42秒58分12:44am中午吃饭2:061分41秒55分3:01am注:数据来源:《应用线性回归》第二版,作者:S.Weisberg。2010/9/15111
那么,公园是如何得到这个结果的呢?为了了解喷泉喷发间隔时间的规律,以1978年8月至1979年8月间喷泉222次喷发的间隔时间记录为样本,进行分析。①打开“喷泉”工作表。②单击“工具”菜单,选择“数据分析”选项,打开“直方图”对话框。③在输入区域输入单元格B1:B223,选择“标志”,在输区域中输入单元格“D1”,选择“图表输出”,单击“确定”按钮。2010/9/15112
将所得的直方图进行修饰,便得到下图:Old Faithful 时间间隔直方图45飭40珣353025201510504246505357616569727680848791凒伲限雰晒限从图中可以看出,喷泉喷发的间隔时间一般在40~100分钟内变动。但是,在数据中明显地存在两个子群,它们的中心大约分别在喷发间隔55分钟和80分钟,这样在图形中间形成一个缺口。间歇时间大致呈现出双峰分布。然而我们利用描述统计分析工具所得的结果与此大不一样。2010/9/15113
利用描述统计分析工具分析该喷泉的间隔时间,方法如下:①打开“喷泉”工作表。②从“工具”菜单中选择“数据分析”选项,打开“描述统计”对话框。③在输入区域中输入“B1:B223”,选择标志位于第一行。“输出区域”选择D19。⑥选择“汇总统计”和“平均数置信度”,单击“确定”按钮,结果如下表所示。2010/9/15114
“Old Faithfaul”喷泉间隔时间描述统计表数值数值统计指标统计指标平均数偏度标准误差全距75中位数42最小值75众数95最大值标准差15764合计样本方差222单位数峰度置信度由于描述统计指标的概括性与抽象性,容易使人对事物的真实情况产生误解。例如:从上表中可以看出平均间隔时间大约为71分钟。事实上,间歇时间大致呈现双峰分布,因而这一平均数并不能确切描述上述两个子群中任何一个子群的特征。2010/9/15115
按喷发持续的时间将观察值分成两组,可以对两种喷发的不同特性在更多细节上作出检测。下表是以喷发持续的时间是少于还是大于3分钟为依据分组,分别列出喷发间歇时间的主要统计指标。喷泉喷发间歇时间的主要描述统计指标间歇时间喷发时间<3分钟喷发时间>=3分钟统计指标67155样本数平均数标准差最小值中位数最大值2010/9/15116
根据上述统计指标和图表,可以得出一个简单的预测规律:一个持续时间少于3分钟的喷发将必然伴随着一个大约55分钟的间歇;一个持续时间大于3分钟的喷发将必然伴随着一个大约80分钟的间歇。这样,通过一个非常简单的规则,国家公园的工作人员能够保证来黄石公园的游客不用等很长时间就会观看到间歇喷泉的喷发。2010/9/15117