MBA智库文档经济统计学 EXCEL于异常数据剔除中的应用.pdf

EXCEL于异常数据剔除中的应用.pdf

下载

统计学中异常值是哪些，怎样找出这些异常值

朱永亮

5页 | 137KB | 0次下载 |

0.0

(0人评价)

我要评价：

投诉举报

用手机看文档

扫一扫,手机看文档

下载

开通VIP

EXCEL于异常数据剔除中的应用 smlai 数据是关于自然、社会现象和科学试验的定量或定性的记录，是科学研究最重要的基础。数据作为研究依赖的基础资源，其质量好坏直接关系到以此为据的正确性和科学性。所谓异常数据就是数据集中与其它数据明显不一致的数据。异常数据的产生原因有很多，可能是数据产生机制内在特性决定的，也可能是抽样调查技术问题；数据采集设备不完善；数据录入及传输错误；测量单位混乱；虚报、瞒报使统计数据失真；丢失数据等人力可控因素造成的。异常数据的出现会极大程度地降低数据的质量，导致统计分析，如参数估计、假设检验、方差分析、相关分析、回归分析、聚类分析等得到的分析结果发生显著变异，使得样本对总体的推断、控制与预测等工作可能会不准确或者出现错误，进一步甚至可能造成宏观决策上的失误，带来不可挽回的损失。因此，异常数据的识别和剔除具有重要意义。异常数据识别有物理识别法和统计识别法。物理识别法是根据人们对客观事物已有的认识，识别由于外界干扰、人为误差等原因造成实测数据偏离正常结果，在实验过程中识别，随时剔除的一种方法。统计识别法是给定一个置信概率，并确定一个置信限，凡超过此限的误差，就认为它不属于随机误差范围，将其视为异常数据剔除的一种方法。当物理识别异常数据不易做到时，一般采用统计识别法。对于多次重复测定的数据，异常数据常用的统计识别与剔除法有拉依达准则（3σ准则)法、格拉布斯（Grubbs）准则法、狄克逊(Dixon)准则法、肖维勒（Chauvenet）准则法、罗马诺夫斯基（t检验）准则法。拉依达准则法简单，无需查表，用起来方便，测量次数较多或要求不高时用，当测量次数小于或等于10时，拉依达准则法失效。肖维勒准则是经典方法，改善了拉依达准则，过去应用较多，但它没有固定的概率意义，特别是测量数据n无穷大时，该准则失效。狄克逊准则法对数据中只存在一个异常数据时，效果良好，但当数据中异常数据的个数不止一个且出现在同侧时，该方法的检验效果不好，尤其同侧的异常数据很接近时效果更差，易遭受到屏蔽效应。罗马诺夫斯基准则法计算较为复杂。格拉布斯准则和狄克松准则给出了严格的结果，但同样存在狄克逊准则法的缺陷，朱宏等人采用数据的中位数取代平均数，改进得到了更为稳健的处理方法，有效地消除了同侧异常数据的屏蔽效应。国际上常推荐采用格拉布斯（Grubbs）准则法，对此采用改进型格拉布斯准则法。改进型格拉布斯（Grubbs）准则法具体应用如下：第 1 页共 5 页 1、求出拟似异常值。设重复测定数据为（x，x，…，x），其数据个数为n、最大12n值为x、最小值为x、中位数M、标准差为s，则拟似最大异常值G和拟似最小异maxminemax常值G为： minx−MmaxeG= maxsM−xeminG= mins2、查出格拉布斯临界值G。设显著性水平为α（常设α为或（相当于置(α,n)信度为95%或99%）时，则通过表1查出数据个数为n时的格拉布斯临界值G。 (n,α)表1 格拉布斯（Grubbs）临界值G表 (n,α)n α= α= α= n α= α= α= 3 17 4 18 5 19 6 20 7 21 8 22 9 23 10 24 11 25 12 30 13 35 14 40 15 50 16 100 3、异常数据的识别与剔除。比较G和G与G，如果G＞G或G＞maxmin(n,α)max(n,α)minG，则对应的x或x为异常数据，应给与剔除。 (n,α)maxmin4、重复识别与剔除常数数据。对剔除异常数据后的数据重复1～3步骤，直至余下数据的最大值或最小值小于格拉布斯临界值为止。【例】某啤酒厂，研究开发一种新型的淡色啤酒。经多次重复性测定，该新型淡色啤酒第 2 页共 5 页的浊度数据如表2中的A列。判断该重复测定的数据是否存在异常数据并给予剔除。表2 异常数据EXCEL分析工作表 A B C 1 浊度（EBC）参数描述参数值 2 最大值x：｛键入公式：=MAX(A2:A14)｝ max3 最小值x：｛键入公式：=MIN(A2:A14)｝ min4 中位数M：｛键入公式：=MEDIAN (A2:A14)｝ e5 标准差s：｛键入公式：=STDEV (A2:A13)｝ 6 拟似最大异常值G：｛键入公式：=(C2-C4)/C5）｝ max7 拟似最小异常值G：｛键入公式：=(C4-C3)/C5）｝ min格拉布斯临界值G：｛查格拉布斯临界值G表获得｝ 8 (n,)(n,α)9 10 11 12 13 14 EXCEL应用步骤如下：步骤1：打开EXCEL，按表2格式输入数据并建立工作表，其中数据个数n为13。步骤2：通过EXCEL提供的MAX函数、MIN函数、MEDIAN函数、STDEV函数，求出数据的最大值、最小值、中位数、标准差。具体求法如下： 1、取单元格C2，键入公式：=MAX(A2:A14)，确认即求得最大值x为； max2、取单元格C3，键入公式：=MIN(A2:A14)，确认即求得最小值x为； min3、取单元格C4，键入公式：=MEDIAN (A2:A14)，确认即求得M中位数为； e4、取单元格C5，键入公式：=STDEV (A2:A13)，确认即求得标准差s为；步骤3：求出拟似最大异常值G和最小异常值G。具体求求解如下： maxminx−Mmaxe1、取单元格C6，根据公式G=，键入公式：=(C2-C4)/C5，确认即求得maxs第 3 页共 5 页拟似最大异常值G为； maxM−xemin2、取单元格C7，根据公式G=，键入公式：=(C4-C3)/C5，确认即求得mins拟似最小异常值G为。 min步骤4：查出格拉布斯临界值G。设显著性水平为α为（显著性水平取值越大，(α,n)数据识别区间越窄，识别要求越严），因为数据的个数n为13，则通过表1查出，格拉布斯临界值G为。初步分析结果列于表5。 (13,)表3 异常数据EXCEL初步分析结果 A B C 1 浊度（EBC）参数描述参数值 2 最大值x： max3 最小值x： min4 中位数M： e5 标准差s： 6 拟似最大异常值G： max7 拟似最小异常值G： min格拉布斯临界值G：8 (n,)9 10 11 12 13 14 步骤5：异常数据的识别与剔除。因为G为大于临界值G的，而Gmax(13,)min为小于临界值G的，则当取显著性水平α为（置信度为95%）时，G(13,)max对应的最大值数据（位于表2中的A列第7行），从统计学观点来看应视为异常数据，应给予剔除。步骤6：重复识别与剔除常数数据。剔除后，对剩余数据经上述步骤重新识别，第 4 页共 5 页发现剩余数据的最大值，其G为，还大于G值（这时数据个数n为max(12,)12），应视为异常数据，应给予剔除。剔除后，再剩余数据的最大值，其G为，小于G值的（这时数据个数n为11），数据中已不存在异常数据，结束异(11,)常数据的识别与剔除。异常数据通常只有少数，如果多了也就不成为异常数据。是否为异常数据，在实际应用中要结合经验来判断。“概率统计理论只是为更细致的分析和更充分利用现有数据提供工具，并为人们准确地判断创造更好的条件，而决不是否定经验判断。”如果数据并不是任何错误所致，而是固有的数据变异性的结果的蕴知性数据，则应高度重视，谨慎对待，不可简单剔除，否则可能丢失一些重要的隐藏信息。参考文献： [1] 何少华.试验设计与数据处理[M]. 2002:126 [2] 乐立利.观测数据的异常值统计检验方法研究[D].中南大学硕士论文，2008. 第 5 页共 5 页

联系我们

智库文档公众号

客服微信

EXCEL于异常数据剔除中的应用.pdf

下载

相关专题更多

联系我们

意见反馈

相关专题 更多

联系我们

意见反馈

相关专题更多