MBA智库文档管理统计学第6章抽样推断.ppt

统计学第6章抽样推断.ppt

下载

Martinv

84页 | 1.14MB | 0次下载 |

0.0

(0人评价)

我要评价：

投诉举报

用手机看文档

扫一扫,手机看文档

下载

开通VIP

第六章抽样推断基础知识 • 排列组合公式 • 正态分布学习目标 • 掌握抽样推断中的基本原理和方法 • 能够利用样本资料推断总体指标 • 重点掌握抽样误差的计算抽样估计内容体系介绍抽样推断的概念抽样推断是建立在概率论基础上的一种科学的统计分析方法。它是指按照随机原则，从全及总体中抽取一部分单位作为样本进行实际调查，然后根据调查所得的样本数据，对总体的特征值做出具有一定可靠程度的推断，以反映总体的数量特征或数量关系。第一节抽样推断的意义及特点 • 由部分推算整体的一种认识方法 • 抽样推断是建立在随机取样的基础上 • 抽样推断是运用概率估计的方法 • 抽样推断的误差可以事先计算并加以控制抽样推断的特点抽样推断的意义及特点 • 全及总体与抽样总体 • 全及指标（总体参数）与抽样指标 • 样本空间与样本容量抽样推断的几对基本概念第二节抽样的基本概念及原理 1. 全及总体是我们所要研究的对象，而样本总体则是我们所要观察的对象，两者是有区别而又有联系的不同范畴。 2. 全及总体又称母体，简称总体，它是指所要认识的，具有某种共同性质的许多单位的集合体，一般用N表示。 3. 抽样总体又称子样，简称样本，是从全及总体中随机抽取出来，代表全及总体的那部分单位的集合体。样本总体的单位数总是有限的，通常用小写英文字母n来表示。 4. 如果说对于一次抽样调查，全及总体是唯一确定的，但样本总体不是，样本是不确定的，一个全及总体可能抽出很多个样本总体。（一）全及总体和抽样总体 • 总体参数根据全及总体各单位的标志值或标志属性计算而来，是描述总体特征的概括性数字度量，即全及指标，是研究者想要了解的总体的某种特征值。 • 由抽样总体各单位标志值计算出来反映样本特征，并用来估计全及指标（总体参数）的指标称为抽样指标，也叫样本统计量，是样本变量的函数。（二）全及指标和抽样指标（三）样本空间与样本容量 1.样本空间在总体单位数N中随机抽n个单位，有许许多多不同的样本可能，这些所有可能，形成的样本数目，称为样本空间，用M表示。（1）重复抽样（2）不重复抽样从总体N个单位中随机抽取一个容量为n的样本,每次抽取一个单位,把结果登记后再放回到总体中,重新参加下一次的抽取. 抽出个体登记特征放回总体继续抽取抽样方法—重复抽样重复抽样形成的样本空间从总体N个单位中随机抽取一个容量为n的样本, 每次抽取一个单位,把结果登记后不再放回到总体参加下一次的抽取. 抽出个体登记特征继续抽取抽样方法—不重复抽样从总体N个单位中抽取n个单位构成样本，不但考虑样本各单位成分的不同，而且还要考虑样本各单位的中选顺序。即中选成分相同但中选顺序不同的视为不同样本不重复抽样—考虑顺序从总体N个单位中抽取n个单位构成样本,只考虑样本各单位成分的不同,不管样本各单位的中选顺序. 即中选成分相同但中选顺序不同的视为同一样本不重复抽样—不考虑顺序考虑顺序的不重复抽样不考虑顺序的不重复抽样样本的空间数统计推断的理论基础—大数法则如果变量总体存在着有限的平均数和方差，则对于充分大的抽样单位数，可以几乎为1的概率来期望，样本平均数和总体平均数的绝对离差任意小（二者几乎相等）。（四）抽样推断的基本原理样本平均数与总体平均数的离差有多大？分布如何？ • 抽样分布是样本统计量（如样本平均数）所有可能值的概率分布 • 实践中不可能将所有样本一一列举，所以只能对抽样分布进行推算 • 推算的理论依据是正态分布的再生定理和中心极限定理抽样分布定理 1.正态分布的再生定理从正态总体中抽取的样本，不论容量大小，其样本平均数服从正态分布。样本均值等于总体均值，样本均值的标准差为。 2.中心极限定理从非正态总体（平均数和标准差有限）中抽取的样本，当n足够大时（n>30），样本平均数分布接近正态分布。n越大，分布越趋近于正态分布。抽样分布定理——正态分布的再生定理、中心极限定理正态总体或非正态总体、大样本第三节抽样误差 • 有时我们会用样本的统计量直接去估计总体参数。这种估计的可靠性是由抽样误差来衡量的。 • 抽样误差是由于随机原则导致的样本统计量（如样本平均数、样本成数）与总体参数之间的误差，主要包括： •样本容量的大小容量大抽样误差小 •总体的变异程度变异大抽样误差大 •抽样方法和抽样组织方式不重复抽样的抽样误差比重复抽样的抽样误差小；抽样组织方式：简单随机抽样的误差最大。抽样误差的影响因素 • 抽样误差是一个随样本不同而不同的随机变量。 • 因为总体指标未知，对于任何一个样本，其抽样误差都不可能测量出来。但是可以推算所有抽样的平均误差。抽样平均误差即全部可能样本的样本平均值或样本成数计算的标准差。又称抽样标准误差、抽样标准误抽样平均误差衡量抽样平均数对总体平均数的代表程度，是反映抽样平均数与总体平均数之间变异范围的主要依据。抽样平均误差计算公式 • 统计上所谓的抽样误差一般指抽样平均误差，而不是某一次具体抽样的抽样误差。正态总体，或非正态总体、大样本。那么，据数理统计证明，重复抽样条件下：抽样平均误差的计算抽样平均误差的计算———— 计算公式计算公式变量总体的标准差属性总体的标准差例题 • 设有4个印刷厂装订工，其每小时装订效率分别为70，90，130，150件，现采用重复抽样的方法，从4人中抽2人构成样本，求抽样平均误差。 • 解：平均装订件数为装订件数的标准差为抽样平均误差为 • 问：重复抽样中，若要减少20%的抽样误差，那么样本单位数要扩大多少倍？ • 解：正态总体，或非正态总体、大样本。那么，不重复抽样条件下：抽样平均误差的计算抽样平均误差的计算———— 计算公式计算公式当N≥500时， • 设有4个印刷厂装订工，其每小时装订效率分别为70，90，130，150件，现采用不重复抽样的方法，从4人中抽2人构成样本，求抽样平均误差。 • 解：平均装订件数为装订件数的标准差为抽样平均误差为例题 • 若计算抽样平均误差时，总体方差未知，那么就用样本方差s2来代替。 • 样本方差的计算公式？抽样平均误差 • 估计某地区10000名适龄儿童的入学率，随机从这一地区抽取400名儿童，检查有320名儿童入学，求入学率的抽样平均误差。 • 解：以样本标准差代替总体标准差。例题在实际抽样中，应采用不重复抽样，而计算误差时，则可以采用重复抽样的公式计算。抽样平均误差的计算抽样平均误差的计算 ————举例举例例1：某灯泡厂对10000个产品进行使用寿命检验，随机抽取2%的产品进行测试，得到资料如表所示：试按上述资料，计算：（1）产品平均寿命的抽样平均误差（2）若寿命在1000小时以上为合格品，求合格品率的抽样平均误差。使用时间（小时） x 产品数量 f 900以下 900~950 950~1000 1000~1050 1050~1100 1100~1150 1150~1200 1200以上 2 4 11 71 84 18 7 3 合计 200 抽样平均误差的计算抽样平均误差的计算 ————举例举例（1）根据上述资料，有：样本平均寿命样本标准差抽样平均误差的计算抽样平均误差的计算 ————举例举例则重复条件下：抽样平均误差的计算抽样平均误差的计算 ————举例举例则不重复条件下：抽样平均误差的计算抽样平均误差的计算 ————举例举例（2）同样，按上述要求有：样本合格率抽样平均误差的计算抽样平均误差的计算 ————举例举例（2）则重复抽样条件下：抽样平均误差的计算抽样平均误差的计算 ————举例举例（2）不重复抽样条件下：在抽样推断中，在一定概率保证下，允许样本统计量偏离总体统计量的最大幅度。(可允许的误差范围 ) 从实际抽样角度来看,抽样极限误差就是实际样本指标与总体指标之间存在抽样误差的可能范围。抽样极限误差（抽样允许误差） • 用标准差作为其衡量大小的尺度，即相当于几个标准差。 • z为概率度，查表得到相应的概率F(z)。抽样极限误差（抽样允许误差） 1.大样本，或小样本、正态总体、方差已知概率度样本容量不超过30 2.小样本，正态总体，总体方差未知概率度 t 分布 t分布是类似正态分布的一种对称分布，它通常要比正态分布平坦和分散。一个特定的t分布依赖于称之为自由度的参数。随着自由度的增大，t分布也逐渐趋于正态分布 XX t 分布与正态分布的比较 t 分布正态分布 t 不同自由度的t分布正态分布 t (df = 13) t (df = 5) Z • 已知某地区职工家庭人均年收入为12000元，标准差为2000元，用简单重复抽样的方法抽取64户调查，问抽取出的64户的人均年收入不低于12500元的概率是多少？ • 解：例题 • 问抽取出的6400户的人均年收入不低于12050元的概率是多少？ • 已知某消费品的购买对象共10万人，其中6万是女性，现从购买者中随机不重复地抽出100 人进行调查，问女性购买者的比例超过50%的概率是多少？ • 解：例题 • 某市场牛羊肉价格服从正态分布，平均价格为 13元/500克，对26天的市场价格调查结果，平均价格为12元/500克，标准差为1元/500 克。问平均价格在元/500克以上的概率是多少？ • 解：例题第三节抽样估计方法 • 点估计 • 区间估计 1. 估计量：用于估计总体参数的统计量 – 如样本均值，样本比例, 样本方差等 – 例如: 样本均值就是总体均值 的一个估计量 – 不是所有的统计量都能充当良好的估计量 2. 参数用 表示，估计量用表示 3. 估计值：估计参数时计算出来的统计量的具体值 – 如果样本均值 x =80，则80就是的估计值估计量与估计值 (estimator & estimated value) • 抽样估计——用得到的样本指标来推断总体指标。 • 抽样估计的三要素合适的统计量作为估计量估计的允许误差范围估计可信度，即概率保证程度或置信度，指抽样指标与总体指标的误差不超过一定范围的概率保证程度。用表示。设　为待估计的总体参数，　为样本统计量，则　的优良标准为： 2 两个无偏估计量，若　　　　，则称　为比　更有效的估计量（有效性）１若　　　　　，则称　为　的无偏估计量（无偏性） 3 若　越大，统计量的值越接近被估总体的参数，则称　为　的一致估计量（一致性）优良估计的三个标准抽样估计的两种方法 • 点估计 • 区间估计点估计 (point estimate) 1. 用样本的估计量的某个取值直接作为总体参数的估计值  例如：用样本均值直接作为总体均值的估计； 2. 无法给出估计值接近总体参数程度的信息 – 虽然在重复抽样条件下，点估计的均值可望等于总体真值，但由于样本是随机的，抽出一个具体的样本得到的估计值很可能不同于总体真值 – 一个点估计量的可靠性是由它的抽样标准误差来衡量的，这表明一个具体的点估计值无法给出估计的可靠性的度量区间估计 (interval estimate) 1. 区间估计就是估计总体参数落在某个区域的可能程度 2. 区间估计包括两部分内容：区间范围的大小(置信区间) 可能性（可信度、置信度）总体均值区间估计的图示  x 95% 的样本  x  +x 99% 的样本  - x  +x 90%的样本  x  +x 95%的样本均值构造的区间是包括总体均值的！重复构造出的20个置信区间  点估计值 1. 由样本统计量所构造的总体参数的估计区间称为置信区间 2. 统计学家在某种程度上确信这个区间会包含真正的总体参数，所以给它取名为置信区间 3. 用一个具体的样本所构造的区间是一个特定的区间，我们无法知道这个样本所产生的区间是否包含总体参数的真值 – 我们只能是希望这个区间是大量包含总体参数真值的区间中的一个，但它也可能是少数几个不包含参数真值的区间中的一个 – 概率的使用很重要置信区间 (confidence interval) 1. 将构造置信区间的步骤重复很多次，置信区间包含总体参数真值的次数所占的比例称为置信度、置信水平。或者是基本样本均值构造的区间包含总体均值的概率。 2. 表示为 (1 -  – 为是总体参数未在区间内的比例 3. 常用的置信度值有 99%, 95%, 90% – 相应的 为，，置信度 (confidence level) •已知极限误差范围，求概率保证程度。 •已知概率保证程度，求置信区间。计算样本统计量　　计算抽样平均误差计算置信区间确定置信度计算样本统计量　　计算抽样平均误差计算概率度确定置信区间总体均值的区间估计 (需考虑总体是否为正态总体、总体方差是否已知、样本容量大小) 总体均值的区间估计 (大样本) • 总体均值在1-置信水平下的置信区间为重复抽样不重复抽样总体均值的区间估计 (大样本，或小样本，正态总体，方差已知) 　　由532名《商业周刊》订阅者组成的样本表明，其每周使用因特网的平均时间为小时。如果总体标准差为小时，求该周刊订阅者总体每周平均花费在因特网上时间的95％置信区间和点估计。则：点估计为小时该置信区间为：已知概率保证程度，求置信区间例：某纱厂某时期内生产了10万个单位的纱，按无返回纯(简单)随机抽样方式抽取2000个单位检验，检验结果合格率为95%，废品率为5%，试以95% 的把握程度，估计全部纱合格品率的区间范围及合格品数量的区间范围？已知：区间下限：区间上限：已知概率保证程度，求置信区间例：对某型号的电子元件进行耐用性检查，共抽取100个电子元件，样本平均数为小时，样本标准差为小时，要求耐用时数的允许误差范围小时，试估计该批电子元件的平均耐用时数？若该厂的产品质检规定，耐用时数达到1000小时以上的为合格品，该100个样本中，合格率为91%，方差为，要求合格率估计的误差范围不超过5%，试估计该批电子元件的合格率？已知极限误差范围，求概率保证程度已知极限误差范围，求概率保证程度总体均值的区间估计 (小样本) • 假定条件 – 总体服从正态分布,且方差(２) 未知 – 小样本 (n < 30) • 使用 t 分布统计量 • 总体均值在1-置信水平下的置信区间为总体均值的区间估计 (小样本，正态总体，方差未知) 总体均值的区间估计 (例题分析) 【例】已知某种灯泡的寿命服从正态分布，现从一批灯泡中随机抽取16只，测得其使用寿命(小时)如下。建立该批灯泡平均使用寿命95%的置信区间 16灯泡使用寿命的数据 1510 1520 1480 1500 1450 1480 1510 1520 1480 1490 1530 1510 1460 1460 1470 1470 总体均值的区间估计 (例题分析) 解：已知Ｘ~N(，2)，n=16, 1- = 95%，t/2= 。根据样本数据计算得：，总体均值在1-置信水平下的置信区间为该种灯泡平均使用寿命的置信区间为小时～小时第四节抽样方法样本容量调查误差调查费用小样本容量节省费用但调查误差大大样本容量调查精度高但费用较大找出在规定误差范围内的最小样本容量找出在限定费用范围内的最大样本容量抽样推断的样本容量抽样组织设计 • 简单随机抽样（单纯随机抽样）：按随机原则直接从总体N个单位中抽取n个单位作为样本，保证总体中每个单位的中选机会相等。它是最基本也是最简单的抽样组织形式，它适用于均匀分布的总体。 • 优点：最符合随机原则 • 缺点：抽样误差较大抽样组织形式简单随机抽样 .简单随机重复抽样的必要样本容量简单随机重复抽样的必要样本容量（1）平均数的必要样本容量（2）成数的必要样本容量简单随机抽样例：某地硕士研究生毕业第一年年薪的标准差大约为 2000元人民币。简单重复抽样时，如果以95%的置信度估计其平均年薪，并且希望抽样极限误差分别不超过500元和100元，样本容量应为多少？抽样推断样本容量的计算　　某网站一个由400名使用者组成的样本表明，该网站的使用者中26％的使用者为女性。在95％的置信度下，若希望将抽样极限误差控制在3％，则重复抽样下，样本容量应当为：抽样推断样本容量的计算 .简单随机不重复抽样的必要样本容量简单随机不重复抽样的必要样本容量 (1). 平均数的必要样本容量 (2). 成数的必要样本容量简单随机抽样例题泛美电子有限公司一月生产的J型号电子元件9800只，质检员对其耐用性进行检测，根据以往的抽样检测算得的元件合格率为 93%，耐用时数的标准差为小时，试问：（1）概率保证为%，元件平均耐用时数的误差范围不超过8小时，则按重复抽样方法需要抽取多少元件进行检测？（2）若将抽样误差范围扩大到原来的三分之四倍，概率把握度提高到%，则按不重复抽样方法需要抽取多少元件进行检测？抽样推断样本容量的计算（（11）由于）由于FF（（zz））=%=%，所以，所以z=1z=1，，S==，，必要样本容量确定应注意的问题 1.总体方差未知时，用有关资料替代 2.当计算的结果为非整数时，一般取比该结果大的相邻整数为样本容量抽样组织形式类型抽样（分层抽样）先将总体各单位按某一标志排队,然后按固定的顺序和间隔来抽取调查单位的一种组织方式. 抽样组织形式等距抽样从12个中抽取3个 • 等距抽样（机械抽样或系统抽样）：按某一标志对总体各单位进行排队，然后依一定顺序和间隔来抽取单位。作为排队的标志可以是无关标志，也可以是有关标志，但要注意避免抽样间隔与现象本身的周期性节奏相重合，引起系统误差的影响。它适用于均匀分布的总体，且抽样误差一般小于简单随机抽样的误差。等距抽样的方法有半距中点取样和对称等距取样两种。 • 由于等距抽样是随机起点取样，所以抽样误差可以简便地采用简单随机抽样误差公式来反映。抽样组织形式等距抽样抽样组织形式 • 整群抽样，将总体各单位划分为若干群，从其中随机抽取部分群，对中选群的所有单位进行全面调查的抽样组织方式。 • 优点：方便 • 缺点：代表性较差 • 整群抽样采用不重复抽样的方法 • 分为等群抽样和不等群抽样两种整群抽样 • 总体N个单位，R个群，每个群m个单位，则N=Rm。从R个群中随机抽取r个群，进行调查。 • 第i群的群平均数 • 样本平均数 • 群间方差 • 抽样平均误差抽样组织形式整群抽样—等群抽样 • 阶段抽样也叫多级抽样，在总体中先抽某种更大范围的单位，再从中选抽较小范围的单位，依次类推，分阶段完成。 • 总体R组，每组Mi个单位。第一阶段从R组中抽取r组，第二阶段从r组中，各组的Mi个单位随机抽取mi个单位，构成样本。 • 整群抽样和分层抽样的结合抽样组织形式阶段抽样 • 第i组的组平均数 • 样本平均数 • 抽样平均误差（组间误差与组内平均误差） • 其中，组间方差，组内方差。抽样组织形式阶段抽样抽样推断的含义和特点抽样推断的基本概念 3、样本容量和样本个数 4、重复抽样和不重复抽样抽样误差 1、抽样误差的含义 2、抽样误差的影响因素 3、抽样误差的种类 1）抽样平均误差 2）抽样极限误差 4、抽样误差概率度z= 5、抽样误差的置信度F(z) 1、抽样估计 2、假设检验抽样推断的内容特点：1、是由部分推断整体的一种认识方法 2、建立在随机取样基础上 3、运用概率估计的方法 4、误差可以事先计算并加以控制抽样估计的方法 1、点估计 1）特点 2）优良标准无偏性一致性有效性 2、区间估计 1）特点 2）方法 a、已知F(z)求总体区间 b、已知求F（z) 样本数的确定 1、简单随机重复抽样 2、简单随机不重复抽样抽样组织形式 1、简单随机抽样 2、类型抽样 3、等距抽样 4、整群抽样第六章小结 1、全及总体和样本总体 2、参数：总体的指标称为参数是维一的、确定的；统计量：样本的指标称为统计量,是不确定、是样本的变量的函数

联系我们

智库文档公众号

客服微信

统计学第6章抽样推断.ppt

下载

标签

相关专题更多

联系我们

意见反馈

标签

相关专题 更多

联系我们

意见反馈

相关专题更多