智库文档所有分类

管理统计学（天津大学）.ppt

下载

Canineth

515页 | 6.81MB | 10次下载 |

5.0

(4人评价)

我要评价：

投诉举报

用手机看文档

扫一扫,手机看文档

下载

开通VIP

天津大学刘金兰教授。研究如何通过样本数据去推断总体数量特征。是在对样本数据进行描述的基础上，对统计总体的未知数量特征作出以概率形式表述的推断。管理统计学描述统计学推断统计学研究如何取得反映客观现象的数据，并通过图表形式对所收集的数据进行加工处理和显示，进而通过综合、概括与分析得出反映客观现象的规律性数量特征绪论统计学探索客观现象数量规律性的过程反映客观现象的统计数据描述统计学（统计数据的收集、整理、显示和分析）推断统计学（利用样本信息和概率论对总体数量特征进行估计并检验）概率论（分布理论、大数定律、中心极限定理）总体内在的数量规律绪论参数估计假设检验方差分析回归分析时间序列分析推断性统计学绪论什么是统计资料？构成统计资料的基本组成要素有哪些？如何收集统计资料？统计资料的误差来源有哪些？统计资料定义：统计资料（Statistical data）是指可用以推导出某项结论的一些事实或数字基本构成要素元素（Element）变量（Variable）观测（Observation）关于元素的一种属性或特征研究对象由各元素组成资料中关于某一元素所有各变量的信息统计资料变量（Variable）定量变量（Quantitative variable）结果可用数字表示定性变量（Qualitative Variable）结果不可用数字表示统计资料 19 2 汉 68 1。83 32 男戊 16 4 回 53 35 女丁 15 1 满 60 26 男丙 16 2 回 55 25 女乙 18 3 汉 65 33 男甲受教育年限公司服务年限民族体重(kg) 身高(m) 年龄性别姓名表1-1 员工个人资料表统计资料的科学管理理论中的工作定额原理，用实验式的方法获得工人合理的日工作量资料。气象资料收集，商品价格的变化对商品需求量的影响。统计资料的收集间接引用直接收集实验式收集统计资料非实验式收集统计资料统计资料的收集直接收集统计资料，无论是实验式的还是非实验式的，都称为统计调查。工作方式直接观察口头询问发调查表或问卷统计调查调查表是直接获得统计资料的主要工具，调查表设计的好坏将影响所获资料的可用性与可信性。设计问卷调查表注意事项提问的种类安排好问题的次序试点调查等级评价量表的选择统计调查提问的种类选择式自由式让回答人在几个事先指定的备选答案中选择答案。若备选答案过多，或受提问措辞和语气的影响，可能使被调查人做不出合乎本意的选择必须用自己的语言表达本人的意愿，但所填答案会多种多样。常常只用于小规模的调查研究提问的种类统计调查安排问题的次序应注意的问题由客观到主观由熟悉到陌生相对容易的问题放在最后内容相关的问题要排得相近开始有介绍性的语言第一个问题就切中主题统计调查案例：一个电话访问的引言和第一个问题你好，我是XX大学的访问员。我们正在调查居住在学生公寓的人是否对生活条件感到满意。你的名字是从住宿登记簿中随机选取的，我们的调查只会占用您至多四分钟的时间。您可以在任何时候打断我。我现在可以开始访问了吗？第一个问题是关于您对学生公寓的总体感觉的。您认为（读选项）：（1）确实满意（2）大体满意（3）大体不满意（4）确实不满意（5）（沉默）没想法或者不知道/错误答案统计调查试点调查试点调查当一个调查表设计完毕后，常在一小范围进行试点调查可发现一些意料之外的问题，以便在大规模调查前改正应尽量在真实的环境中进行，同时也应保持效度试点调查的时机试点调查的作用注意问题统计调查等级评价量表的选择利用等级评价量表，可以为受访者在一个连续区间的一些点上或者一个类型序列上设定选项，并且为每个级别赋一个量化值。根据实际调查的需要，有四种等级评价量表供选择统计调查等级评价量表要求受访者按照等级顺序回答数值之间具有差距, 但不能指示比例关系类似定距型量表，能指示比例关系定序型定距型定比型被访者属于哪个组，就选择哪个选项类别型统计调查李科特量表李科特量表是一种定距量表，它的基本形式是给出一组陈述，要求调查对象表明他是“强烈赞同”，“赞同”，“反对”，“强烈反对”或“未决定”。最后把各个陈述的分数相加就可以得到总分。答案反对强烈反对未决定赞同答案赋值分数加总统计调查误差抽样误差调查过程产生的误差其他误差统计资料的误差为什么进行统计资料的整理？分类表中序列表与频数估计表各适合于何种情况？双变量二元分布表中数据的含义如何？统计资料整理的目的调查收集到的原始统计资料常常是大量的。它必须经过加工整理，如分类归并汇总，按时间前后或按数值大小重新排列等，才容易发现数据的规律性，并便于做进一步的统计分析。加工整理，归并汇总，重新排列调查得到的原始统计资料发现数据的规律性，作进一步的统计分析统计表类型将变量所取值按时间顺序排列序列表分类表按数值分类定性分布频数分布时间序列表地域序列将变量所取值按地域排列按性质分类统计表时间序列表的例子：统计表定性分布：首先建立一个元素的类别系统，使得各类互相排斥，而且是完备的，使被观测的各元素能既不重复又无遗漏地分到各类中去。然后记录分到同类中的元素个数，或将同类中各元素的观测值加以归并，这样得到定性分布。元素分类观测值记录与归并定性分布统计表定性分布的例子：统计表频数分布：按变量所取的值进行分类，于是资料中每个观测值都分到相应类中去。记录各类中观测值出现的次数，制成频数分布表。确定组数 k 找出 xmin 与 xmax 计算组距 h 确定每组上下限将相应数据归并到各组 Xmin 最小值,xmax 最大值统计表 200 总数 3 100—109 17 正正正 90—99 52 正正正正正正正正正正 80—89 58 正正正正正正正正正正正 70—79 55 正正正正正正正正正正正 60—69 14 正正 50—59 1 40—49 人数（f）计数分数在所属组的记录栏做一记号，按照我国习惯，用写“正”字方法，英文书使用“#”符号表2-4 某校200个学生高等数学考试成绩统计表表2-5 某校200个学生高等数学考试成绩的频数分布表 200 总数 39 70—75 3 100—105 28 64—69 11 94—99 29 58—63 10 88—93 12 52—57 42 82—87 0 46—51 25 76—81 1 40—45 人数（f）分数人数（f）分数统计表统计表表2-5 与表2-6 的对比表2-5中组距等于6，频数分布的规则性，仍然可以维持，同时细节的损失也可减轻表2-6中的组距等于2，各组频数分布就变得很不规则了。由此可见，组数的确定应适当，亦不宜太多统计表累积频数（Cumulative Frequency）：由第一组起至第i组止各频数之和称为第i组的累积频数,记为Fi,即: 频率（Percent Frequency）:就是频数除以总数n：fi/n，经常以百分数表示。累计频数与频率统计表频数表的例子统计表统计图: 统计资料整理成统计表后，可以比较清晰地展示变量的变化规律。为了使这种规律更有直观性，常采用统计图表示。包括：线图、条形图、圆饼图等统计图线图条形图圆饼图统计图统计图线图（Line graph）统计图 (亿元) 条形图 (Bar chart) 统计图 (亿元) 圆饼图 (Pie chart) 统计图散点图（Scatter Diagram）统计图双变量的统计资料：对每一元素观测两个特征，记录观测结果，就是双变量的统计资料双变量常用（X，Y）形式表示，以区别两个单变量X和Y 双变量的二元分布错误发生时的飞行状态，分起飞（T），巡航（C）和着陆(L)三种。错误发生的原因，分规范理解错误(R)，仪表读数错误(M)和其它原因(O)三种。 [例] 在飞行模拟训练时，用计算机测定并打印出飞行动作的错误，从两方面进行测定：双变量的二元分布测定45次的打印记录如下：双变量的二元分布根据该记录整理的二元分布表如下：从表中看出，在起飞（T）时容易发生规范理解错误（R）和仪表读数错误（M），而着陆（L）时不太容易发生规范理解错误。双变量的二元分布边际分布：在二元分布表最下行（合计行）和最右列（合计列）分别是X和Y的单变量分布，称为边际分布。二元分布表最下行二元分布表最右行 X的单变量分布 Y的单变量分布边际分布统称双变量的二元分布一个双变量的二元分布绝不同于两个单变量的一元分布，它不仅说明两变量各自的分布情况，而且说明两变量之间（飞行状态与错误原因之间）的相互关联情况。而这种关联情况（即是否存在关联以及关联的性态和程度等）正是研究双变量的二元分布的主要任务。双变量二元分布两变量各自的分布情况变量之间相互关联情况研究二元分布的主要任务说明双变量的二元分布对于三变量（X，Y，Z）的统计资料，整理成分布表的形式是困难的，常用的方法是对于X的每一特定值 xi，研究(Y, Z)的二元分布。更多变量的情形也类似。双变量的二元分布表示统计资料的特征数有哪些？几何平均数与调和平均数各适合于什么情况？计算样本方差与总体方差公式有何区别？表示集中位置的特征数平均数算术平均数（Arithmetic average）几何平均数（Geometric Mean）调和平均数定义：一组n个观测值x1,x2 ,…，xn的算术平均数，定义为 (1)算术平均数（Arithmetic average）如果资料已经分组，组数为k，用x1,x2 ,…，xk 表示各组中点，f1，f2…,fk 表示相应的频数，那么 (1)算术平均数（Arithmetic average）表3-1 某校125位大学一年级新生体重表 5 65 64—66 12 62 61—63 21 59 58—60 38 56 55—57 25 53 52—54 20 50 49—51 4 47 46—48 人数(f) 组中值(x) 体重（公斤） (1)算术平均数（Arithmetic average）其平均体重： = ＝＝ (1)算术平均数（Arithmetic average）当时最小性质 (1)算术平均数（Arithmetic average）在数据为环比类型的问题中，算术平均数是不适用的。例如下表是天津市工业总产值在“十五”期间的逐年增长率，如求该期间平均增长率，算术平均数是不恰当的。几何平均数可以解决这个问题。 (2)几何平均数（Geometric Mean）表3-2 天津市工业总产值 2005 2004 2003 2002 2001 2000 比上年增长％年份（天津市2005统计年鉴） (2)几何平均数（Geometric Mean）定义: 一组n个数据的几何平均数定义为在上式中，依次为，，，十五期间天津市工业总产值年均增长率为%。，于是几何平均数： (2)几何平均数（Geometric Mean）当数据是相对变化率，求平均数时，算术平均数也不恰当。例如：甲乙两地相距120公里，某人乘车往返甲乙两地之间，去时速度每小时20公里，回来时速度为每小时30公里，若求平均速度，这时用算术平均数是不对的，但调和平均数可解决此类问题。 (3)调和平均数在上例中，（公里/小时）定义：一组n个数据的调和平均数H，由下式定义 (3)调和平均数算术平均数表示了集中位置特征，它照顾到每一个值，但它不见得是出现次数最多的值（甚至也可能不是观测值中的一个）。所以有必要研究表示集中位置的其它的特征数。众数（Mode）定义：对于有频数分布的变量，它的众数指频数最大的变量的值表3-3 频数分布表 3 7 2 5 15 3 f X 对于已分组且等组距的频数分布，根据最大频数，可求得众数所在组。根据众数定义，可知众数不唯一。众数（Mode）算术平均数作为集中位置的特征还有一缺点，就是受观测值中极端值的影响很大，而一组观测值中的极端值常常没有代表性。中位数将避免这种影响。中位数（Median）一组n个观测值按数值大小排列，处于中央位置的值称为中位数以表示，，当n为奇数，当n为偶数定义：即中位数（Median）第25百分位数又称第一个四分位数（First Quartile） ,用Q1 表示；第50百分位数又称第二个四分位数（Second Quartile），用Q2表示；第75百分位数又称第三个四分位数（Third Quartile）,用Q3表示。中位数是第50百分位数一组n个观测值按数值大小排列如x1,x2,x3,x4… 处于p%位置的值称第p百分位数。定义：百分位数（ Percentile）计算第p百分数第1步：以递增顺序排列原数据（即从小到大排列）。第2步：计算指数第3步 1.若i不是整数，将i向上取整。大于I 的毗邻整数为第p百分位数的位置。 2.若i是整数，则第P百分位数是第i项与第（i＋l）项数据的平均值。如何计算百分位数数据的变异程度产品质量检查的结果说明生产是否稳定测量的结果说明测量方法或仪器是精密还是粗糙学生的成绩成绩是否整齐（而不是高低）表示变异（分散）程度的特征数定义其中xmax和xmin分别为数据中的极大值和极小值。极差（或称全距 Range）R 对于已分组的频数分布（组数为k）定义平均差.是离差的绝对值的平均数，即平均差（Mean Absolute Deviation）方差样本对于已分组的频数分布（组数为k）总体样本总体方差（Variance），标准差（Standard Deviation）标准差样本标准差总体标准差样本标准差总体标准差对于已分组的频数分布（组数为k）标准差的单位与X的单位相同。方差（Variance），标准差（Standard Deviation）定义变异系数C 是一个无量纲的量。它适于用在比较有不同算术平均数或有不同量纲的两组数据的情况。例如比较大学生身高与小学生身高，或比较130名大学生身高和体重哪个变化波动范围比较大时，都可用变异系数。变异系数（Coefficient of Variation）定义变异系数C 是一个无量纲的量。它适于用在比较有不同算术平均数或有不同量纲的两组数据的情况。例如比较大学生身高与小学生身高，或比较130名大学生身高和体重哪个变化波动范围比较大时，都可用变异系数。表示偏倚情况或程度的特征数比较众数、中位数和算术平均数的相对位置下图列举出了对称的、具有左偏态（负偏态）和右偏态（正偏态）的频数分布的例子。注意到它们的特点是： ①对称的分布的众数、中位数和算术平均数相同； ②具有偏倚性的分布，算术平均数突出在外，偏向分布的尾端，而中位数则介于众数与算术平均数之间。偏倚性是表示各观测值分布不对称情况或程度的。表示偏倚情况或程度的特征数图3-1 比较众数、中位数和算术平均数的相对位置 >Me>Mo <Me<Mo =Me=Mo 可以看出，对于单峰的分布，对称态：左偏态：右偏态：比较众数、中位数和算术平均数的相对位置（1）Pearson偏倚系数 Pearson 分布对称，则k=0 左偏态，则k<0 右偏态，则k>0 定量地描述偏倚性，常用的两个公式（2）用标准化的三阶矩阵g表示定量地描述偏倚性，常用的两个公式五数概括法五数概括法（2）第1四分位数（Q1）。（3）中位数（Q2）。（4）第3四分位数（Q3）。（5）最大值。（1）最小值。首先将数据按递增顺序排列，然后很容易就能确定最小值、3个四分位数和最大值了。对12个月薪数据的样本，按照递增顺序排列如下： 2210 2255 2350 | 2380 2380 2390 | 2420 2440 2450 | 2550 2630 2825 Q1＝2365 Q2＝2405 Q3＝2500 上述起薪数据以五数概括为：2210，2365，2405，2500，2825。五数概括法盒形图实际上是以图形来概括数据。我们将盒形图延至这一章才讲是因为它的关键是计算中位数和四分位数Q1和Q3。此外还将用到四分位数间距IQR＝Q3－Q1 。盒形图的画法步骤如下：（1）画一个方盒，其边界恰好是第1和第3四分位数。对于上述的起薪数据， Q1＝2365， Q3＝2500。这个方盒包含了中间的50％的数据。（2）在方盒上中位数的位置画一条垂线（对起薪数据，中位数为2405）。因此中位数将数据分为相等的两个部分。盒形图（3）利用四分位数间距IQR=Q3－Q1，来设定界限。盒形图的界限定于低于Q1以下1．5个IQR和高于Q3以上1．5个IQR的位置。上、下限以外的数值作为异常值。（4）在图3－4中的横线叫做须线（whisker），须线从方盒的边线出发，直至在上、下限之内的最大值和最小值。（5）最后，任一异常值的位置以符号“＊”标出。盒形图盒形图例图图3-2 盒形图为什么要进行抽样？如何进行简单随机抽样？正态分布、分布、F分布、t分布的定义、图形分布形态如何？中心极限定理的含义如何？关于抽样的基本概念为什么要抽样? 为了收集必要的资料，对所研究对象（总体）的全部元素逐一进行观测，往往不很现实。抽样原因元素多，搜集数据费时、费用大，不及时而使所得的数据无意义总体庞大,难以对总体的全部元素进行研究检查具有破坏性炮弹、灯管、砖等简单随机抽样（x1, x2,……, xn）: 简单随机抽样是指从总体中抽取样本容量为n 的样本时，x1, x2,……, xn这n个随机变量必须具备以下两个条件：这n个随机变量与总体X具有相同的概率分布；它们之间相互独立。关于抽样的基本概念甲乙丙丁四个生产商，其产品质量如下表所示：如果仅从甲乙两个生产商的产品中进行抽样，抽样质量就偏高；如果仅从丙丁两个生产商的产品中进行抽样，抽样质量就偏低；因此采用简单随机抽样保证随机样本与总体具有相同的概率分布。低低高高质量丁丙乙甲表4-1 关于抽样的基本概念样本统计量与抽样分布: 在简单随机抽样中，样本具有随机性，样本的参数 ,s2等也会随着样本不同而不同，故它们是样本的函数，记为g（x1, x2,……, xn），称为样本统计量。统计量的概率分布称为抽样分布（Sample distribution）关于抽样的基本概念几种概率分布正态分布分布 F分布 t分布几种与正态分布有关的概率分布若随机变量X的概率密度函数记为 (1)正态分布图4-1 一般正态分布 (1)正态分布标准正态分布: 当时，记为U∽N（0，1）图4-2 标准正态分布 (1)正态分布非标准正态分布向标准正态分布的转化若标准化因子则U∽N（0，1） (1)正态分布查表当u大于零时，可查正态分布表但如果u<0时，则可由式φ（-u）=1-φ（u）求出 (1)正态分布线性性质：如果 ,且相互独立。对于常数，有下式成立： (1)正态分布相互独立且均为服从N（0，1）分布的随机变量，则称随机变量所服从的分布是自由度为n的分布，且记。定义 (2) 分布图4-3 χ2分布图 (2) 分布查表：对于给定的α，0<α<1，可在分布表中查得，即例如即指 (2) 分布性质：如果，则；设，且相互独立，则若，已知相互独立，，则 (2) 分布总体，是X的一个样本，为样本的平均数，为样本的方差。则: a. 相互独立 b. (2) 分布设相互独立的随机变量V和W分别服从自由度为n1,n2的分布，即，则随机变量服从F分布。n1，n2分别是它的第一自由度和第二自由度，且通常记为定义 (3) F分布图4-4 F分布图 F (3) F分布查表性质 (3) F分布设随机变量U服从标准正态分布，随机变量W服从自由度为n的分布，且U与W相互独立，则称随机变量服从自由度为n的t分布，记为T～t（n）。定义 (4) t分布（Students 分布）图4-5 n=∞正态分布 n=10 n=1 t分布图 (4) t分布（Students 分布）查表或性质: 当n很大时，此时，tα/2≈uα/2，t分布近似标准正态分布。 (4) t分布（Students 分布）无限总体: 设总体X～N（μ，σ2），X1，X2，… ，Xn是总体 X的随机样本，样本平均数 ,则样本平均数的抽样分布有限总体有限总体若采取有放回抽样，则与无限总体等价。有限总体容量为N而采取无放回抽样，且n/N≤，仍可视为无限总体，而当n/N>时则称式为有限总体的修正系数。样本平均数的抽样分布从总体中抽取样本容量为n的简单随机样本，当样本容量 n ≥ 30时，样本均值的抽样分布可用正态概率分布近似。中心极限定理图4-6 中心极限定理参数估计解决的主要问题是什么？点估计与区间估计的区别是什么？点估计所谓点估计就是由样本x1,x2,…xn确定一个统计量用它来估计总体的未知参数，称为总体参数的估计量。当具体的样本抽出后，可求出样本统计量的值。用它作为总体参数的估计值，称作总体参数的点估计。 1.无偏性 (unbiasedness) 设　为总体未知参数　的估计量若则称　是　的无偏估计量，称　具有无偏性。如果　是有偏估计量，则它的偏差量为偏差= 衡量估计量优劣的标准注: 具有无偏性。，对于，具有无偏性衡量估计量优劣的标准 2．一致性（consistency）如果对任意小的正数，有则称是的一致估计量，称具有一致性，可以证明均具有一致性。衡量估计量优劣的标准 3．有效性若都是的无偏估计量且　或　则称较为有效估计量。的有效估计量衡量估计量优劣的标准 4．罗—克拉美不等式两个以上的无偏估计量具有最小方差最佳无偏估计量一个估计量罗—克拉美不等式检验非最佳无偏估计量衡量估计量优劣的标准 4．罗—克拉美不等式对于一个无偏估计量的方差在一般的条件下，其方差永远不会小于一个正数，这个正数是的下限，它依赖于总体的概率密度函数和样本容量n 即: 注：当等于不等式右端时，这时称为最佳无偏估计量。衡量估计量优劣的标准 [例]　若，是总体均值的最佳无偏估计量。［证］衡量估计量优劣的标准罗—克拉美下限值为　为的最佳无偏估计量衡量估计量优劣的标准 1.特征数法：用总体特征数对应的样本特征数作为其点估计点估计的常用方法 2．最大似然法设总体X的概率分布为或概率密度为其中是未知参数。如何求极大似然估计量呢？点估计的常用方法求最大似然估计量的步骤为: (1)对给定的总体X，写出似然函数 (2)列出似然方程 (3)求解上述方程，得关于的解即为的最大似然估计量。点估计的常用方法含多个参数令似然方程或最大似然解点估计的常用方法［例］从正态分布总体X抽取随机样本 X1，X2，…，Xn。求的最大似然估计量。解　因为: 所以，X的概率密度数函数为点估计的常用方法因此，似然函数其对数函数点估计的常用方法求得似然方程组即即解方程组得点估计的常用方法区间估计的概念的样本使得置信度1-α 区间估计置信度1－α下θ的置信区间： 1-α是置信度，置信度也称为置信概率 α称为显著性水平则称区间估计的概念一.总体均值的区间估计总体服从正态分布,σ2已知时当时，（5－7）根据区间估计的定义，在1－α置信度下，总体均值μ的置信区间为：（5－8）单个总体参数的区间估计即：（5－9）从而有（5－10）即在1－α置信度下，μ的置信区间为：（5－11）单个总体参数的区间估计 [例] 已知某零件的直径服从正态分布，从该批产品中随机抽取10件，测得平均直径为，已知总体标准差σ=，试建立该种零件平均直径的置信区间，给定置信度为。解：已知 =, n=10, 1－α= 查标准正态分布表，得μα/2= 所以在1－α置信度下，μ的置信区间为单个总体参数的区间估计即 计算结果为：[,] 单个总体参数的区间估计 σ2未知时（1） n≥30时，只需将中的σ用 S近似代替即可（2）n<30时，由（5－12）所以（5－13）即（5－14）单个总体参数的区间估计 n≥30时，只需将中的σ用 S近似代替即可。 n<30时,由 σ2未知时单个总体参数的区间估计所以：（5－15）即在1－α置信度下，μ的置信区间为（5－16）单个总体参数的区间估计 [例]某大学从该校学生中随机抽取100人，调查到他们平均每人每天完成作业时间为120分钟，样本标准差为30分钟，试以95％的置信水平估计该大学全体学生平均每天完成作业时间。解： 1-α= μα/2= 在95％的置信度下，μ的置信区间为单个总体参数的区间估计由上：即[ , ] 单个总体参数的区间估计二.总体方差的区间估计（5－17）（5－18）（5－19）单个总体参数的区间估计所以在1-α置信度下：（5－20）（5－21） σ2的置信区间总体标准差σ 的置信区间为单个总体参数的区间估计三、总体比率的区间估计根据中心极限定理，当n较大时，时，二次分布近似正态分布。即将正态分布标准化，得（5－27）单个总体参数的区间估计在给定置信度为时，有（5－28）括号内单个总体参数的区间估计记单个总体参数的区间估计于是有解得p的置信区间为（5－29）单个总体参数的区间估计另一种近似解法：由于整理得：单个总体参数的区间估计（5－30）其中中的未知，可用来代替。单个总体参数的区间估计一、两个总体均值之差的估计设两总体X～N(μ1，σ12)，Y～N(μ2，σ22)，由两总体分别独立的抽取容量为n1和n2的样本，？？两个正态总体参数的比较 1.两个总体方差σ12，σ22，已知，在1-α置信度下，μ1-μ2的置信区间为（5－31）两个正态总体参数的比较 2.两个总体方差σ12，σ22，未知，（1）σ12≠σ22，且两样本容量均≥30，由S12和 S22分别估计σ12和σ22，即可（2）σ12=σ22=σ2，σ2未知，（5－32）两个正态总体参数的比较两个正态总体参数的比较 σ12≠σ22 且两样本容量均≥30 由S12和 S22分别估计σ12和σ22，即可两个正态总体参数的比较 σ12=σ22=σ2 σ2未知在1-α置信度下，μ1-μ2的置信区间为两个正态总体参数的比较（5－33）两个正态总体参数的比较二、两个总体方差比的区间估计由于（5－34）两个正态总体参数的比较在1-α置信度下，σ12∕σ22的置信区间为（5－35）两个正态总体参数的比较三、两个总体比例之差的区间估计设两个总体比例分别为P1和P2，为了估计P1-P2，分别从两个总体中各随机抽取容量为n1和n2的两个随机样本，并计算两个样本的比例（5－36）两个正态总体参数的比较其中，在1-α置信度下，p1-p2的置信区间为两个正态总体参数的比较 [例]某减肥用品公司对其所作的报纸广告在两个城市的效果进行了比较，其分别从两个城市中随机抽取了800名成年人，其中看过该广告的比例分别为试求:两城市中看过该广告的成年人比例之差的置信度为95%的置信区间。解：由于n1，n2均为大样本， 1-α=，μα/2= 两个正态总体参数的比较 p1-p2的置信区间为故在95%置信度下，p1-p2的置信区间为（，）。两个正态总体参数的比较需要考虑问题： (1)要求什么样的精度？即我们想构造多宽的区间？ (2)对于构造的置信区间来说，想要多大的置信度？即我们想要多大的可靠度？样本容量的确定在总体均值的区间估计时，半置信区间的宽度为：可得估计总体均值时，样本容量的确定样本容量n与总体方差、允许误差、置信度有以下关系：必要样本容量n 与总体方差成正比。 2．在给定的置信水平下，允许误差越大，样本容量就可以越小。 3.样本容量n与置信度成正比。估计总体均值时，样本容量的确定 [例] 一家广告公司想估计某类商店去年所花的平均广告费有多少。经验表明，总体方差约为1 800 000。如置信度取95%，并要使估计值处在总体平均值附近500元的范围内，这家广告公司应取多大的样本？解：已知这家广告公司应抽选28个商店作样本（注意抽取样本数总是整数，所以n 应圆整成整数）。估计总体均值时，样本容量的确定估计总体比例时，允许误差为：（5－40）由上式可得出估计总体比例时，确定必要样本容量的公式。由于总体比率是未知的，因此要用样本比率代替（5－41）估计总体比例时，样本容量的确定 [例] 一家市场调研公司想估计某地区有彩色电视机家庭所占的比例。该公司希望对p 的估计误差不超过,要求的可靠程度为95%，应取多大容量的样本？没有可利用的估计值。解：对于服从二项分布的随机变量，当时，其方差达到最大值。因此，在无法得到值时，可以用计算。已知：由于的估计值未知，可以采用计算必要的样本容量：估计总体比例时，样本容量的确定故为了以95%的可靠度保证估计误差不超过，应取385户进行调查。估计总体比例时，样本容量的确定假设检验解决那类问题？假设检验的基本思想是什么？参数假设检验与非参数假设检验的区别是什么？区间估计与假设检验解决问题不同点在什么地方？区间估计与假设检验机理的相同点是什么？假设检验的一般问题假设检验是推断性统计学中的一项重要内容，它是先对研究总体的参数作出某种假设，然后通过样本的观察来决定假设是否成立参数假设样本观察假设检验具体的统计方法假设检验的一般问题习题：某种大量生产的袋装食品，按规定每袋重量不得少于250g。今从一批该种食品中任意抽取50袋，发现有6袋低于250g 。若规定不符合标准的比例达到5％，食品就不得出厂，问该批食品能否出厂。从2000年的新生儿中随机抽取30个，测得其平均体重为3210g,而根据1999年的统计资料,新生儿的平均体重为3190g,问2000年的新生儿与1999年相比，体重有无显著差异。假设检验的概念假设基本形式 H0:原假设，H1:备择假设假设检验：运用统计理论对上述假设进行检验，在原假设与备择假设中选择其一。假设检验基本原理小概率事件在一次试验中几乎不可能发生。假设检验的基本依据—小概率原理: 假设检验基本原理假设检验的基本思想前提：承认原假设小概率事件发生大概率事件发生拒绝原假设接受原假设进行一次实验假设检验基本原理显著水平与两类错误第一类错误：弃真（显著水平α）第二类错误：取伪显著水平与两类错误假设检验基本原理对于一定的样本容量n ，不能同时做到两类错误的概率都很小。如果减小α错误，就会增大犯β错误的机会；若减小β错误，也会增大犯α错误的机会。使α、β 同时变小的办法就是增大样本容量。一般地说，哪一类错误所带来的后果越严重，危害越大，在假设检验中就应当把哪一类错误作为首要的控制目标。但在假设检验中，一般均首先控制犯α错误概率。两类错误关系假设检验的步骤一个完整的假设检验过程，通常包括以下四个步骤：提出原假设（Null hypothesis）与备择假设（Alternative hypothesis）确定适当的检验统计量，并计算检验统计量的值规定显著性水平α 作出统计决策正态总体参数假设检验的步骤第一步：建立原假设H0和备择假设H1。原假设应该是希望犯第Ι类错误概率小的假设。常用的假设形式：正态总体参数的假设检验正态总体参数假设检验的步骤第二步：选择检验用的统计量。 u 检验 t 检验 F检验常用统计量正态总体参数假设检验的步骤第三步：确定显著水平α的值，查相应的分布表得其临界值以及拒绝域。第四步：进行显著性判别。正态总体参数假设检验的步骤正态总体参数假设检验的步骤正态总体参数假设检验的步骤 p-值的应用 p-值是一个概率值，它是用于确定是否拒绝H0的另一种方法。如果假定原假设为真，则p-值是所获得的样本结果至少与实测结果不同的概率值。 p-值的应用例题：某商品标签上标明其重量至少为3公斤以上，现抽取36瓶该产品组成的一个简单随机样本，得其样本均值公斤，已知总体标准差为时，在显著性水平α＝的情况下检验其商品标签所标内容是否真实？ p-值的应用求解过程：（1）原假设H0：μ≥3，备择假设H1：μ＜3 （2）检验统计量为：代入数据得： p-值的应用求解过程（续）：（3）U=－所对应的p值为（4）＜，所以拒绝H0。单个总体比率的假设检验如果样本容量n与原总体比率时，用u检验法。总体比率的假设检验单个总体比率的假设检验 [例] 某企业的备件库存标准有所调整。调整前的库存周转率为，今调查库存资料如下表（α=）单个总体比率的假设检验求解过程：检验假设：由题意：单个总体比率的假设检验求解过程（续）：统计量构造与计算查正态分布表结论:调整前后，该企业的库存周转率无显著差异。两个总体比率的假设检验 && 比较两个总体比率有无显著差异时，如比较两种机车生产产品的次品率有无显著差异，可取容量 n1、n2足够大，使得这样就可采用u检验法。详见下表6-3。两个总体比率的假设检验第二类错误概率例题：某种品牌电池标明其使用寿命为120小时，若已知总体的标准差σ＝12小时，现选取36节电池组成一个样本，显著性水平α＝。检验假设： H0：μ≥120 H1：μ＜120 构造统计量第二类错误概率 α＝，例题（续）：假设检验的拒绝规则：如果U＜－，则拒绝H0 上述问题中，拒绝规则为：第二类错误概率例题（续）：时，拒绝H0 当时，接受H0。第二类错误概率例题（续）：如果假定电池寿命的均值μ=112小时，当μ＝112确实是真却接受了H0：μ≥120时，犯第二类错误的概率有多大呢？第二类错误概率例题（续）：图6－2给出了当均值μ=112时，的抽样分布，其上侧阴影部分的面积为的概率。第二类错误概率例题（续）：根据图6－2，计算得由标准正态概率分布表可知，当U＝时，μ=112时，β= 。对总体均值进行假设检验时样本容量的确定检验假设：H0：μ≥μ0 H1：μ<μ0 对总体均值进行假设检验时样本容量的确定图6-3上半部分为当H0为真并且μ=μ0时的抽样分布。对总体均值进行假设检验时样本容量的确定图6-3中下半部分为当H0为假时，总体均值的值，记作μ1。所以：得：对总体均值进行假设检验时样本容量的确定由上面得到的公式可得α、β和样本容量n之间的关系： α β 和n 之间关系当三者中有二者已知时，即可计算得到第三者。对于给定的显著性水平α，增大样本容量将会减少β 对于给定的样本容量，减小α会使β增大，相反增大α将会使β减小。非参数的假设检验前两节的假设检验都是在已知总体的分布类型（如正态分布）下进行的。但是在许多问题中，总体不一定是属于正态分布，甚至总体的分布未知。为此，本节介绍统计上常用的不依赖于总体分布及其参数知识的检验——非参数检验（Nonparametric Tests）方法。两个总体分布差异的检验实际问题中，经常要检验两种不同的处理方法效果是否相同。例如，比较在不同钻机、不同操作人员、不同地质条件下，钻机效率是否相同等等。诸如此类问题是对两个总体的分布是否相同的检验。下面介绍两种简单易行的方法：“符号检验法”和“秩和检验法”。符号检验法（Sign Tests）设两个总体X1,X2,它们的分布皆未知，以f1(x)和f2(x)分别表示两总体的概率密度。我们要检验f1(x)= f2(x)是否成立。于是 H0:f1(x)=f2(x),H1: f1(x)≠f2(x) 符号检验法（Sign Tests）为此对两个总体分别独立地抽取m个元素，即得到m对数据： (a1,b1),(a2,b2),…,(am,bm) 如果f1(x)=f2(x)假设成立，那么ai>bi或ai<bi(i=1,2,…,m)应该有相同的概率（1/2）。且样本ai>bi 与ai<bi的个数差异不应很大。符号检验法（Sign Tests）令ai>bi的事件为yi,其取值为1，0 于是 y=y1+y2+...+ym服从二项分布根据二项分布计算出了比较ai>bi或ai<bi差异的临界值Sα(n) 符号检验法步骤：比较样本数据求出n:n= n++ n- 在显著水平α下，根据 n值查符号检验表得其临界值Sα(n) 判别显著性 ai>bi记为“+”,“+”的个数记为n+ ai<bi记为“-”，“-”的个数记为n- ai=bi记为“0”，“0”的个数记为n0 若S0=min{n+,n-}<Sα(n),则拒绝H0,接受H1；认为f1(x)与f2(x)有显著差异。若S0=min{n+,n-}>Sα(n)，则接受H0，认为f1(x)与f2(x)无显著差异。秩和检验法符号检验法的缺点:没有充分利用数据本身提供的信息，而且必须在数据成对时使用。如果两样本数据不成对，则可用秩和检验法。秩和检验法秩和检验法的做法：建立H0和H1；将两组数据依从小到大次序（秩号）排列成表，如果有两个以上重复的数，则取秩号平均数作为其秩。取样本容量小的一组（样本容量相同时，取平均数小的一组），其数据个数记为n1,则另一组数据个数记为n2，将样本容量小的一组所对应的秩相加称为该组的秩和（Sum of Ranks）,记为T。秩和检验法如果两个总体分布无显著差异，则T值不应太大或太小。所谓太大或太小是比较而言，其比较值就是秩和检验表中的下限T1和上限T2(在给定的显著水平α下，若T1<T<T2,则接受H0: f1(x)=f2(x),认为两总体分布无显著差异。若T>T2或T<T1,则拒绝假设H0而接受H1：f1(x)≠f2(x)，认为两个总体分布有显著差异。秩和检验法秩和检验法的原理和符号检验法类似。对于两个总体X1,X2,其概率密度为f1(x)和f2(x)，从中分别独立抽取样本观测值a1,a2,…,am;b1,b2,…bn。如果f1(x)=f2(x)的假设成立，那么在将两个样本的观测值混合排列的次序中，某个秩数对应的数是ai和bi的概率应是相等的。秩和检验法 [例]某药厂生产杀虫药品，检查两种配方药品杀虫的效果（死亡百分数）如下：问两种配方杀虫效果有无显著差异？ 69 71 70 68 65 64 64 62 63 乙配方效果样本 70 69 64 67 68 64 65 67 甲配方效果样本秩和检验法解: 将数据按秩号排列，并将数据少的甲组数据用绿色填充区别乙组数据 71 70 70 69 69 68 68 67 数据 17 16 15 14 13 12 11 10 秩号 67 65 65 64 64 64 64 63 62 数据 9 8 7 6 5 4 3 2 1 秩号秩和检验法甲组的秩和 T=+++++++=76 在α＝下查秩和检验表，n1=8,n2=9时，T2=90,54=T1<T=76<T2=90,所以判定甲、乙两种配方的杀虫效果无显著差异。 17 2 1 总体分布的假设检验拟合优度检验法正态概率纸列联表的独立性检验 (1) 拟合优度检验法已知总体分布函数F(x)的类型F0(x)或概率密度 f(x)的类型f0(x)以及总体X的随机样本X1,X2,…,Xn。 H0:F(x)=F0(x)或H0:f(x)=f0(x) H1:F(x)≠F0(x)或H1:f(x)≠f0(x) (1) 拟合优度检验法用检验法进行检验，具体步骤如下：（1）求出F0(x)或f0(x)中未知参数的估计值（一般用最大似然估计值），从而写出F0(x)或f0(x)的具体表达式。（2）按第二章的分组方法，把样本值分成m个区间（a0,a1）,(a1,a2),…(ai-1,ai),…,(am-1,am)。 (1) 拟合优度检验法（3）求出样本观测值在每个区间(ai-1,ai)内的频数fi （4）根据已写出的F0(x)或f0(x)，计算出总体X在每个区间(ai-1,ai)中的概率值pi。 (1) 拟合优度检验法（5）构造统计量对于大样本，上述统计量近似服从自由度为m-r-1的分布（r是分布函数概率密度函数中观测值估计的参数个数）。 (1) 拟合优度检验法（6）在给定显著水平α下查出分布表中的临界值 , ,则拒绝原假设H0。 ,则接受原假设H0。 (1) 拟合优度检验法 [例 ] 盒中有5种球，重复抽取200次，（每次抽1个球）各种球出现的次数见下表。问盒中5种球的个数是否相等？显著水平α=。 (1) 拟合优度检验法解 : H0:“5种球的个数相等”, H1:“5种球的个数不等”。由已知n=200,m=5,如果H0正确，则每次抽得第i种球概率pi=1/5 0 200 200 ∑ 0 -5 0 3 -2 4 40 40 40 40 40 35 40 43 38 44 1 2 3 4 5 (fi-npi)2/npi fi-npi npi fi 种别 (1) 拟合优度检验法计算出　查表得：< 接受H0，认为盒中5种球的个数相等。 (2)正态概率纸正态概率纸就是一种检验总体是否为正态分布的较直观易行的工具。正态概率纸是由垂直于横轴，纵轴的若干条直线构成的格纸。横轴是按等份刻度，表示观测值x 纵轴表示正态分布累积概率值纵轴是按非等分刻度，其目的是使服从正态分布的观测值在正态概率纸上的图形呈一条直线。正态概率纸的使用步骤: 将样本观测值分组，且求出各组的频率和累积频率在正态概率纸上画出相应的点用直线连接各点每组区间右端点为横坐标，累积频率为纵坐标如果这些点基本在一条直线上，则可以认为样本来自正态总体。中间的点应尽量地靠近直线，两端的点可以稍有些偏离。 (2)正态概率纸 (2)正态概率纸 [例 ] 某市1987年一次家庭收入调查中，随机地抽取50个家庭调查，其家庭人均月收入如下：（元/人）试在显著水平α=下，用正态概率纸对该市家庭人均收入的分布进行假设检验。 46 48 50 33 43 38 19 28 37 32 58 35 39 40 49 49 31 45 43 28 30 37 27 34 43 31 42 29 41 26 35 23 33 (2)正态概率纸解：将分组和累计频率值列入下表累计频率频率分组 (2)正态概率纸以各组右端点值为横坐标，累计频率为纵坐标值。在正态概率纸上描点，如下图：由图可见，9个点近似在直线上，所以，可以认为总体是正态分布。且 =， ==。 (3)列联表的独立性检验问题：某啤酒厂生产三种类型的啤酒：淡啤酒、普通啤酒和黑啤酒，需要研究男女饮酒者对三种啤酒的偏好是否有差异。该独立性检验的假设为： H0：啤酒偏好与饮酒者性别独立 H1：啤酒偏好与饮酒者性别不独立。 (3)列联表的独立性检验啤酒偏好与饮酒者性别列联表单元格（2，3）单元格（2，2）单元格（2，1）女性单元格（1，3）单元格（1，2）单元格（1，1）男性黑啤酒普通啤酒淡啤酒啤酒偏好 (3)列联表的独立性检验男性与女性饮酒者啤酒偏好的样本资料（观察频数） 150 30 70 50 合计 70 10 30 30 女性 80 20 40 20 男性合计黑啤酒普通啤酒淡啤酒啤酒偏好 (3)列联表的独立性检验当啤酒偏好与饮酒者性别独立时的期望频数 150 合计 70 女性 80 男性合计黑啤酒普通啤酒淡啤酒啤酒偏好 (3)列联表的独立性检验独立性检验统计量式中，fij――列联表中第i行第j列类别的观察频数 eij――列联表中第i行第j列类别的期望频数 (3)列联表的独立性检验对于n行m列的列联表，检验统计量服从分布 ((n-1) ×(m-1)) 其中所有类别的期望频数都大于或等于5。对于检验显著性水平α＝，由分布表可知上侧值为。在本例中，大于临界值，于是我们拒绝零假设并得出啤酒偏好与饮酒者性别不独立的结论。统计抽样主要研究什么内容，解决什么问题？统计抽样主要有哪几种方法？如何确定样本容量？统计抽样基本概念总体由研究对象的全体所组成。样本是总体中的部分元素所组成的集合。目标总体是我们要推断的总体抽样总体是实际抽取样本的总体在抽样之前，应将总体划分为抽样单位。抽样单位既可以是一个简单的个体，也可以是一组个体。对某一个特殊研究，抽样单位的名册称为抽样框。统计抽样基本概念调查方法邮寄调查电话调查个人采访调查抽样调查种类和抽样方法调查误差非抽样误差抽样误差由于没有对总体的所有单位进行调查而产生的误差进行一次抽样调查可能出现的如测量误差、采访者误差及数据处理误差等。调查误差从一个容量为N的有限总体中抽取得到一个容量为n的简单随机样本，使每一个容量为n的可能样本，都有相同的概率被抽中。建立抽样框根据随机数表进行抽样抽样总体中所有个体的名册使用随机数表，可以保证抽样总体中的每个个体都有相同的概率被抽中简单随机抽样总体均值总体比率样本容量的确定简单随机抽样如果选择大样本（n≥30），则中心极限定理可以保证的抽样分布近似服从正态概率分布，μ的区间估计为式中，为均值的标准差。 1－α称为置信度，为与之对应的临界值。例如，若置信度为95％，则。总体均值当从一个容量为N的有限总体中，抽取一个容量为n的简单随机样本时，均值的标准差的估计值为此时总体均值的区间估计为在抽样调查中，当构造置信区间时，通常取μ=2。因此，在使用简单随机样本时，总体均值的近似95％的置信区间的表达式为：总体均值［例］《摄影》是一本推介摄影作品、报道摄影发展状况、介绍摄影器材的杂志，它目前拥有8000个订户。根据一个484个订户的简单随机样本，得出订户的年平均收入为30500元，标准差为7040元。因此，所有订户的年平均收入的无偏估计为　　　　元。因此，这本杂志订户的年平均收入的近似95％的置信区间为即（29880，31120）。总体均值上述过程也可用于对诸如总体总量或总体比率等其他总体参数的区间估计。对点估计的抽样分布近似服从正态概率分布的所有情形，其近似95％的置信区间为例如，在《摄影》的抽样调查中，点估计量的标准误差的估计值为　　　　　，允许误差为2×310元＝620元。总体均值总体比率p是总体中具有某些感兴趣特征的个体的比重。 [例]在市场调查研究中，人们想了解喜欢某一品牌的消费者比重。样本比率是总体比率的无偏点估计。总体比率的标准差的估计值为因此，总体比率的近似95％的置信区间的表达式如下：总体比率例如，在大宇国际咨询公司的抽样调查中，大宇国际咨询公司也想估计在它服务范围内的500所学校中，使用天然气作为取暖燃料的学校比率。如果在抽出的50所学校中，有35所学校使用天然气作为取暖燃料，则总体500所学校中使用天然气比率的点估计值。比率的标准差的估计值为因此，总体比率的近似95％置信区间为即（, ）。总体比率回忆前面提到的允许误差为“点估计的标准差估计值的2倍”，因此: 均值的标准差的估计值：样本容量的确定两步抽样用试点调查或事先检验的结果估计s2 估计s2的方法根据以往的资料估计s2 由第一步抽取的部分单位，得到的s2的估计值，将此值代入上式，确定出全部样本容量n；然后对第一步确定的全部样本容量，再抽取第二步所需要的其余单位数。样本容量的确定 [例]某大学有5000名毕业生，我们想构造宽度在1000元之内的近似95％的置信区间。对这样规定的置信区间，B＝500。在确定n之前，需要估计。假设根据去年所做的同样研究，得知s＝3000元。我们可以用这个值来估计。根据B=500、 s＝3000 及N＝5000，则样本容量为样本容量的确定在估计总体比率时，选择样本容量的公式，与估计总体均值的公式类似。我们只需要将估计总体均值的公式中替换为，即使用上式时，我们必须规定允许误差B和给出的一个估计值。如果没有合适的估计值，我们可以使用代替，这样将保证近似置信区间的允许误差比希望的要小的多。样本容量的确定将总体划分H组从第h层中抽取一个容量为nh的简单随机样本由这H个简单随机样本的联合资料，可得出诸如总体均值、总体总量及总体比率等各种总体参数的估计。分层简单随机抽样的步骤：也称为层分层简单随机抽样如果各层内的差异比层间的差异小，则分层简单随机样本可得到更大的精度（总体参数的区间估计将更窄）。各层的划分应依据样本设计者的判断。根据应用，总体可按部门、地区、年龄、产品类型、销售水平等分层。分层简单随机抽样 [例]某大学管理学院想对今年的毕业生进行一次调查，以便了解他们开始工作时的年薪。分层简单随机抽样在分层抽样中，总体均值的无偏估计是各层样本均值的加权平均数，所用权数为总体在各层的比重。用表示总体均值的点估计，其定义如下：式中：H--层数； --第h层的样本均值； Nh--第h层的单位数；N--总体单位数；对分层简单随机样本，计算平均值的标准差的估计公式为总体均值某大学管理学院的180名毕业生的样本调查结果总体均值各专业（层）的样本均值分别为：因此，总体均值的点估计为总体均值抽样调查中估计均值的标准差所需要的部分计算结果总体均值上表中因此，总体的近似95％的置信区间为即（29074，29626）。总体均值对分层简单随机抽样，总体比率p的无偏估计是各层比率的加权平均数，所用权数为总体在各层的比重。总体比率的点估计定义如下：式中：H--层数； --第h层的样本比率； Nh―第h层的单位数；N―总体单位数；总体比率的标准差的估计值为总体比率的近似95％的置信区间的表达式为总体比率 [例] 在某大学的调查中，大学想了解毕业生开始工作时的年薪不低于36 000元的比率。180名毕业生的抽样调查结果显示，有20名毕业生开始工作时的年薪不低于36000元，其中会计专业4名，金融专业2名，信息系统专业7名，市场营销专业1名，经营管理专业6名。总体比率根据总体比率的近似95％的置信区间的公式，开始工作时的年薪不低于36000元的比率的点估计为：故毕业生开始时的年薪不低于36000元的比率近似95%置信区间为（，）总体比率对分层简单随机抽样，我们可用两阶段过程来选择样本容量。既然人们想估计各层的均值、总量及比率，这两种组合方法都经常使用。确定总样本容量n 决定各层应分配的样本单位数决定每层应选择的样本单位数加总得到总样本容量或者样本容量的确定确定总样本容量n及其分配，可对所有要研究的总体参数提供必要的精度。分配工作就是决定总样本被分配到各层的部分，这些部分将确定各层的简单随机样本的容量。各层的单位数各层内的方差考虑的因素各层选择单位的费用样本容量的确定一般地，单位数较多的层和方差较大的层应分配较多的样本数目。相反地，对于给定的费用，为了获得更多的信息，则抽样单位成本较大的层应分配较少的样本数目。样本容量的确定整群抽样需要将总体各个个体分为N组（也称作群），使总体中每个个体只属于一群。总体组1 组2 个体4 个体5 个体1 个体6 个体2 个体3 整群抽样例如，我们想调查某省的登记选民。则有两种方法：调查某省的登记选民。有两种方法：第一种方法是建立包含该省所有登记选民的抽样框，然后根据抽样框，选择选民的一个简单随机样本。第二种方法是整群抽样，我们选择用该省各县的清单作抽样框。在这个方法中，每个县（或群）包含一组登记选民，而该省的每个登记选民只属于一群。整群抽样分层抽样和整群抽样都将总体划分为组，因此这两种抽样过程感觉上是相似的。选择整群抽样与分层抽样的原因是不同的。当群内的个体存在差异时，整群抽样可提供较好的结果。理想情形是每一群是整个总体的一个缩影，这时，抽取很少的群就可以提供关于整个总体特征的信息。整群抽样与分层抽样的比较整群抽样 [例] 某省拥有12000名执业注册会计师的注册会计师协会进行了一项调查。作为调查的一部分，注册会计师协会收集与收入、性别和与注册会计师生活方式有关的因素的信息。因为用个人采访法去搜集所需要的信息，因此注册会计师协会采用整群抽样，以使总的差旅费和采访费用达到最小。抽样框中包含所有在该省登记注册的执业会计师事务所。整群抽样假设有1000群，即在该省登记注册的从事会计活动的会计师事务所有1000个，选择10个会计师事务所为一个简单随机样本。 [例]（续）整群抽样为了介绍在整群抽样中，构造总体均值、总体总量和总体比率的近似95％置信区间需要的公式，我们使用如下的记号： N—总体的群数； n—样本中选出的群数； Mi—i群的单位数； M—总体单位数； M＝M1＋M2＋…十MN； —每一群的平均单位数。 Xi——第i群所有观察值的总量； ai——第i群具有某特征的观察值的数量; 整群抽样对注册会计师协会的抽样调查，我们有如下资料： N＝1000 n＝10 M＝12000 下表7-4为每个中选群的Mi和xi的值，以及中选事务所中女注册会计师的数量（ai）的资料。 [例]（续）整群抽样整群抽样由整群抽样得到的总体均值的点估计的公式如下：（7-25）总体均值该点估计量的标准差的估计为：（7-26）总体均值的近似95％的置信区间为：总体均值根据表7-4的资料，我们可以得到执业注册会计师平均年薪的点估计为 [例]（续）总体均值由于表7－4中的年薪资料是以千元计量的，因此，执业注册会计师的平均年薪的估计值为42531元。而: 因此: [例]（续）总体均值因此标准差为。我们得到平均年薪的近似95％置信区间: 即（，）。 [例]（续）总体均值整群抽样的总体比率的点估计如下：（7-30）式中ai——第i群中具有某种感兴趣特征的个体的数量。总体比率该点估计量的标准误差的估计为：（7-31）总体比率的近似95％的置信区间（7-32）总体比率对注册会计师抽样调查，可以得到女性执业注册会计师的比率的估计为： [例]（续）总体比率并且：因此： [例]（续）总体比率因此，女性执业注册会计师比率的近似95%置信区间为即（,）。 [例]（续）总体比率先通过选择β（即允许误差）的值，规定可接受的精度水平建立满足所需要的精度的n值的计算公式每群平均个体的数量和群间方差是决定样本中包含群数多少的关键因素。如果各群相似，则群间方差小，因此中选群数就比较少。如果每群平均个体数量较大，则中选群数也会比较少。整群抽样的过程同其他抽样方法整体上是类似的样本容量的确定例如，需要从容量为5000的总体中抽取一个容量为50的样本，我们可以从总体中随机选择一个，然后在其后面的抽样框中，每隔100个个体选择一个，可得到样本中其余的个体。系统抽样因为第一个个体的选择是随机的，因此系统样本常常假定具有简单随机样本的性质。当抽样框是由总体中的个体随机排列而形成时，这种假定通常是合适的。方差分析解决的主要问题是什么？单因素方差分析与双因素方差分析原理的相同点与不同点？正交实验设计的基本原理是什么？ [例题] 某公司计划引进一条生产线.为了选择一条质量优良的生产线以减少日后的维修问题,他们对6种型号的生产线作了初步调查,每种型号调查4条,结果列于表8-1。这些结果表示每个型号的生产线上个月维修的小时数。试问由此结果能否判定由于生产线型号不同而造成它们在维修时间方面有显著差异? 方差分析的基本概念和原理表 8－1 对6种型号生产线维修时数的调查结果 F型 E型 D型 C型 B型 A型 4 3 2 1 序号型号方差分析的基本概念和原理研究的指标:维修时间记作Y, 控制因素是生产线的型号,分为6个水平即A,B,C,D,E,F，每个水平对应一个总体Yi(i=1,2,…,6)。方差分析的基本概念和原理现在的试验就是进行调查,每种型号调查4台,相当于每个总体中抽取一个容量为4的样本,得到的数据记作yij(i=1,2,…,6;j=1,2,3,4),即为下表数据。计算各样本平均数如下: F E D C B A 型号表 8－2 方差分析的基本概念和原理两个总体平均值比较的检验法把样本平均数两两组成对: 与 , 与 ,… 与 , 与 ,…, 与 ,共有( 15)对。方差分析的基本概念和原理即使每对都进行了比较,并且都以的置信度得出每对均值都相等的结论,但是由此要得出这6个型号的维修时间的均值都相等。这一结论的置信度仅是上述方法存在的问题工作量大置信度低将这15对平均数一一进行比较检验方差分析的基本概念和原理方差分析的基本原理： (1)将数据总的偏差平方和按照产生的原因分解成： (总的偏差平方和)= (由因素水平引起的偏差平方和)+(试验误差平方和) (2)上式右边两个平方和的相对大小可以说明因素的不同水平是否使得各型号的平均维修时间产生显著性差异,为此需要进行适当的统计假设检验. 方差分析的基本概念和原理数学模型和数据结构参数点估计分解定理自由度显著性检验多重分布与区间估计单因素试验的方差分析在单因素试验中,为了考察因素A的k个水平A1, A2,…,Ak对Y的影响(如k种型号对维修时间的影响),设想在固定的条件Ai下作试验.所有可能的试验结果组成一个总体Yi,它是一个随机变量.可以把它分解为两部分（8-1）数学模型和数据结构其中：纯属Ai作用的结果,称为在Ai条件下Yi的真值(也称为在Ai条件下Yi的理论平均). 是实验误差(也称为随机误差)。（8-2）其中, 和都是未知参数(i=1,2,…,k). 数学模型和数据结构假定在水平Ai下重复做m次试验,得到观测值 Tk Ykm … Ykj … Yk2 Yk1 Ak … … … … … … … … … Ti Yim … Yij … Yi2 Yi1 Ai … … … … … … … … … T2 Y2m … Y2j … Y22 Y21 A2 T1 Y1m … Y1j … Y12 Y11 A1 平均合计 M … j … 2 1 表 8－3 数学模型和数据结构表中： (i=1,2,…,k) (8-3) Yij表示在Ai条件下第j次试验的结果,用式子表示就是 (i=1,2,…,k j=1,2,…,m) (8-4) 注意: 每次试验结果只能得到Yij,而(8-4)式中的和都不能直接观测到。数学模型和数据结构为了便于比较和分析因素A的水平Ai对指标影响的大小,通常把再分解为 (i=1,2,…,k) (8-5) 其中, 称为一般平均(Grand Mean),它是比较作用大小的一个基点；数学模型和数据结构并且称为第i个水平Ai的效应.它表示水平的真值比一般水平差多少。满足约束条件 (8-6) 可得 i=1,2,…,k ;j=1,2,…,m 数学模型和数据结构要解决的问题找出参数和的估计量分析观测值的偏差检验各水平效应有无显著差异数学模型和数据结构用最小二乘法求参数的估计量,然后寻求的无偏估计量. 须使参数的估计值能使在水平Ai下求得的观测值Yij与真值之间的偏差尽可能小。为满足此要求,一般考虑用最小偏差平方和原则,也就是使观测值与真值的偏差平方和达到最小. 参数点估计由(8-4)可知,上述偏差平方和令下列各偏导数为零 (i=1,2,…,k) 参数点估计由解得 (8-7) 由解得 (8-8) 参数点估计并由此得的估计量至此,求得参数的估计量 (8-9) 参数点估计按照上述原则求参数估计量的方法称为最小二乘法, 称为最小二乘估计量. 我们还可以证明分别是参数的无偏估计量。将和分别用它们的估计量代替,可以得到试验误差的估计量 , (8-10) 参数点估计为了由观测值的偏差中分析出各水平的效应,我们研究三种偏差: , 和 . 根据前面参数估计的讨论,它们分别表示 , 定理 (8-11) 的估计. 和分解定理自由度证明：分解定理自由度令则分解定理(8-11)可写成 (8-12) 分解定理自由度上式中, 称为总偏差平方和. 称为误差平方和(或组内平方和); 称为因素A的效应平方和(或组间平方和), ST的自由度fT=km-1 SA的自由度fA=k-1 SE的自由度fE=k(m-1) 容易看出，自由度之间也有类似于分解定理的关系 (8-13) 分解定理自由度参数假设检验的假设条件观测值(i=1,2,…,k;j=1,2,…,m) 相互独立在水平Ai条件下, Yij(j=1,2,…m) 服从正态分布N 显著性检验要判断在因素A的k个水平条件下真值之间是否有显著性差异, 即检验假设 H0: , H1: 不全相等相当于检验假设 H0 : (i=1,2,…,k), H1 : αi不全为零显著性检验可以证明当H0为真时, , , (8-16) 并且与相互独立. 得 (8-17) 其中和称为均方(Mean Square). 显著性检验利用(8-17)式来检验原假设H0是否成立.对于给定的显著水平 ,可以从F分布表查出临界值再根据样本观测值算出FA的值. 当时,拒绝H0, 当时,接受H0。显著性检验 --- Km-1 ST=SA+SE 总和 SE／k(m-1) K(m-1) SE 组内(实验误差) SA/(k-1) K-1 SA 组间(因素A) F比均方自由度平方和方差来源表 8－4 方差分析表显著性检验下面继续讨论前面6种型号的生产线的例子。根据调查结果，在 =的显著水平时，检验这6种型号的生产线在平均维修时间方面有无显著差异？根据实践经验，认为各种型号生产线的维修时间是近似服从正态分布的。作统计假设：6种型号的生产线平均维修时数无显著差异，即 H0： αi=0（i=1,2,…,6）,H1:αi不全为零显著性检验计算SA及SE 显著性检验表 8－5 计算列表 F型 E型 D型 C型 B型 A型 Ti2 Ti 4 3 2 1 台号型号显著性检验再将计算结果分别代入SA与SE两式中，得到第一自由度第二自由度显著性检验查F分布表得由于，故拒绝H0。该结论说明，至少有一种生产线型号的效应不为零，这等价于至少有两种型号的生产线的平均维修时数是有显著差异的。 --- 23 总和ST 18 组内SE 5 组间SA F比均方自由度平方和方差来源表 8－6 方差分析表显著性检验 q 检验法：计算任意两水平的差值，当时，判断与差异显著；当时，判断与差异显著。查多重比较的q表得 (8-18) 多重分布与区间估计区间估计在置信度为的情况下，的置信区间为（8-19）多重分布与区间估计双因素方差分析的类型数据结构离差平方和的分解应用实例双因素方差分析在实际问题的研究中，有时需要考虑两个因素对实验结果的影响。例如饮料销售，除了关心饮料颜色之外，我们还想了解销售地区是否影响销售量，如果在不同的地区，销售量存在显著的差异，就需要分析原因。采用不同的销售策略，使该饮料品牌在市场占有率高的地区继续深入人心，保持领先地位；在市场占有率低的地区，进一步扩大宣传，让更多的消费者了解、接受该生产线。双因素方差分析的类型若把饮料的颜色看作影响销售量的因素A，饮料的销售地区则是影响因素B。对因素A和因素B同时进行分析，就属于双因素方差分析。双因素方差分析的内容，是对影响因素进行检验，究竟是一个因素在起作用，还是两个因素都起作用，或是两个因素的影响都不显著。双因素方差分析的类型双因素方差分析的类型无交互作用的双因素方差分析有交互作用的双因素方差分析假定因素A和因素B的效应之间是相互独立的，不存在相互关系假定因素A和因素B的结合会产生出一种新的效应双因素方差分析的类型例如，若假定不同地区的消费者对某种颜色有与其他地区消费者不同的特殊偏爱，这就是两个因素结合后产生的新效应，属于有交互作用的背景；否则，就是无交互作用的背景。有交互作用的双因素方差分析已超出本书的范围，这里介绍无交互作用的双因素方差分析。双因素方差分析的类型双因素方差分析的数据结构如表所示：双因素方差分析数据结构 … Xkr … Xk2 Xk1 Bk … … … … … … X2r … X22 X21 B2 X1r … X12 X11 B1 因素 B Ar … A2 A1 因素A 表 8－7 数据结构表中，因素A位于列的位置，共有r个水平，代表第j种水平的样本平均数；因素B位于行的位置，共有k个水平，代表第i种水平的样本平均数。为样本总平均数，样本容量n=r×k。每一个观察值Xij看作由A因素的r个水平和B因素的k个水平所组合成的r×k个总体中抽取样本容量为1的独立随机样本。这r×k个总体的每一个总体均服从正态分布，且有相同的方差。这是进行双因素方差分析的假定条件。数据结构离差平方和的分解各离差平方和对应的自由度：总离差平方和SST的自由度为r×k-1=n-1；因素A的离差平方和SSA的自由度为r-1；因素B的离差平方和的自由度为k-1；随机误差SSE的自由度为（r-1）×（k-1）离差平方和的分解由离差平方和与自由度可以计算均方差：对因素A而言：对因素B而言：对随机变量而言：离差平方和的分解表 8－8 双因素方差分析表 --- --- n-1 SST 合计 --- MSE=SSE/(r-1)(k-1) (r-1)(k-1) SSE 误差 FB=MSB/MSE MSB=SSB/(k-1) k-1 SSB Ｂ因素 FA=MSA/MSE MSA=SSA/(r-1) r-1 SSA A因素 F值均方差自由度离差平方和误差来源离差平方和的分解某商品有五种不同的包装方式（因素A），在五个不同地区销售（因素B），现从每个地区随机抽取一个规模相同的超级市场，得到该商品不同包装的销售资料如下表. 表 8－9 现欲检验包装方式和销售地区对该商品销售是否有显著性影响。（ɑ=） 10 20 16 22 26 B5 18 6 8 4 16 B4 10 18 18 14 24 B3 6 12 20 10 22 B2 14 10 20 12 20 B1 销售地区 (B) A5 A4 A3 A2 A1 包装方式(A) 应用实例解：若五种包装方式的销售的均值相等，则表明不同的包装方式在销售上没有差别。建立假设对因素A： H0： , 包装方式之间无差别 H1：不全相等, 包装方式之间有差别对因素B： H0：地区之间无差别 H1：不全相等地区之间有差别应用实例计算F值因素A的列均值分别为：因素B的行均值分别为：总均值= 故： SST=（）2 +…+()2= SSA=5()2 +…+5()2= SSB=5()2 +…+5()2= SSE== 应用实例接下来：因此应用实例统计决策对于因素A，因为 FA=>Fcrit = 故拒绝H0，接受H1，说明不同的包装方式对该商品的销售产生影响。对于因素B，因为 FB=<Fcrit= 故接受H0，说明不同地区该商品的销售没有显著差异。应用实例在工农业生产和科学研究中，经常会遇到多因素试验问题，在实际中不需要进行各种水平组合的全面试验，只需从各种不同搭配情况中，选取一小部分来进行就可以了。那么，怎样选取以及如何分析试验结果，才能科学的回答如下问题：各因素对指标的影响，哪个因素重要？哪个因素次之？每个因素中，哪个水平为好？各个因素和水平依哪种情况搭配可使试验结果最佳？解决这些问题正是正交试验设计的主要内容。正交试验设计正交试验统计的基本思想正交表与直观分析法方差分析法正交试验设计考虑进行一个三因素、每个因素有三个水平的试验。如果作全面试验，需作=27次。图8-1 正交试验统计的基本思想如果进行正交试验设计，利用正交表安排试验，对于三因素三水平的试验来说，需要作9次试验，用“Δ”表示，标在图中。如果每个平面都表示一个水平，共有九个平面，可以看到每个平面上都有三个“Δ”点，立方体的每条直线上都有一个“Δ”点，并且这些“Δ”点是均衡地分布着。正交试验统计的基本思想正交表是正交试验设计的工具。最简单的正交表是L4(23)，此外还有L8(27) ， L9(34) ，L16(45)等等。 L表示一张表，它的数字，有三层不同的含义，以L4(23)为例加以说明。正交表与直观分析法 L4(23)表的结构: 包括4行，3列，表中只出现1、2两个反映水平的数字。行数水平数列数 L4(23) 正交表与直观分析法 L4(23)表的用法作4次试验，可以最多安排3个二水平的因素（因子）试验数水平数因子数 L4(23) 正交表与直观分析法 L4(23)表的效率全因素全水平的实验做8次,正交实验做4次. 理论上全部试验的次数实际试验次数 L4(23) 正交表与直观分析法表 8－10 L4(23) 1 2 2 4 2 1 2 3 2 2 1 2 1 1 1 1 3 2 1 列号试验号正交表与直观分析法正交表的特点每一列中,不同的数字出现的次数相等, 如L4(23)表中的数1和2,它们各出现了两次任意两列中,将同一横行的两个数字看成有序数对时,每种数对出现的次数相等。如 L4(23)表中共有的四种有序数对(1,1), (1,2),(2,1),(2,2),它们各出现一次。由此保证了用正交表安排的试验计划是均衡搭配的。正交表与直观分析法 [例] 某化工厂生产一种试剂，产率较低，希望通过试验探索好的生产工艺以提高产率。考察的因子与水平如下表: 表 8－11 慢 2 50 三水平中 40 二水平快 1 30 一水平 C 搅拌速度 B 反应时间(小时) A 反应温度(摄氏度) 因子水平正交表与直观分析法表 8－12 试验计划表 2 中 3 2 3 50 9 1 快 2 3 50 8 3 慢 1 1 3 50 7 1 快 3 2 2 40 6 3 慢 2 2 40 5 2 中 1 1 2 40 4 3 慢 3 2 1 30 3 2 中 2 1 30 2 1 快 1 1 1 30 1 3 搅拌速度C 2 反应时间(小时)B 1 反应温度(摄氏度)A 列号试验号正交表与直观分析法表 8－13 计算表正交表与直观分析法在A因子水平相同的三组试验中,极差它表示反应温度40摄氏度与50摄氏度相比,试剂的产率平均提高%. 用同样的方法可以比较B因子和C因子各水平的好与差. 正交表与直观分析法结论反应温度对产率影响最大,其次是反应时间,再其次是搅拌速度. 反应温度是40度好,反应时间是小时好,搅拌速度是快速好. 最好的生产工艺是A2B2C1: 即反应温度 40摄氏度; 反应时间小时; 搅拌速度快速. 正交表与直观分析法利用方差分析法来分析试验结果时，由于要考虑随机因素对指标的影响，因此在选取正交表安排试验时，要使表中的因子数大于实际的因子数。例如，试剂产率的试验是三因子三水平，我们仍然可以选用L9（34）表安排试验，将三因素依次放在表的第1、2、3列后，还空出一列无因素可安排，这一列可视为随机试验误差。把试验结果的所有数据都减去同一常数，不会影响结论，故常用此法简化数据。方差分析法试验计划表和计算表表 8－14 方差分析法按本章前面介绍的方差分析方法，将试验结果产率y的变动（或波动、差异）用总偏差平方和ST来表示，则其中， , T=∑yi 方差分析法总偏差平方和可以分解为各因子的偏差平方和与试验误差的偏差平方和，即 ST=SA+SB+SC+SE 其中可化简为将具体数值代入得SA= 方差分析法类似地,可求出因子B、C和试验误差E的偏差平方和SB，SC和SE的值: 各因子与试验误差的自由度为方差分析法表 8－15 方差分析 --- --- 8 ST= 总和 2 SE= 试验误差E FC= 2 SC= 因子C FB= 2 SB= 因子B FA= 2 SA= 因子A F比均方自由度平方和方差来源方差分析法由F分布表查得（2，2）=9，（2，2）=19，（2，2）=99，比较F值与、、的大小得出： FA>,FA>,故A因子非常显著； <FB<，故B因子比较显著； <FC<，故C因子也比较显著，但比A、B 二因子的影响作用差。方差分析法本例方差分析的结论与直观分析法的结论是一致的即：反应温度对产率影响最大，搅拌速度影响最小；好的生产工艺条件仍然是A2B2C1。方差分析法回归分析适合研究哪类问题? 回归方程的显著性检验适合什么情况? 回归系数的显著性检验适合什么情况? 回归分析的基本概念因变量(Y)与自变量(X)之间的关系根据因变量与自变量之间的关系不同，可以分为两种类型：函数关系统计关系因变量(Y)与自变量(X)之间的关系 1.函数关系即对两个变量X，Y来说，当X值确定后，Y值按照一定的规律唯一确定，即形成一种精确的关系。例如:微积分学中所研究的一般变量之间的函数关系就属于此种类型。因变量(Y)与自变量(X)之间的关系 2.统计关系即当X值确定后，Y值不是唯一确定的，但大量统计资料表明，这些变量之间还是存在着某种客观的联系。例如：图在直角坐标平面上，标出了10 个观测点的坐标位置，他们表示以家庭为单位，某种商品年需求量与该商品价格之间的10对调查数据。回归分析图9-1 回归分析回归分析(Regression Analysis) 就是应用统计方法，对大量的观测数据进行整理、分析和研究，从而得出反映事物内部规律性的一些结论。一元线性回归模型统计关系的特征统计关系特征观测点散布在统计关系直线的周围，此种情况说明Y的变化除了受自变量X影响以外，还受其他因素的影响。因此试图建立这样一个回归模型，通过对此模型所作的一些假设，可以体现出上述统计关系所刻划的特征。因变量Y随自变量X有规律的变化，而统计关系直线描述了这一变化的趋势。一元线性回归模型假设根据统计关系特征，可以进行下述假设：假设 (2)这些Y的概率分布的均值，有规律的随X变化而变化 (1)对于自变量的每一水平X，存在着Y的一个概率分布；一元线性回归模型 Y与X具有统计关系而且是线性建立回归模型 Yi=β0+β1Xi+εi (i=1,2,···,n) 其中，(X i,Yj)表示(X,Y)的第i个观测值，β0 , β1为参数，β0+β1Xi为反映统计关系直线的分量，ε i为反映在统计关系直线周围散布的随机分量ε i～N (0,σ2)。一元线性回归模型对于任意Xi值有： ⑴ Yi服从正态分布 ⑵E(Yi)=β0+β1Xi； ⑶ ⑷各Yi间相互独立 Yi～N(β0+β1Xi,σ2) 。一元线性回归模型图9-2 一元线性回归方程最小二乘法 Y与X之间为线性关系选出一条最能反映Y与X之间关系规律的直线一元线性回归方程 Yi=β0+β1Xi+εi β0和β1均未知根据样本数据对β0和β1 进行估计 β0和β1的估计值为b0和b1 建立一元线性回归方程一元线性回归方程一般而言，所求的b0和b1应能使每个样本观测点(X i,Y i) 与回归直线之间的偏差尽可能小，即使观察值与拟合值的误差平方和Q达到最小。图9-4 回归方程原理图一元线性回归方程令 Q达到最小值 b0和b1称为最小二乘估计量微积分中极值的必要条件令偏导数为0 解方程一元线性回归方程 (9-5) (9-6) 最小二乘估计量b0,b1的特性 b0,b1的特性线性性无偏性最小二乘估计量b0,b1的特性 (1) 线性特性由（9-5）得令则表明b1是Yi 的线性组合最小二乘估计量b0,b1的特性同理，可得 b0是Yi线性组合最小二乘估计量b0,b1的特性 (2) 无偏性可以证明b0和b1分别是β0 和β1的无偏估计总平方和分解总平方和分解总平方和分解图9-5 总平和分解图总平方和分解总离差平方和它表示没有X的影响，单纯考察数据中Y的变动情况。总平方和分解回归平方和表示各的变动程度，该变动是由于回归直线中各Xi 的变动所引起的，并且通过X对Y 的线性影响表现出来。总平方和分解误差平方和表示各Yi围绕所拟合的回归直线的变动程度 SSTO=SSR+SSE 总平方和分解 SSE=SSTO-SSR 自由度的分解 SSTO 自由度 ƒ T为n-1 SSE β0和β1用了两个正规方程自由度 ƒ E为n-2 SSR 自由度 ƒ R为1 自由度的分解自由度的分解可以表示为 n-1=1+（n-2） ƒT=ƒR+ƒE 回归均方与误差均方 (9-10) (9-11) 回归均方误差均方样本确定系数与样本相关系数样本确定系数 (9-12) 注:Y的总变差中能被X解释的那部分所占的比率样本确定系数 r2的取值范围样本的全部观察值都落在所拟和的回归直线上 SSE=0， r2=1 当X与Y无关，Y的变差完全由于随机因素引起，此时，SSR=0 r2=0 样本相关系数样本相关系数注:r与b1的分母均为正，分子相同,故r与b1有相同的符号。样本相关系数 r的取值情况情况一图9-6 样本相关系数情况二图9-7 样本相关系数情况三图9-8 样本相关系数情况四图9-9 一元线性回归显著性检验在回归函数E(Y)=β0+β1X中，如果β1=0，则对于X的一切水平E(Y)=β0，说明Y的变化与X的变化无关，因而，我们不能通过X去预测Y。所以，对模型Yi=β0+β1Xi+εi 检验β1=0是否成立，等价于检验Y与X之间是否存在线性关系。 b1的抽样分布为了检验β1=0是否成立，需要构造一个合适的统计量，因此，首先讨论b1 的抽样分布。 b1的抽样分布 b1是观测值Yi的线性组合 Yi服从正态分布且相互独立 b1也服从正态分布 b1的抽样分布以下可以证明 b1的方差 b1的抽样分布证明：因为且Yi相互独立，其中所以，b1服从 F 检验在一元线性回归中，为了检验Y对于X线性关系的统计显著性，对β1进行F检验 1）提出假设：H0：β1=0，H1：β1≠0。 2）构造并计算统计量： 3）查F分布临界值表，得临界值 4）比较：接受H0，认为Y与 X不存在一元线性关系。 F 检验若F> 拒绝H0，认为Y与X存在一元线性关系。表9-1 方差分析表 t 检验 1）提出假设 H0: H1: 2）构造并计算统计量步骤： 3）查t分布临界值表得临界值 t 检验 4）比较若，接受H0 若，拒绝H0 利用样本相关系数进行统计检验步骤： 1）提出假设 H0:ρ =0 H1:ρ 2）计算简单相关系数r 3）查相关系数临界值表得临界值 ρ是总体Y与X的线性相关系数利用样本相关系数进行统计检验 4）比较若，接受H0 若，拒绝H0 模型适合性分析在对一元线性回归模型的适合性进行分析时, 由于误差项是不可观测或测量的, 需借助残差的图像,来考察模型是否存在以下情况：异方差性和自相关性。误差项的异方差性检验若不具有常数方差,称模型存在异方差性。此时,残差如下图所示，数据点呈现发散或收敛趋势。在此种情况下,最小二乘法失效,因此需按照一定方法对数据进行变换,在计量经济学课程中,对此有详细讲述。误差项的异方差性检验误差项具有异方差性的残差图图9-10 误差项的自相性关检验如果观测值是来自一个时间序列的样本,则很可能出现误差项是不独立的,将残差 et与时间t 作残差图,将呈现出有规则的变化趋势。称模型存在自相关(Autocorrelation)现象，也需按一定方法对数据进行修正，在计量经济学课程中也有详细论述。误差项的自相性关检验误差项具有负自相关性的残差图图9-11 误差项的自相性关检验误差项具有正自相关性的残差图图9-12 多元线性回归的基本思想是什么？多元线性回归的模型与一元线性回归有什么异同？与一元线性回归相比，多元线性回归的检验有何特殊之处？多元线性回归分析：研究因变量（被解释变量）与两个或两个以上自变量（解释变量）之间的回归问题，称为多元回归分析。多元线性回归分析的定义线性回归自变量个数大于等于2 多元线性回归多元线性回归模型若因变量Ｙ与解释变量Ｘ１，Ｘ２，ＸＫ……具有线性关系，它们之间的线性回归模型可表示为（其中b0,b1,…,bk为回归系数，u为随机扰动项）：多元线性回归的基本理论多元线性回归模型将n个观察数据代入上述模型，则问题转化为：多元线性回归的基本理论 (10-1) 多元线性回归模型多元线性回归的基本理论写为矩阵形式： (10-2) 多元线性回归模型多元线性回归的基本理论即： (10-3) 其中，Y, u是n维向量，b是k维向量，x是m×k矩阵多元线性回归模型多元线性回归的基本理论基本假定： ① ② 多元线性回归模型多元线性回归的基本理论 ③ ④ 参数的最小二乘估计采用最小二乘估计回归系数b 令：取最小值参数的最小二乘估计 Q在最小值处偏导数为0，得：（10-4）采用最小二乘估计回归系数b 参数的最小二乘估计采用最小二乘估计回归系数b （10-5）整理得：求解该联立方程组即可得回归方程的显著性检验假设求得的回归方程为：总离差平方和分解总离差平方和分解同一元回归，可得：并且：（10-6）总离差平方和分解总离差平方和：即是：回归平方和：残差平方和：样本决定系数对回归方程“拟合优度” 的检验样本决定系数Ｒ２，又称复决定系数，或多重决定系数。定义：样本决定系数Ｒ２样本决定系数对回归方程“拟合优度” 的检验样本容量增大(n↑) R2也随之增大(R2↑) R2的大小很难说明问题Ｒ２存在的问题样本决定系数对回归方程“拟合优度” 的检验 R2的改进当n为小样本，解释变量数很大时，上式可能为负数，这时取其值为0。 R2与均反映在给定样本下，回归方程与样本观测值拟合优度，但不能据此进行总体模型的推断。Ｒ２改进回归方程的显著性检验回归方程的显著性检验检验的目的：检验Y与解释变量x1，x2，……xk之间的线性关系是否显著。检验的目的回归方程的显著性检验检验的步骤第一步，提出假设：原假设：H0：b1=b2=……bk=0 备择假设：H1：bi不全为0 （i=1，２，…，k）回归方程的显著性检验检验的步骤第二步，计算统计量：或：（10-8）回归方程的显著性检验第三步，查表，得：检验的步骤回归方程的显著性检验检验的步骤第四步，做检验：拒绝H0，回归方程显著接受H0，回归方程不显著检验法则回归系数的显著性检验回归方程显著，并不意味着每个解释变量对因变量Y的影响都重要,因此需要进行检验：回归系数检验的必要性回归方程显著每个回归系数都显著回归系数的显著性检验回归系数检验的步骤第一步，提出假设：原假设：H0： bi=0 (i=1，2，……k) 备择假设：H1：bi≠0 (i=1，2，……k) 回归系数的显著性检验回归系数检验的步骤第二步，构造并计算统计量：回归系数的显著性检验回归系数检验的步骤第三步，查表得：回归系数的显著性检验回归系数检验的步骤第四步，做检验：接受H0 检验法则拒绝H0 回归系数的显著性检验关于模型的异方差、自相关、多重共线性问题的检验，请参考计量经济学有关教材。对时间序列的分析方法有哪几种？它们分别有什么优点和缺点？如何进行时间序列的预测？什么是指数？它有何作用？现实中指数是怎样的？时间序列的成分一个时间序列中往往由几种成分组成，通常假定是四种独立的成分——趋势、循环、季节和不规则。下面我们仔细研究其中的每一种成分。时间序列的四种独立成分趋势循环季节不规则趋势成分在一段较长的时间内，时间序列往往呈现逐渐增加或减少的总体趋势。时间序列逐渐转变的性态称为时间序列的趋势。趋势通常是长期因素影响的结果，如人口总量的变化、方法的变化等等趋势成分时间序列的长期动向长期影响因素循环成分时间序列常常呈现环绕趋势线上、下的波动。任何时间间隔超过一年的，环绕趋势线的上、下波动，都可归结为时间序列的循环成分。循环成分围绕长期趋势线的上下波动季节成分许多时间序列往往显示出在一年内有规则的运动，这通常由季节因素引起，因此称为季节成分。季节成分季节因素引起的一年内有规则的运动季节成分例如，一个游泳池制造商在秋季和冬季各月有较低的销售活动，而在春季和夏季各月有较高的销售量。铲雪设备和防寒衣物的制造商的销售却正好相反。季节成分季节成分也可用来描述任何持续时间小于一年的、有规则的、重复的运动。例如，每天的交通流量资料显示在一天内的“季节”情况，在上、下班拥挤时刻出现高峰，在一天的休息时刻和傍晚出现中等流量，在午夜到清晨出现小流量。季节成分的扩展不规则成分时间序列的不规则成分是剩余的因素，它用来说明在分离了趋势、循环和季节成分后，时间序列值的偏差。不规则成分是由那些影响时间序列的短期的、不可预期的和不重复出现的因素引起的。它是随机的、无法预测的。不规则成分短期的，不可预期和不重复出现的因素引起的随机变动不规则成分时间序列不规则成分分离出趋势成分分离出循环成分分离出季节成分利用平滑法进行预测本节我们讨论三种预测方法：移动平均法、加权移动平均法和指数平滑法。因为每一种方法的都是要“消除”由时间序列的不规则成分所引起的随机波动，所以它们被称为平滑方法。三种平滑方法移动平均法加权移动平均法指数平滑法利用平滑法进行预测平滑方法对稳定的时间序列——即没有明显的趋势、循环和季节影响的时间序列——是合适的，这时平滑方法很适应时间序列的水平变化。但当有明显的趋势、循环和季节变差时，平滑方法将不能很好地起作用平滑方法很容易使用，而且对近距离的预测，如下一个时期的预测，可提供较高的精度水平。预测方法之一的指数平滑法对资料有最低的要求平滑方法缺点优点移动平均法移动平均法使用时间序列中最近几个时期数据值的平均数作为下一个时期的预测值。移动平均数的计算公式如下：（11－1）加权移动平均法移动平均法加权移动平均法计算移动平均数时每个观测值权数权数相同对每期数据值选择不同的权数，然后计算最近n个时期数值的加权平均数作为预测值通常，最近时期的观测值应取得最大的权数，而比较远的时期权数应依次递减指数平滑法指数平滑法加权移动平均法属于只选择一个权数（最近时期观测值的权数），其他时期数据值的权数可以自动推算出来。当观测值离预测时期越久远时，权数变得越小指数平滑法指数平滑法模型：式中Ft+1——t+1期时间序列的预测值； Yt——t期时间序列的实际值； Ft——t期时间序列的预测值； α——平滑常数（0≤α≤1）。指数平滑法 2期的预测值： 3期预测值：最后，将F3的表达式代入F4的表达式中，有指数平滑法因此，F4是前三个时间序列数值的加权平均数。Y1，Y2和Y3的系数或权数之和等于1。由此可以得到一个结论，即任何预测值Ft+1是以前所有时间序列数值的加权平均数。指数平滑法指数平滑法特点指数平滑法提供的预测值是以前所有预测值的加权平均数，但所有过去资料未必都需要保留，以用来计算下一个时期的预测值。一旦选定平滑常数α，只需要二项的信息就可计算预测值。式（11-2）表明，对给定的α，我们只要知道t期时间序列的实际值和预测值，即Yt和Ft，就可计算t+1期的预测值。利用趋势推测法进行预测本节我们将说明如何对拥有长期线性趋势的时间序列进行预测。不稳定，随时间呈现持续增加或减少的形态长期线性趋势数列趋势推测法可行平滑法不合适利用趋势推测法进行预测 [例题] 考虑一某超市过去10年的自行车销售量时间序列，资料见表11-1。注意，第1年销售了21600辆，第2年销售了22900辆，…，第10年（即最近一年）销售了31400辆。尽管图11-1显示在过去10年中销售量有上、下波动，但时间序列总的趋势是增长的或向上的。利用趋势推测法进行预测利用趋势推测法进行预测图11-1 自行车销售时间序列的图形利用趋势推测法进行预测图11-2 用线性函数对自行车销售量的趋势描述利用趋势推测法进行预测被估计的销售量可表示为时间的函数，其表达式如下：线性趋势方程上式中 Tt——t期时间序列的趋势值； b0——线性趋势的截距； b1——线性趋势的斜率； t ——时间。 [例解析] 利用趋势推测法进行预测其中: [例解析(续)] 利用趋势推测法进行预测式中 Tt——t期时间序列的值； n ——时期的个数； ——时间序列的平均值，即 ——t的平均值，即 =∑t/n。 [例解析(续)] 利用趋势推测法进行预测根据计算b0和b1的关系式及表11-1的自行车销售量资料，我们有如下计算结果： [例解析(续)] 利用趋势推测法进行预测因此，自行车销售量时间序列的线性趋势成分的表达式为： Tt=+ （11-6） [例解析(续)] 利用趋势和季节成分进行预测前面我们已经介绍了如何对有趋势成分的时间序列进行预测。本节我们将把这种讨论扩展到对同时拥有趋势和季节成分的时间序列进行预测的情形。利用趋势和季节成分进行预测商业和经济中的许多情形是一期与一期的比较。例如，我们想研究和了解失业人数是否比上个月上升1%，钢产量是否比上个月上升5%等问题。在使用这些资料时，必须十分小心。因为每当描述季节影响时，这样的比较会使人产生误解。利用趋势和季节成分进行预测例如，9月份电能消费量比8月份下降3%，可能仅仅是由于空调使用减少这一季节影响引起的，而不是因为长期用电量的减少。事实上，在调整季节影响后，我们甚至可以发现用电量是增加的。 9月份电能消费量比 8月份下降3% 的原因属于长期用电量的减少？空调使用减少引起的？乘法模型基本模型：上式中：Yt--时间序列的数值 T --趋势成分 S --季节成分 I --不规则成分乘法模型下述资料是某公司在过去4年中台式电脑的销售量（单位：千台）数据。 [例] 乘法模型表11-2 台式电脑销售量的季度资料乘法模型季节指数的计算第一步，计算中心化移动平均数 [例解析] 表11-3 台式电脑销售量时间序列的中心化的移动平均数的计算结果季节指数的计算表11-3（续）台式电脑销售量时间序列的中心化的移动平均数的计算结果季节指数的计算表11-3（续）台式电脑销售量时间序列的中心化的移动平均数的计算结果季节指数的计算季节指数的计算第二步计算季节不规则值表11-4 台式电脑销售量时间数列的季节不规则值季节指数的计算第三步计算季节指数 [例解析（续）] 表11-5 台式电脑销售量时间数列的季节指数计算结果消除时间序列的季节影响表11-6 台式电脑销售量时间数列消除季节影响后的数据消除时间序列的季节影响图11-5消除季节影响的台式电脑销售量时间序列利用消除季节影响的时间序列确定趋势 Tt=b0+b1t 式中 Tt——t期台式电脑销售量的趋势值； b0——趋势线的截距； b1——趋势线的斜率；第四步,进行趋势预测基本模型: 利用消除季节影响的时间序列确定趋势计算b0和b1的公式如下（11－8）（11－9）利用消除季节影响的时间序列确定趋势计算结果： [例解析（续）] 利用消除季节影响的时间序列确定趋势 Tt=+ 因此，时间序列的线性趋势成分的表达式为：由趋势方程可分别产生第17、18、19和20季度的台式电脑销售量预测值为7617，7765，7913和8016台。 [例解析（续）] 季节调整季节调整表11-7 台式电脑销售量时间数列的季度预测值基于月度资料的模型在前面台式电脑销售量的例子中，我们利用季度资料来说明季节指数的计算，但是许多商业情况的预测使用月度资料多于季度资料。联系现实基于月度资料的模型在这种情况下，首先用12个月的移动平均数代替4个季度的移动平均数，然后是计算每个月的季节指数，而不是每个季度的季节指数。除了这些改变以外，计算和预测方法都是一样的。联系现实 12个月的移动平均数代替4个季度的移动平均数计算每个月的季节指数，而不是每个季度的季节指数解决方案的差别循环成分有时，式（11-8）的乘法模型可扩展到包括循环成分在内，即循环成分同季节成分一样，循环成分也可表示为趋势的百分比。循环成分相对比较复杂：本节将不对循环成分做进一步的讨论。循环成分的复杂性循环成分是由于时间序列的多年循环而出现的，与季节成分类似，但是它的时间周期更长一些。获得比较恰当的资料来估计循环成分常常是困难的循环的长度是变化的指数指数实际上就是相对比率。对于时间序列 y1，y2，…yi，…yn 如选其中yb为基准，那么第i时期的指数指数的概念指数的作用 指数可以用做衡量同一变量在不同时期变化的方向和程度，也可提供比较有关变量变化的情况的根据。衡量同一变量在不同时期变化的方向和程度提供比较有关变量变化情况的根据指数指数的作用指数可以用来调整在不同时期变量变化的实际情况。例如某人经过一段时间，其收入由1000元增到1500元，但消费指数在同期由100增到130，那么他的真实收入实际是：以下只考虑物价指数和物量指数。指数的分类从研究对象的品种数目来看，可以分为单一品种的指数和多品种的综合指数。从比率的基准来看，指数可分为定基指数和环比指数指数的分类从对象的品种数目来看从比率的基准来看定基指数环比指数单一品种指数多品种指数指数的分类表11-8 我国农副产品收购牌价分类指数（以1980年价格为100）定基综合价格指数计算公式单品种的价格指数和数量指数都是容易计算的。以基期价格为p0，报告期价格为p1，报告期价格指数：以基期数量为q0，报告期数量为q1，报告期数量指数： Iq=q1×100/q0 (11-12) 单品种价格指数定基综合价格指数计算公式多品种的情形复杂得多。例如，根据下列资料，作出学校办公用消耗品价格指数。多品种价格指数定基综合价格指数计算公式求综合价格指数时，不能简单相加如因为：各p1i的单位不同，它们分别是元/箱，元/盒，元/桶等等；各品种作为办公用消耗品，它们的重要性也不同。定基综合价格指数计算公式为了解决这个问题，常用的方法是加权。以消耗数量q加权，这样得到的指数公式称为Laspeyres价格指数（为了比较不同报告期的指数，报告期下标用n表示）（11-13） Laspeyres价格指数定基综合价格指数计算公式现在计算上例的Laspeyres价格指数：定基综合价格指数计算公式由此得学校办公用消耗品Laspeyres价格指数（1998年为100） 1999年， 2000年，定基综合价格指数计算公式有时不以基期消耗q0加权，而以报告期qn加权，所得指数称为Paasche价格指数 Paasche价格指数 (11-14) 定基综合价格指数计算公式 Paasche价格指数的不同 Paasche价格指数与 Laspeyres价格指数数值不同，它的经济意义也不同。它表示学校要购买各品种的当前消耗数量时，价格的变动情况和多花或少花多少钱。 Paasche 价格指数的不同综合数量指数像工业产品生产量指数，农产品收获量指数和商品销售量指数都是多品种综合数量指数。和价格指数一样，各品种的数量q不能直接相加，必须用加权的方法。以价格p为权，可能有三种形式。综合数量指数用报告期价格为权，得三种加权方法（11－15）用基期价格p0i为权，得（11－16）用固定价格pki为权，得（11－17）综合数量指数上式中pki表示第i品种在某一段时期的固定价格（不变价格）。例如：我国在计算工业生产量指数和农业产量指数时就用这种方法。我国工业统计中曾使用过1952年、1957年、1970年和1980年的不变价格。基期的变换和指数序列的拼接当两个不同基期的指数序列需要彼此前后对照时，就要换成共同的基期。但这并不需要重新用公式计算。例如，对于下述以1999年为基期的指数序列：基期的变换和指数序列的拼接要换成以1996年为基期：但相对的比率关系不变。基期的变换和指数序列的拼接在编制较长时期的指数序列时，使用同一基期，如果指数不断增加，数值可能很大，使用并不方便。因此常常改变基期。现实中的问题和解决办法基期的变换和指数序列的拼接 [例] 日本政府机关就规定，各指数每5年（公元年末位为0或5的年份）改变一次，这样便于短时期的比较。但有时有必要做长时期的观察，这就需要拼接成同一基期的指数序列。现实中的问题和解决办法基期的变换和指数序列的拼接表11-9 日本消费者物价指数列出似然方程在给定置信度为时，有在总体均值的区间估计时，半置信区间的宽度为：由于的估计值未知，我们可以采用

联系我们

智库文档公众号

客服微信

标签

联系我们

意见反馈