统计学 第八章 非参数检验
目 录
2第八章 非参数检验
3第一节 非参数检验概述
3第二节 单样本非参数检验
一、拟合优度检验
3
5二、单样本K-S检验
6三、符号检验
7四、游程检验
第三节 列联表与的独立性检验
8
10第四节 等级相关分析
11一、Spearman等级相关系数
12二、Kendall等级相关系数
14英文摘要与关键词
15习 题
第八章 非参数检验
通过本章的学习,我们应该知道:
1. 非参数检验的优缺点
2. 常用的单样本非参数检验方法
3. 列联表与卡方的独立性检验
4. Spearman和Kendall 等级相关系数的计算
第一节 非参数检验概述
非参数检验(nonparametric tests)是相对于参数检验而言的。参数检验是一种适用于一些特定环境下的检验,如第六章中进行的均值检验就属于参数检验,首先它对总体作出了服从正态分布的假设,然后根据来自总体的样本资料对均值进行检验。但在许多实际问题中,人们往往对总体的分布形式知之甚少,很难有正确的假定,这样就不能满足参数检验的条件,也就不能用参数检验方法了。假定总体分布的具体形式未知,而是从样本数据本身来获得所需信息,对总体分布的类型和位置进行检验,这称为非参数检验。非参数检验的特点是:
1. 从非参数检验的前提条件看,仅要求“观测值是独立的”、“变量具有连续性”等简单假设,不要求确保样本所属的总体符合某种理论分布。检验不受总体分布形状的限制,使得适用范围更为广泛。
2. 从非参数检验方法对原始数据的要求看,它不要求有很精确的计量值,可以使用分类数据和顺序数据,非参数检验的处理方法大都基于低精度数据,因而它几乎可以处理如何类型的数据。
3. 从非参数检验方法的效率看,虽然非参数检验的计算方法名目繁多,有时对某类数据的算法就有多种,但其表现形式一般比较简单并易于理解,依照不同类型数据的不同算法,效率也不同。研究表明,多数常用的非参数检验方法的效能是参数检验方法的95%左右。也就是说,通过95次独立观察获得的数据能够保证参数检验所要达到的精度,那么若用非参数检验方法,则需要100次的独立观察。总之,非参数检验需要更大的样本容量来保证所要求的检验精度。
本章介绍单样本非参数检验(single-sample nonparametric test)的常用方法:
拟合优度检验、K-S检验、符号检验和游程检验,以及列联表与卡方的独立性检验。
第二节 单样本非参数检验
对获取的样本资料,往往最希望了解其所属总体的分布形态是否与已知的理论分布相吻合,或它们是否具有随机性。人们可以通过绘图作粗略判断,但如果希望得到比较准确的结论,则需要用非参数检验。下面介绍的方法中,
检验、K-S检验和符号检验都属于拟合优度检验,即都是检验属于每一类别的观测数目与根据零假设所得到的期望数目之间是否有显著性差异;游程检验是用来对样本数据的随机性进行的检验。
一、
拟合优度检验
拟合优度检验(chi-square goodness-of-fit test)适用于具有明显分类特征的数据。如要研究消费者对某种产品是否有“颜色”的偏好,可以将200位消费者按购买不同颜色的产品分类,得到各颜色购买者的人数。根据这些样本数据来判断样本所属的总体分布与某一设定分布是否有显著差异,所谓设定分布可以是我们熟悉的理论分布,如正态分布、均匀分布等,也可以是任何想象的分布。零假设
是:样本所属总体其分布形态与设定分布无显著差异。在进行检验时需要构造下面的
统计量:
()
式中:k是样本分类的个数,
表示实际观察到的频数,
表示设定频数,即理论频数。可见,如果观察频数与设定频数越接近,则
值越小,根据皮尔逊定理,当n充分大时,
统计量渐近服从于k-1个自由度的
分布。我们可以计算出
统计量,判断有两种方法:
一是依据
分布表,给出所对应的概率值,如果该概率值小于或等于给定的显著性水平α,则拒绝
,即样本所属的总体分布形态与设定的分布存在显著差异;如果该概率值大于给定的显著性水平α,则不能拒绝
,即没有理由认为样本所属的总体分布形态与设定分布有显著差异。
二是依据
分布表,给出α所对应的临界值
,如果
统计量大于或等于临界值,则拒绝
,认为样本所属的总体分布形态与设定分布存在显著差异;如果
统计量小于临界值,则不能拒绝
。
由于奠定检验基础的皮尔逊定理要求样本是充分大,所以在搜集资料时必须要保证样本容量不小于50,同时每个单元中的期望频数不能太小,如果第一次分类时有单元中的频数小于5,则需要将它与相邻的组进行合并,如果20%的单元理论频数
小于5,则不能用
检验了。
【例】某企业生产线上星期一至星期五的不合格产品数量如下表所示,试检验五个不同工作日的产品不合格率是否相同(α=)?
工作日
星期一
星期二
星期三
星期四
星期五
不合格品数(个)
36
32
16
15
35
【解】
:五个不同工作日的产品不合格数相同;
:五个不同工作日的产品不合格数不相同。
由于不合格品数的实际数是134,所以其理论值为134÷5 = 。表是相关数据的计算。
表
统计量的计算表
工作日
不合格品数
实际值
不合格品数
理论值
星期一
36
星期二
32
星期三
16
星期四
15
星期五
35
合计
134
134
—
统计量为,其对应的近似概率值为。由于<,故拒绝
,也就是说,五天工作日中各天的产品不合格率是不相同的。
教师:这里的判断依赖于查表,如果手头没有现成的表也没有关系,只要用Excel就可以解决问题。比如想知道
统计量为所对应的概率,可用函数CHIDIST,只要在单元格中输入:=CHIDIST(,4)就会得到的返回值;同样我们想知道自由度为4时,α=所对应的临界值,只要在单元格中输入=CHIINV(,4) 立即就有响应。
学生:也可用临界值判断,由于大于α=所对应的临界值,所以是拒绝
。
【例】接上题,有人认为产品的不合格率与工人的情绪有关,星期一刚来上班情绪最不稳,不合格率为30%,星期二、五的不合格率次之,为25%,而星期三、四的不合格率仅为10%,这种观点有道理吗?以显著性水平α=来检验这种说法的正确性。
【解】
:
:至少有一个
与上述比例不同。
计算在各设定的比例为真的情况下,每天的不合格品数,如星期一的不合格品数为:134×30%=,星期二的不合格品数为:134×25%=,……,依次类推。相关计算可借助Excel数据表,结果见图。
图
统计量的计算表
由于实际的
统计量小于α=对应的临界值,或根据
统计量对应的概率大于α,所以不能拒绝
,即没有理由认为假想的比例是错的。
二、单样本K-S检验
单样本K-S检验(1-sample K-S test)是以两位苏联数学家柯尔莫哥(Kolmogorov)和斯米诺夫(Smirnov)命名的。K-S检验是一种拟合优度检验,研究样本观察值的分布和设定的理论分布间是否吻合,通过对两个分布差异的分析确定是否有理由认为样本的观察结果来自所设定的理论分布总体。
设
是一个n次观察的随机样本观察值的累积概率分布函数,即经验分布函数;
是一个特定的累积概率分布函数,即理论分布函数。定义
,显然若对每一个x值来说,
与
十分接近,也就是差异很小,则表明经验分布函数与特定分布函数的拟合程度很高,有理由认为样本数据来自具有该理论分布的总体。K-S检验主要考察的是绝对差数
中那个最大的偏差,即利用下面的统计量作出判断。
()
K-S检验的步骤为:
1. 提出假设:
,
2. 计算各个D,找出统计量
3. 查找临界值:根据给定的显著性水平α和样本数据个数n,查《单样本K-S检验统计量表》可以得到临界值
(单样本K-S检验统计量表见附录六)。
4. 作出判定:若
≥
,则在α水平上,拒绝
;若
<
,则不能拒绝
;
【例】 随机抽取100名生产线上的工人,调查他们的日产量,资料情况如下表,判断生产线上工人的日产量是否为正态分布?(α=)
工人日产量
500以下
500-540
540-580
580-620
620-640
640以上
合计
组中值
480
520
560
600
640
680
—
人数
6
23
27
19
15
10
100
【解】
:
服从正态分布,
:
不服从正态分布。
根据所给的资料,借助Excel进行相关的计算,见图:
图
统计量的计算表
查表得
,
由于
= <
,所以,不能拒绝
,即生产线上工人的日产量服从正态分布。
比较
检验与K-S检验:两者均属拟合优度检验,
检验常用于分类数据,而K-S检验还可以运用于顺序数据。当预期频数较小时,
检验常需合并邻近的类别才能计算,K-S检验则不需要,因而它能比
检验保留更多的信息。
三、符号检验
符号检验(sign test)是一种利用正、负号的数目对某种假设作出判定的非参数检验方法。它不要求知道被检验量的分布规律,仅依据某种特定的正负号之数目多少来对某种假定做出检验,非常直观简便,易于理解,常被用于检验总体的均值、中位数等参数是否为某一数值,或判断总体分布有无变化。在实际中,我们常常会碰到无法用数字去描述的问题,这时符号检验法就是一种简单而有效的检验方法。我们通过实例来说明符号检验法的基本思想和检验步骤。
【例】为检验产品的质量,从生产线上随机抽取20件产品进行检验。按规定该产品的半径应该是10厘米,结果发现大于10厘米的有13件,小于10厘米的有7件,问能否认为该产品的半径符合要求?
【解】
(1)构建统计量:如果产品直径的平均数是10厘米,就意味着样本点
(本例n=20)小于和大于10的概率应当相同,记作:
。可见,如果每一个样本点都以的概率小于μ,也以的概率大于μ,这是一系列的贝努里试验,小于μ的样本点个数(符号为负,记作
)与大于μ的样本点个数(符号为正,记作
)均服从均值为
、方差为
的二项分布。
和
可作检验统计量。
提出假设:
查表判断:根据一定的显著性水平α和符号总数目n查《符号检验界域表》,求得临界界域,(符号检验界域表见附录七)。如果
和
落在相应的界域以外(含落在界域点上),表明
和
的差异很显著,有理由拒绝
,否则不能拒绝
。
(2) 因为
=7,
=13 又根据α=,n=20查《符号检验界域表》得临界界域为(5,15)
所以落入界域内,故不能拒绝
,即我们没有足够的理由认为产品直径平均数不是10厘米。
四、游程检验
游程检验(runs test)的目的就是检验取值为二分类,并且按时间或某种顺序排列的数列资料是否确实是随机出现的,即各观察对象是否来自同一个总体,并且取值各自独立。它的具体做法是将连续的相同取值的记录作为一个游程。比如在投硬币时,如果以1表示正面,以0表示反面。在进行了若干次投掷后,将得到一个以1、0组成的数据序列,如:11100110110001。最前面的三个1为一个游程(run),游程的长度为3,随后的两个0为第二个游程,游程长度为2,……整个序列为七个游程。出现1的次数我们记作
,出现0的次数我们记作
,显然
;游程的个数记为R,它是我们的检验统计量。
根据游程数检验的假设,如果序列真的是随机序列,那么游程的总数应当不太多也不太少。如果游程的总数极少,就意味样本内部存在着一定的趋势或结构,这可能是由于观察值间不独立,或者是来自不同总体,极端的例子是:数据序列为1111111100000000;若样本中存在极大量的游程,则可能有系统的短周期波动影响着观察结果,同样不能认为序列是随机的,极端的例子是:数据序列为1010101010101010。因此,出现太少或太多的游程将表明相应变量值的出现不是随机的。
游程检验的原假设是
:总体某个变量的变量值出现是随机的,
:总体某个变量的变量值出现是非随机的。
根据
、
和α直接查《游程检验临界值表》求得相应的游程临界上限
和下限
(游程检验临界值表见附录八)。如果R≥
或R≤
,则表明游程数太多或太,应当拒绝
;否则不能拒绝
。
【例】为了考察两种生产方法对生产效率是否有显著影响,随机抽取了9人用方法A进行生产,抽取11人用方法B进行生产,并记录下这40个人的日产量:
A方法:
75 69 58 79 69 68 57 89 79
B方法:
78 89 98 95 75 78 46 78 96 60 70
问两种方法对生产效率的影响不同吗?(α=)
学生:这个题目可以用t统计量做两个正态总体均值之差的检验吗?两种方法的效率和随机性有什么关系呢?
教师:猛一看,这个问题似乎是可以用t检验来解决,但它缺少前提条件,也就是说不知样本是否来自正态总体。如果我们不知道总体的分布,那么就必须是大样本,才能用z统计量做参数检验,显然我们这个问题是既不知道总体分布,也不是大样本。所以是无法做参数检验的。用游程检验解决这个问题是这样考虑的:如果方法对生产效率没有影响的话,那么我们把日产量从高到低排列,那么对应两种方法出现的序列就应该是一个随机的序列。看,问题就转化为对序列随机性的检验了。
【解】
:两种方法对应的日产量数据出现是随机的。
首先借助Excel工作表完成序列排序,参看图,我们看排序后的方法,该序列就是要检验的,显然R=11。
图 R统计量的计算表
然后根据
=9、
=11和α=查游程检验临界值表,求得
=16,
=6,由于R落这个界限其中,故不能拒绝
,即没有理由认为这两种方法对生产效率有显著的影响。
第三节 列联表与
的独立性检验
在第二章中我们介绍的次数分布表,是反映一个分类标志与其对应次数的分布状况,如果要分析两个或两个以上标志的分布特征就要用列联表了。列联表(contingency table)又称交互分类表,所谓交互分类(cross classification)是指抽自某一总体的样本同时按照两个或两个以上标志进行分类,这里我们只讨论两个分类标志的情况。如果将横向的划分类别视为r,纵向的划分类别视为c,则每一个的列联表称为r×c列联表。列联表的一般格式如表所示:
表 列联表示意图
纵 向 划 分
合计
1
2
……
c
横 向 划 分
1
……
2
……
……
……
……
……
……
……
r
……
合计
……
n
列联表可以清楚地反映在某一个固定条件下,另一个分类标志所对应的次数分布情况。表的最下端是每列的总次数,称为行边缘次数,表的最右列是每行的总次数,称为列边缘次数;表中的次数,称为条件次数。看一个实例:
【例】 下表是一个由220名饮酒者组成的随机样本,对饮酒者进行酒类型偏好的调查,这是一个最为简单的2×2列联表:横向看,反映了在固定性别的条件下,对白酒与啤酒的偏好人数;纵向看,反映了在固定酒类型的条件下,各性别的人数。
表 性别与饮酒偏好调查表
性别
饮酒偏好
合计
白酒
啤酒
男性
60
50
110
女性
40
70
110
合计
100
120
220
直观看似乎饮酒偏好与性别有关,是这样吗?利用列联表的形式,用
统计量可以完成对分类数据或顺序数据之间是否独立的检验。基本步骤如下:
1. 建立假设:
:两个分类变量之间独立;
:两个分类变量之间不独立。
就本例而言,
:性别与饮酒偏好无关;
:性别与饮酒偏好有关。
2. 计算与列联表中实际次数相对应的期望次数:相对于每一个条件次数
的理论次数即期望次数记作
,则:
()
就本例而言,根据公式()计算的期望次数如表。
表 性别与饮酒偏好的期望次数
性别
饮酒偏好
合计
白酒
啤酒
男性
50
60
110
女性
50
60
110
合计
100
120
220
3. 构建统计量:若
成立,则条件次数应是理论的预期次数,也就是说实际次数
与理论预期次数
相等,其差值为0。但测量结果,实际次数
与理论预期次数
有差异,这时,可以用其差值的大小来度量两个变量相关的程度。相差愈大,表明
为真的可能性愈小;相反,差值愈小,
为真的可能性愈大。为避免差值的正负抵消,可以采用差值的平方和,这就是
统计量:
()
就本例而言,
4. 查表与判断:数理统计证明,统计量
近似服从自由度
的
分布。根据给定的α就可以查表获得临界值
。如果统计量
≥
,则拒绝
,认为两个分类变量之间不独立;如果
<
,则不能拒绝
,认为两个分类变量之间是独立的;
就本例而言,若取α=,则查表得
=,由于
>
,所以拒绝
,即认为性别与饮酒偏好有关系。
教师:这里的公式()与前面的公式()其实质是一样的,其构造统计量的基本思想完全相同。
统计量简单明了,是统计学中“简单美”的化身;其被人们接受的程度,以及运用的广泛性,除了正态分布以外,估计其他的统计量都无法与之相比。
第四节 等级相关分析
有时我们会在研究的两个变量中得到两组顺序数据,如在某个歌手大奖赛中专家与听众对歌手的排名;或一个数值型数据,另一个是顺序数据,如学生的考试成绩与班主任为学生排出的工作能力大小的顺序。要研究专家与听众的观点是否一致、学生的学习能力与工作能力是否一致,就要用到等级相关分析。
对等级数据的相关性的测度主要用等级相关系数,它是把相关联的两个变量按等级次序排列,形成
与
两个等级序列,然后测定
与
这两个等级序列之间的相关程度。
等级相关系数方法简便,适用面广,尤其适用于那些无法严格定量的定性分析的顺序资料。其缺点是精确度不够,计算结果只能粗略反映相关状态。下面我们介绍两种最常见的等级相关系数的计算及其检验。
一、Spearman等级相关系数
斯皮尔曼等级相关系数(Spearman’s Coefficient of Rank Correlation)是历史上最早(1904年)测定两个样本相关强度的重要指标,记为
:
()
显然,
,记:等级差
,则()可以推导得:
()
【例】下表是某专业硕士研究生的考试成绩与班主任为他们排出的工作能力大小的顺序,计算斯皮尔曼等级相关系数。
学生编号
1
2
3
4
5
6
7
8
9
10
考试总分
350
360
358
369
378
395
388
354
368
366
工作能力排名
9
8
6
7
1
2
5
10
3
4
【解】对考试总分排序,可用Excel中的Rank函数来完成。利用Excel表计算
,见图。
图 Spearman等级相关系数的计算表
代入公式()得:
同样,该等级相关系数需要检验,最简单的方法是查Spearman等级相关系数临界表(Spearman等级相关系数临界值表见附录十),根据n 与α,就能直接找到临界值,如果实际计算的
大于等于这个临界值,则拒绝
,即
是有意义的。例如本题,n=10,α=,查表得临界值为,由于
=>,故说明
是具有统计意义的,即学习能力与工作能力是相关的。
学生:如果考试总分有相同的如何处理?
教师:这叫数据打结,一般采用平均等级来解决,比如编号9的学生也是366分,那么编号9和10的学生的等级就都是了。
注意:等级相关处理的是顺序数据,如果两个变量都是数值型的,它们当然可以降档来计算等级相关系数,但这样做是有信息损失的。
二、Kendall等级相关系数
Kendall等级相关系数(Kendall tau rank correlation coefficient)与Spearman相关系数一样,也是利用“等级”来研究两个变量之间的相关程度,但考虑的角度不同。
首先将n对配对数据(
)评出相应的等级(
),再分别考察
与
的一致性(concordance)。如果两个等级由小到大排列,称为一个一致对,记作+1,我们将
表示为
中的一致对的数目,
表示为
中的一致对的数目;如果两个等级由大到小排列,称为一个非一致对,记作—1,我们将
表示为
中的非一致对的数目,
表示为
中的非一致对的数目。一般我们会将
按照自然顺序由小到大排列的,这样
中的两个等级之间都是一致对。如有这样的序列:
为:1 2 3 4 ;
为4 3 1 2。在
中等级对(1,2)(1,3)(1,4)(2,3)(2,4)(3,4)都是一致的,故
=6,
=0;在
中等级对(4,3)(4,1)(4,2)(3,1)(3,2)都是非一致对,只有(1,2)是一致对,故
=1,
=5。
在
按自然顺序排列时,
的一致对最大数目产生于
也按自然顺序排列,此时它等于
,用
的实际一致对数目与最大可能一致对数目相比较,可以测定x与y的相关程度。
一致对数目与最大可以一致对数目比表示为:
()
非一致对数目与最大可能非一致对数目之比表示为:
()
当
完全按自然顺序排列时,()式的值为1,()式的值为0;而当
完全与
相反时,()式的值为0,()式的值为1。为测定两组等级之间的相关程度,定义的相关系数取值范围从—1到+1。因此,Kendal1等级相关系数(τ)的定义公式为:
()
或
()
如果x与y有完全相同的等级,则τ= +1,表明x与y完全正相关;如果x与y有完全相反的等级,则τ= —1,表明x与y完全负相关。一般认为
,两组等级相关的程度较高。
【例】假设男女两个消费者对某10件商品的质量进行评价,其评分状态如下表,问男性、女性评价是否一致(α= )?
表 男女性对某商品的评价等级
商品
1
2
3
4
5
6
7
8
9
10
男评分等级
5
1
8
7
4
3
9
2
10
6
女评分等级
4
2
6
9
8
3
5
1
10
7
【解】首先将男评分等级按自然顺序排列,然后在计算出女评分等级的非一致对
,在用公式()计算出Kendal1等级相关系数,计算过程可以用Excel辅助进行,见图。
图 Kendal1等级相关系数的计算表
当然我们也可以先计算
,再按公式()算出τ,结果相同。(提示:
=35,你试试看!)
同样,该等级相关系数需要检验,最简单的方法是查Kendall等级相关系数临界表(Kendall等级相关系数临界值表见附录十一),根据n 与α,就能直接找到临界值,如果实际计算的τ大于这个临界值,则拒绝
,即τ是有意义的。例如本题,n=10,α=,查表得临界值为,由于τ=>,故说明τ是具有统计意义的,即男性、女性评价具有一致性。
学生:如果我有两组等级数据,那么我该用Spearman、还是Kendall等级相关系数?两者的计算结果不会一样吧?
教师:两种等级相关系数都可以用。当然两者一般说来是不会相同的,因为它们的设计思想不同,用的统计量也不同。如果相同,纯属巧合。
英文摘要与关键词
Non-parametric statistics is a branch of statistics concerned with non-parametric statistical models and non-parametric inference including non-parametric statistical tests. Nonparametric methods are often referred to as distribution free methods, as they do not rely on assumptions that the data are drawn from a given probability distribution.
Non-parametric tests are widely used for studying populations that take on a ranked order, but no clear numerical interpretation. As non-parametric tests make fewer assumptions, of their applicability is much wider than corresponding parametric tests. In particular, they may be applied in situations where less is known about the application in question. Also, due to the reliance on fewer assumptions, non-parametric methods are more robust.
A chi-square test is any statistical hypothesis test in which the test statistic has a chi-square distribution when the null hypothesis is true, or any in which the probability distribution of the test statistic (assuming the null hypothesis is true) can be made to approximate a chi-square distribution as closely as desired by making the sample size adequately large. A chi-square test may be applied on a contingency table for testing a null hypothesis of independent rows and columns
The Kolmogorov–Smirnov test is a “quality of fit” test. The one-sample KS test compares the empirical distribution function with the cumulative distribution function specified by the null hypothesis. The main applications are testing the closeness of fit with the normal and uniform distributions.
The runs test can be used to decide if a data set is from a random process and the sign test can be used to test that there is "no difference" between two random variables according to the number of positive sign and negative sign.
Spearman's rank correlation coefficient and Kendall tau rank correlation coefficient are non-parametric measures of correlation – those statistics used to measure the degree of correspondence between two rankings and assessing the significance of this correspondence.
Key Words: non-parametric test, robust, chi-square test, contingency table, runs test, sign test, Kolmogorov–Smirnov test, Spearman's rank correlation coefficient, Kendall tau rank correlation coefficient
习 题
一、单项选择题
1.
列联表的
统计量的自由度为( )。
A.
B.
C.
D.
2.改变单元的变量单位,以下量中不受影响的是 ( )。
A.观察值 B.期望频数 C.
统计量 D.期望频率
3.在独立性检验中,以下
的取值不恰当的是( )。
A. B. C. D.
4.单样本K-S检验的统计量
中
是一个n次观察的随机样本观察值的( )。
A. 理论次数 B. 实际累计频率 C. 理论累计频率 D. 实际次数
5.根据α=,n=20查《符号检验界域表》得临界界域为(5,15),因此要想拒绝
,则( )。
A.
=7,
=13 B.
=8,
=12 C.
=4,
=16 D.
=9,
=11
6. 在数据序列111001101100010101110中,游程有( )个。
A. 12 B. 6 C. 10 D. 2
7.用单样本K-S检验某学校期末统考的成绩是否是正态分布,若
<
则表明( )。
A. 拒绝原假设,成绩分布是正态
B. 拒绝原假设,成绩分布不是正态
C. 不能拒绝假设,成绩分布是正态 D. 不能拒绝原假设,成绩分布不是正态
8. 用一致对来考察两个变量n对等级数据的相关程度的指标是( )。
A. Kendall tau B. Spearman 等级相关系数 C. Kendall’W D. K-S 值
二、多项选择题
1.根据
分布的性质,以下各式中正确的有( )( )( )( )( )。
A.
B.
C.
D.
E.
2.以下关于列联表
分布的叙述正确的是( )( )( )( )( )。
A.
B.
值与自由度
有关 C.
越小,则
越大
D.
分布与正态分布均具有对称性 E..
越小,则
越小
3.非参数检验与参数检验比较,其优势是( )( )( )( )( )。
A. 不受总体分布状态的限制
B. 检验的效率较高
C. 非参数检验的统计量表现形式易于理解
D. 可以使用分类、顺序数据
D.可以用小样本
4. 考察两个变量n对等级数据的相关程度的指标有( )( )( )( )( )。
A. Kendall tau B. Spearman 等级相关系数 C. Kendall’W D. K-S 值 E. Run值
三、计算题
1.赛马迷们会认为,在圆跑道上进行的赛马比赛中,某些起点位置上的马会特别有利。在有八匹马的比赛中,位置1是内侧最靠近栏杆的跑道,位置8是外侧离栏杆最远的跑道。请从赛马的结果中判断起点位置与赛马获胜是否有关。(α=)
起点位置
1
2
3
4
5
6
7
8
获胜次数
34
26
28
32
19
22
21
18
2.某金融机构要求呆账率不超过3%,某个月贷款240笔,呆账有7笔,问若α=,可否认为该金融机构的呆账率为3%?
3.某地144个周岁儿童身高数据如下表所示,问该地区周岁儿童身高次数是否呈正态分布(α=)?
身高
人数
身高
人数
64-68
2
73-74
24
68-69
4
74-76
22
69-70
7
76-78
16
70-71
16
78-79
2
71-72
20
79-83
6
72-73
25
83-85
1
4.某高校拟采取一项新的医疗保险措施。为了解广大职工对这一措施的看法,有关人士逐一征求了25名具有权威性、代表性的职工的意见。结果19人表示赞成,5人表示反对,1人表示没有把握。试问这些回答能否表明职工中赞成这项措施的人比反对的人多?(α=)
5.某厂产品包装箱平均重量为10 公斤。今从生产线上取得由同一台机器充填的15个包装箱,称得重量(单位:公斤)为:,,,,,,,,,,,,,,。判断充填过度与不足两者之间是否具有随机性。(α=)
6.某企业出台了一套改革方案,向不同工龄的职工进行调查得到下面的列联表,根据这张表能否认为不同工龄的职工对改革方案的态度是不同的?(α=)
态度
职工工龄
合计
10年以下
10-20年
20年以上
赞成
21
9
10
40
无所谓
16
10
14
40
反对
12
9
19
40
合计
49
28
43
120
7. 甲、乙两位评酒员对10种品牌白酒的主观排序如下表,计算两个等级相关系数,问两位评酒员对白酒的评价意见具有一定的相关性吗?(α= )
品牌
1
2
3
4
5
6
7
8
9
10
甲
7
1
5
6
8
9
4
3
10
2
乙
6
3
2
4
9
10
8
5
7
1
� EMBED ���
� EMBED ���
第14页