此处是大标题样稿字样十五
字以内
本讲内容
效度的概念及其分析方法
信度的概念及其分析方法
区分度的概念及其分析方法
选题质量分析及其分析方法
效度
效度的概念
效度是指测评结果对所测评素质反映的真实程度。对这种真实性
的考评,常见的方法有三种:
从内容性质方面分析其内容效度
从效标相关性方面分析其关联效度
从实证方面分析其结构效度
内容效度
是指实际测评到的内容与期望测评的内容的一致性程度。当实际
测评到的内容与我们事先所想测评到的内容越一致时,则说明
测评结果的内容效度越高,测评结果就越有效。
内容效度在实际操作中的鉴定主要采用定性分析的方法, 有蓝图
对照分析法与专家比较判断法。
结构效度
结构效度又称作构想效度、构思效度、构念效度、构建效度等。
结构效度是指实际所测评的结果与想测评素质的同构程度。它表
明了在多大程度上,实际测评结果能够被看作是索要测评的素质
在结构上的替代物。
在素质测评中,它是人们最关心的一种效度。这是由素质测评的
间接性所决定的。人们总是通过选取一些具体的行为测评来判断
实际的素质水平。
结构效度与检验效度的人对素质结构的理解有直接关系。如果李
某认为忠诚这一素质即对本企业的忠诚,张某认为忠诚这一素质
表现为实事求是的态度,那么对于向其他企业说明本企业产品所
存在的问题这一行为,显然李某与张某会把它归类到不同的素质
成分中给与不同的素质成分中并给与不同的评价。因此结构效度
的检验分析也是一种定性的主观判断。在分析考评过程中,要采
取有力措施把主观影响控制在最低点上。
结构效度
结构效度的分析可按一下几步进行:
1.给所要测评的素质的结构模式下一个操作化的定义
“我们所要测评的素质是对xx的态度、有关xx的品质、有关xx的
技能。”像这样一些表述所测评素质的具体形象是什么,结构
是什么,我们并不清楚,它仍然是从具体行为概括出某种意识
或观念,因此对结构效度的分析没有多大意义。这里的构建不
是从行为向观念构建,而是相反,由观念向具体行为的构建。
不是简单还原,而是在更高的水平上抓住所测素质的本质特征,
确定一个可感觉可操作的结构模式,由这种具体的结构模式作
为抽象观念建构的替代物。这种替代物的成分显然应该是我们
世纪能够看到的、听到的、感觉到的东西。例如:外显行为、
客观性生理反应等。素质测评的目标体系实际上就是所测素质
的一个行为构建模型,这种结构模型分别由项目、指标、权重、
标度等组成。这种模型的建构,在很大程度上取决于所测素质
本身的特征及其抽象程度等组成。
要定义或建构一个素质的结构模型,可以从以下几方面着手:
首先,采取工作分析方法,对所想测评的素质进行结构分析与行为
分析,确定各种素质结构及其代表的行为。
其次,用图表的形式逐一列出工作分析得到的素质因素及其特征行
为。除此之外,还可以通过查找历史上或现在人们对所测评素
质的模型的现成资料,丰富已有分析的结果。
再次,还要另外准备一份与已经建构的模型可能混淆的但关系密切
的其他模型图表。要反问自己并向人说明为什么所测素质是你
所定义的结构模型而不是其他别的结构模型。
2.收集事实资料,评判结构效度,具体方法有:
排除法
如果测评结果能明确的排除它所对应素质结构模型的其他解释,那就表
明所获得的测评结果具有较好的结构效度。
咨询法
可以请一些有经验的专家就你所获得的测评结果、所对应的素质结构进
行判断或推断,问他们该测评结果实际测评的素质是什么。如果大家
的回答与你所想测评的素质结构几乎一致,那么说明你的测评有较好
的结构效度。
相关法
找一个具有较高结构效度的测评工具或结果,与你所获得的测评结果进
行相关性分析,如果相关性很高,说明你的测评结果具有较高的结构
效度。
例如:某一个具有“自尊”结构效度的测评量表,它的测评结果就应该
与自信、社交能力及领导作用等测评量表的测评结果成正比,而与诸
如内向性、自卑、孤独等测评量表测评的结果成反比。
逻辑分析法
当大家对所测素质的结构模型具有比较一致的认识时,只要能判
定测评内容(工具)选择正确,且整个测评过程除了一切外来
干扰因素,就可以说测评结果具有较好的结构效度。
例如:测评时间足以保证被测评者完成所有的工作,被测评者没
有受到催促因素的影响;测评工具的指导十分明确,被测操作
准确。
多元分析
多元分析就是采取聚类分析与主成分分析等数学手段,对测评结
果进行分析,看分析的结果。
例如:所找出的主要因素与分类结果与所想测评素质的结构是否
一致,如果一致,则说明所获得的测评记过具有较好的结构效
度。
关联效度
又称实证效度、效标效度、效标关联效度,是指测评结果与效
标的一致性程度。效标是一种用来衡测评有效性的外在参照标
准, 它可以是一种测评的结果, 也可以是标准测评分数。根据
效标是否可以同时获得, 可将关联效度分为同时效度与预测效
度。作为效标的结果与预测结果同时获得, 这种效度称之为同
时效度。当作为效标的结果是后来测评中获得, 这种效度称为
预测效度。它反映了现在的测评结果对未来素质发展的预测程
度。
例如:两个人同时采用观察评定与问卷测验测评同一个人的工作
态度,两个测评结果相关系数很高,例如,那么以后在类
似的情况下,可以用问卷测验代替花时太多的行为观察法。
关联效度
例如想检测一下自编品德测评的效度,决定采用效标关联中的同
时效度分析方法,故让被测者同时接受自编品德测验与卡特尔
16因素问卷测验。
关联效标的分析关键在于效标的选择。效标作为衡量测评结果有
效性的参照标准,应该是可以测评到且独立于所分析的测评结
果的行为结果。效标可以分为行为效标与观念效标。
行为效标的选择以客观性为依据。常见的行为效标有以下几种:
学术成就
特殊训练成绩
实际工作表现与成绩
团体特征
等级评定结果
先前被证明是有效的测评结果
效度分析中的几个理论问题
关于效度概念的研究
1921年美国教育研究指导协会提出,效度是“测验在多大程度上测到
所要测的东西”。同时被提出的还有“预测效度”和“共时效
度”,后来被统称为“效标效度”。
19世纪30年代,人们将更多的注意力放在测验对于具体目标课程的代
表性高低上。于是引入“课程效度”,后更名为“内容效度”。
1954年美国心理学会出版了《关于心里测验和诊断的技术建议书》,
明确列举了四种类型的效度:预测效度、同时效度、构想效度、
内容效度。美国心理学会、美国教育研究学会和国家教育测量
委员会1966年联合出版的《教育与心理测验的标准和指南》中,
将效度类型进一步简化为效标关联效度、构想效度和内容效度
三种。
Cronbach和Meehl又进一步把前两类归结为准则关联
效度。这是一种三位一体的分类法观点。Cronbach指
出,延续了30年的旧观念(即把效度分为相互分离且并列的三类)
已经过时,取而代之的是一元论的产生。
Messick以建构效度概念为中心,提出了检验测验效度的四个
层面(渐进矩阵)。
测试解释 测验使用
证据
基础
结构效度
结构效度+适切性
和实用性
后果
基础
结构效度+隐含的
价值
结构效度+适切性
和实用性+社会效
果
关于效度概念的研究
结构效度概念产生后第二年,L.J.Cronbach和P.E.
Meehl提出了5种验证方法,即分组区分法、相关矩阵与因
素分析法、内部结构研究、不同场合下的变化研究、过程研究。
DeborahLee提到,效度指的是一个测验准确测量它所要测的东西
的能力,包括内容效度、效标关联效度和结构效度。
张厚粲、孙晓敏、王晶、叶映华、郑全全对效度概念演进及其
新发展进行了研究。张厚粲、孙晓敏(孙晓敏、张厚粲,
2004)回顾了心理测量学中效度概念发展的三个阶段,早期效度
概念关注的是两个变量之间的相关.随后重点转向效度的多种类
型,现阶段则注重考察测验的构想效度。总之,效度确证成为一
个持续不断的动态过程;在这个过程中,运用各种技术不断地评
价、质疑和检查由测验分数所作推论和解释的有效性成为心理
与教育测量研究中不可或缺的组成部分。
关于效度概念的研究
关于结构效度的研究
肯贝尔和菲斯克()对构想效度的考验办法进行了研
究(肯贝尔和菲斯克,1959),1960年肯贝尔指出,要确定一
个测验的构想效度,则该测验不仅应与测量相同特质或构想等
理论上有关的变量有高的相关,也应与测量不同特质或构想等
理论上有关的变量有低的相关,前者称为会聚效度,后者称为
区分效度。
聂建中、汤晓媚(聂建中、汤晓媚,2006年5月)对结构效度的
发展演变进行了综述,文章分析了结构效度在内容、验证方式
和威胁因素这三方面所发生的变化,指出结构效度从概念、内容
到与其他效度的关系上都发生了微妙的变化,其概念内涵更加清
晰,涵盖内容更加广泛,在整个效度概念中占据了更加重要的位
置。同时,还指出了以往常用的结构效度验证方法的不足,提出
要对结构效度进行试前和实施阶段的理论验证。
效度应用
内容效度分析适用于某些对员工进行选拔和分类的职业测验,舍恩
菲尔特、阿克、柏尔森(Schoenfeldt,Acker&Perlson,1976)清
楚而详细的说明了编织工业阅读测验是怎样应用各种内容效度分析
法。在编制联邦政府和州政府公务员测验时,这种方法得到了广泛
的采用。
郭庆科(郭庆科,2002)对各种效度的应用进行了分析,他指出效
标关联资料可以应用于对个人分数的预测(包括简单回归法、多种
测验信息的综合)、人员的分类与安置(人员分类的性质、人员分
类的优点、差异效度)。
信度
信度的概念
信度是指测评结果所反映素质的准确性。对于这种准确性的考评
目前大致有稳定系数、等值系数、分半系数、内部一致系数、
评分一致性系数等。
以上几种信度都是针对常模参照测验而言的,标准参照测验中的
信度计算通常使用分类一致性信度,这种信度的的常用估计方
法是考察同一批被测者在两次是册或者复本测验中的分类是否
一致。标准参照测验中的信度也可以使用K系数计算,较分类一
致性信度在统计上更合理(Cohen,1968;Aiken,1988)。
再测信度
指以同样的测评与选拔工具, 按照同样的方法, 对于相同的对
象再次进行测评与选拔, 所得先后结果的一致性程度。再测信
度的计算一般采用皮尔逊积差相关系数。
个体的素质测评在测评过程中会涉及许多因素的影响,素质本
身有时也无法精确定义。我们常常把对个体测评结果的准确性
检验,置于群体测评结果的相互关系中,转化为两次位置关系
的一致性分析。当同一对象的测评结果以同样的测评方式再次
获得后,其顺序位置关系变异很小时,则说明测评结果比较准
确。
例如:在技能测评中李某的分数是88,在全体被测者中排名
第一,这到底准不准呢?我们再重复测评一次,结果李某的分
数是95,还是排名第一,而且其他被测的位置顺序变化很小,
我们就可以说第一次的技能测评结果很可靠。
复本信度
复本信度测评结果相对另一个非常相同的测评结果的变异程度。
“非常相同”一般以等值解释。所谓等值, 是指在测评内容、
效度、要求、形式上都与原测评一样, 其中一个测评可以看作
是另一个测评的近似复写, 即复本。
“变异程度”一般以它的反义词“一致性”解释。
因此复本信度实际上是一种用等值系数揭示的信度。等值系数
即为两组测评结果的相关系数。
一致性信度
一致性信度又称同质性信度,是一种常用的估计信度的方法,
反映了测验题目与所测量内容的一致性程度。
一致性信度的计算公式主要有分半信度,主要采用斯皮尔曼-布
朗修正公式计算;库德-理查逊公式和克伦巴赫а系数。
如果被测在第一个项目上比其他人分数高,在第二个项目上又
比其他人高,在第三个项目上也比其他人高......相反
另一个人在第一个项目上比其他人分数低,在第二个项目上又
比其他人低,在第三个项目上也比其他人低......那么
毫无疑问,我们会认为测评结果比较可靠。
评分者信度
评分者信度指多个测评者给同一组被测样组进行评分的一致性
程度。
测评与选拔结果的差异程度来自两方面一是被测评者自身, 二
是被测评者及其测评。信度主要是对后者的度, 测评者及其测
评的无关差异越小, 测评与选拔结果就越可靠。
测评者的评分是引起主观性测评结果差异的主要原因。客观性
测评是利用计算机评分, 不受主观因素影响, 不存在评分误差。
评分者信度主要采用肯德尔和谐系数计算。
速度测验的信度
速度测验是指那种由于时限很紧或题目很多使被试不可能全部
完成的测验。
以上介绍的几种信度都是针对常模参照测验而言的,速度测验
中的信度通常采用做答速度的一致性为依据。可以使用重测法
和复本法,根据被试两次回答题目数量的变化对速度的一致性
作出估计。
信度多高才算可靠
对人事测评中信度系数与测评质量的关系,以下给出了几种心
理测验的信度系数:
测验类型
信度
低 中 高
成套成就测验 0.66 0.92 0.98
学术能力测验 0.56 0.90 0.97
成套倾向测验 0.26 0.88 0.96
客观人格测验 0.46 0.85 0.97
兴趣问卷 0.42 0.84 0.93
态度量表 0.47 0.79 0.98
各种信度系数应用
信度系数类型 估计方法 应用
稳定性系数 重测法(积差相关) 人格、速度测验
等值性系数 复本法(积差相关) 智力、学绩、速度测验
等值稳定性系数 复本法(积差相关) 智力、学绩、人格测验
内部一致性系数 分半法(积差相关,用斯-布
公式校正)
库德尔-理查森公式法
α系数法
智力、学绩、选拔测验
评分信度系数 斯皮尔曼等级相关法
肯德尔和谐系数法
作文、创造力、投射、
道德判断测验
项目分析
适合度
在素质测评中,项目不仅仅是试题,更多的是一些咨询问题或观察评定
点(指标),它们无难易之分,适合度指的是被测者行为符合项目测
评标准的程度。当项目为试题时,适合度即难度;当项目是问卷中的
问题时,符合度即所有选对的被测者人数与总人数之比;当项目为观
察评定量表中的指标时,符合程度即所有被测得分平均值与指标满分
值之比。
区分度
又称鉴别力,指项目得分对被试实际能力或心理特质水平的区分能力或
鉴别力,也即项目得分的高低与被试实际能力或心理特质水平高低的
一致性程度。项目区分度的计算方法主要有相关分析法(包括积差相
关法、二列相关法和点二列相关法)、极端组法(鉴别度指数、临界
比)和因素分析法
独立性
在能力测评中,常常需要项目之间有一定的独立性。所谓独立性即非相
关性或低相关性。独立性的分析一般采用项目间分数的相关系数揭示,
根据实际得分分布是否均匀,可以分别采用rφ系数法和列联表χ²检
验法。
项目分析
选项质量
对于诱答或正答质量的分析方法有两种:
诱惑力分析法
这种方法是采用表格形式,分别统计高分组与低分组中的被测者
对同一项目各选项的选择次数。
“白智”试测法
这种方法是找一些对测验内容一无所知或十分陌生的人作为被测
者进行测试,通过分析这些人对每个诱答选择的人次来分析选
项的质量。
其他指标的分析
客观性
测评的客观性由测评方法的客观性与测评者的客观性两方面构成
总体分布与水平
总体分布指测评结果在各水平层次上的分布情况,总体水平一般指对测
评结果集中量的分析。
区分性与差异性
测评工具的区分性是指把不同水平的被测者区分开来的程度,测评区分
性一般通过测评结果差异性的分析来揭示。
误差
误差是指通过测评结果的定性定量分析,判断测评结果是否受到心理效
应的严重影响。分析的主要内容是心理误差、标准误差以及单个测评
结果的致信区间。
其他指标的分析
误差
心理误差
哈罗效应误差
哈罗效应又称晕轮效应,是指测评者往往会因为对被测评者整体印
象的好坏从而影响他对每个素质的测评。例如因看到一个人相貌端
庄、严肃,就容易产生此人责任感很强的看法。由哈罗效应引起的
误差叫哈罗效应误差。
哈罗效应还表现为因对某个重要因素的印象好坏而对整体评价产生
影响,所谓一好百好,一丑白丑。虽然这是一种泛化影响,而前者
是一种演绎影响。
趋中心理误差
趋中心理误差是指因为测评者既不愿把被测评的过好,也不愿把被测
评的过差而过于集中在中间段而产生的误差。这种误差使有差异的被
测得到相同或相近的分数,缺乏区分性。可以通过测量结果的分布及
差异量分析来揭示这种误差的情况。
宽大心理误差
宽大心理误差指因测评者不坚持测评的标准要求就高不就低的测评而
产生的误差。这种误差表现为皆大欢喜,高分低能。另一种负向宽大
心理误差,则是过于严格,以一些脱离实际的高标准去测评人的素质,
测评结果普遍较低。
逻辑误差
逻辑误差指测评者不是实事求是的对每个素质独立地测评,而
是依据其是否相关的特点而进行逻辑上的推断。
对比效应误差
对比效应误差指测评者在测评过程中因被测与标准间存在某种明
显的反差而产生的误差。这种误差又叫托衬效应误差。
例如鹤立鸡群,绿叶丛中一点红。
接近效应误差
接近效应误差是指测评者往往会把在时间、内容、形状等特征相
似或相近的两个对象,给以同样的评价,而不论他们实际上是
否有差别。
例如某个素质低的人夹杂在两个素质好的人之间,其测评分数就
容易偏高,相反,一个素质高的人夹杂在两个素质好的人之间,
,他的分数就有可能偏低。