心理测量学
第十八讲 项目反应理论简介
内容提要:
项目反应理论的发展:
IRT的基本理论体系
项目反应模型
计算机程序
IRT的应用、优点与不足
(一)、经典测验理论
一、项目反应理论的发展:
(二)、项目反应理论的发展
(一)、经典测验理论
1、CTT的理论体系很完善,是其他测验理论赖以产生的基石。优点有:
理论方法体系相对完整
前提假设比较弱
所涉及到的数学模型以及参数的概念和估计方法易理解和掌握
标准化技术在控制测验误差等方面有明显的效果
2、CTT在理论体系和方法体系方面存在许多其本身难以克服的缺点,具体表现为:
基本假设难以成立:①真分数与观测分数间存在线性关系的假定不合理;②平行测验的假设难以成立;③误差与真分数独立的假设难以满足。
项目统计量严重依赖于测验所实施的被试样组。
被试测验分数依赖于所施测项目的难度。
测验信度观存在严重问题。CTT的信度是针对被试全体的,只代表平均测量精度,假设所有被试测量标准误相等,而实际上,不同能力水平的被试不可能具有同样的测量标准误。
缺乏预测力
对测验等值、适应性测验、标准参照性测验的编制等问题不能给以满意的解决。
尽管存在以上缺点,CTT仍在广泛地应用。CTT、IRT和概化理论是当今最有影响的三种测验理论。
简单地说,IRT在处理微观问题(即被试水平与答题目之间的实质性关系)时优势明显,CTT在处理中观问题(如处理常见的标准化考试等)时方便易懂,GT则在处理宏观问题(如对结果作推论)时更显出色。
三种测验理论体系有内在联系,各有长短,应相互促进,互相补充。
(二)、项目反应理论的发展
由于项目特征曲线(ICC)对项目反应理论的产生具有重要意义,所以在讲项目反应理论的产生和发展问题时,一般都追溯到1905年比奈和西蒙编制第一个智力量表时的工作,他们当时所使用的作业成绩随年龄增长而提高的散点图与现在的ICC曲线十分类似。
IRT的真正创立者是美国心理测量学家洛德(Lord)。1952年,洛德发表博士论文《一个测验分数的理论》,提出了IRT的第一个数学模型(Two-parameter Normal Ogive Model,双参数正态卵形曲线模型)及其参数的估计方法,并把该模型应用到了学业成绩和态度测量工作之中。
二、IRT的基本理论体系
(一)、概念
(二)、基本思想及基本思路
(三)、基本理论假设
(一)、概念
项目反应理论(Item Response Theory,简称 IRT),又称潜在特质理论(Latent Trait Theory)或项目特征曲线理论(Item Characteristic Curse Theory),是为了克服经典测验理论(CTT)的局限而提出的现代测验理论。
从测验的内部或微观方面入手,采取数学建模和统计调整的方法,重点讨论被试的能力水平与测验项目之间的实质性关系,测验的每一个项目都有自己的项目特征曲线,描述了每一个特定能力水平的被试答对或答错该项目的概率。
(二)、基本思想及基本思路
潜在特质:
把表现在一个人身上所特有的相对稳定的行为方式称为心理特质(trait),由于这种心理特质是隐含于其行为之中的,所以也称做潜在特质。
它包括5层意思,详见戴海崎等《心理与教育测量》第三章第一节。
与CTT一样,IRT也认为被试的潜在特质是不能被观察和测量的,但却可以通过其外显行为表现出来。
不同的是,CTT是以被试对所有测验项目的反应总和(测验总分)为显变量来预测被试的潜在特质的,并不认为被试对单个项目的反应 与其特质间有任何有意义的联系。
IRT则认为被试的能力与其对某一特定项目的反应(以正确或错误反应概率表示)有某种函数关系存在,确定这种关系就是IRT的基本思想和出发点。
所以IRT可以被理解为一种探讨被试对项目的反应与其潜在特质间关系的概率性方法。
用θ(theta)表示被试的潜在特质或能力,用Pi(θ)表示其对项目i正确反应概率,项目反应理论的关键就是确定θ与Pi(θ)间的函数关系。
表1 某个项目假设的项目特征曲线
潜在特质: θ
正确反应的概率: Pi(θ)
潜在特质空间(Latent Trait Space)
对于某一特殊行为的发展起作用的所有潜在特质的集合。
维度
在潜在特质空间中互相独立的潜在特质的个数。
一个K维的潜在特质空间可以表示为:H =(θ1, θ2, θ3,...,θk)
总之,潜在特质理论是一切心理测量理论研究的基础。
(三)、基本理论假设
1、潜在特质空间的单维性假设
2、局部独立性假设
3、项目特征曲线假设
4、非速度性假设
1、潜在特质空间的单维性假设(unidimensionality)
潜在特质空间
单维性
指测验测量的是单一的特质而非多元特质,即被试对测验中任一项目的反应是其单一特质θ的函数。
如何判断是否满足单维性假设?
因素分析的方法
当因素分析抽取的第一个公共因素解释的变异远大于第二个公共因素时,就可认为测验是单维的。
但严格的单维性是大多数测量工具都难以满足的,这也是IRT受到批评的主要原因。
所以,解决测验的单维性问题及建立多维反应模型是IRT将要研究的任务之一。
2、局部独立性假设(local independence)
在项目反应理论中,常用一般的统计依存性和统计独立性概念来讨论项目间关系。
Pi(+):表示正确回答第i个项目的概率
Pi(-):表示答错第个i项目的概率
Pj(+):表示正确回答第j个项目的概率
Pj(-) :表示答错第j个项目的概率
P(+,+)表示正确回答第i和第j个项目的概率
同理,其它的见课本。
根据以上定义,在下列条件下,两个项目得分在统计上是独立的。
P(+,+)= Pi(+) Pj(+)
P(+, -)= Pi(+) Pj(-)
P( -,+)= Pi(-) Pj(+)
P( -, -)= Pi(-) Pj(-)
如果四个等式中的任何一个不成立,则这两个项目在统计上就是依存的。
例:如果 Pi(+)=.8 Pi(-)=.2
Pj(+)=.6 Pj(-)=.4
那么当且仅当 P(+,+)=.48 P(+, -)=.32
P( -,+)=.12 P( -, -)=.08
时两个项目才独立。
实际就是指,如果两个项目的每种反应模式的概率,仅仅根据对每个项目正确与不正确反应的概率就能计算出来,那么项目之间便是独立的。
如何理解局部独立性假设呢?
由于这种独立性是针对特定的θ值的被试而言的,所以称为“局部”。
例:假设1000名能力相同的被试参加某一能力测验,600名被试答对了项目i,400名答错了;这1000名被试对项目j的正确反应概率与对项目i的正确反应概率统计上是独立的。
总之,同一特质水平的被试回答某一项目时不受其他项目的影响。
3、项目特征曲线假设
IRT假定正确反应概率Pi(θ)与θ间存在规律性的变化关系,这种关系可以用一个数学函数的形式表示出来,这一函数称为项目反应函数(Item Response Function),项目特征曲线就是这一函数的图像。
大量事实证明,对两级记分的项目,被试的能力水平与他对项目的反应之间呈S型的曲线关系,而且这一关系具有相当的普遍性。
S型ICC具有一些共同点,即都有一条Y=1的上渐近线和一条Y=c(c≥0)的下渐进线,且是严格单调上升的,一条ICC的形状取决于三个变量:下渐近线的高度,曲线拐点的位置及拐点处的斜率。
这三个变量恰好相当于三个项目参数:猜测参数ci,难度参数bi和区分度参数ai。
θ
Pi(θ)
上渐近线
下渐近线
c
拐点
切线
b
(1)难度参数bi
在一条ICC中,bi等于曲线在拐点处的θ值。
当猜测参数ci=0(曲线的下渐近线为0)时,bi等于Pi(θ)=时的θ值,因为对一条完整的ICC,拐点恰好是曲线的中点和对称点。
当ci>0时, P(θ)=(1+c)/2
在IRT中, bi表示一个项目的难度,其取值范围一般在到+之间。
bi越大,表示项目的难度越大。
θ
Pi(θ)
b1
b2
项目1
项目2
从上图可以看出,项目2比项目1更难些,因为能力相同的同一组被试对项目1的正确反应概率要大于对项目2的正确反应概率。
在其他条件不变的情况下,增大项目的难度会使ICC向右平移。
(2)区分度参数ai
在一条ICC中,ai的大小决定曲线在拐点bi处的陡度。
ai很大时,在bi附近能力θ的增加会导致正确反应概率Pi(θ)有很快的增长;
ai很小时,在bi附近能力θ的等量增加不会导致正确反应概率Pi(θ)有明显的增长。
ai的取值范围通常在~2之间。
图 区分度参数ai对正确反应概率的影响
θ
Pi(θ)
b
项目1
项目2
ai越大,曲线在bi附近就会越陡,项目在bi附近的区分能力就越大,但在远离bi的区域,曲线就会变得越平坦,项目的区分能力就越低。
也就是说,区分度参数ai大的项目对能力水平接近bi的被试有较大的区分能力,而对能力水平远大于或小于bi的被试区分能力小。
相反,区分度参数ai小的项目则在能力分布更广泛范围内对被试都有一定的区分能力。
(3)猜测参数ci
被试完全凭机遇答对项目i的概率即是该项目的猜测参数ci。注意:CTT中没有猜测参数,IRT引入此概念是为了提高对能力估计的精度。
对包含m个选择项的选择题,其猜测参数ci一般接近1/m。
ci的取值范围一般在0~之间。
三、项目反应模型
二级评分IRT模型
多级评分IRT模型
连续型IRT模型
(一)、正态卵形模型(Normal Ogive Model)
正态卵形模型将项目特征曲线视为一条S形正态累积函数曲线,相应的数学模型即是正态累积分布函数。
可分为三参数、双参数和单参数模型三种。
(1)三参数正态卵形模型
表达式为:
ai、bi、ci,y为正态曲线纵线的高度,dy表示对y积分,∫为积分符号,上下角表示积分的范围,求从z=-∞到z=ai(θ-bi)范围内正态曲线下的累积面积。
(2)双参数正态卵形模型
当猜测参数为0时,三参数变成了双参数。
(3)单参数正态卵形模型
当ci=0,ai=1时,双参数变成了单参数。
(二)、逻辑斯蒂模型(Logistic Models)
由于正态卵形模型中的积分运算不易进行,伯恩鲍姆(Birnbaum,1957)在洛德正态卵形模型的基础上提出了逻辑斯蒂模型。
逻辑斯蒂模型避免了复杂的积分运算,在估计能力和项目参数时要简便得多。
逻辑斯蒂模型是使用最广的模型,其次是正态卵形模型。
逻辑斯蒂模型也包括三参数、双参数和单参数模型三种。
(1)三参数逻辑斯蒂模型的表达式:
ai、bi、ci分别为区分度参数、难度参数、猜测参数,含义与正态卵形模型相同。
(2)双参数逻辑斯蒂模型
当猜测参数ci=0时,三参数就变成了双参数模型。
(3)单参数逻辑斯蒂模型
当ci=0,ai=1时,就得到单参数逻辑斯蒂模型。
单参数逻辑斯蒂模型又称拉什模型,是丹麦数学家拉什(Rasch,G.,1960)从一个不同的角度独立提出的心理测验模型。
在IRT的发展历史上,拉什模型占有重要的地位,有诸多研究者认为IRT的创立者是两位,一位是洛德,一位就是拉什。
项目反应模型的例题应用
详见课本P223
θ
Pi(θ)
-3 -2 -1 0 1 2 3
项目2
项目1
图 课本上的例题1 见P223
四、计算机程序
项目反应理论提出之后,由于涉及到复杂的数学和参数估计等问题,所以并没有引起广泛的重视。
随着计算机技术的发展,1969年,怀特和潘杰帕克森(Wright & Panchapakesan)开发出IRT的第一个计算机程序BICAL(适用于拉什模型),这使得拉什模型得到了很大的发展。
1976年,洛德推出了IRT的第二个十分重要的应用软件LOGIST,这使得IRT直接进入了考试的实用阶段。
1982年,密斯莱维和博克(Mislevy & Bock)编制BILOG,可用于单参数、双参数和三参数Logistic模型的参数估计。
江西师大现代教育与心理测量研究开发中心漆书青、戴海崎等心理学家经过多年的努力,在WINDOWS平台上开发出了ANOTE软件(心理与教育测验通用分析系统)。该系统是一个具有多种功能的软件包。
五、 IRT的应用及其优缺点
应用:
借助计算机可以抽取项目样本,被试在解答项目过程中开始遇到困难的具体项目范围也可以被确定。
这就是计算机化自适应测验(Computerized Adaptive Testing)。
其它应用见戴海崎等《心理与教育测量》第十七章第一节。
IRT的优点与不足
优点:
能力参数估计的不变性;
项目参数估计的不变性;
提供被试能力估计值的精确度指标——测验信息函数;
为测验编制、测验分数的报告与解释提供便利。
不足:
单维性假定难以满足;
IRT建立在更复杂的数学模型之上,依赖更强的假设,计算过程复杂;
IRT对测验条件要求较严格,样本容量要大,被试的能力分布范围要广,测题数量要多,这些条件不满足就会影响其精确性。
对CTT的一些研究领域,如效度问题,并没有提出独到的见解。
总结:
对项目反应理论的基本认识
基本概念的掌握(项目特征曲线、项目反应理论的定义、基本假设、决定项目特征曲线的三个参数、应用较广的项目反应模型)
对项目反应理论的应用、优点及不足的认识
结语
我们的介绍只是简介,还有一些重要的内容,如多维IRT模型,测验信息函数,项目信息函数,参数估计等内容没有介绍,如有兴趣,可以自己钻研。
在考研大纲中有关于项目反应理论的知识,希望大家能够重视。