信息熵在多项选择题质量分析中的应用
杜鹏东1 ,孙涛2, 田振清3
(1. 内蒙古科技大学 计算中心 内蒙古 包头 014010,
2. 内蒙古科技大学 信息工程学院 内蒙古 包头 014010,
3. 内蒙古师范大学 传媒学院,内蒙古 呼和浩特 010022 )
摘 要:多项选择题是各种测试中使用的较为广泛的题型之一,施测后对题目各选项的有效性做出判断可
为评价测试质量提供重要参考依据。本文由分析多项选择问题的信息熵入手,给出多项选择题等价选法个
数 d 的计算公式。同时,对多项选择题之间的质量比较问题,给出了使用相对熵的比较方法。
关键字:信息熵,多项选择题,等价选法,试题质量分析
1.引言
在经典测量理论中,采用题目难度、题目区分度作为题目分析的指标[1]。毫无疑问,这两个指标反映
了题目质量的两个重要方面。但是,对于多项选择题(从m个备选项中选择n项组合构成答案,其中 2≤n
≤m)来说,除了难度、区分度这类综合评价指标之外,常用的题目分析方法还有题目反应分布模式分析
法。通过分析每一道多项选择题各种选法的人数及比例,可以解释题目选项的编制是否合理。若学生回答
过分地集中于正确选法,则题目必定过于容易而减少区分度;若题目的应答过分地集中在某个或某些错误
的选项上,这说明该题目对应的知识点也可能在教学中存在一定的问题,由于某些选项的干扰作用过强而
无法反映学生的真实水平。在具体的实践中,更可能的情形是,对于试卷中的某道多项选择题,被试的作
答介于全部正答和全部误答之间。而对于同一试卷中的各道多项选择题,也存在着需比较试题质量孰高孰
低的问题,因此给出一个衡量多项选择题质量高低的判别方法,对于开展测验的评价工作具有重要意义。
2.单项选择题的等价选项个数
20 世纪 70 年代,日本学者佐藤隆博运用熵的概念,给出了各选项有效性评价的一个量化指标—等价
选项个数。
令i(i=1,2,3…,l)为某单项选择题的一个选项(该题共有l个备选项),pi为考生选择选项i的概率,
则该单项选择题的熵为
H = -
1
log
l
i
i
ip p
=
∑ ………………………………………………(1)
注:该文中所用到的log均是指以 2 为底的对数,即logPi=log2Pi 。
由(1)式不难证明,当学生的回答集中于一个选项时,H=0,分散程度最小;反之,当回答均匀分布
在l个选项上时,H最大[2],意味着回答分布最分散。
然而,(1)式中所给出的 H 是平均信息量,如果假设该 H 与回答均匀的分布于 k 个选项时的信息量
相等,即
H= -
k
1
k
1
log
i=
∑ 1k = - log 1k = logk
-1-
那么 k=2H ………………………………………………(2)
(2)式给出是等价选项个数[3],它表示根据实际施测结果计算出的H值求得的某单项选择题选项数的
估计值。
3.多项选择题等价选法个数 d 值之分析
(1).多项选择题等价选法个数及其计算
根据(2)式所给出的单项选择题的等价选项个数的含义,可尝试定义多项选择题等价选法个数的概
念,具体为:
设多项选择题的备选项个数为m,其中正确选项个数为n(其中 2≤n<m),本文只讨论n为定值的情况,
例如,对于 5选 3 的某道多项选择题,只考虑应答为n=3 的情形, n≠3 的情形不予考虑,令i(i=1,2 ,…,
s)为该多项选择题的第i种选法,pi为学生选择该选法的频数,s为被试实际选法的个数,则多项选择题的
熵为
H′ = -
s
1
logi
i
ip p
=
∑ ………………………………………………(3)
当学生的回答集中于某一种选法时,H′=0,分散程度最小;反之,当回答均匀分布在所有选法上时,
H′最大,意味着回答分布最分散。
例如,某道 5 选 3 多项选择题,5 个备选项分别为A、B、C、D、E,则理论上选法数应该是
(这里的c指求组合数),由于并不考虑n≠3(少选和多选)的情况,所以本问题理论选
法数应该为 =10 种(在具体情形中,多为s≤ ,此处讨论m=5,n=3 的一个例子),若假设学生共有s=5
种(ABC、ABD、BCD、CDE、ACD)选法,涉及这 5 种选法的被试为 60 人,正确答案为ABC,记q
1 2 3 4
5 5 5 5c c c c c+ + + + 55
3
5c
n
mc
i=- logi ip p ,
Pi为被试第i种选法的频数(i=1,2,3,4,5),被试群体回答分布状况如表 1,表 2 所示:
表 1 被试回答集中于一种选法的分布模式 表 2 被试回答频数均匀分配的分步模式
表
1 中
显
示
的
状
况
是被试群体的选法集中于某一种选法,经计算,此时的熵 H′=0,熵值最小;而表 2 中显示的状况是被试
群体的回答均匀地分布于 5 种选法,此时的熵 H′=log5,并达到最大。为此可以描绘出这两种情况下的回
答分布模式图,见图 1。
人数 选择频数Pi qi
ABC 12 ×
ABD 12 ×
BCD 12 ×
CDE 12 ×
ACD 12 ×
总和 60 Log5
人数 选择频数Pi qi
ABC 60 ×=0
ABD 0 ----
BCD 0 ----
CDE 0 ----
ACD 0 ----
总和 60 0
-2-
人数 人数
H′=0 H′=log5
(i) 回答集中于一种选法 (ii) 回答均匀分布于各种选法 选法 5
选法
12 12 12 12 12
选法
选法 1 选法 2 选法 3 选法 4 选法 5
60
40
20
选法 4 选法 3选法 2 选法 1
60
40
20
(i)回答集中于一种选法(表 1 情形) (ii)回答均匀分布于各种选法(表 2 情形)
图 1 某多项选择题(被试有 5 种选法,人数为 60)的回答分布模式图
多项选择题等价选法个数是指将实测的应答分布换算成与之具有等熵的均匀分布的选法个数。若
某多项选择题的应答分布频数实测值为pi(i=1,2,3,……,s),该分布具有熵值为H′,与之等价的
选法数为d(学生的答案均匀地分布在d种选法),即
H′ = -
s
1
logi i
i
p p
=
∑ = -∑
=
d
i
dd
1
11 log =logd
那么 d=2H′ ……………………………………………………(4)
(4)式是本文所定义的多项选择题等价选法个数,d 表示实质上使用的等价选法个数的估计值。
(2).多项选择题等价选法应用实例分析
例如,有如下试题:在统计学中,常用来描述集中量数的统计量有哪几项( )
A、平均数; B、中数; C、众数; D、方差; E、标准差
分析:该题的正确答案为选项 ABC 三个选项的组合,该题属于 5 选 3 问题(此处不考虑多选或少选
的情况),经计算,理论上该题选法共有 =10(ABC、ABD、ABE、ACD、…、CDE)种,但实际
被试作答所涉及选法个数一般会小于 10 种情况,下面从理论选法和实际选法两方面分析该题的信息
熵。
3
5c
(i)、只考虑保证在一定正答率的情况下的熵值(假设各种情况的正答率均为 60%)。
由于并不考虑被试应答时多选和少选的情况,所以该题理论选法共有 10 种,并且只考虑在一定
正答率的情况下被试应答分布情况,所以被试的应答分布为 9 种情况(不包括学生全部选择 ABC 的
情况),表 3 列出剩余 9 种情况所对应的答题状况分布表:
表 3 一定正答率前提下的各种应答分布频数分布表
应答分布
1
(1+1)
应答分布
2
(1+2)
应答分布
3
(1+3)
应答分布
4
(1+4)
应答分布
5
(1+5)
应答分布
6
(1+6)
应答分布
7
(1+7)
应答分布
8
(1+8)
应答分布
9
(1+9)
ABC
ABD
ABE
ACD
频 数法
选
应答
分布
-3-
-4-
ACE
ADE
BCD
BCE
CDE
BDE
熵值 H′
d
说明:表 3 中的选法 1+i(i=1,2,3,4,…,9)表示 9 种选法,其中“+”前面的 1 表示各种应答
分布中有一种共同选法(选择 ABC),“+”后面的数字 i(i=1,2,3,…,9)表示剩余的选法,如
1+3 表示共有 4 种选法:1 代表 1 种共同选法 ABC,3 代表 3 种选法 ABD、ABE、ACD。为了求得理
论上的熵值,此表中所设的共同选法(正确选法)选择频数(正答率)均为 60%,剩余每一选法的频
数为
出每种应答分布对应的熵值 H′,见表 3 熵值 H′一栏,表 3 中数据表明,随着选法个数的增加,其
熵值逐渐向理论选法熵值靠近。根据(4)式计算出各种应答分布所对应的等价选法个数,从表 3 最
后一栏等价选法个数 d 值可以看出,等价选法个数随着选法个数的增多而增大。
由表 3 不难发现,在保证一定正答率的前提下,应答时选法个数(频数均等)越多,其熵值越大,
该试题的质量相对越好。
(ii)、假设被试群体实际共有 5 种选法,其中 1 种选法是选择正确选项 A、B、C 的组合,下面
讨论不同选法频数所对应得熵值变化情况。
①.如果这 5 种选法中正确选法频数固定,假设保证正答率为 60%,那么剩余 4 种选法的频数分
布的变化会引起该多选题熵值的变化,可以计算出,在正答率不变的情况下,熵值会在(0~)
之间变化, 是由剩余 4 种选法的频数均匀分布而计算出的结果,根据(4)式,熵值为
所对应的等价选法个数d==,接近于 4,若实际测试的结果确是如此,说明该题中干扰选项的
设置相对合理,试题质量也比较高。
例如,某被试群体的回答正答率为 60%时剩余选法的频数分别是 ,,,,根据(3)
式计算,此时的熵值 H′=,显然该熵值介于区间(0~)。
由(4)式,此时的等价选法个数d=2H′=,这说明该题的等价选法个数略大于 3,而被试实
际选法所涉及的个数是 5,因此该题干扰选项的设置有待于进一步改进,其努力方向是应尽可能地使
除正确选法之外的 4 种选法频数接近于均匀分布。
②.如果这 5 种选法的频数是均匀分布,即每种选法的频数均为
这种情况下的正答率是 ,此时的熵值最大,根据式(3)计算出,该熵值H′=log5=,等价
选法个数d=2H′=5,这说明该题实际选法个数等于等价选法个数。应该注意到,这种情况下试题的正
确选法并无优势,被试群体的回答最分散,而在试题的编制中,通常所追求的是在保证一定正答率的
前提下其它选法为均匀分布最为理想。
③.如果这 5 种选法的频数是随机分布,根据①②两种情况容易推知,此时的熵值会介于区间
(0~)之间。
例如,某学生的回答频率分布是 ,,,,,根据(3)式计算,则此时的熵值
-5-
H′= ,显然,此时的熵值小于 5 种选法均匀分布的熵值。根据(4)式,等价选法个数 d=
2H′=,这种情况下的值虽然小于实际选法个数,但比较接近,如果测试目的要求正答率确定为 40%
适宜的话,则该题的质量相对较好。
综上所述,(4)式给出的多项选择题等价选法个数d是判断多项选择题备选项目是否有效的指标
之一,它的大小在一定程度上可以反映实际题目干扰选项的干扰程度。一道设计合理的多项选择题应
该在保证一定的正答率的前提下被试群体选择各干扰选项的频率几乎相当,这样才真正体现了干扰选
项的干扰性。但如果正答率很小时,等价选法个数也很小(被试群体的应答集中于包含某些干扰选项
的选法上),则该题目的反应是异常的,对于被试群体没有选择的那些选法中所包含的干扰项,在测
验中并没有起到干扰作用,这无疑是应该加以调整的[4]。
4.不同类型多项选择题熵值之比较分析
在实际测试中,不同的多项选择题所设置的备选项个数以及正确答案选法的项目数会因题而异,
例如有的多项选择题是 4 选 2,有的是 4 选 3,还有的会是 5 选 3 等等,通过上述分析,可以看出,信
息熵的计算不仅与多项选择题备选项个数有关,而且与被试群体的选法个数有关,被试所涉及的选法
个数越多,该题的熵值就越大,所以,在试题分析时,不可以直接根据熵值的大小来判断不同多项选
择题的质量优劣。下面讨论不同类型多项选择题的质量分析比较问题。
(i)、根据(3)式,多项选择题的熵值是各种选法的pi*logpi的绝对值求和,显然该熵值随着选法
个数的增多而增大,因此通过(3)式计算出的熵值只能适用于同类选择题的比较,即有相同个数的备
选项、正确答案中包含的选项数相同、被试的应答有相同个数的选法数,只有这种类型的多项选择题
才可以进行各自熵值的计算,进而根据被试应答分布利用(4)式计算相应的等价选法个数d值,从而
可以比较相应的等价选法个数的大小,比较的结果可为试题质量鉴别提供客观的依据。
例如,某多项选择题甲为 5 选 3 的问题,被试群体共有 6 种选法(不包含多选和少选的情况),回
答分布为 ,,,,,,根据(3)式可计算其熵H′甲 =,与此对应的等价选
法个数d甲 = 。某多项选择题乙也为 5 选 3 的问题,被试群体也共有 6 种选法(不包含多选和
少选的情况),回答分布为 ,,,,,,根据(3)式可计算其熵H′乙 = ,
与此对应的等价选法个数d乙=。由于多项选择题甲和乙属于同一类型,所以可以直接比较它们
的熵值大小,甲题的熵值大于乙题的熵值,当然甲题的等价选法个数也大于乙题的等价选法个数,因
此甲题的质量要优于乙题的质量。
然而,在实测中,根据测试的目的不同多项选择题的构造会存在差异,如备选项个数、正确选项
个数、以及被试群体的选法个数。这样就不能直接通过比较不同类型的选择题的熵值来判断试题的质
量,这种情形可考虑通过相对熵的比较来分析讨论试题的质量。
(ii)、为了有效地比较不同类型的多项选择题的信息熵,避开备选项个数、正确答案中的选项个数
以及被试群体所涉及的选法个数对熵值的影响,可以考虑对信息熵予以归一化,采用相对熵来进行比
较。相对熵是指计算出的熵值与最大熵值的比值,通常用 h 表示:
h=H′/ Hmax …………………………………………(5)
其中,H′由(3)式给出,Hmax是指最大熵值,即各种选法频数均匀分布时的熵值,相对熵使得
熵的值域范围在 0~1 之间,不同类型的多项选择题可通过其对应的h值来比较。
例如:某多项选择题丙为 5 选 3 的问题,被试群体有 5 种选法(不包含多选和少选的情况),回
答分布为 ,,,,。某多项选择题丁为 4 选 2 的问题,被试群体有 4 种选法(不包
-6-
含多选和少选的情况),回答分布为 ,,,。选择题丙和丁属于不同类型的选择题,所以
不能直接对其熵值进行比较,但通过(3)、(4)、(5)式分别求丙、丁的熵值、等价选法个数、最大
熵和相对熵,即H′丙 =,d丙=,H丙 max =,h丙 =,H′丁 =,d丁
=,H丁 max=2,h丁 =,丙和丁虽然属于不同类型的多项选择题,但是通过相对熵的比
较发现,h丙 =< h丁 =,因此,相对而言,丁题的质量要优于丙题的质量。
为了提高测试的精度,改进试题的质量是一个重要的方面。笔者通过多项选择题应答分布情况的
分析,提出了利用信息熵计算等价选法个数来评判试题质量的一种方法,此方法的科学性、有效性尚
待大量的测试实践加以检验。当然文中(3)式所使用的熵值不包括被试应答中多选和少选的应答分
布,将这种情形包含进来如何给出评判试题质量的方法,还有待于进一步探讨和研究。
参考文献
[1].杨志明 张雷著 测评的概化理论及其应用 教育科学出版社 第 1 版
[2].田振清 周越 信息熵基本性质的研究 内蒙古师范大学学报(自然科学汉文版)
[3].傅德荣 章慧敏编 教育信息处理 北京师范大学出版社
[4].田振清 杜鹏东 单项选择题等价选项的信息熵分析及求解程序设计 内蒙古师范大学学报(自然科学汉文版)
The application on comentropy in the quality analysis of multiple
choices
Du pengdong1, Sun tao2, Tian zhenqing3
( center, Inner Mongolia University of Science & Technology, BaoTou 014010, China
engineering college, Inner Mongolia University of Science & Technology, BaoTou 014010, China
college, Inner Mongolia Normal University, Huhhot 010022, China)
Abstract
The multiple choices are one of the extensive types in all kinds of tests. To judge the validity of each option can offer
important referenced gist for the evaluation on the quality of test after the test. In this paper, the author analyzes the
comentropy of the multiple choices and supplies the expressions of the number d of equal choice, and the author
provides comparison method of using relative entropy for issues of molar comparison in multiple choices.
Keywords: comentropy ; multiple choices ; equal choice ; quality analysis of the test question
作者简介:杜鹏东(1974 - )男,汉族 ,硕士, 讲师, 研究方向:计算机教育
Abstract