第五章 度量与可靠性
一、概念的度量
二、指标与尺度
三、尺度设置
四、度量的可靠性
五、度量可靠性的评价
六、提高可靠性的方法
一、概念的度量
管理研究涉及各种抽象的概念(Constructs)。做管理研究,首先要对研究中涉及到的概念有准确而全面的把握和认识。
为了正确地度量概念,首先必须明确概念域,在概念的定义中精确描述概念包含了什么以及要排除什么。然后通过操作化用可观测变量来反映概念。
尺度
一个变量的取值范围或取值类别的集合称为“尺度”(Scale),给描述对象赋值的过程称为“度量”(Scaling),度量既基于理论又基于经验。
操作性描述就是在理论框架的基础上选择合适的变量与尺度反映抽象概念。
概念度量面临的困难
操作性描述必须具有客观性,在给定条件下要可以重复操作并能得出相同或相近的结果。
要找到一种尺度去度量某个抽象概念往往是困难的,很难找到合适的可测度变量充分反映一个理论概念所包含的意思。操作性描述永远不会是完全恰当的。(如诊病)
概念度量面临的困难
由于变量受环境及测试方法等各种因素的影响,使得每个测量都有偏差。强调度量的可重复性和客观性并不能保证度量的真实性,每个测量结果都只是对真实状况的一种逼近。
操作性描述具有不充分性,不存在十全十美的度量抽象概念的方法。只靠改进测度方法本身难以解决度量的有效性问题。
概念度量与理论的关系
理论与具体的度量操作是两个不同的层次,理论概念是一切度量的起点。
理论概念通常是从一组相关原理派生出来的,需要用抽象的、理论上的相关概念来描述。
在进行操作性描述之前,首先要构造一个逻辑框架,即先假设一个命题,作为研究的出发点。
概念度量与理论的关系
构造假设命题的主要依据可以是已有的公理或理论。假设命题通常是因果关系命题,研究的目的是要证明假设成立与否,构成假设的基本元素通常就是概念。
由于具体的量度往往不能充分反映理论概念的丰富内涵,因而,不能反过来用操作性描述的结果来描述抽象的理论概念。例如, 对“智商”这一抽象概念,不能定义为“智力测验的结果” 。
变量与概念之间的关系
单一变量不能包含概念的所有相关方面。同时,变量会涉及一些与拟测度概念无关的方面。单一变量通常不能提供唯一正确的度量。
变量与抽象概念可能是线性关系,也可能是非线性关系。例如:“年薪”与“激励强度”之间的关系。
关于概念的相关知识可以用来指导我们对度量方法和变量的选择。比如,在黑夜用一把夜光尺去测量一头大象的身体。根据测量去描画这头大象,图中的一部分是来自我们已有的有关大象形状和大小的知识。
二、指标与尺度
指标和尺度都用于对变量的测度,对变量的度量一般包括一个以上的指标和尺度。
一个指标反映所测度变量的某一个方面的内容,指标的取值是由尺度来表示的。
在被测度内容上的值域范围或取值的类别集称为尺度(scale)。尺度被用来反映事物现象在性质、规模方面的差异。
指标与尺度举例
企业盈利能力是一个反映企业这一分析单位属性的一个变量;
反映这一变量的指标可以有净资产收益率、总资产报酬率、销售利润率、利润总额、净利润等。
这些指标多度量分别使用比率尺度和货币尺度。用不同尺度表示的指标取值表明被测企业相对于其它企业在盈利能力方面的优劣程度。
智商是一个反映个人这一分析单位属性的一个变量,智商得分是度量智商的一种尺度,智商得分是根据受试者对大量问题的回答给出的。
尺度的表示
不同的指标常使用不同的尺度度量。为了对度量结果进行汇总、整理、计算、分析,常常要用数字来表示尺度。
对某些抽象概念(如技术能力、竞争优势等)可以通过打分来度量。 “有”、“无” 或 “高”、“低”是最简单的打分,可以用分别数字“1” 和 “2”来表示。这些数字在不同情况下具体含义是不同的。
度量的客观性不应被误解为定量化,并非所有量度都必须使用定量尺度,文字表述也可能是有效的。
尺度的类别
按度量目的划分,管理研究中常用的尺度有评价尺度和态度尺度。
按尺度的赋值是否需要与参照对象比较划分,尺度可分为比较式尺度和非比较式尺度。
按尺度的赋值是否涉及受试者的偏好划分,尺度可分为偏好度量尺度和非偏好度量尺度。
尺度的类别
尺度如果用数字表示,按数字的数学特性来划分,尺度大致可分为四类:
分类尺度
次序尺度
差距尺度
比率尺度
分类尺度
指用数字来反映现象的性质和类别的尺度。
例如对性别进行分类,可用“1”和“2”分别代表男和女。
这类尺度的数字之间不能进行任何数学运算。
次序尺度
指用数字来反映现象之间的等级和顺序的尺度。
如文化程度,可分别用1、2、3、4、5、6来表示文盲、小学、初中、高中、大学、大学以上;
这类尺度不仅能反映现象性质或类别上的差异,而且还能反映现象在高低、大小、强弱、先后等顺序上的差别。
这类尺度的数字可用来比较大小,但还不能反映不同等级间的差异程度,不能进行加、减、乘、除等数学运算。
差距尺度
指用数字定量反映现象之间差异程度的尺度。
如用温度计的刻度来反映环境温度的高低。
这类尺度的数字不仅能反映现象性质或类别上的等级和顺序差异,而且还能反映差异的数量化程度。
这类尺度的数字之间可以进行加、减运算但不能进行乘、除运算。
比率尺度
指用数字反映现象之间存在的比例或比率关系。
如出生率、工资增长率等概念就使用这类尺度。这类尺度一般用百分比来表示。
尺度的数字之间不仅可以进行加、减运算而且可以进行乘、除运算。
用比率尺度度量的现象特性中必须有绝对的或真实的“0”值存在,例如,人口增长率为“0”,就是真实的“0”值。
在使用比率尺度时,必须加以分析和识别。如数学考试中成绩为“0”并不表示受试者数学能力一点没有,不存在真实的“0”值。
使用不同度量尺度的变量
依不同的度量尺度,变量可分为定名变量、定序变量、定距变量和定比变量。
定名变量: 指用分类尺度度量的变量,变量的取值只包括有限的和互不包容的属性,如性别。
定序变量: 指用次序尺度度量的变量,取值可以按某种逻辑进行顺序排列,但不能区分不同取值间的差距。
使用不同度量尺度的变量
定距变量:
指用差距尺度度量的变量,取值间的距离具有的实际意义。
定比变量: 指用比率尺度度量的变量,定比变量除具有上述三种变量的全部性质之外,还有一个具有实际意义的“0”点。
三、尺度设置
尺度设置的目的是为研究者提供一个进行变量测度的参照标准或形式。比如,为测试家庭经济水平,可以设计这样一个尺度:1. 贫穷;2. 一般;3. 富裕。
尺度设置直接关系到测试结果的可靠性及有效性。如果尺度设置不合理,测试结果就会失去意义。
不存在完美无缺的度量方法,各种度量方法都只能近似代表研究对象。在尺度设置过程中经常要通过反复试用和对结果进行分析,对度量方案加以修改。
直接判定式尺度设置
比较简单的尺度设置方法是直接判定式尺度设置,即测试时直接从所设尺度中选择一个值(答案)作为测试结果。上面所举的测试家庭经济水平的例子就是直接判定式尺度设置。
尺度设置常用的具体方法有:
图示尺度、条目化尺度、比较尺度
图示尺度
将尺度用图示的办法表示出来,称图示尺度。例如,考察管理者的人际关系情况,可设计如下的图示尺度测试企业员工对管理者喜欢的程度。
图示尺度
图中有尺度含义的提示,图上刻度的功能是作为对尺度等级位置的判断标准,而不是给出离散的类别。
受试者根据自己的判断选择一个最能代表自己意见的尺度值。
图示尺度是最广泛使用的方法之一。这种方法的优点是使用起来比较方便,但测试结果的有效性较差,这是由于各人对“喜欢”的理解不同,或者说各人在判断时使用的“参照系”不同而造成的。使用图示尺度要避免过于极端的结论。
条目化尺度
条目化尺度是选择一定数量的反映属性类别和属性强度的条目作为尺度的值。条目的设置数量以5~11个为适宜。每一尺度值都被赋以或简略或详细的文字说明,受试者根据自己的理解选出合乎意愿的尺度值。
尺度形式要根据拟研究问题和所需判断的类型决定。比如要测试员工对领导风格的看法,可以设置如下的尺度:(1)非常民主;(2)民主;(3)中庸;(4)独断;(5)非常独断。
条目化尺度使用方便,但受到受试者所用“参照系”的影响,有效性较差。
比较尺度
比较尺度明确地要求通过与参照对象的的已知特征进行比较来做出判断。
比如,要测试某人的领导才能。可以设置这样一个尺度:(1)与A(领导才能)最相近;(2)与B最相近;(3)与C最相近。在这种情况下,要求测试者对A、B、C三人的情况了解得比较清楚。
又如,要测试某项技术的先进程度。尺度值可以设置为(1)国际先进水平;(2)国内先进水平;(3)国内一般水平。
比较尺度
在层次分析法中,测度人们对两项评价指标相对重要性判断的尺度为:(1)极端重要;(2)非常重要;(3)相当重要;(4)稍微重要;(5)同样重要。
比较尺度的一种特殊情况是排序尺度(rank-order scale) ,即对测试内容按一定标准进行比较排队,如对重要程度、紧迫程度、喜爱程度等的排序。排序能很简单地表明特定对象按一定标准的顺序,使用这种尺度要求测试对象是有限的。
比较尺度举例
你选择目前工作的理由是:
工作有意义; 待遇较高;
有机会做创造性工作; 有利于个人成长。
对上述理由从1到4排序,1代表最有解释力。
请对以下品牌的汽车从1到4排序, 1代表你最想购买,4代表最不想购买。
请将给以下电视机品牌打分,分数越高表示质量越好,满分为100分。
多项目(multi-item)度量
由于概念通常具有多维性,而抽象概念的真实值无法直接测度,在概念已明确定义,概念域已确定的情况下,研究者要生成符合概念域的用来度量概念每个维度的项目集合。
与概念域对应的项目集合称为项目域。理论上,如果项目域中的项目与拟度量的概念维度和元素相对应,并且用项目域中的所有项目来度量概念,那么项目的度量值即为概念的真实值。这是不可能做到的。实际上,要从项目域中抽取项目样本,用样本项目的度量值估计概念的真实值。
多项目(multi-item)度量
使用某种方式进行多次度量(比如要求回答多个相关的问题),再把这些度量或回答组合成变量的单一值的方法称为多项目度量。多项目度量可以对多维性概念进行测度和分析。
在管理研究中,对复杂概念的度量,应尽量避免依靠单一的测度指标和测度方法,尽量使用多维的操作性描述,设计组合的指标和度量尺度,采取多种不同方法和度量项目来度量概念。
多项目度量的必要性
实际研究工作中,很难用单一的标准来度量复杂的变量,特别是观点和倾向这类复杂的变量。单一的标准只能提供某变量的大概情况,几种数据的组合则可以提供更全面更准确的情况。
使用问卷调查时,没有任何一个问题可以单独描述一个变量。应当设计若干问题,每个问题代表变量的一部分。
如果用定序尺度处理变量,单一的标准很难提供足够的类别,而由几项内容组成的指标和尺度却可以做到这一点。
多项目度量的必要性
不同的度量方法可以相互验证,由于通常不同方法的偏差来源不相同,多项目度量有利于减少测量偏差 ,提高量度的可靠性和有效性。
通过对采用不同指标和方法的度量结果进行对比分析,可以发现导致偏差的因素,进而有目的、有重点地选择和改进测试方法。
多项目尺度设置
内容的选择
组合指标是用来度量变量的。选择指标内容的首要标准是逻辑上的正确性。例如要度量企业竞争力,选择的每项内容都应与企业竞争力有关。在选择内容时还要注意差异程度。如果就某项内容而言,企业之间没有明显差异,这项内容在组合指标时就不宜采用。
多项目尺度设置
内容之间的关系
要检验组合指标中不同内容之间的相关性。如果某项内容与其他内容完全不相关则应把它删去。而如果两项内容相关性太强,那么其中的一项就不必留在组合指标中。 例如,研究企业的创新倾向,若研究对象在某项内容上表现出有较强的创新倾向,在另一项内容上也应大致具有这种倾向。即便不是如此,在甲内容上表现出创新倾向的研究对象在乙内容上表现出创新倾向的可能性应当比在甲内容上表现出保守倾向的另一研究对象大一些。
多项目尺度设置举例
例如,要研究商学院教授中“理论型”的教授与“实践型”的教授面向不同教学对象时的教学效果。需要对“理论型”和“实践型”的概念加以定义和度量。
度量“理论型”和“实践型”的指标由三个问题组成。每个问题有两个选项,对每一问题的回答,选择第二选项的比选择第一选项的更重视理论。
度量“理论型”和“实践型”的项目
① “作为商学院的教授你认为哪种能力对教学更重要:管理实践能力还是管理研究能力?”
这一问题反映受试者对“最佳教学身份”的认识。
② “在提高业务能力方面,你的主要兴趣在于管理实践还是在于对基本管理理论的理解?”
这一问题反映受试者对“主要兴趣”的认识。
③ “在管理研究领域你对案例研究的文章更感兴趣还是对探索管理理论的文章更感兴趣?”
这一问题反映受试者对“阅读兴趣”的认识。
度量项目之间的两两相关关系
度量项目之间的两两相关关系
数据表明,87%选择“研究者” 作为最佳教学身份的受试者选择了“管理理论” 作为业务兴趣。只有51%选择“管理者” 作为最佳教学身份的受试者选择了“管理理论” 作为业务兴趣。这两项内容的差异为36%。同样,阅读兴趣和业务兴趣之间关系的差异为38%(70%∶32%),阅读兴趣与最佳教学身份之间关系的差异为21%(36%∶15%)。
最初这三个问题是由于逻辑上的正确性被选中的。通过对每对问题之间关系的检验,证明它们确实可以成为同一变量的度量尺度。
三项度量项目之间的关系
研究对象按照最佳教学身份和阅读兴趣被分为四组,括号里的数字是各组人数。每个组的百分数表明最终兴趣在于管理理论的人所占的比例。表的左上角是理论倾向最弱的,表的右下角是理论倾向最强的。
三项度量项目之间的关系(假设)
上表中,加上阅读兴趣这项内容之后,业务兴趣和最佳教学身份之间的关系不变。如果这三项内容之间的关系如上表所示,阅读兴趣不能为这组指标增加任何新的信息,就不必保留了。
上市公司财务指标相关性分析
上市公司财务指标相关性分析
多项目度量中要注意的问题
第一,项目必须根据经验与被测量的概念有关。
第二,项目必须把对所测量维度持有不同观点的人区别开。
第三,要避免双关的或含糊的项目。
第四,项目既要包括积极的也要包括消极的方向,使“同意”或“是”大致和“反对”和“不”各半,这样防止测量中的默许回答型(acquiescent response style)。
指标分数的评定
当选定测度内容之后,接着要为不同的答案评定分数。评定分数过程中要做出两个决定:
第一,决定指标取值的范围。例如,领导风格的取值范围可以从“非常民主”到“非常独断”。
要注意平衡指标各个取值点之间的距离,使每一个点上有足够的个案。
第二,决定每个问题的具体分数。一种作法是每个问题分数相等,另一种作法是对问题做加权处理。
未详数据的处理
处理未详数据(如填“不知道”)的方法有:
第一,如果未详数据不多,可以把它们删去。原则是保证还有足够的数据供分析用,同时要保证无系统偏差。
第二,可以假定未详数据为某一种答案。如某问卷要求研究对象回答是否参加过某几项活动。有人只填写参加过的活动,没参加过的就空在那里。在这种情况下,可以假定空白处是“没有参加”。
未详数据的处理
第三,仔细分析未详数据有可能发现它们所代表的意义。如在某些研究中,人们对某种观点填“不了解”实际上是“不同意”。要具体情况具体分析。
第四,设中间数值为未详数据的数值,如在某指标数值为0、1、2、3时,可设未详数据为2;对连续型变量可用平均数为未详数据的数值。
第五,可用随机数字作为未详数据的数值。
指标的证实
衡量对某一变量的度量成功与否的方法是对指标的证实。证实组合指标可用下列方法: (1)内部证实 证实指标首先是内部证实。方法是作一个表,以指标总得分为自变量,各项内容的得分为因变量,看其变化是否一致。如果某项内容得分与指标总得分相关系数很低则应删去。 (2)外部证实 再以关于商学院教授的研究为例。“理论型”指标高的受试者在其他问题上也应显示较强的理论倾向;“理论型”指标低的研究对象在其他问题上也应显示较低的理论倾向。
指标的外部证实举例
内容的相对重要性
组合指标中,并非所有的内容都同等重要。例如,反映企业偿债能力的指标可以包括利息保障倍数、资产负债率、流动比率、速动比率、强制性现金支出比率、到期债务支出比率、现金流动负债比率、现金总债务比率等,这些指标的重要程度是不同的,对两个企业进行比较时,在8项指标中有5项指标较好的企业不一定偿债能力比另一个企业强。解决这一问题的办法是给指标加权或设置单项控制指标。
根据组合指标对研究对象分类
当对研究对象进行二维或多维量度时,可以根据组合指标的量度结果对研究对象分类。例如,美国管理学家罗伯特· 布莱克和简· 穆顿在对领导行为的研究中根据“以任务为中心”和“以人员为中心”这两种领导风格的组合设计了著名的“管理方格图”,总结出5种典型的组合状态,反映出五种典型的领导方式。
分类往往能够帮助我们理解数据,但应当注意最好以分类变量为自变量而不是因变量。
管理方格图
常用的多项目尺度设置方法
里克特(Likert)尺度
迦特曼(Guttman)尺度
保迦德斯(Bogardus)社会距离尺度
瑟斯滕(Thur stone)尺度
里克特(Likert)尺度
里克特尺度是现代调查问卷中普遍采用的提问格式。它的基本形式是给出一个陈述,按照同意的程度进行项目排列。要求调查对象表明他“强烈赞成”、“赞成”、“反对”、“强烈反对”、或“未决定”。(也可不用“赞成”而用“同意”)。
这种格式的特殊价值在于答案具有明确的顺序,且容易评定分数。有五种答案则评分为0-4或1-5。
要注意评分的方向,对正面问题给“强烈赞成”者评5分;对反面问题给“强烈反对”者评5分。
里克特(Likert)尺度
里克特度量要求概念是一维的,如果是多维概念的话,要求将其细分成多个一维子集。
里克特尺度可以是由一组问题组成,但每一问题都是一种观点判断,要求受试者在列出的赞成或反对的等级尺度中选择一值。
里克特尺度设置方式举例
上表是超市对顾客满意度的调查,里克特尺度的明显特征是,为避免产生偏差,所有题目都按“正向提问”和“反向提问”分成数目相等的两类,并分别以(+)和(-)号标识两种提问,最后分别统计(+)项题目得分及(一)项题目得分。
使用里克特尺度度量的步骤
使用里克特尺度度量某一概念包括以下几步:
明确要测量的态度涉及的基本理论概念;
总结归纳出与态度有关的项目;要求被调查者作回答;计算分值;
分析哪个项目对测量的可靠性和价值贡献最大。
里克特尺度的优点和不足
里克特尺度制作简单,用途广泛,结论可靠,调查内容有一定深度,可以用来测试具有多维尺度的内容,是一种应用范围比较广的方法。学校里让学生对教师的教学效果进行评估所用的调查问卷,往往也包括一组采用里克特尺度度量的问题。
里克特尺度的不足是,没有给出关于主题接受范围的信息;当考虑多维的概念时,相同分数可能会由不同的观点组合产生的,即得分一样的结果,每道题的得分可能是不同或相反的(这不一定是一个缺点)。
里克特尺度的变通形式
里克特尺度有许多变通形式,如“语义差异法”,它的题目是由两个词义相反的词组成,然后由测试者给出自己的认同程度分。
使用里克特尺度有时会设置一些掩饰项目。项目的内容不一定要明显地与概念有关,掩饰项目的作用是掩饰研究者的目的。但掩饰项目有其缺点:一是寻找相关性好又没有明显联系的微妙项目比较难;二是对结果会有干扰。除非有必要掩饰目的,最好不要用掩饰项目。
语义差异度量
语义差异度量是里克特度量的一种变通形式,语义差异度量是通过对一个主题进行多角度回答来进行度量。
语义差异度量要求人们在两个反义词中做选择 ,然后运用统计技术包括因子分析进行打分。
对领导作风的语义差异度量举例
为了避免系统偏差,最好不把看上去接近的词放在一侧。
消费者对某超市态度的语义差异度量
语义差异度量很有实用价值,其最普遍的应用是建立直观的图形轮廓。
三维语义差异度量
语义差异判断也可以将一个概念分成三个维度。如,评价某一个人或组织的行为,可以用社会价值评价、力量强度、主动性等三个维度度量。X轴反映社会价值评价的好坏,Y轴反映力量的强弱,Z轴反映积极和被动。用一个三维图像来反映各个项目程度。
迦特曼(Guttman)尺度
迦特曼尺度又称累积度量。其特点是单调的,对调查对象的赞成与否是清楚的。与里克特尺度一样,迦特曼尺度也注重度量变量指标的强度。迦特曼尺度由一系列题目构成,每一题都有明确的文字说明,对每道题的内容受试者只能用“会”、“同意”或“不会”、“不同意”等来回答。迦特曼尺度是“累积”模式,每题具有一个尺度值(得分),题目之间具有高分题内容包含低分题内容的的关系,满足数值大的项目时,同时也满足小数值项目。
迦特曼尺度举例
比如数学能力测试中,可以设(1)加减法一题,(2)乘除法一题,(3)四则运算一题。这样受试者对每道题的回答结果只能是“会”或“不会”。而且会四则运算一般也会前两道题,这就是题目之间的包含关系。
迦特曼尺度要求题目的设置是一维尺度,也就是说题目的内容都是反映单一内涵,而不具有多层含义。
迦特曼尺度的优点
迦特曼尺度的优点是:测试结果具有单调性,对每一个测试项目的回答都反映了对所有项目回答的完整信息,知道一个人的测试得分情况,就可以推知该人对每一个问题的态度;
测试结果也是对题目设置是否符合一维性的复核。如果排除随机误差后,测试结果不具有包含性,则说明题目设置不是迦特曼尺度。
迦特曼尺度的缺点
只能对一维尺度问题进行测试,多维问题不适用;
对许多管理问题,设置迦特曼尺度较难把握问题的一维性;
简单的随机误差会破坏累积模式,使得确定是否是“真”变得困难;
受单调性特点的限制,如果某一人群态度模式不具备单调性质,或某一时刻是单调的,以后又不是单调的,测试就不具有有效性。
迦特曼尺度适用的答案模式
答案模式分为两种。反映了指标的趋强结构的答案模式称为“尺度型”答案模式未反映指标的趋强结构的答案模式称为“混合型”答案模式。迦特曼尺度适用于“尺度型”答案模式
“指标得分”与“尺度得分”
前例中对商学院教授理论倾向的度量,可以有两种评分方式。
一种方式是每个问题分数相等,对选择“理论型”答案的给1分,选择“实践型”答案的给0分。所有得分加起来为总得分,这里称“指标得分”;
另一种方式是按指标的趋强结构计分,在最强指标最佳教学身份上选择“理论型”答案的给3分,在次强指标业务兴趣上选择“理论型”答案的给2分,在最弱指标阅读兴趣上选择“理论型”答案的给1分,对各个问题的得分不相加,只计最高分,这里称“尺度得分”。
不同答案模式的指标得分和尺度得分
尺度型的答案模式指标得分和尺度得分一致,适合于采用迦特曼尺度。混合型的答案模式指标得分和尺度得分不完全一致,不适合于采用迦特曼尺度。
答案的再现系数
混合型答案是有偏差的答案,混合型答案的个数占答案总个数的比例反映了测度偏差的大小。
我们把尺度型的答案个数占答案总个数的比例称为再现系数,再现系数越高,度量的偏差越小。
瑟斯滕(Thur stone)尺度
与迦特曼尺度类似,瑟斯滕尺度的形式是:
给受试者提供与同一内容相关的一系列题目选项,每一题都有明确的文字说明,并且每一题都根据对有关事物所持倾向的程度不同,被赋予不同的得分值。
每道题目的得分都是经专家事先评估给定的。受试者选择其中与自己观点相近的几个题目选项,相应的也就有了几个得分值,把这几个分值平均后,最后就得出反映受试者观点的得分值。
瑟斯滕(Thur stone)尺度
与里克特尺度和迦特曼尺度不同的是:瑟斯滕尺度的测试项目不要求具有单调性,判断者只有当项目陈述近似于其观点时才同意,而在里克特尺度和迦特曼尺度的测试项目中,判断者的选项是连续变化的。
构建瑟斯滕尺度的过程
构建瑟斯滕尺度是一个复杂的多步过程:
首先要设计一系列代表不同观点的陈述,对这些陈述进行分类、赋值,第一类包括判断人认为最赞成的陈述,以此类推。含糊的、无关的陈述应舍弃。
然后将各类陈述打乱让被调查者选择,最后计算他们所同意的项目得分的平均值。
瑟斯滕尺度的基本形式
瑟斯滕尺度的基本形式是“间距相等”。反映变量把多项内容交给一组专家裁判,请他们评定每项内容适于做某变量指标的程度。
比如,将“员工士气”作为变量,分数从1到13,如果裁判认为某项内容很弱,则评1分,某项内容很强,则评13分,余类推。
所有裁判评定完之后,研究者要查看某项内容上所有裁判评分的一致程度。评分很不一致的内容应删去。
瑟斯滕尺度的优点和缺点
瑟斯滕尺度的优点是,尺度项目可以划分得较细;可以计算被调查者的接受程度;测试结果是对题目设置合理性的一种复核。
瑟斯滕尺度缺点是,尺度设置比较复杂和困难,剔除含糊的和无意义的题目需要花较多时间;题目设置及判断赋值受主观影响比较大,其结果的有效性不强。瑟斯滕尺度如今较少被采用,原因在于每位裁判评分的质量取决于其自身的经验与知识,而且变量的重要性也会随时间而改变。
几种典型度量尺度的基本差别
里克特尺度、迦特曼尺度和瑟斯滕尺度的基本差别在于关于人的观点和对个别项目给出的答案之间关系的假设不同。
瑟斯滕(Thurstone)尺度(也称差别度量)基于这样的假设:持有特定态度的人只同意所表达的观点与他们的自己的观点相近似的项目,只反对所表达的观点与他们的自己的观点不相一致的项目。
几种典型度量尺度的基本差别
迦特曼(Guttman)尺度(也称累积度量)包含这样的假设:持有特定观点的人将同意在某一维度与其观点同一方向的项目,反对与其观点不同方向的项目;
里克特(Likert)尺度(也称求和度量)基于这样的假设:同意每一个项目的概率的增加或减少,决定于对观点的个人态度。
四、概念度量的可靠性
可靠性是指在何种程度上度量避免了随机误差成分。随机误差小,可靠性就强,反之就差。
可靠性是有效性的必要非充分条件。可靠性与概念建构有效性之间,一般有下述四种关系: (1)有效的度量一定是可靠的度量。 (2)无效的度量可能可靠,也可能不可靠。 (3)可靠的度量,既可能有效,也可能无效。 (4)不可靠的度量一定是无效的。
度量可靠性与有效性的关系
精确和准确的关系
可靠并不意味着正确。可靠而不准确属于系统误差;准确而不可靠则属于随机误差。
不应混淆精确和准确这两个概念。精确程度反映度量的可靠性,而准确程度反映度量的有效性。精确和准确都是衡量度量成败的重要标准。
一般来说,精确的度量优于不精确的度量,然而精确并不一定总是必要的。精确度与准确性之间存在着某种程度的相克关系。概念的操作化应当对精确度作出规定。如果不能确定精确到什么程度合适,则尽量精确一些。
影响有效性与可靠性的因素
一旦大量的主观判断元素用于分析,系统误差和随机误差都会影响测量。
在度量过程中,常见的导致系统误差的因素有:
分布误差(distributional error)
光晕偏差(halo bias )
参照系偏差( reference frame bias )
自我中心效应(egoecentric error)
循序效应(sequential error)
评估者偏差( evaluator bias )
这些因素导致的系统误差会降低度量的有效性。
分布误差
分布误差可分为
仁慈误差(error of leniency)
严峻误差(error of severity)
中间倾向误差(error of central tendency)
光晕偏差和参照系偏差
光晕偏差
指的是评价者将对评价对象在某一特定维度的积极或消极的评价推广到到另一维度的评价中的倾向。
参照系偏差
指的是被调查者的主观印象与某个特定的度量值不能准确对应造成的偏差。被调查者用于分析判断的参照系会影响他所选择的度量值。在某些情况下,被调查者会将他人的判断作为参照系,倾向于迎合社会价值判断而规避极端的回答。
自我中心效应导致的偏差
自我中心效应
自我中心效应的产生源于评价者以自我知觉作为评价标准,可分为“对比效应”和“类比效应” 。
对比效应(contrast effect)
受自我知觉的影响,评价者将评价对象评得与自我知觉完全相反。
类比效应(similarity effect)
受自我知觉的影响,评价者将评价对象评得与自我知觉完全一致。
循序效应偏差和评价者偏差
循序效应
评价可能涉及若干层面,先做的评价影响后做的评价。评价者对评价对象的前一个层面评价较高,在后一个层面会故意压低评价。这常见于上司对部属的评价中。
评估者偏差
评价者在评价中受评价对象的身份及其它属性的影响,有意无意(通常是无意的)造成偏差。
导致随机误差的因素
随机误差降低度量的可靠性。在实际研究中有许多因素使度量不具有可重复性,这些因素的数量与种类取决于测试的性质及测试是如何进行的。
影响可靠性的因素可分为不同测试间的影响因素和一次测试内的影响因素。
根据不同测试的结果判断可靠性
可靠性评价所关心的随机错误成分不是一成不变的,不同情形下会有所不同。这样,在不同情况下的度量结果的相关性(重复测试相关性)就为评价可靠性提供了基础。
可靠性与多次度量结果的稳定性有关,如果多次度量所得结果相同或相近,则说明度量结果受随机误差的影响较小,可靠性好,反之则差。
根据重复进行的度量之间的关系,可靠性又可分为反复测试可靠性(Test-Retest Reliability)和平行测试可靠性(Parallel-Form Reliability)。
根据一次测试的结果判断可靠性
随机误差成分不仅随时间变化,而且在同一次测试过程中在不同的问题或测试项目之间也会变化。测试内影响因素就是指在一次测试中,在测试的不同问题或项目之间发生的随机干扰。
这类干扰主要是通过评价项目间的内部一致性而加以评定的。运用内部一致性的原理,我们可以通过检查不同题目的测试结果是否一致,从而据此判断随机误差的影响程度,并评估测试结果的可靠性。
评价测试结果可靠性的假设
采用这种方法评价可靠性的关键假设是在没有随机误差发生的情况下,所有的度量项目(items)所度量的都是同一个基本属性(trait),具体项目之间的度量差异就可以作为评价随机误差影响的基础。
如果随机误差对度量影响很大,在个别项目上的得分就会有高有低,从而降低了项目之间的相关性。与此相应,如果随机误差很小,则意味着每个项目度量的是同一个属性,从而在一个项目上得分高,在另一个项目上得分也会高,即项目间相关程度高。
五、度量可靠性评价
度量可靠性的评价分为
1.与度量稳定性有关的可靠性评定
(1)反复测试可靠性
(Test-Retest Reliability)
(2)平行测试可靠性
(Parallel-Form Reliability)
2.基于度量的内部一致性的可靠性评定
反复测试可靠性
在两次不同的时间,对完全相同的测试对象进行完全相同的度量。两次度量结果之间的相关程度可以解释为度量随时间变化的稳定性。
由于受试对象是人,两次测试的时间间隔应足够长,否则受试人对上次测试的记忆会影响第二次测试的回答,使两次测试获得不真实的高相关性。
两次测试的时间间隔也应足够近,否则待测的属性可能在这期间受某些影响而发生变化,这样两次测试的真实值可能变化。实际研究中这一时间间隔通常取两个星期。
平行测试可靠性
这种方法与反复测试方法的差别在于两次测试具有可比的高度相似性而不是完全相同。
通常两次测试有相似的项目和同样的回答方式,而只是在措词和项目顺序等方面有差别,如果两次度量结果间显示出高相关性,就可以排除由于措词、问题顺序以及其他因素导致的随机干扰。
基于内部一致性的可靠性评定
度量项目间缺乏内部一致性的原因来自两方面:
一是项目间本身缺乏公共核,这是表面有效性和内容有效性的问题;
二是度量过程中不同项目间受到随机因素干扰,引起度量结果不可靠。
假设没有随机误差发生,所有的度量项目(items)所度量的都是同一个基本属性,因此,具体项目之间的差异可以作为评价随机误差影响的基础。
二分法(Split-Half Reliability)
二分法是将一次度量中的项目分为两部分,以这两部分度量结果的相关程度作为评价可靠性的基础。
二分法存在的问题是,评价的准确与否依赖于项目如何划分。这一因素一定程度上把不希望有的主观性引入了可靠性的评价过程。
若有2n个度量项目,可能的划分方式有
种,对于有10个项目的量表就有126种项目分半划分的可能,选择项目划分方式会引入主观性。
α参数法(Cronbach α)
α参数法是对每一个项目与其他所有项目作相关度计算,从而避免了在二分法中把项目分为两半所引入的主观性。
一般认为,α参数法优于二分法。事实上,α在数量上与所有可能的二分法测得的可靠性平均值相等。
α的取值从0到1,取值为0表示完全不可靠,取值为1表示完全可靠。
α参数法(Cronbach α)
α的计算公式如下:
其中: k = 量表中项目的个数;
项目 i 的方差;
量表的总方差。
α参数法(Cronbach α)
对于项目值域只有两个值的情况,公式为:
其中: k = 量表中项目的个数; p = 第一种类型回答的比例; q = 第二种类型回答的比例;
量表的总方差。
α参数法示例
用α参数法可以衡量度量的内部一致性,在具有较高α参数的情况下,可以同时得到满意的内容有效性和可靠性。
我们设想用一个量表对实行CIMS工程可能带来目标效益的概率进行评估。量表由6个项目组成,分别是财务收益提高,市场应变能力增强,企业信誉提高,管理水平提高,技术能力提高,对外合作能力增强。每个项目的得分从1分(不可能)到7分(可能)。用这个量表对不同的专家和技术、管理人员进行测试。下表是测试结果的协方差矩阵。
测试结果的协方差矩阵
* 带下划线的值是项目方差
α参数法示例
因为量表的总方差
因此,
α参数法示例
首先计算各项目方差(对角线元素)和:
= (+++++)=
再计算对角线下方元素即协方差和:
=2(++++++
++++++++) =
于是得:
证明度量具有较高的可靠性。
六、提高可靠性的方法
度量误差的一个基本来源就是有关项目域的抽样不充分,即缺乏内容有效性。因为单个项目不可能提供对概念的完美代表,每个项目除了与概念有关的属性外还含有一定与概念无关的属性。
所有项目与概念有关的部分称为公共核。如果度量中使用的所有项目都来自同一个概念域,则对这些项目的回答应该高度相关。反之,项目间相关性较低说明某些项目不是来自正确的概念域,因而产生了误差。
提高可靠性的方法
α参数是测量项目间内部一致性的有效工具, α参数较低表明项目样本与概念域缺乏吻合,这时需要剔除那些与多数项目相关性较小的个别项目。
如果概念有多维,α参数要在每一维内分别计算,并在每一维内去除不符合概念域的项目。
用因子分析(Factor Analysis)的方法可以检验概念的维度。如果α参数足够大并且因子分析发现的维度与概念域中描述的一致,就可以得到一个令人满意的度量设计。否则,需要返回前面的步骤继续改进度量设计。
提高可靠性的方法
提高可靠性的方法主要有:
(1)增加测试长度,即增加度量项目的个数。
在其他条件(特别是项目质量)一样的情况下,测试长度越长就越可靠。
研究者可用同样或略有差异的提法将一个问题反复多问几次。例如,可提出10个问题,如果人们对其中一个问题的回答与对其他9个问题的回答大相径庭,就应将这一问题删去。
提高可靠性的方法
(2)被测因素在受试对象中的差异越大,测试越可靠。
与被测属性方面差异小的受试对象相比,对被测属性方面差异大的受试对象进行测试,更易做出可靠的度量;
提高可靠性的方法
(3)通过提供准确的讲解和适宜的测试环境,来减小受试者犯随机错误的可能性,从而提高度量的可靠性。
在调查中提出问题时要注意只问那些被调查者可能知道答案的问题。
对可靠性的最大威胁在于人们会对本来一无所知或一知半解的问题所给出一个确定的回答。而现实中出于“面子”的考虑或其它原因,这种不懂装懂的现象是常见的。
可靠性的标准
可靠性作为有效性的必要非充分条件,不仅会影响到概念建构有效性,而且会对变量间相关关系以至因果关系的推断产生影响。在度量缺乏可靠性的情况下,度量两个本应相关的变量由于存在较大的随机误差,会使变量间的相关关系看起来缺乏显著性。因此可靠性作为度量质量的标准,必须首先得到保证。那么度量应该达到什么样的可靠性标准呢?
可靠性的标准
满意的可靠性等级根据度量在研究中如何应用而有所不同。
在研究的早期阶段,如在对变量相关关系进行探索性研究的阶段,或在筛选度量概念的变量时,可靠性达到或略高就可满足要求。适度的可靠性可以节省时间和精力。
如果发现了显著的相关性,可以估算当度量可靠性增加时,相关性的增加幅度。如果修正后的相关性令人满意,就值得花时间和精力来增加度量项目并用其他方法减少度量误差。
基础研究可靠性的标准
对于基础研究,有证据表明把可靠性增加至以上常常是对时间、资金的浪费。可靠性达到了那样的等级后,相关性因度量误差减小而增加的幅度很小。要想得到更高的可靠性,要求花费大量努力来增加度量项目的个数。这样,更可靠的测试在概念建构、操作化和评分时都可能非常费时。
应用研究可靠性的标准
与基础研究不同,的可靠性在许多应用研究中远远不能达到要求。
在基础研究中,主要关心的是相关程度高低,为了这个目的,度量可靠性标准定在是适宜的。
在许多应用研究中,测试中一个受试对象的得分可能会有很大意义。在那些意义重大的应用研究中,可靠性至少要达到,而的可靠性可能是更适宜的标准。
本章结语
总之,可靠性影响度量的有效性及对变量间关系的推断,在进一步深入研究之前,必须首先进行可靠性评价,以达到令人满意的可靠性标准。
最普遍应用,也是比较成熟的测试可靠性的方法是基于度量的内部一致性评价的α参数法。
中医的把脉诊病之所以难以被西方现代医学所接受,原因之一就是这种方法在西方人看来是神秘而复杂的,其他人不能重复采用这种方法验证其结论。西医用的体温计大家都会读,别人可以很容易地重复进行精确测度,有一定的客观性。然而,这种精确的测度同样有问题。问题在于体温计读数到底代表了什么,它是否真的能度量一个人的健康状况。体温计能反映体温高低,体温高意味着发烧,但人的体温在一天的不同时间是变化的,况且,许多疾病是不发烧的,如心脏病、糖尿病、关节炎等。所以,仅靠体温计的读数并不能精确反映人的健康状况。
在访谈调查中,调查者本人的容貌,调查双方的相互作用等会影响调查结果。在问卷调查中,人们对关键词的不同理解,个人或社会阶层在使用语言方面的差别,语汇理解力等也会影响调查结果。
例如,可以构造若干问题询问有关人员对实行CIMS技术所带来的企业竞争力变化的回答,并把对这些问题的回答汇总作为对企业竞争力变化度量的变量的值,其中的每一问题都称为项目(item)。
如要评估一个人的“个人能力”,就要对该人在工作中,在家中,在邻里中以及在公共传媒中的影响力等几个方面依据一定的标准进行评价或打分。
在对商学院进行教授调查的例子中,如果不做加权处理,对每个问题选择理论型的可以给1分,选择实践型的给0分。这样每个受试者可能得到的分数为0分、1分、2分、3分。
假定指标总分为6分,某研究对象只回答了4个问题。如果他对4个问题的回答得了4分(满分),可以给他6分(满分);如果他对4个问题的回答仅得了2分(满分的一半),则可以给他3分(满分的一半)。
例如,我们要测度工人的“劳动积极性”,对这一概念可以用许多指标和测量方法来测度,一种方法是统计工人到工会发牢骚的次数,把“工人到工会发牢骚的次数”作为衡量工人劳动积极性的一个指标,从度量的“表面有效性” (度量指标与人们对某一概念的想象相符的程度)来看,至少人们会认为发牢骚次数与劳动积极性有关。另一种度量方法是通过在生产线上作直接观察或与工人交谈了解工人的劳动积极性。显然,统计工人到工会发牢骚的次数可以做到很精确,使度量具有很高的可靠性,而到现场观察与访谈获取的信息往往是定性的,但对于工人劳动积极性的研究会更具准确性。 科学要求可靠的度量,但可靠的度量却往往破坏了某一概念含义的丰富性。如劳动积极性的高低是远远不能由去工会发牢骚的次数多少这一点来表达的。这是科学研究中不可避免的两难处境,应当对这一点作充分的思想准备。假如人们尚未对如何度量某一概念取得一致意见,就采用几种不同的方法来度量它。假如某一概念可以用几种不同的尺度来度量,就把每种尺度都试用一下。