第 5 章 制定营销测量方案
学习目标
理解测量的基本概念
了解测量的各种尺度及其应用
掌握营销调研常用量表
掌握信度与效度之间的关系
引例
“世界新七大奇迹”评选结果将于 2007 年 7 月 7 日在葡萄牙首都里斯本正式公布。对于这一
由全世界网民“海选”产生“世界新七大奇迹”的做法,不少人士提出了批评意见。有人认为,
这种将文化遗产娱乐化的做法,权威性和可信度值得怀疑;还有人表示,主办方多方推销广
告和纪念品,有借评选“圈钱”之嫌。
争议一:评选的权威性
20 世纪末,加拿大商人贝尔纳·韦伯提出重新确定世界七大奇迹的想法,并通过一个名
叫“新开放世界公司”的机构进行操作。1999 年,他与一些专家学者提出了 200 个候选名单,
后来将名单缩减到 21 个,全世界的选民可以通过互联网或电话方式投票,从中选出新的七
大奇迹。
但这场评选的权威性和是否存在商业炒作成为外界争论的焦点。埃及最高文物委员会主
席扎西· 哈瓦斯曾指出,世界奇迹的评选是个专业技术工作,应当由联合国教科文组织发起,
由各界专家考察后评判,这样才能保证其严肃性和可信度。还有人指出,候选遗产和选民来
自世界不同国家,选民在投票时容易受情感因素影响而把票投给本国景观,这样评选就难免
沦为国家间“自立山头式”的拉票大战,其结果也就无法客观体现遗产的真正历史文化价值。
对此,主办方认为,世界奇迹是文化遗产,文化是属于各国人民的,各国人民当然有
权利通过投票方式进行评选。“每个人都可以评选他们心中的奇迹,难道他们没有这样的权
利?”
争议二:主办方圈钱
是否借此“圈钱”是“新七大奇迹”评选的第二个争议焦点。记者注意到,登录“新七大奇
迹”网站投票是免费的,但只能投一次票。而如果通过购买纪念证书的方式评选,则可以多
次投票,每个纪念证书售价 2 美元。此外,“新七大奇迹”网站还在线销售各种徽章和纪念品,
推销去这些地方的旅游团,销售揭晓仪式门票和电视转播权等。难怪墨西哥《改革报》评论
说,“这是一种颇为新颖的生财之道”。
对此主办方表示,他们已为整个评选活动投入超过 1000 万欧元。而在收入部分,其中
一半用于日常的行政开销,另一半将不纳入私人收入,而用于“新七大奇迹”的文化宣传和保
护工作。
这是一个当前常见的各种排名的例子之一,各方争议的焦点主要集中在其测量方法的有
效性。这正是本章要讨论的问题。
案例来源:涂平 营销研究方法与应用 2008 年 北京大学出版社
———————————————————————————————————————
第1节 测量的基本概念
测量是指调研者根据特定的规则对研究对象的某些特征分派数字或其它符号的过程。需
要注意的是,所测量的不是物体本身,而是它的某些特征。例如,不能测量桌子,只能测量
它的宽度、高度、重量、颜色或其它的相关特征。另外,科学的测量不是随意地将数字或其
它符号分派给研究对象,而是按照特定的规则进行的。
测量的过程是一个从抽象到具体的过程。测量的基本步骤有四步,一是概念操作化;二
是分派指标;三是实施测量;四是信度与效度的评估。
一、概念操作化
概念操作化也叫概念化,是将数字或符号所指代的内涵,用可测量的事实或行为表达出
来,对某一概念达成共识的过程。概念操作化的实质是将抽象的概念回归到经验事实与现象。
对于具体的属性,例如高度,通常都有比较清晰的共识;对于一些抽象的概念,例如产品质
量,却可能存在多种理解。有人认为质量好就是指做工精细;有人认为就是指服务态度好;
有人认为就是指价格昂贵;有人认为就是指品牌好,等等。因此,在进行测量之前,一定要
清楚测量什么,要在对概念的内涵达成共识的基础上,确定概念包括哪几个主要方面(也称
维度)。
———————————————————————————————————————
【例 5-1】“消费行为”的概念操作化
(1)对概念进行界定
“消费行为”指消费者对产品的购买和使用,以及对产品的处置(如对喝完的奶茶包装的
处理、对未喝完的饮料进行储存)
(2)确定维度
根据需要,选择三个维度:消费观念、对品牌的忠诚度、购买和使用行为
(3)确定最终测定问题
在每个维度上确定要测定的问题,其表现为多个问题形式。也就是说,确定在“消费观
念”方面应当提哪些问题,在“对品牌的忠诚度”方面应当提哪些问题,在“行为”方面应当提
哪些问题。
在“消费观念”维度上提以下几个问题:对产品的感觉,是否购买品牌产品,购买该产
品的预期支出。
在“对品牌的忠诚度”维度上提以下几个问题:对该品牌的特定偏好,对该品牌的重复
购买,品牌转换的情况
在“购买和使用行为”维度上就提以下几个问题:购买次数、消费量、消费场所、购买
地点、消费情景、重复购买的次数。
资料来源:作者根据相关资料整理
二、分派指标
给指标分派数字或者其它符号就是确定测量规则的过程。对于许多抽象的概念,例如某
品牌的知名度,消费者的态度,产品质量是无法直接观察测量的,因此要用一系列可以测量
的指标来反映。例如,在市场调研中,对于测量某品牌的知名度,我们可以用“消费者中知
道该品牌的人数百分比”进行测量。
———————————————————————————————————————
【例 5-2】分派“消费量”和“购买量”的测量指标
平时,你平均每天大概喝几瓶饮料?(单选)
1、 不喝 2、一瓶 3、两瓶 4、三瓶 5、三瓶以上
在当地,如果购买饮料,你会选择去哪里购买?
1、 大型商场 2、连锁超市 3、小商店 4、报刊亭 5、其它地方
资料来源:作者根据相关资料整理
———————————————————————————————————————
三、实施测量
实施测量是指按照已确定的规则,对测量对象进行测量,收集信息,并用数字或符号记
录测量结果的过程。 例如,顾客对产品的评价信息通过口头报告收集;而购买行为通过口
头报告和日志记录来收集信息。
四、信度与效度的评估
信度与效度的评估是对测量结果的精确度和准确度的评估,旨在保证测量结果能很好地
反映所测属性的真实值。
第2节 测量的基本尺度
测量尺度也称测量的等级或测量的层次。指的是赋予测量对象的数字和其它符号的含
义及其所允许的数学运算,可分为定类、定序、定距和定比四种主要测量尺度。
一、定类尺度
定类尺度是各类测量尺度中最低的一种,在本质上是一种分类体系。即将测量对象的
不同属性或特征加以区分,标以不同的数字或符号。在市场调查中,对诸如消费者的性别、
职业、婚姻状况、宗教信仰等特征的测量,都是常见的定类尺度的测量。它们分别将消费者
分成“男性与女性”,“干部,教师,白领,商人,专业技术人员……”或者“未婚者,已婚者,
离婚者……”“佛教,伊斯兰教,耶稣教……不信教”等各种不同的群体或类别,而每一个消
费者则分别属于或者不属于其中某个类别。
定类尺度的测量实质是一种分类体系,设计这类尺度时应注意其互斥性、穷尽性和完
备性。即所分的类别既要相互排斥,互不重叠,又要对各种可能的情况包罗无遗。这样,我
们所测量的每一个调查对象都会在我们的分类体系中占据并且只占据一个类别。例如将性别
分成“男性”和“女性”两类。
定类尺度是市场调研中使用率最高的,也是四种测量尺度中测量等级最低的,其他三
类尺度中,无一例外的包含着定类尺度的分类功能。
二、定序尺度
定序尺度也称等级尺度或排序尺度,其数字和符号不仅代表类别,而且还反映事物或
现象的高低、大小和先后顺序的差异。定序尺度能够表示一个调研对象具有的某种特征是否
比另一个调研对象更多还是更少,但没有表明相差多少。排在前面的调研对象与后面的相比
有更多的某种特性,但是到底相差多少是未知的。在营销研究中,调研人员可以用定序尺度
对相对的态度、观点、感受和偏好进行等级排列。
必须注意的是这一尺度上的间距不能准确代表其测量的特征量的相差多少。因此,对
于定序变量,除了计数操作外还可以计算其众数、百分位数、中位数,但不能计算均值和方
差,也不能进行加、减、乘、除等运算。
三、定距尺度
定距尺度也称为等距尺度或区间尺度。定距尺度除了包含定序尺度的所有信息外,还
能够确定不同等级的间隔距离和数量差别。日常生活中常见的例子有温度、成绩等。营销调
研中用评价量表获得的分值通常被看做是定距数据。
定距尺度的零点以及测量的单位都是人为设定的。因为没有自然零点,例如在冬天,
我们可以测得北京的气温是 0℃,但这并不代表北京“没有温度”,而只是代表北京的气温达
到了水的“结冰点的温度”。从测量的角度看,此时的“0”只不过是一个特定的数字而已,它
是人为决定的。变量可以进行加减运算,但乘除却没有意义。对于定距变量,除了计算其众
数、中位数、均数外,还可以计算算术平均值、标准差、简单相关系数等营销研究中常用的
统计量。那些可用于定类和定序数据的统计分析方法也可以用于定距数据。
在实际调研中,有时定序和定距尺度的区分并不是绝对的。一个定序变量可以传达部
分有关距离的信息,因此有时在统计分析时,可能会把它近似地看成定距变量对待。
四、定比尺度
定比尺度也称为等比尺度或比例尺度。不仅具备前面三种尺度的所有功能,而且还有自
然零点,因此可以进行加减乘除运算。如对人们的收入、年龄、出生率、性别比等所进行的
测量都是定比尺度的测量。对于定比变量,计算比值是有意义的。身高体重、年龄、销售额、
购买频率等都是以定比尺度测量的变量。不过,在态度、观点、感受和偏好等方面的测量,
定比尺度就非常困难。除了前面提到的统计方法以外,还可以计算定比变量的几何均值、调
和平均值和变异系数等。
测量水平 量表描述 涉及的典型变量 描述性统计
定类 用数字识别对象类别,判断
属于/不属于
归类,如男性/女性、
用户/非用户
频数、百分比/众数、中
位数
定序 除识别外,数字还用于确定
顺序,判断更大/更小
排序,如对酒店或银
行的偏好、对食品口
味打分
均值/中位数、方差矩阵
定距 除类别和顺序外,数字还用
于判断距离,判断间距的相
等性
复杂构架的偏好,如
温度、有关品牌的认
知水平
均值/全距、方差
定比 综合上面三种特性,再加上
绝对零点,判断比例的相等
性
可获得精确测量时,
如销售数额、年龄、
收入
几何平均数、调和平均
数
表 5-1 四种测量尺度的比较
———————————————————————————————————————
【例 5-3】 对洗发水的偏好
表中以某个消费者对洗发水品牌的偏好和购买为例,给出了各种测量尺度的虚拟例子。
表中第 2 列的编号属定类变量,用来识别不同的品牌(例如 1 代表力士洗发水,3 代表海飞
丝洗发水,6 代表舒蕾洗发水),数字的大小并不代表洗发水的优劣;偏好排序(表中第 3
列)是定序变量,表示调查对象对不同品牌的偏好顺序,其中潘婷是最受欢迎的品牌,其次
是力士,对清扬的偏好排在最后;第 4 列的偏好等级用的是定距尺度,其中偏好排序列前两
位的品牌的得分相同,都是 7 分,而排最后的品牌最低,只有 3 分,表明对力士和潘婷的偏
好程度其实相差很小;最后一列的购买量是定比变量,从中可以看出潘婷的购买量最大,约
为力士的 倍,飘柔的 5 倍。
主要测量尺度的例子(虚拟数据)
名牌名称 定类尺度编号 定序尺度偏好排
序
定距尺度偏好等
级(1-7)
定比尺度购买量
(支)
力士 1 2 7 3
潘婷 2 1 7 5
海飞丝 3 4 4 0
飘柔 4 3 6 1
清扬 5 6 3 0
舒蕾 6 5 4 0
资料来源:作者根据相关资料整理
———————————————————————————————————————
第三节 营销调研常用量表
量表是一个纽带,它连接着研究目标与被研究者。调研的目的必须转化为具体的问题和
测量指标才能从被访者那里搜集到所需的数据和信息。量表在营销调研中起着重要的作用。
如果量表设计的不合理,那么精心编制的抽样计划、训练有素的访问人员、科学的数据分析
技术都将徒然无用。不恰当的设计必将导致信息收集的不完整和数据的不准确,最终导致资
源的浪费。
一、量表的定义和特征
量表是一种测量工具,它是用来对主观的或抽象的概念进行定量化测量的程序,对事物
的特征变量根据特定的规则分派数字或符号,因此形成了不同测量水平的测量量表,又称为
测量尺度。量表相当于一把“尺子”,用于精确度量一个较抽象的或综合性较强的概念,特别
是态度和观念(如生育态度、种族偏见、政治倾向)的不同程度和差异。
量表的基本特征是描述性、比较性、程度和起点。其中,描述性是指用某一特定
的词或标识来代表划分的每个等级;比较性指的是描述的相对规模;当比较了所有的
不同点并且分级表示以后,量表还有另外的特征——程度;如果某个量表有一特定的
起点或零点,那么我们就说它有起点这个特性。量表的每个特征都是建立在前一个特
征上的,如果一个量表有高一级的特性,那么它一定有低一级的特性;反之则不成立。
量表比单一指标或单项问题的测量能获得更多、更真实、更准确的信息,能通过间接的、定
量的方式衡量那些能够直接观察和度量的社会现象。
二、量表的常用形式
营销调研中常见的量表形式可以从比较量表和非比较量表来分类。如图 5-其中常用的
比较量表有配对比较量表、等级顺序量表、常量和量表。常用的非比较量表有李克特量表、
语义差异量表和沙氏通量表。量表分类如图 5-1
图 5-1 量表分类图
(一)李克特量表(总加量表 )
李克特量表是由伦斯·李克特根据一般量表方法发展而来的,该量表后来又被许多调研
组采用并进行改动。李克特量表是社会研究中用得最多的一种量表形式。李克特量表要求被
调查者对有关研究对象的每一个陈述语句表示同意或不同意的反应态度。一般每个量表项目
有 5 个反映类别,从强烈反对到强烈赞成,数值可以是-2—2,或者是 1—5。分析可以逐项
进行,或者通过对项目求和计算每个调查对象的总评分。
1.李克特量表的特征:
(1)由一套态度项目构成,假设每一项目具有同等的态度数值,根据受试者反应同意与
不同意的程度给予分数,所有项目分数的总合即为个人的态度分数,这个分数的高低即代表
个人在量表上或连续函数上的位置,表示同意或不同意的程度。
(2)因素量表可含不同构面,为多元量表,李克特也属于因素量表之一。
2.李克特量表的制作过程:
(1)收集 50~100 与测量主题有关的陈述语句,各种陈述和说法应当比较分散,以覆盖
所研究问题的一个足够宽的范围。
(2)对每个陈述语句,设定项目选项,对每个选项赋予一个分值。有些说法是正向表述
的,有些是负向的。在计算累加的态度总分时,需要对负向说法的得分作逆向处理。
(3)选择部分(20 人以上)受测者对全部项目进行预测试,根据受测者的各个项目的
分数计算代数和,得到个人态度总得分,并依据总分高低将受测者排序。
(4)将调查中得分最高的 25%的人与得分最低的 25%的人进行比较,然后计算出每道
题的分辨系数。分辨力系数是绝对数。
分辨力系数=℃(得分最高的 25%的人在这一问题上的平均分-得分最低的 25%的人这
一问题上的平均分)/总分均值℃
(5)根据试调查的数据进行量表的信度和效度分析。根据分析的结果,去除影响信度
配对比较 等级顺序 常量和 连续评分列表
语义差异 沙氏通
量表
非比较量表比较量表
分项评分量表
李克特
和效度的陈述或说法,从而得到有较高信度和效度的李克特量表
———————————————————————————————————————
【例 5-4】关于工作倦怠感的李克特量表
从
未
如
此
很
少
如
此
有
时
如
此
经
常
如
此
总
是
如
此
1、对工作感觉到有挫折感…………………………………… 1 2 3 4 5
2、觉得自己不被了解………………………………………… 1 2 3 4 5
3、我的工作让我情绪疲惫…………………………………… 1 2 3 4 5
4、我觉得我过度努力工作…………………………………… 1 2 3 4 5
5、面对工作时,有力不从心的感觉………………………… 1 2 3 4 5
6、工作时感到心灰意冷………………………………………… 1 2 3 4 5
7、觉得自己推行工作的方式不适当………………………… 1 2 3 4 5
8、想暂时休息一阵子或另调其他职务………………………… 1 2 3 4 5
9、只要努力就能得到好的结果……………………………… 1 2 3 4 5
10、我能肯定这份工作的价值……………………………… 1 22 3 4 5
11、认为这是一份相当有意义的工作………………………… 1 2 3 4 5
12、我可以由工作中获得心理上的满足…………………… 1 2 3 4 5
13、我有自己的工作目标和理想……………………………… 1 2 3 4 5
14、我在工作时精力充沛…………………………………… 1 2 3 4 5
15、我乐于学习工作上的新知……………………………… 1 2 3 4 5
16、我能够冷静的处理情绪上的问题………………………… 1 2 3 4 5
17、从事这份工作后,我觉得对人变得更冷淡……………… 1 2 3 4 5
18、对某些同事所发生的事我并不关心…………………… 1 2 3 4 5
19、同事将他们遭遇到的问题归咎于我…………………… 1 2 3 4 5
20、我担心这份工作会使我逐渐失去耐性…………………… 1 2 3 4 5
21、面对民众时,会带给我很大的压力………………………… 1 2 3 4 5
22、常盼望有假期,可以不用上班……………………………… 1 2 3 4 5
资料来源:作者根据相关资料整理
———————————————————————————————————————
【例 5-5】对民生商店评价的李克特量表
请根据下面提示表达你对每种观点同意或反对的态度。
提示:1=完全不同意 2=不同意 3=有些不同意 4=中立 5=有些同意
6=同意 7=完全同意
完 全
不 同
同意
不 同
意
有 些
不 同
意
中立 有 些
同意
同意 完 全
同意
1.民生商店的商品品质高
2.民生商店服务很差
3.我喜欢在民生商店购物
4.我不喜欢民生商店的广告
5.民生商店的商品花样多
6.民生商店的商品价格公道
资料来源:作者根据相关资料整理
(二)语义差异量表
语义差异量表又叫语义分化量表,这是美国心理学家(奥斯古德、萨奇、泰尼
邦 Osgood,Suci,Tannenbaum,1957)发展的一种态度测量技术。20 世纪 50 年代
后发展起来。是一次性集中测量被测者所理解的某个单词或概念含义的测量手段。针
对这样的词或概念设计出一系列双向形容词量表,请被测者根据对词或概念的感受和
理解,在量表上选定相应的位置。
语意差异量表是由两个意义对立的形容词构成一组双极标度,以评价产品、品牌、
企业或观念等。在意义对立的两个形容词中间,又分为不同级别,一般有五级、七级、
九级或十一级等。
1.语义量表的使用方法
℃确定每一片断的维度供受访者判断。
℃界定两个相反的术语代表每一维度的两极。(为防止回答偏差,最好将彼此有
关系的项目位置加以变化。)
℃做出语义差异的计分表。 可以对语义差别量表中的不同项目根据受访者的回
答进行打分。结果数据可用来分析不同测量对象、不同受访者的相同点和不同点。还
可将各项目的得分加总,用以比较不同测量对象整体形象的偏好等级。
通过语义差异量表,我们可以对相互比较的两组或者多组品牌或者研究对象作出比较。
因为在受访者的心目中,不同比较对象的差异程度以通过连点画线和计算的方式表现
出来。
2.语意差别量表的分析方法
(1)总分分析法
总分析法是对各评价等级赋值,然后把每一个被调查者所选择的评价分数加总,
其总分就是该被调查者对调查事物的总体评价。
(2)图上分析法
图上分析法是在对各评价等级赋值后,把所有被调查者对每一对评价项目的打分
加总,然后计算平均值,并把各评价项目的平均值用折线连接起来,根据图中折线对
调查事物进行分析。
———————————————————————————————————————
【例 5-5】图上分析法分析消费者对某超市的评价
+3 + 2 +1 0 -1 -2 -3
态度热情 — — — — — — — 态度冷淡
价格便宜 — — — — — — — 价格昂贵
环境清洁 — — — — — — — 环境肮脏
光线明亮 — — — — — — — 光线灰暗
商品新颖 — — — — — — — 陈旧商品
资料来源:作者根据相关资料整理
———————————————————————————————————————
【例 5-6】 用语义差异量表请消费者对某个品牌饮料的进行评价:
请你从以下几个方面对饮料进行评价,在最能表明您的评价的位置上做上标记
1 2 3 4 5 6 7
品牌名气大+-------+-------+-------+-------+-------+-------+名气小
品质好 +-------+-------+-------+---- ---+-------+-------+品质差
档次高 +-------+-------+-------+-------+-------+-------+档次低
包装精美 +-------+-------+-------+-------+-------+-------+包装部精美
品味好 +-------+-------+-------+-------+-------+-------+品位差
包装时尚 +-------+-------+-------+-------+-------+-------+包装无时尚感
广告动人 +-------+-------+-------+-------+-------+-------+广告不动人
促销吸引人+-------+-------+-------+-------+-------+-------+促销不吸引人
资料来源:作者根据相关资料整理
———————————————————————————————————————
(三)沙氏通量表
沙氏通量表通过应答者在若干(一般 9—15 条)与态度相关的语句中选择是否同意的方
式,获得应答者关于主题的看法。 每条语句根据其类别都有一个分值,要求受测者指出他
同意的陈述,根据受测者所同意的陈述或意见的分值,通过分值平均数求得受测者的态度分
数。分数越高,说明受测者对某一问题持有的态度越有利;分数越低,说明持有的态度越不
利
1.沙氏通量表的制作
℃由调查者提出若干个表述;
℃将这些表述提供给一组评判人员,通常在 20-50 人左右,要求他们将这些表述划分为
若干组(一般为 7、9、11 组)
℃根据评定人员所确定的各组语句的次数,删除次数分配过于分散的语句,计算各保留
语句的中位数,并按中位数进行归类。
℃每个类别中选出一、二条代表语句,将这些语句混合排列,即得到一个沙氏通量表
———————————————————————————————————————
【例 5-7】 电视商业广告态度测量的沙氏通量表:
(1) 所有的电视商业广告都应该由法律禁止
(2) 看电视广告完全是浪费时间
(3) 大部分电视商业广告是非常差的
(4) 电视商业广告是非常差的
(5) 电视商业广告并不过分干扰欣赏电视节目
(6) 对大多数电视商业广告我无所谓好恶
(7) 我有时喜欢看电视商业广告
(8) 大多数电视商业广告是挺有趣的
(9) 只要有可能,我愿意电视上看过广告的商品
(10) 大多数商业广告能帮助人们选择更好的商品
(11) 电视商业广告比一般电视节目更有趣
资料来源:作者根据相关资料整理
(四)连续评分量表
连续评分量表也称作图示评分量表,是要求被调查者在一条直线上的适当位置作出
标记为研究对象打分,这条直线从一个极端到另一个极端。评分分数可以是数字的或文
字描述的。
———————————————————————————————————————
【例 5-8】 用连续评分列表对百货公司进行评价
℃请你为民生百货公司的服务态度打分。
态度很差-------------------------------------态度很好
℃请你为民生百货公司的商店环境打分。
环境很差-------------------------------------环境很好
0 10 20 30 40 50 60 70 80 90 100
℃请你为民生百货公司的商场布置打分。
布置很零乱---------------------------------布置有特色
很差 一般 很好
资料来源:作者根据相关资料整理
———————————————————————————————————————
(五)配对比较量表
在配对比较量表中,受测者被要求对一系列对象两两进行比较,在两个被比较中的
对象中做出选择 。“1”表示受测者认为这一项目更重要,“0”表示认为另一个项目更重要。
将各行取值进行加总,得到比较得分。被测量的对象的个数不宜太多,以免使受测者产
生厌烦而影响应答的质量。
配对比较方法克服了等级排序量表存在的缺点。首先,对受测者来说,从一对对象
中选出一个肯定比从一大组对象中选出一个更容易;其次,配对比较也可以避免等级量
表的顺序误差。但是,因为一般要对所有的配对进行比较,所以对于有 n 个对象的情况,
要进行 n(n-1)/2 次配对比较。因此,被测量的对象的个数不宜太多,以免使受测者产生
厌烦而影响应答的质量。
例如,某电脑经销商非常想了解几种电脑品牌在消费者心目中的地位,就可以采用
配对比较量表。如果将 A 品牌和 B,C,D 另外三种品牌的电脑进行比较,即可将 A 品
牌与其余三种品牌组合成 6 对,要求受访人员成对比较
并指出哪一种品牌较好。假设在本次调查中选用的样本量为 100,如果 A 与 B 的比较回
答中回答 A 佳,则在 A 较 B 佳栏目下记录一人,如果共有 20 人这样认为,则频数为
20。
全部 6 对电脑品牌比较后所得的结果见表 5-4
———————————————————————————————————————
【例 5-9】 认为 i 品牌较 j 品牌为佳的人数分布
i
j
A B C D
A ---- 80 70 40
B 20 ---- 30 15
C 30 70 ---- 35
D 60 85 65 ----
为了更进一步分析,可将频数转化为频率,见下表
i
j
A B C D
A
B
C
D
合计
表中,各品牌与自身比较的比率均是 ,将每栏的比率相加,就可得到受访者对各个
品牌的态度值。四种电脑品牌的态度值相比,显然 B 品牌最受欢迎。调查所得的结果是:
B()>C()>A()>D()
资料来源:作者根据相关资料整理
———————————————————————————————————————
配对比较量表适用于商品品牌(或规格、花色等)不多,而且消费者对各种品牌的
商品比较了解的情况。
(六)等级顺序量表
等级顺序量表将许多研究对象同时展示给受测者,并要求他们根据某个标准对这些
对象排序或分成等级。这种测量水平,不仅能区分不同类别,而且能排出等级或顺序,
如胖瘦、大小、高矮、上中下、名次等。等级量表反映事物的类别的差不必相同,不具
有等距性。排序的对象不能太多,否则易出现错误或遗漏。
———————————————————————————————————————
【例 5-10】教学评价的等级量表
4 3 2 1
观点 提出观点并且解释了为
什么引起争论
出观点但并没有解释
为什么引起争论
观点不明确、混淆或
者不清晰
没有提出自己的观点
支持
该观
点的
理由
提出清晰的,适当的理
由及逻辑推理来支持自
己的观点
理由很清晰,但忽视了
一些重要的理由
能够提出 1-2 条说
服力很弱的理由,但
不足以支持该观点
没有提出能够支持该
观点的理由
反对
该观
点的
理由
论述了反对该观点的理
由并解释它们的有效性
论述了反对该观点的
理由但是忽视或者没
有解释该观点成立的
理由
能够提出反对该观点
的一些理由,但是没
有加以论述
没有讨论反对该观点
的理由
组织 文章开头很吸引人,内
容信息丰富,结论令人
信服
文章的开头、内容、结
尾一般
组织显得很粗糙,论
述过程中有时跑题
目的性不明确,组织
得很混乱
语气
和语
调
感觉到我十分关注我的
观点,我正在告诉他人
我是怎么想的和我的感
觉
感觉很好,但给人的感
觉是:这种文章很多人
都可以写出来
文章中没有真情实感,
或者感觉到作者在杜
撰某些东西
文章太正式或者太不
正式,感觉到作者特
别偏好文章的某一命
题
用词 自然、生动、形式多样 有一些“出彩”的词,但
更多的是一些常用的
词
用词枯燥乏味,给人
一种堆砌辞藻,过分
想表现一些东西的感
觉
词语重复使用频率过
高
语句 语句清晰、完整,综合 有一些结构较好的句 句子笨拙、破碎 句子笨拙、破碎,文
流利 运用多种句型 子,但整体上冗长、枯
燥
章令人读起来特别不
舒服
语法 语法、标点符号、拼写
正确
虽然有一些小错误,但
整体感觉还可以
错误较多,不能吸引
读者
错误太多.阅读困难
资料来源:学业成绩评价网
———————————————————————————————————————
(七)常量和量表
常量和量表也叫做数值分配量表,是要求被调查者在固定数值范围内(10-100),
对所测事物依次分配一定数值,从而作出不同评价。
———————————————————————————————————————
【例 5-11】 用常量和量表对三种品牌进行调查
对某种商品的三种品牌在消费者心中的信誉高低进行调查,要求消费者按喜爱程度对
三种品一一 打分,每个评价项目总分为 100 分。例如某消费者的打分结果如下表所示:
品牌项目 A B C 合计
1 70 20 10 100
2 50 30 20 100
3 30 40 30 100
总计 150 90 60
从各品牌的总得分可以看出,A 品牌得分最高,说明 A 品牌是该消费者最喜欢的品
牌。如果调查了 100 个消费者,就需把 100 个人得分数值相加后再除以人数,从而得到
该项目的最后得分。
资料来源:作者根据相关资料整理
———————————————————————————————————————
李克特量表 语 义 差 异 量
表
沙氏通量表 配对量表 等级量表 常量和
方法 加总量表法 因素法 等距法 配对法 顺序等级法 数值分配法
内容 要 求 受 测 者
对 一 组 与 测
量 主 题 有 关
的 陈 述 语 句
发 表 自 己 的
看法 。
在 每 一 个 形
容 词 和 反 义
词的区间,反
映 人 们 对 性
质 完 全 相 反
的 不 同 词 汇
的反应强度。
通 过 应 答 者
在 若 干 与 态
度 相 关 的 语
句 中 选 择 是
否 同 意 的 方
式,获得应答
者 关 于 主 题
的看法。
受 测 者 被 要
求 对 一 系 列
对 象 两 两 进
行比较得分。
将 许 多 研 究
对 象 同 时 展
示给受测者,
并 要 求 他 们
根 据 某 个 标
准 对 这 些 对
象 排 序 或 分
成等级。
要 求 被 调 查
者 在 固 定 数
值 范 围 内
(10-100),
对 所 测 事 物
依 次 分 配 一
定数值,从而
作 出 不 同 评
价。
优点 易 于 构 建 和
执行,被调查
者 容 易 理 解
如 何 使 用 量
表
可 以 清 楚 有
效 地 描 绘 形
象。如果同时
测 量 几 个 对
象的形象,还
可 以 将 整 个
形 象 轮 廓 进
行比较。
避 免 了 由 调
查 者 设 计 问
题 可 能 产 生
的 主 观 片 面
性,调查结果
相 对 准 确 可
靠。
应用广泛,特
别 适 用 于 比
较 对 象 的 数
量较少时。
便 于 被 调 查
者 进 行 比 较
衡量,资料统
计 整 理 较 为
简便。
比较简单,并
且 能 够 得 到
人 们 对 事 物
的 微 小 区 别
看法。
缺点 调 查 过 程 费
时
设 计 量 表 比
较费时
问 题 设 计 费
时繁琐,实际
应 用 并 不 广
泛
当 比 较 对 象
很多时,调查
结果偏差大。
不 能 反 映 各
调 查 事 项 重
要 性 程 度 的
差异量级,只
能 获 得 定 序
数据。
分 配 的 数 字
可 能 比 规 定
的多或少,给
事 后 的 资 料
整 理 带 来 困
难。
表 5-2 常用量表的比较
三、设计量表的基本步骤(图 5-2)
1.编拟预试问卷
在预试问卷的编制或修订上,应根据研究目的、相关文献数据与研究结构等方面加以考
虑,如果有类似的研究工具,可根据研究当时的实际情形,加以修订、增删;如果是自己重
新编制问卷,问卷内容应依据研究结构的层面,加以编制。在编制量表时,应注意:
(1)在大多数情况下,5 点量表时最可靠的,选项超过 5 点,一般人难有足够的辨别
力。
(2)3 点量表限制了温和的意见与强烈意见的表达,五点量表则正好可以表示温和意
见与强烈意见之间的区别。
(3)由于人口变量的异质性关系,对于没有足够辨别力的人而言,使用七点量表法,
会导致信度的丧失;对于具有足够辨别力的人而言,使用 5 点量表,又令人有受限的不适感。
以上问题至目前还没有一个很好解释理由,然而通过预试,可以发现这些问题的存在。
(4)量表的点数愈多,选答分布的情形就愈广,变异数也会变得更大,有些人认为这
种情形在统计检验上会具有很好的区别力,然而,(1)这种选答很广的分布缺乏可信度,故
完全没有意义而言;(2)较大的选答变异数表示也会有较大的抽样误差,就统计数据分析
而言,是不该有太大的变异数的。
2.预试
℃ 预试问卷编拟完成后,应实施预试,预试对象的性质应与将来正式问卷要抽取得对象性
质相同,如研究对象为中学生,则预试的受试者也应为中学生,预试对象人数以问卷中包括
最多题项分别为 40 题、35 题、25 题,则预试对象,最好在 120 位至 200 位中间,如果样本
较为特殊,在预试人数的选取上可考虑再酌减一些。
预试时选取样本数应考虑问卷量是否进行因素分析。因为因素分析时,以较大样本分析
所呈现的因素组型,比一个只用较小样本所出现的因素组型要稳定。进行因素分析时,量表
的题项数愈多及预期要有较多的因素层面的话,进行因素分析时,应包括愈多的受试者。有
关学者建议,进行因素分析时,量表题项数与预试人数比例约为 1:1 最为合适。
3.整理问卷与编号
℃ 问卷回收后,应一份一份检查筛选,对于数据不全或不诚实填答的问卷,应考虑将其删
除;对于填答时皆填同一性答案者,是否删除,研究者应考虑问卷题项本身的内容与描述,
自行审慎判断。筛选完后的问卷应加以编号,以便将来核对数据之用;之后再给予各变量、
各题项一个不同代码,并依问卷内容,有顺序的键入计算机。窗口版 SPSS 可以读取传统文
书文件的数据(配合简短愈发文件程序)、微软 Office 应用软件中 Excel、Access 之文件、
传统数据文件等,研究者可依自己的习惯,挑选一种自己最熟悉的应用软件,以快速、有效
的方式将数据键入计算机中。(研究者最好是选用一种 office 软件输入数据或直接在 SPSS
数据窗口编辑区键入数据)
4.项目分析
℃ 项目分析即在求出每一个题项的“临界比率”,简称 CR 值,其求法是将所有受试者在预
试量表的得分总和依高低排列,得分前 25%至 33%者为高分组,得分后 25%至 33%者为低
分组,求出高低二组受试者在每题得分平均数差异的显著性检验(多数数据分析时,均以测
验总分最高的 27%及最低的 27%,作为高低分组界限),如果题项的 CR 值达显著水准
(℃<.05 或℃<.01),即表示这个题项能鉴别不同受试者的反应程度,此为题项是否删除首先
考虑的。
5.再测信度
℃ 如果要继续求出量表的再测信度,要以正式量表对同一组受试者前后测验两次,根据受
试者前后两侧测验分数得分,求其积差相关系数。再测信度又称稳定系数,反应量表的稳定
与一致性程度,一般而言,间隔实践愈长,稳定系数愈低。至于最后定稿的正式量表题项数,
应该为多少题最为适宜,实无一定而绝对的标准。就一般情形而论,若该份量表是测量一种
“普通的”或多重向度的变量,其题数在 20~25 题,即已足够;若要测量的是特定的变量,
以 7~10 题为宜;若每个量表包括不同因素层面之子量表时,每个子量表(因素层面)所包
括的题项以 3~7 题较为适宜。
6.因素分析
项目分析后,为检验量表的结构有效度,应进行因素分析。所谓结构效度是指态度量表
能测量理论的概念或特征的程度。因素分析目的即找出量表潜在的结构,减少题项的数目,
使之变为一组较少而彼此相关较大的变量,此种因素分析方法,是一种“探索性的因素分
析”。
7.信度分析
因素分析完成后,继续要进行分析的是量表各层面与总量表的信度检验。所谓信度就是
量表的可靠性或稳定性。
8.再测信度
如果要继续求出量表的再测信度,要以正式量表对同一组受试者前后测验两次,根据受
试者前后两侧测验分数得分,求其积差相关系数。再测信度又称稳定系数,反应量表的稳定
与一致性程度,一般而言,间隔时间愈长,稳定系数愈低。
9.确定最终量表
在这些评价的基础上,确定最终量表。至于最后定稿的正式量表题项数,应该为多少题最
为适宜,实无一定而绝对的标准
设计量表的基本步骤,见图 5-2
图 5-2 量表设计步骤
理论基础或研究目的
项目分析
编拟或修订量表初稿
选取受试者预试
因素分析建构
量表效度
第一次施测
正式量表
信度分析求出量表与各层面信度
因素命名
第二次施测
删除 CR 值未达到显著的值
删除题项
CR 值显著题项
———————————————————————————————————————
【例 5-12】 名人推荐者道德名誉对名人广告效果的影响
自 20 世纪初力士香皂在其广告中使用女明星以来,名人广告在商业广告中所占的比例
及所受到的关注都大幅增长。在中国国内,20 世纪 80 年代末,潘虹、李默然等明星开创名
人参与广告拍摄的先河后,众多的广告主都不惜重金请各类名人拍摄广告,以求达到更好的
营销效果。但是,由于一些名人的绯闻,导致人们对名人的道德声誉的关注。为了研究推荐
者道德声誉对名人广告效果的影响,丁夏齐等(2004)开展了一项研究。
在这项研究中,为了设计测量名人道德声誉的量表,首先进行了一项预实验,设定某唱
片公司为一张音乐 CD 做促销广告的情景,并提供了多位真实歌星作为备选的名人推荐者。
60 名普通消费者和 30 名广告专业工作者参加问卷调查,部分人还参加了小组访谈。预实验
的结果表明,中国人对个人道德修养比较重视,广告效果受消费者对名人推荐者道德声誉评
价的影响很大。在预实验的基础上,通过文献回顾和借鉴 Ohanian(1991)开发的量表,构
建了一个测量名人推荐者吸引力、一致性、专业性、可信赖性和道德声誉的初始量表,该量
表含 26 个条目。150 名大学生被试参加了问卷的预测验,共同度(communality)小于
的条目被删除,将初始的 26 个条目简化为 22 个。
接着,在北京对普通中国消费者实施了问卷测量。第一次测量的数据被用于探索性因素
分析,第二次的被用于验证性因素分析。每次分析都使用了 300 个有效被试的数据。问卷构
建时包含了对名人推荐者道德声誉进行评价的条目,并得到了五因子的结构。诸如“吸引
力”、“一致性”、“专业性”、“可信赖性”等,与前人的结果相当一致。“道德声誉”则是新得到的,
该因子包括“名人推荐者有良好声誉”、“名人推荐者尊重社会道德”、“名人推荐者没有丑闻”等
条目。探索性因子分析和验证性因子分析的结果均表明,所设计的量表具有较好的信度与效
度。最终的量表由 22 个条目构成,其名称及因子负载见表
因子载荷(n=300)
条目
因子 1 因子 2 因子 3 因子 4 因子 5
Q4.名人推荐者有吸引力
Q18.名人推荐者长得漂亮
Q5.名人推荐者令人愉快
Q15.我喜欢名人推荐者
Q22.我知道名人推荐者
Q6.名人推荐者能给产品带来积极的联想
Q11.名人推荐者的身份和产品相适应
Q10.名人推荐者可以代表消费者的身份
Q16.名人推荐者的形象与产品相一致
Q13.我认同这种推荐
Q9.产品可以和名人推荐者联系起来
Q14.产品适合于我
Q1.名人推荐者有产品知识
Q2.名人推荐者有产品使用经验
Q17.名人推荐者可以熟练使用产品
Q12.名人有资格做产品的推荐
Q21.名人推荐者是可靠的
Q20.名人推荐者是可信赖的
Q3.名人推荐者是诚实的
Q7.名人推荐者有良好声誉
Q8.名人推荐者尊重社会公德
Q19.名人推荐者没有丑闻
案例来源:丁夏齐等:《名人推荐者道德声誉对名人广告效果的影响:中国消费者的研究》,《“宝洁”
奖论文集》,中国信息协会市场研究业分会,2004
———————————————————————————————————————
第 4 节 信度与效度评估
理想的营销调研能够提供精确、清晰、及时的数据。由于概念的定义,指标的分派和实
际测量的误差,测量值和真实值往往有一定的误差,即测量误差。我们以 M 表示测量值,A
表示真实值,E 表示误差,则它们之间的关系可由下式表示:
W=A+E
误差分为系统性误差和随机性误差。系统误差是由于概念操作化过程中的偏差所造成的
持续性误差,常导致测量结果普遍偏高和偏低。例如小商贩对秤砣做了手脚,那么每次称的
东西都会高估物品实际的重量,这就是系统误差。随机性误差也会影响测量结果,但从本质
上讲是暂时的,并不是规律性产生的。
为了保证测量的准确性,能够很好地反映所测属性的真实水平,通常要进行信度和效
度评估(见图 5-3)。
图 5-3
一、信度
信度指的是测量数据的可靠性,主要指实际测量的内容与应当测量的内容之间的一致
性和稳定性。信度系数描述测量信度的数量指标,以相关系数来表示。 信度可用不同时间
重复测量的结果或不同测量方法所给出的结果之间的一致性来衡量。具体的评估方法包括
重测法、复本法和折半法。
(一)重测信度
1.定义
测量的评估
效度信度
内部一致性信度复本信度重测信度 内容效度 标准关联效度 结构效度
重测信度是在类似的条件下,在两个不同的时间先后测量两次,根据两次测量的结果计
算两次测量值之间的相似程度,相关系数越高,表示重测信度越高。这是一种最常用、最普
遍的信度检查方法。用重复测试的方法确定信度要注意,它对时间间隔非常敏感,即在两次
测量之间发生的某些事件、活动,会使后一次测量的结果在客观上发生改变,使两次的相关
系数不能准确地反映两次测量的实际情况。一般重复测试法最好与其他方法结合使用。
2.形式
3、使用的前提条件:
(1)测验所测的特质必须是稳定的,即被测的特征和属性在两次测验之间没有发生变化。
(2)把握适当的时间间隔
(3)两次施测期间被试的效果没有差别
(二)复本信度
1.定义
复本信度采取的是另一种思路:通过构建了两个等价的量表形式,对同一个调查对象进
行测量,对所得到的测量结果进行相关分析以评价信度。这种方法克服了上述重测信度的缺
点,但它要求两个量表完全等价,这是一件非常困难的事。
2.形式
3、使用的前提条件:
(1)施测所用的两个复本必须是真正平行的测验
① 各份测验测量的是同一种心理特性。
① 各份测验具有相同的内容和形式。
① 各份测验的题目不应重复。
① 各份测验题目数量相等,难度和区分度大体相同。
① 各份测验的分数分布(平均数和标准差)大致相等。
① 复本编好后,应再测一次,以确保各份测验的等值。
施测 再测
时间间隔
相关系数
测验 A 测验 B最短时间
相关系数
(2)被试要有条件接受两个测验。
(三)内部一致性信度
1、定义:
指的是测验内容的一致性或测验内部所有题目的一致性(项目同质性)程度。又称同质
性信度。
2、计算方法
内部一致性信度最常用计算方法的是分半法。分半法指将测量对象在测量结果中按测量
项目的奇偶号分成两组,计算这两组分数之间的相关系数,即折半信度。例如,一个忠诚度
测量包括 50 个项目,如果用折半信度来衡量其内在的一致性,则需要把 50 个项目分为两部
分,再求相关系数。一般用℃系数进行内部一致性分析。℃系数值在 0~1 之间变化,一般等
于或小于 时,就说明内部一致性信度差。
在提高测量的信度方面并无捷径可走,只有坚持科学严谨的工作作风和实事求是的科
学态度,尽可能采用科学的测量指标与方法,选择合适的测量工具并进行必要的预测试,以
及开展必要的人员培训和良好的现场监督与指导等,才能获得比较可信的测量结果。
三、 效度
效度指的是测量的准确程度或有效程度,理想的效度要求没有测量误差。信度好是效
度好的必要条件,但不是充分条件。即有效的测量必须是可信的,但可信的测量不一定有效。
当一项测量所测的是它希望测量的事物时,我们就说它是一项有效的测量。反之就称为测量
不具有效度。
测量的效度具有三种不同的类型,即内容效度、标效关联效度和结构效度,他们分别
从不同的方面反映测量的准确程度。同时,人们在评价各种测量的效度时,也往往用这三种
类型作为标准。
(一)内容效度
1.定义
内容效度指测量所选择的项目是否符合测量目的和要求。首先需要知道所测量的概念
是如何定义的;其次,需要知道这种测量所收集的信息是否和该概念密切相关;然后,评价
者才能做出这一测量是否具有内容效度的结论。
2.特点
(1)所选的项目是一个有限的内容范围
(2)选出的项目包含所测的内容范围的主要方面,而且各部分项目所占比例适当。
(3) 最适合于成就测验,知识和技能的掌握程度.也适合于某些选拔和分类的人事测验
3.检验方法
(1)专家判断法
由专家对测验项目与想要测验的内容范围的吻合程度进行系统的比较判断,具体步骤如
下:
① 定义好内容总体,并描绘出有关知识与技能的轮廓。
② 划分细纲目,并根据重要性规划好各个纲目的加权比例,作出尽可能详细的描述。
③ 确定没道题所测的知识与技能,将自己的分类与测验编制者的纲目作比较。
④ 制定评定量表以评定测验的整个效度及其他特点。
例如,为了评估普通话能力考试能够真实地反映考生运用普通话进行口头交流的能力,
可以请有丰富教学经验的普通话老师,对考试内容是否很好地包括了有关听说读的内容进行
评价;同样,为了评价顾客忠诚度量表能否很好地反映顾客忠诚度这一构念的主要内容,可
以聘请专业人员对量表的内容进行评价审查。
(2)经验法。根据以往的经验对数据和结果进行评估,如果符合以往的经验,则具有较
高的内容效度。反之,则不具有。
(3)再测法
对同一项目进行重复测量,并计算相关系数,如果相关系数较大,则具有较高的内容
效度。反之,则不具有。
(4)复本法
从同一个总体中抽取两套独立的平行测验,用这两个测验来测同一组被试,计算出他们
的相关系数,把这个相关系数作为内容效度的数量估计。相关系数较高,则具有较高的内容
效度。反之,则不具有。
(二)效标关联效度
1.定义
效标关联效度又称实证效度、经验效度、准则关联效度。它是指测验对个体的效标行
为表现进行估计的有效程度。一般有预测效度与同时效度、效标和效标测量两类。例如,可
以通过调查,询问消费者在今后一段时间内购买某种产品的意愿,然后再收集其实际购买数
据。将预测的购买与实际的购买相比较,就可以评价所测量的购买意愿对实际购买行为的标
准效度。
2..分类
(1)预测效度和同时效度。
预测效度的效标资料需要过一段时间才可搜集到。此种效度对人员的选拔和安置工作非
常重要。常用的效标是专业训练的成绩、实际工作的表现等。
同时效度的效标资料是与测验分数同时搜集的。例如大学入学考试可以用中学成绩作效
标。同时效度常用的效标是在校的学业成绩、教师的等级评定、临床检查等。
(2)效标和效标测量
所谓效标指的是衡量测验有效性的外在标准,通常是指我们所要预测的行为。可以用来
作为效标的变量有很多。效标可以是连续变量(如分数),也可以是分类变量(如 职业);
可以是然的现成的指标(如产量、薪水),也可以是人为设计的指标(如课堂测验);可以是
主观评判,也可以是客观测量。归纳起来,常见的效标主要有学业成就、等级评定、临床诊
断、特殊训练成绩、实际工作表现、对团体的区分、其他测验成绩。
观念效标是一个概念,效标测量则是对观念效标的数量化。例如:对于大学入学考试来
说,我们感兴趣的是大学学习的成功,这是观念效标,而大学的学习成绩,则是效标测量。
如果无效标测量,观念效标是毫无用处的。
3.估计方法
标准关联效度一般可以通过统计分析得到一个数量指标,因此有人又叫它统计效度。常
用的估计方法有相关法、分组法、预期表法等。
(1)相关法
确定效标效度最常用的方法是计算测验分数与效标测量的相关。根据变量的性质不同,
可分别采用积差相关法、等级相关法、二列相关法等。
(2)分组法
确定效标效度的另一种方法是看测验分数能否区分由效标测量所定义的不同团体。例如
在大学里,我们根据教师评定,把学生分为合格与不合格两组,然后回过头去查阅他们的高
考分数,若两组在高考分数上有显著差异,那就可以认为高考是有效的,否则便认为是无效
的。
(3)预期表法
预期表法是将预测源分数和效标分数制成双维图表,并将每个变量按水平分成若干档次,
然后列出每个档次上的人数百分比。从预期表就可以看出效标效度的高低。
(三)结构效度
1.定义
结构效度是指测验对理论构想或特质的测量程度。确认结构效度要求对被测构念有清楚
的定义,对该结构与其他结构之间的关系有合理的假设。
2.结构效度的特点
(1)结构效度取决于事先假定的心理学理论。
(2)结构效度没有单一指标,确定方法更复杂、更综合,需要由各方面证据累积起来作
出评价。
(3)结构效度的评价最为复杂和困难。
3.估计方法
(1)测验内部寻找证据法
① 考察内容效度。内容效度高一定程度上表明结构效度好,因为题目的内容应该紧紧
围绕测验的理论维度来编制。
② 分析受测者的答题过程。如果发现被试在答题时除了反映所要测量的心理特质外,
还受其他因素的影响,则表明该测验的结构效度不佳。
③ 计算同质性信度。如果一个测验测量的不是同一种心理特质,那么肯定不符合最初
的理论构想。同质性信度高是结构效度好的必要而非充分条件。
④ 计算测验内部的相关系数。计算各项目与量表总分的相关;计算各项目与所属分量
表的相关,以及各项目与不同质分量表的相关;计算各分量表之间的相关以及各分量表与总
量表之间的相关。
⑤ 因素分析。采用探索性因素分析或验证性因素分析,考察测验的因素负荷情况,找
出影响测验的共同因子,比较测验的因素结构与假设的理论结构是否吻合。
(2)测验之间寻找证据法
肯贝尔和费斯克(Campbell & Fiske)提出在不同测验之间寻求结构效度证据的两种方
法:
① 相容效度法(又称会聚效度)。求新编测验与某个已知的能有效测量相同特质的旧
测验之间的相关,相关高说明新测验有较高的结构效度(但相关不高未必说明新测验的结构
效度不好,可能两个测验的理论构想差异较大);
② 区分效度法。考察新编测验与某个已知的能有效测量不同特质的旧测验之间的相关,
相关高则说明新测验的结构效度不好。
(3)多种特质—多种方法矩阵法
在相容效度和区分效度的基础上,肯贝尔和费斯克提出了确立结构效度的“多种特质-多
种方法矩阵法”。其原理是:用不同方法去测量同一种特质,若相关高,说明测量效度较高
(相容效度);用相同方法去测量不同特质,若相关低,说明测量效度较高(区分效度)。
(4)采用效标关联效度检验结构效度法
根据效标分数或者测验分数把被试分为高分组和低分组,考察两组被试在测验得分上是
否具有显著差异。
效度类型
含义 考察的关系 确定的方法
内容
效度
指测验题目对所要测
量的内容范围的代表
性程度
考察测验题目与测量
内容范围之间的关系
专家评估法、经验法、
重测法、复本法
效标关联效度
以测验分数与效标测
量分数之间的关系表
示的效度
考察测验分数与效标
测量分数之间关系
相关法、分组法、预
期表法
结构效度
测验分数能够说明心
理学理论的某种结构
或特质的程度
考察测验结果与心理
学理论结构之间的关
系
测验内部寻找证据法、
测验外部寻求证据法、
多种特质-多种方法
矩阵法、效标关联效
度法
表 5-3 三种效度的比较
四、信度和效度之间的关系
信度与效度都是一种相对量,而不是一种绝对量,即它们都表示一种程度。对于同一
种对象,人们常常采取不同的测量方法,采用不同的测量准则,这样就会在信度与效度两方
面产生差别。
信度是效度的必要条件,如果一个测量值是不可信的,它不可能是有效的;但是信度
不是效度的充分条件,因为即使随机误差为零,还可能存在系统误差,因此测量值虽然具有
很好的一致性和稳定性,但仍然可能偏离真实值。
下图更加直观地显示了信度与效度的关系。
xx
xx
xx
xx
x
x
x
x
A.高信度
低效度
B.高信度
高效度
C.低信度
低效度
图 5-6,信度与效度的关系
靶 A 的结果显示随机误差小,但系统误差大,因此具有高信度但低效度;靶 B 的结果
显示随机误差和系统误差都小,因此具有高信度和高效度;靶 C 的结果显示随机误差和系
统误差都大,因此信度和效度都低。
最后我们可以这样概括两者的关系:
(1) 信度低,效度不可能高。因为如果测量的数据不准确,也并不能有效地说明所研
究的对象
(2) 信度高,效度未必高。例如,如果我们准确地测量出某人的经济收入,也未必能
够说明他的消费水平。
(3) 效度低,信度很可能高。例如,即是一项研究未能说明社会流动的原因,但它很
有可能很精确很可靠地调查各个时期各种类型的人的流动数量。
(4) 效度高,信度也必然高。
基本概念
测量 概念操作化 分派指标 测量尺度 定类尺度 定比尺度
定距尺度 定比尺度 量表 问卷 测量误差 随机误差 系统误差
信度 效度
延伸阅读
1.涂平,营销研究方法与应用.北京:北京大学出版社,2008.
2.简明 金勇进 蒋妍,市场调查方法与技术.北京:中国人民大学出版社,2009.
讨论题
1.什么是测量?如何对抽象的概念进行测量?
2.各种测量尺度之间的优缺点是什么?
3 调查问卷有效性的判别标准时什么?
4.如何设计量表?
5.信度与效度之间的关系是什么?