第九章 对应分析
(一)教学目的
通过本章的学习,对对应分析有一个全面地认识,理解对应分析的基本思想和基本原理,掌握用聚类分析解决实际问题的能力。
(二)基本要求
了解对应分析的定义,理解对应分析方法的方法和原理,掌握对应分析的计算步骤。
(三)教学要点
1、对应分析的定义和基本思想;
2、对应分析方法的原理;
3、R型因子分析和Q型因子分析的对应关系;
4、对应分析方法及计算步骤;
(四)教学时数
3课时
(五)教学内容
1、对应分析的基本思想;
2、对应分析方法的方法和原理;
我们知道,主成分分析、因子分析都是研究多维变量之间相互的关系。但在某些实际问题中,既要研究变量之间的关系,还需要研究样品之间的关系。不仅如此,人们往往还希望能够在同一个直角坐标系内直观地同时表达变量和样品之间的相互关系。为实现这一目的就需要进行对应分析。对应分析能够提供变量之间,样品之间以及变量和样品之间相互关系的信息。
对应分析的基本思想
一、什么是对应分析
对应分析(correspondence analysis)又称为相应分析,是一种目的在于揭示变量和样品之间或者定性变量资料中变量与其类别之间的相互关系的多元统计分析方法。
根据分析资料的类型不同,对应分析分为定性资料(分类资料)的对应分析和连续性资料的对应分析(基于均数的对应分析)。其中,根据分析变量个数的多少,定性资料的对应分析又分为简单对应分析和多重对应分析。对两个分类变量进行的对应分析称为简单对应分析,对两个以上的分类变量进行的对应分析称为多重对应分析。
一般认为对应分析起源于20世纪30~20世纪40年代的一批互相独立的文献如Richardson和Kuder(1933)、Hirshfeld(1935)、Horst(1935)、Fisher(1940)、Cuttman (1941)等,很难说哪位统计学家是该方法的真正作者,但所有方法的基本原理是相同的。这里主要介绍的是1970年由Beozecri提出的主要是用于连续性资料分析的对应分析方法。
对应分析实际是在型因子分析和型因子分析的基础上发展起来的一种方法。因子分析可以用最少的几个公共因子去提取研究对象的绝大部分信息,既减少了因子的数目,还把握住了研究对象间的相互关系。因子分析有型因子分析和型因子分析两种类型,型因子分析是将变量转换为变量因子,其实质是对变量进行降维和消除相关性,变量因子的个数小于或等于变量的个数,并且变量因子之间不相关。型因子分析是将样品转换为样品因子,其实质是对样品进行降维和消除相关性,样品因子的个数小于或等于样品的个数,并且样品因子之间不相关。但是,因子分析也有其局限性:
一是,型因子分析和型因子分析是分开进行的。当研究的对象是变量时,通常作型因子分析,当研究的对象是样品时,则采用型因子分析,而且把型和型看成两种分离的概念,无法使型和型因子分析同时进行,这样将型和型割裂开后就会损失很多有用的信息,而且还不能揭示指标与样品之间的相关信息。
二是,在处理实际问题中,样品容量往往较大,使型因子分析的计算量非常巨大,比如有100个样品,就要计算100×100阶矩阵的特征根和特征向量,这对于一般小型计算机的容量和速度都是难以胜任的。
三是,在进行数据处理时,为了将数量级相差很大的变量进行比较,需要对变量进行标准化处理,然而这种只按照变量列进行的标准化处理对于变量和样品是非对等的,这给寻找型因子分析和型因子分析的联系带来—定的困难。
对应分析就是为了克服因子分析的上述不足而发展起来的。对应分析将型因子分析和型因子分析结合起来进行统计分析,它是从型因子分析出发,而直接获得型因子分析的结果。克服了由于样品容量大,进行型因子分析带来的计算上的困难。另外根据对原始数据进行规格化处理,找出型因子分析和型因子分析的内在联系,可将变量和样品同时反映到相同坐标轴的一张图形上,便于对问题的分析和解释。
对应分析的重要输出结果之一在于,把变量与样品同时反映到相同坐标轴(因子轴)的一张图形上,结合计算结果,在绘出的图形上能够直观地观察变量之间的关系、样品之间的关系以及变量与样品之间的对应关系。为此也有人认为,对应分析的实质是将变量、样品的交叉表变换成为一张散点图,从而将表格中包含的变量、样品的关联信息用各散点空间位置关系的形式表现出来。
随着计算机软件的应用,对应分析的方法在社会科学和自然科学领域都有着广泛的应用价值。特别是近年来在市场调查与研究中,有关市场细分、产品定位、品牌形象以及满意度研究等领域正得到越来越广泛的重视和应用。
二、对应分析的基本思想
对应分析的关键是利用一种数据变换,使含有个变量个样品的原始数据矩阵,变换成为一个过渡矩阵,并通过矩阵将型因子分析和型因子分析有机地结合起来。具体地说,首先给出进行型因子分析时变量点的协差阵和进行型因子分析时样品点的协差阵,由于和有相同的非零特征根,记为
,,
依据证明,如果的特征根对应的特征向量为,则的特征根对应的特征向量就是,根据这个结论就可以很方便地借助型因子分析而得到型因子分析的结果。因为求出的特征根和特征向量后很容易地写出变量点协差阵对应的因子载荷矩阵,记为。则
这样,利用关系式也很容易地写出样品点协差阵对应的因子载荷阵,记为。则
从分析结果的展示上,由于和具有相同的非零特征根,而这些特征根正是公共因子的方差,因此可以用相同的因子轴同时表示变量点和样品点,即把变量点和样品点同时反映在具有相同坐标轴的因子平面上,以便显示出变量点和样品点之间的相互关系,并且可以一并考虑进行分类分析。
对应分析方法的方法和原理
一、对原始数据规格变换,使R型和Q型因子分析有机结合
在以往的对实际问题的统计分析中,若变量值的量纲不同以及数量级相差很大时,通常先将对变量作标准化的处理,然而这种对变量进行的标准化处理是按各个变量列进行的,并没有考虑到样品之间的差异,对于变量和样品而言是非对等的,为了使之具有对等性,以便将型因子分析和型因子分析建立起联系,就需将原始数据阵变换成矩阵,即将变换成之后,应满足使变量和样品具有对等性,并且能够通过把型因子分析和型因子分析的联系建立起来。
具体数据矩阵是按照如下的方法变换得到的,即
其中,
这一数据变换,实际是根据在列联表上进行独立性检验时,计算统计量的方法所启发得到的。统计量的计算公式是:
为了便于理解上述的数据变换,下面给出进一步的解释。设有个样品,每个样品有项指标,原始资料阵为:
假定矩阵的元素,否则对所有的数据同加上一个适当的数,便可满足这个要求,然后写出的行和、列和总和,分别记为和。
其中, 。
这里把记为,用它去除矩阵的每一个元素,相当于改变了测度尺度,使变量与样品具有相同比例大小,即,显然,且,因而可解释为“概率”,这样得到一个规格化的“概率”矩阵。类似地可写出阵的行和、列和,分别记为。
其中,。
(一)对于型因子分析的情况
如果将个样品,看成是维空间的点,则其个点的坐标用,()表示,称为个样品点。这实际是用各变量在该样品中的相对比例来表示的一种常见的方法,这样对个样品之间相互关系的研究就可转化为对个样品点的相对关系的研究。如果要对样品分类,就可用样品点的距离远近来刻划了。若引入欧氏距离则任两个样品点与之间的欧氏距离为
为进一步消除各变量的数量级的不同,如第个变量有较大的数量级,在计算距离时就会抬高这个变量的作用尺度差异的影响。所以再用系数去乘距离公式就得到一个加权的距离公式,有
上式也可以说是坐标为
的个样品点中两个样品点与之间的距离。更进一步的,把各个样品点的坐标写出来,实际上也可以得到概率加权后的样品点的数据矩阵为,
通过计算两两样品点或两两变量点之间的距离,可对样品点或变量点进行分类,但这样做还不能用图表示出来。为了更直观地表示变量点和样品点之间的关系,采用型因子分析的处理方法时,就需要根据上述的数据矩阵给出变量点协差阵的定义。
为此先给上述数据矩阵中第个变量的均值为,
这里不是求算术平均,而是按概率进行加权,可以验证上式的结果不仅是诸样品平均点坐标,恰好也是各变量的平均值。因此,可写出样品空间中变量点的协差阵,即第个变量与第个变量的协差阵为
其中
其中
( 对是对等的)
令,则有
即变量点的协差阵可以表示成的形式。
为此,只须从出发进行型因子分析即可,因子载荷矩阵为
(二)对于型因子分析的情况
类似的,可将个变量看成是维空间的点,用表示个变量的坐标,称为个变量点,这时两个变量与之间的加权距离为
类似上面的方法,可写出样品空间中样品点的协差阵,即第个样品与第个样品的协差阵为,其中
其中
从而有
即样品点的协差阵可以表示成的形式。
为此,只须从出发进行型因子分析即可,因子载荷矩阵为
综上所述,若将原始数据阵变换成时,则变量点和样品点的协差阵分别为和。与两矩阵明显的存在着简单的对应关系,而且将原始数据变换成后,对于是对等的,即对变量和样品具有对等性。
二、型因子分析和型因子分析的对应关系
为了进一步说明型因子分析和型因子分析的对应关系,根据数学上的证明,有如下定理和推论。
定理 对变量和样品的协方差矩阵与的非零特征值相同
推论 如果是的特征向量,则是的特征向量。如果是的特征向量则是的特征向量。
因为,若是的特征向量,则有
两边左乘得,
EMBED
即是的特征向量。
这一定理和推论为我们建立了型因子分析和型因子分析的关系。为此,借助这一定理,我们可以从型因子分析出发而直接获得型因子分析的结果。
而且,我们还可以进一步得到,由于和矩阵具有相同的特征值,而这些特征值又表示各个公共因子所提供的方差贡献,因此在变量空间()中的第一因子、第二因子……直至第个公共因子与样品空间()中相对应的各个公共因子在总方差中所占的百分比完全相同,从几何意义上来说,()中诸样品点与()中各因子轴的距离和()中诸变量点与()中相对应的各因子抽的距离完全相同,由于这样,我们可以用相同的因子轴同时表示变量和样品,即将型因子分析和型因子分析的结果同时反映在具有相同坐标轴的因子平面上。
例如,假设对于型因子分析,从出发求出最大和次大的两个特征值和,以及相应的特征向量和;对于型因子分析而言,矩阵的最大和次大的两个特征值也是和,相应的特征向量为、,把、以及、单位化后,在变量空间()中把、分别记为、;在样品空间()中,把、分别记为、。于是对于每个样品在因子平面上,根据其坐标值可以描出一个点;同样,对于每个变量在因子平面上,根据其坐标值也可以描出一个点;又由于平面与平面的两条直角坐标轴是重合的,所以,就可在同一个因子平面上同时表征变量和样品间的相互关系,以便于进行统计推断和解释。
三、对应分析的计算步骤
根据上述的原理和方法,可以得出对应分析的具体步骤。
第一步 由原始资料阵出发,计算规格化的概率矩阵
第二步 计算过渡矩阵
其中
第三步 进行因子分析
(1)型因子分析
①计算协差阵的特征根,按其累计贡献率百分比,取前个特征根,并计算相应的单位特征向量记为,从而得到因子载荷阵:
②在两两因子轴平面上作各样品点图
(2)型因子分析
①对上述所求的个特征根,计算其对应于矩阵的单位特征向量,从而得到型因子载荷阵
②在两两因子轴平面上作变量点图。
第四步,根据因子平面上所呈现出的变量之间、样品之间以及变量与样品之间的相互关系,进行统计推断和分析。