第2章 多元正态分布
多元正态分析是一元正态分布向多元的自然推广。多元正态分布是多元分析的基础,多元分析的许多理论都是建立在多元正态总体基础上的。虽然实际的数据不一定恰好是多元正态的,但是正态分布常常是真实的总体分布的一种有效的近似。所以研究多元正态分布在理论上或实际上都有重大意义。限于篇幅,本章仅简介多元正态简单理论,细节可参看王学民(2004),张尧庭(2002),余锦华(2005),Richard(2003),朱道元(1999)等。
现实世界的许多问题都可以纳入正态理论的范围内,正态分布可以作为许多统计量的近似的抽样分布。
随机向量
随机向量
定义:称每个分量都是随机变量的向量为随机向量。
类似地,所有元素都是随机变量的矩阵称为随机矩阵。
设是随机向量,其概率分布函数定义为:
,为任意实数
多元分布函数有如下性质:
(1);
(2)是每个变量的非降右连续函数;
(3);
(4)。
多元分布和一元分布一样也分为离散型和连续型。连续型随机向量的分布函数可以表示为 :
, ()
称是的多元联合概率密度,简称多元概率密度或多元密度。
多元概率密度有以下性质:
(1)非负;
(2);
(3)
边缘分布、条件分布和独立性
边缘分布
设是维连续型随机向量,由其个分量组成的向量(不妨设)的分布称为的边缘分布,其边缘概率密度为:
()
条件分布
设是维连续型随机向量,,
,在给定的条件下,的条件概率密度函数为:
()
独立性
设是连续型随机向量,则相互独立当且仅当
对任意成立。
例设随机向量的概率密度函数为
试证相互独立。
证明:
同理
由于
所以相互独立。
随机向量的变换
设随机向量的概率密度函数为,函数组
,其逆变换存在,即存在。则的概率密度为:
()
其中
数字特征
数学期望
随机矩阵的数学期望定义为
()
随机向量也可看作随机矩阵,它是只有一列的随机矩阵,其数学期望为:
随机矩阵的数学期望有如下的性质:
(1),其中为常数;
(2)设是常数矩阵,则;
(3)设都是同阶的随机矩阵,则。
例设,,则
协方差矩阵
设随机向量,,则与的协方差定义为:
()
简称为与的协差阵
特别地, EMBED
也称为随机向量的协方差矩阵(简称为协差阵)或方差,其中
协方差矩阵的性质:
(1)随机向量的协方差矩阵是非负定对称矩阵。
(2)设是常数矩阵,是常数向量,则。
(3)设为常数矩阵,则。
相关矩阵
设和分别为维和维随机向量,则与的相关矩阵(简称为相关阵)定义为:
()
其中
若,表示与不相关。
特征函数
随机向量的特征函数定义为:
()
其中是与有相同维数的实向量。
随机矩阵的特征函数定义为:
()
其中是与有相同阶数的实矩阵。
多元正态分布的定义及其性质
多元正态分布是一元正态分布向维的推广。一元正态分布的密度函数是:
()
一元标准正态分布的密度为:
设是独立同分布,则的联合概率密度为:
()
其中,
称服从元标准正态分布,记为,其中是阶单位矩阵。
定理:若,则它的任意线性组合仍服从多元正态分布,且 EMBED EMBED ,从而。
易见是一个非负定矩阵,记为。因此多元正态随机向量的分布用表示,其中。当时,就是退化的多元正态分布,不存在概率密度。
当时,有逆。此时,有概率密度函数,其密度函数为:
()
上式就是常见的多元正态概率密度,记为。。
例设随机向量,则的特征函数为:
例设随机向量服从,则的特征函数。
证明:由定理知,存在随机向量,使得,其中。
于是 EMBED
例设,其中
由于,当时,。此时有,
的概率密度为:
当时,上式简化为:
当时,,此时不存在,是一个退化的二元正态分布,概率密度不存在,与以概率1线性相关。
定理:设是维随机向量,则的充分必要条件为其任一线性函数,服从分布。(证明参见余锦华等(2005))
特别地,若,取,则
,即的任一子向量服从正态分布,所以的任一边缘分布都是正态的。
定理: 若,常数矩阵,则服从分布。进一步有,服从其中。(证明参见余锦华等(2005))
推论:若,将分块为:,与相应分块:
,,则。
定理:若,则相互独立的充分必要条件是:。(证明参见王学民(2004))
这个定理告诉我们,要证明联合正态分布的分量是否独立时,只要证明他们的斜方差阵是否为0。
例如:由于
如果,根据定理,就可以判定与是独立的。
例设是来自正态总体的样本,证明:
与相互独立。
证明:记,于是有。,其中
,
EMBED
从而与相互独立,因此与的函数
相互独立,即相互独立。
例设服从分布,其中。问与是否独立?和是否独立?
解:因为与的协方差,故他们不是独立的.
又,将和划分为:
由于和的协方差矩阵。因此
由定理, 和相互独立。这意味着与独立,与也独立。
定理:设服从的分布,且。则给定时,的条件分布是正态的,且
, 。(证明参见王学民(2004))
该定理说明,的协方差与条件变量的值无关。
多元正态分布的参数估计
参数估计是指已知总体分布类型,通过样本对其中的未知参数或数字特征作相应的估计。
设多元正态总体,是从总体中抽取的一个简单随机样本,从而相互独立,且均服从正态分布。
记
称之为观测数据阵,这是一个随机矩阵。其联合概率密度是:
()
多元正态总体样本的数字特征
(1)样本均值向量:
, 其中
(2)样本离差矩阵:
称为样本离差矩阵
其中 EMBED
(3)样本协方差矩阵:称作为样本协方差矩阵,简称为样本协差阵。
(4)样本相关矩阵:
,其中
定理:设和分别是总体的样本均值向量和样本离差矩阵,则:
(1);
(2),其中独立同分布;
(3)和相互独立。
例 为了弄清楚橡胶的性能,今抽了10个样品,每个测了三项指标:硬度、变形及弹性,其数据如下:
No
硬度
变形
弹性
No
硬度
变形
弹性
1
65
45
6
67
46
2
70
45
7
68
47
3
70
48
8
72
43
4
69
46
9
66
47
5
66
50
10
68
48
试求样本均值向量、样本协方差阵和相关阵。
SAS的CORR过程可用于求样本均值向量、样本协方差矩阵和样本相关矩阵。CORR过程主要有两个语句:PROC CORR语句和VAR语句。
PROC CORR语句用以调用CORR过程 VAR语句,它以关键词proc corr开头,后跟data=数据集名,用以说明加工的数据集。加选项COV后可以求样本协差阵。
VAR语句以关键词var开头后跟随机向量的分量名。
编制SAS程序如下:
data w;
input x1 x2 x3;
cards;
65 45
70 45
70 48
69 46
66 50 31
67 46
68 47 37
72 43
66 47
68 48
;
proc corr data=w cov;
run;
屏幕输出3张表:
Correlation Analysis
3 'VAR' Variables: X1 X2 X3
Covariance Matrix DF = 9
X1 X2 X3
X1
X2
X3
上表可见
Correlation Analysis
Simple Statistics
Variable N Mean Std Dev Sum Minimum Maximum
X1 10
X2 10
X3 10
所以
Correlation Analysis
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 10
X1 X2 X3
X1
X2
X3
上表可见 。
的估计
(1)矩法估计
用样本均值向量和分别作为总体均值和总体协方差的估计量,称为参数的矩法估计。
即 ,
(2)极大似然估计
设是从多元正态总体中抽取的一个简单随机样本,未知。的极大似然估计为:
EMBED , (证明参见王学民(2004))
定理:(极大似然估计量具有不变性):设是的极大似然估计量,考虑函数,则的极大似然估计为。
例 设多元正态总体,是一个简单随机样本,。
记
, ,
将样本均值向量和作相应的分块:
,
则有:
(1);
(2)的相关系数的为:
参数估计的方法多种多样,评价估计量优劣的准则也是多种多样。从不同的角度,有无偏性、有效性、相合性等。
(1)无偏性
设是未知参数的一个估计量,如果对,都有,则称是未知参数的无偏估计。
下面考察中的极大似然估计量的无偏性
由于,故是的无偏估计。
又
故,不是的无偏估计。但是的无偏估计。
(2)有效性
设和是未知参数的两个无偏估计,如果
对成立,则称估计量比有效。
如果的某个无偏估计对的任一无偏估计都有
对成立
则称是的有效估计。有效估计又称最优无偏估计。
可以证明,对于多元正态总体,和分别是和的有效估计。
(3)相合性
如果未知参数的估计量随着样本容量的不断增大,无限地逼近真值,则称是的相合估计。
可以证明,无论总体是否为多元正态,和分别是和的相合估计。
抽样分布
一、非中心分布、非中心分布和非中心分布
定义:设,令,则称的分布为具有自由度为、非中心参数为的非中心分布,记为,其中。
定义:设与相互独立,令,则称的分布为具有自由度为、非中心参数为的非中心分布,记为。
定义:设与相互独立,令,则称的分布为具有自由度为、非中心参数为的非中心分布,记为。
二、分布
1. 分布的定义
分布是于1928年首先推导出来的,它在多元统计分析中占有非常重要的位置。
定义:设相互独立,
记,,则称随机阵服从自由度为的分布,记为。
其概率密度为:
()
其中为对称阵,是随机矩阵的观测值矩阵。
2.分布的性质:
性质1:设总体,则样本离差阵服从自由度为的分布,即
性质2(可加性):设,且相互独立,则。
性质3:设,对任意阶常数矩阵,有: 。
特别地,。
三、分布
1.分布的定义
定义:设,随机阵 EMBED ,且与相互独立,则称统计量服从自由度为的分布,记为
。
一般地,若,则称统计量的分布为非中心分布,记为。
2. 分布的性质
性质1:设是总体的随机样本,则统计量
。
性质2:与分布的关系:设,则。
特别,设,则
,其中。(证明参见余锦华等(2005))
例设是总体的样本,。则
。
证明:因为,
所以 。
而 ,且和相互独立,从而
四、分布
1. 分布的定义
定义:设,且与独立,则称广义方差之比的分布为分布,记为。
当时,。
2. 分布的性质
性质1:当时,,
或 ,
。
性质2:当时,有
。
习题二
1、设三个随机变量的联合密度函数为:
(1)试求常数;
(2)是否相互独立;
(3)试求在给定的条件下,的条件分布。
2、设随机向量的协方差矩阵为:
令 EMBED ,试求的协方差矩阵。
3、设,其中,,。试求的分布。
4、设,其中。(1)试求的分布;(2)试找一个二维向量,使与相互独立。
5、设是来自总体的随机样本,若已知,试求参数的最大似然估计。
6、设是来自总体的随机样本,,令,试证明:
(1)是的无偏估计;
(2),其中;
(3)当时,的协方差阵在非负定的意义下达到极小。
7、设是来自总体的一个随机样本,试说明下列统计量的分布:
(1)的分布;
(2)的分布。
PAGE
PAGE 1