第二章 极大似然估计(MLE)
第 0 节 基础知识回顾:OLS
一.例子
假设一个基金的投资组合 (“基金 XXX”)的超额回报和股
市指数的超额回报,有如下的数据:
直觉上,该基金的beta( beta 测量股票对股市指数的反应)应该
是一个正数,我们希望证实这种关系。
画这2个变量的散点图:
对于一条直线,可以用以下的方程,来拟合数据。
y=a+bx
不过这个方程 (y=a+bx)是完全确定的,与实际情况不符合。要
在这个方程里加入一个挠动项。
yt = + xt + ut
式中 t = 1,2,3,4,5
用 直 线 来 拟 合 数 据 最 常 用 的 方 法 是 普 通 最 小 二 乘 法
(ordinary least squares, OLS):取每个数据点到拟合直线的垂
直距离,选择参数 、 ,使得平方距离 最小化 ( least
squares)。
挠动项能够反映数据的一些特征:我们经常会忽略一些影
响 yt 的因素,不可能把影响 yt的所有的的随机因素都在模型
中考虑。
求解两个参数:
Year, t Excess return
= rXXX,t – rft
Excess return on market index
= rmt - rft
1
2
3
4
5
0
5
10
15
20
25
30
35
40
45
0 5 10 15 20 25
Excess return on market portfolio
E
xc
es
s
re
tu
rn
o
n
fu
nd
X
X
X
t i
tttt xyyyL
22 )ˆˆ()ˆ(
5
1
2ˆ
t
tu
5
1
2ˆ
t
tuL
这就是OLS。整理得到:
在上例中,把数据代入公式得:
根据这个结果,如果预期下一年的市场回报将会比无风险回报
高20%,那么你预期基金 XXX 的回报将会是多少?
二.概念:线性和非线性
运用 OLS, 要求模型对参数( 和 )是线性的。“对参数
线性”意味着参数之间不能乘、除、平方或n次方等。
在实际中变量之间的关系很有可能不是线性的。某些非线性的
模型可以通过变换转化为线性模型,例如指数回归模型:
令 yt=ln Yt 及 xt=ln Xt
但是,很多模型从本质上讲是非线性的,例如:
三.OLS的优良性质
在OLS回归模型中,对ut (不可观测的误差项作如下假设)作
如下架设:
解释
1. E(ut) = 0 误差项的均值为零
2. Var (ut) = 2 误差项的方差是常数
3. Cov (ui,uj)=0 误差项相互独立的
4. Cov (ut,xt)=0 误差项和解释变量不相关
以上假设成立时,OLS有如下三个良好性质。
一致性
最小二乘估计是一致的。这意味着,当样本数趋向于无穷
大时,估计值将收敛于它们的真实值(需要假设 E(xtut)=0 和
tt xy ˆ
ˆ iy
t
tt xy
L
0)ˆˆ(2
ˆ
t
ttt xyx
L
0)ˆˆ(2ˆ
xy
xTx
yxTyx
t
tt ˆˆandˆ 22
ttt
u
tt uXYeXeY t lnln
ttt uxy
ttt uxy
Var(ut)=2 < )
无偏性
最小二乘估计式是无偏的,意味着估计值的期望等于真实值.
E( )= and E( )=
为了保持无偏性需要假设 E(ut)=0和Cov (ui,uj)=0。无偏性比一
致性更强。
有效性
在所有的线性无偏的估计式中,OLS估计式的方差是最小
的,即OLS估计的参数 与真实值出现大的偏差的概率最小。
四.统计推断
用标准误差来度量参数估计值的可靠程度。在假设 1 - 4
Figure : Distribution of a Consistent Estimator
True Value
As the sample size
increases the estimator
converges in probability on
the true parameter value
Figure : Sampling Distributions of Estimators
Unbiased Biased
Efficient
Inefficient
(a) (b)
(c) (d)
00ˆPrlim
T
̂ ̂
̂
成立的条件下,估计值的标准误差可以写成
其中 s 是残差 的标准误差。
假设 ut N(0,2),则OLS统计量服从正态分布:
N(, Var())
N(, Var())
如果挠动项不服从正态分布,最小二乘的估计式还是正态分布
吗?样本数足够大时,答案是:是的。
从估计式 和 构造标准正态分布:
但是,由于不知道 var() 和 var(), 我们用下面的分布加以
替代。
t 分布和标准正态分布之很相似。 这 2 种分布都是对称的,并
且均值都为零。t 分布多了一个参数:自由度(样本总观测数
-2)。当一个 t 分布的自由度是无穷大时,它等于标准正态分布。
用置信区间进行假设检验
在显著性检验中,下面的情况下接受零假设 H0: = * ,即
统计量落在非拒绝域内,
normal distribution
t-distribution
M ͢
M
͢ Kt
SE
tcrit crit
$ *
( 뀤 )
驢 ͢
͢
2
2
2
)(
1
)ˆ(
,
)(
)ˆ(
xx
sSE
xxT
x
sSE
t
t
t
ˆtu 22 ˆ
1
tuT
s
̂
̂
̂ ̂
1,0~
var
ˆ
N
1,0~
var
ˆ
N
2
ˆ
~
ˆ( ) T
t
SE
2
ˆ
~
ˆ( )
Tt
SE
如果我们能够以 5% (或者 10%)的置信水平拒绝某个检验的零
假设,则称这个检验在统计上是显著的.
在这个过程中,我们可能会犯2种错误:
1. 当 H0 是正确的时候,我们拒绝了它,第一类错误.
2. 当 H0 是错误的时候,我们没有拒绝它,第二类错误.
犯第一类错误的概率是. 回忆显著性水平的含义:当零假设
是真的情况下,统计量落在拒绝域内的概率只有。
但第二类错误的概率常常不能确定。一般而言,当我们降低第
一类错误概率的同时也提高了第二类错误的概率。
第一节 引言
考虑 ARMA 模型:
(1)
其 中 。 前 面 我 们 假 定 知 道 总 体 参 数
,此时利用过程(1)进行预测。
本章我们要研究在仅能观测到序列 的情况下,如何估计
。估计方法为极大似然估计。令
表示总体参数向量。假定我们观
+
% rejection % rejection region
f(x)
Reality
H0 is true H0 is false
Result of
Significant
(reject H0)
Type I error
=
Test Insignificant
( do not
reject H0)
Type II error
=
1 1 2 2 1 1.... ...t t t p t p t t q t qY c Y Y Y
2~ 0,t WN
21 1, ,..., , ,..., ,p qc
Y
21 1, ,..., , ,..., ,p qc
21 1, ,..., , ,..., ,p qc θ
察到一个样本量为 的样本 。写出样本的联合
概率密度函数:
(2)
这是观察到样本发生的概率。使得“概率”最大的 值就是最优
估计——这就是极大似然估计的思想。
极大似然估计需要设定白噪声的分布。常常假定 是高斯
白噪声,则得到的函数为高斯似然函数。
极大似然估计的步骤:
1) 写出似然函数(2)。
2) 利用求极大值方法求使得函数值最大的 值。
第2节 高斯 过程的似然函数
一.计算高斯 过程似然函数
高斯 过程的表达式为
(3)
其中 。参数为 。
观察值 的均值和方差分别为 和
。因为 ,因此 也
是高斯分布。其概率密度函数为
(4)
对于第二个观察值在观察到 条件下的分布。根据(3),
(5)
此时 ,其概率密度函数为
(6)
观察值 和 的联合密度函数就是(4)和(6)的乘积:
(7)
T 1 2, ,..., Ty y y
1 1, ,..., 1 1
, ,...,
T TY Y Y T T
f y y y
θ
θ
t
θ
1AR
1AR
1AR
1t t tY c Y
2~ 0,t iidN 2, ,c θ
1Y 1 / 1E Y c
2 21 / 1E Y 2~ 0,t iidN 1Y
1 1
2
1 1
2
1
22 2
; ; , ,
/ 11
exp
2 / 12 / 1
Y Yf y f y c
y c
1y
2 1 2Y c Y
22 1 1 1~ ,Y Y y N c y
2 1
2
2 1
2 1 22
1
; exp
22
Y Y
y c y
f y y
1Y 2Y
2 1 12 1, 2 1 2 1 1
, ; ; ;Y Y YY Yf y y f y y f y
同样
(8)
(9)
一般地,
(10)
则前 个观察值的联合密度为
(11)
全部样本似然函数为
(12)
进行对数变换,得到对数似然函数 :
(13)
将(4)和(10)代入(13),得到
(14)
二.似然函数的矩阵表示
观察值写成向量形式为:
3 2 1 3 23 2 1 3 2,
2
3 2
22
, ; ;
1
exp
22
Y Y Y Y Yf y y y f y y
y c y
3, 2 1 2 13 2 1, 3 2 1 3 2 1 , 2 1,
, , ; , ; , ;Y Y Y Y YY Y Yf y y y f y y y f y y
1 1 11 1 1,...,
2
1
22
,..., ; ;
1
exp
22
t t t tt t t tY Y Y Y Y
t t
f y y y f y y
y c y
t
, 1 1
1 11
,...., 1 1
1 ,..., 1 1
, ,..., ;
; ,...., ;
t t
tt t
Y Y Y t t
t t Y Y tY Y
f y y y
f y y f y y
, 1 1 1 1,...., 1 1 1 1
2
, ,..., ; ; ;
T T t t
T
Y Y Y T T Y t tY Y
t
f y y y f y f y y
L
1 11 1
2
ln ; ln ;
t t
T
Y t tY Y
t
L f y f y y
2
12
22
2
2
12
2
2
11 1
ln 2 ln
22 2 1
1
1 1
ln 2 ln
2 2 2
T
t t
t
c
y
L
y c yT T
(15)
可以看作是 为高斯分布的单个实现。其均值为
(16)
这里 。表示成向量形式为:
其中 表示(16)的右边的 向量。 的方差协方差矩阵
为:
(17)
其中
(18)
该矩阵中的元素对应于 的自协方差。
将样本 看作由 分布的一个抽样,似然值可根据多元
高斯密度公式直接写成:
其对数似然值为:
这本质上和(14)是相同的。
理论上,对方程(14)求导并令导数为零,就可得到参数
向量 。而在实践当中,往往得到的 是 的非线
性方程。此时求解需要格点(grid)搜索等数值优化方法。
1 21 , ,..., TTY y y y
T
1
2
T
E Y
E Y
E Y
M M
/ 1c
E Y μ
μ 1T Y
E Y Y
μ μ
2
1 1 2 1
2
2 1 2 2
2
1 2
T
T
T T T
E Y E Y Y E Y Y
E Y Y E Y E Y Y
E Y Y E Y Y E Y
L
L
M M L M
L
Y
Y ,N
1/ 2/ 2 1 11; 2 exp
2
T T
Yf y y y
1 11 1ln 2 ln
2 2 2
TT
L y y
θ θ 1 2, ,..., Ty y y
四.条件极大似然( )函数
如果将 的值看作确定性的,然后最大化以第一个值为条
件的似然值,这种方法称为条件极大似然函数。此时最大化目
标为:
等价于最小化:
这与 回归的结果一样。
已知参数估计值 ,下一步 关于 求导数
得到
这也是 OLS 估计下的残差方差。
条件极大似然估计的特点:
1. 易于计算。
2. 样本量 足够大,则第一个观测值的影响可以忽略。
MLE
1y
2
12
2
2
1 1
ln 2 ln
2 2 2
T
t t
t
y c yT T
L
21
2
T
t t
t
y c y
OLS
ˆˆ,c L 2
21
2 4
2
1
0
2 2
T
t t
t
y c yT
2
2
1
2
1 ˆˆ ˆ
1
T
t t
t
y c y
T
T
第三节 高斯 ARMA 过程的条件似然函数
一. 条件似然函数
其中 。参数向量为 。
以前 个观察值为条件的对数似然函数为:
求 使得最大化问题转变为最小化:
非高斯时间序列的极大似然估计(拟极大似然估计)
1. 如果残差过程非高斯的,使用高斯对数似然函数得到的估
计 为总体参数的一致估计。
2. 拟极大似然估计得到的系数的标准差不正确。
二. 条件似然函数
对于高斯 过程
其中 。 表示要估计的总体参
数。如果 已知,则
其概率密度函数为:
如果已知 ,则:
给定观察值 ,则 就是确定的:
于是
AR p
1 2 2 ....t t t p t p tY c Y Y Y
2~ 0,t iidN 21 2, , ,..., ,pc
p
2
1 12
2
1
....
ln 2 ln
2 2 2
T
t t p t p
t p
L
y c y yT p T p
1 2, , ,..., pc
21 1 2 2
1
....
T
t t t p t p
t p
y c y y y
1 2, , ,..., pc
) ) ))
1MA
1MA
1t t tY
2~ 0,t iid N 2, , θ
1t
21 1~ ,t t tY N
1
2
1
1 22
1
; exp
22t t
t t
t tY
y
f y
0 0 21 0 ~ ,Y N
1y 1 1 1y
已知的话, 可由下式求出:
通过迭代法由 求出 整个序列:
样本条件对数似然函数为
三.高斯 过程的条件似然函数
对于 过程
假设前 项的 全为零:
于是
其中 。令 表示 向量 。
条件对数似然函数为:
其中 。
四. 的条件似然函数
对于高斯 过程
其 中 。 参 数 向 量 为
。
2 1 0
2
2 1
2 1 0, 0 22
1
, 0; exp
22
Y Y
y
f y y
1 2
2 2 1y
1 2, ,..., Ty y y 1 2, ,..., T
1t t ty
2
2
2
1
ln 2 ln
2 2 2
T
t
t
T T
L
MA q
MA q
1 1 2 2 ....t t t t q t qY
q
0 1 1..... 0q
1 1 2 2 ....t t t t q t qy
1,2,...,t T 0 1q 0 1 1, ,..., q
1 1 0 1 1 0, ,..., 0
2
2
2
1
ln , ,..., 0;
ln 2 ln
2 2 2
T T T TY Y Y
T
t
t
L f y y y
T T
21 2, , ,..., ,q θ
,ARMA p q
,ARMA p q
1 1 2 2 1 1.... ...t t t p t p t t q t qY c Y Y Y
2~ 0,t iidN
21 2 1 2, , ,..., , , ,..., ,p qc θ
自回归过程的似然函数的近似以 的初始值为条件,移动
平 均 过 程 似 然 函 数 的 近 似 以 的 初 始 值 为 条 件 。
过程以 和 的初始值为条件。
假 设 初 始 值 和
给定,则利用实现 ,迭代
得到:
可得 的序列 。则条件似然函数为:
五,选择模型的标准
1) AIC 准则(Akaike 信息标准)
2) BIC 准则
3)HQ 准则
y
,ARMA p q y
0 0 1 1, ,..., py y y y
0 0 1 1, ,..., q ε 1 2, ,.., Ty y y
1 1 2 2 1 1 2 2... ...t t t t p t p t t q t qy c y y y
1,2,....,t T 1 2, ,.., T
1 1 0 0 1 1 0 0, ,..., ,
2
2
2
1
ln , ,..., , ;
ln 2 ln
2 2 2
T T T TY Y Y
T
t
t
L f y y y
T T
Y ε Y ε θ
第四节 极大似然估计的统计推断
一.极大似然估计参数的标准差
如果样本量 足够大,则极大似然估计 近似表示为:
其中 代表真实参数向量。矩阵 称为信息矩阵,其估计值为:
其中 为对数似然函数。
二.似然比(LR)检验
假设原假设:参数向量 中存在 个限制(例如某些系数
等于零)。分别求出无限制极大似然估计 、限制情况下的极
大似然估计 。明显 L( )>L( ),检验统计量为:
2[L( )-L( )]
利用显著性检验法和置信区间法可以对原假设进行检验。
标准差检验(Wald 检验)需要计算无限制极大似然估计 。似
然比检验既要计算有限制极大似然估计量,又要计算无限制极
大似然估计量。
T
)
1 1ˆ ,N T 0θ θ
0θ
21
ˆ
L
T
)
L
12
ˆ0 0
L
E
) )
m
û
r̂ û r̂
û r̂ 2~ m
)