MBA智库文档管理财务管理北京大学经济学院2 极大似然估计.doc

北京大学经济学院2 极大似然估计.doc

下载

Krash70

13页 | 372KB | 0次下载 |

0.0

(0人评价)

我要评价：

投诉举报

用手机看文档

扫一扫,手机看文档

下载

开通VIP

第二章极大似然估计（MLE）第 0 节基础知识回顾：OLS 一．例子假设一个基金的投资组合 (“基金 XXX”)的超额回报和股市指数的超额回报，有如下的数据: 直觉上，该基金的beta( beta 测量股票对股市指数的反应)应该是一个正数，我们希望证实这种关系。画这2个变量的散点图：对于一条直线，可以用以下的方程,来拟合数据。 y=a+bx 不过这个方程 (y=a+bx)是完全确定的，与实际情况不符合。要在这个方程里加入一个挠动项。 yt =  + xt + ut 式中 t = 1,2,3,4,5 用直线来拟合数据最常用的方法是普通最小二乘法 (ordinary least squares， OLS)：取每个数据点到拟合直线的垂直距离，选择参数、，使得平方距离最小化 ( least squares)。挠动项能够反映数据的一些特征:我们经常会忽略一些影响 yt 的因素，不可能把影响 yt的所有的的随机因素都在模型中考虑。求解两个参数： Year, t Excess return = rXXX,t – rft Excess return on market index = rmt - rft 1 2 3 4 5 0 5 10 15 20 25 30 35 40 45 0 5 10 15 20 25 Excess return on market portfolio E xc es s re tu rn o n fu nd X X X    t i tttt xyyyL 22 )ˆˆ()ˆ(      5 1 2ˆ t tu    5 1 2ˆ t tuL 这就是OLS。整理得到：在上例中，把数据代入公式得：根据这个结果，如果预期下一年的市场回报将会比无风险回报高20%，那么你预期基金 XXX 的回报将会是多少? 二．概念：线性和非线性运用 OLS, 要求模型对参数( 和  )是线性的。“对参数线性”意味着参数之间不能乘、除、平方或n次方等。在实际中变量之间的关系很有可能不是线性的。某些非线性的模型可以通过变换转化为线性模型，例如指数回归模型：令 yt=ln Yt 及 xt=ln Xt 但是，很多模型从本质上讲是非线性的，例如：三．OLS的优良性质在OLS回归模型中，对ut (不可观测的误差项作如下假设)作如下架设: 解释 1. E(ut) = 0 误差项的均值为零 2. Var (ut) = 2 误差项的方差是常数 3. Cov (ui,uj)=0 误差项相互独立的 4. Cov (ut,xt)=0 误差项和解释变量不相关以上假设成立时，OLS有如下三个良好性质。一致性最小二乘估计是一致的。这意味着，当样本数趋向于无穷大时，估计值将收敛于它们的真实值（需要假设 E(xtut)=0 和 tt xy ˆ  ˆ iy   t tt xy L 0)ˆˆ(2 ˆ      t ttt xyx L 0)ˆˆ(2ˆ   xy xTx yxTyx t tt  ˆˆandˆ 22      ttt u tt uXYeXeY t  lnln   ttt uxy   ttt uxy   Var(ut)=2 <  ）无偏性最小二乘估计式是无偏的，意味着估计值的期望等于真实值. E( )= and E( )= 为了保持无偏性需要假设 E(ut)=0和Cov (ui,uj)=0。无偏性比一致性更强。有效性在所有的线性无偏的估计式中，OLS估计式的方差是最小的，即OLS估计的参数与真实值出现大的偏差的概率最小。四．统计推断用标准误差来度量参数估计值的可靠程度。在假设 1 - 4 Figure : Distribution of a Consistent Estimator True Value As the sample size increases the estimator converges in probability on the true parameter value Figure : Sampling Distributions of Estimators     Unbiased Biased Efficient Inefficient (a) (b) (c) (d)   00ˆPrlim    T ̂ ̂ ̂ 成立的条件下，估计值的标准误差可以写成其中 s 是残差的标准误差。假设 ut  N(0,2)，则OLS统计量服从正态分布：  N(, Var())  N(, Var()) 如果挠动项不服从正态分布，最小二乘的估计式还是正态分布吗？样本数足够大时，答案是：是的。从估计式和构造标准正态分布：但是，由于不知道 var() 和 var(), 我们用下面的分布加以替代。 t 分布和标准正态分布之很相似。这 2 种分布都是对称的，并且均值都为零。t 分布多了一个参数：自由度(样本总观测数 -2)。当一个 t 分布的自由度是无穷大时，它等于标准正态分布。用置信区间进行假设检验在显著性检验中，下面的情况下接受零假设 H0： = * ，即统计量落在非拒绝域内， normal distribution t-distribution Ｍ ͢ Ｍ ͢ Ｋt SE tcrit crit $ * ( 뀤 ) 驢 ͢ ͢        2 2 2 )( 1 )ˆ( , )( )ˆ( xx sSE xxT x sSE t t t   ˆtu  22 ˆ 1 tuT s ̂ ̂ ̂ ̂    1,0~ var ˆ N       1,0~ var ˆ N    2 ˆ ~ ˆ( ) T t SE      2 ˆ ~ ˆ( ) Tt SE      如果我们能够以 5% (或者 10%)的置信水平拒绝某个检验的零假设，则称这个检验在统计上是显著的. 在这个过程中，我们可能会犯2种错误: 1. 当 H0 是正确的时候，我们拒绝了它，第一类错误. 2. 当 H0 是错误的时候，我们没有拒绝它，第二类错误. 犯第一类错误的概率是. 回忆显著性水平的含义：当零假设是真的情况下，统计量落在拒绝域内的概率只有。但第二类错误的概率常常不能确定。一般而言，当我们降低第一类错误概率的同时也提高了第二类错误的概率。第一节引言考虑 ARMA 模型：（1）其中。前面我们假定知道总体参数，此时利用过程（1）进行预测。本章我们要研究在仅能观测到序列的情况下，如何估计。估计方法为极大似然估计。令表示总体参数向量。假定我们观 + % rejection % rejection region f(x) Reality H0 is true H0 is false Result of Significant (reject H0) Type I error =   Test Insignificant ( do not reject H0)  Type II error =  1 1 2 2 1 1.... ...t t t p t p t t q t qY c Y Y Y                     2~ 0,t WN   21 1, ,..., , ,..., ,p qc      Y  21 1, ,..., , ,..., ,p qc       21 1, ,..., , ,..., ,p qc     θ 察到一个样本量为的样本。写出样本的联合概率密度函数：（2）这是观察到样本发生的概率。使得“概率”最大的值就是最优估计——这就是极大似然估计的思想。极大似然估计需要设定白噪声的分布。常常假定是高斯白噪声，则得到的函数为高斯似然函数。极大似然估计的步骤： 1）写出似然函数（2）。 2）利用求极大值方法求使得函数值最大的值。第2节高斯过程的似然函数一．计算高斯过程似然函数高斯过程的表达式为（3）其中。参数为。观察值的均值和方差分别为和。因为，因此也是高斯分布。其概率密度函数为（4）对于第二个观察值在观察到条件下的分布。根据（3），（5）此时，其概率密度函数为（6）观察值和的联合密度函数就是（4）和（6）的乘积：（7） T  1 2, ,..., Ty y y   1 1, ,..., 1 1 , ,..., T TY Y Y T T f y y y   θ θ t θ  1AR  1AR  1AR 1t t tY c Y     2~ 0,t iidN   2, ,c  θ 1Y    1 / 1E Y c       2 21 / 1E Y       2~ 0,t iidN  1Y            1 1 2 1 1 2 1 22 2 ; ; , , / 11 exp 2 / 12 / 1 Y Yf y f y c y c                      1y 2 1 2Y c Y        22 1 1 1~ ,Y Y y N c y       2 1 2 2 1 2 1 22 1 ; exp 22 Y Y y c y f y y              1Y 2Y       2 1 12 1, 2 1 2 1 1 , ; ; ;Y Y YY Yf y y f y y f y   同样（8）（9）一般地，（10）则前个观察值的联合密度为（11）全部样本似然函数为（12）进行对数变换，得到对数似然函数：（13）将（4）和（10）代入（13），得到（14）二．似然函数的矩阵表示观察值写成向量形式为：       3 2 1 3 23 2 1 3 2, 2 3 2 22 , ; ; 1 exp 22 Y Y Y Y Yf y y y f y y y c y                      3, 2 1 2 13 2 1, 3 2 1 3 2 1 , 2 1, , , ; , ; , ;Y Y Y Y YY Y Yf y y y f y y y f y y         1 1 11 1 1,..., 2 1 22 ,..., ; ; 1 exp 22 t t t tt t t tY Y Y Y Y t t f y y y f y y y c y                    t       , 1 1 1 11 ,...., 1 1 1 ,..., 1 1 , ,..., ; ; ,...., ; t t tt t Y Y Y t t t t Y Y tY Y f y y y f y y f y y               , 1 1 1 1,...., 1 1 1 1 2 , ,..., ; ; ; T T t t T Y Y Y T T Y t tY Y t f y y y f y f y y          L         1 11 1 2 ln ; ln ; t t T Y t tY Y t L f y f y y                     2 12 22 2 2 12 2 2 11 1 ln 2 ln 22 2 1 1 1 1 ln 2 ln 2 2 2 T t t t c y L y c yT T                                 （15）可以看作是为高斯分布的单个实现。其均值为（16）这里。表示成向量形式为：其中表示（16）的右边的向量。的方差协方差矩阵为：（17）其中（18）该矩阵中的元素对应于的自协方差。将样本看作由分布的一个抽样，似然值可根据多元高斯密度公式直接写成：其对数似然值为：这本质上和（14）是相同的。理论上，对方程（14）求导并令导数为零，就可得到参数向量。而在实践当中，往往得到的是的非线性方程。此时求解需要格点（grid）搜索等数值优化方法。  1 21 , ,..., TTY y y y  T       1 2 T E Y E Y E Y                             M M  / 1c    E Y  μ μ  1T  Y   E Y Y       μ μ                         2 1 1 2 1 2 2 1 2 2 2 1 2 T T T T T E Y E Y Y E Y Y E Y Y E Y E Y Y E Y Y E Y Y E Y                                           L L M M L M L Y Y  ,N           1/ 2/ 2 1 11; 2 exp 2 T T Yf y y y                      1 11 1ln 2 ln 2 2 2 TT L y y            θ θ  1 2, ,..., Ty y y 四．条件极大似然（）函数如果将的值看作确定性的，然后最大化以第一个值为条件的似然值，这种方法称为条件极大似然函数。此时最大化目标为：等价于最小化：这与回归的结果一样。已知参数估计值，下一步关于求导数得到这也是 OLS 估计下的残差方差。条件极大似然估计的特点： 1．易于计算。 2．样本量足够大，则第一个观测值的影响可以忽略。 MLE 1y         2 12 2 2 1 1 ln 2 ln 2 2 2 T t t t y c yT T L                 21 2 T t t t y c y     OLS ˆˆ,c   L  2  21 2 4 2 1 0 2 2 T t t t y c yT            2 2 1 2 1 ˆˆ ˆ 1 T t t t y c y T          T 第三节高斯 ARMA 过程的条件似然函数一．条件似然函数其中。参数向量为。以前个观察值为条件的对数似然函数为：求使得最大化问题转变为最小化：非高斯时间序列的极大似然估计（拟极大似然估计） 1. 如果残差过程非高斯的，使用高斯对数似然函数得到的估计为总体参数的一致估计。 2．拟极大似然估计得到的系数的标准差不正确。二．条件似然函数对于高斯过程其中。表示要估计的总体参数。如果已知，则其概率密度函数为：如果已知，则：给定观察值，则就是确定的：于是  AR p 1 2 2 ....t t t p t p tY c Y Y Y            2~ 0,t iidN   21 2, , ,..., ,pc     p         2 1 12 2 1 .... ln 2 ln 2 2 2 T t t p t p t p L y c y yT p T p                     1 2, , ,..., pc     21 1 2 2 1 .... T t t t p t p t p y c y y y             1 2, , ,..., pc    ) ) ))  1MA  1MA 1t t tY        2~ 0,t iid N   2, ,  θ 1t    21 1~ ,t t tY N         1 2 1 1 22 1 ; exp 22t t t t t tY y f y                  0 0   21 0 ~ ,Y N   1y 1 1 1y   已知的话，可由下式求出：通过迭代法由求出整个序列：样本条件对数似然函数为三．高斯过程的条件似然函数对于过程假设前项的全为零：于是其中。令表示向量。条件对数似然函数为：其中。四．的条件似然函数对于高斯过程其中。参数向量为。     2 1 0 2 2 1 2 1 0, 0 22 1 , 0; exp 22 Y Y y f y y                  1 2 2 2 1y      1 2, ,..., Ty y y  1 2, ,..., T   1t t ty            2 2 2 1 ln 2 ln 2 2 2 T t t T T L            MA q  MA q 1 1 2 2 ....t t t t q t qY                q  0 1 1..... 0q        1 1 2 2 ....t t t t q t qy               1,2,...,t T 0  1q  0 1 1, ,..., q              1 1 0 1 1 0, ,..., 0 2 2 2 1 ln , ,..., 0; ln 2 ln 2 2 2 T T T TY Y Y T t t L f y y y T T                   21 2, , ,..., ,q     θ  ,ARMA p q  ,ARMA p q 1 1 2 2 1 1.... ...t t t p t p t t q t qY c Y Y Y                     2~ 0,t iidN   21 2 1 2, , ,..., , , ,..., ,p qc       θ 自回归过程的似然函数的近似以的初始值为条件，移动平均过程似然函数的近似以的初始值为条件。过程以和的初始值为条件。假设初始值和给定，则利用实现，迭代得到：可得的序列。则条件似然函数为：五，选择模型的标准 1） AIC 准则（Akaike 信息标准） 2） BIC 准则 3）HQ 准则 y   ,ARMA p q y   0 0 1 1, ,..., py y y   y  0 0 1 1, ,..., q     ε  1 2, ,.., Ty y y 1 1 2 2 1 1 2 2... ...t t t t p t p t t q t qy c y y y                        1,2,....,t T  1 2, ,.., T           1 1 0 0 1 1 0 0, ,..., , 2 2 2 1 ln , ,..., , ; ln 2 ln 2 2 2 T T T TY Y Y T t t L f y y y T T               Y ε Y ε θ 第四节极大似然估计的统计推断一．极大似然估计参数的标准差如果样本量足够大，则极大似然估计近似表示为：其中代表真实参数向量。矩阵称为信息矩阵，其估计值为：其中为对数似然函数。二．似然比（LR）检验假设原假设：参数向量中存在个限制（例如某些系数等于零）。分别求出无限制极大似然估计、限制情况下的极大似然估计。明显 L( )>L( )，检验统计量为： 2[L( )-L( )] 利用显著性检验法和置信区间法可以对原假设进行检验。标准差检验（Wald 检验）需要计算无限制极大似然估计。似然比检验既要计算有限制极大似然估计量，又要计算无限制极大似然估计量。 T  )  1 1ˆ ,N T   0θ θ 0θ   21 ˆ L T              )  L       12 ˆ0 0 L E                    ) )  m û r̂ û r̂ û r̂  2~ m  )

联系我们

智库文档公众号

客服微信

北京大学经济学院2 极大似然估计.doc

下载

标签

相关专题更多

联系我们

意见反馈

标签

相关专题 更多

联系我们

意见反馈

相关专题更多