麻省理工大学 Guido Kuersteiner 经济系 时间序列 第一讲笔记 引言 本课主要在于为分析依次连续观察到的数据提供必要的工具。由于数据和新生成量不再独立,标准的推论技巧需要进一步细化才能发挥作用。这就要求精确的极限理论必须考虑估计量和检验统计量的渐进特征。理论上解决相关问题的可行方法取决于产生公式的机制,该机制可以将观察出的非独立变量分解成独立的新生成量。这种机制即通常所说的时间序列模型。尽管存在其他对参数依赖更少的模型,我们将主要立足于以下参数模型。 鉴于此,我们主要考虑诸如GNP、总消费等宏观经济时间序列。这些时间序列的典型特征包括趋势行为、季节性和趋势循环成分等。明显这些概念很模糊并且事实上也不能单独定义,但它们却构成了时间序列模型的基石。在具体的模型趋势行为尤为关键。如果数据没有一定的稳定性(用更专业一点的话来讲,平稳性),则不可能展开进一步的推论。 1. 随机过程和平稳性 为了对下述概念的讨论定形,我们从定义时间序列的含义和介绍平稳性的概念入手。时间序列分析的数学理论基于抽象概率空间(Ω,F,P)的概念。这里Ω为样本空间,F为定义在样本空间上的δ代数,P为Ω上的概率量度。对于本课的大多数讨论,没有必要涉及到隐含的概率空间,同时对其特性的讨论在此也省略。我们介绍指标T 来表示存在着有序关系的量的集合。所以,如果t1,t2∈T,则有t1≤t2或t1>t2。通常T=R或T=Z。我们首先对随机过程下一个定义。 定义(随机过程):随机过程是定义在概率空间(Ω,F,P)上的随机变量{X(t,w),t∈T,w∈Ω}的全体。 具体地,一方面,对既定的w,X(.,w)是从T到�上的函数。它称为随机过程的实现值。另一方面,对既定的t,X(t,.)是Ω到�上的函数。该定义包括了连续型和离散型时间过程。如果指标T像在�上一样离散,我们称此过程为时间序列。时间序列可以通过观察T上的一系列格点从随机过程中产生。我们定义R∞=⊗∞−∞�为无限维坐标空间并用{X(.,w)}∞t=−∞表示R∞上的一点。 定义(随机序列):随机序列定义如下:作为h:Ω→R∞上的映射有 h(w)=(L,X−1(w),X0(w),X−1(w),L) 其中,X⊗∞�→�∞:为坐标函t−∞数,{X}∞t−∞称为随机序列。 1
与前面相同,我们称h(w)为给定w时随机序列的实现值。在实际中我们只观察h(w)的一个实现值且我们只观察X的一个有限子集,也就是说序列{X}nX的概率ttt=1。因此如果t分布不随时间做未知变化,我们可以希望对其概率分布做出合理的推断。我们将介绍强平稳和弱平稳的概念。在此之前。我们需要更加精确地定义X分布的概念。 t定义(有限维分布):令T为所有向量的集合: {X,t∈T}的有限维分布函数是由F(x)=P(X≤xt11,L,X≤x)确定tttnn的{F(.),t∈T}函t数,其中x=(x1,L,xn)∈�。 用该定义我们可以阐述严格平稳过程的含义。 定义(严格平稳):如果有限维分布为平移不变式,亦即: 则称随机序列{X}∞tt=1严格平稳。 注释1.由于严格平稳要求所有的边际量相同,所以它是一个比相同分布假设更严格的概念。 例.令{X}∞Ztt=−∞满足n=(X2n−1,X2n),其中Zn~iidN(0,Σ)并且 d于是∀t有X=N(0,1),但是既然(XXX≠XX)。 t2,X3)=N(0,I)所以(1,2)(2,3 由于处理联合有限空间分布很困难,因此有必要介绍一个更为简单的平稳性概念,该概念只需刻画过程的前两个特征即可。时间序列分析中一个很重要的概念是自协方差函数。自协方差函数度量了序列{X}∞tt=−∞中不同元素间的相互依赖程度。 定义(自协方差函数):令{X}∞tt=−∞满足对所有的t,EX2<∞。因此,自协方差函数由t下式给出: 协方差函数具有确定的特征。具体地根据柯西—施瓦兹的不等式有gXX(t,t)≥0和gX(t,s)≤gX(t,)gXX(s,s)。如果在下述更宽泛地条件下随机过程平稳,则我们可以得到另一个特征。 2
定义∞(平稳性):如果时间序列{X}tt=−∞满足 1. 对所有的t,EX2<∞; t2. 对所有的t,EX=c其中C∈R; t3. 对所有的r,t和s,有gX(t,s)=gXX(t+r,s+r)。 则称时间序列{X}∞tt=−∞为弱平稳(协方差平稳)。 我们可以令r=−t,这样gX(t,s)=gXX(0,s−t)。因此,如果X协方差平稳,通常定义tgX(h)=cov(X+,X)。现在我们得到平稳过程的协方差函数为偶函数或有thtgX(h)=gXX(−h)。 定义: 如果对任意n和所有的向量a=(a1,...ann)∈R及=nt(t1,...tn)∈Z满足: 则称真值函数f(h):Z→R为非负定。 我们可以看出gXX(h)为非负定,接下来我们将讨论这两个平稳概念之间的关系。 注释2.如果{X}∞t,EX2<∞,则严格平稳包括了协方差平稳。 tt=−∞满足对所有的t注释3.广义协方差平稳并不一定意味着严格平稳性。高斯过程即一个例外。如果联合分布都是多元高斯概率分布则{X}∞{X}∞tt=−∞过程为高斯过程。于是如果tt=−∞既是弱平稳又是高斯过程,则它也是严格平稳的。这是因为根据弱平稳,(X+,L,X)和(X,L,X)有相同t1htn+ht1tn的均值和协方差矩阵,根据高斯定理,我们知道二者具有相同的分布。 2.模型趋势 显而易见,平稳性的概念不能应用于经济活动中观察到的原始数据序列,因为经济数据通常都伴随着趋势。目前,文献中也提出了多种解决趋势行为的办法。确定性与随机趋势明显不同。其中,一个简单的确定性趋势模型即下列多项式趋势模型。令{Y}Ttt=1为由下式生成的观察时间序列: 其中u为平稳过程。p=1时的线性时间趋势模型是一个重要的特例。若我们定义t 3
X=2Lp(1,t,,,t),于是我们可以把()写成标准回归等式Y=Xb+u。普遍地我tttt们知道如果对t≠s,cov(u,u)≠0,OLS估计量失效。根据Grenander和Rosenblat(t1957)ts证明出的一个有用的结论:如果X=2Lp(1,t,,,t),于是有渐进地OLS=GLS,则意味着Ytt通过OLS可以有效地弱化趋势。更准确地讲,令X=(X′1,L,XT′)′和Y=(Y1,L,Yn)。于是)Y=−−1(IX(X′X)X′)Y。这一转换移去了Y的趋势但不能产生平稳性。 t另一种移去趋势的方法是取一阶差分。我们观察到: ∆Y=Y−Y1=1+−1 ttt−bUUtt−这里留下了一个练习:证明该转换可以生成平稳过程。 随机趋势是趋势变量的另一种表达式。重要例子即随机游走模型。 例(随机游走).令{U}TEU=和EU2<∞的独立同分布的随机变量序列,tt=1是满足0ttt则称满足S0=0和S=∑U的序列{S}Ttitt=1为随机游走。 i=1我们发现ES=0但是Va2r(S)=tsOttu这样S不平稳。既然S等于ttp(t),它满足随机趋势,从而立即有依据∆S=U的转换可生成平稳过程。 tt前面介绍的随机游走模型可以通过多种方法推广。其中与我们的讨论最相关的是带漂移的随机游走模型。 例(带漂移的随机游走)。令{U}Ttt=1是满足EU=0和EU2<∞的独立同分布的随机变tt量序列,则称满足S0=0和 t从而有S=mt+S=mt)。 t∑U的序列为带漂移的随机游走(因为这时Eiti=1我们注意到S=O(t),tp这就表明随机趋势是由有确定性的趋势所决定。同理可以看出,取差分会生成平稳过程,但是通过将其映射到X滤去时间趋势却不能生成平稳过程。 t在以后的章节我们将更加详细地讨论对不同时间趋势形式的推论的结果。然而为了清楚地阐明目的,我们考虑以下例子。令tx=mt+其中xt∑ui=1i0=0且假设我们有以下回归方程: y=bx+e 其中:s2eiid(0,)且对所有的t、i,e,u彼此独立。于是,b的OLStttttt 4
估计量以T3/2的比率收敛。所以有: 和: 不妨考虑一下:如果我们以一阶差分的形式估计模型,将会有怎样的结果,这种思考能起到说明的作用。人们会经常提倡这种转换来减少数据使之平稳。我们考虑下列回归: 因此,差分化后数据的OLS估计量如下: 现在根据大数原则,对1iid随机变量∑u2→21s有um2s2m2()TtuT∑+→+。同时,tu也有Eu(e−e−1)=0和 ttt 其中可以看出b−b=T−1/2(ˆ)Op()。本例说明取差分得平稳并不总是个好办法。差分化会移去数据中的水平信息。在这种情况下,差分回归与非差分回归相比,前者会丧失参数b值一定量的真实信息。 练习.证明()和()。 练习.证明T3/b−⇒N3s22(ˆ)(0,/m) e 5
麻省理工 Guido Kuersteiner 经济学院 时间序列 第二讲笔记 平稳过程 在本讲中我们关注狭义平稳过程模型,重点在于线性过程。金融时间序列的固定格式具有明显的限制。然而线性时间序列通常是非线性模型的基石,同时线性模型容易精确处理并具有明确优良的特征,以下将对此展开讨论。我们可以把线性时间序列模型定义成具有常系数的线性差分方程。 我们从介绍一些例子入手。随机过程最简单的例子只含有一个独立的观测值。从二阶角度看,这会转化为不相关。 例(白噪声)。如果{e}过程弱平稳,Ee=0且自相关函数满足: tt 则该过程称为白噪声,我们记为e:WNs2(0,)。特例即{e}满足:s2eiid(0,)。 ttt由于白噪声过程是更一般过程的基石,所以它非常重要。考虑一下两个例子: 例(移动平均)。如果{x}过程平稳且: t e为白噪声,则{x}过程称为一阶移动平均或MA(1)。我们立即有g(0)=s(21+q2),ttxxg(1)=q2s2。并且对h>1,g(h)=0。如果我们考虑了接下来的自回归过程,则会xxxx出现稍微更复杂一点的情形 例(自回归)。如果{x}过程平稳且满足随机一阶差分方程: t () e为白噪声,则该过程称为一阶自回归或AR(1)。 t重复迭代(),我们得到: 根据平稳性,Ex2且若f<1,则当k→∞,t−为常数,并k∑kEj22k2(x−fe−)=fEx趋于0。因此,以平方均值和概率的形式表示,即: tj=0tt−k
() 同时从()我们可以看出等式()是()的平稳解。称它为因果因为它只取决于前定变量。 在平稳性假设下,我们可得: 和:Extt−h=fExt−1xt−h+Eex tt−h这样,我们得到: g(h)=fg(h−1) () xxx对等式()两边左乘x,并取期望我们还可以得到2g(0)=fg(1)+s,结合txxxg(1)=fg(0),我们可以解得:2xxxg(0)=s。因此有: xx−2(1f) g(h)的推导是基于解尤尔——沃克方程()。推导该结果的另一种方法是直接根据()xx计算自协方差。 滞后算子 对更一般的时间序列模型,用差分方程的重复迭代法不易求解。因此有必要推演出一些分析高阶差分方程的工具。我们介绍滞后算子L:对序列中任意元素,用滞后算子L将{x}t序列映射到{y}序列得到{x}序列自身的滞后量: tt 如果我们重复使用L,按惯例有; L由倒数L−1,这样L−1Lx=LL−1x=x,立即有L为线性; ttt 我们可以用算子L定义更加复杂的线性算子:多项式滞后算子。令f(L)=1−f1L−L−fLpp
此时f(L)为L的p阶多项式,这样f(L)也为线性算子。对p=1,我们可以把AR(1)模型写成简式: 与前面相同,f(L)有倒数f−1(L),因此fL−1fLx=fLfL−1()()()()x=x。当p=1时,ttt容易求出f−1(L)多项式的展开式。既然L为有界算子,且如果f1<1:当k→∞ 这样, () 因此,求高阶多项式的倒数的方法在于将多项式因式分解为一阶多项式再用关系式()。这也是我们马上要讨论的解p阶差分方程的原理。 线性差分方程. 我们考虑p阶线性差分方程的解{x}: t () 其中,a1,L,ap为实常数。在滞后多项式中我们把它记为a(L)x=0。这时因为对每一个tt,{x}序列都满足(),所以解为{x}序列。如果: tt 中有c1,L,cm=0,则m≤p的解集{x(1)Lx(m),,}非线性相关。给定p为独立解,p的初tt始条件为x0,L,xp−1,我们可以解: 其中系数向量为(c1,L,cp)。既然只有解x满足初始条件,()的唯一解为tcx(1)+L+cx(m)1=x。对t>p,时,x的所有值唯一可以根据递归应用()得到。 tmttt
根据代数学的基本结论,我们知道方程a(L)=0有p个可能的复根,因此我们可以记为: () 其中x,=1,Lj是a(L)的j个相异根,而r为其i重根,因此足以求解x(i),这样iitx−1Lx(i)(1r)i=0。于是根据()有aLx(i)()=0,我们由此可以得到下面的结论。 itt引理 函数h(k)=tkx−t,k=0,1,Lj−1为下列差分方程的线性独立解: t 证明:对j=1,我们有: 对j=2,我们从上式可以得到:12−t(1x−L)x=0和: 类似地,对j>2,重复代入可以得到: 其中b1,Lbk为常数。最后-1我们注意到因为如果当t=0,1,L,k−1时,+c1(ckt01t+Lct−)x−−=0成立,则自由度为k-1的多项式c+ck1(k01t+L+ct−)有kk−个零解,这当c1,Lc=0都成立,所以h(k)是线性独立解。 kt引理说明an(L)x=0有p个解x−tt,n=0,1,L,r−1,i=1,Lj。则()的普通解tii为: () 同样p个系数cin也由p的初始条件决定。如果p个解nttx−都线性独立,则系数也唯一。i
所以,如果对t=0,1,2,L 则有∀i,n,c=0。证明见Brinockwell 和Davis(1987),第108页。 (p,q)(自回归移动平均)模型的自协方差函数 在这一节我们用上述结果分析ARMA(p,q)模型的特征。ARMA(p,q)过程定义见下。 定义. 如果{x}过程平稳且每一个t,有: t () 则称{x}过程为ARMA(p,q)。 t运用滞后多项式,我们可以得到一个更为简练的形式。令: 并且: 这时()可以写成f(L)x=q(L)e。求出该模型的其他表达式非常有用。鉴于此,我们tt介绍以下概念。 定义.如果存在序列{y}∞ii=0满足∑y<∞并且 i 则称ARMA(p,q)过程()具有因果关系。 可以看出当且仅当对所有的z∈�,z≤1时,有f(z)≠0,则q(L)和f(L)无公共零解的ARMA(p,q)过程具有因果关系。这时系数y由: i () 中两个多项式的对应系数确定。我们只讨论假设部分。假设当z≤1时,f(z)≠0,则存在e>0的功效序列展开式为:
上式暗含随着j→∞,x(1+ej/2)→0,这样存在一个有限正常数K 使得jx<K(1+e−/2)j。因此∑∞x<∞并且x(z)f(z)=1。我们这就可以写成: jj=0j ARMA(p,q)过程与之相关另一个特征为可逆性。此概念定义见下。 定义. 如果存在序列{p}∞ ii=0满足∑p<∞并且:i 则称ARMA(p,q)过程()可逆。 同理可以看出,当且仅当对所有的z∈�,当z≤1时,有f(z)≠0,则q(L)和f(L)无公共零解的()可逆。可逆性意味着该过程可以用无限阶AR(p)过程表示。由于AR(p)模型可以用简单的射影算子估计,而具有移动平均项的模型需要非线性优化,所以这一特征在实际应用中具有重要意义。 因果关系可用于计算ARMA(p,q)过程的协方差函数。在因果关系下,我们可以记为: 得到: 然而,由于上述表达式未能表现出此过程潜在系数间的相互关系,这一表达式意义不大。回顾(),我们得到y(z)f(z)=q(z),且令iz的系数相等,从而我们推出: 同样具体地:对j=0,1,2L
我们可以通过在(∞)的两边左乘xt−h并使用表达式x=∑ye得到ti=0it−x的协方差it函数。对两边取期望可以得到,对0≤h<max(p,q+1), 并且,对h≥max(p,q+1): () 注意到如果q+1>p,则初始条件的个数将大于差分方程独立解的个数。在这种情况下,前q−p+1个自相关系数将由前q−p+1个初始条件决定。该差分方程组的普通解由()得到,对h≥max(p,q+1) 其中x是AR多项式f(z)的相异根,c是由初始条件()决定的p个系数。协方差iing(h),0≤h<max(p,q+1)−p同样由()决定。 xx例()现在我们来观察因果AR(2)过程的自协方差函数: 1−x−1L−x−1 ()(12L)x=e tt其中,x1,x2>1并且x1≠x2。假设s2=.。根据f=x−1+x−112和f=−x−1x−1212可得到自回归系数。这样我们有y0=1和y=x−1+x−112,于是边界条件为: 现在,用普通解h>0,=x−h+x−hg(h)c1c22和边界条件进行替代:
上式用前定系数的形式完整地表达出了协方差函数。用普通解进行替代,得到: 另外一个有趣的问题是当f1,f2取何值时,根在单位圆外。对f1,f2解x−111,x−2得到: 其中如果f2=1−f1,x−11f=+f,x−1,2=1以及如果2111=−。如果f2+4f<,x−1,211201,2为复数。如果f2<−1。复根的模大于1。 线性映射和偏相关 我们从回顾线性向量空间的某些基本特征开始。向量空间V是具有二元算子,遵循向量加法、纯量乘法的集合(这里我们只考虑子集�n或�n)。在线性运算的情况下,向量空间是封闭的,也就是说,对x,y∈V,a,b为纯量,有ax+by∈V。 范式是指函数.:V→0,∞)满足lx=lx,x+y≤x+y和当x=0⇒x=0。当函数不具有后一个特征时,称为半标准化。标准化的向量空间是指由标准化函数充斥的向量空间。我们可以在V上定义度量:r(x,y)=x−y。如果每一个柯西序列收敛,则称向量空间完整。一个完整标准化的空间称为Banach空间。我们用符号z表示z(z∈�)的共轭复根。 复标准化向量空间的内积是指函数x,y:V2→�满足对a,b∈�,x,y=y,x,ax+by,z=a(x,z)+b(y,z)(a,b∈�)和2x,x=x。复内积空间称为Hilbert空间。 定义(向量空间的基)空间中n个线性无关的向量v1,L,vn,且空间中的任意向量都可以由这n个向量线性表示,满足这两个条件的任意n个向量所组成的集合称为复向量空间V的基。也就是说,对任意nv∈V,存在纯量a∈�满足v=i∑av。 i=1ii如果对i=j,v,v=1和i≠j,v,v=0,则称基正交。 ijij
定义向量空间的子空间M是V的一个子集M⊂V ,且M也是一个向量空间。如果V是内积空间,我们可以定义M的正交分量用M⊥表示如下: 命题(向量分解)任意元素x∈V可以写成两个向量y1,y2的和,其中对任意子空间M⊂V ,有y1∈M,y2∈M⊥。 证明:令v1,L,vp为M的标准正交基。令py1=∑y,vv,令yi=1ii2=y−y1。明显,y1∈M 同样,对j=1,L,p: 因此,y2与v,j=1,L,p正交,所以yj2∈M⊥。 表述此结果的另一种方法是记V=M⊗M⊥。令x∈V且M为V 的线性子空间。x到M上的映射PM(x)是满足下式的M的元素: 定理(映射定理)(a)PM(x)存在,唯一并且是x的线性函数。(b)当且仅当x−PM(x)⊥M时,PM(x)是x在M上的映射。 证明。(a)根据V=M⊗M⊥的证明,我们可以记x=x1+x2,其中x1∈M且x2∈M⊥,和∑px1=x,vv。于是对任意y∈M,我们有: i=1ii 当2x−y=0或y=x1时取等号。因此x1是x在M上的映射并且唯一。 (b)如果pM(x)是x在M上的映射,则根据(a)部分的证明,pM(x)=x1且x−P(x)=x2∈⊥MM相反地,如果pM(x)为M的一些元素,其中x−PM(x⊥M⊥),
于是,因为x⊥2∈M,所以有x1+x2−P(x)⊥⊥MM和x1−P(x)⊥⊥MM,同时,因为,x1,PM(x)∈M,所以有x1−PM(x)⊥M。这就得到x1−pM(x)=0。因此,pM(x)是x在M上的映射。 在本节中,我们需要定义在(Ω,F,P)上随机变量X的复L2空间的一些特征。根据定义有对,EX2<∞。L2空间是Hilbert空间其内积为: 从上面Hilbert空间H的线性子空间M的定义我们知道M为H 的一个子集M⊂H,满足0∈M并对x1,x2∈M,得到对所有的a1,a2∈�,y=a1x1+a2x2∈M。封闭的线性子空间包括其所有极点的子空间。 定义(闭空间)Hilbert空间H的任意子集{x,t∈T}的闭空间sp{x,t∈T}是包含tt{x,t∈T}的每一元素H的最小封闭子空间。由有限集{xt1,L,xn}所生成的闭空间包括了所有形如y=a1x1+L+anxn,a1,L,an∈�等线性组合的元素。 当元素xˆ∈M满足x−xˆ,ˆx−=inf∈Mx−y,x−y,我们可以定义yx∈H在子空间上的映射。根据映射定理,xˆ的像唯一。并且,x−x∈M⊥ˆ,其中M⊥正交于M。 现在很明显根据pM(x)的定义,在sp{x1,L,xn}上的像具有以下形式: 因为{1,L)∈sp{x,L,x}同时系数必spxx,n}(1n须满足: 通过在线性子空间中使用映射的概念我们可以介绍偏相关函数。偏相关度量的是时间序列两个元素x的相关程度,这一时间序列考虑到了用xt+和x间kt+1,L,xtt+k−1表示的相关。下面我们假设x平稳并正规化t=1。因此平稳时间序列的偏相关函数定义如下: t 并且,
因此,偏相关函数是根据x1xL,x所做回归的残差和根据xk+对2,k1对x2,L,x所做回k归的残差之间的相关。另一种等价定义可以用x对k个滞后变量xt−1,L,x作回归中最tt−所k后的回归系数形式表示。若: 得到: 这样,a(k)≡f。我们可以看出这两个定义是等价的。 kk例。令x服从AR(p) 过程并满足 t 于是,对k≥p 它可以从任意y∈sp{x1,L,xn}得到。根据因果关系,y∈sp{e,j≤k}满足jp<x射定理,意味着()成立。于是有对k>p k+1−∑fx1≥。根据映j=1k+−j,y0j 我们发现对滞后高于h的量,AR(p) 过程得偏相关系数为0。下一个例子将考虑MA(1)过程由于可逆,所以该过程可以表示成AR(∞)。因此我们希望偏相关逐渐减少消失而不是在限定的滞后处断裂。事实也是如此。 练习 令x来自MA(1)过程 t
于是我们从前面的讲述知道a==−+2(1)r(1)q/(1q),。等式()现在变为: 于是f是以下差分方程的解: ik 初始条件为: 终止条件为: 差分方程可以写成根为q和1/q的−1+q2q+2(1()/LL)f=0形式。于是普通解为if=cqi+cq-i。代入初始和终止条件可以解得常数ci121和c2,特别地有: 由于终止条件,常数取决于k。终值fkk可以从代回普通解中求出,即得: 我们从自协方差函数的两个例子和结果中可以看出AR多项式的最高阶由偏相关为零的点决定,MA多项式的最高阶由自协方差函数相同的方式决定。因此,识别ARMA(p,q)模型的正确表达式的方法可以从观察某过程的自相关和偏相关函数着手。明显对一个一般模型,这些函数的衰减模式是非常复杂的。因此通常难以通过观察自相关和偏相关函数的经验相似形态就正确表达式达成一个明确的意见。 练习 求x的偏相关函数,其中 t 并且e为白噪声。 t
麻省理工 Guido Kuersteiner 经济系 时间序列 第三讲笔记 平稳过程的谱表示法 从前面的讲义我们已经知道一个平稳时间序列的独立性质能用自协方差函数 描述。在附录B中,将证明能用谱分布函数的形式表示,如下: 谱分布测度过程的总体方差中归因于一定时间间隔频率的部分。例如,如果我们有月数据,那么一月相当于,两月相当于,一年相当于。为了测度由不只一年时间长度的周期性因素所产生的方差,我们可以考虑用表示 。附录A讨论了阐明这种解释的简单例子。 如果分布函数有一个密度函数 ,那么()能被写作 其中是傅立叶变换。此外,如果谱密度属于平方可积空间,那么傅立叶逆变换存在并且由 给定。 这种关系必须保持在,因为 是一个以为基的希尔伯特空间。于是,从()知道自协方差函数是投射在基本向量上的回归系数。如果,那么 收敛并且其极限几乎处处都是 。 在ARMA模型中,事实上有 。那么,序列绝对一致收敛,并且其极限几乎处处都是 。因此,在这种情况下,一般都直接用()来定义谱密度。
谱密度的性质 为了简化论证,我们假定。既然如此,我们能够在傅立叶逼近()的基础上建立的性质。然而,在这一节讨论的性质只适用于一般平稳过程。如果 是一个实值弱平稳过程,那么 。于是,就得到。为了证明 ,我们引入下述具有独立重要性的概念。 序列的被定义为前N个部分和的平均值。令 并且定义,则有 我们想要证明如果 ,那么 。这能从Toeplitz 引理得到。 引理3.(1Toeplitz):令 是一个跳跃的序列并且当n趋于无穷时, 。令 为一组权数并且满足当n趋于无穷时,对所有n都有 且对所有i都有, ,那么 证明:对任意, 都有 并且取这样的n使得 ,取N使得对于所有的,都有 。 则有 并且 其中最后的不等式从 。既然是任意的,那么所要证明的结果就能得到。 设 ,立刻就能得到如果 ,那么 。回到前面的谱密度 如果,那么现在我们就说
。令是的切萨罗平均 ,我们能知道对于所有n 于是,使得。 最后,我们注意到 。我们把这些结果总结在下面的定理中。 定理(Spectral Density):如果一个实值弱平稳过程有一个谱密度函数 那么 满足 我们现在回到ARMA模型谱密度的特征。 3.2.ARMA过程的谱密度 在这节中,我们将探讨谱密度能通过寻找傅立叶逼近()得到。在这些情况中,能找到谱密度的具体的函数形式。一种情况就是古典ARMA过程。我们首先考虑线性过程,其中 的谱密度 ,其中 是以 为谱分布函数的0均值平稳过程。我们知道 ,其中 ,于是就有 如果 有一个谱密度函数,那么就有 。这一函数能通过的傅立叶逼近直接得到。此外,我们假定函数是绝对可加的。
那么, 傅立叶逼近是 一个过滤的时间序列的谱密度函数的更简洁的方程能通过定义无穷阶滤波的滞后多项式 。现在就得出 现在我们转向ARMA(p,q)模型的谱密度函数。 定理(ARMA(p,q)Spectral Density).令 是一个ARMA(p,q),满足 其中, 没有公共零点 ,并且 有单位圆周外所有的根。有谱密度 证明:首先注意到,其中 。因为 ,所以从上面的结论可以得到 存在且等于 。由前面的定理得知过滤更新 有谱密度。同理可得有谱密度函数。因为()的右侧和左侧有相同的协方差和相同的谱密度,使得 。
线性过滤 有时候我们并不想分析初始序列,只希望分析其滤波形。主要的例子都能在商业周期的文献中找到,其中商业周期常常被定义为围绕一个趋势波动。在此,我们考察线性滤波的一些性质。例如,一个时间序列的一阶差分能看成一个线性滤波。令是原始序列, 是过滤序列。那么 其中,,其它的有。 因此,更一般地,我们能够找到一个滤波,其中我们要求 。我们已经知道过滤序列的谱密度函数和原始序列的谱密度函数有如下关系: 其中, 叫做这一过滤序列的频数响应。 叫作功效转移函数。直观地,这个函数决定了这一(功效)频谱如何通过过滤而改变。控制一个周期组成振幅的因素通过频数响应函数的系数来测度。这一术语叫做增益。 滤波改变一个时间序列的另一方法是变换这一序列。这叫做相位变换。令 且定义, 那么推出 于是,就称 是一个相位变换。对于 的一个对称滤波就没有相位变换,例如,因为从可得。我们考察一个简单的滤波,这一滤波滞后一期,例如, 那么,并且增益为,相位变换为 。 因此这一相位就是在时域中的变换测度。
现在,我们来看更符合实际的一些滤波。K期差分滤波 有一个频数响应。因此,增益是, 并且这一相位是 双向移动平均滤波由 确定。那么 在商业周期文献中更普遍的是HP滤波。在时域中,它由于下述平滑问题而产生 如果 ,那么并且没有平滑发生。如果 ,那么通过平方轨道误差测度以及在增长率方面的强烈变化而纠错, 被选定尽可能接近 。 如果我们忽略例子开头以及结尾的细节,那么一阶条件就能写成下面的形式: 就这样,解出 并且使用了滞后算子表达式 因此, 的平滑形由 确定。 叫作趋势分量 ,叫作周期分量 。于是,我们得到
过滤过程的频数响应由 来给定。现在 ,增益能被分析。对于 ,我们有 此外,如果 非常大,当不接近0时,就有 。这就说明了这一滤波过程有某些的优化性质。它不影响短期频数,而移动长期频数。 A.谱测度的说明 在第2讲中,我们已经考察了如下形式的线性过程: 其中, 是一个白噪声随机变量序列。接下来,我们证明了每一个弱平稳过程都能用这种形式表示。在此,我们关注弱平稳过程的一种可供替代的表示。这种表示法叫做谱表示法。 首先,我们假定 由一复值随机过程 所确定,其中 而且是一个无关的复值随机变量,使得对于所有的有, 。如果对于所有的 , 都有,那么 是实值的。为了得出这一点,把 带入,对于所有的以及,都有 , 。此外,对于所有的,,都有 。利用棣莫弗公式 推出 其中,复形式不存在了,因为, 。()的另一表达
法是: 其中,是的振幅, 是 的相位。从这个表示式我们可以知道是以为随机振幅,以 为随机相位变换的不同余弦波的和。 现在, 的自协方差函数由 和 给定,使得。 如果我们考察生成机制(1),现在我们就能把解释成频数对总体方差的贡献。这说明了,当 非常大时,和频繁地完成它们的周期性波动。不失一般性,我们把序列按 进行排序。我们引入阶梯函数 。这一函数叫做谱分布函数,规定如果,以及。那么分布函数由 斯蒂阶积分定义。这一函数能被更清晰地写作 因此,我们能用斯蒂阶积分的形式写 和
其中,我们用到了棣莫弗定理: 。这就证明了每一个零均值平稳过程有个由()概括的表达式,即 其中 是一个正交增量过程,使得,并且当, 使得, 。然后,分布函数就能定义成当,;当,;当,。 B.谱测度存在性的证明(严格地优化) 在这一附录中,我们证明0均值平稳过程的协方差函数能用谱分布函数表示。在证明之前,我们需要引入一些新的概念。 定义. 对于所有的跳跃函数和连续函数f,如果 则概率测度序列 依概率P 弱收敛。 定义. 如果一测度概率族包含一个依概率弱收敛的子序列,那么就说这一概率测度族 是相对紧的。 注1. 子序列不必收敛到原类中的一个元。这就是收敛被称作相对的原因。 定义如果对于每一个 都有一个紧集 ,使得 那我们就说这一测度概率族是紧密的。 定理(Prokhorov).令 是定义在上的一概率测度族。那么,当且仅当它是紧密的时, 是相对紧的。 现在,我们证明() 定理(Herglotz).令是 以零为均值平稳随机序列的协方差函数,那么,就有一个有限测度
使得 证明:对于 , 令 因为由 的定义是非负的,则我们得知 。值得注意的是,当 ,不一定收敛。我们可以写作 并且,对于 函数是不减的,右连续的且有左极限的,并且, 。那么 有对于,测度在都成立且 对于所有的 ,有 。因此,由Prokohorov定理可知,测度族是紧密的且相对紧致的因此,这就存在一个子序列 使得 ,其中指的是弱收敛。然后就能得到 注2:这个定理的复杂在于我们只假定了平稳过程。此外,如果我们加入 ,那么当 , 收敛。因为 ,由控制收敛定理可知。 接下来的两个结果关注的是傅立叶逼近收敛于谱密度的形式。为了证明当,傅立叶逼近几乎一定收敛于谱密度函数,我们首先证明下述命题。 命题 如果 且 ,那么几乎处处都有
。 证明:通过分类论证,对于 的所有子区间我们都能证明 。令 是区间 上的特征函数。很显然, 。因为 的有限线性组合是在上是稠密的,这里就有一个 ,使得对于 都有。那么, 由于 是大于0的任意数,于是我们得到结论。 定理.如果谱密度 ,那么几乎处处都有 证明:空间是一个以希尔伯特内积空间,其内积满足对所有有 。函数在 上形成一个正交基。这能通过验证 以及使用魏斯特瓦尔斯定理证明在 上, 无穷线性组合是稠密的而得知。 通过贝塞尔不等式,我们有 。于是 这就证明了 是一个柯西序列,因此 ,有一个通过 我们能够得出的均方极限。因此,它还证明了这一均方极限与 相对应。因此,用前面的命题可证 几乎处处成立。
麻省理工 Guido Kuersteiner 经济系 时间序列 第四讲笔记: 预测与Wold分解 我们考察一个弱平稳时间序列x,并且着眼于如何基于过去的观测值x得出xttt+1预测值。∧通常考虑预测值 xt+1使均方预测误差值最小。 这里是所有{x,…,xt1}可测函数的集合,因此,若存在且为常值函数①。根据映射原理有 其中为条件期望,定义为 其中为定义在与 同一样本空间的任意随机变量。 由此可得,对所有的,成立,因为根据条件期望的定义有 。根据映射原理,这说明条件期望是一个映射。这个结论对于实际应用并不是很有用,因为条件期望通常很难求得,但对于最忧线性预测的严格考察就很有用了。我们以 作{1,x…xt1}的线性闭空间,则最优线性预测满足 而且,根据映射原理我们又可得到 从而有 当 马上又可得 只有一种例外的情形,即当x是高斯过程,此时 t 特 别 的 , 我 们 写 成 最 优 线 性预测式 注意这时,所以xt+1可以通过先前预测误差 ∧的映射得到。我们通过递归定义xt+1,令 ----------------------------------------------------- ①更严格地说,是{x,…,xt1}生成的σ-域,比如,是样本空间Ω的最小σ-域,因此,
x,…,xt1是可测函数。 有 其中 根据映射原理,当时,等式左边就变成 由于,并作变换 可得 这里。现在,和式的最后一项根据()式 等于,在()式中对其进行替换,得出 同样地,并且。注意等式隐含假设是已知的或已估出的。这些方程表明所有系数都是可递归求得的。 向前h步的预测 我们现在希望通过x,…,xt1预测xt+h ,则线性预测式是 我们想运用这些一般结论来预测xh样一个过程,其形式为 t+ ,假设x是这t 其中并且 。定义, 并且令
注意。我们像以前一样通过递归求出,比如 由,我们现在可以算出系数如下 现在,因为并且,有 及。因此 由并且。又由并且我们可从()式得 并且。同样, 并且注意这里,如下 由这些关系可以对,及 进行递归估计。对于较大的t和,可逆的可以通过运用滞后多项式的参数而不是最优映射参数近似算出。这些对x预测我们现在可以从t以下式子得到 并且 故,所以又有 于是,对于马上可得 这 样 , 向 前 h步的预测就可通过迭代得出
由此,对于模型而言 Wold 分解 我们看到零均值平稳随机过程x能被分解成可预测分量和一个带白噪声序列的过 t程。令并且定义一步均方预测误差为 同样,令,于是是的一个闭线性子空间。如果,我们称过程x是确定性的。对确定性过程而言误差方差为 t 当。接下来我们证明Wold分解定理。 定理(Wold分解) 如果x是一个零均值且的弱平稳过程,如同在()中定义的一样。 t则 且 证明: 令 根据映射原理,我们有且。于是 同样地,根据的线性性和x的平稳性有。再一次根据的线性性和xtt的弱平稳性我们有与t无关。这就表明是一个。 同样令,则有一个无穷可数正交基。x在空间上的映射由以t下给出
为了进行说明,我们令,从而根据映射算子的定义,对于所有和某些有 对于此,我们首先注意到根据映射原理。然后根据Bessel不等式对于所有的k有 这就证明了上述不等式。接下来我们注意到 因为在上是正交的。这样,我们就证明了 并且 于是有 因为并且,但同样地由有。因为并且于是。重复上述论证并由得出,因此。于是 由我们有 最后,若则从而对于所有s有。但是根据()这
表明或,从而,这说明 这意味着是确定性的,比如预测误差方差为零。 一个过程若则被称为完全不确定的。此时,Wold分解则为以下形式 其中和的定义同前。这一类过程包括以前介绍过的模型。 ()式的向前h步的预测由以下给出 因为当 时。同样可以给出其预测误差方差为以下形式 当时,预测误差的方差趋近于的方差。
麻省理工 Guido Kuersteiner 经济系 时间序列 第五讲笔记 ARMA模型的估计与规范表达 首先考虑AR(p)模型的估计量。假设x可由下式得到: t 这里e是一个鞅的差分序列,即(或白噪声加混合值加动差限制)EtΜe=0。这里Μ包t−1tt括了{x,s≤t}的所有可度量方程。这一假设比先前作出的WN假设更为有力。叠加s'z=(x−1,...,x)ttt−p,则f的OLS估计量就为 假设WLLN成立,则有 这里 如果z是严格平稳的,E'zz=Γ且一个称为各态历经性的附加技术条件成立,则WLLN成ttt立。 下面我们将转向渐进分布。首先请注意ze也是一个鞅的差分序列。那么,如果ttp2+dsupEze<∞,且1ttt∑'2'2(ze−Ezze)→0,则我们可以运用一个鞅的差分CLTTttttt来表示 1
:如果另外有E22Μe=s,则E'2=2zzesΓ,。因此f的渐进分布就为 −ttttt1:→dTf−Ns2Γ−1()(0,) 估计 极大似然估计量就是对y求 的最大值,这里f(.|y)为{x1,...,xT}的联合分布。如果X'T=(x1,...,xT)是一个Gaussian时间序列,则似然方程就为 这里Γy=EXX'T()TT就是XT的T×T协方差矩阵。该协方差矩阵是下列参数的非线形方程。因此,直接对()求最大值就是一个高度非线形最优化问题。考虑x的条件密度,t该问题可以得到简化。我们可以将联合密度写为条件密度的表达式 如果x是一个高斯序列,则条件密度都是正态的,且有条件均值为x=PtΜlx,x的条件ttt−12方差为s2=x−PttΜlx。在第5讲中,我们可以看到,这些表达式是如何进行递归运算t−1的。因此,假设具有高斯特性,则对于y的每一个参数取值都可以采用递归的方式计算出确切的似然值。特别地,我们还可以避免T×T矩阵ΓT(y)的多次转换。 在特殊情况下,上述情况还可以进一步简化。举例来说,如果我们规定2e:N(0,s) t且 则 有 2
对似然方程求对数得到 如果我们忽略最后一项,并分别对f求logf(x1,...,xT;y)的最大值,可见,ML估计量渐进地等于OLS。这一结论是在e具有高斯特性的假设条件下推导出来的。如果高斯特性不t成立,我们仍然可以利用()作为标准方程。在这个例子中,估计量被称为准极大似然估计量。可见,在一定条件下,包括E22Μe=s,只要误差项确实是正态的,最后的估计−1tt量都有相同的似然分布。 在其他情况下,通过修改公式,可以近似地得到新的方法。特别地,我们发现,观察投影系数的限制性表现,可以有效地处理ARMA(1,1)。对于经过多项式f(L)=(1−fL)和q(L)=(1−qL)参数化的ARMA(1,1),我们可以得到似然方程的以下近似公式 令e0=0,可以得到全部似然值。现在我们有 这里c=1+2qf+q2−f2()(1)。 分别对f和q求f(x1,...,xT;y)的最大值,相当于求以下和的最小值 通常最后一项可以去掉,因为它没有渐进性的影响。对残差e进行递归运算,可以求出对t任意f和q取值的和S(f,q)的值,即 因此,我们可以用数值算法估计在不同的f,q下的ST(f,q)取值。 3
更常见的情况是,经过模型f(L)=(1−f1L−−fp..pL)和q(L=−q1L−−Lq)(1..q)参数化的ARMA(1,1)的ML估计量可以写作 这里m=maxpqX'(,),m=(x1,...,xm),且Γ=EX'mmXm。误差项可以近似写为 更进一步地,可以运用下式进行近似运算 以估计参数值。 估计量的渐进分布 标准方程ST(f,q)最小值的估计量是连续的,且为渐进正态的。更通常的情况是,令QT(b)=logf(x1,...,xT;y)。如果对于每一个C值,都有 则概率方面具有连续性,这里Q(y)是一个非随机方程。另外,对于任何d>0和邻域N(y0,d),需要有 在ARMA模型中,有y=(b,s),这里b=(f1,...,fpq1,...,q)。从中可看出,对于ARMA,当QT(y)为高斯似然时,满足()式的C值就为 C={b∈�p+q|f(z)(z)≠0,如果z≤1,fp≠0,q≠0,f(z)和q(z)没有共通零} 注意如果b∈C,则s是可识别的,。 总之,这一条件意味着,AR和MA多项式应当没有共通零,应当都有位于单位圆外的根,且分别为非平凡的p阶和q阶。特别地,它意味着两个多项式中的最高阶系数都不为零。下面我们给出的例子中,对q的两个不同参数值,MA模型都具有相同的自协方差方程。你可以检查发现只有一个模型包含在C中。 4
例 MA(1)模型 模型MA(1) 和 看上去是相等的,也就意味着它们包含着相同的自协方差方程。 如果满足条件()和(),且 则有概率y�→y0。条件()和()可被认为对含高斯标准方程的ARMA模型是有效的。具体的证明有些复杂,因为C不是一个紧缩值。这里我们将其忽略。 一个连续性结论通常是获得估计量的渐进分布的第一步。第二步包括证明y�T位于大概率的真实参数的1T邻域之内。在真实参数y0的邻域内进行泰勒展开,可获得估计量的渐进分布。如 这里 其中u=f1(L−)e,且v=qL−1()e。限制性协方差矩阵V(b)可以表示为ttttU=u,uV=ttt−1,...,ut−p+1和v,v−1,...,vtttt−q+1。注意限制性协方差矩阵并不依赖于s2。 例(ARMA(1,1)) 因而u=∑∞jtj=0f1et−且v=j∑∞jEv2=s21, tj=0q1et−。从中可以得出jt1−f211Ev2=s21,和Euv=s2。 ttt1−q211−.阶的选择 在能够估计ARMA(p,q)模型以前,我们需要选择AR和MA多项式的阶p和q。在第2 5
讲中,我们看到,自相关和偏自相关方程基本上构成了纯AR(p)和MA(q)模型的特征。 对于一个纯MA(q)序列,j次自相关系数的方差为 可由下式估计得出 这里 为了识别出MA多项式的阶,我们可以检查对哪些h值,待估自相关系数�r(h)位于下式之内 同样的方式,我们可以从偏自相关方程中识别出纯AR(p)模型。对于一个纯AR(p)模型,偏自相关方程f$(n)对n>p都有方差1。因而,我们可以检查得出,对于哪个j值,T待估参数f$(j)位于±之内。 T如果模型是一个混合的ARMA(p,q)模型,则上面的识别程序就会碰到麻烦。仍然看数据的自相关和偏相关方程,可得到两个滞后多项式的最大次数。但是,在信息标准的基础上,有一个更正规的程序,可用于自动地确定最好的模型。 如果序列{x}Ttt=1有一个真实密度f(x,y0),ARMA有密度f(x,q),则Kullback-Leibler距离就为 这里d(y0|q)=0,当且仅当f(x,y0)=f(x,q)。距离d(y0|q)的度量可以近似表示为 6
这里�21=∑e�2s是s2的极大似然估计量。最好的描述模型的方式就是通过计算AICTt(p,q)对于p,q的不同取值并寻找组合**(p,q)使得AIC(p,q)最小化。 增加p,q的取值会减小�2s的值。这是以对包含在式2(p+q)T中的模型进行过分参数化为代价的。可以看出,AIC是非连续的,因为它渐进地使得p,q变得太大。 一个修正的标准,称为BIC,就不存在这个问题。它被定义为 .诊断检查 一旦我们已经确定了p,q的取值,就可以采用上一节的方法对模型进行估计。一个明智的策略是从低阶模型开始,再试着逐渐增加AR或MR多项式的次数。注意不应当同时增加AR和MR多项式。 假设我们已经估计出了一个ARMA(1,1)模型,想检验是否ARMA(2,1)或ARMA(1,2)更为恰当。继续进行的一种方式是先估计两个模型ARMA(2,1)和ARMA(1,2),再检验是否附加系数显著地不为零。特别地,如果 , 我们将选择ARMA(1,1)。 注意在假设真实参数值为零的条件下,参数估计的方差取决于零分布。 另外一个程序是检验是否残差项为白噪声。如果已估模型定义正确,则数据中的时间 依赖性应当由模型导出且残差就是不相关的。如果我们从下式得到残差 并计算 则对于所有的j,r��(j)=g(j)g(0)都接近于零。这一假设通常采用Portmanteau 或eeeBox-Pierce检验。它成立的基础是 在H0=r(j)=0∀j的条件下,Q的极限分布就是Q:c2K−(p+q。渐进分布中p+q的自由)度的减少就由模型估计时参数的个数所决定。在实际应用中,K至少应为15到20。但是,对于过大的K进行低次幂检验,与对过小的K进行非连续性检验,这两者之间就存在一个替代关系。实际上,在进行检验之前,最好看一下r�(j)的提示。Box和 Ljung证明统计量 e 7
在小样本条件下,相对于渐进的c2分布比Q的偏差更小。 8
麻省理工 Guido Kuersteiner 经济系 时间序列 第6讲笔记 多变量时间序列和VARs 线形时间序列模型理论是伴随着单变量情形自然得扩展为多变量情形而发展起来的。 令x'=(x1,...,x)x为单变量时间序列的k维向量。如果下式成立 ,tk,tttEx=m ∀t t Ex−mx'()(+−m)=Γ(k)∀t存在,且Γ(0)<∞,则x就是弱平稳性的,这里ttktA='12(trAA)是欧几里德几何矩阵范数。则对于任一n值和任一向量a1,...,an,都可立即nn得出∑∑aΓ(i−l)a≥0。y的谱密度矩阵就被定义为 ilti=1t=11∞=∑Γ−ihf(l)(h)el 2ph=−∞假如有∑∞h=−∞Γ(h)<∞。注意f(l)的对角元素为x的单变量谱密度。而f(l)的非对角it元素则被称为x与xl,tmt之间的交叉谱。运用g(h)=E(x−m)(x+−) l,mltlm,thm1∞[()]=∑g(h)e−ilhf l,mpl,m2h=−∞注意通常情况下有g(h)≠gm(−h),以使f(l)的非对角元素为一般性的复数值。 l,ml,对于单变量的情况,x有一个无限滞后移动平均表达式。假设x纯粹是非确定性的,tt并为弱平稳性的,则 ∞这里y(L∑yj)L且e是白噪声序列的多变量序列,则有 tj=0Ee=0 t 1
E'ee=Σ tt且当t≠s时,有E'ee=0 tjk×k的系数矩阵y满足∑∞2以由有理矩阵多项式jj=0y<∞。如果多项式y(L)可jy−1(L)Θ(L)近似得到,则该模型就有一个ARMA 表达式。 Φ(L)(x−m)=Θ(L)e tt如果ΦL−1()定义完好,即有一个收敛性的序列展开,则向量ARMA模型就是因果性的。如果当z≤1时,Φ(z)是不变的,或当z≤1时,detΦ(z)≠0,则上述结论成立。 同样,当z≤1时,如果detΘ(z)≠0,ARMA的表达式就是不变的。我们可以写作 ΘL−1()Φ(L)(x−m)=e tt或 ∞(x−m)=∑Π(x−−m)+e tititi=1这里−Π=−∑∞ΠLi1I(L)I1=Θ(L−=)Φ(L)。 ii实际上,通常假设Π(L)可以由有限阶多项式近似得到。这就引出VAR(p)模型为 y=Π1ytt−1+...+Πpyt−p+et 这里y=x−m。通过下列方式将向量改写为 tt 则VAR(p)模型就被表示为y的一种伴生形式。考虑Yule Walker方程 tpΓ0)=E'''(y=t∑ΠEyit−y+Eey ittti=1 2
p=∑ΠΓ−'(i)+Σii=1 p=∑Γ−Π'(i)+Σii=1和 pΓh=∑Γh−iΠ'()() ii=1通过叠加Π'=Π1,...,ΠpΓ', p=[Γ(−1)..Γ(p)],可得到y的自协方差方程。这些方程t可写为 Γ)=Γ'(0pΠ+Σ 和 Γp=ΓΠ (p)且 Γp=Γ(i−j) ()ij则 Σ=Γ0)−Π'Γ'(Π. (p)对于AR(1),我们有 Γ=Γ−)Π'(0)(11+Σ Γ'(h)=Γ(h−1)Π1和 Γ'(1)=Γ(0)Π2,Γ(−1)=Π2Γ(0) 则有ΓΠΓΠ'(0)=2(0)1+Σ和 vecΓ(0)=(Π1⊗Π1),vecΓ(0)+vecΣ 解vecΓ(0),得到 vecΓ=−Π⊗Π−1(0)(111)vecΣ 在单变量条件下,对于VAR(p)模型最好的线形估计式可以按同样的方式得出 ∧y+1=PΜy+1=Πy+...+Πyttpt−p+1 t 3
=Π(L)yt+1=ΠL−Π−1()(I(L))et+1=(y(L)−I)e t+1∞=∑yest−s+1s=1这里yL=∑∞s1()=0yL=(I−Π(L)),对于向前h步预测误差,我们可得到 ss∧∞y t+h=PΜyt+h∑yest−s+hts=h其中预测误差为 ∧h−1y−=t+hy+∑ye thst−s+hs=0因此预测误差的方差就为 ∧h−1v'ar(y+−y+)=Σ+thth∑yΣy ss=. 估计VAR(p) 叠加向量y,有 tx'=y'−y''(1,−2,...,y−)和Π'=Πttttp1,...,Πp1×k×kp kp则我们又可写为 y=Π'x+e ttt或y'=x'Π+'e。可将这些变量代进矩阵 ttty'x''11e1Y=..,X=..,e=... '''yTxTeT则该模型可写作 Y=XΠ+e 其向量形式为 vecY(I⊗X)vecΠ+vece 注意Evecevec'()(e)=Σ⊗IT。似然值就近似写为下式的一定比例 TkT1−p−ogΣ−'1log(2)l(vec)(Σ−⊗IT)vec 222这里 4
vec'Σ−1⊗vec=1'1−Π−Π'()(IT)trΣ−=trΣ−ee(YX)(YX) 现在,ML估计量可被看作 ∧Π1='−1−'1vec(IX)(I)(IX)⊗Σ⊗⊗(I⊗X)(Σ⊗I)vecy =Σ−1⊗X'−1Σ−1⊗X'()()vecy ='1'(I⊗(XX−)X)vecy 这就表明,ML估计量就等于按一个个方程计算出的OLS值。 现在 ∧vecΠ−Π='1'(()(I⊗(XX−)X)vece k=⊗'−1⊗' (I(XX)(IX)vece k d这里1p'11(I⊗(X−))→I⊗Γ−,且1'()(0,)TpI⊗Xvece→NΣ⊗Γp,其中Γ=xx'pE。ttT接下来应注意到 Σxet1t(I⊗X)vece=... Σxetkt和 varxx'{0,如果t≠see=tltjssslΓ,其它 jp 因此参数估计的分布就是渐进的 ∧dTvecΠ−Π→N111()(0,(I⊗Γ−p)(Σ⊗Γp)(I⊗Γ−p)=N(0,Σ⊗Γ−p) 如果我们有区块限制,就像非格兰杰因果关系一样,就仍然可以一个方程一个方程地估计出上述体系。如果我们面临更多的限制,则我们需要估计出全部体系。 . 预测误差的方差分解 如果我们想分析误差项e对整个误差变量的贡献,则我们需要将体系进行正交化。令 tE''ee=Σ,RΣR=I。这里R是下三角型的。则ER''eR=Ehh=I。现在我们来看转tttt换后的模型 ∞y∑yR−1e=tjt−∑Chjjt− jj=0现在向前h步预测的预测误差就为 5
∧h−1h−1va=Σ+∑'=Σ+∑yR−1R−1''r(y+−y+)y ththCjjj=1=1系数C可以从下式获得 jC=J'AjJR−1 j这里 这样,根据Sims(1981),由变量h变动所解释的变量l的h步向前预测误差的方差的比i,t例就为 h−122r+l,i∑c li,jj=1这里=−1 rR,c=C。为证明这一点,注意预测误差为 lili,jjlili∧h−1y−y=−1t+ht+hRh+∑Ch tjtjj=1而由h的预测误差就为 i,t−推出j 这里R−1是R−1的第i列,而C是C第thi 列。相对预测误差方差就为 ii,jj ∧∧这里var(y+−y+)是var(y+−y+h)的thl对角元素。 ththttht如果一个人对原变量的变动而非正交化的新变量h感兴趣,则下一节所讨论的识别方t法就显得很重要。特别地,由于h=Re,且有R下三角型,我们可用e的第一个元素识ttt别出h的第一个元素。由于向量y的次序是任意的,则该识别方法就可运用于e的所有元ttt素。 6
. 冲击反应方程 与误差方差分解的概念紧密相关的就是冲击反应方程。 我们感兴趣的是波动e对变量yMA∞对yitl,t+h的影响。采用()t+h的表达式,我们发现 因此e对yyett+h的影响就是ht。如果我们对e的单位方差波动感兴趣,则我们需要考虑的it事实就是,e与其它波动是相关的。再次将新变量正交化,得到 it 这里R是下三角型,因而h是正交的。则R−1e=h,特别地,e=h。由于变量的次ttt1rt111t序是任意的,我们应将注意力限定在第一次变换上,而不至于失去一般性。注意一旦e1的t值固定下来,其它变换的值就可从R−1e=h中得到,这里我们设htt2=..=h=0。因此,tkte1对ytt+h的影响就为 的第一列 对变量的影响就为 通常变量的次序用来反映经济中波动的一定结构。比如,如果我们想建立货币政策波动的模型作为随机性的来源,则我们可将一个货币变量放在第一个方程中。 .格兰杰因果关系 假设y=(y1,y2)被分为两个子向量。格兰杰是根据预测的表现来定义因果概念。这样,ttt如果对预测y2毫无帮助,yy的格兰杰原因。公式 t1就不是t2t定义.(格兰杰因果关系)令y为一个平稳序列。将线形空间定义为 t 如果下式成立, 则y1就是yt2之因 t 7
如果下式成立, 则y1可即刻推出yt2。 t从格兰杰因果关系和投影定理中可以立刻推出,如果下式成立, 则y1不是y格兰杰原因 t2的t这里1e=y2−PΜ12(y)且2e=y兰杰非因果关ttt2−PΜ2∪Μ2(y)。另外一种描述格tttt−∪Μ,t−1t−1t−1系特征的方式是注意到 当时, 将上式写为格兰杰因果关系 则意味着 当时, 因为y121−hPΜ2(y−)∈Μttht−∪Μt−1。但是根据投影定理应有y21−PΜ2(y−)⊥Μththt−1,t−1t−1则 这里必须强调一点,因果概念常常与连续性紧密相关,也就是一个事件引起另一个事件必须在时间上提前。更重要的是,该定义实际上说明的是相关性而非因果性。所找到的格兰杰因果关系的证据可能是一种人为造成的伪相关。另一方面,没有格兰杰因果关系也有可能产生误导,因为真的因果联系有可能是非线形形式的。 因果性的另 一个定义要归功于Sims。 定义.(Sims因果关系)对于平稳的y1和y果下式成立, t2,我们说如t对于所有,都有 则y1就不是y之因。 t2t立刻可以看出,该定义意味着当j<0时,投影 中的所有系数d都为零,且投影残差与所有的未来值都不相关。 j 8
定理.格兰杰因果关系和Sims因果关系实质相同。 证明.假设y1不是y2的格兰杰原因。则 tt当时, 注意PΜ2(y)=PΜ2PΜ1∪Μ2(y)=PΜ1∪Μ2(y),有y−Pt2Μ2(y2)⊥ ttt−1ht−1ht−t−1t−t−1−ht−hΜ12−∪Μ−h>0tth,当h>0时,有 当时, 根据平稳性,上式相当于 当 时, 从()y−P122Μ2(y2)⊥Μ∪Μ这一与格兰杰因果关系相对应的式子,可以导出相ttt−t−1t−1反的含义。 中的格兰杰因果关系 令 这里e1,e于所有的t,s都不存在相关关系。则如果Φ(L)=0成立,yt2对s211就不是yt2t的格兰杰原因。从而必然引出以下事实 当且仅当Φ21(L)=0成立。如果ΦL−1()存在,则该体系的MA(∞)表达式就为] 因而Φ(L)y(L)=I,特别地 Φ21(L)=0Φ22(L)≠0 意味着,如果Φ22(L)≠0,则有y21(L)=0。如果y1不是y原因,则我们看到 t2的格兰杰t 从而得到 9
且Φ2(L)y2=e,因而y=yLe+yLΦ(L)y。则 t2t1t1()1t12()22t 因为y1(L)e1是M2的正交。现在可以立即推出 tt 上式证明了格兰杰因果关系也就是Sims因果关系。也说明了Sims因果关系就是格兰杰因果关系。从而必然得出结论,即这两个概念相当。 通过运用OLS一个方程一个方程地建立非限制性的VAR方程,我们可以对格兰杰非因果关系进行零检验,再检验下式 ∧∧中的系数Π21,1..Π21,p是否联合显著地不为零。对于双变量方程,可以采用标准的F检验。 ∧2计算非限制性的残差RSS1=∑et以及限制性回归的残差 :2写为RSS0=∑et。则标准式为 d在非格兰杰因果关系的零假设条件下,渐进相等性的检验就为TRS−RSRSS→c2(01)1p .结构型的VARs 假设我们有一个结构型的经济模型,该模型是由向量序列e(t)所集合的变差行为来源所主导的。结构型方程可将经济变量与推动波动 的现在值和过去值联系起来。 假设Y有一个相当的VAR(∞)表达式。 t如果e的元素个数与y的元素个数相等,且已知的A和B足以通过滞后的y解出e,则ttsstt我们可写为 10
且 这里B1(L−)有一个多项展开式Σ∞CLi0且 i 因为BL−1()满足+Σ∞−1i∞i(I=1BB0L)(Σ0CL)=I,则)i0=I必须成立。这就证明了(为 :且Cs有 将()代入得 :如果结构式和简化式形式是一致的,则A0Π=−C成立ss。非限制的V AR的新表达式就与的e行为新形式有关。 t 注意Π为非限制的简化式参数,总可以从数据中估出。如果理论模型()不限制体系的s:动态性,则我们总可以设Π=−A−1C。体系的s0s识别就被简化为寻找矩阵A0和B0。 由于我们可以连续地估计出简化式残差u�,则我们可以运用 t 对Σ=var(u)进行估计。 t如果我们赋予限制条件,即政策干扰项e不相关,且Ω=var(e)是对角型的,Btt0=I则 11
假设限制条件为矩阵A0是下三角型,就它就可以被识别出来。换句话说,如果体系仅有的限制条件为A0是下三角型且Ω为对角型,则结构型的VAR就可识别。 很明显,上面带三角矩阵的可识别例子仅仅是识别A0的许多种可能性的一种。 另一个有趣的例子是Blanchard 和Quah’s分解。他们的目标是将GNP分解为长期性和临时性波动。他们假设需求方面的波动仅仅对GNP有着临时性的影响,而供给或技术方面的波动则有着长期性的影响。另一方面失业受到两种波动的影响。他们假设 且c11(1)=0,则edt对∆Y无长期性影响。又假设E'ee=I。 ttt体系的VAR(p)的表达式就为 由于A0=I,则有 其目标就是估计出结构型的残差e,如果我们知道矩阵C=C的系数,这个任务就能完t0(0)成。从Ehh'=Σ中,我们有 tt 即 这四个变量有三个限制性条件。第四个限制性条件可从长期性限制条件c11(1)=0中获得。注意根据VAR的MA(∞)表达式和h=Ce,有1(I−A(L)L−C=C(L)t0t0。因此,特别地,1(I−A(L)L−C0=C(1)。现在有 12
这里D=det(I−A(1))。根据长期性限制条件,C(1)的上隅角就为零,则得到一个附加方程, 可确定系数。 13
麻省理工大学 Guido Kuersteiner 经济系 时间序列 第六讲笔记 关于VAR模型的更多结论 . 脉冲响应函数的置信区间 建立VAR模型的置信区间主要有三种方法: 1.用delta方法渐近展开 2 自助法 3 Bayes后验分布 .渐近展开 渐近展开的结论由Lütkepohl JoE,在1989提出. 可以证明: vecp�−p→d−1()Σ⊗Γ0nNp(0,) $02+Σ⊗Σ+vech(Σ−Σ)D()D其中D+=D−1(D')D',并且D满足vecΣ=DvechΣ. 脉冲系数以以下的形式给出: 1 C=AjJ'JR− j其中Σ=11 (R−R−') 换言之, C= G(j, p, Σ),使用delta法得: j�∂vecG(j,,Σ)�∂vecG(j,p,Σ)nvec$(Cj−n(vec(p−p)+n(vech(Σ−Σ))jvep'∂vechΣ' 于是有: vecC�dn−C→NAΣ⊗Γ−1A+AD+Σ⊗ΣD+A'(j)(0,1(p)1'2()2) 上述方法的问题是作为j的函数时这些限制区间以非常快的速度崩溃为0,因此不能表示出有限样本的不定度的阶数. 原因在于当j增加时,C变成以p为自变量的非线形上升的函数.因此渐近逼近在j很大时失效(例j如,1998年的报告中指出的容量畸变).Runkle在1987提出了一种基于自助法的方法用来代替上面的方
法. 在我们讨论Runkle过程之前,我们先回顾一下关于自回归的非参数自助法的一些结论(包括VARs) .基于自助法的置信区间 我们首先考虑自助自回归模型的一些问题: 考虑模型: py=t∑fy1it−+e e:iid =ittiy可以是多元的 tf$是普通最小二乘估计 得到估计残差: pe$$t=y−∑fy tit−ii=1建立经验分布: Gx1nn()=∑ e$(t≤x) (每个观察点有1/n) nt=1n在函数Fn(x)=Gn(x+e)中取随机样本{*ne},其中1e=t∑e (以此来保证经验分布具有零均值) 1it=nt=1生成: p*y∑f$**ytt−+e iti=1对每个随机样本,估计*f$的值 建立基于**cov(y,y)估计�*Ω,其中: tt−的kB*1**cov(y,−)∑(y,y)ttkBtbt−kb b=1其中**ytb,yt−kb是b阶自助重复. 于是有 2
*Ω�12*1−f$−$≤−Ω�2*1supf$−f$≤=On2|P(n()x)P(n()x)|() x几乎是肯定的. 这个过程的问题在于在单位圆附近它将失效.因为在单位圆附近,j的分布将会停下来成为枢轴,这样冗余参数将不能一致估计.对脉冲响应函数来说,f$−f0的置信区间也将因为非线形和f$的偏移变得不再精确. Runkle(1987)用和以前一样的方法来生成基于f$和e的样本.然后他计算脉冲�*Cj和建立置信控制区间: �*(a)*(1−a)[Ckl,jCkl,j] 基于模拟的�*Cj的经验分布的a和1−水平 这个方法的问题在于,很小的样本偏移会极大地影响这个方法的精确,使得初始f的估计畸变.于是自助估计这个时候又会产生偏移.(通常是向平稳区域偏移) 一个可能发生的结果是通过这种方法建立起来的置信区间并不包含初始的参数估计值. Killian (1998), 在Review of Economics and Statistics上发表的文章,提出了一种自助偏移修正方法来解决这个问题. 我们假设缩减的数据形式如下: y=v+B1y−1+...+Byttpt−p+ut 为了表示方便,我们令b='B''[B1,...,p] Killian 的方法执行下面3个步骤: Step 1a 估计VAR(p) 并通过下面的式子生成1000个自助样本值�*b 3
*y=v$+B�*y�**1−1+...+Bpyttt−p+ut 用��*sy=Eb−b�=∑b�*−b�()来估计偏移量 ss=1Step 1b 收缩偏移量修正后的估计值到平稳区域.偏移量修正后的估计是: ��1sb=2b−∑b�*=b�−y� sss=1Step 2a 以b�为参数值通过下面的式子生成另外2000个自助样本 *y=v$+B�*y�**1=1+...+Bpyttt−p+ut 然后重新估计�*b 我们现在依然想得到偏移修正后的�*b,Killian用y�来作为偏移的一个简单估计. Step 2b 计算�*=b�*b−y� Step 3 基于�*b计算脉冲响应函数: �*C=Cb�*s�*(,) j使用α和1- α 水平上分布函数�*C上的点来作为置信区间. Killian报告说道:这种方法产生的置信区间是非常精确的,而且只造成区间长度的轻微膨胀.而且不会像未修正过的方法那样产生严重的容量畸变.(使用delta方法也会造成容量畸变) . Bayes 后验法 Sims 和 Zha, 在Econometrica (1999)上发表的一种替代方法,基于Bayes后验,也包含一点先验. 令 B(L)y=uB(L)是m×m阶矩阵多项式 ttB0=Iuu',E=Σ ttB和Σ的似然函数与下面的式子是成比例的: 4
−T1qBΣ=2Σ−1(,)||exp(tr(S(B))) 2'SB=∑u$$()tu tu$t=B(L)y t使用在jeffrey意思上平坦的先验函数: −m+12|Σ| 这将产生一个联合后验函数.对联合后验函数中的B积分得到Σ的边际后验函数,型如: −(T+m−V+1)1pΣa−�1()2|exp(tr(S(B)Σ−)) 2其中V是每个方程中的估计出的系数的个数.这个后验函数是一个概率分布函数,是自由度为T-V的wishart分布的逆. 通过从NSb�−1(0,())中生成的T-V独立同分布的随机变量,我们能得到样本的二阶矩: 1T−V∑'xx T−Viii 并且令: *$1Σ=∑'−1(xx) T−Viii为了从(B, Σ)后验函数中抽样,我们就分别从下面的条件正态函数中抽出Σ,和B: *qBΣ$(,) (已经正态化使得积分等于1) 基于�*B我们能计算出脉冲响应�*C,如果PC�(j<x)是C�j的概率分布函数,则我们可以以下面的式子建立置信区间: 1−a=P(<C���j−C<b)=P(Cj−b)<C<Cj−a)
. 结构 VAR模型 一个比较特殊的约化模型的例子是当B0=I,B=0,s>0且对所有s>p,都有A=0.于是这个结构模型变ss为下面的动态结构模型: A0y=A1y−1+...Ayttpt−p+et 于是VAR的约化模型通过在结构模型上乘上一个A−10来得到: y=p1y−1+...+y+ ttpt−put其中p=−1: kA0AKu=A−1 , 0e tt从这些关系我们可以看出结构扰动e可以通过约化模型的扰动u来得到: tte=A0u tt如果A恰好是下对角的,则结构扰动就和用来计算脉冲响应函数的正交扰动一样.一种可以达到这种目的的方法是将模型表示成分块递归的形式. 如果模型不能表示成分块递归的形式,我们也能得到脉冲响应,因为e=A0u仍然是不相关的. tt . 当对模型的动态性不作限制时,结构VAR的估计. 假设我们有结构VAR: A0y=A1y−1+...+Ayttpt−p+et =p1x+e tt其中e:N(0,D) ,D是对角阵. t于是有: TkTxBDp=−2p−−1−11(0,)loglog|AD(A)| 2201−∑''1'' (y−p−x)(A0DA0)(y−px) tttt2t因此: vecp�=⊗'−1(I(XX)X)vecY Ω�=1∑e�'e$ ttn6
并且: D�TkpxBp=−−A−1DA−1'T−1'�(0,,)log2log|0(0)|traceA0DA0Ω 22最大值满足�−1��−1AD'�(A)=Ω(见在一般情况下Ω的最大值的讨论). 如果模型是由n(n+1)个参数确定的,则模型可以确定为约化模型.另外,我们需要对非线形方程集合使用2隐函数定理: =11'vechΩ−vech(A0D(A−0)) 假设A0=A(q),D=D(q) 于是有 ∂−1−1'vec(A(q)D(q)A(q))J(q)= ∂q−1vec(+−1⊗−1∂vecD()q=−2(Ω⊗A()(A(q)A(q)) 这是由于 dΩq=A−1dAA−1DqAq−1'Aq−1DqAq−1dAA−1'+A−1dDA−1'()()()()()()()()=−AdAΩ−ΩdAA−1'+A−1dDA−1'()() 以及' vecABC=(C⊗A)vecA 在局部,有: vechΩ=D+J(q)q 于是如果vechΩ=D+J(q)q是可逆的,q可由D+−1(J(q))vechΩ=q求出. 一个使得这些条件总是满足的简单约束形式为:令D是自由的,并且让 10. A0= qA1其中qA是自由参数.在这种约束下,就能够找到矩阵A0和D,满足11'vechΩ=vech(A−0D(A−0)) 因为这个分解是唯一的. 7
麻省理工大学 Guido Kuersteiner 经济系 时间序列 第七讲 单根渐近和单根检验 在本讲中,我们将平稳性假设弱化,得到这种形式的过程: x=x−1u,() ttt其中∞ u=t∑cej=0jt− j1使得∑2|j||c|<∞,以及 e .(0, 1). 在这种情况下 u是弱平稳的.假如多项式jttC∞L=∑j()cL是可逆的,这时我们可将x一个无限阶的AR模型生成的,=0jt 看作是由j因此有: CL−1()(−L)x=ett 其中AR多项式CL−1()(−L)在单位圆上有一个根.换句话说,我们考虑生成模型: x=p1x−1+...+ttpx−e tpt其中 (1−p1−..−p)=0. 特别的,我们对单位根的估计和检验感兴趣.结果表明,单位根的估计和检验在没有完全确定模型的短期动态性的情况下也能完成.我们能证明尽管模型是不完全确定的,但参数估计仍然相容,而且比以通常的T 更快的速度收敛.这个性质通常称为超一致性.这些事实使得建立在半参数渐近的一些新的统计过程能够成为真底模型. 为了建立必要的渐渐理论,我们来看模型中的方程 (). 将xn 展开成过去新息量的形式,我们得到nxn=∑u+x ,我们现在使用BN分解来进行分析: 1t0t=∞u=t∑ce=0jt− jj我们的目标是将ut 表示成独立的信息量之和加上两个平稳过程的差分的形式.我们首先来得到滞后多项式 C(L)的一种新的表示形式: 1
C∞(L)=∑cL i=0i∑∞∑∞∞∞∞∞=−+2cc(cc)L(cc)L...=0i=1i∑−=1i∑+=2i∑−=2i∑+=3iiiii=2c+(L−1)c+(L−L)c+... 00我们现在来定义系数为�∞c=CL=C(1)+(L−1)C(L),其中j∑c使得()�k=j+1kC�∞L=∑j()c%jL. 于是我们立即可以得到u=C(1)e+(L−1)C�(L)e常写为J=0ttt 我们通e%=�tC(L)e.于是过程utt可以写成: u=C(1)e+e%%t−1−et tt如果我们将所有u加起来,这是差值e%%t−1−et除了第一和最后一项外,相互抵消.这个t和通常被称为伸缩和(telescoping sum),因此我们有: nxn=C(1)∑e+e%−e%t0n =1注意到Ee%t=0和var(e%t)<∞,于是我们可以得到: 1∑22j|c|<∞⇒j∑c%<∞ j 2
因为 ∑∞2 %%∑∞∑∞2c=0+(|c|) j=0j=0k=j+1kj∞∞1∞1≤c%+∑k2c20(||)(|=1∑=+k∑c =+1k|/k)jkjkj∞1∞∞1≤c%+∑220j|c|c|k=j∑j=1∑ k=j+1kj∞1∞1=c%+∑220j|c|∑|c|k<∞ =j=1kj其中第一个不等式由 Cauchy-Schwartz不等式推出,最后一个等式由计算12|ck| /k在两个求和号中出现的次数得到,我们现在定义 [0, 1] 上的随机过程如下: 1[nr]1Xn(r)=∑u1j+x0 n=nr ∈ [0, 1] C[nr](1)1%%1=∑e+[e0−e[nr]+xj0nj=1nn 其中 [nr] 表示小于nr的的最大整数.过程Xn(r)右连续并且存在左极限.具有这种性质的函数称为CADLAG. 问题是这种右连续且有左极限的函数空间在均匀度量下是不可分的.不可分性将导致函数空间不可测,使得弱收敛的理论无法应用.但是对这个过程来说,这并不重要.有很多方法可以解决这个问题.我们能用连续逼近来近似得到xn(r) .或者我们使用另外一种度量,称为Skorokhod度量,来使得CADLAG函数空间是完备的和可分 3
的.我们不需要讨论具体的细节,在这里只给出必要的一些证明,从而得到弱收敛到一个极限过程的Xn(r) ,这些结论在概率论中称为Donsker’s 定理,有兴趣的读者请参考Billingsley (1968). 我们已经看到e%t是平稳的,并具有有限方差.可以证明: 1supe%−e%|(0[nr])|→0, rnp不妨设1px0→0,于是可以得到 nC(1)[nr]Xn(r)=∑e+o(1) =1jpj由固定r的中心极限定理直接得到结论: =C[nr]1∑[nr]X2n(r)(1ej→N(0,C(1)r) nr=1[n]其中[nr]→2 r,注意到C(1)=2πfu(0).另外有固定的r1 <r2<r3 ... < rm ,我们有: ndX2[n(r1),Xn(r2)−Xn(r1),...,Xn(rm)−Xn(rm−1)]→[N,(0,C(1)R)] 其中R=diag(r1,r2−r1,...rm−rm−1)). 需要指出的是增量Xn(r)−X(rini−1) 是相互独立的.由此我们给出了Xn(r)的有限维分布,并且收敛到有限维的BROWN运动分布.表示为B(r),其中B(r)是定义在标准BROWN运动W(r)上的一个过程.标准BROWN运动有以下性质: 1. W (0) = 0 (t) 具有平稳的独立的增量,并且对所有的t和s,我们有 W(t)−W(s)∼N(0,(t−s)) 4
3. W (t)∼N(0,t),∀t (t)是样本轨道连续的 我现在可以定义B(r)为sW (r).我们已经证明了这个极限过程有与BROWN运动相同的有限维分布.为了证明Xn(r)在函数空间中的收敛性,我们还需要一些附加条件:对所有ε,η > 0,存在δ> 0,使得当n趋于无穷时,有: P(sup|Xn(r)−Xn(s)|>e|)<h |r−s|<d证明可以在Billingsley中找到. 自此我们可以使用连续映射定理来分析一些统计量了.第一个结论关于样本均值的渐近表示.注意到在非平稳的情况下,样本均值是收敛到一个随机变量,而不像在平稳时那样收敛到一个常数.特别的,我们有: n11∑x⇒∫B(s)ds 3tn201其中∫B(s)ds是一个标准黎曼积分, ⇒表示在函数空间中弱收敛.有时简写为01∫B(s)ds=∫B,此积分是一个随机变量,因为它以一个随机过程作为被积变量.现在0我们来这个结论的证明: 我们已经有 t−1x=∑u+u+x0 tjtj=1使得∑nnx=∑(S−+u+x),并且有t−1S=1t=1t1t0tt−=∑u,于是可以得到: t1=1jj1∑1n∑S1∑uxx=t−+t+0 3t3n2n2t=nnnt ∑n∫−1X(r)dr+O(1) tpt=1n因为∑u−1x−−tt=On2和10=O(n23p()p),并且对t1t≤r<和n1t1n2nnn∫−dr=有: nn 5
S[nr]SXr=+O=t−1n()p(1)+Op(1) n使得 1n∑13x=∫X(r)dr+Op(1) tnn20t=1由于积分是连续的,于是有连续映射定理可以得到: 11∫X0n(r)dr⇒∫B(r)dr 0积分1∫B(r)dr线形化之后是高斯分布N(0,ν),其C1)2中(v=.这个结论也可以从031E∫B(r)dr=0和111 E2(∫B(r)d=∫∫E[B(r)B(s)]drds]看出. 而000011EB2[(r)B(s)]=C(1)min(r,s),因此2=2CC(1)v∫0∫rdrds= 03接下来我们来看对xt样本方差的分析.特别的,我们有: 1n∑21n21nx=∑(S+x)=2t2t0∑2+2(S+xSx) ttnn200t=1nt=1t=1n22tSxCnt =2∑[NRSxC]20(1)[nr]0(1)∫−1dr+∑1nC∫−+ =(1)n=nC(1)X221(r)2(1)1()x =Cx0CXrn0(1∫d+n0∫dr++Op(1) C(1nC(1)n→d1C22(1)∫W(r)dr 0 6
此结论由前面的结论和连续映射定理推出X,特别的1, n(r)∫dr=Op(1) 0C(1)我们同样对这次形式的得分函数的性质感兴趣: 1n∑x−1u=∑(S−1+x0)u tttnnt=11n =∑S−1u+op(1) ttnt=1我们使用部分和,注意到 nn∑VS2∑S+2−2[( t−1u)Stt−1]tt=1t=1n ∑u2(+2uS−1) tttt=1nn =∑u2+t∑uStt−1 t=1t=1使得 7
1n∑1nSV21n2−1u=(∑S−∑u) ttt=2n=1ntt=1111n =S2−∑u2(nt) 2nnt=11S1n =n22[()−∑u] t2nnt=1→d1B22((1)−s) 2其中s2=∑2c,于是有: j1C2B2(1)−s=W21−22((1))((1)1)+(C(1)−s) 22可以证明1C2W2(1)((1)−1)还可以表示成随机积分的形式1 2∫BdB 0同时注意到2 W(1)∼ χ2 ,于是可以立即得到 1�n−1∑xu⇒∫BdB+lna−1)=t−1t0( n−2x212t∫B0 8
其中�xxa=∑tt−1∑以及x. 2t = xt−1 + utxt在这里需要指出几个事实:首先,估计量以−1Op(n)的速率收敛与真参数值,而不管模型的动态性是正规的.这和平稳情况下构成鲜明对比,在平稳的情况下,模型的未正规性将导致不相容性. 在模型是非正规的情况下,也就是说,如果新息量ut 是序列相关的2 ,极限分布就会出现一个渐近偏量λ/ B.正是这个偏量使推测变得困难,因为在这种情况下不可能从表中查得临界值. 注意到如果λ=0,也就是说, u:iid 于是有: t�WdWn(a−1)⇒∫ 12∫W0使得极限分布是无冗余参数的.换句话说,这时我们不再需要进行t检验,因为α的极限分布不再依赖于未知参数. 在这种简化的情况下,单根检验将用nr�(−1)来和有下面分布的统计量的临界值来比较 1W2((1)−1)2 2∫W(r)dr这是可行的,因为在假设H0 :ρ=1下,我们已经证明了 1W2((1)−1)nr�−1)⇒2( 2∫W(r)dr临界值可以从情形1的表格B5中查到,比如:如果n=100,在单边检验中有nr�(−1)<−,我们可就以在5%的水平上拒绝假设H0 .我们也能通过t统计量来判断,假设u2iid (0,s) t�n−1r�−t=�= s�∑−12rs(x2t1)其中 9
s�1=∑x−r�2x=∑+−�2(−1)(u(rr)x−1) ttttnn1=∑21+r−�∑�p222(u)()x−1u+(r−)tt∑x→s nnn−1ut并且: s221(W(1)−1)�1nr−∑x22⇒2(1)() n2t−11122(s∫W(r)dr)201W2((1)−1)于是: 2t⇒1 12(2∫W(r)dr)0t检验表格已经做好放在情形一的表B6里.现在我们来看ρ的依赖于拟合模型的极限分布,真底模型仍然未变.特别的,我们拟合一个常数,此时真过程仍然假设为 x=x−+ue.这个自回归参数的估计量可以写成: tt1t 其中u = C(L)tt�∑nn(x−x)(xx−1)∑(u−x)(x−x−1)r2t=+=2tt122(x(xx)=∑nnnu(xx−1)∑uxx∑u=+t=t−=t12212 2xx2(=−1)xnxtt其中1nnx=n−∑x , 1x1=n−−=2t∑x tt=2t−1nn于是得到uxxu) r�−∑∑1=2t−1=2t()+Op(1) 1∑n2xx2=t−1nn现在,利用上面的讨论,我们可以得到下面的结论: 10
1∑n222x−⇒C(1)W(r)drn2t=2t1∫ 121n12222x=(3∑x)⇒(W(r)dr)C(1) nt=2t∫n2012∑n2C(1)ux−⇒(W(1)−1)+l nt=2tt12x1∑nu⇒∫WrdrW1C2(()())(1) nnt=2t于是推出下面估计量的渐近形式 C2(1)12(W(1)−1)+l−W(1)W(r)drC(1)nr�0−⇒2∫(1) C222(1)[∫W(r)dr−(∫W(r)dr)]如果λ=0 ,这时渐近分布无冗余参数,临界值可以从情形二的表格B6中得到.基本来说,有两种方法可以避免模型是完全缺定的问题.第一种是对模型的短期动态性拟合一个修正参数模型.这个方法是我们已经讨论过的Dickey-Fuller检验(ADF tests)的基础.第二种方法,Phillips Za检验,对检验统计量进行非参数修正来解决序列相关的问题.第二种方法的好处在于,在不需要对ut 的相关性的参数得出具体形式的情况下,就能进行单根假设的检验. Phillips Za 检验使用一种非参数修正来得到无冗余参数的极限分布.它的形式如下: l$n(r�−1)+ 1∑2x2t−1n其中ρ是单根的最小二乘估计并且 l$1=p�−s�(2f(0)n) 2其中: s�12$1��2n=∑ut=∑(x−a−rxtt−1)nn 11
并且Mj 2p�||=∑−$f(0)(1M)g() j=−M其中pg$=1(∑$$j)n−utut−j 于是l−l$→0,因为M1=O(n4)并且1∑⇒1222x∫W(1) 2t−1(r)drCn0使得 112l$(W(1)−1)−W(1)W(r)drnr�0−+⇒2∫(1) 12∑22xW(r)dr(W(r)dr)2t−1∫−∫n现在我们就能使用标准表了,尽管并未完全确定模型的动态性.特别的,在一定的置信度上,零假设将会被拒绝,只要: l$nr�−)+<c1(11a ∑2x2t−1n或者l$: nr�−1)+>c2(1a ∑2x2t−1n其中1ca, 2ca是在alpha水平上的一个单边检验的临界值.在t统计量中有类似的检验.注意到Monte Carlo法的研究表明,在一些模型中Za检验将会造成模型的样本容量发生畸变,比如∆x=e−.这里xttt−1t 是非平稳的,而Za过多地拒绝了原假设. 正如上面提过的,用参数方法来去除极限分布中的冗余参数实质上就是要完全确定模型的短期动态性.假设f2(L)x = e; : iid(0,s) 并且f(L) 满足f(1) = 0. ttt于是我们可以将f(L)写成: fL=−fL−fL2()12−fLp...p =1−++++−2(f1f2..f)(f2..f)f−fpppLL...L =1−f+f+f+f+−+f+21(1..r)L(..r)L(1)(3..r)L(1−L)+..+fLp−p(−L) 于是∆x=Πx−1+Π1∆x−1+...+Π∆tttr−1xt−r+1e其中Π=−(f+..+f)并且 tiirΠ=(f1+..+fp)−1 12
于是在这个零假设下: H0:f(L)只有一个单位根 我们有Π=0 和∆==exuttt1−ΠL−Πp1是平稳的.记变量 (1..p1L−−)1z=(∆x−1,...,∆x−,1,x−1)并tttpt计算 b�=∑'−1(z)∑zx ttt于是有 D�−=1∑1111n(b)(D−−−−nzzDn)D∑ze tnttt1n2其中 Dn=O 1n2nΓ00r注意到 D1∑1−1zzD⇒01∫B ntt0BB2∫∫ [Γr]=cov(u,u) ijij因为p−pn−1∑x→0和3n2t∑Vxx→0,因此有: tt 13
−1Γr0−1D1∑1−1−1(zzD)⇒1B∫ ntt02BB∫∫并且有: 1∑u−1enttMD−1∑ze=1∑ue− nttntpt1∑ent1n∑xt−1et前p−1项是收敛到N02(,sΓr),这个结论本身非常重要,因为它证明了模型的平稳部分可以用标准推断方法来估计和检验.得出这个结论的原因是非平稳成分的参数以更快的速率收敛因此在参数渐近理论里面相对于平稳成分来说可以看成是常数. 模型的非平稳成分的性质由下面的式子得到: 1∑∑Cs2(1)(e,x−1e)⇒(sW(1),(W(1)−1)) tttnn2其中C=−Π−Π−1∑1(1)(11..p),x−1e=∑S−1e+op(1).现由BN分解,我们有: tttnn=C∑t−1S+%−%−1(1)e(e0et−1) t=1j于是得到 1nt−1∑x%11%−1e=C(1)∑ee+e0∑e+eet−1 tjtttn=1=1nntj⇒C)s2(1W2((1)−1) 2这些结论表明: 14
112d(W(1)−1)−W(1)W(r)drnr�−→2∫0(1)11 C2(1)(∫W(r)dr−(0∫W(r)dr))0这可也可从下面的推导看出: −1121∫B0∫B0∫B−=0 12121∫BB−(B)−10∫0∫0并且: ∫B=C(1)s∫W(r)dr 12222∫B=C(1)s∫W(r)dr 0于是得: C2n�(1)=−2WWsr−s+W2(1)((1)((1)−1)) B2−B2∫∫(∫)211 =W2[((1)−1)−W(1)W] C22(1)[W−(W∫∫∫)]2我们可以看出此时极限分布不再存在偏移量,但是仍然依赖于冗余参数.偏移量消失是因为我们建立了刻画短期动态性的正确模型.但不幸的是,极限分布仍然依赖于未知的长期过程的方差.这个问题可以直接通过对参数进行t检验来解决. 我们考虑一个t检验H0:r=1 n(�−1)(r�−1)=�111−1 se$rs−(D2n∑zzDtnp+1其中−∑−−1D111−(zzD2n)tnp+1代表矩阵∑1−1D11(zzD−)2n中的第p+1个对角元素. ttn我们之前经证明了: 15
−∑1−1−1D11(zzD2n)tnp+1⇒ 1Cs22(1)[∫W−(∫W)]2因此现在可以得出: 11nr�2−(W(1)−1)−W(1)W(r)dr(1)⇒2∫0 �D1111111(22n∑−−s−zzD+(∫W(r)dr−(∫W(r)dr))2tnp100这个是不含冗余参数的.临界值可以从表B6中查到.需要指出的是极限分布是与滞后∆x估计参数的个数无关的. t−的待i 16
麻省理工大学 Guido Kuersteiner 经济系 时间序列 第八讲笔记 共积(COINTEGRATION) 这一讲我们将共同学习非平稳时间序列向量的联合分布。许多经济模型包含了这些非平稳时间序列的关系。平衡条件意味着不同的变量存在着一种函数的关系。共积可以看成时具有随机趋势变量之间平衡的统计表示。它着重于这样一种理念:各个时间序列之间的趋势互相相关,而且在还将共享某种共同的趋势。 我们将介绍以下定义。 定义 一个向量时间序列Xt,如果所有Xt分量都是非平稳()的,但是是协方差平稳过程(),就称为一阶积分(),记为I(1)。我们用I(0)来表示一个协方差平稳过程。 定义 我们就一个时间序列向量Xt是共积的,如果Xt是I(1)的,并且存在一个向量 α ≠0,使得a'Xt为I(0)的。 如果一个时间序列向量的变量间存在一些(线性的)关系,使其平稳的,那么它是共积的。在这个意义上这些变量都存在一些共同的随机的趋势。它们不会长久的互相偏离得太厉害。已经找到有共积关系的经济例子包含了消费,收入和利息率差分等等,这些许多应用方面的一种。 共积过程表示法 对于平稳过程,我们可以找到一个Wold表示法(),在某些条件下有ARMA逼近法。由于共积过程是非平稳的,我们不大可能找到一个这样情况下的Wolf表示法。但因为共积系统的某些方向a是平稳的,所以我们可以期望在这些方向周围建立起表示法。在这一部分里,我们将要看到在某些合适的假设下,共积时间序列有三种等价的表示法:Xt的阶数的VAR表示法(),阶数和第一差分的ECM表示法(),三角表示法()。还有一个对差分的Wold表示法,虽不是用于估计或检验的目的,但用来定义一个随机过程却是一个方便的起点。 假设是I(1)的。根据Wold表示定律,我们有 () 1
其中,白噪声(),且和 。在这里为了简便起见,我们假设是独立同分布序列。如果多用些功能强大的中心极限定理,这些假设可以适当放宽。滞后多项式是一个的滞后多项式矩阵,象征性的元素 。我们假设满足,这是一个比平稳性更强的限制。 通过BN分解,我们有 其中,我们使用了,里面的,,以使得于是有 其中和是平稳的。很显然是的。为了使为共积的,必须有一个向量,以使得使平稳的。从我们可看出只有,即需为降阶()的这才有可能发生。 因此我们已经发现对任何维的矩阵,它的列包含在的左零空间中。由于于是有 。 我们注意到在本身不平稳且其方差没有定义时,有确定的方差,并且 的线性组合以一种平稳的方式在零附近波动。 从上面共积的定义中我们知道最多只能有到k-1的共积关系。为了导出这个结论我们假设是一个满秩的矩阵,于是这暗含了我们有尽可能多的向量作为的元。于是有 或者,表示是共积的。那么不能包含多于个共积的向量。现在我们来讨论共积时间序列的不同表示。 2
三角系统表示法 的事实包含了对单位圆中的,。因此不是一个可逆的过程。换句话说对没有无限或有限阶的AR表示。也就是说第一阶差分趋势的数据和对一阶差分的VAR进行估计会导致一个不确定的模型! 由于是r降阶的,r<k,如果是共积的,我们可有,其中和都是的常数矩阵,两者都是列满秩的(因为在上面我们已经知道是在的零空间中的)。 现让H为一个的满秩矩阵,使得,其中因为假设是满列秩的,在的向量可能的重新排列后这样的H存在。由和,我们现在有 令以使得是一个平稳的过程,并且注意到我们能够对进行分区,设,其中是一个的向量,并且是的向量。于是,由Wold分解 其中再次是一个平稳过程,以使得 这个表示法称为三角表示法,当我们只对长久时期的参数B感兴趣时这种表示法特别有用。我们应注意到三角系统的确定平衡为在后面我们将会看到不需要确定系统的短期动态,我们就可以估计B。 VARMA表示法 因为是不可逆的,从可知对第一阶差分没有VAR表示法。恩格和格郎格( )在1987年指出了有如下的VARMA表示 其中和,以使得是有限,降阶的,并且是 3
有限的。并且更有这种表示优点是对,可以直接于Wold表示法相关。 误差修正表示法 从一种应用的角度出发,常常假设和是有限阶的。在这样的情况下的阶数降成一个VAR。我们用一个不同的记号来表明为了VAR的正确性,限制必须要强加给。我们记为 或者 以同样的思路,在BN分解之后等价于 其中 并且 由于,可知有降阶。令,以使得可写为我们考虑对这个动态系统长久平衡的提示。我们知道长期平衡的特征是和,对所有t。因此VAR暗示了的长期值满足于是矩阵包含了元素之间的长期或者平衡的关系。 ()表示法称为VAR的误差修正表示法,其中是误差修正项。使用这个术语的原因是从长期平衡来度量偏离,通过作用于,引入了对平衡的修正项。 更一般化我们可以用来表示的联合随即过程的定义。于是若满秩,有r个变量共积,其中0<的秩=r<k, 是I(1)的且如没有共积的向量,则在阶数上是平稳的。 共积向量的估计 上述的这些不同的表示法在分析共积系统性质和构建估计量是很有用的。在第七讲中我们已经看到基于OLS的估计量呈现出稳定和以n为收敛率收敛到一个极限分布。如果和典型序列相关,那么极限分布将依赖于噪声参数。更进一步,由于典型 4
的和亦是同期相关的,OLS估计量同时存在一些问题。不像这个平稳的情况下联立性会导致不稳定的估计量,OLS在共积的情况下是稳定的。同样的,这个渐进分布被额外的噪声项所影响。一个OLS估计量的非参数修正能够用来消除这些噪声参数。乔森(Johansen,(1988,1991))设计了一个可供选择的估计程序——用高斯似然法来估计()的所有参数。这个过程渐进的消除了噪声参数,并且和修正的OLS过程等价。 在这一部分里我们重点介绍共积向量的OLS估计量。假设我们由一组系统方程 令不是直接的将这些规范直接和的Wold表示相关,我们直接假设有一个多变量的Wold表示 其中新的独立同分布的序列。正如前面所说的这些假设在需要的时候可以放宽。 在继续进行到分析OLS估计量之前我们先概括总结一些多变量过程有用的渐进结果。对,有其中是一个由独立成分组成的多变量的布朗运动。这个协方差矩阵可以被分解为 其中并且 可以看到对 其中是ito-随机积分。接着有 紧接着出现,可以简记为 5
现在考虑共积向量的统计量 其中和从 我们可以递堆系统来获得,于是OLS估计量可以写为由有 其中我们用记号来表示矩阵A的第分块矩阵,其中这些分块在内容上常常很显然。我们也可以看到对 其中的渐进分布由以下给出 如果序列不相关,并且和不同期相关,就有 这暗含着协方差矩阵是对角的,元素如下 如果我们对向量标准布朗运动分区如,我们可以有 6
一个启发式的论点说明了这个估计量是什么。如果我们以做条件那么是的极限,其中是,固定。由一个,其中因而,以为条件我们有在这些情形下,可以看出以为条件 无条件的因此的分布是混合正态的。注意到这些结果表明了 一个重要的混合正态渐进的结果是B上的t和F检验是渐进所,所以标准的推论性的技术可以用在B上检验的限制。原因是t和F比例有不依赖于的渐进分布。 我们现在回顾一下这样一个情况,不成立,比如扰动既是暂时的又是同期相关的。在这样一个一般化的情况下我们有两个扭曲极限分布的效果。其中有一个偏项更进一步,使矩阵非对角。和的结果不再无关。这就意味着我们分析渐进分布时不能再以为条件。我们可以通过非参数估计矩阵和修正OLS的估计量的渐进噪声项来解决这两个问题。然而,这样不能够消除和之间的相关性问题。这个问题可以通过旋转系统以使其不相关来处理。 定义广义布朗运动如下 于是通过已知,运用的条件期望,可以得到旋转的布朗运动,比如从正态分布的标准自变量(注意到对固定的r,B(r)是联合正态分布)得到我们形成这些投影的样本比较通过置 7
现在来看一下。旋转OLS估计量的渐进分布是 其中和独立。这里通过由的常数估计修正可使这渐进分布消除噪声参数。最终的称为完全修改估计量使用了这些了变换的样本比较。 这些估计量能够通过如下程序计算。运行一级OLS回归可以使来计算残差 于是这些残差可以用来形成噪声项的一个估计量。由这个原因我们用一个核函数k()来形成 其中然后我们用来构建估计 ,通过一个核估计量得到。于是这个完全修改了的估计量可以通过 来构造。其中包含元素于是有 其中这意味着完全修改的OLS估计量又一次的是渐进混合正态的。特别的,这意味着对共积向量的限制的标准检验可以实行(这些检验不应和下面将要讨论的共积检验混淆)。 共积检验 在这一部分我们将给出简短并且不完全的共积检验讨论。基础的,有三种共积检验类型。 给出了可能性比率检验。使用了基 8
于残差的检验并且有更深的讨论。共同趋势检验由 引入。我们在这里只介绍基于残差的检验,因为在它们的构造之后,有一些简单的似乎直觉。 如果是共积的,从映到的残差应该是平稳的。另一方面,如果残差是随机的我们可以在没有共积的零空间构造一个检验。因此用早前我们从单位根检验来构建共积检验是可能的。 我们可以用OLS从B估计和计算残差。如果是数乘我们就可以运用检验残差 因为估计,所以需要调整关键值。从可以看出在没有共积的零空间里 可以看出当和独立时,和。于是有 以使得OLS的估计量的分布在于上的回归里是噪声项。统计量又一个渐进分布 极限分布只依赖于的回归量的数目。将关键值制成了表格。 这个检验的一个问题是它的共同方差(univariate)本质。这个检验由于对系统的级数(orderings)非常敏感,导致了非常不同的结果。 完全系统估计 在和独立同分布的假设下,系统()可以最大似然估计。收集参数使 9
矩阵,并且变量使得,以至于 于是似然函数为 其中似然函数可以通过着重化参数来最大化。换句话说,我们首先固定 和,并且关于最大化L。通过回归方程映到我们可以完成最大化。并且推出 如果我们记和,有 注意到和/本别是在上和在上的回归残差。于是这个集中似然可以写为 现在我们加上一些限制:在有共积关系,以使得,其中是一个维的系数矩阵,是维的矩阵,包含共积向量。很方便的我们定义如下矩阵 对一个固定的,有OLS回归容易找到系数和如下 和 10
其中是从到的回归的OLS估计。是回归的平方残差。似然函数在集中和之后与 成比例。如果我们选择以使得最小化,此时可能性可以最大化。注意到根据一个分块行列式 以至于我们可以相应的最小化 可以通过选择的第r个最大的特征值对应着的特征向量来最小化表达式。为了导出此,注意到是对称的,以至于的特征向量满足 或者 其中是一个对角矩阵,含了排序后的的特征值。于是 或者 注意到是正定的,以至于对任何向量x,,它和()一起表明了所有的特征值满足由于只有规范化(normalize)时特征向量才唯一,我们选择以使得 由于,通过选择的r大的特征向量可使()最小化。 11
与这些特征向量相对应的参数是规范化的前r个特征向量,以使得 对余下的参数的估计量可以找到如下 和 最大似然函数的值为 r=k时,不受限的可能性的值为 通过使用这些结果,在考虑共积空间的维数时,人们可以构造一个可能性比率检验。检验的零假设是攻击空间的维数最多为r。在零假设下余下的无限制的特征值在统计上并不异于零,对。特别的,我们可以r=0时没有共积的零空间(null)。这些检验的可能性比例(likihood ratio)的可为 这些统计的极限分布可以根据k-r维的布朗运动W(x)来表达 我们可以针对检验的零空间。特别的,如果r=0,这样导致了共积的另一检验。对应的似然比率为 做为如下的最大的特征值的渐进分布 其中,再一次的,W(r)是r维布朗运动。我们可以在,“偏于共积的最大似然估计——在金钱需求的应用”,牛津经济与统计的公告,找到这些制成 12
表格的关键值。在那篇论文里同样表明了如何对共积向量的统计假设检验和怎么样在分析中包含时间趋势。 特别的,如果我们检验线性假设,其中是一个维的共积向量,,于是似然比率检验可以通过在零空间和另一个可供选择的渐进分布估计模型。受限模型的估计量是对属于所有矩阵的集合,最小化如下公式得到 对不受限的情况以同样的方式得到同样的解。 13
麻省理工 Guido Kuersteiner 经济系 时间序列 第九讲笔记 GMM估计 导论 在这一讲中我们考虑基于GMM(the generalized method of moments)准则(广义矩估计方法)的估计式(estimators)。设是一个型的向量型观测变量(observable variables),且是由参数决定的函数,其中,是一个参数空间(parameter space),且它一般是的一个子集。 当时,矩准则估计法是通过把一个样本模拟值(a sample analog )代入,并使满足下式: 来估计的。 当时,也使用同样的方法。Hansen(1982)提出了这种方法的最一般的公式,我们就是沿用他提出的名字GMM,来命名这种方法的。 在经济学的应用中,矩条件(moment conditions)常常是根据经济学模型中包含的矩约束条件(conditional moment restrictions)中提出的。为了实现这种想法,我们假设并且设,然后假设 设 则立即会得出,对所有关于可测的, 现在,这个条件就是构造GMM估计式的基础了。这里,称为工具变量(instrument),它自身就是的函数,所以或者说由直接构成。 例设,且考虑非线性回归(the nonlinear regression) 其中假定满足矩约束条件。如果它还可以使成立,那么 1
这个模型就可以用非线性最小二乘法(nonlinear least squares methods)和GMM法估计了。其中可以被用作工具变量(instruments)。 若,则不能用非线性最小二乘法而只能用基于工具变量的GMM法。 例9.2Hansen和Singleton(1982,Ecta)考虑了一个时间资产定价模型(an intertemporal asset pricing model),其中代表性的是求解 其中表示由决定的期望(expectations),是主观削减因子(the subjective discount factor), 表示在时刻的消费,是瞬时累加效用函数(the temporally additive utility function), 是资产在时刻的定价,是在时刻持有资产的份数,是劳动收入。的值是持有资产一段时间的回报.对于股票,通常相当于,其中在到时刻分发的红利。假定所有资产都是股票,对于最优化消费和投资,一阶条件(the first order conditions)由下面式子给出 其中是消费边际效用(marginal utility of consumption),设是持有资产一段时间后的回报。其中 这个条件又可以被写为: 在这个例子中我们已经指出对于,有 且合理的工具变量是这项工作的信息集(the information set)中的所有的变量。参数向量包含有和其他参数,这些参数决定了效用函数。矩条件估计就可以由下式: 2
得到。 例 线性资产定价模型(linear asset pricing model (Hansen and Singleton, 1996,JBES) 对所有的,当时有: 对于CRRA效用函数,一阶条件的对数线性化(a log-linearized version of the first order conditions )是 其中 在这种条件下,函数具有 这样的形式。为了决定合理的工具变量我们需要探究误差项的性质。假设基本模型(the underlying model)是一个连续时间过程(a continuous time process)其中使得 从而由伊藤公式(Ito’s formula) 或 如果离散时间数据(the discrete time data)是连续时间过程的几何平均值(a geometric average),那么 具有的结构,于是合理的工具变量集合(the valid instrument set)就是 9.2 估计式公式( Formulation of the Estimator)和渐进性 3
质(Asymptotic Properties) 为了简化,我们假设且是一个型的向量型工具变量。由前面所述,我们用定义一个阶的向量函数 设是阶的非奇异矩阵序列(a sequence of non-singular matrices),令 则用GMM估计式求解: 定义矩阵 则只要满足如下条件,则GMM估计式就是满足一致性条件的。 假设1.(一致性)(Consistency) 满足 均匀大数定律(uinform law of large numbers):设且存在一个非随机函数使得 识别性(identification):对任意,和任意邻域,有 假设保证了可能出现误差时,只要误差足够小,估计式是就标准函数(the criterion function)的最小值。提出另外两个条件的原始根据可以从其他地方找到,例如从Andrew(1991a)那里。下面的条件就是那里给出的,请注意下面的这个条件是充分条件,不是必要的。 假设2.设是一列定义在上的实的或复的波雷尔可测函数(Borel 4
measurable functions),对每个,可展开成一个逐点收敛的级数。 对每个,是一个实的常数序列。 。 对某个可求和的正的常数序列,, 其中,要满足如下条件: 对且 有 一种混合的条件可用来确保对所有,。(可见Andrews中的评论1)Andrews 还证明了在某种顺序下,当的Soboley范数是一致有界(a uniformly bounded Soboley norm)的,且在这种一致有界的意义下足够光滑的时候,就满足上述条件。 对渐进标准(asymptotic normality)我们需要如下假设: 假设3(CLT) 包含在,其中是个开集。 其中 在的某个邻域上是二阶连续可微的。 假设 5
是非奇异的(nonsingular) 并且 设 且定义 注意,假设要求是行满秩(has full row rank)的且是非奇异的(nonsingular),对于技巧差分序列(martingale difference sequences)或混合序列(mixing sequences)可以用中心极限定理 (Central limit theorems)来证明假设。若 是一个严格稳态(a strictly stationary),例如,各态历经的技巧差分序列(ergodic martingale difference sequences)那么就有 在更一般的,考虑非稳态(non-stationarity)的混合条件下,Ω具有更复杂的形式。设那么,其中 且 6
在假设1和3下,我们现在可以得出GMM的估计式的渐进分布(the asymptotic distribution),利用一阶均值展开(a first order mean value expansion),我们得到: 其中,这样 注意到当时,即,有和参数的个数相同个数的工具变量,且估计式相同的时候,是一个型可逆矩阵(invertible matrix)。在这种情况下, 且 使得渐进方差协方差矩阵(the asymptotic variance covariance matrix)不是由决定的。但是这和上过度识别(overidentified)的情况就不一样了。 9.3有效的GMM 前面的结果表明,当,对的选择关系到渐进率(asymptotic efficiency),且选择合适的,可最小化的渐进方差(asymptotic variance)。最小的方差在时取得。 然后,可得的渐进方差的值为 为了证明对于,这事实上是能做出的最好的选择,我们来证明对所有, 7
注意代表半正定(positive semidefinite)且当且仅当 这样我们需要证明 注意到 其中 , 且第二个等式用到了是一个射影矩阵(a projection matrix)这个条件。(是对称的且)那么自然可以得出结果,因为具有形式的矩阵必然是正定的。因为对任何,有 。 9.4 加权矩阵的估计(Weight Matrix Estimation) 矩阵的估计的重要性在于它既是过度识别GMM估计式(the overidentified GMM estimator)的最优加权矩阵(the optimal weight matrix),也是的渐进方差的一部分,所以需要建立置信区间(confidence intervals)和基于的检验。 在没有序列相关的情况下,很容易用形成样本均值的办法把加权矩阵估计出来。 为了达到这个目的,首先不管怎样我们都需要对的一致(相容)估计(a consistent estimate)。这样的一致(相容)估计可基于一个无效的GMM估计式,其中 8
在假设1下,如同前面,可以得出 然后,我们用估计出,并用估计出。 且和在非极端正则条件(mild regularity conditions)下是一致的。 当是自相关(auto correlated)的时候,具有更复杂的形式且简单抽样模拟不再是一致(相容)估计。我们早已看到了在更一般的情况下,可以被看成 其中 如果我们用一个抽样模拟来取代,使得: 其中 那么可以证明,在极端非正则条件下,对于固定的有限的,当时, 问题在于,无论如何,我们需要建立太多的形式的项,问题还在于按并非是一致收敛的。 在理论上,问题可以得到解决,即把 代入,其中相对于样本,需以某种合适的程度趋于无穷,但是,这样估计这个问题时,不一定是正则的,因此不能作一个方差协方差(a variance covariance matrix).Newey和West(1987)解决了这个问题。他们证明了,取适当权数 9
并指定 , 可以保证的正定性。限制权数为这种形式.函数被称为核权数(kernel weight)且满足假设, 其中 在除去可数点外都连续. 这样的核函数的例子有 可以证明和核都可以生成的半正定 10
估计式,但是对于Truncated 和Tukey-Hanning 核就不一定是这样的了. Newewy 和 West(1987)在假设下证明了的一致性. 定理(Newey 和West). i)设并且假设对所有在中是可测的并且对所有在某个邻域里的是连续可微的. 存在一可测函数使得 且 同样,存在有限的常数,和,使得 是一个混合序列,其大小为,对所有。 且。 对一有限的常数且对每个 ,。 那么,若所选的满足当和,时 。 Andrews(1991)和Andrews和Monahan(1992)曾分析研究过怎样最优的选择M的问题。 9.5过度识别约束检验 当正交约束(orthogonality restriction)的个数超过参数个数时,过度识别约束(the overiden-tifying restrictions)可以被检验。计量经济学模型表明,所有约束应该得到满足,但由于,在实际样本中,他们有可能遇到违反的情况。为了形成检验 11
统计量,我们考虑渐进分布。 记 从而 回代可得: 第二项是,由一阶条件和 , 这样可以得出: 其中 为了构造检验统计量,我们现在选取使得 且依概率收敛于.那么,具有方差协方差矩阵 它是幂等阵(idempotent),秩为那么可以得出: 12
参考文献: 13