- 1 -
最优分割法确定的加权马尔可夫链预测1
王艳 1,毛明志 2,赵东方 3
1.军事经济学院基础部,武汉(430035)
2.中国地质大学数理学院,武汉(430074)
3.华中师范大学数学与统计学院,武汉(430079)
摘 要:加权马尔可夫链预测首先是建立分级标准,然后采取以规范化的各阶自相关系数为
权重,对降雨量趋势作加权预测,因此分级标准就对加权预测的效果有很大的影响。本文主
要是用最优分割算法确定分级标准,并用武汉市 1951 年至 2004 年的年降雨量数据预测了
2008 年的降雨量情况。预测结果表明 2008 年是个偏枯年,预测年降雨量值在 968mm 与
1184mm之间,为此武汉市应该做好防旱的准备。
关键词:最优分割法;加权马尔可夫链;降雨量
中图分类号:S165+.25
1. 最优分割法
最优分割法是有序样本聚类分析的一种方法,可用于对某一阶段气象要素资料进行分段
以确定不同时段的气象特征。有序样本 x1,x2,…,xn由第 i 个值到第 j 个值(i=1,2,…,n-1;j>i)
的变差计算公式为 2( , ) ( /( 1))
j j
l l
l i l i
v i j x x j i
= =
= − − +∑ ∑ ,最优分割法的步骤如下:
步骤 1:计算任意分割点 i,j之间的变差,组成一变差矩阵 V。
步骤 2:由 V阵中元素计算各部分数据的 2分割的相应变差
(2 | ) (1, ) ( 1, )mv i v i v i m= + + (i=1,2,…,m-1;m=2,3,…, n)
找出最小值,并记最小值为 *
1 1
(2) min (2 | )m mi mv v i≤ ≤ −= (m=2,3,…, n)
步骤 3:完全类似步骤 2,在
* *( | ( 1)) ( 1) ( 1, )m i iv k v k v k v i m− = − + + (i=k-1,k,…,m-1;m= k, k+1,…,n)
中找出最小值,当 m=n时,就是 n个数据的最优 k分割所对应的总变差,由总变差的分割
点确定 n个数据的 k分割。
步骤 4:确定分类数。关于分类数 k的确定,可以通过做 * ( )mv k 与 k的关系的曲线图,
曲线拐弯处的 k值即为最优分类数。当曲线拐弯很平缓时,可以选取的 k很多,这时还需要
有其他的方法来确定,比如均方比和特征根法。
2. 最优分割法确定的加权马尔可夫链预测模型
加权马尔可夫链首先由冯耀龙,韩文秀在文献[1]中引入,其后也有人对它进行研究[2-5]。
其理论基本思想是:一列相依的随机变量序列,各阶自相关系数刻画了各种步长序列的相依
关系及其强弱。因而,可考虑分别依其前面若干时段的数据,依据相依关系,利用加权求和
思想,充分利用已知信息,对未来序列的状态作合理预测。
对于加权预测来说,重点在于如何建立分级标准,分级标准确定的状态序列直接决定加
1本课题得到湖北省自然科学基金(项目编号:2004ABA071)的资助。
- 2 -
权预测的好坏。本文主要是用最优分割法确定的加权马尔可夫链预测,其步骤如下:
(1)利用最优分割法确定状态序列。
(2)对状态序列进行马氏性检验。
检验一组数据是否具有马尔可夫性质是运用马尔可夫链模型分析的必要前提。对离散状
态序列的马尔可夫链通常可用 2χ 统计量进行检验。
设研究的序列包含 m个状态,用 fij表示指标序列 X1, X2,…, Xn中从状态 i经过一步转
移到达状态 j的频数,以所有 fij为元素的矩阵就是转移频数矩阵,将转移频数矩阵各列之和
分别除以各行各列的总和就得到边缘频率,并把它作为边缘概率的估计,记为 l jP ,即
l 1
1 1
m
ij
i
j m m
ij
i j
f
P
f
=
= =
=
∑
∑∑
,根据概率论知识,统计量
l
l
2
1 1
2 | ln |
m m
ij
ij
i j j
P
f
P
χ
= =
= ∑∑ 服从自由度为 2( 1)m − 的
2χ 分布,其中 l ijP 表示 m m× 转移概率矩阵。给定显著性水平α ,查表可得分位点
2 2( 1)mαχ − 值,通过计算得到统计量 2χ 值。若 2 2 2( 1)mαχ χ> − ,则可认为序列{Xn}符合
马尔可夫性,否则可认为该序列不可作为马尔可夫链来处理。
(3) 计算各阶的权重
设 ( 1,2, )tX t n= " 是一序列,时间间隔 2 1t t− 设为 ( 0)τ > ,计算序列的各阶自相关系
数的公式为 2
1 1
( )( ) / ( )
n k n
k t t k t
t t
r X X X X X X
−
+
= =
= − − −∑ ∑ ,其中 kr 表示第 k阶(滞时为 k年)自相
关系数,n为序列长度。
归一化各阶自相关系数,即
1
| | / | |
m
k k k
k
w r r
=
= ∑ ,并将它们作为各阶步长的马而可夫链的
权重(m为按预测需要计算的最大阶数)
(4) 构造状态转移概率矩阵
设数据序列从状态 iE 经过m步转移到达状态 jE 的次数为 ( )mijm ,则称以 ( )mijm 为元素构成
的矩阵为m步状态转移频数矩阵, ( )mijP 为由元素构成的矩阵为m步状态转移概率矩阵其计
算公式为: ( ) ( ) /m mij ij iP m M= ,其中 iM 为状态 iE 出现的总次数。
(5) 加权预测
第一步:以前面若干个时段各自的降雨量为初始状态,结合其相应的状态转移概率矩阵,
即可预测出现在时段降雨量的状态概率 ( )kiP 。(i为状态,k为步长)
第二步:将同一状态的各个预测概率加权,并作为降雨量处于该状态的预测概率,即
( )
1
m
k
i k i
k
P w P
=
=∑ ,根据隶属度最大原则,取max{ , }iP i I∈ 所对应的状态 i 为我们所预测的
状态。
3. 武汉市 2008年降雨量预测
- 3 -
表 1 武汉市地区 1951-2004降雨量(单位 mm)
年份 1951 1952 1953 1954 1955 1956 1957 1958 1959 1960 1961
雨量 1306 1056 1117 2058 1223 994 1348 1435 1578 1044 1065
等级 3 2 2 5 3 2 3 3 4 2 2
年份 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972
雨量 1649 1128 1378 929 731 1184 993 1748 1239 801 1080
等级 4 2 3 1 1 2 2 4 3 1 2
年份 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983
雨量 1232 968 1322 895 1199 816 1003 1624 1157 1632 1895
等级 3 1 3 1 3 1 2 4 2 4 5
年份 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994
雨量 1208 1030 1051 1449 1332 1656 1332 1796 1118 1584 1047
等级 3 2 2 3 3 4 3 5 2 4 2
年份 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004
雨量 1297 1327 947 1731 1380 1183 909 1516 1236 1072
等级 3 3 1 4 3 2 1 4 3 2
武汉市1951-2004年的降雨量数据来源于武汉市气象局,利用最优分割算法建立降雨数
据的分级标准,首先确定分类数,作出 * ( )mv k 与k的关系的曲线图,见图1,
图 1 最优分割点
Fig. 1 the point of optimal partition
曲线在5时有个拐弯,因此选取分为5类,确定的标准见表2。
表 2 降雨量分级标准
The classified standard of rainfall
状态 分级标准(单位:mm) 级别
1 x<=968 枯水年
2 968<x<=1184 偏枯年
3 1184<x<=1449 平水年
4 1449<x<=1748 偏丰年
5 x>1748 丰水年
- 4 -
下面对武汉市 1951-2004 的年降雨量状态序列进行马氏性检验。我们算得统计量
2
1 1
2 | ln | 11721/292
m m
ij
ij
i j j
P
f
P
χ
= =
= = ≈∑∑ ,给定显著性水平 α = ,查表可得分
位点 2 (16) αχ = ,因此 2 2 2( 1)mαχ χ> − ,故武汉的年降雨量序列符合马尔可夫性,可
以用来作加权马尔可夫链预测。
我们先用 1951-2004 年的降雨量序列加权预测 2005 年的降雨量状态,取预测降雨区间
的中间值作为 2005年的降雨量;同理以 1951-2005年的降雨量序列预测 2006年的降雨量
状态,取预测降雨区间的中间值作为 2006年的降雨量;然后我们取 1951-2004年的年降雨
量平均值作为 2007年的降雨量。在前面分析的基础上,最后我们用 1951-2007年的降雨量
序列加权预测 2008年的降雨量状态,显然,2008年以后,我们就可以知道本文模型在应用
于武汉市降雨量研究中的可靠度。
我们以 1951-2004年的降雨量资料为基础,加权预测 2005年降雨量状态,整个加权预
测的过程我们可以用matlab程序直接求出[7],预测的 Pi分别为 , , , ,
, 从而知道当 i=4时,Pi=为最大值,这说明 2005年的降雨量状态是 4(偏丰
年),即降雨量区间是[1449mm,1748mm],所以,我们取预测降雨区间的中间值
作为 2005年的降雨量。
同理,以1951-2005年的降雨量序列预测2006年的降雨量状态,预测的Pi分别为,
, , , ,从而知道当 i=3时,Pi=为最大值,这说明 2006年的降
雨量状态是 3(平水年),即降雨量区间是[1184mm,1449mm]。所以,我们取预测降雨区间
的中间值 mm作为 2006年的降雨量。
根据上面的分析,我们取 1951-2004年雨量的平均值 作为 2007年的降雨量,
根据状态的划分标准,此时是属于状态 3。
最后我们用 1951-2007年的雨量加权预测 2008年的雨量,预测结果见表 3。
表 3 武汉市 2008年降雨量预测
Wuhan 2008 rainfall prediction
转移概率 初始年 状态 滞时
(年)
权重
1 2 3 4 5
概率
来源
2007 3 1 1/3 5/18 2/9 1/9 1/18 (1)P
2006 3 2 3/17 6/17 4/17 4/17 0 (2)P
2005 4 3 2/9 1/3 1/9 2/9 1/9 (3)P
2004 2 4 3/16 3/8 1/4 1/8 1/16 (4)P
2003 3 5 1/8 3/8 1/8 3/8 0 (5)P
Pi(加权和)
由表 3可知,当 i=2时,Pi=为最大值,这说明 2008年的降雨量状态是 2(偏枯
年),即降雨量预测区间是[968mm,1184mm]。因此武汉市应该做好防旱的准备。
- 5 -
参考文献
[1] 冯耀龙,韩文秀.权马尔可夫链在河流丰枯状况预测中的应用[J].系统工程理论与实践,1999,
(10):89-98
[2] 孙才志 ,张戈 ,林学钰 .加权马尔可夫模型在降水丰枯状况预测中的应用 [J].系统理论与实
践,2003,(4):100-105
[3] 夏乐天,彭志行,沈永梅.加权马尔可夫链在农作物年景预测中的应用[J].数学的实践与认识.2005,
(12):30-35
[4] 夏乐天,朱元生,沈永梅.加权马尔可夫链在降雨预测中的应用[J].水利水电科技进展,2006(12):
20-27
[5] 刘德地,陈晓宏.一种北江流域年降雨量的权马尔可夫链预测模型[J].水文.2006(12):23-26
[6] 王艳,吴军玲,王恒亮.武汉近 50年来降雨数据的统计分析[J].湖北工业大学学报,2006(6):98-100
[7] 王艳.最优分割算法的计算机程序实现与武汉市洪涝灾害预测[D].武汉:华中师范大学,2007.
[8] 赵东方.数学模型与计算[M].北京:科学出版社,2007.
The predication of weighed Markov chain under The
optimal partition method
Wang Yan1, Mao Mingzhi2, Zhao dongfang3
1.Foundation Department of Military Economy Academy, Wuhan (430035)
2. School of Mathematics and Physics, China University of Geosciences, Wuhan (430074)
3.School of Mathematics and Statistics, Huazhong Normal University, Wuhan (430079)
Abstract
Firstly, the predication of weighed Markov chain is to set up the classified standard. Secondly, adopt all
kinds of the standardized self-coefficient as weights. Finally, predict the trend of rainfall in virtue of
those weights. So the classified standard deeply affects the result of weighed predication. For this
reason,,the paper choose The optimal partition method to set up the classified standard, the paper sets
the data of annual rainfall of the city of Wuhan from 1951 to 2004 as an example and has a good
analysis of substantial evidence for weighed Markov chain predication. What’s more, the paper predicts
the rainfall of 2008. The result implies that it is semiarid year and the annual rainfall varies between
968mm and 1184mm. So the city of Wuhan should make a preparation for combating drought.
Keywords: Weighed Markov chain, Optimal partition method, Rainfall.