第41卷第6期河海大学学报(自然科学版)年11月JournalofHohaiUniversity(NaturalSciences):
478河海大学学报(自然科学版)第41卷1摇基本知识与公式设随机变量X具有n个可能状态,其概率分布为p=(p1,p2,…,pn),则X的信息熵为H(X)=H(p1,p2,…,pn)=-k移nplgp(1)iii=1式中k逸0为常数。H有时被称为Shannon熵,它表示随机变量不确定性大小的度量。设随机向量(X,Y)的联合概率分布为p(i=1,2,…,n;j=1,2,…,m),则(X,Y)的联合熵为ijmH(X,Y)=-移n移plgp(2)ijiji=1j=1还可以相应地定义条件熵H(X/Y)和H(Y/X)。互信息是两个变量相互包含信息量大小的指标,其定义为I(X,Y)=H(X)-H(X/Y)=H(Y)-H(Y/X)=I(Y,X)(3)或I(X,Y)=H(X)+H(Y)-H(X,Y)=H(Y)+H(X)-H(Y,X)=I(Y,X)(4)式(3)、式(4)表明X包含Y的信息等于Y包含X的信息。信息的重要特征之一是具有传递性。X对Y的信息传递指数定义为ZI(X,Y)H(Y/X)(X,Y)=H=1-(Y)H(5)(Y)摇摇一般而言,信息传递指数Z不满足对称性。由于0臆H(Y/X)臆H(Y),所以0臆Z臆1。当Z(X,Y)=0时,X对Y不存在任何信息传递;而当Z(X,Y)=1时,X包含了Y的全部信息。信息传递指数具有2个特征:(a)度量了信息点的信息传递能力,表示一个信息点对其周边的影响力;(b)描述了两信息点之间的相依程度,而这种相关往往是非线性的。设S为包含了m个变量的集合,i沂S,称ZS(X)=i移mZ(X,Y)(6)ijj=1,j屹i为X在S中的综合信息传递指数[11]。根据这一指标,若某一站点在它所在的分区中ZS的值较高,则与同一区的其他站点相比应该被保留下来,而ZS值相对较低的点可以考虑被剔除。ZS为绝对量。为了比较同一变量针对两个变量集合的相关程度,必须用到平均信息传递指数。设S包含m个变量,X埸S,则定义MZ(X,Y)ijS(X)=移mj=1m(7)为X对S的平均信息传递指数。设S1和S2分别包含m1和m2个变量,X埸S1,X埸S2,根据式(7)以及信息传递的含义,若MS(X)>1MS(X),则认为X可以归于S1。2众所周知,变量的信息熵只与其取值的统计特征有关,由此得到信息熵、互信息(包括信息传递指数)只是利用了变量的概率分布形式,或者说只是利用了变量的语法信息[10]。为了更全面地研究变量间的差异性,本文同时考虑变量的语义信息,即考虑变量的取值。为此,给出两个随机变量的贴近度指标。设有随机变量X={x1,x2,…,xn}和Y={y1,y2,…,yn},它们之间的贴近度定义为T(X1,Y)=移n(x-y)2(8)niii=1由式(8)可见,T(X,Y)越小,则X,Y之间的差异越小,贴近度越高。本文采用等间距法[12]求取随机变量的信息熵或联合熵。确定分组数时可采用经验公式[13]:2m=1郾87(n-1)5(9)式中n为样本容量。2摇研究思路与数据处理2郾1摇数据来源淮河流域介于长江和黄河两大流域之间,气候上处于南北气候过渡带,降雨时空分布严重不均。本文研
第6期张继国,等摇基于信息熵的降雨信息区域化分析479究的99个雨量站[14]位于淮河流域蚌埠站以上区域,东经112毅~118毅、北纬31毅~35毅之间。降雨资料取自各雨量站1953—2010年共58a的月平均降雨序列,该序列构成为降雨随机变量,则降雨随机变量共有696个月降雨数据。2郾2摇研究思路该研究区域内的降雨信息区域化过程分为3个步骤。a.根据信息熵的等距离法,首先将每个站的降雨序列样本划分为若干个小区间,计算每个站的信息熵和联合熵,在此基础上构建99个站的信息传递指数矩阵。以该矩阵作为模糊关系矩阵,根据模糊聚类法将99个站划分成不同的分类(子区域)。b.最佳分类标准就是类与类之间存在较大的差异,而每一类内部的差异性则较小。因为Z刻画的仅是两个变量间在概率分布形式上的差异性,而没有反映变量间取值的差异性问题。以全信息理论的观点来看,Z或者H是语法信息的表现,而变量的取值则属于语义信息。所以,本文考虑的这种差异性大小即是以站点之间降雨量的贴近度来度量的,同一时刻的降雨量越接近,则认为差异性越小。依照降雨量贴近度指标,对各种分类进行显著性检验,在不同的分类中初选出若干个最能符合标准的分类。c.以平均信息传递指数作为判别标准对其初始分类予以进一步调整,最终确立最佳分类。2郾3摇数据处理将每个站点的696个降雨数据从小到大排序,按式(9)将其取值区间等距离划分成26个子区间,记每个小区间啄(i=1,2,…,26),记落在小区间啄的降雨数据数为n,所以,降雨数据X落在啄内的概率p近似iiiii等于其频率n/696。同理,将2个站点X,Y的降雨数据构成的区域划分成面积相等的262个子区域驻(i=iij1,2,…,26;j=1,2,…,26)。假设落在某个子区域驻的点对数(频数)为n,而总的点对数为696伊696,则降ijij雨数据落在该子区域的概率p近似等于频率n/6962。然后,利用式(1)和式(2)分别计算99个站点降雨量ijij的信息熵以及两两间的联合熵。利用式(4)计算互信息,根据式(5)可得到信息传递指数矩阵D=(d)ij99伊99,其中d为第i号站对第j号ij站的信息传递指数。利用式(8)计算99个站点的降雨量贴近度矩阵N(t)表示为第i号站与第j99伊99,其中tiijj号站的贴近度。利用软件MatlabR2011a完成全部计算过程。3摇区域划分与调整3郾1摇初始分类将D作为模糊关系矩阵,利用模糊聚类方法[15]对99个站点予以分类。首先将其分别分成3,6,7,8,10,11,12,14,15,18,20,22,24和28类。每类所包括的站点见图1,其中,第1区包含62个站,第2~6区分别含有10,19,1,4,3个站。为确定最优分类,利用N(t)ij99伊99对以上划分进行显著性检验(取显著性水平琢为0郾05)。先假设99个站点被分成了r类,每类所含站点数为n。根据数理统计理论,统计量F服从F分布。i移rni移99(軃tik-軃tk)2k=1r-1F=i=1~F(r-1,99-r)(10)移r移ni移99(tik-軃tjk)299j=1k=1-ri=1式中:(軃t,軃ti1i2,…,軃ti99)———每类中站点的中心点;(軃t1,軃t2,…,軃表1摇F检验结果t99)———全部99个站点的中心点。式(10)的分子表征类与Table1摇F鄄testresults类之间的距离,分母表征各类内元素间的距离。分类数F-F琢分类数F-F琢F值越大,或(F-F琢)越大,则类与类之间的距离越大,相334郾18143郾95应的分类就越优。具体检验结果见表1。613郾82153郾48从表711郾33182郾531可见,将区域分成3类或6类比较合适。先以分成6类的情况作为调整基准89郾36202郾08。106郾82221郾67115郾81241郾33125郾05280郾78
480河海大学学报(自然科学版)第41卷3郾2摇调整过程仔细分析图1可见,除了第4区仅一个站点外,其余各类所包含站点大多在地理位置上较为接近,但也有部分相互交叉,使得区域边界不够清晰。由于前3类包含站点较多,为此以这3类为主体对相关站点予以调整(被调整站点编号见表2),调整标准为待调整站点对于各区的平均信息传递指数。根据平均信息传递指数值的大小(表2),决定待调整站点被调整进哪个区。如,47号站点初始划分时处于第2区,但因为对第1区、第2区、第3区的平均信息传递指数分别为0郾1657,0郾1864,0郾2218,根据本文的分析,它应该被调整到第3区。经过以上调整后子区域的状况是,第1区包括图1摇淮河流域蚌埠站以上99个站划分成6类站点分布摇99stationsupstreamofBengbuStationin53个站点,第2区包括19个站点,第3区包括20个站点HuaiheRiverBasindividedintosixcategories,第4区包括4个站点,第5区包括3个站点。最后将第4区、第5区的站点进行调整(见表2),这样全部99个站被划分为3个区域,其中A区包括56个站点,B区21个,C区22个(见图2)。表2摇待调整站点对各区平均信息传递指数Table2摇AverageinformationtransmissionvaluesofStationstobeadjustedineachdistrict站点编号平均信息传递指数第1区第2区第3区站点编号平均信息传递指数第1区第2区第3区440郾16870郾19540郾2026220郾19210郾19400郾1726470郾16570郾18640郾2218300郾19810郾20040郾1699480郾16310郾19330郾2073580郾16750郾21250郾1882390郾17200郾20340郾2041210郾19080郾19970郾1828890郾16250郾21660郾1853170郾17650郾19140郾1959910郾17090郾22550郾1837530郾15030郾18860郾2125500郾18700郾20820郾2087880郾14490郾18330郾1988200郾21580郾23060郾2202900郾15840郾20970郾2080490郾16100郾19690郾2086980郾15490郾20240郾1943510郾17930郾21620郾2048780郾15030郾11560郾1160570郾17610郾20930郾1909710郾14210郾11500郾1111590郾19550郾21200郾1765800郾16690郾13380郾1230对最终分成3个子区域的情况予以F检验,得F-F琢=39郾16,可见各子区域内降雨信息的同质性和子区域间的异质性是显著性的。3郾3摇讨论需要说明的是,站点50号和17号虽然归类于C区(见图2),但它们对B区、C区的平均信息传递指数较为接近,所以为了各子区域在地理位置上更为完整,可考虑将这2个站点划分到B区。尽管最终将所研究区域划分成3个子区域,从划分的情况来看,各子区域所含的站点有些偏多,尤其是A区包含56个站。如果具体研究所需,可以将每一个子区域作为单独的研究对象,利用本文的方法予以再行划分。例如,将A区再划分成2类、3类不等。图2摇淮河流域蚌埠站以上99个站划分成3类站点分布摇99stationsupstreamofBengbuStationin摇结摇摇语HuaiheRiverBasindividedintothreecategories将复杂性大系统根据一定的原则划分成若干子系
第6期张继国,等摇基于信息熵的降雨信息区域化分析481统,使各子系统内具有较大的相似性,而子系统之间具有较大的相异性,符合系统论的观点,而且便于研究复杂性的数据系统,有利于探寻大系统内的不确定性规律,如降雨的不均匀性研究。本文以信息熵作为研究手段,结合信息的语法形式和语义形式,对淮河流域蚌埠站以上区域进行了区域划分,因而这种划分的方法符合信息科学原理,即具有更高的可靠性。从分类的情况观察,各类区域内的站点在地理位置上相当接近,虽然从初步的划分中区域间有所交叉,但是经过调整后,区域间的边界变得较为清晰。参考文献:[1]梁忠民,李彬权,余钟波.考虑空间变异性的统计产流模型研究[J].南京大学学报:自然科学版,200945(3):403鄄408.(LIANGZhongmin,LIBinquan,鄄basedrunoff鄄yieldmodelconsideringspatialvariation[J].JournalofNanjingUniversity:NaturalSciences,2009,45(3):403鄄408.(inChinese))[2]姜红梅,任立良,袁飞.降水空间不均匀性对径流过程模拟的影响[J].水文,2004,24(2):1鄄6.(JIANGHongmei,RENLiliang,[J].JournalofChinaHydrology,2004,24(2):1鄄6.(inChinese))[3]郑永宏,林爱文,代侦勇.湖北省降水分区研究[J].长江流域资源与环境,2012,21(7):859鄄863.(ZHENGYonghong,LINAiwen,[J].ResourcesandEnvironmentintheYangtzeBasin,2012,21(7):859鄄863.(inChinese))[4]张继国,谢平,龚艳冰,等.降雨信息空间插值研究评述与展望[J].水资源与水工程学报,2012,23(1):6鄄9.(ZHANGJiguo,XIEPing,GONGYanbing,[J].JournalofWaterResources&WaterEngineering,2012,23(1):6鄄9.(inChinese))[5]秦爱民,钱维宏.近41年中国不同季节降水气候分区及趋势[J].高原气象,2006,25(3):495鄄502.(QINAimin,[J].PlateauMeteorology,2006,25(3):495鄄502.(inChinese))[6]杨绚,李栋梁.中国干旱气候分区及其降水量变化特征[J].干旱气象,2008,26(2):17鄄24.(YANGXuan,[J].AridMeteorology,2008,26(2):17鄄24.(inChinese))[7]李生辰,徐亮,郭英香,等.近34a青藏高原年降水变化及其分区[J].中国沙漠,2007,27(2):307鄄314.(LIShengchen,XULiang,GUOYingxiang,鄄XizangPlateauandsub鄄regionsinrecent34years[J].JournalofDesertResearch,2007,27(2):307鄄314.(inChinese))[8]孙莹,万丽岩,江静.辽宁降水分区变化特征及夏季降水影响因子分析[J].气象与环境学报,2008,24(3):18鄄23.(SUNYing,WANLiyan,[J].JournalofMeteorologyandEnvironment,2008,24(3):18鄄23.(inChinese))[9]张继国,刘新仁.水文水资源中不确定性的信息熵分析方法综述[J].河海大学学报:自然科学版,2000,28(6):32鄄37.(ZHANGJiguo,[J].JournalofHohaiUniversity:NaturalSciences,2000,28(6):32鄄37.(inChinese))[10]钟义信.信息科学原理[M].3版.北京:北京邮电大学出版社,2002.[11]YANGY,[J].JournalofHydrology,1994,157:307鄄324.[12]丁晶,王文圣,赵永龙.以互信息为基础的广义相关系数[J].四川大学学报:工程科学版,2002,34(3):1鄄5.(DINGJing,WANGWensheng,[J].JournalofSichuanUniversity:EngineeringScienceEdition,2002,34(3):1鄄5.(inChinese))[13]庄楚强,吴亚森.应用数理统计基础[M].广州:华南理工大学出版社,1992.[14]张继国.降雨时空分布不均匀性信息熵研究[D].南京:河海大学,2004.[15]王忠玉,吴柏林.模糊数据统计学[M].哈尔滨:哈尔滨工业大学出版社,2008.