Operations Research and Fuzziology 运筹与模糊学, 2015, 5, 30-37
Published Online May 2015 in Hans.
30
Port Container Throughput Forecasting
Based on the Multiplicative Seasonal
ARIMA Model
Lili Tao1, Yan Wang2
1School of Science, Dalian Ocean University, Dalian Liaoning
2Foreign Language School, Dalian Ocean University, Dalian Liaoning
Received: Apr. 20th, 2015; accepted: May 7th, 2015; published: May 19th, 2015
Copyright © 2015 by authors and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY).
Abstract
Based on the theoretical research of the time series analysis, this paper systematically analyzes the
changes rules of the monthly data of container throughput of Shanghai Port from 2002 to 2009 by
using MATLAB software. The result shows that the multiplicative seasonal ( ) ( )12ARIMA 0,1,1 0,1,1×
model has a high forecasting precision, a reasonable forecasting result and a broad application pros-
pect.
Keywords
Time Series Analysis, Multiplicative Seasonal ARIMA Model, Container Handling Capacity, Forecast
基于ARIMA乘积季节模型的
港口集装箱吞吐量预测
陶丽丽1,王 艳2
1大连海洋大学理学院,辽宁 大连
2大连海洋大学外国语学院,辽宁 大连
基于 ARIMA乘积季节模型的港口集装箱吞吐量预测
31
收稿日期:2015年4月20日;录用日期:2015年5月7日;发布日期:2015年5月19日
摘 要
在对时间序列分析理论研究基础上,利用MATLAB软件编写所有算法的程序系统地分析港口集装箱吞吐
量月度数据的变化规律,建立的ARIMA乘积季节模型能充分反映港口集装箱吞吐量的时间序列变化规律。
以上海港2002~2009年集装箱吞吐量为例,应用MATLAB软件建立了 ( ) ( )12ARIMA 0,1,1 0,1,1× 乘积季节
模型,结果表明该乘积季节模型的预测精度较高,预测结果更加合理,有着广泛的应用前景。
关键词
时间序列分析,ARIMA乘积季节模型,集装箱吞吐量,预测
1. 引言
中国地处太平洋西海岸,近年来随着经济的高速发展,航运业取得了巨大的发展。于是处于航运业
发展核心的港口的发展越显其重要性。其中集装箱吞吐量是衡量一个港口能力的重要指标,是港口发展
战略研究的重要内容,对于确定港口发展方向、扩建港口,新建码头,合理制定港口作业计划和港口基
本设施规划,提高港口的通过能力和运营效率都具有十分重要的意义,而这些正是保证港口服务能力供
给的基础。因此,准确预测港口吞吐量是协调港口服务能力的供给与区域对港口服务需求之间的桥梁,
科学合理的预测港口吞吐量对于港口服务供应链内部和外部协同都具有重要的意义。
目前在港口吞吐量预测领域的国内外相关研究中,预测方法比较全面,包括回归分析[1],支持向量
机[2],神经网络[3]等模型。但现有研究中的主要问题是:预测时段绝大都是关于港口年度吞吐量的预测,
而很少研究港口月度吞吐量的变动,这对港口在战术和运作层面上的支持是远远不够的。从月度角度分
析,在港口运输中,年末由于一方面港口为了完成全年生产指标都会努力提高港口吞吐量,同时由于圣
诞元旦春节假期的临近,对货物的需求旺盛也使得港口吞吐量增加。而在以年为统计单位的港口吞吐量
变化时,周期趋势并不显著。年度数据一般只含有增长性和随机因素,而月度数据还要包含周期性规律,
这就使得港口年度数据和月度数据所反映的内涵差别较大。ARIMA乘积季节模型对港口月度吞吐量的变
化进行研究,更好地反映了吞吐量的周期性规律,预测精度更高,结果也更加可信。
本文以上海港集装箱吞吐量为例,对其 8年的历史数据进行系统地分析,建立了 ( ) ( )12ARIMA 0,1,1 0,1,1×
乘积季节模型,结果表明该模型的预测精度较高,可采用该模型对上海港 2011年的集装箱吞吐量进行预测。
2. 知识准备
. 时间序列分析
时间序列分析(Time series analysis)是一种动态数据处理的统计方法。该方法是基于随机过程理论和
数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。其基本原理:一是承认
事物发展的延续性,应用过去数据,就能推测事物的发展趋势;二是考虑到事物发展的随机性,任何事
物发展都可能受偶然因素影响,为此要利用统计分析中加权平均法对历史数据进行处理。根据时间序列
分析,可以对未来进行预测,其预测一般反映了趋势性,周期性以及随机性三种实际变化规律。纵观时
间序列分析方法的发展历史可将其分为频域分析方法和时域分析方法两大类,本文主要研究的是时域分
析方法[4] [5]。
基于 ARIMA乘积季节模型的港口集装箱吞吐量预测
32
. 数据的预处理
拿到一个观察值序列后,首先应对其平稳性和纯随机性进行检验。通过平稳性检验,序列又可分为
平稳序列和非平稳序列两大类。若为平稳序列,还需进一步对其的纯随机性进行检验。一个序列经预处
理被识别为平稳非白噪声序列,则说明了该序列是一个蕴含着相关信息的平稳序列,需建立一个线性模
型拟合该序列发展,借此提取序列中有用信息。到目前为止,差分方法被认为是一种简便,有效的确定
信息的提取的方法,是由 Box和 Jenkins提出并用大量的案例证明了。差分运算具有很强大的确定性信息
提取能力,许多非平稳序列差分后会显示出平稳序列的性质,这时称该非平稳序列为差分平稳序列。实
际生活中,绝大部分序列是非平稳的,当平稳性检验分析结果为非平稳序列,则还需通过有效的手段提
取序列中所蕴含的确定性信息,将其化为平稳序列。
. ARIMA乘积季节模型
时间序列模型有许多种类型,其中有三种是最经典和最重要的,他们是依靠原始时间序列的线性关
系[5]-[7],分别是 AR(自回归)模型、MA(移动平均)模型[8]和 ARIMA (非平稳自回归移动平均)模型。
( )ARIMA , ,p d q 模型适用于拟合经差分运算后具有短期相关性的序列,但当经差分运算后的序列还具有
季节效应,并且季节效应本身仍具有相关性时,则其季节相关性可采用以周期步长为单位的 ( )ARIM ,P Q
模型提取[9]-[11],这样的序列则适合采用 ( ) ( )ARIMA , , , , sp d q P D Q∗ 乘积季节模型进行拟合,它的完整
结构为[12]:
( ) ( ) ( ) ( )s d D sp P s t q Q tB B z B B aφ θΦ ∇ ∇ = Θ
式中
( ) ( ) ( ) ( )21 21s s s PsP PB B B BΦ = −Φ −Φ − −Φ
( ) ( ) ( ) ( )21 21s s s QsQ QB B B BΘ = +Θ +Θ + +Θ
. 预测
所谓预测就是要利用序列已观测到的样本值对序列在未来某个时刻的取值进行估计。目前对平稳序
列最常用的预测方法是线性最小方差预测。线性是指预测值为观测值序列的线性函数,最小方差是使预
测方差达到最小。
3. 上海港集装箱吞吐量预测
本文研究 2002年 1月至 2009年 12月上海港的集装箱吞吐量月度数据,如表 1所示。
. 数据的分析
数据的分析包括描述性,平稳性和相关性分析。首先画出上海港集装箱吞吐量的时序图,如图 1 所
示。
由图 1 可看出,上海港集装箱吞吐量逐年递增,序列具有长期递增趋势,明显属于非平稳序列,并
且具有平稳的以年为周期的季节性波动,因此应对原序列作一步差分,提取线性递增趋势,紧接着还应
对一阶差分后的序列再进行 12步同周期差分,提起季节性波动信息。根据图 2可知,经一阶十二步差分
后,序列基本平稳。
. 模型构建
原序列在取一阶十二步差分之后,非零的自相关只是在延迟为 1,11,12和 13处。于是笔者确定了
基于 ARIMA乘积季节模型的港口集装箱吞吐量预测
33
Table 1. Natural Logarthms of monthly container handling capacities (measured in thousands TEU) in Shanghai Port
表 1. 取对数后的上海港集装箱吞吐量(万吨)月度数据
1月 2月 3月 4月 5月 6月
2002
2003
2004
2005
2006
2007
2008
2009
7月 8月 9月 10月 11月 12月
2002
2003
2004
2005
2006
2007
2008
2009
Figure 1. Monthly container handling capacities of Shanghai Port
图 1. 上海港集装箱吞吐量的时序图
上海港的集装箱吞吐量模型为 ( ) ( )12SARIMA 0,1,1 0,1,1× :
( )( )1212 1 1t tz B B aθ∇∇ = − −Θ (1)
模型为 ( ) ( )120,1,1 0,1,1× 阶。该模型显然可以写为:
1 12 13 1 12 13t t t t t t t tz z z z a a a aθ θ− − − − − −− − − = − −Θ + Θ (2)
其中 tz 表示时间序列值, ta 表示白噪声序列, B表示差分算子,θ 描述确定性趋势。这个模型的可逆域
由 ( )( )121 1 0B Bθ− −Θ = 的根在单位圆外这一条件所要求,它由如下不等式定义 1 1θ− < < 和 1 1− < Θ < 。
基于 ARIMA乘积季节模型的港口集装箱吞吐量预测
34
注意在式(1)右边的移动平均算子 ( )( )12 12 131 1 1B B B B Bθ θ θ− −Θ = − −Θ + Θ 的阶为 ( )1 12 1 13q sQ+ = + = 。
. 参数估计
由式(2)该模型可以视为 1 12 13t t t t tw a a a aθ θ− − −= − −Θ + Θ ,这是一个 12t tw z= ∇∇ 的 13阶MA模型。于
是 tw 的自协方差可以通过如下计算获得[12]:
( )
( ) ( )
( ) ( )
22 2 2
0
2 2 2
1
2
11
2 2 2
12
2
13
1
1
1
.
a
a a
a
a a
a
γ θ θ σ
γ θ θ σ θ σ
γ θ σ
γ θ θ σ σ
γ θ σ
= + +Θ + Θ
= − −Θ Θ = − +Θ
= Θ
= −Θ− Θ = −Θ +Θ
= Θ
特别地,这些表达式蕴含 ( )21 1ρ θ θ= − + , ( )212 1ρ = −Θ +Θ ,因此, 1ρ 值不受模型(1)中存在的MA季
节因子 ( )121 B−Θ 的影响,而 12ρ 值不受模型(1)中的非季节 MA 因子 ( )1 Bθ= 的影响。经过一阶十二步差
分后的序列的自协方差估计值如表 2所示。
接下来,令观察的相关函数等于它们的期望值,可以得到参数θ 和Θ的近似值。再将样本估计值
1 = − 和 12 = − 作为 1ρ 和 12ρ 的近似值带入下面表达式:
( ) ( )2 21 121 , 1ρ θ θ ρ= − + = −Θ +Θ
我们得到估计值 ˆ θ = , ˆ Θ = , 2 σ = 。
. 模型诊断检验(累积周期图检验)
在季节时间序列拟合中,恐怕很可能会未充分考虑到序列的周期特性,因此,我们应注意残差中的
周期性。自相关函数对于这类随机状态的偏离并不能给出灵敏的指示,因为周期效应本身常常融汇在自
相关之中。而另一方面,周期图就是为检验在白噪声背景下周期波形的模式而设计的。
一个时间序列 ta , 1,2, ,t n= 的周期图是[12]
( ) ( ) ( )
2 2
1 1
2 cos 2 sin 2
n n
i t i t i
t t
I f a f t a f t
n
π π
= =
= +
∑ ∑
其中 if i n= 为频率。因此周期图是把 ta 和不同频率的正弦和余弦波相联系的一种工具。在残差中若含给
定的频率 if ,则自该频率上响应的正弦或余弦波会使波形增强从而产生大的 ( )iI f 值。
白噪声的功率谱 ( )p f 在 0~5周的频率区域上都具有常值 22 aσ 。因此,白噪声的累积功率谱
( ) ( )
0
d
f
P f p g g= ∫
对 f 作图就是从 ( )0,0 到 ( ), aσ 的直线,即 ( )p f 是一条从 ( )0,0 到 ( ),1 的直线。
( )iI f 给出了频率 f 处功率谱的估计。事实上,对于白噪声有 ( ) 22i aE I f σ = ,因此估计是无偏的。
故 ( ) ( )
1
1
j
i
i
n I f
=
∑ 给出了积分功率谱 ( )jP f 的无偏估计,且
( )
( )
1
2
j
j
i
j
I f
C f
ns
==
∑
是 ( ) 2j aP f σ ,其中 2s 是 2aσ 的估计。我们称 ( )jC f 为归一化的累积周期图。
基于 ARIMA乘积季节模型的港口集装箱吞吐量预测
35
Figure 2. Seasonal differenced container handling capacities of Shanghai Port
图 2. 上海港集装箱吞吐量差分后序列时序图
Table 2. Estimated autocorrelations of various differences of the logged container handling capacity data
表 2. 取对数后的集装箱吞吐量自相关系数
延迟 自相关系数
1~6 − − −
7~12 − − −
13~18 − − −
19~24 − − − −
25~30 − − −
31~36 − − −
现在,如果模型是恰当的且参数精确地已知,那么, ta 就可以从数据算出,并得到一个白噪声序列。
对于白噪声序列来说, ( )jC f 对于 f 的图就将会散布在连接点 ( )0,0 和 ( ),1 的直线附近。另一方面,模
型不恰当将会产生非随机的 ta ,累积周期图就会表现出对上述直线的系统偏离。
对于真正随机序列或白噪声序列,将会以时间的比例 ε 被越过。他们画在理论值线、下方的距离为
K qε± 处,其中,若 n为偶数, ( )2 2q n= − ,若 n为奇数, ( )1 2q n= − 。
( ), ; , ; , ; , K K Kε ε ε εε ε ε ε= = = = = = = =
在我们的研究中,周企图检验结果如图 3 所示。从图 3 可以看到累积周期图的点紧密地聚集在期望
直线附近,所以可以确定我们之前估计的参数值充分地符合该乘积季节模型。
. 模型评价
在这一节,我们要应用已经构建出的乘积季节模型去预测 2010年 2月至 10月上海港集装箱吞吐量,
并与实际的数据进行比较从而证明该模型的适用性和准确性。
直接由差分方程本身来计算预测值是最好的办法。因此,由于
1 12 13 1 12 13t l t l t l t l t l t l t l t lz z z z a a a aθ θ+ + − + − + − + + − + − + −= + − + − −Θ + Θ
在令 θ = , Θ = 后,原点 t提前 l期最小均方误差预测立刻给出为
( ) [ ]1 12 13 1 12 t l t l t l t l t l t l t lz l z z z a a a a+ − + − + − + + − + − + −= + − + − − +
我们称, [ ] 1, , , ,t l t l t tz E z z zθ+ + − = Θ 为 t lz + 在原点 t所取的条件期望。在上面表达式中,假设参数
基于 ARIMA乘积季节模型的港口集装箱吞吐量预测
36
Figure 3. Cumulative perodogram check of the model fitted to the series of container
handling capacity
图 3. 集装箱吞吐量序列的累积周期图检验
Table 3. Forecasts and actual values of container handling capacity for 9 months ahead from Feb. 2010
表 3. 从 2010年 2月开始往后 9个月的集装箱吞吐量的实际值和预测值
2010年 2月 3月 4月 5月 6月
实际值
预测值
2010年 7月 8月 9月 10月
实际值
预测值
确切地已知,并假设序列 1, , t tz z − 的信息一直延伸到遥远的过去。为了得到预测值,我们简单地
用预测值来代替未知的 z ,而用 0 来代替未知的 a。已知 a当然是已计算出的提前 1 期外推预测误差,
即 ( )1 1t t ta z z −= − 。
应用该预测方法,得出 2010年 2月至 10月上海港集装箱吞吐量的预测值如表 3所示。
对比真实值和模型的预测值(如表 3所示),可看出,预测值和真实值十分接近,相对误差较小,接下
来,我们使用均方误差对预测值进行评价。均方误差的计算公式如下:
( ) ( )( )2
1RMSE
n
t k
t t
n k
= +
−
=
−
∑ 实际值 预测值
通过上式得到该乘积季节模型的预测值的均方误差为 ,从而说明了我们构建的 ARMA
( ) ( )120,1,1 0,1,1× 乘积模型的拟合效果较好,预测精度较高,可用来预测未来几个月的上海港集装箱吞吐量。
4. 结语
本文通过系统地分析上海港集装箱吞吐量,建立的 ( ) ( )12ARIMA 0,1,1 0,1,1× 乘积模型能够很好地拟合
实际数据,具有较高的预测精度。因此,对于港口吞吐量这样的数据,既含有季节效应又含有长期趋势
效应,并且相互之间有着复杂的先关纠缠关系,最好要采用乘积季节模型进行预测,这样可以得到比较
精确的结果。
基于 ARIMA乘积季节模型的港口集装箱吞吐量预测
37
参考文献 (References)
[1] 陈秀瑛, 古浩 (2010) 灰色线性回归模型在港口吞吐量预测中的应用. 水运工程, 5.
[2] 高尚, 梅亮 (2007) 基于支持向量机的港口吞吐量预测. 水运工程, 5.
[3] 程蓉, 吴国付, 张玉洁 (2004) 改进的 RBF神经网络在港口集装箱吞吐量预测中的应用. 水运工程, 8.
[4] 安鸿志 (1992) 时间序列分析. 华东师范大学出版社, 上海.
[5] George, ., Gwilym, . and Reinsel, . (1994) Time series analysis: Forecasting & control. Prentice Hall.
[6] Hosking, . (1984) Modeling presistence in hydrological time series using fractional differencing. Water Re-
sources Research, 20, 1898-1908.
[7] Tiao, . and Tsay, . (1994) Some advances in non-linear and adaptive modeling in time series. Journal of Fore-
casting, 13, 109-131.
[8] Zhang, Y., Bi, P. and Hiller, . (2010) Meteorological variables and malaria in a Chinese temperate city: A twen-
ty-year time-series data analysis. Environment International, 36, 439-445.
[9] Mohan, S. and Vedula, S. (1995) Multiplicative seasonal Arima model for longterm forecasting of inflows. Water Re-
sources Management, 9, 115-126.
[10] 李勇 (2005) 基于乘积 ARIMA模型的产品不确定性需求预测. 系统工程与电子技术, 1, 60-62.
[11] 梁鑫 (2006) 乘积季节模型在商品房市场中的应用研究. 广西师范学院学报, 2, 8-12.
[12] 乔治·博克斯, 格威利姆·詹金斯, 格雷戈里·莱因泽尔 (2011) 时间序列分析: 预测与控制. 机械工业出版社, 上
海.
Port Container Throughput Forecasting Based on the Multiplicative Seasonal ARIMA Model
Abstract
Keywords
基于ARIMA乘积季节模型的港口集装箱吞吐量预测
摘 要
关键词
1. 引言
2. 知识准备
. 时间序列分析
. 数据的预处理
. ARIMA乘积季节模型
. 预测
3. 上海港集装箱吞吐量预测
. 数据的分析
. 模型构建
. 参数估计
. 模型诊断检验(累积周期图检验)
. 模型评价
4. 结语
参考文献 (References)