基于时序模式关联的股票走势分析研究
李 宏 陈松乔 王建新
中南工业大学信息工程学院 (长沙 410083)
E mail:lihongz~,@cs.hn eYi
捕 要 股票价格的走苷妒析一直是人们关注的课题。该工提 出了一种不同于持统的数学建模方法,而采用时序模式关
联的思想进行分析和蓣测 其方法是首先建立和堆护基奉的彤态序 .时数据子序列采用线段斜率序列表示,进行子序
引模式匹配.然后调用时序模式关联算法,并利用其结果进行预刹.结果表明这种方法是有实际毒义 效果的
美键词 股票走 势 序 列 匹配 敷据挖掘
文章编号 1002 8331一(2001)13 0056~02 文献标识鸫 A 中图分类号 TP311.5
T1le Research of Stock M ovement Based on Association of
Sequence Pattern
Li Hong Chen Songqiao W ang Jianxin
(College of Information Engineering,Central S0ufh University of Teehnolo~,,Changsha 410083)
Abstract:The rrtovement of stock prices is always studied hy people This paper gives a way different from 1Ild mathe—
matieal mode1.We use the association of s 帅c pattern tO analyse and Foree~,rst.First the basic form s quer es arP
found.next we adopt the slope to f~xpress the suhsequenee and rlln the matching program .1ast we use the algorithm of
association flit the sequence mode to produce the result.The experiment result proves the w which is useable and
practicable.
Keywords:the stock movement,subsequence matching
.
data mining
1 引言
在现实社会【f】, 在大量的时间序列数据,如股票的价格
怎样进行时序数据的分析和预测 有各种备样的方法 传统的
分析方法主要有通址建立数学模型如回归分析等 由于股票市
场 是一个复杂的非线性系统 采用建模方法进行预测,其教果
以单步为好.对多步和中期预测则相去太远 同时由于股票仃『
格的走势有其内在晌规律性,因此寻找新的方法成为一个新的
研究课题。
KDD是从大齄数据LIJ提取可信的 新颖的.有效的并能被
人理解的模式的高级处理过程 它包括数据选择,数据预处理.
数据挖掘 模式解释 评价等步骤。其中数据挖掘(I)aLa Min-
lag)是最重要的 一步 已是运用选定的知识发现算法从数据中
提取用户所需要的知酿 通过数据开采的方法分析大量的时间
序列 ,提取隐古的序列 关联规律并应用于预测=
目前虽有各种)鑫l卜KDD的序列模式匹配和分析方法.但
怎样在肢票 场其体应用仍在探讨中 废文提f}}了一种基于时
序模式关联规则的挖掘方浊,并在此基础 进行股票的分析和
预测 。
文章第 2部分舟绍于序列模戏的概盘和相关的算法,第 3
部分对序列模式的荧联性做了讨论,谖文第 4部分是对实验数
据处理的结果 .第 5部分是总结 和讨论
2 子序 列模式的计算
目前对时序数据的分折有很多的方法.但 首先必须建立其
序列模 。针对股票价格的实际情形.采用 下手段进行分析:
首先选定子序列的形式,然后建立模式的相关的表现方法,通
过对 F序列模式相似性的计算,最终将序列分解表述为各种子
模式的组合
2.1 子序 列形式选择
书殴票的各种走势形态中, 一些形态具有明显意义.同
时这些 态在经典 的股票技术分析理论 中占有重要的地位。根
据先验的知识 ,将这些形态选出来,作为基本的形态.以便用来
分析序 列模式 。
如 1
开:
的彤态
下降 : 顶
圈
怎样将这些基本的形态模式表示出来,以逃到在股票时序
数据巾寻找和匹配的目的呢?^ 卜一般采用距离的计算来验证
序列的相似性 ,即对序列 x和 Y,当 D(X.Y)乍E(City—block
distan c el就认为二者是相似的,但由于其对干扰太敏感,同时
在各种基本形态中股票幅度并不确定,只是形恋一致.所以直
接汁算距离有相当的困难。其他的方法有用离散傅立叶变换
基 金璜臼:高等学援 哥 I教师资助 计皇Jf和中南工 夫青年 骨干教帅科技基金资助
作者 简介 :李蛊 ,讲 帅 上 要研究方向为 KDD.分布式处理技术 陈梧乔
.教授.博十生导师 .上要研究方向为软件T程
56 2001 13 尊机工程与应用
维普资讯
(DFF、将萁生换到频域 然后职其前几位系数(fc),作为基本形
态 f序列的逻辑击 但表示和计算都较复杂 ,该文采用 一种
萄沽方便的方法 趋势线段斜率方法来作为其逻辑表示法。
2.2 基本子序列形态的逻辑表示和匹配
对f子序列的各种情形,口J以州斜率序列来表示 ,首先将
其分段 ,得 到 n个 对l世有 x(1.” ,n) Yl1 2.‘n) 分别
计茸其斜率:
l Ytn)
卜 Xfn)
固 2
得刮 k[r~l作 其逻辑表述形式.如 [:升 角形的示意一
宴际的殷票价格走势是比较复杂而多变的,必颁做到台适的匹
配 .在 曰K线走势 中.对每 日的一只股票价格变化波 动有 开盘
价,收糯价.蛀高价.最低价等束描述。
,
/
固 3 股票的实际走势 日 K线圈
当收盘价^十l}=髓价时为阳线.收盘价小于开盘价时为即
线.其差价构成宴仆的人小 如图3股票的实际走势日K线图
于所示 选用¨种指标作为其时序数据的衷币是要考虑的
题 . b于 _丰要是对其 中线 的趋势 感兴趣 .同时 股票的短期渡 动
是冉一定的随机『土、所 采用其5天 平均价来描述数据序 ll
M[,I-{Yln1+ylr,一l I 1n~2卜y【n一31 yIn_4]】/5
从囝 3町以石 半均线的走势要平滑多了(苴 根线为
5 113 2I)的 平均 J 实 际 相 于对 y[n1作了数字滤波处理
得越 n]之 接 米是如和f 基本的形志模式匹配的 题
如 时间跨度 为 圳对南 M{lI,·,M 个点构成的I山
线 采用 下 。法杀进行拟台 得到其斜率序列的表示 并给出
匹 配结果
算法 l序列匹配掉法
input:序列 A的 M⋯ , .Ⅵ口1 1.趋势若值 s,
小序州的数据B In.].啮n1】.·----B』 允许瀑差
output:AE‘B【r Lilnr NO Matchlng“
:I:
Do while i
{hii]=M[i+l卜M『一7;//计算相关的斜率
l=;+】1
n-l:kU]-hI1】;//啦趋势 值
for J=l to T-f
{m-h[j+1]+h[jI:d:}h +1卜h[jll/m;//消除幅度的影响
if d<e Ihen hij+1】-<hij+1]+ I)/2;//斜率差值小于趋势
差值s.则进行
e Kfr,]h[j』: 1,,台并平均
+l I
//得到了序列的斜率序列 KIn]
比较 kIn]和· 『 l的长度 ,如果一致,则计算其距离
E:∑IkIn卜B,[n]l/n
If E乍Wc//认为是匹配成功 ,将其归为相应的基本模式
Then A∈·B nl_
Else Retum 。NO Matching。’
3 模式关联性的挖掘
将基本序列模式用字母 B , ·····B.表示.掏成集合 F。
规则形式如下:
定 义 1:对 序 列 D(S):(a .如,⋯ ·· )其 中 E F.对 A
B E日,如果 A出现后 ,在 T 时间 内 B也 出现,这种序列关联规
则表示为 :A B(within T)
定义2.规则的可信度为:c(A~B(within T)):r(A,B.T)/
F(^ )
规则的支持度为:S=F(A)/N
其 中 F(A)=the number of occur[ences of A 0n D‘S)
¨ A.B.T)=the number 0f oceumences nf A that at@ fol—
lowed hY B within T
即F(A.L,T): 马:AAB∈{ , 1l}
对基于定义 1和定义2的关联规则的挖掘算法如下:
(¨ 首先由支持度将符合条件的 A选出来=
(2)然后对确定的 A扫描序列,计算其符合 A B(within
rj的数目,当到达可信度以上时.则输出规则。
具体可参见文献[1]。
4 挖掘过程和结果
在股票时序数据的分析和挖掘中,必要的先验知识是非常
重要的,过体现在基本形态的选择和斜率的确定 同时发现对
时 j段的划分也是影响规律的一个重要方面 下面是挖掘总的
过程 :
t¨ 基本形态的数据确定和维护。
(2)选定要分析的数据序列(计算 5天的均线序列),并确
定其丰}『关的参数 有 E,WC,T,支持度 s W及可信度 C。
c3)对待分析的数据序列进行匹配,采用窗口大小为T进
行滑动匹配,若成功则将其记录为( ,T0其中a.EF 表示其
出耻的时问值。
f4j对由( ,T.)构成的序列 D 进行关联规则的挖掘,输出
觇则
子序列的匹配结果验证 :
对图 1的走势进行了验证,选时问窗【】T=20 E:O05.
we=02下和上升三角形态得到 配
关联规则的挖掘 :
在实验中,从酥沪股票选出20o只股票.建立了 30种基本
志数据.并设置支持度 S:5%,町信度 C=50% 采用以上方法
进行挖掘,部分测试结果如下:
规则(T-21天) 支持度 可信度
平底 上升 8.6% 78%
v形 三角形 5 8% 62 4%
烈顶 下 降 7,9% 66.3%
结果的意义得到了领域内专家的认同,与人们从实际中的
(下转 85页)
计算机工程与应用 000I 】3 57
维普资讯
,!一一÷。’
一
.
_ J /
L
、
~ 。
一 >
一 : 、:
l
I
.
一
一
I :
卜
围 6 对两种旋转对 稗形状在不 同姿态下提取旋转 中心的结果
5 实验结果
对多个旋转 十称的 2D 闩标 在变换视点和视角的条 件下的
成像进行分析 ,确认它们的旋转对称点集并提取其旋转中心,
取得 r良好的实验结果 图6是对其中两个典型目标不_司姿
态成像的分析结 为了说明结构参数的内在不变性,选择图
6左侧 日标的 不同姿态 F的结构参数按旋转单元分组怍比
鞍说 明, 表 1~
该方法适用 于厦点数 目较多或 目标的旋转单元数 目 5的
情况 否则,关键 的结构参数和形心不坐量难 构造 对于
鞍简单的旋转对称目标,例如等边三角型、正方形及其由此衍
生的旋转对称H标类、采用其它简单方法即町获得较好的船释
例如:对于旋转 几数目为 4的目标.若A.B,C,D是它的 一组
顺序旋转对称 直线 AC与直线 BI)的交点就是旋转中 =
其 它方 法在此小冉
表
旋转
一 论述
不同姿态的结构参数 比较
兀 站掏喜敏l姿忐 _】 精构参数【姿态 2j 结柯参数(姿态 3:
r2 46.7】8’ f2 32,7 l61
2 5I I6t (242.7''}
(2 43 7 24 【2 27.7 32I
217,7 27、 r2 44 7 2】’ (2 40,7 l8j
·2鲫 728: l2 55,7 26
一2 45.7 37. (2 55 7】6: (2 46,7 24I
fl一接 57贞
经验吻合,从lm丧明过种方法是具响实际意义和数果的
5 总结和讨论
采州时序模 C 联的思想对股票止势进行 分析 ,首 先星建
立和维护基奉的形盎If列.对数据丁序列采用线段斜率序列表
示 进行于序列摸 C 配 然后调用时序模式 联算法,得出其
纬果 其优势 F能够对股票的中线走势提供较好的参考帮
助,r司时具青 旧时间伸缩性。由于成交量是反映股票走势
的重要指标 怎样将形态和成交量结合起束.并进行动态的基
本模式 和时序数撕关联规则 的挖掘是将 来要继续研究的 问题 。
(收稿 fj期 :2000 】】月 )
、
.
l
L
l
l
l
- ·
。
6 小结
泼文利用射影几何的交比不变量定义了关键点的结构参
数和形心不变量,宴现了对简单连通的2D多边形目标的旋转
对称特性的检测和分析。文章所阐述的方法,是作者对平面对
替类目标分析的报道续篇 ,感兴趣的读者呵参阅相关文章 一
种利用射影不变性检测形状对称性的方法 2 寻求形状内在的
约束关系来构造射髟不变的特征参数,用以描述形状的内在规
律,这种思路对其它类型的平面目标分析也有一定的启发意
义 (收稿 It期:20o0年6月)
参考文献
l毛澍莽,洗世明编著 射影几何fM】.第一版.上海科学技术文献出版社
l985 8
2 Wen—hsiang Tsai.Sheng —lin Chou Det~fion of generalized pfinci Da】
洲Ps in rotationally synuaetric~ pes[J]PR.】99l:24(2 J:95一l04
3 Takeshi M~uda,Kazuhiko Yam~ oto.Hir~Jmitsu YmmadaDet~'tion of
pargal symmetry using eortalation vfidth mt 一r 髓【ed iroages[J]
l R.1993 26(4):1245—1253
4 J A M Henk.Heijmans.Sindlarity and mm m for⋯
sha[~ using nfinkowski addition[~.IEEE PAM1.,1998;20(9):980-993
5 B~etl E B.Pavton P I^ etc C~neral methods for de~rming proj~一
¨¨ _in~ariants in imagery[J]CVGIP,1991;531l J:46—65
6 Suk Tomas,Fl— J Point ba日ed projectivt invafiams[J]PR. 2000:
33 251—26l
参考文献
t.Gaulmn D. Ⅱz—IP L.Heikki M el a1.Rtale di~overv from 【j 一
ries[Clln:Pm of the Fourth Intl Conf.on KDD,New Y0rk city.1998
l6—22
2 AgTawal R e【a1.Efficient Similarty search in 。 eⅡc da 【c】
1 :FODO Conf,Evanston.111inois 1993
. 10
3}fan Jiawei.Gong W an-Yin Yinen Mining Segment-wise period ic pm一
【e口】in time Related dstsb~ [Cl In:proc of 1998 international Con一
~mnee o13 KDD'98.New York.t998:177一l81
4蕖智 岳丽华.王熙法 时序模式发现算法研究I J_计算机研究与发展,
2[~30;(9):1107-1I13
5.Li HongA way of Mining 】¨les in stockⅡ el J.99青岛一香港国
际i}算机告议论文集
6 R Agrawal R Sfikant.Mining sequential pattern[C1 In Proceedings of
the Eleventh iaCexnafional Con ⋯ on Data Ensineenng(ICDE'95、
计算机工程与应用 2001 13 85
维普资讯