- 1 -
基于投资者社交网络的股票关联规则挖掘
王迪,张熙**
(北京邮电大学可信分布式计算与服务教育部重点实验室,北京 100876)
5 摘要:随着社交网络的快速发展,其影响也已经渗透到了传统金融行业:一方面,投资者社
交网络随着近年来股市的火热而得到了快速的发展;另一方面,将社交网络数据用于金融量
化分析也是近年来人工智能领域的热点研究方向。本文创新性的将投资者社交网络作为研究
对象,凭借其有别于普通社交网络的专业性,基于传统的 Apriori 频繁项挖掘算法,设计了
一种基于投资者社交网络的股票关联规则挖掘算法,并以国内新兴的投资者社交网络——雪10
球网为例,对算法进行实验,根据实验结果分析了这种全新的股票关联规则挖掘方法的特点
与优劣,为相关领域研究提供了一个新的角度。
关键词:计算机应用技术;社交网络;股票;关联规则;Apriori
中图分类号:TP391
15
Stock Association Rules Mining Based on Investor Social
Network
WANG Di, ZHANG Xi
(Key Laboratory of Trustworthy Distributed Computing and Service(BUPT), Ministry of
Education, Beijing, 100876) 20
Abstract: With the rapid development of social network, its influence has also been infiltrated into
the traditional financial industry: on the one hand, the social network of investors has been
developing rapidly with the fiery stock market in recent years; on the other hand, social network
data is used in finance quantitative analysis is also a new research direction in the field of artificial
intelligence in recent years. Based on the traditional Apriori algorithm and investor social network, 25
this paper designs a mining algorithm of stock association paper also analyzes the
characteristics, advantages and disadvantages of this new method of stock association rule mining
based on the experimental results. It provides a new method for the research of related
fields.
Key words: computer application technology; social network; stock; association rules; Apriori 30
0 引言
广义上的社交网络含义包括硬件、软件、服务及应用,而人们习惯上用社交网络来代指
SNS(Social Network Service)。诸如 Facebook、Twitter、新浪微博等都是社交网络的一些
热门应用[1]。现如今,每天都会有非常庞大的舆情数据从这些热门的社交网络应用当中产生,35
数据的来源是全世界数以亿计的社交网络产品用户[2]。社交网络在国内的发展同样十分迅
速,并且随着近几年国内 A 股市场的几波大行情,诸如雪球网、股吧社区等专门针对投资
者的社交网络产品也吸引了庞大的用户群体。
近年来,随着大数据相关研究的发展,针对社交网络舆情数据的研究越来越多。而将社
交网络数据用于金融行业,也是重要的应用方向:Johan Bollen 等[3]在研究中发现,通过在40
Twitter 上获取的海量数据所反映出的公众情绪波动,与股票市场的波动具有惊人的相似性。
黄润鹏等[4]在研究中以新浪微博为例,通过实证检验验证了微博反映的社会整体情绪倾向对
股票市场价格走势的影响。这些研究一方面佐证了社交网络舆情数据用于股票市场分析具有
- 2 -
可行性,另一方面也提供了一些将社交网络舆情数据应用于股票市场的有效思路。
在股票市场中,某只个股的涨跌趋势不仅会受到自身影响,往往还会有显著的板块联动45
现象:在某一时期内,同属某一基本面类别或同具某一概念因素的一类股票会有相似的涨跌
规律[5]。这种不同股票间的关联规则对投资者的持仓组合与操作策略具有重要的指导意义,
同样在传统的金融研究领域中,不同股票间的关联规则挖掘也一直是量化分析里非常重要的
一部分[6]。而传统的股票关联规则挖掘,大都是利用涨跌走势、行业概念等金融数据。由于
这些数据本身形式众多,内容复杂,对数据源的选择、对规则的量化处理等都成为了股票关50
联规则挖掘需要解决的问题[7]。
那么,基于相关研究中已经多次证明的社交网络舆情数据在股市分析中的有效性,是否
可以利用社交网络舆情数据来挖掘股票关联规则,是本文主要研究的问题。而在以往的社交
网络用于股票的相关研究中,大都是针对 Twitter、新浪微博等大众性的社交网络数据开展。
而大众社区产生的数据,虽然数量十分庞大,但是其中大部分用户并不是金融活动的参与者,55
所发表的内容也大都与金融市场无关,噪声数据会十分明显[8]。而新兴的投资者社区,如雪
球网,由于其专业性,在数据质量上显然是具备先天优势的,并且随着其发展,数据量也同
样达到了一定规模。
综上所述,本文将基于投资者社交网络舆情数据,对股票关联规则挖掘问题展开研究。
我们将以雪球网与中国 A 股市场为例,对于来自舆情数据中的股票关联规则进行了定义,60
在 Apriori[9]算法的基础上,设计了股票关联规则的挖掘算法,并进行了相关实验,测试挖掘
算法的效果,并从数据集和算法的角度,分析了算法的特点。
1 投资者社交网络与股票关联规则简述
投资者社交网络
本文选取了雪球网()作为基本研究对象。作为国内新兴的投资者社65
区,其中一些热门用户的关注者数量已经达到了百万的量级,并且用户构成除了普通的大众
股民以外,还包括了许多专业股评人员、上市公司高管、券商机构员工等业内的专业人士,
如图 1 所示。显然,在这样的社区里,每天都在不断产生数量庞大、质量优秀的行业舆情数
据。
70
图 1 雪球网上的业内专业用户群示例
- 3 -
在网站形式上,雪球网与新浪微博有许多相似之处,用户在社区中发表文本信息(类似
微博)以表达自己的意见,文本可以被其他用户任意转发,用户之间可以相互关注。从数据
的角度来看,这些包含大量的用户发表文本及其转发关系的舆情数据集,构成了我们的研究
对象。由于雪球网是专门的投资者社区,因此文本数据大都是投资者对市场的看法分析、市75
场相关的新闻消息等,如图 2 所示。
图 2 雪球网用户发表文本信息示例
舆情数据中的股票关联规则
关联规则最早于 1993 年,由美国 IBM Almaden Research Center 的 Rakesh Agrawal 等[9]80
提出。挖掘关联规则的本质是从庞大的数据集里挖掘出不同对象之间的关联性,揭示不同对
象之间的依赖关系。在我们的研究场景下,关联规则表示了不同股票之间的依赖关系,依赖
关系强的股票间可能会有相似的走势。传统的股票关联规则研究,大都是基于股市数据的量
化分析,如从走势数据中提取同涨同跌(板块联动)的股票,从公司的经营业务来提取相同
行业概念的股票,从收购、换股等财务行为来提取有资金流动的股票等。 85
而在来自雪球网的舆情数据中,我们是可以经常看到在某条文本信息中会提到一只或几
只个股。显然,被一起提到的股票之间一定是具有某种发帖人认知中的“联系”(如图 3
所示,这条文本信息中提到了几只个股信息,显然,它们之间同属银行板块,具有行业上的
关联关系)。
90
图 3 雪文本信息中提到个股信息
正是基于这样的“联系”,我们将这样的共现关系视为一种股票间的关联规则。这样,
- 4 -
中国科技论文在线
我们能很方便的对这种规则进行量化,解决了传统规则挖掘中的规则量化与定义问题。
再从内容的角度来看,由于文本内容属性(新闻、股评„„)的不同,这种“联系”可
能是不同角度的:例如在一条市场新闻中同时提到的股票,可能是两家上市公司之间发生了95
资金流动行为、在股评中同时提到的股票,可能是两只具有相似行业概念的股票„„从这方
面来看,相比传统的关联规则分析需要多重数据源(走势、财务等)而言,使用社交网络舆
情数据还具有内容优势,即我们从单一的舆情数据源中,就可以提取到不同角度的股票关联
规则。
使用社交网络的舆情数据同样存在问题,即由于数据量的庞大,文本里的共现关系也不100
是完全可靠,依然会存在噪声信息(如恶意刷贴行为、无关文本信息等)。对于这样的问题,
一方面,我们选取专门的投资者社区,由于其专业性,数据的质量会比传统社交网络优秀很
多,变相的减少了噪声信息;另一方面,我们可以通过算法的设计来尽量减少噪声信息的影
响。
2 基于投资者社交网络的关联规则挖掘算法 105
股票关联规则挖掘基本定义
关联规则挖掘问题首先由 Rakesh Agrawal 等于 1993 年提出,至今为止,最经典和常用
的关联规则挖掘算法仍是由他们提出的 Apriori 算法。本文将以这一算法思想作为核心,设
计算法流程。
首先,我们将本文研究的股票关联规则定义为一种二元组的关系,股票 A 和股票 B 之110
间的关联关系记作 ,其数值的大小等于这条关联关系的置信度,数值越大,则关联关
系越强烈。定义一组股票的组合为项集(由于我们将规则定义为二元组关系,这里项集的元
素个数不超过 2),项集的支持度为数据集中包含该项集的记录所占的比例,记作 S。对于
同时包含有股票 A 和股票 B 的一条记录,记作 , 将只包含股票 A 的一条记录,记作 。
那么,根据 Apriori 算法思想,关联规则的置信度与项集的概率成正比,与前置条件的概率115
成反比,我们得出关联规则置信度的计算公式为: 。这样,根据定义,我们
将问题转化为了一个二元频繁项集挖掘的问题。
此外,在前文中提到了舆情数据中可能存在的噪声数据,经过我们的实验分析,在文本
信息中可能产生的噪声信息往往具备两种特征:1)同一文本信息中提到远多于普通文本的
个股数量;2)噪声信息并不会被广泛传播,同样的噪声信息在数据集中少有重复出现。 120
综上,我们设计出完整的,基于舆情数据的股票关联规则挖掘算法流程。
股票关联规则挖掘算法流程
由之前的论述,我们将关联规则挖掘定义为了二元频繁项集挖掘问题。具体算法流程上,
首先我们需要将社交网络中的文本数据转化为股票项集。对于一条文本信息,我们直接提取
其中提到的股票关键词,即可形成项集。(如之前图 3 所示的文本信息,经过处理后,可以125
形成项集:{浦发银行,招商银行,兴业银行})。
在得到项集之后,即可使用 Apriori 算法的流程,来实现关联规则的挖掘。同时,考虑
到噪声信息的存在,我们采取了两种措施来消除噪声的影响:1)限定一条文本信息中包含
个股数量的上限阈值 m,超过阈值的文本信息被视为垃圾信息;2)设定讨论量的下限阈值
n,对支持度小于阈值的项集数据丢弃处理。 130
- 5 -
中国科技论文在线
具体的算法流程伪代码如下:
初始化:个股计数表、二元股票项集计数表、关联规则计数表
for 文本信息 in 舆情数据集:
关键词解析,转化为股票项集
if 项集元素个数 > 阈值 m: 135
continue
统计个股计数
两两组合生成二元项集
统计二元项集计数
for 二元项集 j in 二元股票项集计数表 140
if min(项集中股票讨论量) < 阈值 n:
continue
计算二元项集 j 的置信度,存入关联规则计数表
output:关联规则计数表
3 实验 145
我们设计了基于 Scrapy 框架的爬虫,爬取了雪球网的舆情数据,截取其中 2015 年上半
年数据,其中包含了大约 650 万条文本信息。设定讨论量下限阈值为 1000,单条文本中包
含个股数量上限阈值为 10,得到置信度大于 (根据 Apriori 算法的使用经验,在当前数
据规模下,这是一个相对较高的置信度要求)的关联规则 232 条。为了方便展示,我们用不
同方式展示实验结果。 150
首先我们从讨论量超过 10000 的股票产生的关联规则中,选取置信度前 10 的规则,如
表 1 所示。
表 1 关联规则置信度 Top10
序号 关联规则 置信度 前序个股讨论量
1 浦发银行 → 招商银行 53589
2 中信银行 → 民生银行 12092
3 中信银行 → 兴业银行 12092
4 中信银行 → 招商银行 12092
5 浦发银行 → 兴业银行 53589
6 建设银行 → 工商银行 12356
7 民生银行 → 招商银行 54111
8 兴业银行 → 招商银行 60171
9 闰土股份 → 浙江龙盛 11643
10 中信银行 → 浦发银行 12092
- 6 -
中国科技论文在线
根据表 1,我们作出以下分析: 155
(1)从舆情数据中,银行板块的股票间关联规则置信度最高,主要由于银行板块本身
作为市场风向标,总是放在一起讨论,并且讨论量大,相互间关系紧密。这样的规则是符合
市场规律,体现了“板块联动”的概念。
(2)对于前 10 条规则中唯一不属于银行板块的“闰土股份→浙江龙盛”,我们查阅了
相关资料,发现这两家都是来自浙江上虞的上市公司,不仅主营业务相同,并且两家公司的160
董事长个人之间也有紧密的联系。类似这样很难从传统量化分析中得到的关联关系能挖掘出
来,得益于社交网络本身的自媒体特性。
接下来,我们选取 1000~5000、5000~10000 两组讨论量区间,分别取置信度最高的前 5
条,并分别作简要分析,得到结果如表 2 和表 3 所示。
表 2 1000-5000 讨论量区间的关联规则 165
序号 关联规则 置信度 分析
1 首钢股份 → 河北钢铁 京津冀钢铁板块
2 兰花科创 → 山煤国际 煤炭相关板块
3 黔源电力 → 川投能源 西南电力板块
4 黔源电力 → 国投电力 电力系统,地方与国资
5 云铝股份 → 上海机电 上游供应商与下游生产企业
表 3 5000-10000 讨论量区间的关联规则
序号 关联规则 置信度 分析
1 中国太保 → 中国平安 保险蓝筹股
2 中国铁建 → 中国中铁 铁路系统国资企业
3 国元证券 → 中信证券 证券公司
4 朗玛信息 → 全通教育 “天价股”话题
5 天士力 → 云南白药 医药企业
可见,调整了讨论量限制区间之后,关联规则会呈现不同的特征:
(1)往往越高的讨论量区间,规则会倾向于挖掘金融行业(银行、保险、证券等)的170
大型蓝筹股,在低讨论量区间会更倾向于传统行业;
(2)关联特征的板块特征明显,同时一些量化分析中难以直接从数值上发现的规律,
如上下游供应链关系、同一热门讨论话题等现象,在使用舆情数据的挖掘中能很容易的被找
到。
4 总结 175
本文给出了一种全新的股票关联规则挖掘方法,并且根据实验结果来看,使用投资者社
交网络数据得到的股票关联规则是具有实际意义的。相对于传统的关联分析手段,这种挖掘
方式能从单一的数据来源得到多种不同角度的关联关系,用更加简单的流程得到了更加丰富
的结果。在挖掘得到的关联规则基础之上,无论是直接用于量化分析、投资策略指定,还是
更进一步,进行聚类、趋势预测研究,都是十分有价值的。而针对于投资者社交网络的研究,180
- 7 -
中国科技论文在线
目前来看还是一个全新的领域,希望本文能抛砖引玉,为今后的类似研究起到一定的参考作
用。
[参考文献] (References)
[1] 王亮. SNS 社交网络发展现状及趋势[J]. 现代电信科技, 2009, 39(6): 9-13. 185
[2] Milani A, Jasso J, Suriani S. Modeling online user behavior[C]//e-Business Engineering, 2008. ICEBE'08.
IEEE International Conference on. IEEE, 2008: 736-741.
[3] Bollen J, Mao H, Zeng X. Twitter mood predicts the stock market[J]. Journal of Computational Science, 2011,
2(1): 1-8.
[4] 黄润鹏, 左文明, 毕凌燕. 基于微博情绪信息的股票市场预测[J]. 管理工程学报, 2015 (1): 47-52. 190
[5] 郑朝霞, 刘廷建. 关联规则在股票分析中的应用[J]. 成都大学学报(自然科学版), 2002, 21(4):46-49.
[6] 张潜 , 高立群 . 基于小波分析理论的证券投资市场预测 [J]. 东北大学学报 (自然科学版 ), 2002,
23(6):539-541.
[7] Loewenstein G. Emotions in economic theory and economic behavior[J]. American economic review, 2000:
426-432. 195
[8] Kwak H, Lee C, Park H, et al. What is Twitter, a social network or a news media?[C]//Proceedings of the 19th
international conference on World wide web. ACM, 2010: 591-600.
[9] Agrawal R, Imieli'Nski T, Swami A. Mining association rules between sets of items in large databases[C]//
SIGMOD '93: Proceedings of the 1993 ACM SIGMOD international conference on Management of data. 1993.
200