复杂网络数据挖掘论文
1复杂网络数据流密度分析
对于一个多种网络形式并存的复杂网络,假设复杂网络作为一个网络社区,在复杂网络中存在的网络类
型数即社区数。我们用一个无向遍历图 GV,E来表示整个网络社区,如果网络中有两个节点有两条不重
合的网络路径,则说明这两个节点处于一个网络环路当中,网络中的数据流需要经过网络环路到达特定
的节点。当在某个时间段里需要传送的数据流个数大于网络节点数时,则说明该网络的数据流密度较
大,为了能够准确地在复杂网络中挖掘出所需的数据流,则需要根据数据流密度来划分整个网络社区,
寻找数据流处于哪个社区,再确定数据流所在社区的环路。在这里我们通过设计算法确定网络数据流密
度,来对复杂网络进行社区划分,再对社区进行无向环路遍历,并通过遍历得到该社区网络的所环路,
确定所需查询的数据流位于哪个环路。以下为复杂网络中需要用到的符号说明。
2增量子空间数据挖掘算法
为了能够有效地在复杂网络中挖掘出目的数据流,使用了复杂网络数据流密度的分析方法在对复杂网络
进行社区划分后,通过对社区网络进行无向环路遍历并得到社区网络的所有环路。接下来挖掘算法先后
挖掘出目的数据流所属的社区以及环路,最终确定目的数据流的具体位置。
基于社区网络遍历的数据流挖掘
当数据流 i与社区 k的相关度最大时,说明数据流 i位于社区 k的可能性就最大。但是当多个数据流的
大小区别不大时,以数据流的大小作为指标来定义相关度会导致挖掘精度较低。这里我们也引入数据流
的特征集和数据流中的分组队列长度来计算相关度。
基于多增量空间的数据流挖掘
在采用基于社区网络遍历的数据流挖掘方法得到数据流的所属社区后,我们接着采用基于多增量空间的
数据流挖掘方法来挖掘出数据流的所属环路。先将社区网络的环路进行多增量空间扩展,即先得到
目标数据流所经过的环路,再得到数据流所经过的节点与时间的相关系数,这样就可以在时空上确定目
的数据流位于环路的哪个节点中。
3实验结果
为了验证本文提出的基于复杂网络数据流密度的增量子空间数据挖掘算法的效果,我们通过
软件进行算法仿真,其中仿真的复杂网络由多种网络形式组成,网络节点有 200个,数据流大小为
500bytes,节点的接收能耗为 10nJ/bit,发射能耗为 50nJ/bit,进行信号处理和功率放大的能耗为
10nJ/bit。其他节点干扰而产生的能量消耗为 5nJ/bit。在对本文算法进行分析的过程中,我们采用了
对比分析的方法,Lopez-Yanez等人提出一种基于时间序列数据挖掘的新的关联模型,该模型是基于伽
玛分类,是一种监督模式识别模型,目的是为了挖掘已知模式中的时间序列,以预测未知的值。由
Negrevergne等人提出的一种 PARAMINER算法:一个通用的模式挖掘算法的多核架构。多核架构采用的
是一种新的数据集缩减技术(称之为 EL-还原),在算法中通过结合新的技术用于处理多核心架构的并
行执行数据集。为了验证本文算法的挖掘有效性,我们分别在增多节点数量和社区网络数的情况下获取
算法的数据挖掘精度。实验采用的精度为 NMI[16],实验结果如图 3和图 4所示。在不同节点数量下基
于复杂网络数据流密度的增量子空间数据挖掘算法的挖掘精度更高,挖掘精度高于 85%,而文献[14]的
挖掘精度在 77%以上,挖掘精度在 76%以上。因为、提出的关联模型、提出的多核架构没有准确把握数
据流在不同时间段里与环路位置的相关情况。而本文算法采用社区网络遍历和多增量空间的方法可以有
效地确定这种相关性。图 4为不同社区数下的算法挖掘精度,从图中可以看出,当社区网络的种类增多
时,会对算法的挖掘精度造成影响,本文算法的挖掘精度在社区数为 10时是 %,当社区数增加到
50时为 %。而基于时间序列数据挖掘方法的挖掘精度在社区数为 10时是 %,在社区数为 50时
是 %,而 PARAMINER算法在社区数为 10时是 %,社区数为 50时是 %。因此从数据分析来
看,本文算法的数据挖掘精度在社区数增多时仍能保持在较高水平。
4结论
为了提高网络数据流的挖掘精度,本文提出了一种基于复杂网络数据流密度的增量子空间数据挖掘算
法,该算法对复杂网络进行数据流密度分析,根据数据流密度并采用无向环路遍历的方法来划分整个网
络社区,确定数据流所属社区。利用基于社区网络遍历的数据流挖掘方法来挖掘出数据流位于哪一个社
区,接着采用基于多增量空间的数据流挖掘方法来挖掘出数据流的所属环路,并最终确定数据流在某一
刻时间里位于哪个节点。在实验中通过数据分析和对比,证明了算法在数据挖掘精度上的有效性。
作者:侯燕李巍文乔农单位:周口师范学院西南科技大学