- 1 -
中国科技论文在线
基于等价类的大型数据库频繁项集挖掘算
法#
毛建旭1,毛建频2,姚晓玲1,刘彩苹3**
基金项目:高等学校博士学科点专项科研基金(20070532048);国家自然科学基金(61072121)
作者简介:毛建旭(1974-),男,江西安义人,博士、副教授,主要研究方向为数字图像处理、数据挖掘、
模式识别
通信联系人:刘彩苹(1978-),女,讲师,主要研究方向:数据挖掘和无线传感器网络
(1. 湖南大学电气与信息工程学院,长沙 410082; 5
2. 江西抚州职业技术学院,江西抚州 344000;
3. 湖南大学信息科学与工程学院,长沙 410082)
摘要:挖掘频繁项集是数据挖掘中最基本的问题之一,而大型数据库庞大的数据使得传统的
频繁模式挖掘算法难以适用。针对大型数据库的特点,在分析 FP-growth算法的基础上,提
出一种基于等价类的大型数据库频繁模式挖掘算法 EFP-growth(Equivalent Classes Frequent 10
Patterns-Growth)算法。EFP-growth算法利用项集等价类将关联规则挖掘的项集分成互不相
交的子空间的性质,将一个大型数据库分解成多个投影数据库,依次在每一个投影数据库上
进行约束频繁项集挖掘。算法尤其适合支持度较小时的大型数据库的挖掘。分析和实验表明
EFP-growth算法在挖掘大型数据库时时间和空间的性能上均优于 FP-growth算法。而且,随
着数据库规模的增大,EFP-growth算法具有更明显的优势。 15
关键词:电路与系统;数据挖掘;FP-树;频繁模式;等价类
中图分类号:TP391
Mining Frequent Itemsets Based on Equivalent Classes in
Large Databases 20
MAO Jianxu1, Mao Jianpin2, Yao Xiaoling1, LIU Caiping3
(1. College of Electric and Information Engineering, Hunan University, Changsha 410082;
2. Fuzhou Vocational and Technical College of Jiangxi, Fuzhou 344000;
3. College of Information Science and Technology ,Hunan university,Changsha 410082)
Abstract: Finding frequent itemsets is one of the most basic problems in data mining. The large 25
amounts of data make the traditional algorithms for frequent patterns mining difficult to extend to large
databases. According to characteristic of large databases, inspired by the fact that the FP-growth
provides an effective algorithm, a new EFP-growth for mining frequent patterns in large databases is
proposed. Based on the characteristic of equivalent classes , which separate item sets of association
rules into many subsets , proposed algorithm divides a large database into many projection subsets and 30
carries out constrained frequent. Experiments show that the algorithm has accelerated the mining speed
and the performance of space scalability is superior to the FP-growth algorithm. Moreover, the
algorithm has a very good time and space scalability with the increasing size of database.
Key words: Circuit and System;Data mining ; FP-tree ;Frequent itemset; Equivalent classes
35
0 引言
频繁项集的挖掘是关联规则、相关分析、序列模式、显露模式等许多重要数据挖掘任务
的基本步骤。长期以来, 人们对频繁模式的挖掘进行了大量深入的研究工作, Agrawal于
1993年首次提出布尔型关联规则问题和相应的Apriori 算法[1]。Sumithrar和Wu分别提一种
Agrawal的扩展算法[2-3]。针对Apriori算法框架的缺陷,Han等人提出了FP-tree结构和相应的40
- 2 -
中国科技论文在线
FP-growth算法[4]。FP-growth 算法采取了分治策略:首先,将提供频繁项集的数据库压缩到
一棵频繁项集树(或FP-树),但仍保留项集关联信息;然后,将这种压缩后的数据库分成
一组条件数据库,每个关联一个频繁项,并分别挖掘每个数据库。实验分析表明, FP-growth
算法比Apriori算法快一个数量级。随后,各国的研究者们相继提出了许多其他改进算法,如
Koh等人提出的基于树的高效频繁项集挖掘算法[5],Nguyen利用矩阵提出的频繁项集挖掘算45
法[6],郭宇红等人提出的反向频繁项集挖掘算法[7]。Zeng等人提出了基于FP-tree的加权关联规
则挖掘算法[8]。Jalan等人提出了一种基于FP-tree的非递归频繁项集挖掘算法[9]。
FP-growth 算法开辟了有效挖掘频繁项集的新途径。然而,它的时间和空间效率还不足够
高,仍需改进。FP-growth 算法的主要问题是建树过程中必须将提供频繁项集的数据全部压缩
到一棵频繁项集树(或 FP-树),在挖掘时,由长度为 1 的频繁项集(初始后缀模式)开始,50
递归的构照条件 FP-树进行挖掘,在建树和挖掘过程中都需要占用大量的内存。当数据库很
大,或者数据库中的频繁 1-项集的数目很大时,运行速度将大为降低;更有甚者,可能由
于无法构造基于内存的 FP-树,该算法将不能有效地工作。
本文结合大型数据库本身的特性,在分析 FP-growth 算法的基础上,提出了一种基于等
价类的大型数据库频繁项集挖掘算法 EFP-growth。实验和分析表明,在挖掘大型数据库时55
EFP-growth 算法具有较好的时间和空间效率。全文共分 0-4 节,其中第 1 节对基本概念和
问题进行了描述;第 2 节给出了 EFP-growth 算法;第 3 节是算法的实验结果和分析;第 4
节进行了全文的总结和展望。
1 基本概念和问题的描述
为方便讨论,我们以事务数据库为背景。设I ={ i1 , i2 , …, im } 为所有项目的集合,D = 60
{ T1 , T2 , …, Tn} 为事务数据库, 其中每个事务Ti ( i∈[ 1 , ... , n ]) 有一个惟一的标识TID。
定义1[10] I的子集X⊆ I称做项集或模式。项集X的支持度计数sup-count (X)为D中包含项
集X的事务数; X的支持度support (X) = sup-count(X) / | D| ,其中| D| 是D中事务的个数。
显然,项集X的支持度是项集X在事务数据库中出现的频率。任意的项集并不提供有意义
的知识,然而,当项集X的支持度大于一定值时, 则呈现一定的统计规律。 65
定义2[10] 如果对于预先指定的最小支持度阈值min-sup , support (X)≥min-sup,则项集
(模式) X是频繁的。
通常,最小支持度阈值min-sup由用户或领域专家指定, 而最小支持度计数min-count =
[ min-sup×| D| ]。
在事务数据库中挖掘频繁项集的问题可以描述为:给定事务数据库D和最小支持度阈值70
min-sup ,挖掘所有的频繁项集。
定理1 关系R是基于I的关系, 如果R={<X,Y>|项集X,Y⊆ I, X和Y长度均为k+1, 且有长
度为k的相同的后缀,},则R为基于I的等价关系。
证明:关系R满足 (1)自反率: ( )( )X X I X R X∀ ⊆ → ;
(2)对称率: ( )( )( )X Y X I Y I X R Y Y R X∀ ∀ ⊆ ∧ ⊆ ∧ → ; 75
(3)传递率: ( )( )( )( )X Y Z X I Y I Z I X RY Y RZ X RZ∀ ∀ ∀ ⊆ ∧ ⊆ ∧ ⊆ ∧ ∧ → 。由等价关系的定
义可知,关系R为等价关系。 证毕。
利用等价关系R可导出等价类[X]。对项目集I = { i1 , i2 , …, im },设每个ip∈I 都对应一
个支持度supp (ip) 值。对长度为k的项目X = x1 x2 …x k (假定X中各元素已按相应的supp值排
- 3 -
中国科技论文在线
好序,当两个项集支持度相同时按相应的ASCII值排序。本文采用降序,即有supp ( x1) ≥ supp 80
( x2)…≥ supp ( xk),而且当supp (xp )=supp ( xp+1),则ASCII(xp) >ASCII (xp+1))。X的等价类[X]
定义为:
[X] = [x1 x2 …x k]= {y x1 x2 …x k | y ∈I, (supp (y)>supp(x1) and ASCII(y) >ASCII (x1))
iff(supp ( y)=supp ( x1)))} (1)
也即X的等价类是由项目后缀等于X ,且项目长度比X的项目长度大1的项目组成的集合。85
例如: I = { a , b , c} ,假设supp (b) >supp ( c)=supp ( a) ,则[Φ] = { b , c, a}, [a]= { ba , ca } , [ca]
={ bca }。
任意两个不相同的项集的等价类的交集由等价类的定义可知为空,即各等价类把项集空
间分成了互不相交的若干子空间。对任一项集X , 其既与一个等价类相对应,又是某个等价类
的成员, 例如:ba既对应等价类[ba] ,又是等价类[a ]的成员。 90
根据对应[X]可以建一颗树,[Φ]为根接点。X= x1 x2 …xk-1x k (X中各元素已排好序)对应
[X],而Y= yx1 x2 …xk-1x k对应[Y],则[Y]可作为[X]的子结点。这颗树称为等价类树,即CT树。
定义3 令α 为I上的约束项表达式, L(FP-treeD|α )为在事务数据库D中满足约束项表达
式α 的频繁项集。α 以合取范式(CN F) 的形式, 即k 1∧k 2∧�∧ki (ki∈I,即每一合取项要
么是I中的一个项目,要么是I中一个项目的补项。 95
α =(a∧e∧¬ b),该约束项表示,符号约束的项集集合是包含了{ae}但不包含{b}的
项集集合。
定义4 投影数据库DX。设X⊆ I , X = x1 x2 …x k , DX为D对X投影所得, 故称DX为D对X 的
投影数据库, 简称投影数据库,也记为DX =P( D , X) , P就是把D变换为DX的过程,称P为投影
变换,简称投影。 100
由于DX中的X与等价类树CT 中的结点[X]相对应, 故用X和DX代替等价类树中的X ,则可
以按等价类树进行数据库的投影分解过程。如前面一例所示,图1为沿I={a,b,c}生成的CT
树进行的投影分解过程。
图 1 沿等价类进行的投影分解的过程 105
Fig. 1 Process of projecting and partitioning along equivalent classes
EFP-growth算法将事务数据库沿等价类树进行投影分解,由于项集等价树将关联规则挖
掘的项集分成了不相交的子空间,从而使得对各项集子空间的挖掘可在其对应的投影数据库
上独立进行,这是EFP-growth算法最大的优势。 110
在遇到大型数据库的频繁项集挖掘的问题时一般进行第一层投影分解,将其分解为
|[Φ ]|个投影数据库子集,然后依次在投影数据库上进行约束频繁项集挖掘。但若遇到超大
型数据库,即使进行了第一层投影分解,投影数据库子集仍然很大,无法在内存中构造,则
要考虑继续进行投影分解,直至能在内存中构造FP-树。
- 4 -
中国科技论文在线
2 EFP-growth 算法 115
算法基本思想
设FP-treeD为在事务数据库D上建的FP-tree树,FP-treeDi为在投影数据库Di上建的FP-tree
树, L(FP-treeD| a )为在事务数据库D中满足约束项表达式α 的频繁项集。
定理2 L(FP-treeDm|cm) ∪L(FP-treeDm-1|cm-1) ∪L(FP-treeDm-2|cm-2)
∪……∪L(FP-treeD1|c1) =L(FP-treeD) 120
证明:
Di为事务数据库D基于项ci的投影数据库,即 Di⊆D,且Di中包含了事务数据库D中所有
含项ci的事务,因此对Di进行基于项ci的约束频繁项集挖掘等同于对事务数据库D进行基于项
ci的约束频繁项集挖掘,即L (FP-treeDi|ci)= L (FP-treeD| ci),则有
L(FP-treeDm|cm) ∪L(FP-treeDm-1|cm-1) ∪L(FP-treeDm-2|cm-2) ∪……∪L(FP-treeD1|c1)= 125
L(FP-treeD|cm) ∪L(FP-treeD|cm-1) ∪L(FP-treeD|cm-2) ∪……∪L(FP-treeD|c1)。由 FP-growth 算
法 描 述 可 知 , L(FP-treeD|cm) ∪L(FP-treeD|cm-1) ∪L(FP-treeD|cm-2)
∪……∪L(FP-treeD|c1)=L(FP-treeD)。证毕。
由定理2得到以下结论,将一个大型数据库投影分解成多个投影数据库挖掘频繁项集不
会影响频繁项集完全集的正确输出。 130
定理3 L(FP-tree Dm′|cm) ∪L(FP-tree Dm-1′|cm-1) ∪L(FP-tree Dm-2′|cm-2) ∪……∪L(FP-tree
D1′|c1) =L(FP-treeD)
证明:
Di′是Di的过滤子集,它滤去了之前已挖掘过的冗余项。显然在过滤后的投影数据库上进
行约束挖掘等同于在投影数据库上进行约束挖掘,即L(FP-tree Di′|ci)= L(FP-tree Di|ci)。因此,135
L(FP-tree Dm′|cm) ∪L(FP-tree Dm-1′|cm-1) ∪L(FP-tree Dm-1′|cm-2) ∪……∪L(FP-tree D1′|c1)=
L(FP-tree Dm|cm) ∪L(FP-tree Dm-1|cm-1) ∪L(FP-tree Dm-1|cm-2) ∪……∪L(FP-tree D1|c1)。由定理1
可知,L (FP-tree Dm′|cm) ∪L(FP-tree Dm-1′|cm-1) ∪L (FP-tree Dm-1′|cm-2) ∪……∪L (FP-tree D1′|c1)
=L(FP-treeD)。证毕。
性质1 EFP-growth算法具有良好的可扩展性。 140
当数据库为特大型数据库,以至于将其投影分解成将其分解为|[Φ]|个投影数据库子集
后,依然无法在内存中构造FP-树时,挖掘就难以顺利进行。改进的思路之一就是将投影数
据库子集按等价类树再次进行投影分解,如果分解后数据库子集依然无法在内存中构造FP-
树时,就再继续分解直到可以在内存中构造子集的FP-树为止。
性质2 FP-tree Di′的大小远小于FP-tree D,构造一棵FP-tree Di′占用的内存空间远小于构造145
一棵FP-tree D。
FP-tree Di′是在过滤后的投影数据库Di′上构建的,其规模远远小于在事务数据库D上构建
的FP-tree D, 因此EFP-growth算法比FP-growth算法具有更好的空间效率。
性质 3 FP-tree Di′与 FP-tree D有类似结构,但在频繁项集的挖掘过程中有不同之处。在
FP-tree 上进行的 FP-growth 算法由长度为 1 的频繁项集(初始后缀模式)开始,依次递归的150
构照条件 FP-树进行挖掘,而基于 FP-tree Di′上进行的数据挖掘是约束频繁项集挖掘,只要挖
掘所有包含 ci 的频繁项。
- 5 -
中国科技论文在线
算法步骤
EFP-growth 算法的数据库投影分解,约束频繁项集挖掘以及频繁项合并的具体过程如
下: 155
输入:事务数据库 D;最小支持度阈值 min_sup
输出:频繁项集的完全集
算法:
1) 扫描事务数据库 D,找出候选 1-项集的集合,并得到它们的支持度计数(频繁性)。然
后,按照支持度计数递减排列候选 1-项集的各项,得到候选 1-项集的集合 F。将 F 中支持160
度小于最小支持度的项删除。将集合 F 中所有的项按支持度降序排列,当两个项集支持度
相同时按相应的 ASCII 值降序排列,得到集合 C。根据等价类的定义,[Φ]=C={c1,c2,c3,…,
cm},其中 c1的支持度最高,cm的支持度最小。
2) 再次扫描数据库 D,将支持度小于最小支持度的项从各事务中删除,然后按照各项
在集合 C 中的顺序将各事务中的项进行重新排列,得到数据库为 D′。 165
3) 根据集合 C 中的各项的支持度计数,按照以下规则由小到大依次构造各项的
for i=m downto 1 do
A) 调用过程 ProjectDB( Di ,ci ),构造基于 ci 的投影数据库 Di。
B) 过滤投影数据库 Di 得到 Di′,即过滤掉在集合 C 中排列在 ci之后的项。
C) 对投影数据库 Di′,利用 FP-growth 算法进行包含项 ci 的约束频繁项集挖掘,其挖170
掘过程如下:
① 利用数据库子集 Di′,构造 FP-树,并创建项头表 HTi。在这里构造 FP-树时,该数
据库子集中各事务的项按照集合 C 中的次序处理。
② 用项头表 HTi 中最后一项所标示的信息,构造该项的条件模式基,然后构造其条件
FP-树,就能在该条件 FP-树上挖掘出包含 ci 的频繁项集 Li,完成在数据库子集 Di 上的约束175
频繁项集挖掘。
4) 当C中所有的项的约束频繁项集Li被依次挖掘出来后,合并这些约束频繁项集,即取
这些约束频繁项集Li的并集,便可得到数据库D的所有频繁项集,结束挖掘过程。
等价类[Φ ]值应为排序后侯选集F中所有的项,但根据Apriori 性质:如果数据库中一个
长度为k的模式不是频繁的,则它的长度为( k + 1) 的超模式不可能是频繁的。因此,如果在180
侯选集F中的项不是频繁的,则它超集必定不是频繁的,无须对它进行投影挖掘。我们只对
集合F中支持度大于等于最小支持度阈值min_sup的项进行投影挖掘。
约束频繁项集挖掘算法
在步骤 3)中,当在投影数据库 Di 上构造出条件 FP-树后,就能在该条件 FP-树上挖掘
出包含 ci 的频繁项集 Li,完成在数据库子集 Di 上的约束频繁项集挖掘。其过程如下: 185
设HT i为基于投影数据库Di的FP-tree的项头表
输入:投影数据库Di;集合C中第i项ci
输出:包含项ci的约束频繁项集Li
Procedure Constrain_dataming (Li , Di, ci)
① Li = Φ; 190
/*生成投影数据库Di的项头表*/
② HT i=Gen_HTi(Di) ;
- 6 -
中国科技论文在线
/*构建基于投影数据库Di的FP-tree*/
③ fptree=fpt_creat(Di, HT i);
/*提取项头表HTi的最后一项*/ 195
④ tj = last_item(HT i)
⑤ if (tj = = ci) then
/*挖掘包含项ci约束频繁项集Li */
Li =FP-growth(fptree, tj)
例1 将事务数据库D投影分解,最小支持度(minsup)=30%。表1为事务数据库D。 200
表 1 事务数据库
Tab. 1 Transaction database D
TID Itemset
T1 d b
T2 a b c e f
T3 b a
T4 b d c f
T5 a e
T6 b a
T7 b a e c
T8 d c
T9 b e a
T10 e b
事务数据库D投影分解过程如图2所示,图3和图4分别为基于项d和项c投影数据库的FP-
树及其项头表。 205
Φ
图 2 事务数据库 D 的投影分解图
Projection figure of transaction database D
- 7 -
中国科技论文在线
图 3 投影数据库 Dd′的 FP-树 210
FP-tree of projection database Dd′
图 4 投影数据库 Dc′的 FP-树
FP-tree of projection database Dc′ 215
3 实验结果和分析
实验结果
本文通过在两个数据库- WebDocs和 accidents 的测试结果来比较分析FP-growth算法与
EFP-growth 算法的性能。 220
算法程序代码用 Visual C++()实现,实验在 PetiumⅣ,内存 512M,硬盘 80G 的
PC 机上运行。实验结果如图 5~图 7 所示。实验 1 采用 WebDocs 数据库进行实验,该数据
库是从实际生活中的网页超文本文件中建立起来的专供数据挖掘用的大型数据库。它的大小
约为 ,包含 1,692,082 个事务和 5,267,656 个不同的项,其中,事务的最大长度为
71,472。实验 1 是从 WebDocs 数据库中提取了 500M,58 万条左右的数据进行测试,实验225
结果如图 5 所示。由图 5 可知,随着最小支持度的减少,两个算法的运行时间都在不断增加。
但是 FP-growth 算法的增长幅度要远大于 EFP-growth 算法,甚至当支持度小于等于 15%时,
FP-growth 算法因为内存空间不够无法运行,而 EFP-growth 算法却能正常运行。
- 8 -
中国科技论文在线
0
10000
20000
30000
40000
50000
60000
70000
80000
90000
100000
110000
120000
50 40 30 20 15 10 5 3
FP-growth
EFP-growth
支持度
运
行
时
间
(
S)
图 5 在 WebDocs 上(500M)的运行时间 230
Fig. 5 Runtime on database Webdocs(500M)
图 6 是采用 accidents 数据库进行实验,该数据库由比利时国家统计院提供的 1991~2000
期间 Flanders 地区的交通事故数据库。它包含 1,340,184 条交通事故纪录和 572 个不同的属
性值。图 6 是在事务数据库大小为 条件下,最小支持度(min-sup)从 50%减少到 %235
的两种算法运行时间的比较,由图 6 可知,当最小支持度大于等于 5%时,FP-growth 算法
的运行速度比 EFP-growth 算法快。但是,当最小支持度小于等于 1%时,EFP-growth 算法
的运行速度比 FP-growth 算法快。而且随着支持度的减少,差别越明显。
050010001500
2000250030003500
400045005000
50 10 5 1
FP-growth
EFP-growth
支持度(% )
运
行
时
间
(
S)
图 6 在 accidents 上的运行时间 240
Runtime on database accidents
图 7 是在最小支持度固定在 15%条件下,事务数据库从 300M 增加到 600M 时两种算法
运行时间的比较,由图 7 可知,随着事务数据库规模的增加,两个算法的运行时间都在不断
增加。但是 FP-growth 算法的增长要远大于 EFP-growth 算法,甚至当事务数据库规模大于245
等于 450M 时,FP-growth 算法因为内存空间不够无法运行,而 EFP-growth 算法却能正常运
行,这表明,与 FP-growth 算法相比,EFP-growth 算法具有更好的可伸缩性。
- 9 -
中国科技论文在线
0200040006000
8000100001200014000
1600018000
300 350 400 450 500 550 600
FP-growth
EFP-growth
数据集大小(M )
运
行
时
间
(
S)
图 7 在 WebDocs(最小支持度 15%)上的运行时间行时间
Runtime on database WebDocs (min-sup 15%) 250
实验结果分析
FP-growth 算法要将事务数据库中所有产生频繁项集的数据压缩到一棵 FP-树中,该树
中存储的关联信息从建树开始到挖掘完毕都完整地保存在内存里,挖掘时又通过递归创建条
件 FP-tree 生成频繁项集,条件 FP-tree 个数等于频繁项集数,所以建树挖掘的时间和空间开255
销都很大,尤其,当最小支持度降低到一定程度而导致频繁 1-项集的项总数变得很大,或
者,产生频繁项集的数据库大到一定程度时, FP-growth 算法无法构造基于内存的 FP-树,
从而导致挖掘失败。而 EFP-growth 算法虽然需要多次扫描事务数据库,但它是在投影数据
库中构造 FP-tree,规模比原始的 FP-tree 要小,而且挖掘过程比 FP-growth 算法简单,时间
消耗远小于 FP-growth 算法。当事务数据库较小或最小支持度较大时,由数据库生成的频繁260
1-项集的项总数较小,基于 FP-growth 算法的 FP-tree 树规模较小,所以两算法在建树和挖掘
频繁项集方面的时间开销差别很小,而且,由于 EFP-growth 算法在投影数据库的生成方面
有额外的时间开销,所以,此时 FP-growth 算法的运行速度比 EFP-growth 算法略快。但是,
随着数据库规模的增加或最小支持度的减小,频繁 1-项集的项总数的增加,FP-growth 算法
在建树时的内存开销和时间开销变得越来越大,因而挖掘速度越来越慢;相反,此时,265
EFP-growth 算法在数据库子集生成方面的时间开销虽然也在增大,但是,在对数据库子集
进行建树和约束频繁项集的挖掘方面,由于内存开销相对较少,时间开销也相对较小,总体
的挖掘速度比 FP-growth 快。
本文算法不仅时间效率明显优于 FP-growth算法,而且空间效率可也明显优于 FP-growth
算法。因为,EFP-growth 算法构建的是基于投影数据库的 FP-树,其规模远远小于在整体事270
务数据库上构建的 FP-树,而且由以上运行时间效率实验和分析已表明,EFP-growth 可以在
更小的支持度阀度水平上运行,而其他算法常因耗尽物理内存而无法运行。
4 实验结果和分析
针对 FP-growth 算法在挖掘大型数据库效率低,占用内存大,甚至有时无法运行这一现
象,在此基础上提出了一种基于投影的 EFP-growth 算法。这种算法不仅减少了对内存的需275
求,也较大的提高了挖掘效率。本文的实验结果很好的证明了这一点。
此外,本文提出 EFP-growth 算法具有良好的可扩展性,可沿等价类树进一步投影分解,
以便挖掘海量数据库。
- 10 -
中国科技论文在线
[参考文献] (References) 280
[1] AGRAWAL R, IMIELINSKI T, SWAMI A. Mining association rules between sets of items in large
databases[A]. AGRAWAL R .Proceedings of the ACM SIGMOD International Conference on Management of
Data[C].New York: ACM Press, -216.
[2] SUMITHRA R, PAUL S. Using distributed apriori association rule and classical apriori mining algorithms for
grid based knowledge discovery[A]. SUMITHRA of the 2010 International Conference on 285
Computing Communication and Networking Technologies (ICCCNT)[C].American:IEEE CS Press,-5.
[3] Han J, Pei J, and Yin Y. Mining frequent patterns without candidate generation. Proceedings of the ACM
SIGMOD International Conference on Management of Data. New York: ACM Press, -12.
[4] WU B,ZHANG D F,LAN Q H,et al. An Efficient Frequent Patterns Mining Algorithm Based on Apriori
Algorithm and the FP-Tree Structure[A]. The Third International Conference on Convergence and Hybrid 290
Information Technology(ICCIT)[C].American:IEEE CS Press,2008:1099-1102.
[5] KOH J L, TU Y L. A Tree-based Approach for Efficiently Mining Approximate Frequent Itemsets[A].
Proceedings of the Fourth International Conference on Research Challenges in Information Science
(RCIS)[C].American:IEEE CS Press,-1349.
[6] NGUYEN T T. An Improved Algorithm for Frequent Patterns Mining Problem[A]. Proceedings of the 295
International Symposium on Computer Communication Control and Automation (3CA)[C],
Tainan,American:IEEE CS Press,-507.
[7] 郭宇红,童云海,唐世渭.基于 FP-Tree 的反向频繁项集挖掘[J].软件学报,2008,19(2):338-350.
[8] ZENG B; JIANG X L; ZHAO improvement of weighted association rules arithmetic based on
FP-tree[A]. Proceedings of the 3rd International Conference on Advanced Computer Theory and Engineering 300
(ICACTE)[C],American:IEEE CS Press,-552.
[9] JALAN S, SRIVASTAVA A, SHARMA G non-recursive approach for FP-tree based frequent pattern
IEEE Student Conference on Research and Development (SCOReD),American:IEEE CS
Press,-63.
[10] 范明,李川.在 FP-树中挖掘频繁模式而不生成条件 FP-树.计算机研究与发展,2003,40(8):1216-1222. 305