- 1 -
中国科技论文在线
PPI 网络中重叠模块挖掘算法
李立晶*
作者简介:李立晶(1987),女,硕士研究生,主要研究方向为人工智能、机器学习、生物信息学
(中国矿业大学信息与电气工程学院,江苏徐州 221116)
摘要:PPI网络中的模块挖掘算法一种很重要的生物信息挖掘方法。 Newman快速算法作为
复杂网络中一种经典的社团挖掘算法,具有正确率高,算法复杂度低的特点,但同时也具有
无法挖掘重叠网络模块的特点。本文中,在 Newman 快速算法的基础上,首先寻找所有可
能的候选重叠节点,然后依次判断其对模块度增大是否有正作用,并将满足条件的节点进行
复制,从而得到重叠模块结构。同时,根据 PPI网络中噪声大、存在 hub节点等特点设计了
相应的去噪及寻找 hub点的步骤,得到了一种适用于 PPI网络中重叠蛋白质模块挖掘的算法
—OMMA。对于MIPS 数据集的实验研究证明了 OMMA算法是一种适合大规模 PPI数据集
挖掘的算法。
关键词: 生物信息学;蛋白质互作网络;重叠模块;Newman算法;噪声;hub蛋白
中图分类号:TP39
Overlapping Module Mining Algorithm applied in PPI
Networks
LI Lijing
(School of Information and Electrical Engineering, China University of Mining & Technology,
Xuzhou, Jiangsu 221116)
Abstract: Module mining algorithm in PPI networks is an important method for digging significant
biological information. As we know, Newman fast algorithm is a classical algorithm for mining the
associations in social network, which has the feature of high accuracy and low complexity. However, it
is not able to find out the overlapping modules. In this paper, based on Newman fast algorithm, we
proposed a new method, overlapping module mining algorithm(OMMA),for mining overlapping
modular structure in PPI networks. Here, we firstly find all candidate nodes whose neighborhood nodes
are in more than two modules, then determine candidate nodes that have positive effect on modularity
as overlapping nodes and copy them to their corresponding modules. Simultaneously, owing to the
features of big noise and existing of hub proteins in PPI networks, we designed the steps for de-noising
and finding hubs. The experiment on MIPS dataset proves its feasibility on large scale PPI networks.
Key words: bioinformatics; protein-protein interaction network; overlapping module; Newman
algorithm; noise; hub protein
0 引言
蛋白质作为生命活动的载体,其个体之间的相互作用是其行使功能的关键。蛋白质互作
(Protein-Protein Interaction,PPI)网络是指由相互连接的蛋白质组成的网络,其中节点代
表蛋白质,而边则代表蛋白质间的相互作用。研究表明[1-2],PPI网络中存在较为独立的子结
构或子网络,这些子结构或子网络被称为 PPI网络模块,同一模块中的蛋白质相互之间具有
较强的功能相关性。
PPI网络模块挖掘是进行蛋白质推断前必不可少的步骤,因此,为精确推断未知蛋白质
功能,有必要设计合适的 PPI模块挖掘方法[3]。迄今为止,科学家们在这方面做的工作主要
有:Bader和 Hogue[4]运用分子复合物预测法(MCODE)给 PPI网络中的每个蛋白质赋一个
权重,并利用贪婪算法分离连接稠密的区域;Spirin 和 Mirny[2]提出一种基于超顺磁性聚类
- 2 -
中国科技论文在线
(SPC)[5]的方法; Przulj和 Wigle [6]提出了高度连接子图算法(HCS);King等[7]提出邻
近搜索聚类算法(RNSC)等。这些方法均可以将 PPI网络划分为不同的子模块,但其共同
的缺点是无法挖掘出模块的重叠部分。实际上,生物体中的一个蛋白质可能具有不止一个功
能,不同的蛋白质模块可能会拥有相同的节点,即 PPI网络中的各模块间会存在重叠现象。
尽管 Enright等[8]提出的马尔可夫聚类算法(MCL)及 Palla等提出的派系过滤算法(Clique
Percolation Method,CPM)[9]以成功寻找复杂网络中的重叠模块,但却由于其复杂度过大,
难以有效处理 PPI网络[10]。因此,寻找一种运算复杂度低且可以挖掘重叠网络模块的算法是
PPI网络数据挖掘的重点。
基于以上考虑,本文提出一种可以适用于 PPI网络这种大规模网络的重叠模块挖掘算法
(overlapping protein module mining algorithm,OMMA)。该算法是对经典 Newman算法[11-12]
的改进算法,它在运用 Newman算法得到不重叠模块结构的基础上对其进行局部调整以期
得到最优的模块结构。由于与一般的社会网络相比,PPI网络不但规模大,而且还存在大量
的假阳性数据[13-14]和一些对生命进程起主导作用的 hub蛋白[15-17]。因此本文所提出的算法在
挖掘网络中重叠模块的同时还设计了相应的去噪和寻找 hub蛋白的步骤,使其对 PPI网络的
模块挖掘具有更好的效果。
1 PPI网络中重叠模块挖掘算法
PPI网络中的噪声问题
由于 PPI网络规模巨大,一般来说,其数据均是通过大规模高通量的蛋白质相互作用实
验技术获得。自 2000年初到现在,用于蛋白质相互作用试验的鉴定方法主要有:酵母双杂
交、串联亲和纯化、质谱鉴定技术、蛋白质芯片等。这些高通量的试验鉴定方法与传统的小
规模、集中式的试验方法相比,尽管降低了难度,但是也使得假阳性数据大量存在[18]。所
谓假阳性,是指试验检测出的在真实的网络中不存在的两个蛋白质之间的相互作用。假阳性
数据的存在不仅使 PPI网络的分析增加了难度,而且导致模块划分的准确度降低。为此,此
处采用 Asur等[19]用于衡量拓扑网络数据相似性的方法实施去噪。假设节点 i和 j之间有边
相连接,边 ij的权重 ),( jiSCC 为:
jiji CCCCCCCCjiSCC ′−′−+=),( (1)
)1(
2
−= ii
i
i kk
nCC (2)
其中, iCC 和 jCC 表示节点 i和 j的聚类系数, iCC ′和 jCC ′表示在网络中删除边 ij后
节点 i和 j的聚类系数, in 表示与 i相连的三角形的数量, ik 表示节点 i的度。
由式(1)可知,倘若原网络中节点 i和 j之间没有边存在,那么 ),( jiSCC 的值应为小
于等于零。 ),( jiSCC 的值越大,表示这条边在整个网络中所占的比重越大,也越重要。设
定阈值α ,并保留所有 α>),( jiSCC 的边,即可达到去噪的目的。从以上分析可知,α 的
取值范围应为 [ )∞,0 ,并且α 的大小与预处理后网络的规模成反比。
- 3 -
中国科技论文在线
OMMA算法
Newman算法
Newman算法是一种凝聚算法,其主要思想是:首先,将每个节点看作一个模块,依次
合并使模块度增量最大的节点或模块,直到整个网络合并为一个大的模块为止;然后,在模
块结构中,选择使模块度最大的结构即可[11]。这里,模块度的定义为:
∑ −=
r
rrr aeQ
2 (3)
其中,Q表示模块度, rre 表示社团 r内部边的数目, ra 表示一端与模块 r中任意一个
节点相连的边的条数。模块度的物理意义是:网络中连接两个同种类型的节点的边(模块内
部边)的比例,减去在同样的模块结构下任意连接这两个节点的边的比例的期望值。Q的
取值范围值在 0到 1之间,一般来说,将 =Q 做为具有明显模块结构的下限。
Newman算法的步骤为[20]:
步骤 1:初始化网络为n个模块(假设网络中共有n个节点),按照式(4)和(5)定
义 e和a矩阵。
⎩⎨
⎧= 其它
之间有边相连和节点
,0
,21 jim
eij (4)
mka ii 2/= (5)
其中,m为网络中总的边数。
步骤 2:依照式(6),计算模块度的增量 QΔ :
)(2 jiij aaeQ −=Δ (6)
合并使 QΔ 最大的模块对,并对矩阵e和 a进行更新。
步骤 3:重复执行步骤 2,直到整个网络合并为一个模块。
上述步骤执行完后,可以得到一个对应所操作网络的树状图,树状图的每一层均对应着
一个局部Q值,选择一个对应着最大局部Q值的层,即可得到最好的模块结构。
改进 Newman算法
Newman算法尽管具有计算复杂度小,模块挖掘效果好的优点,但却不适用于具有重叠
结构的模块挖掘。PPI网络是由大量的相互作用的蛋白质组成的网络,每个蛋白质节点可能
具有不止一个功能,因此,在形成的模块中,应该存在相互重叠的部分。而现有的用于 PPI
网络模块挖掘的算法,基本上都不能同时修正算法复杂度过大和无法挖掘重叠模块结构的缺
点。因此,改进 Newman算法使其可以挖掘重叠模块结构是合理且十分必要的。
本文中对经典Newman算法进行改进,从而得到适用于重叠模块的挖掘的OMMA算法。
算法的基本思想为:在已经用 Newman算法得到的模块结构的基础上,判断模块中的点是
否为边缘点。倘若为边缘点,则判断其是否符合重叠条件,如果符合,则确定这个点为重叠
点,并将其复制到相应的模块中。其中,边缘点定义为其邻居节点不只存在于其所在的模块
中的点,而重叠条件是指:将此点移入模块后,此时模块的模块度大于之前的模块度。具体
步骤如下所示:
步骤 1:对于用 Newman算法所得模块结构,按式(7)判断模块中的节点是否为边缘
点。
- 4 -
中国科技论文在线
⎩⎨
⎧= 其它
其所在的模块的邻居节点不只存在于
,0
,1 v
i (7)
步骤 2:判断边缘点是否符合重叠条件。假设节点 i的邻居节点不仅出现在模块 A中,
而且还出现在模块B中,将 i移到模块B,得到模块B′。此时,若 BB QQ >′ ( BQ 表示模块B
的模块度, 2BBBB aeQ −= ),则 i是模块 A和B的重叠点,将 i复制到B中。
步骤 3:按照步骤 1和 2中的方法,依次找出所有的重叠模块。
寻找网络中的 hub节点
hub蛋白是 2003年 Jordan等[15]在研究蛋白质进化速率时发现的,并初步将其定义为连
接度高的蛋白质。2004年,Han等[17]将 hub蛋白划分为 date hub和 party hub,party hub需
要与其邻居共表达,而 date hub则不需要与其邻居共表达。根据 Han 等[17]的描述,在具有
模块结构的网络中,date hub往往用于连接几个不同的模块,而 party hub则主要在模块内部
发挥作用。
基于以上研究,我们将 party hub定义为模块内部度最大的蛋白质,其定义公式如下所
示:
ir khubparty maxarg= , ri∈ (8)
其中, r表示社团, rhubpary 表示社团 r中的 party hub节点。
根据 Han等[17]的研究,将 date hub定义为连接 3个以上功能模块的蛋白质节点,其具
体计算公式如下式(9)所示:
)(
1
ifACC
rn
r
i ∑
=
= (9)
其中, iACC 表示节点 i所连接的模块的数目, rn 表示模块总数。定义函数 )(if ,若节
点 ri∈ ,则 1)( =if ,否则 0)( =if 。
算法步骤
综上所述,OMMA算法的计算步骤如下所述:
步骤 1:输入数据;
a 数据预处理
步骤 2:删除输入数据中重复的边以及自循环的点;
步骤 3:根据式(1)和(2),计算有边连接的数据点之间的权重,并将 α<),( ji vvSCC
的边删除;
步骤 4:删除孤立点并构造邻接矩阵;
b 挖掘重叠网络模块
步骤 5:根据式(4)和(5),构造矩阵e和 a;
步骤 6:根据式(6),计算模块度的增量 QΔ ,并合并模块度增量最大的模块(节点)
对,同时进行相应的矩阵e和 a的更新,并记录此次更新所得到的模块度Q的值;
步骤 7:重复步骤 6,直到整个网络均合并为一个模块;
步骤 8:在所有的模块度Q中,选择Q最大时所对应的模块结构C;
步骤 9:对于所得到的模块结构的每个点,按照式(7)判断其是否为边缘点。若是,
- 5 -
中国科技论文在线
转步骤 10;否则,继续判断下一个点;
步骤 10:假设节点 i的邻居节点不仅出现在模块 A中,而且还出现在模块B中,将 i移
到模块B,得到模块B′。此时,若 BB qq >′ ,则 i是模块 A和B的重叠点,将 i复制到B中;
步骤 11:返回步骤 9,判断下一个点;
步骤 12:得到新的模块结构C′;
c 寻找 date hub及 party hub节点
步骤 13:对于模块结构C′中的每一个模块,按照式(8)选择度最大的点为本模块的
party hub点;
步骤 14:按照式(9)所示的方法,依次判断网络中的节点是否是 date hud点;
步骤 15:输出模块结构和 hub点。
计算复杂度分析
假设原始数据中蛋白质节点数目为n,相互作用的边数为m。由于要计算输入数据中
所有边的权重,因此,a部分的计算复杂度为 )(mO 。步骤 5到 8为经典 Newman算法,其
计算复杂度为 )( 2 mnnO + 。步骤 9到 12中,需要循环迭代的部分仅与模块结构C中的节
点数目有关,而C中节点数的最大极限值为n,因此,步骤 9到 12的计算复杂度为 )(nO 。
因此,b部分的计算复杂度为 )( 2 nmnnO ++ 。步骤 13中,模块结构C′中节点数目的最大
值为n,步骤 13和 14中模块间节点的个数远小于n,因此,c部分的计算复杂度为 )2( nO 。
根据以分析可知,OMMA算法的计算复杂度为 a、b、c三部分计算复杂度之和,即
)3( 2 nmmnnO +++ 。已知原始 Newman算法复杂度为 )( 2 mnnO + ,CPM算法的复杂度
大致为 ))(exp(nO [21],MCL算法的复杂度为 )( 3nO [22]。比较可知,本文方法的复杂度低于
CPM算法和MCL算法,高于 Newman算法。与 Newman算法相比,OMMA算法复杂度高
的原因是其增加了 Newman算法不具备的挖掘模块中的重叠部分以及寻找 hub节点的过程。
综上所述,本文方法尽管同时具备挖掘重叠网络模块和寻找 PPI网络中 hub节点以及去除噪
声的能力,却并不以消耗计算速度为代价,是一种适合大规模 PPI网络模块挖掘的方法。
2 实验研究
MIPS数据集[23]来自慕尼黑蛋白质序列信息中心,是科学家对几种生物数据进行处理融
合得到的数据集。原始数据集中共包括蛋白质数目 5090,相互作用的边数 15662。利用本文
方法进行预处理后得到的蛋白质数目 3697,相互作用边数 14233。人为设定模块规模最小值
为 3,运用 OMMA方法进行模块挖掘,当 =Q 时,得到 210个蛋白质模块。根据
中的方法进行重叠模块挖掘,共得到 8个与其他模块有重叠部分的模块。按照式(8)
和(9)所述的方法,设定阈值 3=β ,共得到 party hub节点 132个,date hub节点 20个。
模块结构分布
图 1为执行 OMMA算法所得 210个模块的全局分布图。由图 1可知,除少数几个规模
较大的模块外,大多数模块的规模都较小。这是由 PPI网络的无标度特性决定的,即大多数
节点具有较小的度,极少数节点拥有较大的度。本文所用的MIPS数据集的度分布曲线如图
3所示。
图 2为模块 44的内部结构图。图中,蓝色的节点表示模块 44的普通内部成员,绿色的
- 6 -
中国科技论文在线
节点表示 party hub节点。由图 2可知,模块 44内部共包含 27个蛋白质,蛋白质 GAR1的
度为 22,是模块 44内部度最大的点,因此,它也是模块 44的 party hub节点。
图 1 模块结构分布图 图 2 模块 44
Fig. 1 Module distribution map Fig. 2 Module 44
图 3为本文中所用MIPS数据集的度分布曲线。横坐标 k表示节点的度,纵坐标 )(kP 表
示随机选定的节点的度恰好是 k的概率。由图 3可以看出,与大多数无标度网络一样,由于
大多数节点的度都较小,只有少部分节点具有很大的度,因此,其度分布曲线近似呈幂律分
布,即 rkkP −~)( ,这里 ≈r 。
10
0
10
1
10
2
10
3
10
-4
10
-3
10
-2
10
-1
10
0
k
P
(k
)
图 3 蛋白质相互作用网络的度分布
Fig. 3 The degree distribution of then PPI network in this paper
功能富集性分析
功能富集性分析[6]是判断模块与真实蛋白质复合物相似程度的重要手段,这里,采用
MIPS FunCat[24]对所得模块集合进行功能富集性分析。一般来说,很多学者都是根据超几何
聚集分布的 valueP − 来注释蛋白质功能,并将 valueP − 的最小值对应的功能作为该蛋白
质复合物的主要功能。由于很多蛋白质复合物对应两个以上的功能类,这里,采用文[10]中
的随机交叠概率 olP 来注释蛋白质复合物,并通过最小化 olP 来获得待识别模块的最佳匹配功
能。随机交叠概率 olP 的计算方法如式(10)所示:
- 7 -
中国科技论文在线
⎟⎟⎠
⎞
⎜⎜⎝
⎛
⎟⎟⎠
⎞
⎜⎜⎝
⎛
−
−
⎟⎟⎠
⎞⎜⎜⎝
⎛
=
1
1
22
n
n
oln
nn
ol
n
Pol (10)
其中, 1n 和 2n 分别表示已知复合物和待识别复合物的规模,ol表示它们交集的规模,
n表示整个网络中蛋白质的数目。
表 1是对 OMMA方法得到的模块的富集性分析结果。这里,从已得到的 210个模块中
随机抽取 21个模块进行富集性分析,并且按照P值的大小将模块对应的主要功能罗列在
Main functional categories中。由于所得P值往往很小,这里采用其自然对数值进行比较分
析。表 1中第 4列的 )log( olP 值是指模块与Main functional categories中位列第一的功能的随
机交叠概率。
表 1 随机选出的 21个模块的功能富集性分析
Tab. 1 Functional enrichment analysis of 21 modules selected randomly
MO Vert Ege )log( olP Main functional categories
3 4 3
10 3 3
12 12 49
21 4 6
32 5 4
39 4 6
44 27 51
55 6 10
63 7 12
68 12 11
90 11 10
118 17 44
129 4 5
147 7 12
153 7 13
173 7 9
177 13 19
190 5 4 38
- 8 -
中国科技论文在线
191 104 249
200 10 19
201 25 43
注:表 1中,MO代表模块名称,Vert表示节点数目,Edg表示边的数目, Main functional categories
表示模块被指派的主要功能,“/”用于分割两个不同的功能,数字具体代表的含义可以从MIPS FunCat[24]数
据库中查询得到。
由表 1可知,除模块 39、129和 190仅注释了一个功能外,大多数模块都具有两个以上
的功能。表 1中,随机交叠概率最小的模块是模块 44,为;随机交叠概率最大的模块
是模块 32,为。一般来说,随机交叠概率与模块注释为某一功能的可信度成反比,即,
模块 44注释为 的可信度要大于模块 32注释为 的可信度。文[10]中,Zhang
等利用 CPM对同一数据集进行模块挖掘,所得模块的随机交叠概率的最小值为。由
此可知,OMMA算法所挖掘到的模块的可信度要优于 CPM算法。
根据MIPS FunCat数据库对于 valueP − 阈值的设定[24],这里,将交叠概率 )log( olP 值
小于-3的模块定义为注释可信度较高的模块。经过统计分析可知,210个模块中共有 142个
模块的 )log( olP 值小于-3,即,认为有 142个注释可信度较高的模块。
模块匹配性分析
除了富集性分析外,模块匹配率也是衡量蛋白质挖掘效果的一个重要的指标,其物理意
义为待识别复合物与已知蛋白质复合匹配的程度。根据MIPS FunCat数据库[25]中的描述,
这里,对匹配率的定义为:
2
_
n
olratematch = (11)
式中, 2n 和ol的含义与式(10)一致。
图 4是上述 142个可信度较高的模块的匹配率的直方图。对于那些对应的功能不止一个
的模块,这里只统计与其匹配程度最高的功能。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
0
1
49 50 51 53 54 55 56 57 58 59 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 82 85 87 88 90 91 93 99 100102106109116118119122 126
0
1
129132136137138139 140144146147148150152153154 155157159160164165 167168169170172173176177178185 187188190191192193 194196197200201203204206208 209210
0
1
module label
m
at
ch
r
at
e
图 4 被成功注释的 142个模块与已知蛋白质复合物的匹配率
Fig. 4 Match rate of 142 modules with high match rate
图 5是对图 4的匹配率的统计结果。由图 5可知,有 %的模块的匹配率达到了 1,
%的模块的匹配率在 到 1之间,仅有 %的模块匹配率小于 。因此可知,142
- 9 -
中国科技论文在线
个模块中绝大多数模块的匹配率都很高。
%
% %
<=Match rate<1 0<Match rate<
Match rate=1
图 5 匹配率的统计分布图
Fig 5. The statistical distribution of match rate
模块结构对比分析
表 2为 OMMA与 CPM算法对MIPS数据集进行模块挖掘的结果比较。其中,各项指
标的定义如下:
输入数据总数
输出数据总数
数据识 =别率 (12)
总数
模块随机交叠概率块注释率
模块
数.010小于
模 = (13)
总数
数匹配模块率
模块
的模块1匹配率为
最优 = (14)
表 2 MIPS数据集模块挖掘的结果比较
Tab. 2 Comparison results on the MIPS dataset
算法类型 模块数 数据识别率 模块注释率 最优匹配模块率 )log( olP 最小值
CPM 125(k=4) % % %
OMMA 210 % % %
观察表 2可知,CPM和 OMMA算法在最优匹配模块率上相差不多。CPM算法的模块
注释率要高于 OMMA算法,但其注释的 )log( olP 最小值却大于 OMMA算法,即注释可信
度小于 OMMA算法。表 2中,相差最悬殊的指标是数据识别率,OMMA算法的数据识别
率为 %,而 CPM算法的该项指标值只达到 %。OMMA算法遗失数据的主要原因
是在数据与处理时,删除了一些相似程度不高的数据对;而 CPM算法则是由于自身算法的
特点——寻找全连接网络来构建模块,使得一些发散型网络模块无法被识别,从而造成数据
遗失。
以上对于MIPS数据集的研究表明,OMMA算法对于大规模的 PPI网络具有较好的适
应性。表 1和图 3、图 4分别是从功能富集性分析和与已知蛋白质复合物的匹配率方面进行
的实验分析结果。富集性分析结果表明,有 %的模块能够在MIPS数据库中找到与之
对应的且可信度较高的功能类别,且随机交叠概率的最小值 )log( olP 达到;匹配率的
统计结果表明高达 %的模块与已知蛋白质复合物的匹配率达到了 1。与 CPM算法相比
(表 2)可知,OMMA算法还具有避免大规模数据遗失的优点。综上所述,OMMA算法是
- 10 -
中国科技论文在线
一种较好的可用于大规模 PPI网络模块挖掘的算法。
3 结论
近年来,随着系统生物学的发展,蛋白质相互作用网络受到了越来越多的关注。利用生
物学或复杂网络的方法对蛋白质互作网络进行模块挖掘,并将其应用于蛋白质功能预测是生
物信息学研究中最热门的领域之一。本文应用复杂网络中的 Newman算法,经过对其进行
适当的改进得到一种适用于 PPI网络中重叠蛋白质模块挖掘的方法—OMMA算法。OMMA
算法不但保留了原始 Newman算法的快速性和高效性,且同时具备挖掘重叠网络模块并找
出 PPI网络中的 hub节点的特点。通过对真实 PPI网络进行实验研究,可以发现本文方法能
够有效地对大规模的 PPI网络进行模块挖掘。但同时,我们也必须注意到,由于 PPI网络本
身的无标度特性,使得聚类不均衡,因此本文中得到的模块规模差异很大,这在一定程度上
妨碍了其功能注释的效果。尽管如此,与其他的用于 PPI网络模块挖掘算法相比,本文中的
方法仍具有一定的优越性,同时,我们会在下一步的工作中试着通过构造适应度函数来解决
其聚类不均衡的问题。
[参考文献] (References)
[1] Schwikowski B, Uetz P, Fields S. A network of interacting proteins in yeast[J]. Nature Biotechnology, 2000,
18(12): 1257-1261.
[2] Spirin V, Mirny L A. Protein complexes and functional modules in molecular networks[J]. Proceedings of
the National Academy of Sciences of the United States of America, 2003, 100(21): 12123-12128.
[3] 王夏, 李北平, 谭明锋, 等. 生物信息学方法预测蛋白质相互作用网络中的功能模块[J]. 生物技术通讯,
2009, 20(3): 430-432.
[4] Bader G D, Hogue C W. An automated method for finding molecular complexes in large protein interaction
networks[J]. BMC Bioinformatics, 2003, 4: 2.
[5] Blatt M, Wiseman S, Domany E. Superparamagnetic clustering of data[J]. Physical Review Letters, 1996,
76:3251-3254.
[6] Przulj N, Wigle D A, Jurisica I. Functional topology in a network of protein interactions[J]. Bioinformatics,
2004, 20(3): 340-348.
[7] King A D, Przulj N, Jurisica I. Protein complex prediction via cost-based clustering[J]. Bioinformatics, 2004,
20(17): 3013-3020.
[8] Enright A J, Van Dongen S, Ouzounis C A. An efficient algorithm for large-scale detection of protein
families[J]. Nucleic Acids Research, 2002, 30(7): 1575-1584.
[9] Palla G, Derényi I, Farkas I, et al. Uncovering the overlapping modular structure of protein interaction
networks[J]. Nature, 2005, 435: 814-818.
[10] Zhang S H, Ning X M, Zhang X S. Identification of functional modules in a PPI network by clique
percolation clustering[J]. Computational Biology and Chemistry, 2006, 30(6): 445-451.
[11] Newman M E J. Fast algorithm for detecting community structure in networks[J]. Physical Review E, 2004,
69(62): 066133-1-066133-5.
[12] Newman M E J, Girvan M. Finding and evaluating community structure in networks[J]. Physical Review E,
2004, 69(22): 026113-1-026113-15.
[13] Jansen R, Lan N, Qian J, et a1. Integration of genomic datasets to predict protein complexes in yeast[J].
Journal of Structural and Functional Genomics, 2002, 2(2): 71-81.
[14] Yu H Y, Paccanaro A, Trifonov V, et a1. Predicting interactions in protein networks by completing defective
cliques[J]. Bioinformatics, 2006, 22(7): 823-829.
[15] Jordan I K, Wolf Y I, Koonin E V. No simple dependence between protein evolution rate and the number of
protein-protein interactions: only the most prolific interactors tend to evolve slowly[J]. BMC Evolutionary Biology,
2003, 3:1.
[16] Taylor I W, Linding R, Warde F D, et al. Dynamic modularity in protein interaction networks predicts breast
cancer outcome[J]. Nature Biotechnology, 2009, 27(2):199-204.
[17] Han J D J, Bertin N, Hao T, et al. Evidence for dynamically organized modularity in the yeast protein-protein
interaction network[J]. Nature, 2004, 430: 88-93.
[18] 欧阳玉梅, 方若森, 马志强. 评估蛋白质相互作用可信度的生物信息学方法[J]. 生命科学, 2008, 20(3):
408-414.
[19] Asur S, Ucar D, Parthasarathy S. An ensemble framework for clustering protein-protein interaction
networks[J]. Bioinformatics, 2007, 23(13): 29-40.
[20] 汪小帆, 李翔, 陈关荣. 复杂网络理论及其应用[M]. 北京:清华大学出版社. 2006.
- 11 -
中国科技论文在线
[21] Danon L, Diaz-Guilera A, Duch, J, et al. Comparing community structure identification[J]. Journal of
Statistical Mechanics: Theory and Experiment, 2005, 2005(9): 10.
[22] Stijn van Dongen. A New Cluster Algorithm for Graphs[J]. Centrum voor Wiskunde en Informatica
(CWI), INS-R9814, 1998.
[23] Mewes H W, Frishman D, Mayer K F, et al. MIPS: analysis and annotation of proteins from whole genomes
in 2005[J]. Nucleic Acid Research, 2006, 34: D169−172.
[24]
[25] Ruepp A, Zollner A, Maier D, et al. The FunCat, a functional annotation scheme for systematic classification
of proteins from whole genomes[J]. Nucleic Acid Research, 2004, 32: 5539-5545.