- 1 -
中国科技论文在线
基于粗糙集和模糊聚类的分布式数据库性
能评估
陈思1,杨正球2**
作者简介:陈思(1987-),男,硕士研究生,计算机应用
通信联系人:杨正球(1967-),男,教授,网络管理、网格计算、云计算等
(1. 北京邮电大学计算机学院,北京 100876; 5
2. 北京邮电大学计算机学院计算机应用中心,北京 100876)
摘要:在分布式数据库系统中,数据库数量庞大,物理位置分散,为数据库综合性能评估提
供一个统一的、科学的衡量标准是十分必要的。在建立数据库性能评价指标体系的基础上,
利用模糊聚类方法, 在不同置信水平上对由评价对象组成的论域进行分类, 同时结合粗糙集10
理论中的知识熵来确定各指标的权重,最后得到相对客观的数据库性能综合评价值。
关键词:分布式数据库;综合性能;粗糙集;模糊聚类
中图分类号:
Based on rough sets and fuzzy clustering performance 15
evaluation of distributed database
Chen Si1, Yang Zhengqiu2
(1. Computer School,Beijing University of Posts and Telecommunications ,Beijing 100876;
2. Computer School,Beijing University of Posts and Telecommunications, Beijing 100876)
Abstract: In a distributed database system,a large number of databases, the physical location of 20
distributed,it is necessay to provide a unified,scientific measure for comprehensive performance
assessment for the the establishment of database performance based on the evaluation
index system, using fuzzy clustering method,in the different confidence levels by evaluation
object composed of domain the same time based on the rough set theory of
knowledge entropy to determine the weight of each index, finally get the relatively objective 25
database performance comprehensive evaluation value.
Key words: Distributed database;Comprehensive performance; Rough set;Fuzzy clustering
0 引言
目前,几乎所有的应用程序都要和数据库打交道。随着信息技术的不断发展,各种信息30
资源物理上日趋分布,导致了分布式数据库系统的广泛应用,确保系统中各个数据库的持续
可靠与高性能运行是相当重要的,尤其对于数据量大的系统,效率是非常重要的[1]。如何确
保数据库以高性能持续运行,这就牵涉到对数据库行为进行监控的问题。数据库的性能是通
过一系列行为指标如吞吐量、响应时间、硬件、操作系统和应用程序的性能来描述的[2]。由
于数据库设计受到各种各样因素的制约,有些要求往往是彼此矛盾的,我们力图找到一个唯35
一的数量作为绝对指标来衡量数据库的性能。鉴于数据库性能是一个受不确定性因素影响的
综合性指标,本文利用粗糙集理论和模糊集理论在处理不确定性问题方面的优势, 提出了基
于粗糙集和模糊聚类的数据库性能评估方法。
- 2 -
中国科技论文在线
1 评价指标体系
影响数据库性能的主要因素 40
影响数据库性能的因素有很多,不同的数据库又有着不同的属性。这里只讨论影响数据
库性能的一般因素,主要包括两个方面:
1.数据库自身参数设置与应用是否适合。数据库系统状态和行为,包括数据库的表空间
使用情况、数据库链路的占用情况、数据库操作的响应时间、数据库日志信息等。
2.数据库所在服务器的资源使用情况。数据库所在服务器的系统资源,包括 CPU 利用45
率、内存利用率、磁盘空间、系统程数等信息[3]。
评价指标体系的建立
根据影响数据库性能的主要因素建立数据库性能评价指标体系,如下所示:
数
据
库
性
能
数据库自身参数
服务器系统资源
表空间使用率
链路占用率
操作响应时间
CPU利用率
内存利用率
磁盘空间
系统程数
50
图 1 数据库性能指标图
Fig. 1 Database performance indicator diagram
2 数据库性能的综合评价
数据库的综合性能用 O 来表示,则: 55
1
m
i j ij
j
O b
(1)
其中 ωj 表示各属性指标权重,bij 表示各属性值。
建立关系数据模型 60
设有待处理的 n 个样本组成的集合 X={x1,x2,„,xn},也被称为论域,每个样本
的属性集合表示为 xj={ xj1,,xj2,„,xjm },可用特征矩阵:
- 3 -
中国科技论文在线
11 12 1
21 22 2
1 2
m
m
n nm
x x x
x x x
x
x x x
表示某一层的关系数据模型。防止数据溢出可以采用: 65
1
maxij ij kj
k n
x x x
(2)
对特征矩阵中的数据进行规格化。
建立知识表达系统及分类 70
在粗糙集理论中,“知识”被认为是一种分类的能力,集合是根据“知识”划分的。利
用属性对论域进行分类, 并建立论域上的知识系统。
运用模糊聚类方法对样本进行分类时,要先建立模糊相似关系矩阵,求出等价闭包矩阵。
可以采用最大最小法、相似系数法等将规格化后的矩阵转化成模糊相似矩阵,并根据矩阵系
数确定若干个分类的置信水平 k (k = 1,2,„,p )。在置信水平 k 上,以置信区间的左区75
间值为阈值,根据全部属性的等价闭包矩阵将论域 U 划分为 r 个等价类,记为 U/R = {X1,
X 2,„,Xi ,„,X r};然后依次从全部属性中删除各个属性,计算等价闭包矩阵,在相
同置信水平 k 上,将论域 U 划分为 s 个等价类,记为 U/ S = {Y1,Y2,„,Yj ,„,Ys}。
其中 R 和 S 称为在论域 U 上导出的两种知识[4] [5]。
计算属性权重 80
计算删除各指标(属性)后在各个置信水平 k 时的互信息量:
( , ) ( ) ( | )
k k k
I R S H R H R S
(3)
其中,H (R ),H (S /R )为知识表达系统的初始熵和条件熵[6] : 85
1
( ) ( ) log ( )
n
i i
i
H R P X P X
(4)
1 1
( | ) ( ) ( | ) log ( | )
n m
i j i j i
i j
H S R P X P Y X P Y X
(5)
互信息量反映知识 R 从知识 S 上获取的信息,某一属性所含信息量可表示为: 90
1
1
( , )( 1,2, , )
k
p
i k
k
W I R S i m
p
(6)
- 4 -
中国科技论文在线
则各属性权重为:
95
1
( 1, 2, , )ii m
i
i
W
i m
W
(7)
实例计算
现以分布式数据库系统中的 5 个数据库属性指标作为验证实例,该实验中用到的所有属
性数据均是通过传感器和监测器获得。其值如下所示: 100
表 1 样本数据库属性指标
Tab. 1 Properties of the sample database indicators
数据库
编号
性能指标
表使率 链占率 响应时间 CPU 率 内存率 磁盘空间 程数
1 120 500 13
2 90 480 10
3 78 390 9
4 136 450 15
5 102 500 8
105
根据表 1 中的数据, 求得等价闭包矩阵:
R
选取阈值水平 α=,进行属性聚类,分为 5 类:{1},{2},{3},{4},{5};删除“表110
空间使用率”属性后聚类:{1,4},{2,5},{3};删除“链路占用率”属性后聚类:{1,4},
{2,5},{3};删除“操作响应时间”属性后聚类:{1},{2},{3},{4},{5};删除“CPU
利用率”属性后聚类:{1,2,4,5},{3};删除“内存利用率”属性后聚类:{1},{2},{3},
{4},{5};删除“磁盘空间”属性后聚类:{1},{2},{3},{4},{5};删除“系统程数”
属性后聚类:{1},{2},{3},{4,5};由(3)式计算得到删除各个属性后的互信息量分别115
为:,,,,,,;同理可得 α 取其他值时,删
- 5 -
中国科技论文在线
除各属性后的互信息量;进而由公式(6)(7)计算得到各个属性的权重
(ω1,ω2,ω3,ω4,ω5,ω6,ω7)=(,,,,,,);
最后利用式(1)计算得到各个数据库的综合性能评估值,如下所示:
120
表 2 数据库综合性能评估值
Tab. 2 Comprehensive performance assessment of the value of the database
数据库编号 1 2 3 4 5
评估值
可见 ,上表中数据库 1 的综合性能评价值最高 ,数据库 3 最低。 125
3 总结
数据库在监测、管理、维护及优化等方面的重要性,决定了数据库综合性能评估的必要
性,尤其在分布式数据库系统中,由于数据库数量庞大,物理位置分散,为其提供一个统一
的衡量标准是十分必要的。本文利用粗糙集理论中互信息熵及模糊聚类方法 ,通过客观方法130
确定各指标的权重 ,进而求得性能综合评价值,避免了主观因素对性能评估的影响.
[参考文献] (References)
[1] 刘薇,李春青. DB2 数据库数据统计和分析优化[J]. 计算机光盘软件与应用,2010(1):49-50.
[2] 刘朝宇. 0racle 数据库性优化分析[J].大观周刊,2011,3(9):121-122. 135
[3] 张月朋,田李,李爱平,贾焰. 基于 CORBA 的分布式数据库监控系统研究与实现[J]. 计算机研究与发
展,2007,44(z3):136-141.
[4] 朱涛. 粗糙集和模糊聚类理论在煤炭企业绩效评价中的应用[J]. 泰山学院学报,2006,28(6):5-8.
[5] 张青. 基于" 发展" 导向的企业绩效评价研究 [ J ]. 中国管理科学, 2001,9 (2) :58-64.
[6] 郑文钟,何勇,岑益郎. 基于粗糙集和模糊聚类的农机化水平评价方法[J]. 农业机械学报,2006,37(2):140
58-61.