- 1 -
基于语义本体的网络爬虫模型的研究
刘炜,张红云,熊前兴
武汉理工大学计算机科学与技术系,湖北武汉(430063)
摘 要:针对传统通用网络信息采集系统自身固有的缺陷,根据本体的相关理论,本文提出
了基于语义本体的网络爬虫的相关模型,该模型以本体构建相关领域模型,并构建该领域的
所有知识概念集合,并对其进行关键字切割与划分,生成能表达主题的主题关键词集合。结
合中国《知网》的相关理论与技术,对传统抓取的网页在语义的角度进行分析,对已抓取的
网页页面内容及其中链接的扩展元数据等相关信息进行分词及语法语义等相关处理,获取网
页内容关键词集合及超链接的关键词集合,然后分别对获取的网页内容关键词与链接关键词
进行与先前由本体生成的主体关键词集合采用语义分析算法进行语义相关性的判定,保存需
要的网页,并预测及提取与主题相关的 URL,从而提高网络资源信息采集相关率。
关键词:领域本体;网络爬虫;扩展元数据;知网
中图法分类号:TP391 文献标识码: A
Research Of Web Crawler Based On Semantic Ontology
Liu Wei, Zhang Hong-yun, Xiong Qian-Xing
Department Of Computer Science And Technology,WuHan University Of Technology, WuHan
HuBei (430063)
Abstract
According to inborn defects of the traditional general web crawler,besides relevant theories of
ontology,we put forward a new model of web crawler which is based on semantic technology. The
model make full use of ontology to generate a collection of domain knowledge topics which will be
processed in key words and divided into several model will finally produced a collection
containing whole key words related with ,It will deal with pages and URLs which are
fetched by our robot with same procession,analyzing the content,dividing the content and extended data
and turning them into key words using the theory and technology supplied by order to to
increase the rate of relativity between data and our topics,we utilize the extended metadata and the
colletion of key words in content to compute the relativity with our collection of topics generated
before,then get the needed pages saved and extract the URLs which are most related with topics from
the pages,and repeat the procedures until there is a end.
Key Words: domain ontology; web crawler; extended metadata; HowNet
1. 引言
Web 信息采集作为搜索引擎的重要的
基础组成部分,1在搜索引擎的工作过程中
起着举足轻重的作用。随着应用的深化和技
术的发展,Web 信息采集越来越多的应用于
站点结构分析、内容安全检测、页面有效性
分析、用户兴趣挖掘以及个性化信息获取等
多种服务中。Web 信息采集,主要是指依赖
Web 页面之间的链接关系,从 Web 上根据
一定的搜索策略自动地获取页面信息,并且
1本课题得到湖北省交通科技专项(20073H0400)的
资助。
随着链接不断向所需要的 Web 页面进行扩
展直至符合一定条件后终止信息采集的过
程[1]。
2. 基于语义本体的主题 Web 信
息采集系统模型
系统模型
本文针对传统通用的网络爬虫的相关
弊端,提出了基于领域本体的抓取方案。利
用相关领域的知识本体,准确获取到较为全
面的该领域的相关概念集合(主题集合),
并且在搜索时,无需针对整个 Web,只须根
- 2 -
据由该主题生成的概念集,对抓取的网页进
行页面主题相关性判断,保留满足设定条件
的页面,并对页面链接进行基于语义的链接
评价,保留与主题相关的页面链接。这样,
只需要从那些符合主题的网络链接开始,搜
索的范围比通用网络爬虫的搜索范围要小
很多,极大的提高搜索的查全率和查准率。
为了对网页进行主题相关性的判断,本
文利用知网的相关知识,引入了词汇的语义
计算和义原的概念,从词的语义层次对页面
及页面链接进行语义相关度的计算,保存与
主题相关的 URL,保存与主题相关的页面,
提高了信息抓取的效率[2]。其系统模型如图
1 所示:
图 1 基于语义本体的主题信息采集系统
在本文中,基于语义本体的智能主题信
息采集系统设计的基本思路如下:
首先根据相关现有已知主题本体产生
主题集,再根据提供的初始 URL 集开始抓
取网页,对抓取的网页进行相关过滤和页面
处理,提取页面内容,并对页面内容进行分
词,提取出关键词集合,利用《知网》[3]引
入词语语义义原计算,计算出页面与主题的
语义相关度,根据设定的阈值,确定页面的
保存或放弃,再对页面中的链接利用中国知
网,结合链接的扩展元数据,进行语义分析,
提取出超链接的关键义原集,分别与主题义
原集进行语义相关度计算,根据设定的阈值
保存语义相关度较高的链接,并将链接保存
到 URL 队链中进行页面提取,直到符合一
定条件后结束网络信息采集过程[4]。
页面预处理
文本预处理的目的是把网络爬虫抓取
下来的 Web 文本进行规范化,便于进行后
续处理,主要包括以下内容:
(1)去除 Web 文本中的噪声,如广告条、
导航条、书签等;
(2)对英文文本进行词法分析,把变形后
的词恢复原型,包括名词的复数去除、动词
的时态转换、动词第三人称转换、词干抽取
等。
页面分词及词义消歧
为了对页面及页面中的链接进行语义
相关性计算,需要对页面进行分词,即根据
分词词典,对中文进行分词,对英文进行词
组辨认,去掉文本中不含有分类信息的词,
如介词或带从句的副词、冠词、连词、代词、
情态动词、语气助词等虚词。同时由于 Web
文本具有词语同义性、词语多义性、对短语
的依赖性、对上下文的依赖性等特点,根据
全信息理论,可以利用词的语用信息,确定词
在文本中所表达的概念。根据词的词性及其
在文本中的位置获得该词在该文本位置下
为某一概念或者倾向于某一概念的过程,就
称为“概念消歧”[5]。根据《知网》,对词 w
进行概念消歧的思路如下所示:
(1)通过词性确定词的概念。根据词 w
的词性 p,查《知网》得到该词词性为 p 的
义项,如果义项个数等于 1,,则这个词性为 p
的义项就是该词 w 的概念,消歧结束,直接
返回;如果义项个数大于 1,则记录词 w 词性
为 p 的所有义项,并转到第(2)步;
(2)通过上下文确定词的概念。由于《知
网》中词的概念是由义原定义的,因此基于
全信息的概念消歧方法的基本思想就是根
据上下文中的词的义原对该词的义项进行
概率统计。
如果词 w 的某个义项的某个义原 m 与
- 3 -
上下文中的某个词 wc 的某个义项 mi的某个
义原 ti具有以下任意一种关系:相同义原、
空间—事件关系、施事/占有物/来源/工具—
事件关系、材料—成品关系、事件—角色关
系、上下位关系,则认为词 w 与词 wc 有关联,
使这两个词发生关联的这两个义原称为关
联义原,而这两个义原所在的义项则称为关
联义项。
对页面进行词义消岐的算法流程描述
如下所示:
算法:基于语义相关度确定多义词 w 各
个词义的权重。
输入:词 w 及包含词 w 的上下文除去 w
后的词集 D。
输出:词 w 在上下文语境中各个词义的
权重。
函数体:
(l)给词 w 的各个义项 mi赋予初始值 0,
即 Weight(mi)=0;
(2)For 词 w 中的每一个义项 mi,义项
mi的每个义原 ti;
(3)For D 中的每一个词 wi,词 wi的每一
个义项 mj,马中的每一个义原 tj;
(4)If (ti 与 tj 存在上述 8 种关系种的一
种):
(5)Then Weight(mi)+=1;
(6)End if;
(7)Weihgt(mi)=AVG(Weihgt(mi));
多义词 w 在上下文中语义境中的词义
为权重最大的词义。
URL 与主题的语义相关性判断
网络蜘蛛在采集 Web 信息时是面向选
定主题的,为了有效的提高主题 Web 信息
提取的准确率和效率,系统需要对待采集
URL 进行 URL 与主题的相关性判定,也可
以叫做链接过滤或链接预测。按照高预测值
优先采集、低预测值被抛弃的原则对发现的
URL 进行剪枝处理,这样可以大幅度减少采
集页面的数量,有效地提高主题信息搜索的
速度和效率。针对于主题搜索网络蜘蛛而
言,如何评价链接对于主题的价值,即链接
价值的计算方法,是搜索策略中的关键所
在。在权衡了性能和效率后,设计了利用扩
展元数据进行主题相关性判定的算法[6]。
人们发现利用其它 HTMI 标记 anchor
等信息能够有效的指导检索和基于主题的
信息采集。为了与元数据相区别,把这些标记
信息统称为 HTML 扩展元数据,相应的计
算叫做扩展元数据演算。其相关性权重算法
(RelevnaceWeighting or RW)如公式下所示:
RW(url)=MAX(RW(t))
ctRWMAXurlMt ≥∈ ))((),(
其中,M(url)指与此相关的所有扩展元
数据集合,RW(t)是指扩展元数据中的一个
词与主题的相关度。c 为用户设定的相关性
闽值。RW 方法通过看扩展元数据中词与主
题词之间的相似度来进行计算,同义词之间
的相似度为 100%,近义词之间的相似度为
50%一 100%,远义词之间的相似度为 0%一
50%,这样大大降低了漏判相关页面的可能
性,同时也增加了错判相关页面(不相关的
页面判断为相关页面)的可能性。
则结合搜索引擎 Google 用于评测 URL
重要性的 PageRank 算法,本文提出了基于
扩展的 URL 判定算法如下:
pr
(A)=(1-d)+d*
))url(rw)url(rw*)t(pr(
1 1
∑ ∑
= =
i
n
K
j
ttn
n
jn
其中,A 为给定的一个网页,假设指向
它的网页有,urlt1,…urlti分别是网页 T1,…,
Ti 指向 A 的链接,k1,…,kn 分别是网页
T 1,…,Ti 中所含的链接数。PR(A)为 A
的 PageRank 值,d 为界于(0,1)区间的衰减
系数,一般取 左右。
页面与主题的语义相关性判断
在对页面进行预处理和分词排岐后,我
们得到的结果是一个基于页面内容映射的
关键词集合,因此对页面的相关性判断就是
对这些关键词在语义层次与主题相关性的
- 4 -
判断。
主题义原集的获取
本体是近年来随着计算机信息、知识处
理、人工智能、知识工程等学科的发展而迅
速兴起的一个十分具有活力的研究领域[7]。
本体定义包含 4 层含义[8]:
1 概念模型:指通过抽象客观世界中一
些现象(Phenomenon)的相关概念而得到的
模型,其表示的含义独立于具体的环境状态。
2 明确:指所使用的概念及使用这些概
念的约束都有明确的定义。
3 形式化:指 Ontology 是计算机可读的
(即能被计算机处理),而不是完全用自然语
言表达.
4 共享:指 Ontology 中体现的是共同认
可的知识,反映的是相关领域中公认的概念
集,即此概念集是为整体所共有的,而非个体
所独有。
本文正是利用知识领域本体的作用,通
过利用本体来构建主题概念集,进而利用
《知网》的相关技术得到基于语义的主题概
念义原集合,用于语义相关性的判断,其算
法描述如下:
令 W = {w1,w2,…,wn}为所有预定义关
键词形成的集合,设第 i 个关键词 wi存在 m
个义项,,记作 C(wi) = (ci1, ci2,…, cim),其中词
wi的第 j个义项 cij有 k个义原,记T(cij) =(t1ij,
t2ij,…tkij),从而由关键词 wi的义项集合 C(wi)
转化扩充得到关键词 wi 的主题特征义原集
T(wi) = {(t1i1, t2i1,…, tk1i1),(t1i2, t2i2,…, tk2i2),…,
(t1im, t2im,…, tkmim)}设有正整数 l,m,n,p 且
m≠n使得 tlim= tpin,过滤掉集合T(wi)中的重复
义原 ,得到关键词 wi 的最终主题义原集
T(′wi),设由 q 个义原组成,记为 T(′wi) = {t1i,
t2i,…, tqi}。合并各个关键词的主题义原集则
有 T(W) ={T(′w1), T(′w2),…,T(′wi)} = {(t11,
t21,…, tq11), (t12, t22,…, tq22),…, (t1n,
t2n,…,tqnn)} ,按照上面介绍的过滤重复义原
的方法消除掉 T(W)中的相同义原后得到系
统的主题特征义原集,记为 T(W′) ={t1, t2,…,
tr},其中 r 表示义原集中义原的个数。
页面内容义原集的获取
页面内容的义原集同主题义原集的获
取过程是一样的,即是将页面处理后的关键
词集合利用《知网》进行语义判断,最后得
出页面的义原集。
最后将页面义原集与主题义原集进行
语义相似度的计算,其过程同链接语义相关
性计算是一样的,保存满足设定阀值的页面
即可。
3. 结束语
本文研究了基于语义本体的智能主题
Web 信息采集技术,并初步设计了一个实际
系统。在原有技术的基础上,提出了许多独
具特色的新技术,特别地,对著名的Google搜
索引擎链接评价 PageRank 算法进行了改进,
以使得它适合基于语义的主题采集。实验表
明基于主题的采集优势是明显的。和传统的
基于整个 Web 的信息采集相比,本文提出
的基于语义本体的网络爬虫极大的节省了
资源和提高了资源的利用率,缓解了传统通
用信息采集系统能够难以对采集到的资源
及时更新的弊端。
参考文献
[1] 周立柱,林玲.聚焦爬虫技术研究综述.计算机
应用,2005,25(9):1965-1969.
[2] 赵佳鹤,王秀坤,刘亚欣.基于语义分析的主题
信 息 采 集 系 统 的 设 计 与 实 现 , 计 算 机 应 用
2007,27(2):406-408.
[3] 董振东 , 董强 . 知网 [DB/OL]. http: //www.
keenage. com, 1999-09-23 /2004-03-06.
[4] 李卫,刘建毅,何华灿,等.基于主题的智能 Web
信息采集系统的研究与实现[J].计算机应用研究,
2006, 23(2): 169-172.
[5] 刘群,李素建.基于知网的词汇语义相似度计算
[J].Computational Linguistics and
ChineseLanguageProcessing,2002,7(2):59-76.
[6] 李盛韬,赵章界,余智华.基于主题的 Web 信息
采集系统的设计与实现 [J].计算机工程 , 2003,
29(17): 102-104.
[7] B orst W of Engineering
Ontologies for Knowledge Sharing and
Reuse[D].University of Twente,1997.
[8] 宋峻峰,张维明,肖卫东等.基于本体的
信息检索模型研究 . 南京大学学报 ( 自然科
学),2005,41(2):189-197.
- 5 -
作者简介:
刘炜(1985-),男,安徽滁州人,硕士生,主要
研究方向为搜索引擎技术,计算机应用支撑
技术。
张红云(1985-),女,湖北襄樊人,硕士生,主
要研究方向为:电子商务,计算机应用技术。
熊前兴(1943-),男,湖北洪湖人,教授,博士
生导师,主要研究方向:计算机支撑技术,电
子商务。