MBA智库文档行业 IT互联网基于语义本体的网络爬虫模型的研究.pdf

基于语义本体的网络爬虫模型的研究.pdf

下载

Igotajarofdirt

5页 | 281KB | 0次下载 |

0.0

(0人评价)

我要评价：

投诉举报

用手机看文档

扫一扫,手机看文档

下载

开通VIP

- 1 - 基于语义本体的网络爬虫模型的研究刘炜，张红云，熊前兴武汉理工大学计算机科学与技术系，湖北武汉（430063）摘要:针对传统通用网络信息采集系统自身固有的缺陷，根据本体的相关理论，本文提出了基于语义本体的网络爬虫的相关模型，该模型以本体构建相关领域模型，并构建该领域的所有知识概念集合，并对其进行关键字切割与划分，生成能表达主题的主题关键词集合。结合中国《知网》的相关理论与技术，对传统抓取的网页在语义的角度进行分析，对已抓取的网页页面内容及其中链接的扩展元数据等相关信息进行分词及语法语义等相关处理，获取网页内容关键词集合及超链接的关键词集合，然后分别对获取的网页内容关键词与链接关键词进行与先前由本体生成的主体关键词集合采用语义分析算法进行语义相关性的判定，保存需要的网页，并预测及提取与主题相关的 URL，从而提高网络资源信息采集相关率。关键词：领域本体；网络爬虫；扩展元数据；知网中图法分类号:TP391 文献标识码: A Research Of Web Crawler Based On Semantic Ontology Liu Wei, Zhang Hong-yun, Xiong Qian-Xing Department Of Computer Science And Technology,WuHan University Of Technology, WuHan HuBei (430063) Abstract According to inborn defects of the traditional general web crawler,besides relevant theories of ontology,we put forward a new model of web crawler which is based on semantic technology. The model make full use of ontology to generate a collection of domain knowledge topics which will be processed in key words and divided into several model will finally produced a collection containing whole key words related with ,It will deal with pages and URLs which are fetched by our robot with same procession,analyzing the content,dividing the content and extended data and turning them into key words using the theory and technology supplied by order to to increase the rate of relativity between data and our topics,we utilize the extended metadata and the colletion of key words in content to compute the relativity with our collection of topics generated before,then get the needed pages saved and extract the URLs which are most related with topics from the pages,and repeat the procedures until there is a end. Key Words: domain ontology; web crawler; extended metadata; HowNet 1. 引言 Web 信息采集作为搜索引擎的重要的基础组成部分，1在搜索引擎的工作过程中起着举足轻重的作用。随着应用的深化和技术的发展，Web 信息采集越来越多的应用于站点结构分析、内容安全检测、页面有效性分析、用户兴趣挖掘以及个性化信息获取等多种服务中。Web 信息采集，主要是指依赖 Web 页面之间的链接关系，从 Web 上根据一定的搜索策略自动地获取页面信息，并且 1本课题得到湖北省交通科技专项(20073H0400)的资助。随着链接不断向所需要的 Web 页面进行扩展直至符合一定条件后终止信息采集的过程[1]。 2. 基于语义本体的主题 Web 信息采集系统模型系统模型本文针对传统通用的网络爬虫的相关弊端，提出了基于领域本体的抓取方案。利用相关领域的知识本体，准确获取到较为全面的该领域的相关概念集合（主题集合），并且在搜索时，无需针对整个 Web，只须根 - 2 - 据由该主题生成的概念集，对抓取的网页进行页面主题相关性判断，保留满足设定条件的页面，并对页面链接进行基于语义的链接评价，保留与主题相关的页面链接。这样，只需要从那些符合主题的网络链接开始，搜索的范围比通用网络爬虫的搜索范围要小很多，极大的提高搜索的查全率和查准率。为了对网页进行主题相关性的判断，本文利用知网的相关知识，引入了词汇的语义计算和义原的概念，从词的语义层次对页面及页面链接进行语义相关度的计算，保存与主题相关的 URL，保存与主题相关的页面，提高了信息抓取的效率[2]。其系统模型如图 1 所示：图 1 基于语义本体的主题信息采集系统在本文中，基于语义本体的智能主题信息采集系统设计的基本思路如下：首先根据相关现有已知主题本体产生主题集，再根据提供的初始 URL 集开始抓取网页，对抓取的网页进行相关过滤和页面处理，提取页面内容，并对页面内容进行分词，提取出关键词集合，利用《知网》[3]引入词语语义义原计算，计算出页面与主题的语义相关度，根据设定的阈值，确定页面的保存或放弃，再对页面中的链接利用中国知网，结合链接的扩展元数据，进行语义分析，提取出超链接的关键义原集，分别与主题义原集进行语义相关度计算，根据设定的阈值保存语义相关度较高的链接，并将链接保存到 URL 队链中进行页面提取，直到符合一定条件后结束网络信息采集过程[4]。页面预处理文本预处理的目的是把网络爬虫抓取下来的 Web 文本进行规范化，便于进行后续处理，主要包括以下内容： (1)去除 Web 文本中的噪声，如广告条、导航条、书签等； (2)对英文文本进行词法分析，把变形后的词恢复原型，包括名词的复数去除、动词的时态转换、动词第三人称转换、词干抽取等。页面分词及词义消歧为了对页面及页面中的链接进行语义相关性计算，需要对页面进行分词，即根据分词词典，对中文进行分词，对英文进行词组辨认，去掉文本中不含有分类信息的词，如介词或带从句的副词、冠词、连词、代词、情态动词、语气助词等虚词。同时由于 Web 文本具有词语同义性、词语多义性、对短语的依赖性、对上下文的依赖性等特点，根据全信息理论,可以利用词的语用信息,确定词在文本中所表达的概念。根据词的词性及其在文本中的位置获得该词在该文本位置下为某一概念或者倾向于某一概念的过程,就称为“概念消歧”[5]。根据《知网》，对词 w 进行概念消歧的思路如下所示： (1)通过词性确定词的概念。根据词 w 的词性 p，查《知网》得到该词词性为 p 的义项,如果义项个数等于 1，,则这个词性为 p 的义项就是该词 w 的概念，消歧结束，直接返回;如果义项个数大于 1，则记录词 w 词性为 p 的所有义项,并转到第(2)步； (2)通过上下文确定词的概念。由于《知网》中词的概念是由义原定义的，因此基于全信息的概念消歧方法的基本思想就是根据上下文中的词的义原对该词的义项进行概率统计。如果词 w 的某个义项的某个义原 m 与 - 3 - 上下文中的某个词 wc 的某个义项 mi的某个义原 ti具有以下任意一种关系：相同义原、空间—事件关系、施事/占有物/来源/工具— 事件关系、材料—成品关系、事件—角色关系、上下位关系,则认为词 w 与词 wc 有关联，使这两个词发生关联的这两个义原称为关联义原，而这两个义原所在的义项则称为关联义项。对页面进行词义消岐的算法流程描述如下所示：算法:基于语义相关度确定多义词 w 各个词义的权重。输入:词 w 及包含词 w 的上下文除去 w 后的词集 D。输出:词 w 在上下文语境中各个词义的权重。函数体： (l)给词 w 的各个义项 mi赋予初始值 0，即 Weight(mi)=0； (2)For 词 w 中的每一个义项 mi，义项 mi的每个义原 ti； (3)For D 中的每一个词 wi，词 wi的每一个义项 mj，马中的每一个义原 tj； (4)If (ti 与 tj 存在上述 8 种关系种的一种)： (5)Then Weight(mi)+=1； (6)End if； (7)Weihgt(mi)=AVG(Weihgt(mi))；多义词 w 在上下文中语义境中的词义为权重最大的词义。 URL 与主题的语义相关性判断网络蜘蛛在采集 Web 信息时是面向选定主题的，为了有效的提高主题 Web 信息提取的准确率和效率，系统需要对待采集 URL 进行 URL 与主题的相关性判定，也可以叫做链接过滤或链接预测。按照高预测值优先采集、低预测值被抛弃的原则对发现的 URL 进行剪枝处理，这样可以大幅度减少采集页面的数量，有效地提高主题信息搜索的速度和效率。针对于主题搜索网络蜘蛛而言，如何评价链接对于主题的价值，即链接价值的计算方法，是搜索策略中的关键所在。在权衡了性能和效率后，设计了利用扩展元数据进行主题相关性判定的算法[6]。人们发现利用其它 HTMI 标记 anchor 等信息能够有效的指导检索和基于主题的信息采集。为了与元数据相区别,把这些标记信息统称为 HTML 扩展元数据，相应的计算叫做扩展元数据演算。其相关性权重算法 (RelevnaceWeighting or RW)如公式下所示： RW(url)=MAX(RW(t)) ctRWMAXurlMt ≥∈ ))((),( 其中，M(url)指与此相关的所有扩展元数据集合，RW(t)是指扩展元数据中的一个词与主题的相关度。c 为用户设定的相关性闽值。RW 方法通过看扩展元数据中词与主题词之间的相似度来进行计算，同义词之间的相似度为 100%，近义词之间的相似度为 50%一 100%，远义词之间的相似度为 0%一 50%，这样大大降低了漏判相关页面的可能性，同时也增加了错判相关页面(不相关的页面判断为相关页面)的可能性。则结合搜索引擎 Google 用于评测 URL 重要性的 PageRank 算法，本文提出了基于扩展的 URL 判定算法如下： pr (A)=(1-d)+d* ))url(rw)url(rw*)t(pr( 1 1 ∑ ∑ = = i n K j ttn n jn 其中，A 为给定的一个网页，假设指向它的网页有，urlt1，…urlti分别是网页 T1，…， Ti 指向 A 的链接，k1，…，kn 分别是网页 T 1，…，Ti 中所含的链接数。PR(A)为 A 的 PageRank 值，d 为界于(0，1)区间的衰减系数，一般取左右。页面与主题的语义相关性判断在对页面进行预处理和分词排岐后，我们得到的结果是一个基于页面内容映射的关键词集合，因此对页面的相关性判断就是对这些关键词在语义层次与主题相关性的 - 4 - 判断。主题义原集的获取本体是近年来随着计算机信息、知识处理、人工智能、知识工程等学科的发展而迅速兴起的一个十分具有活力的研究领域[7]。本体定义包含 4 层含义[8]： 1 概念模型：指通过抽象客观世界中一些现象(Phenomenon)的相关概念而得到的模型,其表示的含义独立于具体的环境状态。 2 明确：指所使用的概念及使用这些概念的约束都有明确的定义。 3 形式化：指 Ontology 是计算机可读的 (即能被计算机处理),而不是完全用自然语言表达. 4 共享：指 Ontology 中体现的是共同认可的知识,反映的是相关领域中公认的概念集,即此概念集是为整体所共有的,而非个体所独有。本文正是利用知识领域本体的作用，通过利用本体来构建主题概念集，进而利用《知网》的相关技术得到基于语义的主题概念义原集合，用于语义相关性的判断，其算法描述如下：令 W = {w1,w2,…,wn}为所有预定义关键词形成的集合，设第 i 个关键词 wi存在 m 个义项，,记作 C(wi) = (ci1, ci2,…, cim),其中词 wi的第 j个义项 cij有 k个义原，记T(cij) =(t1ij, t2ij,…tkij)，从而由关键词 wi的义项集合 C(wi) 转化扩充得到关键词 wi 的主题特征义原集 T(wi) = {(t1i1, t2i1,…, tk1i1),(t1i2, t2i2,…, tk2i2),…, (t1im, t2im,…, tkmim)}设有正整数 l,m,n,p 且 m≠n使得 tlim= tpin,过滤掉集合T(wi)中的重复义原 ,得到关键词 wi 的最终主题义原集 T(′wi),设由 q 个义原组成,记为 T(′wi) = {t1i, t2i,…, tqi}。合并各个关键词的主题义原集则有 T(W) ={T(′w1), T(′w2),…,T(′wi)} = {(t11, t21,…, tq11), (t12, t22,…, tq22),…, (t1n, t2n,…,tqnn)} ,按照上面介绍的过滤重复义原的方法消除掉 T(W)中的相同义原后得到系统的主题特征义原集,记为 T(W′) ={t1, t2,…, tr}，其中 r 表示义原集中义原的个数。页面内容义原集的获取页面内容的义原集同主题义原集的获取过程是一样的，即是将页面处理后的关键词集合利用《知网》进行语义判断，最后得出页面的义原集。最后将页面义原集与主题义原集进行语义相似度的计算，其过程同链接语义相关性计算是一样的，保存满足设定阀值的页面即可。 3. 结束语本文研究了基于语义本体的智能主题 Web 信息采集技术，并初步设计了一个实际系统。在原有技术的基础上，提出了许多独具特色的新技术,特别地,对著名的Google搜索引擎链接评价 PageRank 算法进行了改进, 以使得它适合基于语义的主题采集。实验表明基于主题的采集优势是明显的。和传统的基于整个 Web 的信息采集相比，本文提出的基于语义本体的网络爬虫极大的节省了资源和提高了资源的利用率，缓解了传统通用信息采集系统能够难以对采集到的资源及时更新的弊端。参考文献 [1] 周立柱,林玲.聚焦爬虫技术研究综述.计算机应用,2005,25(9):1965-1969. [2] 赵佳鹤,王秀坤,刘亚欣.基于语义分析的主题信息采集系统的设计与实现 , 计算机应用 2007,27(2):406-408. [3] 董振东 , 董强 . 知网 [DB/OL]. http: //www. keenage. com, 1999-09-23 /2004-03-06. [4] 李卫,刘建毅,何华灿,等.基于主题的智能 Web 信息采集系统的研究与实现[J].计算机应用研究, 2006, 23(2): 169-172. [5] 刘群,李素建.基于知网的词汇语义相似度计算 [J].Computational Linguistics and ChineseLanguageProcessing,2002,7(2):59-76. [6] 李盛韬,赵章界,余智华.基于主题的 Web 信息采集系统的设计与实现 [J].计算机工程 , 2003, 29(17): 102-104. [7] B orst W of Engineering Ontologies for Knowledge Sharing and Reuse[D].University of Twente,1997. [8] 宋峻峰,张维明,肖卫东等.基于本体的信息检索模型研究 . 南京大学学报 ( 自然科学),2005,41(2):189-197. - 5 - 作者简介：刘炜(1985-),男,安徽滁州人,硕士生,主要研究方向为搜索引擎技术,计算机应用支撑技术。张红云(1985-),女,湖北襄樊人,硕士生,主要研究方向为:电子商务,计算机应用技术。熊前兴(1943-),男,湖北洪湖人,教授,博士生导师,主要研究方向:计算机支撑技术,电子商务。

联系我们

智库文档公众号

客服微信

基于语义本体的网络爬虫模型的研究.pdf

下载

标签

相关专题更多

联系我们

意见反馈

标签

相关专题 更多

联系我们

意见反馈

相关专题更多