总第 252 期
2010 年第 10 期
计算机与数字工程
Computer &. Digital Engineering
Vol. 38 No. 10
80
个性化搜索引擎综述部
刘建生周志辉
(江西理工大学理学院赣州 341000)
摘 要 分析了现有搜索引擎的基本原理和基本分类,研究了个性化搜索引擎的概念和基本分类,最后对个性化搜索
引擎的发展提出了一些建议。
关键词 搜索引擎;个'性化搜索引擎;爬虫
中图分类号 TP393
Summary of Persona1ized Search Engine
Liu Jiansheng Zhou Zhihui
(College of Science , Jiangxi University of Science and Technology , Ganzhou 341000)
A勘tract The basic principles of the existing search engine and basic categories are analyzed , and the concept of per
sonalized search engine and basic categories are studied. Finally , some suggestions of the development of personalized search
engine are proposed.
Key Words search engi肘, personalized search engines , reptile
Class Number TP393
1 引言
随着计算机和互联网技术的飞速发展,网络
上的信息量急剧增长,已经成为了人类有史以来
资源数量最多、资源种类最全、资源规模最大的一
个综合信息库。其信息来源丰富、分布广泛,各种
类型的信息资源异构地分布在网络空间中,如果
不能使庞杂的信息有序化,就很难有效获取,如何
准确有效地从互联网上获取信息就成了一项琅巨
的任务,目前解决这一问题的最佳方案是利用搜
索引擎[IJ 。
2 搜索引擎技术概述
2. 1 搜索引擎的基本原理
搜索引擎的基本原理,主要可以看作四
步[川
第一,由爬虫程序采用一定的搜索策略对 Web
网络进行遍历井下载网页,系统中设置一个队列或者
堆拢。并且包含一些起始 URL; 爬虫程序从这些
URL 出发,下载相应的页面,并从中抽取新的超链加
入到队列或者堆校中。爬虫程序一般采用宽度优先
搜索策略为主、深度优先搜索策略为辅的搜索策略。
第二,由分析程序对爬虫程序下载的网页进行
分析以用于索引,网页分析一般包括分词或者使用
停用此表来过滤网页的信息。
第三步,索引程序将网页信息表示为一种便于
搜索的方式并存储在索引数据库中。索引的质量
是 Web 信息检索系统成功的关键因素之一。一个
好的索引模型应该易于实现和维护、检索速度更
快、空间需求更低。
第四步,检索程序从索引中找出与用户查询请
求相关的信息,采用与分析文档相似的方法来处理
用户查询请求,最后将与用户相关的网页按照相关
度递减的顺序排列并返回给用户。
2. 2 搜索引擎的基本分类
日前, Internet 上已有数千个能提供检索服务
的站点,这些站点的搜索引擎在收录的范围、内容、
收稿日期 :2010 年 5 月 10 日,修回日期 :2010 年 6 月 12 日
作者简介:刘建生,男,副教授,研究方向:智能计算与信息安全。周志辉,男,硕士研究生,研究方向:数据挖掘。
2010 年第 10 期 计算机与数字工程 81
检索方法上都各有不同,采用的技术也各具特点。
但总的来说,根据他们所基于的搜索技术原理,一
般可以把它们分成三大类:基于目录的搜索引擎、
基于机器人的搜索引擎和元搜索引擎C4J 。
基于目录的搜索引擎由人工发现、抓取、辨别
网上信息,然后编辑人员按照某种分类法,建立主
题树分层目录,将采集、筛选后的信息分门别类的
放入各大类或子类下面。这类搜索引擎所收录的
网络资源经过了专业人员的鉴别、选择和组织,所
以信息准确,导航质量高,但是由于采用了人工方
式,戚本较高,维护比较困难。现在很多搜索站点
都同时提供有日录和基于机器人的搜索服务,以便
尽可能地为用户提供全面的查询结果。例如著名
的搜索引擎 Yahoo 、 Open Directory 等Ls叫。
日录搜索引擎由人工发现、抓取、辨别网上信
息,然后编辑人员按照某种分类法,建立主题树分
层目录,将采集、筛选后的信息分门别类的放入各
大类或子类下面。
目录界面一般采用分级结构,用户从基本的大类
入口逐级向下访问,直至找到中意的内容;用户也可以
利用目录提供的搜索功能直接查询关键词。由于目
录依靠人工分类,因此搜索出的结果往往比 Robot 搜
索引擎更精确,但目录在保存的站点描述中进行搜索,
站点内容的实时变化不会反映到搜索结果中。
基于机器人的搜索引擎利用一个称为机器人
(也叫做 Spider 或 Web Wanderer) 的程序自动访
问 Web 站点,提取站点上的网页,并根据网页的链
接进一步提取其它网页,或转移到其它站点上。机
器人搜集的网页被加入到搜索引擎的数据库中,供
用户查询使用。这类搜索引擎如: Google , Baidu o
3 个性化搜索技术
个性化搜索技术的概念
个性化搜索主要是指按照用户个性化需求,将
Web 网络上获取的相关信息与用户检索的信息进
行匹配,把相似度高的信息排列在前面供用户查
询。具体地说,首先应该对用户的个性化特征进行
识别,得到用户的个性化模式,然后利用已有的
Web 信息资源进行匹配,最后提供给用户满足其
个性化需求的信息内容[7~8J 。
3. Z 个性化搜索引擎的基本类型
3. Z. 1 基于主题爬虫的个性化搜索引擎
在搜索引擎中,个性化信息采集主要依赖于主
题爬虫实现的,主题爬虫建立在普通爬虫基础上,通
过在网页的整个处理过程中增加模块实现个性化信
息获取,这些主题模块包括主题确立模块、优化初始
种子模块、主题相关度分析模块和排序模块。基于
主题爬虫的个性化搜索引擎模型如图 1 所示[吧。
图 1 基于主题爬虫的个性化信息采集模型
3. Z. Z 基于多元搜索引擎的个性化搜索引擎
近年来,基于多元搜索引擎的个性化搜索引擎
也逐渐出现[归。
据统计,搜索引擎覆盖率的增长速度是远远小
于 Web 网络资源的估算增长速度的。在 1999 年
还没有一个搜索引擎能够覆盖 16%以上的 Web 网
页。由此可以看出,使用单一搜索引擎会导致较低
的查询效果。为了解决这一问题,一些多元搜索引
擎陆续出现,通过联合不同搜索引擎实现较高的网
页覆盖率。为了提高返回结果的准确率,研究者提
出了很多基于用户偏好信息的技术来改进这个状
况。个性化多元搜索引擎模型如图 2 所示。
图 2 个性化多元搜索引擎模型
3. Z. 3 基于查询改进的个性化搜索引擎
所谓基于查询改进,是指利用某种算法来动态
调整用户的查询式,以期更为准确地获取到用户所
需的个性化信息内容。基于查询改进的个性化搜
索引擎模型如图 3 所示[9J 。
图 3 基于查询改进的个性化搜索引擎模型
(下转第 94 页)
94 李胜金等 :Ad hoc 网络分布式密钥管理方案 第 38 卷
有效地解决了密钥托管问题,避免了单点失效[8J
在一定程度上解决了集中式密钥管理的系统瓶颈
问题,支持节点动态加入或退出簇,扩展性较好。
在分簇过程中,同时对密钥参数进行集中部署,并
对一部分信息进行计算,具有更低的通信和计算代
价,且提高了效率。该方案节点间建立端端密钥时
不需要协商随机数,所以无需安全信道。该方案比
较适合拓扑结构动态变化频繁、多跳连接不可靠且
带宽有限的移动自组网络。
5 结语
本文针对 Ad hoc 网络提出了一种分布式密钥
管理方案,介绍了 Ad hoc 网络的分簇模型,详细阐
述了端端密钥和共享密钥的建立过程,并对密钥更
新规则进行了描述,然后分析了方案的安全性和性
能。经分析,该方案有较高的安全性和较高的运行
效率,对于 Ad hoc 网络的密钥管理有较好的理论
价值。
参考文献
[lJ 郭丽.一种基于 Ad hoc 网络的分层组密钥管理方案
[D]. 合肥:合肥工业大学, 2009 , 9
[2J 李慧贤,庞辽军,王育民.适合 Ad hoc 网络无需安全信道
的密钥管理方案[JJ.通信学报,2010 , 31(1):112~117
[3J 吴世忠,祝世雄,张文政.应用密码学[M]. 北京:机械工
业出版社, 2007
[4J 许建真,梁克会,董永先.基于可信度的分布式组播密
钥管理研究[JJ. 计算机应用研究, 2010 , 27(1):271'-
273
[5J 闰少阁.分布式密钥管理关键技术研究[D]. 郑州:解放
军信息工程大学, 2008 , 4
[6J 钱权.无线 Ad hoc 网络安全[M]. 北京:清华大学出版
社, 2009
[7J 张秋余,苗丰满,袁占婷,等.基于身份的 Ad hoc 组密
钥管理方案[J].通信学报, 2009 , 30( 10A): 85~92
[8J 胡荣磊,刘建伟,张其善.自认证公钥体制 Ad hoc 网络
密钥管理方案[J].电子科技大学学报,2009 , 38(的 :943
~947
、协也吊岛市在审核吊也市ψ市也根知毛知毛梅兰际电场也际也和也市也珩忠牢是均毛际ψ和均毛际出常也串也柑桔吐徐岛和毛与哇始串常也市也市d树梢与吐徐注孙也市在市由非也市也制与R
(上接第 81 页)
4 结语
随着信息科学的进步与互联网的飞速发展,人
们越来越迫切需要一种个性化的现代检索工具。
个性化的信息获取、个性化的信息服务的研究是与
IT 技术的发展是密不可分的,只有应用最先进的
信息技术才能做到信息服务的个性化。目前,中文
个性化搜索引擎的开发已越来越引起了国人的注
意,也吸引了越来越多的有识之士加入其中,虽然
现在已经有了一定的基础,但它距离成为一个成熟
的产品,道路还很漫长。搜索引擎的个性化服务使
搜索引擎能够分析检索者的浏览行为来学习检索
者的需求,利用搜索引擎的现有服务,有选择地为
用户提供个性化服务,达到向用户推送他们真正感
兴趣的信息。随着因特网的快速发展,单独的搜索
引擎已无法解决用户快速获得信息的问题,人们需
要有一种更有效地获取信息的方法。而现在,飞速
发展的智能代理技术以一种完全不同的方式提供
智能化的信息获取和处理手段,能够满足用户的个
性化需求。因此,搜索引擎的发展应是在实现个性
化的同时,向智能化服务的方向发展。个性化搜索
引擎的研究和实现还存在以下问题:用户隐私的保
护、用户模型的有效性以及个性化检索的实现,在
接下来的工作中,笔者将着重研究以上问题。
参考文献
[lJ 王玲,马文庆.搜索引擎技术的现状和展望[J].现代情
报, 2004 , 8:26~28
[2J 杨广翔,俞宁,湛莉.搜索引擎结果的重排序方法[J].
计算机应用, 2005 , 25(2):305~308
[3J 朱茂盛,王斌.元搜索引擎及其实现[J].计算机工程,
[4J 杨桂珍.多元搜索引擎研究[J].信息系统, 200 1, 24(4) :
308~310
[5J 左雄辉,廉麟.个性化搜索引擎研究[]].计算机工程与
运用,2005 (17)
[6J 石品,龚震宁.基于用户兴趣模型的只能信息检索[JJ.
系统技术与实现, 2003(3)
[7J Inmon W H. 数据仓库[M]. 北京:机械工业出版社,
2000
[8J Kimball R Dig由1 Preservation[J]. Intelligent Enter-
prise , 2000 ,3(4): 215~217
[9丁李树青,韩忠愿.个性化搜索引擎原理与技术[M]. 北
京 z科学出版社, 2008