基于新闻网页主题要素的网页去重方法研究1
王鹏,张永奎,张彦,刘睿
山西大学计算机与信息技术学院,太原(030006)
计算智能与中文信息处理省部共建教育部重点实验室,太原(030006)
摘 要:网页检索结果中,用户经常会得到内容相同的冗余页面。本文提出了一种通过新闻
主题要素学习新闻内容的新闻网页去重算法。该方法的基本思想是:首先,抽取新闻要素中
关于事件发生的时间和地点短语;然后,通过抽取的时间和地点短语抽取新闻的内容;最终,
根据学习的新闻内容通过计算它们的相似度来判断新闻网页的重复度。实验结果表明,该方
法能够完成针对新闻内容的新闻网页的去重,并得到较高的查全率和查准率。
关键词:新闻主题要素,模糊匹配,去重算法
中图分类号:TP391 文献标识码:A
1 引言
随着计算机的普及以及互联网的迅猛发展,WWW 上的信息量剧增,怎样有效利用这
个空间就成为了当前研究的热点。现在,人们在网上查找一些东西用到更多的是搜索引擎系
统提供的智能导航系统。然而,广大的 Internet 用户在使用这些搜索引擎的时候,尤其是在
搜索一些关于突发事件新闻的时候,常常会发现输出结果中包含了大量内容重复的网页。这
些网页的存在,不但加重了用户检索和阅读的负担,而且浪费了大量的存储资源,降低了索
引效率,同时也影响了准确率和召回率。所以说,把这些重复的网页去掉将是一项具有实际
意义的工作。
2 网页去重与新闻主题要素
现有网页去重的方法
当前,提出的网页去重的方法还不是很多,代表性的方法有:基于聚类的方法[1,2]﹑排
除相同URL方法[3]﹑基于特征码的方法[4],下面做一下简要介绍:
1)聚类的方法:该方法是基于网页文本内容以 6763 个汉字作为向量的基,文本的汉字
的字频就构成了代表网页的向量。通过计算向量的夹角决定是否是相同的网页。
2)排除相同 URL 方法:各种元搜索引擎去重的主要方法。它分析来自不同搜索引擎的
网页 URL,相同的 URL 认为是相同的网页,给予去除。
3)基于特征码的方法:这种方法利用标点符号多数出现在网页文本的特点,以句号两边
各五个汉字作为特征码来唯一的表示网页。
网页重复的特点
1)重复率高。网页重复主要来自转载。网页转载非常容易。由于用户兴趣的驱动,网络
信息流通中人们通过复制方式进行信息共享,经典的文章,以及新闻网页,很容易引起人们
1本课题得到国家自然科学基金(60475022)、山西省自然科学基金(20041041)和山西省回国留学人员基
金(2002004)的资助。
-1-
的关注,有时转载高达几十次之多。
2)存在噪声。转载时一般都“原样照搬”,保持文本内容和结构的一致,并尊重版权,在
开头加入了引文信息。也就是说这些网页在去掉噪声以后,能够在内容和结构方面能够保持
高度一致。
3) 新闻网页的重复也来自对于同一事件的不同报道,尤其是对于人们关注的热点新闻。
这些新闻报道由于不是转载,所以说可能从他们的结构上是不能达到去重的效果,但是由于
他们是对同一事件的报道,其实他们的重复率还是很高的,是需要去重的。
在本文中我们认为的网页的重复有两种: 一就是前两种情况,二就是第三种情况。由于
以前提出的方法都是通过文章结构或字频来进行网页的去重,没有能够参照文章内容所表达
的意思来进行去重,所以那些方法只可以对前两种方法进行网页去重的处理,而不能对后面
出现的第三种情况做出处理。在本文中我们提出了一种对新闻内容学习的方法,采用这种方
法我们就能够对出现这三种情况的新闻网页进行去重。
新闻网页的主题要素
新闻是一种特殊的文体,是对最近生的或者正在发生的事实的报道。要想让读者理解清
楚一篇报道的内容,至少要表达清楚新闻的 6 大基本要素,即“5W”和“1H”。否则,就说不
清事实,传达不明白信息,让读者看不明白,这样的新闻就会失败。
这 6 大要素可以看作一篇新闻的骨架。其中“5W”是指 Who(何人) ﹑Where(何地) ﹑
What(何事) ﹑Why(何故) ﹑When(何时),“1W”是指 How(如何)。它们在保证了新闻称述的
完整性的同时也保证了新闻的真实性和公开性。
3 基于新闻主题要素的网页去重算法
在这里我们主要就是针对同一事件的不同的报道来进行去重。我们通过 6 大要素可以看
出一篇新闻可以用它的 6 大要素来表示[5]。由于我们只是要对一篇新闻网页内容做出一个客
观的分析和学习以达到网页去重的目的,所以在这里我们只是建立了Where﹑When也就是时
间﹑地点和事件之间的关系,通过建立的时间﹑地点和事件之间的关系我们可以表明一篇新
闻网页内容所报道的事件基于时间和地点的发生过程。所以在这里我们没有用到要素中提到
的其它的四个要素。
时间﹑地点短语的抽取
在汉语文本中,时间信息通常由时间﹑日期﹑时间词﹑段时间﹑复杂时间短语和事件时
间短语等组成[6]。关于时间短语的抽取方法的研究已经有很多的人在做,并且已经取得了不
错的成绩。
地点短语的抽取在现在的研究还不是很多。主要是集中在一些基于地名库所能识别的地
名方面。
本文所讨论的时间、地点短语和传统意义上的时间、地点短语并不完全相同。它是关于
事件发生的时间﹑地点短语,而不是作为专有名词的时间、地点短语。所以,我们在对时间
﹑地点短语抽取的时候,除了抽取词性标注的时间﹑地点短语以外,我们还要抽取一些和事
-2-
件密切相关的时间、地点短语。也就是说我们主要抽取的是事件发生的时间、地点短语。
我们通过对语料库的分析表明:时间、地点短语除了一部分是明显的能被识别出来以外,
还有一些是不能被明显识别的。不能被明显识别出来的主要体现在一些介词短语中,这些介
词短语能够表示事件发生的时间、地点短语。当然,在本文中我们抽取时间、地点短语的目
的是为了能够比较准确的描述新闻报道的事件发生的过程,而不是为了准确的抽取时间、地
点短语。因此,我们提出了一个全新的时间、地点短语的抽取方法。
时间短语的抽取
新闻报道是注重实效性和真实性的,所以在一篇新闻报道里反映事件发生的时间就是新
闻报道所要依赖的重要的载体,一篇好的新闻报道能够清楚的依照时间报道出事件发生的全
过程。
为了能够更好的利用时间短语来描述事件发生的过程,我们在这里对时间短语的抽取主
要是采用了点的抽取方法,而不是抽取那些表示“一段时间”的时间短语,也就是说,我们是
对事件发生的时间来抽取,而不是对事件发生的时长来抽取,即我们没有抽取那些段时间,
如:“两个月”、“三天”、“几天”等。我们主要是抽取了以下几类时间短语:
1) 表示时间名词以及以时间名词为中心的短语。如:“现在”、“去年的夏天”、“上午”
等。
2) 表示时间的名词。如:“五点十分”等。
3) 表示年、月、日等的时间单位以及这些时间单位词与指示代词结合构成的词语。如:
“2006 年”、“初一”等
4) 表示时间的方位词以及方位词与其它词语组成的表示时间的方位短语,这些词也可
以看作是事件时间短语。如:“爆炸发生以前”、“飞机起飞后”等。
地点短语的抽取
在地点短语的抽取中,我们首先抽取了一些分词软件所能识别的专有地名,比如:“中
国”、“日本”等。另外我们还针对方位词进行了一些关于事件发生的地点的抽取,尤其是关
于后置的方位词,比如:“东”、“里”、“中”等。在这里也许有人会提出异议,认为并不是所
有的方位词都是表示地点的,比如:“在讲话中”,像这样的就不是表示地点。但是在这里我
们主要是抽取事件发生的地点,我们可以把讲话的内容发生的地点看作是在讲话中,这样我
们就很好的解决了这个问题。
时间、地点短语与事件的联系
在抽取的过程中我们不管是时间短语,还是地点短语,由于它们在句子中的作用都是作
为句子的一个修饰成分存在的,所以我们把他们全部看作是短语。我们在抽取的时候尽量依
照标点分割的方法,把一句话依照标点分成几个“块”。我们依照一个名词,一个动词相隔的
查询方法,先在发现短语的这个“块”中查找,找不到再去相邻的“块”查找。
在抽取的过程中我们规定了一些抽取的规则,保证了所有文章抽取的一致性,抽取的方
式可以分为以下几类方式:
-3-
1) 短语+名词+短语+动词+名词+动词
eg:
原文为:
伊朗/ns 一/m 架/q C-130/nx 军用/b 运输机/n 6/m 号/q 下午/t 在/p 德
黑兰/ns 南部/f 一个/m 居民区/n 撞/v 上一/m 幢/q 大楼/n 并/c 坠毁/v
抽取后为:
(伊朗/ns) 运输机/n (6/m 号/q 下午/t ) (在/p 德黑兰/ns 南部/f 一个/m 居
民区/n) 撞/v 大楼/n 坠毁/v
提取的核心为:
运输机/n 坠毁/v
2) 短语+动词+名词+动词
eg:
原文为:
目前/t 已/d 造成/v 至少/d 128/m 人/n 死亡/v
抽取后为:
(目前/t) 造成/v 人/n 死亡/v
提取的核心为:
人/n 死亡/v
3) 名词+短语+动词+名词
eg:
原文为:
这/r 架/q 运输机/n 当天/t 下午/t 从/p 德黑兰城西/ns 的/u 梅赫拉巴德/nr
国际/n 机场/n 起飞/v 后/f 不久/m 发生/v 机械/n 故障/n
抽取后为:
运输机/n (当天/t 下午/t ) (从/p 德黑兰城西/ns 的/u 梅赫拉巴德/nr 国际/n
机场/n 起飞/v 后/f) 发生/v 故障/n
提取的核心为:
运输机/n 发生/v 故障/n
4) 名词+短语+动词
eg:
原文为:
飞机/n 在/p 撞击/v 后/f 完全/ad 解体/v
抽取后为:
飞机/n (在/p 撞击/v 后/f) 解体/v
提取的核心为:
飞机/n 解体/v
5) 短语+名词+动词
-4-
eg:
原文为:
失事/v 飞机/n 上/f 的/u 94/m 人/n 已/d 全部/m 遇难/v
抽取后为:
(失事/v 飞机/n 上/f) 人/n 遇难/v
提取的核心为:
人/n 遇难/v
6) 名词+动词+短语
eg:
原文为:
该/r 男童/n 居住/v 在/p 观塘/ns
抽取后为:
男童/n 居住/v (在/p 观塘/ns)
提取的核心为:
男童/n 居住/v
7) 名词+动词+名词+动词+短语+动词+名词
eg:
原文为:
中国/ns 国务院/nt 副/b 总理/n 吴/nr 仪/nr 应/v 泰国/ns 政府/n 邀请/v
在/p 会议/n 开幕式/n 上/f 发表/v 重要/a 讲话/n
抽取后为:
中国/ns 总理/n 应/v 泰国/ns 政府/n 邀请/v (在/p 会议/n 开幕式/n 上/f )
发表/v 讲话/n
提取的核心为:
总理/n 发表/v 讲话/n
8) 名词+动词+短语+名词+动词+名词
eg:
原文为:
吴/nr 仪/nr 全面/ad 介绍/v 了/u 中国/ns 政府/n 取得/v 这/r 一/m 成
果/n 的/u 作法/n 和/c 体会/vn
抽取后为:
仪/nr 介绍/v (中国/ns) 政府/n 取得/v 作法/n
提取的核心为:
仪/nr 介绍/v 作法/n
去重算法的设计
因为是根据新闻内容去重,所以抽取的内容就需要采用句子的模糊匹配来进行网页重复
性的度量。我们采用的算法设计如下:
-5-
我们把要标识的网页定义为Ti,抽取出来的短语表示为Wi,相对应短语抽取的句子表示
为Si,句子里面的词分别表示为ni和vi。也就是我们可以把一个网页表示为:
i i i i iT {W (S ((n ),( v )))}=
定义 1:对于抽取的短语的句子相似度 n vSsim
N V
+= + ,其中 n 为相似的名词的总数,
v 为相似的动词的总数,N 为句子里的名词的总数,V 为句子里动词的总数。
由于抽取的不确定性,我们在计算抽取的句子的相似度的时候,我们不能只考虑抽取的
名词和动词,在这里我们还加入了我们抽取的核心词的比较。我们把我们抽取的核心词定义
为ki。
定义 2: kKsim
K
= ,其中 k 为比较以后一致的核心词的数量,K 为抽取的核心词的总
数。
定义 3:针对的句子的精确相似度就是:
2
Ssim KsimWsim += 。
通过比较相似度,我们得出匹配一致的句子总数为 w,抽取出来的句子总数为 W。
定义 4:新闻的相似因子为:
min( , )i j
wTsim
W W
= ,其中 分别表示第 i,j 篇新
闻里抽取出来的句子总数。
,iW Wj
为了能够准确的比较新闻内容报道的真实性,在这里我们考虑到了报道的误差,我们把
抽取出来的短语总数定义为 D,通过比较短语相一致的短语总数定义为 d。比较抽取出来匹
配的句子对应的短语相一致的总数定义为 Dsim。
定义 5:短语的匹配一致性为: dcoherence=
Dsim
D 。
定义 6:短语的可靠因子为: dcredibility=
D
D 。
在上面的说明和定义的基础上我们给出重复度的评价函数:
( , , , )RM D Dcoherence Dcredibility Tsim=
我们通过预先设定的 D﹑Dcoherence﹑Dcredibility﹑Tsim 和得到的四个参数来进行比
较。在这里我们把 D﹑Dcredibility 这两个参数做为我们是否能够用这个判断网页是否重复的
标准,而通过 Dcoherence﹑Tsim 这两个参数来对网页进行去重,如果大于我们所给定的初
始的 Dcoherence﹑Tsim 这两个参数值,那么 1RM = ,也就是说可以认为两篇新闻内容是重
复的,其中一篇是可以被替代的,在替代的时候我们暂且选择内容少的新闻被代替;否则
,也就可以认为两篇新闻内容是不重复的,是不可以被代替的。 0RM =
4 实验结果与分析
为了更好的检验我们的算法的结果,我们从查全率和查准率两个方面来验证我们抽取的
效果,其中查全率是找到的重复网页和所有的重复网页之比;查准率是找到的准确重复网页
-6-
和所有找出的网页之比。
在验证的过程中,我们搜集了 40 多篇重复的新闻网页放到了我们的测试语料库中。通
过实验发现:当 D 大于 7,Dcoherence 大于 ,Dcredibility 大于 ,Tsim 大于 的时,
查全率为 98%,查准率为 95%。
为了比较我们所采用的方法和其它的网页去重算法,我们找了一些内容基本上一致的新
闻网页进行处理,得出的结论相差不大;我们又找了一些不同的网站关于同一事件报道的新
闻网页来比较,这些新闻网页从报道的内容上来讲是基本一致的,但是它们在语句的表达上
是不一样的,结果发现我们的去重效果明显好于其它的去重方法。这主要是因为许多基于网
页的特征码﹑基于聚类的方法﹑排除相同 URL 的方法都是基于新闻内容结构以及其中的语
句非常相近的新闻网页的去重,也就是说它们只能识别句子基本上一样的新闻网页,而不能
针对不同的人采用不同的语句写出的关于同一事件的新闻的识别。
5 结束语
我们提出的基于新闻要素的去重算法是一种对新闻内容的学习过程。从长远来看,该
方法还可以利用到新闻归类﹑新闻内容的去误﹑新闻内容的追踪报道等方面。在算法里,我
们利用了一系列的参数,这些参数可以针对不同类型的新闻网页进行设置,以达到更好的去
重效果。另外,我们还可以考虑利用语义字典,如:知网[7]来计算算法中提到的相似度。在
接下来的研究学习过程中我们将会在新闻归类﹑新闻内容的去误﹑新闻内容的追踪报道等
方面进行研究,在这些方面通过新闻要素学习新闻内容的研究方法将能给我们更大的帮助。
-7-
参考文献
[1]J . W. Kirriemuir & P. Willett Identification of duplicate and near - duplicate full - text records in database
search outputs using hierarchic cluster analysis ,in Program - automated library and information , (1995) 29
(3) :241 – 256.
[2]Buckley C. Cardie C. Mardis S. Mitra M. Pierce D. Wagstaff K. Walz J . The Smart/ Empire TIP2 STER IR
System ,TIPSTER Phase III Proceedings ,Morgan Kaufmann ,San Francisco ,CA ,2000.
[3]张文涛 www 上一种 Meta - Search Engine 的研究与实现. 硕士论文. 清华大学 ,2002 ,5.
[4]张刚, 刘挺, 郑实福, 车万祥, 李生. 大规模网页快速去重算法. 中国中文信息学学会二十周年学术 会论
文集(续集).2001 ,11 :18 – 25.
[5]孙世凯. 从新闻的诸要素谈起,新闻与写作,1997,06
[6]赵国荣. 中文新闻语料中的时间短语识别方法研究. 硕士论文. 山西大学,2006,5
[7]董振东,董 强. 面向信息处理的词汇语义研究中的若干问题. 语言文字应用,2001,8:27-32.
The study on duplicated removal algorithm web pages based
on elements of news subject
Wang Peng,Zhang Yongkui,Zhang Yan,Liu Rui
School of Computer & Information Technology, Shanxi University, Taiyuan, China (030006)
Key laboratory of ministry of education for computation intelligence and Chinese information
processing, Taiyuan, China (030006)
Abstract
In the homepage retrieval result, the user can obtain the content same redundant page frequently. This
article proposed one kind of duplicated news web pages removal algorithm though study news content
on elements of news subject. This method basic thought is: First, extracts the time and the place phrase
which in the news essential factor the event occurs; Then, through extraction time and place phrase
extraction news content; Finally, through calculates their similarity according to the study news content
to judge the news homepage the heavy multiplicity. The experimental result indicated that, this method
can complete in view of the news content duplicated web pages, and obtains the high recall and the
accuracy ratio.
Keywords: Elements of News Subject; Fuzzy Matching; Duplicate Removal Algorithm
作者介绍:
张永奎(1945-),男,山西翼城人,教授,博士生导师,主要研究方向:中文信息处理与人
工智能;
王鹏(1980-),男,山西平遥人,硕士,主要研究方向:中文信息处理与人工智能。
-8-