1 9 9 9年 12月
簟 ’{鞋 笛 蝴
北 方 交 通 大 学 学 报
H T N AT n17 Nn RTHFRN TTAnTnNG I JN TVERSTTY
Dec 1999
V01.23 No 6
p 3 J-
自然语言处理系统中自动分词的研究
丁 丰 董 娜 林碧琴 袁保宗
一_—— 芒三 葶 工程学院,北京100044)
-\} \
摘 要 首先分析了自动分词方法的基本假设和实现途径 以及现有方法的不足之处,然后介绍汉
语自然语言整体处理信息框架和在自然语言整体处理框架中自动分词方法,最后给出实验结果
关键词 皂鉴堡亘竺望 皂塾坌望 星 堇望
分类号TP391.12 i 理
Automatic Segment in Natural Language Processing System
Ding Feng Dong Na Lin Biqin Yuan Baozong
Collie of E L~tmn[cs and Irfformation En~neermg.North~ Jiaotong University,Be[3/ng 100044)
Abstract This paper pays more attention to automatic segment,which is one of the
most important steps in natural language processing.At first,two premises of automatic
segment are analyzed.Followed them,the whole information framework about Chinese
NLP is introduced,and the automatic segment in the fram ework are proposed.Prelimi
nary results are provided
Key words NLP(natural language processing) automatic segment hiberarchy
目前,汉语处理研究 已有相当的进展 汉语普通话大词汇量、非特定人、连续语音识别已经
取得突破性的成果 ;汉语文语转换系统和合成系统的性能有较大的进步 ;机器翻译也在汉语和
多种外国语言间展开.取得进展的一个重要 因素是;随着硬件和算法的发展,在诸如语音识别、
语音合成等应用的声学信号处理侧已日益成熟,并取得令人满意的指标.然而在语音识别后期
处理、语音合成前期处理、语言理解、人机对话等领域表现出来的困难使人们意识到处于较高
层的语言处理系统成为阻碍系统性能进一步提高的瓶颈.在汉字串基础上作进一步处理时,自
动分词是不可缺少的步骤.自动分词正确率对系统性能有重要影响.当前使用最多的最大正向
匹配法正确率能达到 90%,本文主要探讨进一步提高分词精度的方法.
1 自动分词方法分析
(1)基本假设 汉语 自动分词方法依赖于两个基本假设 :①分词是人处理信息过程中的一
个步骤.自然语言处理的主要 目的是要部分地模仿和实现人分析、综合 自然语言信息的能力
心理学和认知科学的研究表明,人在感知语言时,存在词汇序列的分解过程.②分词可用一个
雯霰昌管黏 毒嵩 项T 丰男。 年生博士生 d @263
维普资讯
1 99 ♀年 12 月
革羊主主车星
@ 31-33
北方交通大学学报
2日阳RNAL OF NORτ百ER"I TIAOTO"l("; lJ曰:飞'ERSITY
Dec. 1999
Y♀u丰主Q,.主
自然语言娃理系统中自动分词的研究祷
ν'
丁丰董娜林碧琴袁保宗
一二
i ι 北方交远大学电子信草工程学院.北京 100044 )
Tf到
摘要首先分析了启动分i理方法的基本假设和实现途径以及现在方法的不足之处.然后介绍lX
活自然语言整体处理信息框架和在自然语言整体处理框攘中自动分词方法,最后结出实验结果
关键词 吉然语言处理 自动分渴层次结梅
分类号 TP39L 12
二二 月;三专31
Automatic Segment in Natur划 Language Processing System
Dìn在 Feng Dong ;..J a Lin Biqín Yuan Baozong
ICoJ:唔e of Ele>: l:romcs and Inform由on Engineering , Northern Juu:n:ong Uni 'l,'erstty, BeiJing 1(0044)
Abstract Thís paper pays OlorE' attention to autoTIwtic segn1E'nt. whlch Ïs one of the
自由t importa耻 steps in naturallang旧ge processing _ At first雹 two premises of 目JtOTI1at1c
segment are analyzed. Follo毛.ved th四豆, thε 胃hole mfOTπ植tíon hamework about Chin誓E
"LP is Hl甘oouced , and the automatic segnlent in t挝 franlE'Worl王 a ft" proposed. Prelìmi
na巧i results are PTovided
Key words )J"LP( naturallanguage processing) autoow1Ìc segnlent hi法rarchy
吕前,汉语处理研究已有相当的进展汉语普通话大词汇量、非特定人、连续语音识别已经
取得突破住的成果;汉语文语转换系统和合成系统的性能有较大的进步;机器翻译也在汉语和
多辛辛外国语言间展开-取得进展的一个重要因素是:随着硬件和算法的发展,在诸如语音识别、
语音合成等应用的声学信号处理?黯已日益成熟嘈并取得令人满意的指标伞然而在语音识别后期
处理、语音合成前期处理、语言理解、人机对话等领域表现出来前困难使人们意识到吐于较高
层的语言处理系统成为阻碍系统佳能进一步提离的饭颈在汉字串基础上作透一步处理肘.自
动分词是不可缺少的步骤-自动分词正在草率xr系统性能有重要影响当前使用最多的最大正向
匹配法正确率能达到 90%. 本文主要探讨进一步提高分词赣度的方法一
1 自动分词方法分析
(1)基本假设 汉语自动分混方法依赖于两个基本假设:①分词是人处理信息过程中部一
个步骤 i 自然语言处理的主要目的是要部分地模仿和实现人分析毛综合自然语言信惠的能力
心理学相认知科学的研究表明,人在感知语言时,存在词汇序列的分解过程,②分词可用一个
曾匮家自然科学基金资盟主项目
本主收JlJS藏 1~99..{t7-Jl 丁字男 1971 年生溥士生雹阳d 也哩_ di昭@
32 北 方 交 通 大 学 学 报 第 23卷
计算模型表达 从事计算语言学研究的人员普遍认为,人的分词过程可以形式化表达,因而可
以自动进行.自动分词就是相应计算模型的实现.
(2)自动分词实现途径 自动分词主要有两种实现途径:一种仅从取得和人相 同的分词结
果考虑 ;另一种试图模仿人的认知过程.
采取第一种途径的分词方法有很多 如最大匹配、最少分词和基于神经 同络 的分词等
最大分词方法采用最长构词的判别原则,算法简单有效,是当前使用最多的分词方法.但使用
相同原则的正向最大匹配和逆向最大匹配的切分结果有时却不一致.最少分词方法采用最少
构词的准则,能够在句级处理信息 最大匹配和最少分词各从一个侧面体现语言进化过程中蕴
含的简洁有效的趋势.基于神经网络的分词采用神经同络知识表达方法,以 自组织、自学习的
方式学习训练语料.训练数据信息保存在神经同络的拓扑结构和连接参数里 .这类网络对真实
的自然语言难以充分的训练_2 采取第二 种途径的分词方法有特征词匹配、规则分词⋯和基
于短语的分词等 特征词 匹配收集众多的特征词作为切分标志,分词时可以缩短需要处理的字
串.规则切分使用大量的词规则.这三种方法都使用了词附近一些局部信息,符合人根据语言
环境处理信息的特点.可看作初步的知识分词 .
所有这些分词方法不考虑或考虑很少知识的应用,要进一步提高分词精度,应该更贴切地
反映人的认知过程,在 自然语言处理系统框架中处理,充分利用语言的语法、语义等深层信息
2 汉语 自然语言处理系统整体信息框架和 自动分词
(1)词信息 词是形义结合的最小单位.词类和词义是词的两个最基本信息.
汉语词汇可以分为以下词类:名词、动词、代词、数词、量词、形容词、副词、介词、连词和助
词等.在一些词类中还可以进一步细分,如动词可分为一般动词、能愿动词、趋向动词等.词存
在兼类现象,即一个词有多种词类 .兼类词虽然在词典词条中所占比例不高.但出现频率高,而
且越是常用词兼类现象越严重.
词通常具有丰富多样的词义,在不同的环境下表现出不 同的词义 从应用看,一个独立语
义应能够在另一种语言中被翻译成同一个词.研究表明,一个多义词在一篇文章中只有一个词
义具有高的概率 』.词义和词的搭配有紧密的联系,在一个固定搭配中,词义相对稳定.
(2)语言的层次结构 由字、词组成的 自然语言是一个逐步扩大与趋于复杂的层次结构
基本形式为:
字一一词一一短语一一句子一 一段落一一篇章
前一层次组成后一层次.单字可以独立成词,或和其他字联合构成词.词和词可以组成短
语.短语依句法规则可构成完整的句子 句子依据一定逻辑关系构成段落,段落组织成篇章.
后一层次对前一层次提供更为具体的语义约束、语法约束 、语用约束.具有多词类和多语
义的词经过短语、句子的约束最后表达一个确定的含义.这个过程同时也是前一层次的不确定
性逐渐消除的过程.高层的信息是确定和选择词的依据,所选择词的词义、词类必须满足、符合
短语结构、句法结构 、段落语义、篇章语用的要求.
(3)理解过程 至目前为止,对人类的思维过程、理解过程还没有详细、明确的认识 研究
人员提出了各种各样的理解模型.应用较多的是基于语义的概念图 J,认为人的思维活动建
立在概念基础之上,人对信息的感知过程是在语法、语义的指导下从句子里抽取概念并建立概
念间相互关系的过程,在概念图的基础上可以进行归纳和推导.在 自然语言理解中,对一个单
维普资讯
主二 北方交通大学学报 第 23 卷
计算模型表达从事诗算语言学研究的人员普遍认为,人部分词过程可以形式化表达,因而可
以自动进行,自动分词就是梧应计算模型的实现.
(2) 自动分i司实现途径 自动分词主要有两种实现途径.一种仅从取得和人相同部分运结
果考虑;另→种试图模仿人的认知过程
采取第一种途径的分词方法有很多如最大匹配、最少分词和基于神经网络国的分词等
最大分i可方法采宿最沃构词的判别原则,算法简单有效,是当前使用最多的分词方法,但使用
梧同原则的正向最大匹配和逆向最大匹配的切分结果有对却不一致a最少分满方法采用最少
构词的准则,能够在句级处理信息最大匹配和最少分词各从→个测面体现语言进化过程中蕴
含的建洁有效的趋势.基于神经网络的分词采用神经网络知识表达方法,以自组织、自学习的
方式学习训练语料 l训练数据信息保存在神经网络的拓扑结梅和连接参数垦.这类网络对真实
的自然语言难以充分的训练出采取第二种途径部分湾方法有特征词区配、规则分词凶手E基
于短语的分i司等特征词匹配收集众多的特征词作为切分标志.分词时可以缩短需要处理的字、
串.规则切分使用大量的词规则这三种方法部使用了词附近→些同苦苦信息哩符合人根据运言
环境处理信息的特点,可看作初步的知识分泻
所有这些分读方法不考虑或考虑很少知识的应用、要进一步提高分词精度电应该更贴切地
反映人的认知过程,在自然语言处理系统框架中处理,充分利思语言的语法、语义等深层信息-
2 汉语自然语言处理系统整体信息霍架和昌动分谓
(l)词信息 词是形义结合的最小单位 i可类和词义是i可部两个最基本f言患.
汉语词汇可以分为以下词类:名词、动i司、代梅、数词、量词、形容词、副词、分i毒、连1司和助
词等在一些词类中还可以进一步缩分,如动词可分为一般动词、能愿动词、趋向动i司等词存
在兼类现象. lln→个词有多种词类.兼类岗虽然在词典词条中所占比例不高. j旦出现频率高,雨
且越是常用词兼类现象越严重
i可通常具有丰富多样约两义,在不同的环境下表现出不同的词义从应思看,→个组立语
义应能够在另一种语言中被翻译成同一个词-研究表明,一个多义混在 篇文章中只有 +词
义具有高的幌率比 ω词义和词的搭配有紧密局联系.在一个固定搭配中,词义相对稳定.
(2)1吾言的层吹结构 出字、词组成的自然语言是一个逐步扩大与趋于复杂的层次结构
基本形式为:
字一→词一→短语一→句子一→段落 →篇章
前一层次组成后 层次.单字可以独立成词.或和其他字联合构成词. i司和 i司可以组成短
语,短语依句法姐则可构成完整的勾子句子依据一定逻辑关系构成段落,段落组织成篇章
后一层次政前一层次提供更为具体的语义约束、语法约束飞语用约束 a 具有多向类和多语
义的词经过短语、句子的约束最后表达一个稳定的含义←这个过程同时也是前 层次的不晦定
性逐渐消除的过程也高层的信息是确定如选择i可白雪依据.所选择词的词义、岗类必顽满足、符合
短i吾结陶、句法结构、段落语义、黯章i吾弱的要求,
(3)理解过程 至吕前为止.对人类的思维过程、理解过程还没育详细、确确的认识研究
人员提出了各种各样的理解模型应用较多的是基于语义的概念困山,认为人的,思维活动建
立在概念基础之上,人对信息的感匆过程是在语法、语义的指导下从句子里抽取概念并建立概
念阅报互关系的过程,在榄念图的基础上可以进行归纳和推导.在自然语言理解中,对一个单
第 6期 丁丰等 :自然语言处理 系统中 自动分词的研究
元的正确理解,唯有把它放在比它大的语言单元中才能得以检验
(4)自动分词 目前对段落层和篇章级的研究很不充分,此处仅考虑句内的约束关系
分词学习过程着重建立以下基本库:首先建立充分的词类和词义知识库.这可从大量语
料训练获得 .当前,自动词类标注_6 和词义标注 都有一定的发展 其次建立句法结构库.由
于句法繁杂,主要建立常见的句法结构,不涵盖小概率的句法结构.构造基本库工作量巨大.
在分词过程中,首先把彼此之间无间隔的汉字流转变成由词组成的候选序列,候选序列可
能有多个 .选择哪一个,需要更高层的处理 根据建立的词性库结合句法结构库,给出候选分词
序列的评分 如小于门限值,放弃当前序列,另定候选序列;如高于门限值,保留并继续处理
候选序列的搜索过程采用图最短路径搜索算法 为节约计算开销,采用A 搜索算法.
3 实验及讨论
利用上述方法。进一步忽略语义,只采用句法约束的情况下进行了初步实验 实验中对句
法结构没有找到的情况作简化处理 采用的词表为北航的词表(约 9万条)加 WINDOWS拼音
输入法的词表(约 5.5万条,其中相当部分与北航重合).实验用语料为 1993年 1月人民日报,
经简单预处理后取 10万字文本(200 Kbyre)用于对比分析的两个分词结果分别由北京航空
航天大学和北京工业大学的自动分词系统产生.
分词正确率计算采用如下方法:默认三个分词结果中相同部分是正确的,然后在分词结果
中三者不同处所对应的原语料中抽取包含 1 000字的语句进行人工标注,再分别求出正确率
K(实际正确率应该劣于表中数据 因为三个分词系统可能存在一致的错误)
K = K 1*K2*K3,
式中 K 为总正确率;K 为“不同结果”集占分析语料的比例 ;K:为人工标注集占“不同结
果”集的比例 K 为各分词 系统在人工 标注集 中的正确率 .本方法 K 为 94.6%;北航为
92% ;北工大为 95.2%.实验数据表明,本方法优于北航,而稍逊于工大 .
比工大略差的原因可能在于如下两方面:工大的 系统包含有很多的规则模板,相对成熟 ;
比较而言本方法还很不完善,语义、语法都需要进一步的补充、调整,有待于进一步的工作.
另一个值得注意的问题是对分词结果的评价 人工标注语料耗费大量的人力物力,获得大
量人工标注的分词语料非常困难
参 考 文 献
1 棘秉铮、詹剑 .基于神经网络的分词方法 中文信息学报.1993,7(2):36~4
2 James henderson A Conaectionist AJreh/tecture with Inherent Systematicity :Pr~ dings of the Eight~nth C n ncP of the
Cognitive Scienee Soceity,La J Is.CA,1996 574~579
3 韩世欣,王开辟 基于短语结构文法的研究 中文信息学报.1992.6(3):48~54
4 Gate W ,Church K,Warows D.One Sense Per Discourse Precedings of the 4th D.~ PA s ech a力d Natural Language
W orkshop,1992
5 Maan G A W h Conceptual GraⅡh W [】rkbencbes N d for Naturat L~ guage Processing lmernarionaI Conference Dn Concep—
tual strucn一 95.UⅢvershy of california.San诅 Cruz,CaJifom ia.1996 70~78
6 王梃,陈火旺.一种 自适应词性标洼方法 软件学报.1997,8(12):937~943
7 Leacock,Claudia、Geoffrey Towdl,Elhm Voorhees Cow-- Based S阻t lc Settse Remlutton In Proceedings,ARPA Human
Lang u~e Technology Workshop.1993
维普资讯
第 6 期 了丰等=自然语言处理系统中自动分词的研究 主主
元的正确理解,唯有把它放在比它大的语言单元中才能得以检验
(4) 启动分词 目前对段落层和篇章级的研究很不充分咱此处仅考虑句内的约束关系
分读学习过程着重建立以下基本库.首先建立充分的读类和词义知识库.这可从大量语
料训练获得-当前,自动词类标注[6]和词义标注[7"都有一定的发展其次建立句法结构库-由
于句法繁杂,主要建立常觅的句法结褥咽不涵盖小概率的句法结构,将造基本库工作量巨大
在分请过程中,首先把彼此之间无间隔的汉字流转变成囱词组成部候选序列,候选j芋同可
能有多个事选择哪一个,需要更高层的处理根据建立的词选库结合句法结构库,给出候选分谓
序列的评分如小于门报筐,放弃当前序列,另定候选序E句:如高于门很筐,保留并继续处理
候选序列的搜索过程采用00最短路径搜索算法为节约计算开销喀采用 A" 搜索算法
3 实验及讨论
利用上述方法,进一步忽略语义,只采用句法约束的情况下进行了初步实验实验中对句
法结构没有找到的情况作简化处理采用部词表为北航的词表{约 9 万条)加 WI'JOOWS 拼音
输入法的词表{约 万条,其中相当部分与北航重合).实验用语料为四93 年 1 月人民日报.
经德单预处理后取 1自万字文本(200 Kbyte) 用于时比分衍的两个分两结果分别由北京敏空
航天大学和北京工业大学的自动分满系绞产生
分谓正确率计算果用如下方法:默认三个分词结果中相同部分是正确的.然后在分词结果
中三者不同处所对应的原语料中摘取包含 1 0齿。字的语句进行人工标注嘈再分别求出正喝率
Kl实际正确率应该劣于表中数据因为三个分词系统可能存在一致的错误}
K = K,挺 K2 食 K3'
式中 K 为总正确率;K1 为"不何结果"集占分析语斜的比例;K! 为人工标注集占"不同结
果"集的比例 j KJ 为各分词系统在人工标注集中的正确率.本方法 K 为 % :北航为
92% ;北工大为 % .实验数据表明,本方法优于北航,而稍逊于工大-
比工大路差的主主因可能在于如下两方面.工大的系统包含有很多的视则模板,相对成熟;
比较而言本方法还很不完善, ì吾义、遥法者在需要进一步的补充、调整嘈有待于进一步的工作-
号一个值得注意的问题是对分词结果的评价人工棕注语将耗费大量的人力物力雹获得大
量入工标症的分词语料非常困难
参考文献
1 结秉骨、詹刽墓于博经离络的封词1f注中立信 E学擂. jQ町、 7(约旦.<
2 ]回丑目 b四d.,阳u_ A Connect剧nist Arcruta-mre 飞剧由 !nh吨-ent Sy拭目natu:n :i! 如: pJ"O('eedmεS of tbe Elgnreentb t-:'-'nf",n ;'U__e .Jf tne
C哩ninve sc佳时e soce町、 La Jolla, 574-口号
3 韩世欣.王开传基于短语结梅立法部研究中立信息学报, 1992. 剖 3) ,.~-S4
• Gafe 宵1 Ch lJrcn K、 Yarowsky D 臼ne Sen:::.e Per D Îscourse Pn:χ~ru唔S 01 d警e 4tb DARPA Speah 四d r'\ L四F皿ge
亏
主 MannGA 曹 Co配ep臼alG国Oh 曹田kbenches 1\"eed for Naturaf P回国""到g. Interna11四旧l 己:-onfert"!lce on Co配叩-
Strucmres 町. Uni喃自tty of Calif,世nUl, Santa Cr坦、 Cahfo面白. 1996. 70-7雹
在王挺.陈火眨 骨自适应i毒性标注1;"法政件学报, 1997. RU2头937-Q43
7 L国αxk. Claudla. G四位四 TQwell, Ellen 'il∞击目,. c西p~Ba目dS恒t国ícalS讼nse Resoìutton. In P国国ed,吨?:丑PAHuman
Lan串 T echnol咽歹 W时