2003年第 5期 微电子学与计算机
多语种域名及中文域名技术的研究与实现
The Research and Implementation of Multilingual Domain Name System an d Chinese Domain Name System
中国互联网络信息中心 毛 伟 邓 翔 (北京 100080)
摘 要:随着互联网本地化需求的出现 ,产生了对多语种域名的需求。域名作为互联网的基础性技术,几乎与
任何一种互联网应用都有关 ,域名系统是否能够稳定运行将直接影响整个互联网的稳定运行。结合国际上的
最新研究成果,本文将系统介绍多语种域名及中文域名的技术难点和解决方案。
关键词:域名系统,多语种域名,中文域名 、
1 引言
域名是互联网层次体系结构中识别和定位计
算机等网络设备的字符标识,它与IP地址相对应。
域名技术是不断发展的,在互联网刚刚诞生时,并
没有域名技术,在访问计算机资源时直接使用IP地
址,但因不便于记忆 ,在七十年代引入了主机表技
术(Hostname)。随着互联网的发展,连入互联网的
计算机数量呈现迅速膨胀的趋势,主机表技术的集
中式管理模式已经不能满足需求,因此八十年代出
现域名技术 ]。现在看来,可以说域名技术是互联
网上最成功的技术之一,是互联网的基础性技术,
几乎任何一种互联网应用都跟域名有关。随着互联
网在非英语国家的迅猛发展,九十年代末期国际互
联网界提出了将原本只能使用63个ASCII字符(“a—
z”
,“A—Z”,“0—9”,t;t;I 9*t)的域名,采用本地语言文字
来表示,也就是出现了对多语种域名的需求。
国际互联网的标准化组织IErlT也于2000年3月
第47届IErlT会议上正式成立了多语种域名工作组
(IDN Working Group)来研究制定多语种域名的相
关技术标准 。由于中文有一些特殊的需求,在2000
年5月份,海峡两岸四地的互联网信息中心(CN—
NIC、TWNIC、HKNIC、MONIC)在北京发起成立了中
文域名协调联合会(CDNC),研究和解决在多语种
域名中面临的中文域名特殊技术问题[4]。本文将从
多语种域名及中文域名的技术难点和解决方案等
方面,结合作者参与上述标准组织相关工作的情
况 ,全面介绍多语种域名及中文域名技术最新进
展 。
2 实现多语种域名系统需要解决的技术难点
2.1 与ASCⅡ域名系统的兼容性问题
在探讨多语种域名的实现过程中,无法回避的
一 个重要问题是:现行的、主机数量庞大的ASCII域
名系统是整个互联网的基础 ,并且它本身稳定、高
收稿 日期:2002-10-21
效、可靠地运行着。对现行ASCII域名系统的任何损
害,都可能危及整个互联网络 ,进而导致多语种域
名系统技术的彻底失败。
2.2 多语种域名的编码表示问题
全世界有几百种语言和文字,同一种语言文字
可能有多种不同的编码方式(如:汉字编码GB2312、
GB18030、GB13000)。目前Unicode成为唯一的一种
可供选择的全球统一编码方式,但它是为解决文字
显示问题而设计的,与多语种域名体系设计需求不
完全统一。
2.3 多语种域名的技术实现问题
域名系统包括两个分离的部分:Resolver(解析
器)、Server(DNS服务器),它们分别位于用户操作系
统和域名服务器上。由于域名系统在网络应用中的
基础性地位 ,这决定了:让Resolver(解析器)能够识
别多语种域名就意味着要求包括操作系统在内的
“所有”网络应用程序必须升级;让Server(DNS J]l~务
器)能够识别多语种域名就意味着要求“所有”域名
服务器都必须升级。这两个“所有”无疑是实现多语
种域名时无法回避的技术瓶颈。
2.4 多语种域名的最终部署问题
现行ASCII域名系统在互联网络中应用的巨大
成功,成为解决多语种域名问题的重要障碍。对现
行域名系统的任何一点修改 ,对整个互联网络来
说,都是巨大的、难以忽视的,甚至是致命的。
2.4.1 中文域名繁简汉字等效问题
由于中文汉字的特殊性,在中文域名的实现过
程中,除了上述的技术难点之外,还有一些特殊的
问题。
《简化字总表》(国家语委1986)中的繁简体汉
字对有2237对 ,经过测试,CNNIC中文域名数据库
中83.6%的域名都会有这种繁简对照问题。如果包
括1对多,多对1的238个高频字以及部分未收入到
总表中的繁简字,繁简对照问题就覆盖了中文域名
数据库中90%以上的域名,因此繁简汉字等效是中
维普资讯
l08 微电子学与计算机 2003年第 5期
文域名中的一个普遍问题[5]。
如果不能很好解决繁简汉字等效,用户将不得
不注册多个中文域名,在域名系统分层解析过程中
也会出现不一致的问题。比如要注册“清华大学”这
个中文域名,由于“清”、“华”、“学”字都有繁体字
“清”、“荤”、“犟”,那么用户必须注册8个繁简体中
文域名,才能真正保护 自己的中文域名。这不仅仅
是用户经济利益的问题,而且用户可能还将面临无
休止的域名争议和法律纠纷。
如果不处理中文域名中的繁体汉字和简体汉
字等效问题,中文域名互联网将被分割为两个无法
通讯的部分:简体中文域名区域(中国大陆)和繁体
中文域名区域(台湾、香港、澳门及海外华人),不能
实现两岸四地互联网在中文域名体系下的互通。
2.4.2 中英文句号在中文域名中的等效问题
域名中采用英文句号“.”作为每一级的分隔符,
但在中文中旬号是“。”,因此希望“。”和“.”在中文域
名中等效,都是中文域名的分隔符号。这可能是中
文域名的一个比较独特的需求。
3 多语种域名及 中文域名的技术解决方案
一 个合适的技术解决方案必须满足下面一些
要求:不损害现行ASCII域名体系、保障网络整体安
全,多语种域名体系必须兼容现有的ASCII域名系
统。
多语种域名的技术解决方案在这三年多来也
在不断的发展,先后提出了下面三种解决方案:
3.1 采用DNS扩展技术。
扩展DNS协议 ,以特定的数据包格式来区分
ASCII域名和多语种域名,由于需要全面升级现行的
域名服务器和网络应用程序,实施和部署起来难度
太大而被否决。
3.2 采用UIT一8编码表示多语种域 名。
建立新的多语种域名协议,以支持多语种域名
的使用,同样由于要求全面升级现行的域名服务器
和网络应用程序而被否决。
3.3 采用ACE编码方式。
将Unicode表示的多语种域名编码成ASCII表示
的域名,不改变现有ASCII域名协议,不损害现行
ASCII域名体系、兼容现有的ASCII域名系统。在实施
上只要求升级现行的网络应用程序,即升级位于用
户端的域名解析器(Resolver~)。
从目前的研究情况来看,国际上普遍倾向于采
用上述最后一种方案,OIIACE编码方案,先把本地编
码多语种域名翻译成Unicode编码,再通过Nameprep
处理 (它主要做一些规范化的处理,包括 :字符映
射、字符归一化和字符禁止等)[6]。经过CDNC的共同
努力 ,Nameprep中规 定禁止 在多语种域 名 中出
现”。”,使在中文域名分隔符中将“。”映射为“.”成为
可能。然后再把经过Nameprep处理的Unicode编码翻
译成ACE编码,再进行域名解析,上述处理全部在用
户端来完成。我们对IETF IDN工作组中提出的所有
ACE编码算法进行了压缩效率的评估 ,发现AMC—
ACE-Z(Punycode)算法对中文域名的编码效率和编
码长度最好口]。经过我们的努力和协调,AMC-ACE—
Z算法成为IDN工作组的推荐ACE编码技术方案。多
语种域名的协议处理框架 (IDNA)如图1所示 [8]。
IDNA
图1 多语种域名的协议处 理框 架
整个多语种域名的技术框架就是这样,在用户
端,用户输入一个多语种域名,系统将本地编码翻
译Ji~'Unicode编码 ,通过多语种域名的协议处理框
架,提交到域名服务器进行解析,域名服务器的解
析数据库(Zone File)中存储的是ACE编码的数据。
与域名相关的其它一些应用,比3~11:Web Server、E—
mail Server无需任何修改,但在使用多语种域名数
据时,必须先进行ACE编码,再作为服务器的加载数
据,例3~llServer的名称在系统中并不是多语种的,而
是ACE编码的ASCII字符,这样在使用多语种域名的
时候,最好有一些ACE转码工具软件支持,使得用户
使用这个中文域名或者多语种域名的时比较方便。
多语种域名的总体技术实现框架如图2所示。
关于中文域名繁简汉字等效的解决方案,有三
种,一是在用户端(Client)对繁简进行转换 ,另外是
考虑在服务器端(Server)对繁简进行转换 ,还有一
种方法是在进行域名注册的时候解决,比如说一个
域名可以自动给它注册多笔,把繁体的和简体的都
同时注册下来。
目前我们倾向的解决方案是采用用户端方案
来解决一对一的繁简转换,采用注册的方案来解决
一 对多等与语意有关的繁简转换。技术实现框架如
维普资讯
2003年第5期 微电子学与计算机 lo9
一 一 一 一 一 一 一 一 一 一 一 一 一 一 一
应用程序一支持多种域名 l I
l
I
加载 Punycode数据 .I
用户输入多语种域名 ⋯ ⋯ 一一 一
将本地编码转换为Unicode编码f Application
DNS Senrer
server 如 Email
Senrer
Web server
l
编码
图2 多语种域名的总体技术实现框架
I I
应用程序一支持多种域名 - 加载 Punyeode数据 -
I 一 一 一 一 一 一 一 . 一 一 一 一 一 一 .J
用户输入中文域名 :中文域名繁简冗余数据 :
一
●
一 一
●
一 一 一 一 一 一 一 一
l ●
● ●
将汉字编码转换为Unicode编码 。 、 , 、 ,
J, Application
中文域名繁简转换 server
DNS selwer 如 Email
甲 server Web selwer
i
⋯ ⋯
图3所示。
图3 中文域 名繁简等效技术实现框架
4 结束语
经过两年多的讨论 ,目前IETF关于多语种域名
的技术标准已经基本上定型,有望近期获得通过,
这对多语种域名在全球的应用和普及将会起到极
大的推动作用,当然技术标准的实现还需要广大厂
商的支持。同时也应该看到,域名系统不仅仅只是
一 个技术问题,还涉及到管理上的问题 ,因此多语
种域名的普及应用还需要管理和技术的相互配合。
参考文献
[1] P.Mockapetris。RFC1034“Dow n Names— Concepts
and Facillties”,November,1987.
P.Mockapetris。RFC 1035 Domain Nam es Implementation
and Specification,November,1987.
IETF IDN Working Group. http://www.ietf.org/htm1.
charters/idn-charter.html
Chinese Domain Nam e Consortium,WWW.cdnc.org
XiaoDong LEE. ”Traditional an d Simplified Chinese
Conversion”。 June 28th。 200l。 http://www.i—d—n.
net/draft/draft—ietf_idn—tsconv一00.txt
Paul Hoffman。Marc Blanchet. ”Nam eprep:A String-
prep Profile for Internationalized Domain Nam es”,
June 24, 2002。 http://www.ietf.org/internet-drafts/
draft—ietf-idn—nameprep—l1.投t
Adam M.Costello。 ”Punycod e:A Bootstring encoding
of Unicode for IDNA”, October。8。2002。http://www.
ietf.org/internet-dmfis/dmft-ietf-idn-punycode-03.txt
Patrik Faltstrom。Paul Hoffman 。Adam M.Costello, ”
Internationalizing Domain Nam es in Applications(ID-
NA)”。 October 4, 2002。 http://www.ietf.org/inter-
net—drafts/draft—i idn—idna一13.txt
MAO Wei,DENG Xiang(China Internet Network Informa-
tion Center(CNNIC),Beijing 10008~
Abstract: With the Internet localization。 the demand of
multilingual domain nalne was appearing. As the fundam en-
tal technology. domain name system has relationship tll
almost an y Internet application technologies.If domain nalne
system could not run stably, it is impossible for Internet
running wel1. This paper will sire a whole introduction to
the technical difficulty an d solution of multilingual domain
name system an d Chinese domain nalne system, which are
the latest research resuh of international research area.
Key words: Domain Nam e System。 Multihngual domain
nalne.Chinese domain nalne
毛 伟 中国互联网络信息中心主任 。中国科学院计算机网
络信息中心研究员,硕士生导师。主要研究方向为计算机网
络系统,互联网寻址技术。
邓 翔 工程师。主要研究方向为计算机网络系统。互联网
寻址技术 。
(上接第82页)
popular approaches in searching related Web pages, the model is practicable. Th e mod el Can be used in relevance feedback in
relies on Web usage information.Model claim that human should traditional IR。 and can also be used to predict related topics in
be the authority to judge what are really related Web pages,and Web content security.
Web usage information Can help to make good USe of latent Key words: Related pages, Web IniIliIlg, Web usage
human judgment in related pages.Experiments show the model information
1j 1 J 1 J 1J 1 J
维普资讯