二、信息的控制
2、3 著录
一、信息的著录
亦称信息资源描述,是指根据信息组织和检索的需
要,对信息资源的主要内容、形式特征、物质形
态等进行分析、选择、记录的活动。
信息描述在传统的文献检索系统的中称文
献著录或书目著录。
信息描述的结果是描述记录,又称元数据,
可以用来作为信息资源的代替物组织检索
系统。
一、目录: 产生于文献的大量积累和人们对文献的
需求
早在殷商时代(公元前15~前12世纪),已经有了大量的文献。据考
古发现,河南安阳小屯村等地出土甲骨文16万片之多,而
且排列有一定顺序。
周代掌管文献的史官有明确分工,如“外史”“掌四方之
志,掌三皇五帝之书,掌达书名于四方”,这说明周代时
已有登记和通报文献的目录工作。
刘向(公元前77年-前6年)——《别录》,我国第一部图书目录。
二十卷,汉刘向撰。成书于西汉末年。
刘歆(公元前53年-公元23年)——《七略》世界上第一个图书分
类目录。成书于西汉末年,它比1545年西方“目录学”之父德
国的吉士纳的《万象图书分类法》还早1571年。
《史记》记载:“汉兴,肖何次律令,韩信申军法,
张苍为章程,叔孙通定礼仪。”这是秦火之后,国家
整理古籍最早的记录。基本上是对军事书籍的整理。
汉高祖刘邦(公元前206年-前195年)统一中国后,“与民休息
”,使生产力水平得到极大的提高,文化空前繁荣。刘邦
下令“大收篇籍,广开献书之路”。
汉武帝时(公元前124年)下令“建藏书之策,置写书之
官,下及诸子传说,皆充密府”。结果是“百年之间,书
积如丘山”。
汉成帝和平三年(公元前26年),鉴于当时图书典藏不善,多有散佚,朝廷
命刘向等人校书。刘向校书——
首先—— 广罗异本,以相校雠,不拘一家,择善而从;
其次—— 整理错乱,除去重复,互相补充,定著篇章;
然后—— 条别篇章,定考目次,写定正本,最后命定书名。
在定本奏给皇上之前,刘向将每本书的叙录另抄一份,集中一起,名之《别录》,
构成了极高目录学价值的国家藏书提要目录。
《汉书•艺文志》记载刘向校书:“每一书已,向辄条其篇目,撮其指意,录而
奏之。”
叙录体
刘向始创的叙录体目录体例,在1900多年前就已达到很
高水平。
叙录(又称解题、提要,始于刘向),列于书名之后,用
以揭示图书内容主旨、价值得失、介绍作者生平、学术源
流、以及该书的版本、校勘、流传情况。
传录体、辑录体
传录体目录:始于南朝宋、齐时王俭的私家目录(南北朝,宋,公元420年-479
年;南齐公元480-公元502年)《七志》。
偏重作者传记而不述图书的内容主旨。
辑录体目录:以元代马瑞临《文献通考•经籍考》为代表。辑录体目录在
体制结构上分为序言、书名、作者、卷数、提要、按语和自注等项目,
其中提要是最具特色的部分,其提要不是编目者本人的语言,而是辑引
原书序跋和他人评论来完成对书目的评介。这种全新的解题方式最大限
度地保存了书目资料的原貌,具有很高的文献学价值和学术意义。
刘向辛勤近二十年,校书工作近完成时病逝。汉哀帝命子
承父业,由刘歆统领。
刘歆是刘向三个儿子中最小的一个,博闻强记,才学过人。
二十七岁时与父亲一起受命校书。
刘歆用近两年的时间,对《别录》中的各叙录加工、排序,
最终成为我国第一部综合性图书目录《七略》,著录图书
603家,13219卷。
《七略》与《别录》的不同之处在于增加了辑略部分,作
为目录的第一部分,从总体上评述各种学术的兴衰分合。
《七略》创立的书目七分法体系,影响着后来历代封建王
朝官修目录的发展。
《七略》的类目体系
辑略(目录的总说明)
六艺略 :易 书 诗 礼 乐 春秋 论语 孝经 小学
诸子略: 儒家 道家 阴阳家 法家 名家 墨家 纵横家
杂家 农家 小说家
诗赋略:屈原赋之属 陆贾赋之属 孙卿赋之属 杂赋 歌诗
兵书略:兵权谋 兵形势 兵阴阳 兵技巧
数术略:天文 历谱 五行 蓍龟 杂占 形法(根据山川宫室的形势及人畜器
物的形状推求贵贱吉凶之法。包括后世的堪舆、相术等。)
方技略: 医经 经方 房中 神仙
历代正史中的《艺文志》、《经籍志》都是沿《七略》的
七分法编排的、以当时政府藏书为主同时参考其他书目编
制而成的综合性书目。
东汉班固的《汉书•艺文志》依据《七略》,著录了西汉
末年皇家藏书13269卷,是我国现存最早的一部图书目录。
纪传体史书——
东汉班固的《汉书》以纪传体的体例首开断代史的先河。
西汉司马迁的《史记》首次以纪传体的体例记载了从传说
中的黄帝至汉武帝3000余年的历史。
纪传体:
司马迁创造了“纪传体”的。
不同于以往编年史、国别史。
纪传体有五种不同的体例,包括:
表、纪、书、世家、列传,
其中以纪和列传为主体,故称纪传体。
全书分十二本纪、十表、八书、三十世家、七十列传。
共130篇,526500字。
十二本纪叙述了以帝王为中心的各时期的历史大事(纵)。
列传,记汉武帝以前重要的历史人物(横)。
纪与传构成了《史记》的经纬。
此后,每一旧王朝灭亡,就有史家以纪传体的形式为之修史。
这种以君王传记为纲的纪传体史书,称为“正史”。
1921年,北洋政府大总统徐世昌下令把清朝遗老柯劭忞所
著的《新元史》例为正史,合称“二十五史”。后来人们
又加上了民国初年官修的《清史稿》,称为“二十六史”。
“目录”
“目录”一词,起源于汉代,且“目”与“录”各有其含义。
“目”仅指篇名或书名,“录”却既指篇名或书名,也包括对
篇名或书名的叙录说明文字。
“目录”原本指篇名或书名以及对作者事迹、写作过程、校勘
情况、学术价值等的说明文字。
后来将“目”(仅篇名或书名)泛称“目录”。
目录学
将目录称为学,始于北宋。
宋• 苏象先《苏魏公谭训》卷四:
“祖父(苏颂)谒王原叔(王洙),因论政事,仲至
(王洙之子王钦臣的字)侍侧,原叔令检书史,指之曰:
‘此儿有目录之学。’”
目录学意义:
近人汪国垣在《目录学研究》中总结为:
1、纲纪群籍,簿属甲乙之学也(按书的性质、体例分类、编目)
2、辩章学术,剖析源流之学也(辩章学术,考镜源流)
3、鉴别旧椠(qian 书的版本),雠校异同之学也(记录版本
的异同)
4、提要钩玄,治学涉径之学也(指导读书)
二、信息描述的演化过程
书本式目录
卡片式目录
机读目录
元数据
XML可扩展标记语言
2、卡片目录
发明于100多年前。对文献资源的组织和揭示起到
了很大的作用。
卡片目录
传统的目录由一张张反映文献特征的卡片组成,最早的著录方
法为五段空格法:
分类号
题名
著者
出版者
主题
五段空格法:
G25/8
图书馆分类工作手册 侯汉清主编 北京中国科学技
术出版社 1993年2月第1版 元 32开。
本书介绍了……
在卡片式目录中,一般在描述记录的基础上,设置标目,编制不
同的款目。
可根据检索系统的需要设置多个款目,供编制不同的检索系统
使用。如我国文献单位一般编制
题名、责任者、分类、主题
四种款目,组织相应的检索目录。
标目——即检索点,是记录中用来作为排检依据的资源特征。
标目的作用——
1、决定款目的性质,供组织相应的检索工具使用。
2,作为排检的依据,确定一款目在检索系统中的位置,供检索查
找。
二、信息描述的规范
信息资源的描述通常需要根据检索系统的要求进行。
为便于信息的交换,信息描述应依据一定的规范进行。
长期以来,人们经过探索,建立了一系列信息描述规范和标
准,其中以书目文献领域描述标准化的努力最为典型。
文献描述标准
也称文献著录标准。形成于20世纪70年代,是随着
计算机在文献领域中的应用而逐步发展起来的。
为了促进各国信息资源的交流和互换,国际文献
界于70年代开始进行国际标准书目著录的研究。
1971年,国际图书馆协会联合会编目委员会颁布了单行著作国
际标准著录准则,之后又推出了丛书、乐谱、地图、非书资料
等书目的描述标准。
1976年,出版了国际标准书目著录总则。
1978年,根据国际编目标准调整的英美编目条例(AACR2)出版。
1983年,我国正式发表《文献著录总则》,其后,出版了
各个分册,包括:
《普通图书著录规则》
《连续出版物著录规则》
《非书资料著录规则》
《地图资料著录规则》
《档案著录规则》
《古籍著录规则》
《检索期刊条目著录规则》
《文后参考文献著录规则》
信息描述项目
信息描述项目是用以揭示文献内容和特征的记录事
项,也称著录项目。著录项目一般应能根据信息资
源的特点和信息组织的需要,有效地揭示信息资源
基本特征。
描述项目可分为: 基本描述项目
描述子项目
基本描述项目
一个描述记录由若干大项组成,一个大项又可以划分出若
干小项,组成一个系统的、完备的描述结构。
我国国家标准《文献著录总则》规定的基本描述项目有9
个大类,依次为:
1、题名和责任者项
2、版本项
3、文献特殊细节项(连续出版物、地图等)
4、出版发行项
5、载体形态项
6、丛编项
7、附注项
8、文献标准编号及有关记载项
9、提要项
描述子项目——
为了准确揭示信息资源的特点,在基本项目下设置子项目加细描述。
基本描述项 子项
题名和责任者项
正题名
并列题名
副题名及说明题名
文献类型标识
第一责任者
其他责任者
版本项 版次及版本形式
与版本有关的责任说明
文献特殊细节项
出版发行项 出版地或发行地
出版者或发行者
出版年、月或发行年、月
印刷地、印刷者、印刷年、月
载体形态项 页数、卷(册)数
图
尺寸
附件
正丛书名
丛编项 并列丛书名
丛编责任者
国际标准连续出版物编号
丛编编号
附注项
文献标准编号及有关记载 国际标准文献编号
中国文献标准编号
提要项
标识项
分类号
主题词
描述的符号和文字:著录项目标识符又称前置符,置
于著录项目前,依次为:
._ 各大项符号
= 并列题名、并列丛书名
: 副题名及说明题名文字、出版者或发行者、图书及其他形态、副
丛编名、价格
/ 第一责任者
; 不同著作方式的说明、第二出版地或发行地、尺寸、丛编编号
, 分辑(卷)次、附属丛编
+ 附件
// 析出文献的出处
著录的详略级次:按著录的详略程度,把著录项目分为三级
1、记录全部项目,称为详细级次。可提供文献的全部书目信
息,适合于国家书目的编制。
拓扑学的首要概念:线段、曲线、圆周与圆片的映射的几何学 /
(美)陈锡居(Chinn,.),(美)斯廷路德(STEENROD,)著;
蒋首方,江泽涵译.上海:上海科学技术出版社,1984.3
196页;32开
书名原文:First concept of topoloqy
元
1.拓……2.①陈….②斯….③蒋….④江…3.
基本级次:记录主要项目的同时,记录部分选择项目,称为基本级
次,是文献单位实践中最常用的级次。
拓扑学的首要概念:线段、曲线、圆周与圆片的映射的几何学 /
(美)陈锡居(Chinn,.),(美)斯廷路
(STEENROD,.)著;上海:上海科学技术出版,1984.3
196页;32开
元
1.拓……2.①陈….②斯….③蒋….④江…3.
简要级次:仅记录主要项目的称为简要级次,一般为小型文献单位
或编制书本式目录使用。
拓扑学的首要概念:线段、曲线、圆周与圆片的映射的
几何学 / (美)陈锡居(Chinn,.), 等著.
上海:上海科学技术出版社, 1984.3
196页;32开
元
1.拓……2.①陈….②斯….③蒋….④江…3.
二、计算机编目:
计算机编目有许多类型,到目前使用时间最长的为机读编目
格式(Machine Readable Cataloging Format,简称
MARC),是根据文献特点和文献机构之间交换的需要建
立的标准化的计算机可读形式。
MARC格式:
MARC格式是指定的计算机可读目录数据标准交换格式,20世
纪60年代末70年代初在北美首先应用。推动了图书馆进入自动
化阶段。MARC在世界范围使用广泛,产生了许多不同的版本,
如:
美国的USMARC
英国的UKMARC
欧洲的UNIMARC
中国的CNMARC等。
从世界范围看,绝大部分的书目记录都是用MARC编制的,
只有2%左右的数据采用的是其他著录方式。无论是数据
描述的丰富性还是数据检索的查准率,目前还没有哪一种
元数据格式可以超过它。但是,网络环境下,就显得跟不
上了。
机读目录的组成:一个书目记录通常由四部分组成
1、记录头标区——包括记录类型、目录级别、记录完整程度等数
据。由24个字符构成。
2、地址目次区——是关于该记录数字字段区记录情况的有关数据。
3、数据字段区——记录有关文献的各种信息,是书目记录的主体。
4、记录分隔符——用于表示不同记录之间的区分。
字段的进一步展开:
数据区中各种字段的进一步展开 ,是通过特定的标识符号来
标识的。所使用的标识符有三种:
1、字段标识符
2、子字段标识符
3、指示符
字段标识符——
用于区分不同字段,由三位数组成。同一功能块的字段,均
以相同数字开头。
如:主题分析块各字段标识符均以“6”开头。
600 个人名称主题
601 团体名称主题
602 家族名称主题
605 题名主题
606 普通主题
607 地理名称主题
610 非控主题词
675 国际十进分类法分类号
690 中国图书馆分类法分类号
子字段标识符——由两个字符组成。第一个为国际标准
ISO2709中规定的专用“$”,第二个字符为字母或数字,
两者结合标示特定的子字段。
指示符——用于提供某些数据的操作信息,由两位数字或
字母组成,位于字段标识符后。
一字段按照是否在一个记录中多次重复,又分为可重复字段
和不可重复字段,如:
子字段标识符 子字段内容 注释
$ a
$ b
$ c
$ d
$ e
$ f
$ g
$ h
$ i
$ z
$ v
$ A
正题名
一般资料标识
另一著者的正题名
并列题名
副题名及其他题名信息
第一责任说明
其余责任说明
分辑号
分辑名
并列题名语种
卷标识
正题名汉语拼音
必备,可重复
可重复
可重复
可重复
可重复
可重复
可重复
可重复
可重复
不重复
可重复
可重复
书目记录样例:
题名与责任说明 200 1b $ a市场运销管理 $ A shi chang ying xiao guan li $e
教程和教案 $ f(美)约翰.A.昆奇(Joh A. Quench)等著
$ g 吕一林等译
出版发行 210 bb $ a北京 $ c 北京大学出版社 $ a香港 $ c科
文(香港)出版有限公司 $ d 2000
载体形态 215 bb $ a 905页 $ d 26cm
丛编 225 2b $ a全美最新工商管理权威教材系列
附注块 300 $ a北京版权代理有限公司代理
款目连接块 410 b0 $ i 2001全美最新工商管理权威教材系列
并列正题名 510 1b $ a Marketing Management $ e Text and Cases
主题 606 bb $ a市场运销学 $ x研究生 $ x教材
中图法号码 690 bb $ a $ v 4
知识责任 701 b1 $ a昆奇$ A Kun Qi $ B . $ 4著
知识责任 701 A1 $ a吕一林$ A Lv yi lin $ 4著
记录来源 801 b0 $ a CN $ b NL $ c 2000425
在相当长的时间里,MARC 是书目数据描述的主流工具。从世
界的范围看,绝大部分的书目记录都是采用MARC 方式编制的,
只有2%左右的数据采用了其他的著录方式。有人估计,5年后,
也不过翻一番,达到4%。无论上从数据描述的丰富性,还是数
据检索的查准率来看,MARC 是名列前茅的。如果说将信息资
源的组织和整理仅仅局限于馆藏资源的话,MARC 和 AACR是
足以应付了。
MARC格式的扩充
但是因特网的发展,要求图书馆的资源扩大到包括以文字、
图像、音频、视频为对象的网络信息资源,还必须标引自
建或网上资源。1991年,MARC的制定者(美国国会图书
馆,LC)就提出以MARC为主框架制定囊括网络信息的相
应字段。
LC等不断对USMARC进行修改:
如用256字段表示计算机文件特征,
307字段表示文献检索或获取时间,
516字段反映计算机文件类型或数据附注;
用753字段对检索计算机文件所使用的系统细节进行描述;
用856字段(电子资源定位与检索)著录网络信息资源的存取方
式及其他必要信息等。
目前,我国的西文机读目录格式基本依照USMARC ,而
中文机读目录格式(CNMARC)一直以UNIMARC为基础,
依据UNIMARC增加了相关字段。
上海交大、复旦、深圳大学等已在各自系统的编目模块上用856字
段连接电子文献的网址,读者通过WebPAC检索,可查到此网址,
点击即可链接全文。连接的电子文献可分为三类:
本馆已数字化的文献
印刷本标有网址的
购赠的数据库文献。
进入数字时代,MARC 的局限性表现为:
1、这种描述手段往往只适用于图书馆;
2、MARC需要在专门的软件系统中使用,而且不大适应互联网的环境;
3、修订相当复杂,且非常缓慢;
4、适用于完整的、静止的信息内容的处理,不易处理动态的多媒体信息;
5、编制一条机读记录不仅需要经过严格的专业训练,而且需要花一定的时间。
6、扩充后的MARC十分复杂,非专业人员难以参与,所需的学习和著录成本过高。
在美国,每一条原始的图书馆目录记录需要50---70美元。此后,还有维护和
更新的费用。
三、元数据(Metadata)
网络资源快速增长,网络资源指南和搜索引擎的检索效果不理想,
原因是没有建立完整有效的信息索引机制。
这种标准化的信息索引机制的建立必须以一个通用的、合理的、
规范的网络信息资源著录规则为基础,MAERC又难以完全胜任网
络资源的揭示,从而促使了元数据的发展,元数据正在成为网络
环境下资源共享的重要标准格式类型之一,是对MARC的重大革
命。
元数据一词早期指网络资源的描述数据,由于传统的书目
数据与数字信息资源的描述数据无本质上的不同,所以,
从最广泛的意义来讲,传统图书馆的卡片式目录、书本式
目录、及MARC 格式等编目数据都属于广义上的元数据。
元数据在网络信息资源组织方面的作用:
1、描述:元数据的最基本的功能在于对信息对象进行内
容和位置的描述,从而为信息对象的存取和利用奠定必要
的基础。
2、定位:由于网络信息资源没有具体的实体存在,明确
它的定位至关重要。元数据中包含有关网络信息资源位置
方面的信息,因而由此可以确定资源的位置所在,便于信
息对象的发现和检索。
3、发现。元数据通过对信息对象的描述与定位,将信息对象中
重要的信息抽出并加以组织,赋予语义,建立关系,提供发现的
基础,从而有利于用户识别资源的价值,发现真正需要的资源。
4、评估。元数据提供有关某个Web页面的标题、作者、时间、格
式、主题及内容等信息,使用户无需浏览信息对象本身就能够对
信息对象有基本的了解和认识,可以对其价值进行必要的评估。
5、选择。根据元数据所提供的描述信息,参照相应的评
估标准,结合使用环境和实际需要,用户可以对信息对象
进行取舍,选择自己所需要的信息资源。
都伯林核心集
近年来,网络信息资源的描述问题受到关注。书目文献界
是通过在MARC格式中增设描述网络信息资源的相应字段。
与此同时。出版界、计算机界和树木文献界一起,创建了
一系列新的描述规范,出现了很多种元数据规范。如:
《文本编码倡议》
《都柏林核心集》
《政府信息定位服务》
《可视资源核心范畴》
《编码档案描述》
《博物馆信息的计算机交换》等。
其中最有代表性的为《都柏林核心集》(Dublin Core,简称DC)。
1994年,在芝加哥召开的第二届万维网协会(W3C)年会
上,一些专家讨论互联网上的检索问题,大家的兴趣焦点
集中在建立一套元数据元素集合用以描述网络资源,于是
导致了1995年3月第一届DC 会议的召开。
都柏林元数据
1995年3月,由OCLC(联机图书馆中心)和NCSA(美国超
级计算机中心)联合发起,52位来自图书馆界和电脑网络
界的专家共同研究产生。其目的在于建立一套描述网络电
子文献的方法,以实现网上信息的辩识、查询和检索。因
第一次会议在俄亥俄州哥伦布市的都柏林镇举行,故称为
都柏林核心元数据集。
DC的著录项目: DC 由15个基本元素组成,分为
三大部分
1、内容描述部分——包括题名、主题、说明、来源、语种、
关联和覆盖范围。
2、知识产权部分——包括创建者、出版者、其他责任者和
权限。
3、外描述部分——包括日期、类型、形式和标识符。
DC 的15个元素
(题名)
(创建者)
(主题)
(说明)
(出版者)
(其他责任者)
(日期)
(类型)
(格式)
(标识符)
(来源)
(语种)
(关联)
(覆盖范围)
(权限)
DC有15个基本元素,著录时还可以简化,但要确保最低
限度的7个元素:
1、题名
2、出版者
3、形式
4、类型
5、标识符
6、日期
7、主题
DC 的影响正在扩大,有望成为各国都能接受的国际标准。
15个元素DC又称为“简单DC”,但有些资料是需要详细著
录的,为此又推出了“复杂DC”,即引进“修饰词”的概
念,如语言修饰词、体系修饰词、子元素修饰词,进一步
明确元素的特性。在坚持互操作性的原则下,允许各个DC
地方版在15个元素的基础上增加新的元素或修饰词。
DC的应用:
DC的应用领域涉及到政府、教育、管理、地理、图书馆
等;
除处理文本信息外,DC还处理多媒体信息;
目前,DC 已经被美洲、欧洲、大洋州、亚洲等20多个国
家100多个项目所采用,被翻译成20多种语言。
目前元数据存在的问题:
1、DC本身处于发展之中,至尽体系不完备。
2、体系逐渐庞大。DC 的初衷是希望用一个简单的元数据记录
种类繁多的电子文献。但随着应用,体系也随之庞大,恐怕难
免重导MARC 的覆辙。
3、本地化问题。尽管DC 为本地化与国际化做了不少努力,但
问题仍存在。如DC元素名在各地译名的问题,DC 与本地化著
录格式之间的相互转换问题等。
4、缺乏强有力的支持。目前,DCMI(都伯林核心元数据
元素集)的组织机构包括DC 综合讨论平台、DCMI工作组、
DCMI特殊兴趣组、DCMI常务委员会和地区机构,但其成
员为世界各地的自愿者,松散的组织使研究难以保证。
5、编目信息的可靠性。网站内容的创建者在提供猿数据
时,由于缺乏文献分类、主题标引等方面的训练,给出的
分类号、关键词有可能出错;更有甚者,为了影响搜索引
擎的排名,创建元数据时,有意误导,如使用过多的关键
词或特别有吸引力或太流行的词。
四、超文本信息描述技术
SGML(Standard Generalized Markup Language)标准通用标记语言。
1969年,IBM设计出了通用标记语言(GML),旨在建立一套电子信息交换的通
用标识,使文件信息与设备无关、与处理系统无关、与应用无关,甚至与所
用的语言无关。
1978年,美国国家标准局将GML规范成SGML。
1986年,国际标准化组织(ISO)发布SGML的正式文本,使其成为通用的描述
各种电子文件的结构及内容的国际标准,为创建结构化可交换的电子文件提
供了依据。