我们淹没在信息中,
但是却渴求信息。
———奈斯比特
《大趋势》
1
第二章 信息组织
检索工具以及检索系统的形成
2
主要内容
第一节 传统信息组织
第二节 网络信息组织
第三节 信息检索过程以及方法
3
第一节 传统信息组织
一、信息组织认识
二、文献著录法
三、信息检索语言
四、检索工具的形成
4
为什么图书馆的书籍
被整理的井然有序?
5
图书的整理加工
工具书
工作
人员
检索人员(读者)
6
图书馆等机构是如何做的?
1、图书的收集
2、图书 的内容著录
3、图书的分类
4、图书的排架
5、图书馆目录的形成
7
实质:信息组织
现代信息检索的起源
8
自我评价并讨论:对于图书馆你的了解?
从图
书馆
业务
中
去理
解信
息组
织
9
一、信息组织
即信息序化或者信息整序,也就是利用一
定的科学规则和方法,通过对信息外在特
征和内容特征的表征和序化,实现无序信
息流到有序信息流的转换,从而保证用户
对信息的有效获取和利用、信息的有效流
通和组合。
包括:信息的收集——信息的描述——
信息的标引——信息的排列——信息检索
工具的形成
10
1、图书的收集
购买:报刊目录
专家建议
邮局
书店
网上订购
捐赠:
11
2、文献著录方法(图书 的特征描述)
1)定义:
指按照一定的规则,对文献外表形式、
物质形态和内容特征进行分析、选择和记
录的过程,是客观描述信息和文献的过程,
其结果称为款目。
所有的款目有序排列,形成目录。
12
著录举例
信息检索 : 从手工到联机、光盘、因特网
/陆建平著 .-------上海 :华东师范大学出版社
,2001,1
256页 : 图表 ; 26cm
ISBN 7-5617-2380-6:元
I.信息….II.陆建平III .情报检索 -- 教材
13
2) 著录标准
1) ISBD:International Standard Biblioraphic
description,《国际标准书目著录》
《 文献著录总则》
2) 著录项目以及著录源
题名与责任说明项、版本项 、出版、发行
项 、载体形态项 、丛编项 、附注项 、标准
号与获得方式项
著录源版权页或题名页、封面、出版说明等
处
14
《 文献著录总则》格式
正题名=并列题名:副题名/第一责任者;其
他责任者.___版次及其它版本形式.___出版发
行地:出版社,出版发行年
页数或卷册数;图;文献尺寸或开本+附件
附注说明
国际标准书号;中国标准书号:获得方式(即价
格)
内容摘要或评论
I.题名 II.责任者 III.主题词 IV.分类号
15
练 习
请对本教材进行标
准著录
16
3、图书的分类
/16 网络信息检索 科技信息检索
G 文化、科学、教育、体育
G2 信息与知识传播
G25 图书馆学、图书馆事业
G252 读者工作
文献检索
具体方法下节
内容
17
4、图书的排架
了解我院图书馆书库的排列
18
5、图书馆目录的形成
目录:通往知识海洋的钥匙
目录的用途:
查找自己需要的书籍
查看图书馆藏有什么书
自己要找的图书在哪里收藏
现在某本书的借阅情况
19
二、检索语言—语言学原理
信息检索语言是根据信息检索的需要而创造
的人工语言。一般又称为情报检索语言、信
息存贮与检索语言,索引语言,标引语言,
文献工作语言,标识系统等。
20
张琪玉为代表:
根据情报检索的需要而创制的,专门用于各
种手工的和计算机化的文献情报存储检索系
统,能够唯一地表达各种概括文献情报内容
的概念(主题概念),能够显示概念之间的
相互关系,并便于进行系统排列,便于将标
引用语和检索用语进行相符性比较的人工语
言。
目的、规范化、有序、人工语言
21
苏联切尔内为代表:
一种专门的人工语言,用于描述(表示)文
献中心问题或主题和外表特征,以便以后在
其他文献集合中查找需要的文献,或者用于
表示情报提问的内容和检索需要的文献。
22
检索语言的功能
(1)对文献的信息内容(及某些外表特征)加
以标引;
(2)对内容相同、相关的信息加以集中或揭示
其相关性;
(3)对大量信息加以系统化或组织化;
(4)便于将标引用语和检索用语进行相符性比
较。
(5)是沟通信息的存贮和检索两个过程,标引
人员和检索人员双方思想的桥梁。
23
检索语言三要素
1、专用的词汇(符号,语词)
2、有一定数量的基本词汇(分类表)
3、有一定的语法规则。
24
检索语言的分类
分类语言
主题语言
引文语言
自然语言
分类-主题一体化
25
三
分
类
法
介
绍
分类语言是以号
码为基本字符,以
科学分类为基础,
即用表示文献学科
性质的分类号来表
达文献主题概念的
检索语言。
26
著名的图书分类法
《国际十进分类法》UDC
《美国国会图书馆图书分类法》LC
《杜威十进制分类法》DDC
《中国图书馆分类法》
《中国人民大学图书分类法》
《中国科学院图书分类法 》
27
《中国图书馆图书分类法》
《中图法》由5大部类、22个大类、6
个总论复分表、30多个专类复分表、4
万余条类目组成了一个完善的分类体系。
。
标记制度采用汉语拼音字母与阿拉
伯数字相结合的混合小数层累制,以字
母的顺序反映大类序列,对类目的排列
采用不同的字体和行、格等形式来表示
类目之间的关系。
28
等级列举式分类语言,采取对文献信息概念
层层划分,层层隶属的办法来形成一系列标
识。按照科学体系将分类标识组织成具有隶
属、并列关系的概念登记标识系统。
类目介绍: 5大部22大类
29
D:%5C%E6%88%91%E7%9A%84%E6%96%87%E6%A1%%5C%E5%8E%86%E5%B9%B4%E6%95%99%E6%A1%88%5C2006-2007%E7%AC%AC%E4%B8%80%E5%AD%A6%E6%9C%9F%E8%AF%BE%E7%A8%8B%E6%95%99%E6%A1%88%5C2005-2006%E7%AC%AC%E4%B8%80%E5%AD%A6%E6%9C%9F%E4%BF%A1%E6%81%AF%E6%A3%80%E7%B4%A2%E6%95%99%E6%A1%88%5C%E4%B8%AD%E5%9B%BE%E6%B3%95%E2%80%94%E2%80%94%E4%BA%BA%E5%A4%A7%E6%B3%95%E6%AF%94%E8%BE%
D:%5C%E6%88%91%E7%9A%84%E6%96%87%E6%A1%%5C%E5%8E%86%E5%B9%B4%E6%95%99%E6%A1%88%5C2006-2007%E7%AC%AC%E4%B8%80%E5%AD%A6%E6%9C%9F%E8%AF%BE%E7%A8%8B%E6%95%99%E6%A1%88%5C2005-2006%E7%AC%AC%E4%B8%80%E5%AD%A6%E6%9C%9F%E4%BF%A1%E6%81%AF%E6%A3%80%E7%B4%A2%E6%95%99%E6%A1%88%5C%E4%B8%AD%E5%9B%BE%E6%B3%95%E2%80%94%E2%80%94%E4%BA%BA%E5%A4%A7%E6%B3%95%E6%AF%94%E8%BE%
D:%5C%E6%88%91%E7%9A%84%E6%96%87%E6%A1%%5C%E5%8E%86%E5%B9%B4%E6%95%99%E6%A1%88%5C2006-2007%E7%AC%AC%E4%B8%80%E5%AD%A6%E6%9C%9F%E8%AF%BE%E7%A8%8B%E6%95%99%E6%A1%88%5C2005-2006%E7%AC%AC%E4%B8%80%E5%AD%A6%E6%9C%9F%E4%BF%A1%E6%81%AF%E6%A3%80%E7%B4%A2%E6%95%99%E6%A1%88%5C%E4%B8%AD%E5%9B%BE%E6%B3%95%E2%80%94%E2%80%94%E4%BA%BA%E5%A4%A7%E6%B3%95%E6%AF%94%E8%BE%
D:%5C%E6%88%91%E7%9A%84%E6%96%87%E6%A1%%5C%E5%8E%86%E5%B9%B4%E6%95%99%E6%A1%88%5C2006-2007%E7%AC%AC%E4%B8%80%E5%AD%A6%E6%9C%9F%E8%AF%BE%E7%A8%8B%E6%95%99%E6%A1%88%5C2005-2006%E7%AC%AC%E4%B8%80%E5%AD%A6%E6%9C%9F%E4%BF%A1%E6%81%AF%E6%A3%80%E7%B4%A2%E6%95%99%E6%A1%88%5C%E4%B8%AD%E5%9B%BE%E6%B3%95%E2%80%94%E2%80%94%E4%BA%BA%E5%A4%A7%E6%B3%95%E6%AF%94%E8%BE%
D:%5C%E6%88%91%E7%9A%84%E6%96%87%E6%A1%%5C%E5%8E%86%E5%B9%B4%E6%95%99%E6%A1%88%5C2006-2007%E7%AC%AC%E4%B8%80%E5%AD%A6%E6%9C%9F%E8%AF%BE%E7%A8%8B%E6%95%99%E6%A1%88%5C2005-2006%E7%AC%AC%E4%B8%80%E5%AD%A6%E6%9C%9F%E4%BF%A1%E6%81%AF%E6%A3%80%E7%B4%A2%E6%95%99%E6%A1%88%5C%E4%B8%AD%E5%9B%BE%E6%B3%95%E2%80%94%E2%80%94%E4%BA%BA%E5%A4%A7%E6%B3%95%E6%AF%94%E8%BE%
C社
会
科
学
总
论
D政
治
、
法
律
E军
事
F经
济
G文
教
、
科
学
、
体
育
H语
言
J艺
术
I文
学
K历
史
、
地
理
自
然
科
学
总
论
N R S TO数
理
化
P天
文
学
、
地
球
科
学
Q生
物
科
学
医
药
、
卫
生
农
业
科
学
工
业
技
术
U交
通
运
输
V航
空
、
航
天
X环
境
科
学
Z综
合
性
图
书
社会科学 自然科学
机
械
、
仪
表
建
筑
科
学
马
列
主
义
、
毛
泽
东
思
想
A
马
列
B
哲
学
哲
学
综
合
TB TD TE TF TG TH TJ TLTK TM TN TP TQ TS TU TV一
般
工
业
技
术
矿
业
工
程
石
油
冶
金
工
业
无
线
电
、
电
子
学
、
电
讯
技
术
自
动
化
计
算
化
学
工
业
轻
工
业
、
手
工
业
金
属
学
武
器
工
业
动
力
工
程
原
子
能
技
术
电
工
技
术
水
利
工
程
中中 图图 法法 展展 开开 图图 30
其它分类法介绍
《人民大学图书分类法》
杜威十进分类法(DDC)
美国国会图书分类法(LC)
必须要记住中图法的大类号码
树立针对不同的机构采取不同分类法的观
念
31
D:%5C%E6%88%91%E7%9A%84%E6%96%87%E6%A1%%5C%E5%8E%86%E5%B9%B4%E6%95%99%E6%A1%88%5C2006-2007%E7%AC%AC%E4%B8%80%E5%AD%A6%E6%9C%9F%E8%AF%BE%E7%A8%8B%E6%95%99%E6%A1%88%5C2005-2006%E7%AC%AC%E4%BA%8C%E5%AD%A6%E6%9C%9F%E4%BF%A1%E6%81%AF%E6%A3%80%E7%B4%A2%E6%95%99%E6%A1%88%5C%E5%B9%BB%E7%81%AF%E7%89%87%5C%E7%AC%AC%E4%BA%8C%E5%BC%A0%E7%9B%B8%E5%85%B3%E9%93%BE%E6%8E%A5%5C%E4%B8%AD%E5%9B%BE%E6%B3%95%E2%80%94%E2%80%94%E4%BA%BA%E5%A4%A7%E6%B3%95%E6%AF%94%E8%BE%
D:%5C%E6%88%91%E7%9A%84%E6%96%87%E6%A1%%5C%E5%8E%86%E5%B9%B4%E6%95%99%E6%A1%88%5C2006-2007%E7%AC%AC%E4%B8%80%E5%AD%A6%E6%9C%9F%E8%AF%BE%E7%A8%8B%E6%95%99%E6%A1%88%5C2005-2006%E7%AC%AC%E4%BA%8C%E5%AD%A6%E6%9C%9F%E4%BF%A1%E6%81%AF%E6%A3%80%E7%B4%A2%E6%95%99%E6%A1%88%5C%E5%B9%BB%E7%81%AF%E7%89%87%5C%E7%AC%AC%E4%BA%8C%E5%BC%A0%E7%9B%B8%E5%85%B3%E9%93%BE%E6%8E%A5%5C%E6%9D%9C%E5%A8%81%E5%8D%81%E8%BF%9B%E5%88%86%E7%B1%BB%E6%B3%
对具体图书索书号的认识
举例:分类号/种次号
TP37/4
/16 网络信息检索 科技信息检索
G 文化、科学、教育、体育
G2 信息与知识传播
G25 图书馆学、图书馆事业
G252 读者工作
文献检索
T 工业
技术
TP 自动化技术、
计算机技术
TP3 计算技术、
计算机技术
TP37 多媒体技术
与多媒体计算
32
体系分类语言的优缺点
优点
便于组织排架,其它语言无此功能。
按学科、专业集中文献,符合人们的习 惯,方便。
缺点:
无法群尽所有类目(对号入座,先组式)
由于学科发展快,新增类目不好加进去,增删困难。
由于现代学科交叉重复,同一主题的文献分散在不
同的学科中。
33
讨 论
分析你收集的类号特点,
看它们有什么优点,并且
分析有没有什么缺点?
34
以上类号为什么
不一样呢?
35
分散同一主题
职业道德
商业工作者职业道德 F718
教师职业道德
体育工作者道德 G823
文艺工作者道德 I03
36
分散同一主题
心理学 B84
军事心理学 E0
教育心理学 G446
管理心理学 C93
商业、消费、市场心理学
广告心理学
37
分散同一主题
广告艺术
广告管理
广告学
广告设计软件
38
分散同一主题
会计:会计学 F23,工业会计 F40,农业会计 F30
统计:统计学 C8,教育统计 G45,贸易统计 F712
数理统计 O212
TP39计算机的应用
信息处理、数据库及总论用电子计算机进行设计
工作的著作的著作入此。
数据处理装置入TP27 机器翻译入H085
机器检索入G354 模式识别理论入O23
机器教学入G433
39
分散同一主题
电子商务
电子商务网站设计
电子商务与现代物流 F252
电子商务与交易安全
40
讨 论
在资料查找中如何使
用分类法?
41
用分类号表示信息需求
42
体系分类检索语言在信息检索时使用
的步骤如下:
(1)分析信息需求的主题内容,确定其所用学科和大类
(2)按学科大类号查找简表,得其二级或三级类号;
(3)按所知二级或三级类号查详表中的相应类目,进一步得到符
合该信息主题内容的确切类号;
4)按所得确切类号查找检索工具,则会获得该类主题内容的大
量信息资料,再筛选取舍。
值得说明的是,在实际检索中,由于检索工具所采用的分
类法不尽相同,因此,往往是先选定检索工具,明确其所用分
类法的类型,然后分析信息需求的内容,从而获得所需的文献
信息资料。因此,在运用分类检索语言的时候,要根据检索工
具的分类体系和特点,按其分类规律灵活运用,方可精一通百,
运用自如。
43
实例分析
电子商务安全研究
44
电子商务安全涉及学科分析
电子商务
法律 D9
计算机安全 TP309
计算机网络安全
商业道德 F7
45
讨 论
确定你的研究课题,并且分
析它所涉及到的学科
46
类号查找
sp
47
中国数理科学文献数据库电子版文献
标引系统
htm
本站为国家科学数字图书馆科学文献数据库主
题词标引的专业信息网站,关键词“主题词、
主题标引、标引、分类、数理科学”。
48
分类法
入口
49
输入要查询
的内容
50
51
52
可以直接
输入分类
号
53
课后关注准备
54
课后作业
一、写出如下类号的名称
1、 2、B848 3、
4、A711 5、TP316 6、H31
7、 8、 9、K81
10、Z8
sp中国数理科学文献数据库电子版文献标引
系统(分类)
55
课后作业
二、类分如下图书(要求到一级类目即可)
1、现代信息检索技术
2、英语四、六级语法练习
3、电子商务教程
4、Flash动画制作
5、计算机百科全书
6、毛泽东传记
7、中国百科全书
8、网络媒体概论
9、中国国画教程
10、SQL server 数据库开发实例 56
网络信息分类中存在的问题
分类体系不严密。一些搜索引擎在划分类目时,
并未真正从知识领域、知识体系的角度来分类,
而仅仅从商业角度考虑,因而使得分类体系漏
掉了许多重要的知识领域,体系的系统性和完
整性受到很大的影响。如雅虎中国 (Yahoo!)
的基本大类中没有设置工业类、农业类等基础
性类目,而把它们作为二级类目、三级类目,
或是分散到其它类目
57
类目之间缺乏逻辑性,隶属关系混乱。部分中
文搜索引擎分类体系的类目之间缺乏逻辑性,
类目归属关系不尽合理。表现在某些上、下位
类之间隶属关系模糊,缺乏合理的知识联系。
如“东方网景”把教育列于自然科学类下,“网易
”在文学类下列出入文历史和宗教等
58
类目名称不规范。主要表现为类名不统一,类
名用语不准确,类名不能确切概括类目的内涵。
如搜狐称“计算机与互联网”,中文雅虎称“电脑
与因特网”,网易中热门查询的“另类”等。
类目划分标准模糊。由于类目设置采用多元标
准划分,一些类下往往使用两个或多个分类标
准,有的甚至在同一层次上列出不同等级的类
目,致使同位类设置显得混乱。
59
60
分类法在网络信息组织中的应用
(YAHOO)
分类搜索
61
62
63
SOHU YAHOO
分类数目 18 14
分类
比较
相同分类 教 育
社会与文化
社会科学
新闻与媒体
不同的分类 工商经济 商业与经济
科学与技术 科 学
地 区 区 域
计算机与互联网 电脑与因特网
综合参考 参考资料
卫生与健康 健康与医药
艺 术 艺术与人文
娱乐休闲 休闲与运动
娱 乐
YAHOO特有 政府与政治
64
四、主题语言
主题语言是指以自然语言的语词为字符,以名
词术语为基本词汇,用一组名词术语作为检索
标识的一类检索语言。
以主题语言来描述和表达信息内容的信息处理
方法称为主题法。
主题语言又可分为标题词、元词、叙词、关键
词。
主题检索语言的主要特征是以语词为概念标识,
标识词按字顺排列,按照文献所论述的事物来
聚集文献, 并用“参照系统”等方法辅助显示
概念之间的相互关系。
65
举例
美国国会标题表(LCSH)
美国医学标题词表(MeSH)
《中国汉语主题词表》
《中国公文主题词表》
66
《汉语主题词表》
《汉语主题词表》由中国科技信息研究所
和北京图书馆主持编辑,是我国第一部大型综
合性叙词表。《汉语主题词表》作为一部大型
综合性科技检索工具,收词范围包括自然科学、
医学、农业、工程技术等各学科领域的主要名
词术语,共收录主题词81,198条,其中正式
主题词68,823条,非正式主题词12,375条。
它是主题标引、检索和组织目录、索引的主要
工具。
67
《汉语主题词表》
《汉语主题词表》分3卷10册:第一卷(2册)
为社会科学部分,第二卷(7册)为自然科学部
分,两部分均包括字顺主表、范畴索引、词族
索引和英汉对照索引,第三卷为附表,包括世
界各国政区名称、自然地理区划名称、组织机
构名称及人物名称
68
正式叙词与非正式叙词款目结构
shou fa kai guan guan
收发开关管 [56CD]
Transmit receive tubes
D 放电器
收发管
F 放电管
宽频带开关管
窄频带开关管
S 充气管
Z 电子管*
C 反收发开关管
shou fa guan
收发管 [56CD]
Transmit-receive tubes
Y 收发开关管
69
Bianji xiaoyong xuepai
边际效用学派 05DB
Marginal utility school
D 边际学派
边际主义
F 奥地利学派
剑桥学派
洛桑学派
数理学派
S 庸俗资产阶级政治经济学
经济学派*
Z 政治经济学
C 费边社会主义
凯恩斯主义
瑞典学派
新古典学派
新剑桥学派
Bianji xuepai
边际学派 05DB
Marginal school
Y 边际效用学派
70
Xianxiangguan
显像管 [E56]
D 电视显像管
监视管
F 彩色显像管
固体显像管
黑白显像管
S 电子束管
Z 电子管
C 显示管
指示管
71
72
符号 简
称
参照项
名称
英文(全称) 作用
Y 用 用项 Use(Use) 指引相应的正式主题
词
D 代 代项 UF(Use for) 指引非正式主题词
F 分 分项 NT(Narrow
Terms)
指引所含的下位主词
S 属 属项 BT(Broad
Terms)
指引所从属的上位主
题词
C 参 参照 RT(Related
Terms
指引有语义关系的相
关词
Z 族 族项 TT(Top Terms) 指引所从属的族首词73
(1)词族索引
又称词族表或族系索引,是从
词族角度查词或选词的重要工
具。它把主表中具有族性语义
关系的全部叙词按其本质属性
逐级展开,全面显示。所有词
族按族首词(能概括一族叙词的
外延最大、等级最高的叙词)字
顺排列。这就赋予了叙词表以
结构化的特性,提高了叙词法
的系统性,满足人们全面选词
和扩检或缩检的需要。词族索
引款目结构如下
74
举例
chu deng shu xue
初等数学 *
·初等代数
·初等几何
··立体几何
· ·平面几何
·三角
··球面三角
·算术
75
(2)范畴索引
又称范畴表、分类索引。
它采用三级分类制体系,数字与字母混合的号码
标记制度,
把主表中全部叙词按学科分类排列,从而满足人
们从学科入手查词的需要,提高了叙词法的系统
性。
但范畴表只是借鉴了分类法,它不同于一般的分
类表。因为它的分类对象是词汇,范畴设立完全
根据叙词的实际情况,而不受学科体系和从属派
生关系的约束。例如:
76
举例
45 生物科学
45R 人类学
45RA 古人类学
阿特拉猿人
Y 毛里坦直立
人
北京猿人
Y 北京直立人
北京直立人
77
(3)英汉对照索引
由叙词的英文名称和汉语名组成,按英文名称字母顺
序排列。它提供从英文名查找叙词的检索途径。
Air drag
空气阻力
Y 大气阻力
Air drilling
空气钻进
Air drills
风钻
78
使用注意
《汉表》是文献检索的重要辅助工具,
使用时要注意从多角度查词,要充分利
用辅助表。当查不到与某个具体概念相
对应的专指叙词时,可以把该概念分解
为几个较一般的概念(外延相对宽的),
然后再去查表。
79
(3)叙词检索语言的使用
①明确信息检索的主题内容,选择适合该检索
内容的检索系统或工具;
②索取用于该检索工具或系统的叙词表并掌握
其使用方法;
③对信息需求进行主题分析。在分析信息主题
类型和主题结构的基础上,对具有检索意义的主题
概念进行提炼和取舍;
④查对叙词表,将析出的主题概念转化为规范
化的主题词,即叙词;
⑤按检索工具或检索系统的检索规则,形成检
索式进行检索,从而获取所需文献信息。
80
主题标引规则以及举例
总原则:正式主题词
主题标引举例
81
D:%5C%E6%88%91%E7%9A%84%E6%96%87%E6%A1%%5C%E5%8E%86%E5%B9%B4%E6%95%99%E6%A1%88%5C2006-2007%E7%AC%AC%E4%B8%80%E5%AD%A6%E6%9C%9F%E8%AF%BE%E7%A8%8B%E6%95%99%E6%A1%88%5C2005-2006%E7%AC%AC%E4%B8%80%E5%AD%A6%E6%9C%9F%E4%BF%A1%E6%81%AF%E6%A3%80%E7%B4%A2%E6%95%99%E6%A1%88%5C%E7%AC%AC%E4%BA%8C%E7%AB%A0%E7%9B%B8%E5%85%B3%E9%93%BE%E6%8E%A5%5C%E4%B8%BB%E9%A2%98%E6%A0%87%E5%BC%95%E8%A7%84%E5%88%99%EF%BC%88%E5%8F%99%E8%AF%8D%EF%BC%
D:%5C%E6%88%91%E7%9A%84%E6%96%87%E6%A1%%5C%E5%8E%86%E5%B9%B4%E6%95%99%E6%A1%88%5C2006-2007%E7%AC%AC%E4%B8%80%E5%AD%A6%E6%9C%9F%E8%AF%BE%E7%A8%8B%E6%95%99%E6%A1%88%5C2005-2006%E7%AC%AC%E4%B8%80%E5%AD%A6%E6%9C%9F%E4%BF%A1%E6%81%AF%E6%A3%80%E7%B4%A2%E6%95%99%E6%A1%88%5C%E7%AC%AC%E4%BA%8C%E7%AB%A0%E7%9B%B8%E5%85%B3%E9%93%BE%E6%8E%A5%5C%E5%88%86%E7%B1%BB%E6%B3%95%E4%B8%BB%E9%A2%98%E6%B3%95%E4%B8%BE%E4%BE%
82
举例(比较)
“信息化提升企业竞争力”
计算机应用-企业管理
物流企业核心竞争力”
物资企业-企业管理-中国
83
D:%5C%E6%88%91%E7%9A%84%E6%96%87%E6%A1%%5C%E5%8E%86%E5%B9%B4%E6%95%99%E6%A1%88%5C2006-2007%E7%AC%AC%E4%B8%80%E5%AD%A6%E6%9C%9F%E8%AF%BE%E7%A8%8B%E6%95%99%E6%A1%88%5C2005-2006%E7%AC%AC%E4%B8%80%E5%AD%A6%E6%9C%9F%E4%BF%A1%E6%81%AF%E6%A3%80%E7%B4%A2%E6%95%99%E6%A1%88%5C%E5%88%86%E7%B1%BB%E6%B3%95%E4%B8%BB%E9%A2%98%E6%B3%95%E4%B8%BE%E4%BE%
课后关注
• 主题法在网络信
息组织中的进一步
完善
84
讨 论
分类语言与主题语言的区别
基本思想
符号
检索特性
修改,增加
计算机检索
85
作业
类分如下图书(要求到一级类目即可)
1、网络信息检索原理与技术
2、英语四、六级试题
3、电子商务教程
4、网页设计新浪潮
5、安徒生童话
6、邓小平传记
7、中国百科全书
8、网络媒体概论
9、中国民族声乐教程
10、VISUAL FOXPRO 数据库开发实例
86
关键词语言
直接从题名、文摘、正文中抽取能反
映文献信息的语词——关键词。不用编制
受控制表,不进行词汇控制,不显示词间
关系,保留一个词的上、下文有助于解释
或限定其含义,从而消除一词多义对检索
的影响,并提高标引的专指度。为了增加
检索入口,并进行轮排形成字顺排序体系。
87
引文检索语言(教材)
什么是引文?
引文检索的原理?
引文检索的特点?
网络搜索引擎中应
用的典型例子?
解决的
问题
88
1、什么是引文?
引文检索语言是一种新型的信息检索语言,
它是利用文献之间的相互引证关系而建立
的一种自然语言,其标引词来自文献的主
要著录项目。
假如A在文中引用了B的文献,则称B是A
的引文,由于A引用了B的文献,所以B也
叫“被引文献”,由于是通过A引出B的,所
以A也叫“来源文献”,或者是“引证文献”。
89
2、引文思想以及原理
传统情报检索理论中
的引文分析方法认为:
一篇学术论文的重要
性和质量可以通过其
他学术论文对它引用
的数量来衡量,如果
被其他学术论文引用
得越多,那么这篇文
章就显得越重要。
90
(一)引文检索语言的产生和形成
1、1873年美国出版一种称作《谢波德引文》的“法
律案例索引”。
2、20世纪50年代,美国人E.加菲尔德对这种索引法
进行了较深入的研究,并编制了一种专利索引,证
明“引文法”的实用性和可行性。
91
SCI
3、直到1963年美国《科学引文索引》编
辑出版,报道了1961年内出版的613种重
要科学期刊发表的文献113318篇,及其
引证的1370000篇文献间的相互引证关系,
从而获得巨大成功,也使得《科学引文索
引,SCI》成为世界上最主要的检索工具
之一。
92
(二)引文检索语言的特点
.其主要检索标识为被引文献的著者姓名。著者
姓名不仅是文献的外形特征,说明某文献由某
人撰写,而且从一定意义上说也是文献的内容
特性,即著者姓名也能够说明文献的学科属性。
如某人因在某方面的成就而享誉该领域,或者
因其特殊的贡献,以其发明、创造等命名,故
出现了一些行业中的人名代学科、专业的现象,
因此,著者姓名作为一种检索标识在西方图书
信息界已较普遍。
93
(三)引文索引的组成部分
引文索引由三个来源相同的部分组成,但它们
具有不同的排列方式。
1.引文索引。列出一段时间发表文献的全部
被引文献,按被引文献的第一著者排列,其下
按时间先后列出各被引文献的出处,包括年份、
刊名、卷次、页次等,再在各条被引文献之下
依次列出引证过它的全部文献。引证款目以第
一著者姓名的字顺排列,再列引证文献的出处,
包括刊名、卷次、页次、年份等。在引证文献
和被引文献的出处部分均不列出篇名。
94
(三)引文索引的组成部分
2.来源索引。是引文索引最基本的部分,因为从另两部
分初步查到的线索都要到此部分从篇名上加以核实。这
一特点使其类似传统检索工具中正文部分的作用。来源
索引按引证著者姓名的字顺排,每个款目可包括姓名、
文种代号、篇名、刊名、卷次、期次、页号和发表年份。
此外,还列出参考文献的数量和第一著者的联系地址。
3.轮排主题索引。按照文献篇名的主题词轮排。
95
基本格式
被引文献的著者
被引文献的刊名 ,卷,期
引用文献的著者
引用文献的刊名,卷,期
96
举例:
张三
信息检索 <计算机应用> 2005,3,41
王五 <情报检索> 2006,3
王六 <大学图书馆学报>
张四
基于语义的信息组织方式〈 情报技术
〉2003,4,89
李军 。。。。
97
①REICHENSPURNER,H
②1996 ANN THORAC SURG 62 1467
③RIISE GC ④EUR RESP J14 1123 99
③WAGNER FM ④ANN THORAC68
2033 99
②1999 J THORAC CARDIOVASC 1 11
③BARRACLO,BH ④MED J AUST
172 33 00 ⑤E
98
《《SCISCI》》引文索引的著录格式引文索引的著录格式 说明说明
说明:①被引文献的作者;②被引文献
的出版年、发表的期刊(缩写刊名)、卷、
页码;③引用文献的作者;④引用文献
发表的期刊(缩写刊名)、卷、页码、出
版年;⑤引用文献类型代码:B书评、
C更正或勘误、D会议论文、E社论、I
传记、K编年表、L通讯或快报、M会议
摘要、N技术札记、R评论和专题目录、
W对计算机软硬件或数据库等的评论,
无代码者为期刊论文或科技报告。
99
引文原理在搜索引擎中的应用
PageRank是Google用来测度网页“重要性
”的方法。Google利用PageRank来调整搜
索结果以使得那些更为“重要的”网页在用
户的搜索结果页中的排名获得相应的提升。
PageRank出现以前,网络搜索引擎的排
序算法大多是基于词频统计的,词权的计
算一般把该词在HTML网页中出现的位置
也考虑进来。
100
PageRank算法把引文分析思想借鉴到确定网络
文档重要性的计算中来,利用网络自身的超链
接结构给所有网页确定一个标志网页重要性的
等级数。即网页的重要性可以通过其他网页对
其超链接的数量来衡量。
当从网页A链接到网页B时,就认为“网页A投
了网页B一票”,从而增加了网页B的重要性。
直观来讲,如果网页A被1000个网页链接,而
网页B仅被10个网页链接,那么网页A显然就要
比网页B重要。
101
假设网页A被网页T1, … , Tn所指向;
PR(A)表示网页A的PageRank值;
•PR(Ti){i∈[1,n]}表示网页Ti的PageRank值;
•C(Ti){i∈[1,n]}表示网页Ti的导出链接的数目。
•d是取值在[0,1]之间的阻尼因子,是为了减少网页T1,
… , Tn对网页A的PageRank的贡献,常令d=。
由公式(2)可以看出,影响网页A的PageRank值的因
素有3个:
网页A的导入链接的数量;
网页Ti{i∈[1,n]}的PageRank值;
网页Ti{i∈[1,n]}的导出链接的数量C(Ti){i∈[1,n]}。
102
检索语言的发展趋势-自然语言
初步讨论:自然语言检索的优点、缺点
(相对与我们所说的主题语言)
103
作业(课题准备)
选择一个你所感兴趣的论题
确定你的论题的分类号
写出你的论题的主题词(关键词)
例如:“信息化提升企业竞争力”
计算机应用-企业管理
“ 物流企业核心竞争力”
物资企业-企业管理-中国
104
举例
“防火墙与网络安全”
计算机网络-安全技术
“无线网络的安全” TN92
无线电通信 -- 通信网 -- 安全技术
105
思 考
•如何将传统检索
语言应用到网络
信息组织中去?
106
四、信息的序化以及检索工具的形成
信息组织问题我们已
经完成了哪些方面的
讨论?
107
1、检索工具的形成
将文献描述体和文献标识按照一定的方式
组织起来,就形成了文献的检索工具。
传统信息组织有哪些
著录项目和标识?
108
工具的组成
文献库(描述体) 文献索引(某种标识)
有序排列 检索途径
检索工具
109
传统工具与计算机系统的不同名称
文献库 文献库索
引
文献描述体
手工工具 正文 辅助索引 文摘、题录
计算机系
统
主文档
(顺排
挡)
倒排档 文摘、题录、
记录
110
检索工具的类型和特点
文献检索工具的类型及特
点、结构。
事实与数据检索工具类型
及结构。
解决的问题
111
如何排列著录项目(排检法)
排列的根据
各种著录项目的特征
112
排检法
• 形序排检法 部首法,540部(康熙字典)
• 214部(新辞海)
字顺法 笔画笔形法:《中国人名大辞典》
•
• 韵部排检法:《辞通》
• 音序排检法 注音字母法:《新华字典》(1956)
• 汉语拼音音序法(IUV)<百科全书>
类序法 学科分类法
• 主题法:《汉语主题词表》《EI》《Medline》
• 时序法:《中国历史纪年表》《中国大事记》
• 地序法:《中国地方志纵录》《历代地理沿革表》
113
2、检索途径
• 内容特征的检索途径:分类
• 主题
• 外表特征的检索途径:著者
• 题名
• 序号
• 引文
• 其他途径:时间、国家、出版类型,地区
114
分类途径
分类途径是指按照文献资料所属学科
(专业)类别进行检索的途径,它所依据的
是检索工具中的分类索引。
分类途径检索文献关键在于正确理解检
索工具的分类表,将待查项目划分到相应的
类目中去。一些检索工具如《中文科技资料
目录》是按分类编排的,可以按照分类进行
查找。
115
主题途径
主题途径是指通过文献资料的内容主题
进行检索的途径,它依据的是各种主题索引
或关键词索引,检索者只要根据项目确定检
索词(主题词或关键词),便可以实施检索。
主题途径检索文献关键在于分析项目、
提炼主题概念,运用词语来表达主题概念。
主题途径是一种主要的检索途径。
116
著者途径
著者途径是指根据已知文献著者来查找
文献的途径,它依据的是著者索引,包括个
人著者索引和机关团体索引。
117
题名途径
按照文献的书名、篇名、刊名等来形成检索途径
引文途径
按照引用与被应用的关系,提供的检索途径。
按照文章后面所提供的参考文献来检索。
118
思考与关注
• 传统信息组织的方法
是否会对网络信息组
织有借鉴之处?
119
第二节 网络信息组织
• 一、网络信息组织认识
• 二、DC描述法
• 三、MARC描述法
• 四、传统检索语言在网络信息组织中的应
用讨论。
120
一、网络信息组织认识
1、网络信息组织的内容
网络信息组织是对网络中的节点(服
务器)以及节点中的各种格式的文件和数
据库的各个信息单元(如数据项)所进行
的组织 。
特定网络服务器
中的具体信息
对整个网络信息(网站
集合)的组织
121
2、网络信息组织的过程
网络信息资源组织是指采用一定的方法与
模式,按照一定的原则将因特网上某一领域大
量的、分散的、杂乱无章的、良莠不齐的信息
通过搜索、评价、筛选、分析、标引、著录、
排序、存贮等手段加工处理,使其形成一个有
序的,便于用户获取与利用的信息系统的过程。
122
3、组织的目的
建立有序的信息空间,便于
用户获取与利用信息
有利于用户理解、判断与吸
收信息获得知识,
123
4、网络信息资源的组织形式
文件组织形式
主题树组织形式
数据库
超媒体
搜索引擎
书目控制方式
124
4、网络信息资源的组织形式
1 文件组织方式:以文件为单位共享和传
输信息。以文件方式组织网络信息资源简单
方便,但随着网络信息资源利用的不断普及
和信息量的不断增多,以文件为单位共享和
传输信息会使网络负载越来越大;而且当信
息结构较为复杂时,文件系统难以实现有效
的控制和管理。因此,文件方式只能是组织
网络信息资源的辅助形式。
125
2 主题树组织方式
指将所有获得的信息资源按照某种事先确定
的体系结构,分门别类地加以组织,用户通
过浏览的方式逐层进行选择,层层遍历,直
到找到所需要的信息资源
如:搜索引擎的分类目录检索方式
126
3 数据库组织方式
指将所有获得的信息资源按照固定的记录格
式存储,用于网络信息资源的组织。
数据库记录:文档标题、摘要、关键词URL、
文件大小、语种、词的出现频率以及位置。
127
4 超媒体组织方式
就是将超文本与多媒体技术结合起来。
它将文字、表格、声音、图像、视频等多媒
体信息以超文本方式组织起来,使人们可以
通过高度链接的网络结构在各种信息库自由
航行,找到所需要的信息。这种方式符合人
们思维联想和跳跃的习惯,加上通过浏览的
方式搜寻所需信息,避免了检索语言的复杂
性。但当超媒体网络过于庞大时,就难以避
免地会造成用户“迷航”的现象。
128
5、搜索引擎方式
搜索引擎通过大量的网络资源的搜集,
利用相关的数据库,提供给用户快速查找网
络上相关资源的工具。
如:搜索引擎的关键词搜索方式。
129
6、书目控制方式
图书情报机构的相关工作者利用传统的
信息组织方式,将相关的信息内容通过互联
网提供给用户进行使用。
比如:OPAC
130
5、网络信息的收集
一)人工收集
二)自动收集
131
二、描述:MARC (P27)
MARC是用于描述、存储、交换、控制和检索的一套机
读书目数据标准。
它开始主要针对印刷型书本的描述,随着856字段的
引入,USMARC也逐步被用来对电子资源进行描述。
它的数据结构严密,能很好地描述电子信息,尤其是
在检索点的选取原则上,能确保其数据元素组成具有
统一性,有利于资源交换。
此外,这种经过编目人员过滤、筛选过的信息,确保
了数据描述的可靠性、完全性和精确性 。
132
133
134
MARC的组成
135
856 电子资源定位与检索
“电子位置和存取”(Electronic Location
and Access)。856字段的内容有:存取方式
(如电子函件、FTP、远程登录、Gopher或
HTTP)、主机名称、路径、文档名称或其它可
以协助用户通过网络获取电子信息的方法等。
1993年1月此议案经修正获得通过,目前已成
为美国机读编目格式(USMARC)中的正式字段。
136
856 电子资源定位与检索
“电子位置和存取”(Electronic Location
and Access)。856字段的内容有:存取方式
(如电子函件、FTP、远程登录、Gopher或
HTTP)、主机名称、路径、文档名称或其它可
以协助用户通过网络获取电子信息的方法等。
1993年1月此议案经修正获得通过,目前已成
为美国机读编目格式(USMARC)中的正式字段。
137
856 电子资源定位与检索
字段
号
指示符 子字
段 定 义
必备性 重复性
1 2
856 电子资源定位与
检索
有则必备 可
# 无信息提供
0 电子邮件
1 文件传输协议
2 远程登录
3 拨号入网
4 超文本传输协议
7 检索方法在$y说
明
138
856 字子段
$a 主机名称 有则必备 可
$b 检索号码 有则必备 可
$c 文件压缩信息 有则必备 可
$c 路径 有则必备 可
$e 最近一次查询与检索
的日期与时间
有则必备 否
$f 电子文件名称 有则必备 可
$g 统一资源名称 有则必备 可
$h (信息)请求处理者 有则必备 否
$I 指令 自选 可
$j 每秒传输的二进制位(BPS) 有则必备 否
$k 口令 有则必备 否
$l 登录 有则必备 否
$m 协助检索的联系信息 自选 可
$n 子字段$a指定的主机
地址名称
有则必备 否
$o 操作系统 有则必备 否
$p 端口 有则必备 否
$q 电子格式类型 有则必备 否139
856 字子段
$r 设置 有则必备 否
$s 文件大小 自选 可
$t 终端仿真 有则必备 可
$u 统一资源定位地址
(URL地址)
有则必备 否
$v 可检索时间 有则必备 可
$w 记录控制号 自选 可
$x 非公用附注 自选 可
$y 检索方法 有则必备 否
$z 公用附注 自选 可
140
四、数据的描述标准——元数据
1、概念
Data about data关于数据的数据.
提供关于信息资源或数据的一种结构化的数据,
是对信息资源的结构化的描述。
其作用为:描述信息资源或数据本身的特征和
属性,规定数字化信息的组织,具有定位、发
现、证明、评估,选择等功能。
141
2、Metadata的应用目的
1)确认和检索(Discovery andentification),主要
致力于如何帮助人们检索和确认所需要的资源,数据
元素往往限于作者、标题、主题、位置等简单信息,
Dublin Core是其典型代表。
(2)著录描述(Cataloging),用于对数据单元进
行详细、全面的著录描述,数据元素囊括内容、载体、
位置与获取方式、制作与利用方法、甚至相关数据单
元方面等,数据元素数量往往较多,MARC、GILS和
FGDC/CSDGM是这类Metadata的典型代表。
142
2、Metadata的应用目的
(3)资源管理(Resource Administration),支持资
源的存储和使用管理,数据元素除比较全面的著录描
述信息外,还往往包括权利管理(Rights/Privacy
Management)、电子签名(Digital Signature)、资
源评鉴(Seal of Approval/Rating)、使用管理
(Access Management)、支付审计(Payment and
Accounting)等方面的信息。
(4)资源保护与长期保存(Preservation and
Archiving),支持对资源进行长期保存,数据元素除
对资源进行描述和确认外,往往包括详细的格式信息、
制作信息、保护条件、转换方式(Migration
Methods)、保存责任等内容。
143
3、Metadata格式在各个不同领
域的表现
网络资源:Dublin Core、CDF、Web Collections
文献资料:MARC(with 856 Field),Dublic Core
博物馆与艺术作品:CIMI、CDWA、VRA Core
政府信息:GILS
地理空间信息:FGDC/CSDGM
档案库与资源集合:EAD
技术报告:RFC 1807
连续图像:MPEG-7
144
4、DC Dublin Core(Dublin Metedate Core
Elemnet) 都柏林核心元数据元素集
1995年由美国OCLC和国家超级计算机中心
联合52家图书馆界和电脑网络界的专家共同
研究产生。
它是信息资源描述的标准,比较全面的表述
了信息资源的主要特征。
定义一系列较少但又能够被广泛理解和接受
的元数据元素集,而且尽可能的简单,一方面
使著者和信息出版者能够描述他们的信息,
增加信息传输中的互用性,另一方面,用户对
这些简单的核心元素的理解可以让他们更有
效地查询信息,促进信息资源的共享。
145
教材:P57
DC 15个元素
146
Dc15个元素集
1. 名称(Title)
标识:Title
定义:分配给资源的名称。
解释:使资源为众所周知的有代表性的正规名称。
2. 创作、制作者(Creator)
标识:Creator
定义:制作资源内容的主要责任实体。
解释:创作、制作者包括个人、组织或机构。
应该是用于标识创作、制作者实体的具有代表性的名
称。
147
Dc15个元素集
3. 主题及关键词(Subject and Keywords)
标识:Subject定义:资源内容的主题。
解释:用以描述资源主要内容的关键词语或分类号码
表示的有代表性的主题词。
4. 说明(Description)
标识:Description
定义:有关资源内容的说明。
解释:该说明可以包括但并不限于:摘要,内容目次,
内容图示或内容的文字说明。
148
Dc15个元素集
5. 出版者(Publisher)
标识:Publisher
定义:制作资源有重要作用的责任实体。
解释:如包括个人、组织或机构的出版者。
应是用于标识出版者实体的有代表性的名称。
6. 发行者(Contributor)
标识:Contributor
定义:对资源内容负有发行责任的实体。
解释:发行者包括个人、组织或机构。
应是用于标识发行者实体的有代表性的名称。
149
Dc15个元素集
7. 时间(Date)
标识:Date
定义:与资源使用期限相关的日期、时间。
解释:资源产生或有效使用的日期、时间。推荐使用
ISO 8601[W3CDFT]定义的编码形式,跟随的是
YYYY-MM-DD形式。
8. 类型(Type)
标识:Type
定义:资源内容方面的特征或体裁。
解释:类型包括种类、功能、体裁或作品集成级别等
描述性术语。推荐从可控词表(如Dublin Core
Types[DCT1])中选用有关术语。对于资源物理或数
字化方面表示,采用"格式"项描述。 150
Dc15个元素集
9. 格式(Format)
标识:Format
定义:资源物理或数字化的特有表示。
解释:格式可包括媒体类型或资源容量。也可用于限定资
源显示或操作所需的软件、硬件或其它设备,如容量包括
数据所占空间和存在期间。
151
10. 标识(Identifier)
标识:Identifier
定义:依据有关规定分配给资源的标识性信息。
解释:推荐使用依据格式化标识系统规定的字符或号
码标识资源。如正规标识系统包括统一资源标识
(URI),统一资源地址(URL)、数字对象标识
(DOI)以及国际标准书号(ISBN)、国际标准刊号
(ISSN)等。
152
Dc15个元素集
11. 来源(Source)
标识:Source
定义:可获取现存资源的有关信息。
解释:可从原资源整体或部分获得现有资源。建议使
用正规标识系统确定的字符或号码标引资源来源信息。
12. 语言(Language)
标识:Language
定义:资源知识内容使用的语种。
解释:推荐使用由RFC1766定义的语种代码,它由两
位字符(源自ISO639)组成。随后可选用两字符的
国家代码(源自ISO 3166)。如"en"表示英语,"fr"
表示法语
153
Dc15个元素集
13. 相关资源(Relation)
标识:Relation
定义:对相关资源的参照。
解释:推荐用依据正规标识系统确定的字符或号
码标引资源参照信息。
14. 范围(Coverage)
标识:Coverage
定义:资源内容的领域或范围。
解释:范围包括空间定位(地名或地理座标),
时代(年代、日期或日期范围)或权限范围。
154
Dc15个元素集
15. 版权(Rights)
标识:Rights
定义:持有或拥有该资源权力的信息。
解释:版权项包括资源版权管理的说明。
版权信息通常包含智力知识内容所有权
(IPR)、著作权和各种拥有权。如果缺
少版权项,就意味着不考虑有关资源的上
述版权和其它权力。
155
Dc15个元素集包括三个方面
网络信息资源内容的元素:
Title ,subject and keywords,Descriptions,
Source,language,relation,coverage
关于网络信息资源知识产权的元素:
Author or Creator,Publisher,Contributor,Rrights
关于网络信息资源外部属性的元素:
Date,Type,Format,,Identifer。
156
元数据的创建
157
元数据的创建
1、可以由信息创建者在创建信息的同时,利用HTML标记语言嵌入在信息
中,
<html >
<head>
<meta name=“record dc” content=“zs0001227”>
<title>
</title>
</head>
< body>
<meta title=“” content=“欢迎光临兰州商学院主页”>
……
< /body>
</html >
158
DC为自己设置了两种HTML语言的标签
“NAME”和“CONTENT”,同时将每个单元都
加了著录标识,著录时既可以使用HTML语言
为输出结果的网络产品形式,也保留了自己的
著录标识和系统
159
META中的著录
在META标签中,DC元素名的第一个字母要大写,但
对元素值的大小写没有要求,也没有限制同时出现的
META元素的个数与顺序。同一个DC元素可以出现多
次,每个DC元素都是可选的。
<META NAME = ”” CONTENT = ”世纪前线
”>
<META NAME = “” CONTENT = “广州市
电信局数据通信分局”>
<META NAME = “” CONTENT ="互联网
网站“”>
<META NAME = “” CONTENT =
“世纪前线[计算机文档]/广州市电信局数据通信
分局
160
元数据生成工具DCDOT
161
162
163
164
165
DC与XML/RDF
虽然将DC元数据嵌入到HTML文件中使用方便,句法
简单,但考虑到HTML本身的结构性不强,扩展能力
和描述能力较差,以后的应用方向应该是与XML相关,
基于RDF(Resource Description Framework)的形
式。XML在结构化、扩展性、内容描述等方面都要大
大优于HTML,是Internet发展的一个重要方向。DC
元数据可以很好地嵌入到基于XML的RDF框架中,适
应将来技术发展的需要,也为不同元数据体系之间提
供更好的互操作性。
在XML中,置标的语法是通过文件类型定义
DTD(Document Type Definition)来描述的。
166
一个RDF文件包含多个资源描述,而一
个资源描述是由多个语句构成,一个
语句是由资源、属性类型、属性值构
成的三元体,表示资源具有的一个属
性。资源描述中的语句可以对应于自
然语言的语句,资源对应于自然语言
中的主语,属性类型对应于谓语,属
性值对应于宾语。
属性类型P
资源R 属性值V
属性值V是资源R的属性类型P的值
RDF采用XML作为交换和处理元数据的
通用语法结构体系
167
RDF描述
属性类型
P
168
169
170
发展趋势:
网络新的组织技术
171
国内知名的网站
172
173
174
五、传统检索语言在网络信息组织中
的应用讨论(P62)
网络资源的分类有什
么特点?
175
网络信息分类中存在的问题
分类体系不严密。一些搜索引擎在划分类目时,
并未真正从知识领域、知识体系的角度来分类,
而仅仅从商业角度考虑,因而使得分类体系漏
掉了许多重要的知识领域,体系的系统性和完
整性受到很大的影响。如雅虎中国 (Yahoo!)
的基本大类中没有设置工业类、农业类等基础
性类目,而把它们作为二级类目、三级类目,
或是分散到其它类目
176
问题分析
类目之间缺乏逻辑性,隶属关系混乱。部分中
文搜索引擎分类体系的类目之间缺乏逻辑性,
类目归属关系不尽合理。表现在某些上、下位
类之间隶属关系模糊,缺乏合理的知识联系。
如“东方网景”把教育列于自然科学类下,“网易
”在文学类下列出入文历史和宗教等 。
177
问题分析
类目名称不规范。主要表现为类名不统一,类
名用语不准确,类名不能确切概括类目的内涵。
如搜狐称“计算机与互联网”,中文雅虎称“电脑
与因特网”,网易中热门查询的“另类”等。
类目划分标准模糊。由于类目设置采用多元标
准划分,一些类下往往使用两个或多个分类标
准,有的甚至在同一层次上列出不同等级的类
目,致使同位类设置显得混乱。
178
建议与改进:
分类—主题”综合的方
式
179
理想的模式
●建立一个结构简洁的信息分类组织体系,它应涵盖各
知识领域,结构清晰、层次简明,能满足网上信息组织
的需要。类目划分层次以三四级为宜,增强系统性。
●建立一个智能化的控制词表,实施对作者语言与用户
语言的控制与转换。它应该具有自学习功能,能不断
调整和更新标引语言。
●把建立分类体系与控制分类体系相联系,即将标引语言
纳入分类体系,这样可以在任何类下进行语词检索。
以上信息组织模式是把知识的自然语言表述与查询结
合为一体,把信息的分类组织与语词组织融为一体,
从而满足网上信息的组织与查询的需要。
180
181
『Open Directory project』是网景公司所主持
的一项大型公共网页目录。 由全世界各地的
义务编辑人员来审核挑选网页,并依照网页的
性质及内容来分门别类。Google 是用这分类
架构来设计 Google 的网页目录。
182
183
分类法在网络信息组织中的应用
(YAHOO)
分类搜索
184
SOHU YAHOO
分类数目 18 14
分类
比较
相同分类 教 育
社会与文化
社会科学
新闻与媒体
不同的分类 工商经济 商业与经济
科学与技术 科 学
地 区 区 域
计算机与互联网 电脑与因特网
综合参考 参考资料
卫生与健康 健康与医药
艺 术 艺术与人文
娱乐休闲 休闲与运动
娱 乐
YAHOO特有 政府与政治 185
百度:
娱乐休闲
美女 音乐 游戏 小说 图片 电影 动漫 幽默笑话 FLASH 论
坛 旅游 时尚 桌面 体育 星座 交友 聊天 BT下载
两性 人体艺术 明星档案
网络电视 NBA
电脑网络
黑客 硬件 邮箱 软件下载 杀毒 教程 编程 QQ工具
军事 主页 新闻 百强网站 搜索引擎 博客
生活服务
健康 儿童 手机 美食
汽车 证券 房产 彩票 减肥 婚恋 宠物 交通 银行 购物 地方
服务 政府 贺卡 美容
女性 实用查询
文化科学
摄影 艺术 书法 美术 设计 心理 哲学 历史 地理 生物 社会
环保 经济 法律 科普
教育就业
高考 考研 英语 考试 大学
论文 校园 教师 人才
186
187
休闲娱乐 影视 音乐 图片 明星 游戏 铃声 收藏 星座
动漫 笑话 写真 聊天室 超级女声
生活服务 购物 饮食 交友 彩票 宠物 地图 礼品 家居
家政 房产 生活常识 成人用品
教育培训 高考 考研 招聘 留学 培训 英语 图书馆
MBA 成人教育 雅思 幼儿教育
旅游交通 景点 机票 火车票 宾馆酒店 旅游常识 自
助游 旅游线路 旅行社 公园 自然风光
电脑科技 硬件 软件 互联网 电子商务 手机 BT下载
网游 数码产品 多媒体
健康与医药 保健 减肥 医院 健身 药品 心理 流行病
艾滋 儿童健康 禽流感
188
189
190
191
192
第四节 信息检索过程以及策略
一、信息检索的过程
二、信息检索的方法
193
教材(P65)
1、信息检索的一般
过程是?在每个过程
应该注意什么问题?
2、如何正确使用某
个检索工具?
3、通过检索工具获
得的主要是什么信息
?
请解决如下
问题
194
信息检索方法
常用法: 利用检索工具的方法
顺查法、倒查法、抽查法
追溯法:利用文献后面的参考文献查找
循环法:两者交替使用
195
实 习
1、检索语言
2、元数据的描述
3、了解某图书的MARC著录方式。
196