在浏览和检索界面设计中 利用知识组织系统 (KOS)

Preview:

DESCRIPTION

在浏览和检索界面设计中 利用知识组织系统 (KOS). 一 . 从第一代到第四代界面 二 . 在实际工作中利用 KOS 原理和方法. 曾蕾 2006 年数字图书馆前沿问题高级研讨班 清华大学,北京. 什么是知识组织系统. “ 知识组织系统” (knowledge organization systems, 简称 KOS) 是我们用来定义并组织表述真实世界物体的术语和符号的系统, 在具体应用中我们往往将它们泛指为 语义工具 。 大型数据库中使用的众多的叙词表 检索引擎内部使用的分类表、自动扩检词表 网站导航浏览用的等级体系结构 - PowerPoint PPT Presentation

Citation preview

在浏览和检索界面设计中利用知识组织系统 (KOS)

曾蕾 2006 年数字图书馆前沿问题高级研讨班

清华大学,北京

一 . 从第一代到第四代界面二 . 在实际工作中利用KOS 原理和方法

• “知识组织系统” (knowledge organization systems, 简称 KOS) 是我们用来定义并组织表述真实世界物体的术语和符号的系统,

• 在具体应用中我们往往将它们泛指为语义工具。– 大型数据库中使用的众多的叙词表 – 检索引擎内部使用的分类表、自动扩检词表– 网站导航浏览用的等级体系结构– 新一代万维网—语义网的实用分类系统(又称本体)– 。。。

什么是知识组织系统

知识组织系统 (KOS) 一览St

r on g

l y-st

r uc t

u red

强结构

词单term lists

Synonym Rings 同义词环Authority Files 权威文档 Glossaries/Dictionaries 词汇 / 字典 Gazetteers 地名表

Natural language 自然语言 Controlled language 受控语言

Wea

kly-s

truct

ured

弱结构

分类与大致归类 Classification &Categorization: Subject Headings 标题表

Classification schemes ( 图书 ) 分类法 Taxonomies 知识分类表 Categorization schemes 大致归类类表

关联组织 Relationship Groups

Ontologies 实用分类法 Semantic networks 语义网络 Concept maps 概念地图Thesauri 叙词表

Pick lists 可选词单

KOS 的基本原理和方法 不论 KOS 是以什么形式出现,其基本方法都是相同的,不同的是采用这些方法的程度和范围• 词义消歧

即对同形异义、一词多义、词义含糊的词的控制• 对同义词和近义词的控制 • 对概念之间关系进行显示

– 等级关系 + 其他相关关系• 表达概念之间关系以及概念的属性特征

第一代检索界面: 查寻1996 年 AltaVista 网站

1997 年 12 月 NorthernLight

一 . 从第一代到第四代界面

第二代: 查寻 + 浏览

1996 年 10 月的雅虎最早采用分类的方法提供浏览服务

1997 年 1 月Yahoo!

1998 年 12 月 AltaVista

到 98 年几乎所有检索网站都加上了分类浏览

很多由图书馆建立的主题指南和虚拟图书馆都采用分类浏览的方式

2006 年 7 月访问

1 )分面的思路– 物体、部件、过程、时间、空间、体裁、载体 …

2 )多维的检索、浏览、开拓– 同时提供多种浏览和开拓的可能途径,随机应用,不是给用户只有一个框架、一条道路

3 )以作品、物件为核心– 让部门划分、体裁划分、语种划分退居二线,不要打扰读者,

FRBR 的原则的体现4 )显示信息,而不是显示数据结构

– 不要将图书馆内部工作中使用的数据格式和字段强加给用户– 结构化的数据是在后台支持检索用的,应让他们在用户面前消失

第三代: 分面、 多维

http://viewfinder.english-heritage.org.uk/search/advanced.asp

ViewFinder, image resource for England's history例 1 :英国文化遗产数字图书馆的图像资源查找

物体 组成部分

时间

空间

大类

多种途径充分利用元数据记录中的内容

例 2: 纽约公共图书馆数字画廊

时间主题

大类

有关此物件的基本信息

在有限的第一空间内,从多种角度充分展示典藏的内容

例 3 :史密森尼博物院 “有线历史” History Wired: A few of our favorite things.” http://historywired.si.edu/

例 4 : Perseus 人文科学数字图书馆 9 million pages/monthA Digital Library for the Humanities http://www.perseus.tufts.edu/

文献类型

电子馆藏包括 : 经典 · 古代写在纸莎草纸上的文稿 · 文艺复新 · 伦敦 · 加州 · 上中西部 · 莎士比亚 · 波义耳作品· Tufts历史

语言统计

地点

年代

从元数据中挖掘信息,一条数据多种读法,多种探索开发的方向

第 4 代:加入属性特征• 事物、概念不仅有分类,还有属性特征

– 概念类型 – 概念关系类型– 概念的属性特征

例 1 :文化遗产术语的分面查找途径 FACET 语义提问扩充和匹配

FACET - Faceted Access to Cultural hEritage Terminology http://www.comp.glam.ac.uk/~FACET/webdemo/

不同颜色代表不同类型的概念:物体、材料、属性、时间、空间等等

二 . 在实际工作中利用 KOS 原理和方法1. 在分面结构中采用可选词单 (pick list)2. 从分众分类法 (folksonomy) 中采集词汇3. 在检索引擎中引进同义词环 (synonym

rings) 方法4. 等级结构大有用武之地5. 用词表 (thesaurus) 帮助用户建立检索提问、控制检索范围6. 概念地图 (concept map) 的使用7. 实用分类系统 (ontology) 与实际知识信息库的有机结合8. 多种 KOS 原理和方法的综合利用

可选词单 (pick list)

1. 在分面结构中采用可选词单 (pick list)

2. 从分众分类法 (folksonomy) 中采集词汇

分众分类法( Folksonomy )是由Folks 和 Taxonomy 组合而来, 指“群众”自发性定义的平面非等级标签分类。有“分众分类法” ,“通俗分类法” ,“ 大众分类法” , “民众分类法”等不同翻译 特点:•这种分类法是由个人自发性定义。 •标签分类是公开共享的,可以被所有人看到。 •这种分类法是由用户群体定义的频率来决定。

Source: 维基百科

Source: Bearman and Trant, 2005

del.icio.us/ 书签分享网站

益处:收集到相关性很高的词,从这些词入口可以找到更多的相关网站问题:同义词、近义词、词形规范等,例如 global warming 和 global-warming 两者带出的内容不一样,只用一个词,可能漏掉一些好的内容。

http://tags.library.upenn.edu/

宾西法尼亚大学图书馆 PennTags 书签活动

3. 在检索引擎中引进同义词环 (synonym rings) 方法• 通常与检索引擎一起使用,帮助扩充检索式• 用户只要使用了同义词环中的任何一个词,就可以找到这一类的资源。

– 打“电话“ -- “电话”、”手机”、“传呼”、“大哥大”、“小灵通”– 喝“咖啡” -- “滴滤咖啡”、“美式咖啡”、“浓缩咖啡”、“拿铁咖啡”、“卡布奇诺”、“摩卡咖啡”等– 看“星星” -- “恒星”、“行星”、“星座”、“星云”、“银河”等– 交叉概念,如“医药”和“药品”,“树林”和“森林 – 还有很多简写词,外语名称,专用词等

• 从原理上讲,同义词环中所包含的语词是从检索目的来看等价的词 .

astronaut

spaceman cosmonaut

spationaut taikonaut

同义词环与众不同之处• 不强行要求环中某一个词被当作“正式词”,在同义词环中每一个词都可以是正式词。• 同义词环可以一组一组词逐步建立,可以只给整个词汇中的 10% 或 20% 的词建立同义词环,视需要而定,量力而行,分期行动。• 可随著检索环境的变化和网站内容的变化而随时增加新的同义词环。• 投资小、效益高、实用性强。

层层分类的等级体系,每个图像带有元数据等级结构与生动的表现形式的结合

4. 等级结构大有用武之地

http://www.renardus.org/Renardus 采用杜威分类法的体系结构将北欧各大主题导航站联结起来

采用 KOS 分类体系以联合使用分散的主题导航站

匹配结果可能有不同程度,完全匹配、下位类匹配、小部分匹配,等等

Source : ADLIB English Heritage Illustrated Thesaurus

5. 用词表 (thesaurus) 帮助用户建立检索提问、控制检索范围英国文化遗产图示叙词表

亚历山大数字图书馆电子地名辞典– 在查询界面提供叙词表以便控制检索范围

人机认知研究所的软件下载网页 http://cmap.ihmc.us/

6. 概念地图的使用概念及其关系

2006 年第 2届概念地图国际会议的网页

UMLS Semantic Network

135 Semantic Types (link) and 54 Semantic Relation Types (link)

The Gene Ontology -- http://www.geneontology.org/

基因实用分类法 The Gene Ontology

种类

7. 实用分类系统 (ontology) 与实际知识信息库的有机结合

8. 多种 KOS 原理和方法的综合利用实例

一维 二维 三维 +

Term Lists 词单

Classification Categorization分类、归类

Thesauri 叙词表 concept maps 概念地图 semantic networks 语义网络 ontologies 实用分类法

Relationship Groups 相关组织

KOS 结构化模型谱

KOS-- 〉 NKOS-- 〉 Semantic Tools向强结构的语义系统发展 网络下的 KOS (NKOS) 和新一代的语义工具的特点:

• 吸取不同知识组织系统的特长,集中起来优化使用 • 等级结构与元数据式的“特征”的结合

– Taxonomy + metadata (or attribute-value pairs)

– Ontology for knowledge based systems• KOS 、元数据与专用置标语言 ( domain-specific

markup languages )的结合使用 • 多个知识组织系统结构在学习科学概念中的结合使用

(e.g., ADEPT KB)• 对计算机可理解性的强调 – -多种编码 (encoding) 系统的应用• 可视化 (visualization) 与传统形式的结合使用

•知识组织系统 (KOS) 在标引、浏览、检索中的作用是不容忽视的•多种 KOS 原理可以结合使用,提高检索效率•应该在更多过程中考虑自动处理•网络环境下的 KOS(NKOS)正在从机器识别走向机器理解,所以 KOS 的编码 (encoding)已经成为 KOS 的一个不可忽略的部分•在我们的网络时代迈向下一代互联网 -- 语义网( Semantic Web )的进程中, KOS 的发展和应用再一次走向高潮

总结

Recommended