25
Internet Kaynak Keşfi: Bir Dublin Core Üstveri Editörü ve Arama Makinası Baha Olgun Hayri Sever Hacettepe Üniversitesi Bilgisayar Mühendisliği Bölümü DPT KMBGS Araştırma Birimi http://www.cs.hun.edu.tr/~km

Internet Kaynak Keşfi: Bir Dublin Core Üstveri Editörü ve Arama Makinası Baha Olgun Hayri Sever

  • Upload
    cheryl

  • View
    44

  • Download
    4

Embed Size (px)

DESCRIPTION

Internet Kaynak Keşfi: Bir Dublin Core Üstveri Editörü ve Arama Makinası Baha Olgun Hayri Sever Hacettepe Üniversitesi Bilgisayar Mühendisliği Bölümü DPT KMBGS Araştırma Birimi http://www.cs.hun.edu.tr/~km. Genel Bakış. DPT tarafından desteklenen 97K121330 nolu KMBGS Projesi, - PowerPoint PPT Presentation

Citation preview

Page 1: Internet Kaynak Keşfi:  Bir Dublin Core Üstveri Editörü ve  Arama Makinası Baha Olgun Hayri Sever

Internet Kaynak Keşfi: Bir Dublin Core Üstveri Editörü ve

Arama Makinası

Baha OlgunHayri Sever

Hacettepe ÜniversitesiBilgisayar Mühendisliği BölümüDPT KMBGS Araştırma Birimi

http://www.cs.hun.edu.tr/~km

Page 2: Internet Kaynak Keşfi:  Bir Dublin Core Üstveri Editörü ve  Arama Makinası Baha Olgun Hayri Sever

DPT tarafından desteklenen 97K121330 nolu KMBGS Projesi,

Türkçe belgeleri

• saklayan,

• dizinleyen ve

• sorgulamaya olanak veren

bir Boolean bilgi erişim sisteminin, UNIX ortamında MOTIF ile gerçekleştirimine dayanmaktadır.

KMBGS Araştırma Birimi, Internet kaynaklarının gösterimini ve taranmasını süreç içinde projenin amacına dahil etmiştir.

Genel Bakış

Page 3: Internet Kaynak Keşfi:  Bir Dublin Core Üstveri Editörü ve  Arama Makinası Baha Olgun Hayri Sever

Web üzerinde üç yüz milyon adreslenebilir nesne vardır (Part I of WWW-7 Tutorial Track, 1998, http://www.w3.org).

Cyberspace’de kaybolma: Internet kaynaklarının insanca anlaşılabilir ve makinaca okunabilir olmasından dolayı erişim araçların yetersiz kalması.

• Ad-hoc Çözüm: meta TAKILARIN (TAGS) Gömülmesi

• HTML 4.0 (http://www.w3.org/TR/REC- html40/strict.dtd)• Terim Sözlüğü Oluşturma (ontology): SHOE

(http://www.cs.umd.edu/projects/plus/SHOE )

• KIF (http://logic.stanford.edu/)

• RDF (http://www.w3.org)

Problem ve Çözüm Yolları

Page 4: Internet Kaynak Keşfi:  Bir Dublin Core Üstveri Editörü ve  Arama Makinası Baha Olgun Hayri Sever

Kullanıcısorgusu veyeğlenenleri

Sonuçkümesinintutanakları

Sunucu

Z39.50 sunucusuylabağlantı kur

HTML belgelerigönder

Z39.50 Ağ Geçidi veSunucu

BES’e bağlantı kur

Sonuçlar kümesiniHTML formatındayarat

Kullanıcısorgusu veyeğlenenleri

Sorgusonuçları

İstemci

HTML formunugöster

HTML göster

Isite sistemininIsearch ve Iindexkesimleri

Isite Veritabanı

Sorguyu işlet

Ad-hoc Çözüm: Meta Takılar

Page 5: Internet Kaynak Keşfi:  Bir Dublin Core Üstveri Editörü ve  Arama Makinası Baha Olgun Hayri Sever

Dizinde kullanılan HTML takıları

<P><B>ACADEMY OF THE SACRED HEART, New Orleans <BR></B> Sacred Heart restores shutters and cupola. <BR> <I> Preservation in Print</I> v23 n6 p28, Aug, 1996<BR>

HTML Üstveri Referans Dizinine Eklenmesi

<Subject><B> ACADEMY OF THE SACRED HEART, New Orleans </B> </Subject><Title> Sacred Heart restores shutters and cupola. </Title><Periodical><I>Preservation in Print </Periodical><Volume>p28,</Page><Date>Aug. 1996</Date>

Ad-hoc Çözüm: Meta Takılar

Page 6: Internet Kaynak Keşfi:  Bir Dublin Core Üstveri Editörü ve  Arama Makinası Baha Olgun Hayri Sever

• <HEAD profile=“http://www.w3.org/RDF”>• <!ELEMENT META - O EMPTY> <!ATTLIST META lang %LanguageCode #IMPLIED http-equiv NAME #IMPLIED name NAME #IMPLIED content CDATA #REQUIRED scheme CDATA #IMPLIED

>• <LİNK rel=“…” href=“…”>• PICS etiketleri

<META name=”DC.Author" content=“Hayri Sever"><META scheme=“ISO 8601" name=“DC.Date” content=”13/03/62">

<META name=”DC.Description" lang=”tr" content=”veri madenleme

ve bilgi erişim sistemleri ara&scedil;t&iwhdot;rma ..."> <META http-equiv="Content-Type" content="text/html; charset=ISO-8859-5">

HTML 4.0: Üstveri Elemanları

Page 7: Internet Kaynak Keşfi:  Bir Dublin Core Üstveri Editörü ve  Arama Makinası Baha Olgun Hayri Sever

SHOE (Simple HTML Ontology Extensions) iki kısımdan oluşmaktadır:

• Ontoloji. Veri Sözlüğü ve Şemanın tanımlandığı belirli bir üstveri modeli

• Üye. İlgili üstveri kullanılarak yapılan iddalar.

SHOE modeli tür, ilişki ve çıkarsama tanımlama olanağı sağlamaktadır. SHOE ile tanımlı Web kaynakları, Expose ile yerel diske yüklenir ve SHOE kütüphanesi aracılığı ile çözümlenir ve PARKA Ontolojisine yerleştirilir.

KIF (Knowledge Interchange Format), “First-Order Predicate Calculus” tabanlı bir üstveri gösterim dilidir.

İfade etme gücü yüksek olan KIF, heterojen Web kaynaklarını bütünleştirmede kolaylık sağlar ve arabulucu mimaride paketleyici dil olan KQML birlikte kullanılır.

SHOE ve KIF

Page 8: Internet Kaynak Keşfi:  Bir Dublin Core Üstveri Editörü ve  Arama Makinası Baha Olgun Hayri Sever

www.cs.hun.edu.tr webadminCreator

RDF Tanımının XML ile Gösterimi

<?xml version="1.0" ?><rdf:RDF

xmlns:rdf="http://www.w3.org/RDF"xmlns:dc="http://purl.org/DublinCore">

<rdf:Description about="http://www.cs.hun.edu.tr"><dc:Creator> webadmin </dc:Creator></rdf:Dexcription></rdf:RDF>

<?xml version="1.0" ?><rdf:RDF

xmlns:rdf="http://www.w3.org/RDF"xmlns:dc="http://purl.org/DublinCore">

<rdf:Description about="http://www.cs.hun.edu.tr"><dc:Creator> webadmin </dc:Creator></rdf:Dexcription></rdf:RDF>

RDF Tanımının Çizge ile Gösterimi

Page 9: Internet Kaynak Keşfi:  Bir Dublin Core Üstveri Editörü ve  Arama Makinası Baha Olgun Hayri Sever

RDF modeli ve DC Üstveri elemanları kullanılarak, elektronik kaynakların içeriklerinin tanımlanmasını sağlayan bir yazılım gerçekleştirilmiştir.

H-DCEdit ile katalog bilgileri modellenmiştir.

Katalog yapısı, RDF/DC sözdizimi temel alınarak SGML tarafından tanımlanmıştır.

SGML belgelerinin özelliği, Türkçe içerik desteği olması ve XML belgesine dönüşmesi kolay bir tanımı olmasıdır.

RDF/DC Editörü: H-DCEdit

Page 10: Internet Kaynak Keşfi:  Bir Dublin Core Üstveri Editörü ve  Arama Makinası Baha Olgun Hayri Sever

SGML Bildirimi

RDF/DC Belge Tür Tanımı

DSSSL BildirimiBiçem Bildirimi

RDF/DC Ayrıştırıcı

SGML Ayrıştırıcı(SP)

SGMLBelgesi

Ayrıştı-rımÇıktısı

DC ElemanlarıEditörü

SG-ML

Belgesi

DSSSL Motoru(Jade)

Yeniden biçimlenmiş belge çıktısı (html, rtf,TeX)

Yerel yardımcıprogramlar(vi, netscape, xview,…)

RDF/DC Biçem Tanımı

Sistem işlev çizgesi

Page 11: Internet Kaynak Keşfi:  Bir Dublin Core Üstveri Editörü ve  Arama Makinası Baha Olgun Hayri Sever

Yazılım Alt Kesimi Programlama Dili Satır Sayısı

SP-1.2 (SGML Ayrıştırıcı) C++ 70000RDF/DC Ayrıştırıcı C++ 800H-DCEdit 1.0 C (MOTIF) 5000JADE1.0.1 (DSSSL Motoru) C++ 52000

Yazılım Mühendisliği Notları

Page 12: Internet Kaynak Keşfi:  Bir Dublin Core Üstveri Editörü ve  Arama Makinası Baha Olgun Hayri Sever

<!SGML "ISO 8879:1986"CHARSET

BASESET "ISO 646-1983//CHARSET International Reference Version(IRV)//ESC 2/5 4/0"

DESCSET 0 9 UNUSED9 2 911 2 UNUSED13 1 1314 18 UNUSED32 95 32127 1 UNUSED

BASESET "ISO Registration Number 148//CHARSET ECMA-128Right Part of Latin Alphabet Nr. 5//ESC 2/13 4/13"

DESCSET 128 32 UNUSED160 95 32255 1 UNUSED

NAMING LCNMSTRT ""UCNMSTRT ""LCNMCHAR "-.:"UCNMCHAR "-.:"

…>

SGML Bildirimi

Page 13: Internet Kaynak Keşfi:  Bir Dublin Core Üstveri Editörü ve  Arama Makinası Baha Olgun Hayri Sever

<!-- Entities For Turkish Support --><!ENTITY Ccedil CDATA "&#199;"><!ENTITY ccedil CDATA "&#231;"><!ENTITY Ouml CDATA "&#214;"><!ENTITY ouml CDATA "&#246;"><!ENTITY Scedil CDATA "&#222;"><!ENTITY scedil CDATA "&#254;"><!ENTITY Idot CDATA "&#221;"><!ENTITY iwhdot CDATA "&#253;"><!ENTITY Uuml CDATA "&#220;"><!ENTITY uuml CDATA "&#252;"><!ENTITY Gbrewe CDATA "&#208;"><!ENTITY gbrewe CDATA "&#240;">

RDF/DC Belge Tür Tanımı

Page 14: Internet Kaynak Keşfi:  Bir Dublin Core Üstveri Editörü ve  Arama Makinası Baha Olgun Hayri Sever

<!-- RDF and DC elements in the same DTD In addition, XML like output is supported RDF Elements --> <!ELEMENT rdf:RDF - - ( rdf:Description )* > <!ATTLIST rdf:RDF xmlns:rdf CDATA "http://www.w3.org/RDF/” xmlns:dc CDATA "http://purl.org/DC/”

<!ENTITY % property "ANY"><!ELEMENT rdf:Description - - %property;><!ATTLIST rdf:Description

ID NMTOKEN #IMPLIED about CDATA #IMPLIED aboutEach CDATA #IMPLIED bagID NMTOKEN #IMPLIED>

RDF/DC Belge Tür Tanımı

Page 15: Internet Kaynak Keşfi:  Bir Dublin Core Üstveri Editörü ve  Arama Makinası Baha Olgun Hayri Sever

<!ENTITY % dccontent "(#PCDATA)">

<!ELEMENT DC:TITLE - - %dccontent; ><!ELEMENT DC:CREATOR - - %dccontent; ><!ELEMENT DC:SUBJECT - - %dccontent; ><!ELEMENT DC:DESCRIPTION - - %dccontent; ><!ELEMENT DC:PUBLISHER - - %dccontent; ><!ELEMENT DC:CONTRIBUTOR - - %dccontent; ><!ELEMENT DC:DATE - - %dccontent; ><!ELEMENT DC:TYPE - - %dccontent; ><!ELEMENT DC:FORMAT - - %dccontent; ><!ELEMENT DC:IDENTIFIER - - %dccontent; ><!ELEMENT DC:SOURCE - - %dccontent; ><!ELEMENT DC:LANGUAGE - - %dccontent; ><!ELEMENT DC:RELATION - 0 %dccontent; ><!ELEMENT DC:COVERAGE - - %dccontent; ><!ELEMENT DC:RIGHTS - - %dccontent; >

RDF/DC Belge Tür Tanımı

Page 16: Internet Kaynak Keşfi:  Bir Dublin Core Üstveri Editörü ve  Arama Makinası Baha Olgun Hayri Sever

<!ATTLIST DC:DATE year CDATA #IMPLIED month CDATA #IMPLIED day CDATA #IMPLIED>

<!ATTLIST DC:RELATION type CDATA #IMPLIED resource CDATA #IMPLIED >

<!-- Added Element for Robots --><!ELEMENT BODY - - %dccontent; ><!ATTLIST BODY

location CDATA #IMPLIED >

RDF/DC Belge Tür Tanımı

Page 17: Internet Kaynak Keşfi:  Bir Dublin Core Üstveri Editörü ve  Arama Makinası Baha Olgun Hayri Sever

sgml.cs.hun.edu.tr

Baha Olgun

SGML Türkiye

Hacettepe Üni.

Hayri Sever

text/sgml

Creator

Title

Publisher

Contributor

Type

Oluşturulan SGML Belgeleri

Page 18: Internet Kaynak Keşfi:  Bir Dublin Core Üstveri Editörü ve  Arama Makinası Baha Olgun Hayri Sever

<!DOCTYPE RDF:RDF PUBLIC "-//Baha Olgun//DTD RDF and DC//EN"> xmlns:rdf="http://www.w3.org/RDF/" xmlns:dc="http://purl.org/DC/"><RDF:Description about="http://sgml.cs.hun.edu.tr"><DC:IDENTIFIER>http://sgml.cs.hun.edu.tr</DC:IDENTIFIER><DC:CREATOR>Baha Olgun</DC:CREATOR><DC:TITLE>SGML T&uuml;rkiye Kullan&iwhdot;c&iwhdot;lar&iwhdot;</DC:TITLE><DC:SUBJECT>SGML T&uuml;rkiye</DC:SUBJECT><DC:DESCRIPTION>SGML T&uuml;rkiye Web Sayfas&iwhdot;</DC:DESCRIPTION><DC:PUBLISHER>Hacettepe &Uuml;niversitesi</DC:PUBLISHER><DC:CONTRIBUTOR>Hayri Sever</DC:CONTRIBUTOR><DC:RIGHTS>Her Hakk&iwhdot;

Sakl&iwhdot;d&iwhdot;r</DC:RIGHTS><DC:TYPE>text</DC:TYPE><DC:FORMAT>text/sgml</DC:FORMAT><DC:LANGUAGE>tr</DC:LANGUAGE><DC:DATE year=1998 month=Jan day=01></DC:DATE><DC:RELATION resource="http://www.cs.hun.edu.tr" type=IsReferencedBy></RDF:Description></RDF:RDF>

SGML İle Serileştirme

Page 19: Internet Kaynak Keşfi:  Bir Dublin Core Üstveri Editörü ve  Arama Makinası Baha Olgun Hayri Sever

H-DCEdit Arayüz

Page 20: Internet Kaynak Keşfi:  Bir Dublin Core Üstveri Editörü ve  Arama Makinası Baha Olgun Hayri Sever

DC Elemanları Girişi

Page 21: Internet Kaynak Keşfi:  Bir Dublin Core Üstveri Editörü ve  Arama Makinası Baha Olgun Hayri Sever

Yardımcı Uygulamaları İlişkilendirme

Page 22: Internet Kaynak Keşfi:  Bir Dublin Core Üstveri Editörü ve  Arama Makinası Baha Olgun Hayri Sever

DSSSL Standardında Biçimleme

Page 23: Internet Kaynak Keşfi:  Bir Dublin Core Üstveri Editörü ve  Arama Makinası Baha Olgun Hayri Sever

<HTML><LINK REL=STYLESHEET TYPE="text/css" HREF="dc6.css"><BODY><DIV CLASS=DC:IDENTIFIER> <SPAN CLASS=DC:IDENTIFIER>Identifier:

http://sgml.cs.hun.edu.tr</SPAN></DIV><SPANCLASS=RDF:DESCRIPTION>

</SPAN> <DIV CLASS=DC:CREATOR> <SPAN CLASS=DC:CREATOR>

Creator: Baha Olgun </SPAN> </DIV> <SPAN CLASS=RDF:DESCRIPTION></SPAN> <DIV CLASS=DC:TITLE> <SPAN CLASS=DC:TITLE>Title: SGML Türkiye Kullan&#305;c&#305;lar&#305; </SPAN> </DIV> … <DIV CLASS=DC:RELATION> <SPAN LASS=DC:RELATION> Relation:IsReferencedBy

http://www.cs.hun.edu.tr </SPAN> </DIV></BODY></HTML>

Süzgeçleme: HTML belgesi

Page 24: Internet Kaynak Keşfi:  Bir Dublin Core Üstveri Editörü ve  Arama Makinası Baha Olgun Hayri Sever

SPAN.RDF:DESCRIPTION { font-family: Times New Roman,serif; font-weight: 500; font-style: normal; font-size: 10pt; color: #000000;}SPAN.DC:RELATION, SPAN.DC:DATE, SPAN.DC:LANGUAGE,SPAN.DC:FORMAT, SPAN.DC:TYPE, SPAN.DC:RIGHTS,SPAN.DC:CONTRIBUTOR, SPAN.DC:PUBLISHER, SPAN.DC:DESCRIPTION,SPAN.DC:SUBJECT, SPAN.DC:TITLE, SPAN.DC:CREATOR,SPAN.DC:IDENTIFIER { font-family: Times New Roman,serif; font-weight: 500; font-style: normal; font-size: 14pt; color: #000000;}DIV.DC:RELATION, DIV.DC:DATE, DIV.DC:LANGUAGE, DIV.DC:FORMAT,DIV.DC:TYPE, DIV.DC:RIGHTS, DIV.DC:CONTRIBUTOR,DIV.DC:PUBLISHER, DIV.DC:DESCRIPTION, DIV.DC:SUBJECT,DIV.DC:TITLE, DIV.DC:CREATOR, DIV.DC:IDENTIFIER { text-align: left; line-height: 12pt; text-indent: 0pt;}

HTML Belgesini Biçimleme

Page 25: Internet Kaynak Keşfi:  Bir Dublin Core Üstveri Editörü ve  Arama Makinası Baha Olgun Hayri Sever

Özet

• DPT KM-BGS Projesi çerçevesinde gerçekleştirilen bir RDF/DC editörü tanıtılmıştır. • Bu editör, takı dizinleme ve sorgulama yapabilen Isite/Isearch arama makinası ile çıktı bazında bütünleştirilmiştir.