24
Povezani (meta) podaci Boris Bosančić Odsjek za informacijske znanosti Filozofski fakultet Osijek

Povezani (meta) podaci - unizg.hr · najbolju praksu dijeljenja i povezivanja podataka, informacija i znanja u okviru semantičkog weba pomoću URI/IRI-ja i RDF-a. (Wikipedija)

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Povezani (meta) podaci - unizg.hr · najbolju praksu dijeljenja i povezivanja podataka, informacija i znanja u okviru semantičkog weba pomoću URI/IRI-ja i RDF-a. (Wikipedija)

Povezani (meta) podaci

Boris BosančićOdsjek za informacijske znanosti

Filozofski fakultet Osijek

Page 2: Povezani (meta) podaci - unizg.hr · najbolju praksu dijeljenja i povezivanja podataka, informacija i znanja u okviru semantičkog weba pomoću URI/IRI-ja i RDF-a. (Wikipedija)

„Let’s review some basic concepts...”

ONTOLOGIJEspecifikacija konceptualizacije pojedine domene znanja (klase, svojstva, instance)

SETOVI PODATAKApodaci o instancama u istraživačkom postupku

METAPODACI‘podaci o podacima’.

KNJIGE, DOKUMENTItiskana & digitalna građa

POVEZANI PODACI & ZNANJEPovezani setovi podataka & ontologije

Page 3: Povezani (meta) podaci - unizg.hr · najbolju praksu dijeljenja i povezivanja podataka, informacija i znanja u okviru semantičkog weba pomoću URI/IRI-ja i RDF-a. (Wikipedija)

INSTANCE, SVOJSTVA, KLASE –najprije kreirati ontologiju...

Fabijan

Lara

OSOBA

Francuska

Hrvatska

DRŽAVA

Italija

Kiki

Fido

KUĆNI LJUBIMAC

PASMAČKA

Mica

Rex

KLASE

objektna svojstva

instance

5 ^^xsd:integer

svojstva tipova podataka

Page 4: Povezani (meta) podaci - unizg.hr · najbolju praksu dijeljenja i povezivanja podataka, informacija i znanja u okviru semantičkog weba pomoću URI/IRI-ja i RDF-a. (Wikipedija)

Zašto POVEZANI (META) PODACI?

Strojno razumijevanje & obrada mrežnih izvora

Semantičko pretraživanje Statistička obrada Izbjegavanje duplikata (zapisa,

koncepata, elemenata, podataka itd.) ...

Page 5: Povezani (meta) podaci - unizg.hr · najbolju praksu dijeljenja i povezivanja podataka, informacija i znanja u okviru semantičkog weba pomoću URI/IRI-ja i RDF-a. (Wikipedija)

SEMANTIČKO PRETRAŽIVANJE - PRIMJER

doktorat

disertacija

doktorski

rad

dabar:disertacija

doktorat napisan od knjižničar(a) IRB(-a)

klasa ontologije

spisatelj

mods:author

dc:creator

dabar:autor

klasa ontologije

napisan od

inverzno

svojstvo

dabar:knjižničar

dabar:ustanova

IRB

Page 6: Povezani (meta) podaci - unizg.hr · najbolju praksu dijeljenja i povezivanja podataka, informacija i znanja u okviru semantičkog weba pomoću URI/IRI-ja i RDF-a. (Wikipedija)

Osnovno o povezanim podacima (linked data)

D1 - termin koji se koristi kako bi opisao najbolju praksu dijeljenja i povezivanja podataka, informacija i znanja u okviru semantičkog weba pomoću URI/IRI-ja i RDF-a. (Wikipedija)D2 - “The Semantic Web done right” (Tim Berners Lee) Ako je semantički web cjelina, povezani podaci su njegovi dijelovi! http://linkeddata.org/ - službena mrežna stranica.

Page 7: Povezani (meta) podaci - unizg.hr · najbolju praksu dijeljenja i povezivanja podataka, informacija i znanja u okviru semantičkog weba pomoću URI/IRI-ja i RDF-a. (Wikipedija)

http://lod-cloud.net/"Linking Open Data cloud diagram 2014, by Max Schmachtenberg, Christian Bizer, Anja Jentzsch and Richard Cyganiak. http://lod-cloud.net/"

Page 8: Povezani (meta) podaci - unizg.hr · najbolju praksu dijeljenja i povezivanja podataka, informacija i znanja u okviru semantičkog weba pomoću URI/IRI-ja i RDF-a. (Wikipedija)

Principi povezanih podataka (Tim Berners-Lee)

1. Za identificiranje/nazivlje pojedinog mrežnog izvora ('stvari') koristi se URI/IRI-ji(Uniform/International Resource Identifier)

2. Za potrebe povezivanja ‘stvari’ koristi se HTTP protokol, odatle rabiti HTTP URI/IRI-je!

3. ‘Stvari’ ('things') su opisane putem RDFmodela podataka!

4. Opisi ‘stvari’ uključuju linkove (URI/IRI-je) prema drugim (srodnim) mrežnim izvorima.

http://www.hkdrustvo.hr/ “Boris Badurina”

http://purl.org/dc/elements/1.1/creatorRDF

model

podataka

Page 9: Povezani (meta) podaci - unizg.hr · najbolju praksu dijeljenja i povezivanja podataka, informacija i znanja u okviru semantičkog weba pomoću URI/IRI-ja i RDF-a. (Wikipedija)

DISAGREGACIJA BIBLIOGRAFSKOG ZAPISA –u RDF triplete

Element

metapodatakaVrijednost metapodatka

mods:title "Model sustava informacija o znanstvenoj

djelatnosti za hrvatsku akademsku zajednicu"

mods:author Macan, Bojan

mods:dataIssued "2015"

mods:subject informacijski sustavi

mods:genre info:eu-repo/semantics/doctoralThesis

etd:name mzos:doktor/doktorica znanosti

srce:identifikator irb:123

subjekt predikat objekt

irb:123 mods:title "Model sustava informacija o znanstvenoj

djelatnosti za hrvatsku akademsku zajednicu"

irb:123 mods:author viaf:305734696/#Macan,_Bojan

irb:123 mods:dataIssued "2015"

irb:123 mods:subject lcsh:sh85080359#concept

irb:123 mods:genre info:eu-repo/semantics/doctoralThesis

irb:123 etd:name mzos:doktor/doktorica znanosti

URI/IRI URI/IRI URI/IRI ili slovna vrijednost

http://id.loc.gov/authorities/subjects/sh85080359.html

Page 10: Povezani (meta) podaci - unizg.hr · najbolju praksu dijeljenja i povezivanja podataka, informacija i znanja u okviru semantičkog weba pomoću URI/IRI-ja i RDF-a. (Wikipedija)

Još neki izvori linked data…

Quick and Dirty RDF browser -http://graphite.ecs.soton.ac.uk/browser/

Linked Open Vocabularies (LOV) -http://lov.okfn.org/dataset/lov/

5 * Open Data - http://5stardata.info – u projektu sudjeluje i CodeForCroatia(http://codeforcroatia.org/)

Page 11: Povezani (meta) podaci - unizg.hr · najbolju praksu dijeljenja i povezivanja podataka, informacija i znanja u okviru semantičkog weba pomoću URI/IRI-ja i RDF-a. (Wikipedija)

SET PODATAKA:

instance u postupku istraživanja

kreiranje, povezivanje i objava povezanih podataka

Page 12: Povezani (meta) podaci - unizg.hr · najbolju praksu dijeljenja i povezivanja podataka, informacija i znanja u okviru semantičkog weba pomoću URI/IRI-ja i RDF-a. (Wikipedija)

Tri faze ‘u nastanku’ povezanih podataka

1. EKSTRAHIRANJE PODATAKA I KREIRANJE SETOVA PODATAKA

iz tablica, baza podataka, običnog teksta.

2. POVEZIVANJE SETOVA PODATAKA na razini instance (npr. rdfs:seeAlso) na razini rječnika/ontologije (npr. owl:equivalentClass)

3. OBJAVLJIVANJE POVEZANIH SETOVA PODATAKA VoID shema metapodataka; Licenciranje – CCO; Pristupne metode: dereferenciranje HTTP URI/IRI-ja, SPARQL

endpoint, RDF dump datoteke, RDFa Registracija povezanih setova podataka u LD registrima

(npr. Data Hub)

Page 13: Povezani (meta) podaci - unizg.hr · najbolju praksu dijeljenja i povezivanja podataka, informacija i znanja u okviru semantičkog weba pomoću URI/IRI-ja i RDF-a. (Wikipedija)

Alati/standardi za kreiranje setova podataka

TABLIČNIPODACI OpenRefine - alat za konverziju tabličnih podataka u

povezane podatke - http://openrefine.org/BAZE PODATAKA R2RML - W3C preporučen standard za specificiranje

mapiranja između relacijskih baza podataka i povezanih podataka. - https://www.w3.org/TR/r2rml/

TEKST GATE - https://gate.ac.uk/projects.html Zemanta - http://www.zemanta.com/ DBpedia Spotlight - http://dbpedia-spotlight.github.io/demo/ Open Calais Demo - http://www.opencalais.com/opencalais-

demo/

Page 14: Povezani (meta) podaci - unizg.hr · najbolju praksu dijeljenja i povezivanja podataka, informacija i znanja u okviru semantičkog weba pomoću URI/IRI-ja i RDF-a. (Wikipedija)

Od Excel tablice do RDF dokumenta...

Page 15: Povezani (meta) podaci - unizg.hr · najbolju praksu dijeljenja i povezivanja podataka, informacija i znanja u okviru semantičkog weba pomoću URI/IRI-ja i RDF-a. (Wikipedija)

Povezivanje setova podataka na INSTANCARAZINI

Povezivanje između instanci klasa (ljudi, mjesta, objekata)

Pomoću svojstava:1. rdfs:seeAlso - link vodi prema

izvoru s više relevantnih informacija u odnosu na promatrani izvor

2. owl:sameAs – izražava da dva URI/IRI-ja upućuju na isti izvor

<owl:NamedIndividual rdf:about="http://oziz.ffos.hr/-ontology-36#Osijek">

<rdfs:seeAlso rdf:resource="http://live.dbpedia.org/resource/Osijek-Baranja_County"/>

</owl:NamedIndividual>

<owl:NamedIndividual rdf:about="http://oziz.ffos.hr/-ontology-36#Brod_na_Savi">

<owl:sameAs rdf:resource=„dbpedia:Slavonski_Brod"/>

</owl:NamedIndividual>

Page 16: Povezani (meta) podaci - unizg.hr · najbolju praksu dijeljenja i povezivanja podataka, informacija i znanja u okviru semantičkog weba pomoću URI/IRI-ja i RDF-a. (Wikipedija)

Povezivanje setova podataka na SCHEMARAZINI

□Povezivanje klasa i svojstava različitih ontologija pomoću:■ RDFS svojstava -

rdfs:subPropertyOf i rdfs:subClassOf

■OWL svojstava -owl:equivalentClass i owl:equivalentProperty

<owl:Class rdf:about="http://oziz.ffos.hr/-ontology-36#Student">

<rdfs:subClassOf rdf:resource="http://live.dbpedia.org/resource/Person"/>

</owl:Class>

<owl:Class rdf:about="http://oziz.ffos.hr/-ontology-36#Osoba">

<owl:equivalentClass rdf:resource="http://live.dbpedia.org/resource/Person"/>

</owl:Class>

Page 17: Povezani (meta) podaci - unizg.hr · najbolju praksu dijeljenja i povezivanja podataka, informacija i znanja u okviru semantičkog weba pomoću URI/IRI-ja i RDF-a. (Wikipedija)

Povezivanje setova podataka na razini KONTROLIRANIH VRIJEDNOSTI

SKOS (Simple Knowledge Organisation System)■ Model podataka (u obliku RDF

tripleta) za izražavanje povezivanja sustava organizacije znanja poput tezaurusa, taksonomija, klasifikacijskih shema i sl.

<owl:Class rdf:about="http://oziz.ffos.hr/ontology-36#Fido">

<skos:Concept rdf:resource="http://oziz.ffos.hr/ontology-36/#labrador" />

</owl:Class>

<owl:Class rdf:about="http://oziz.ffos.hr/-ontology-36#Knjižnica">

<skos:exactMatch rdf:resource=„http://oziz.ffos.hr/-ontology-36#Biblioteka"/>

</owl:Class>

<owl:Class rdf:about="http://oziz.ffos.hr/-ontology-36#Knjižnica">

<skos:relatedMatch rdf:resource=„http://oziz.ffos.hr/-ontology-36#Muzej"/>

</owl:Class>

<owl:Class rdf:about="http://oziz.ffos.hr/-ontology-36#Knjižnica">

<skos:closeMatch rdf:resource=„http://oziz.ffos.hr/-ontology-36#Info_Ustanova"/>

</owl:Class>

Page 18: Povezani (meta) podaci - unizg.hr · najbolju praksu dijeljenja i povezivanja podataka, informacija i znanja u okviru semantičkog weba pomoću URI/IRI-ja i RDF-a. (Wikipedija)

Objava POVEZANIH PODATAKA

1. Opis seta podataka (VoID)2. Dereferenciranje HTTP

URI/IRI-ja3. RDFa (ugradnja RDF tripleta u

XHTML dokument)4. SPARQL endpoint (SPARQL

pristupna točka)5. RDF dump (set podataka

podijeljen na više RDF datoteka)

6. Validacija seta podataka7. Prijava seta podataka

repozitorijima (npr. Data Hub)

Page 19: Povezani (meta) podaci - unizg.hr · najbolju praksu dijeljenja i povezivanja podataka, informacija i znanja u okviru semantičkog weba pomoću URI/IRI-ja i RDF-a. (Wikipedija)

MODS

DC

OWL

DABAR

NSK

(ZIR)ETD

RDF RDFS

MADS

Elementi METAPODATAKA

(predikati)LD oblak

SKOS

Page 20: Povezani (meta) podaci - unizg.hr · najbolju praksu dijeljenja i povezivanja podataka, informacija i znanja u okviru semantičkog weba pomoću URI/IRI-ja i RDF-a. (Wikipedija)

VIAF

LCSH

DABAR

UDC

NSK

DBPEDIA

MZOS

Normativne DATOTEKE

(objekti)LD oblak

Page 21: Povezani (meta) podaci - unizg.hr · najbolju praksu dijeljenja i povezivanja podataka, informacija i znanja u okviru semantičkog weba pomoću URI/IRI-ja i RDF-a. (Wikipedija)

LICENCIRANJEpovezanih podataka -Preporuke Standfordskeradionice (2011)stavljanje podataka u javnu domenu, tj. korištenje CC0

POVEZANI

PODACIOTVORENI

PODACI

SVI PODACI

OTVORENI POVEZANI PODACI

OTVORENI POVEZANI PODACI

Page 22: Povezani (meta) podaci - unizg.hr · najbolju praksu dijeljenja i povezivanja podataka, informacija i znanja u okviru semantičkog weba pomoću URI/IRI-ja i RDF-a. (Wikipedija)

Want big impact?Use big image.

Page 24: Povezani (meta) podaci - unizg.hr · najbolju praksu dijeljenja i povezivanja podataka, informacija i znanja u okviru semantičkog weba pomoću URI/IRI-ja i RDF-a. (Wikipedija)

Credits

Special thanks to all the people who made and released these awesome resources for free:

□ Presentation template by

SlidesCarnival

□ Photographs by Unsplash