105
ANDREA D’ANDREA DATA, METADATA, LINKED OPEN DATA

Andrea D'Andrea - Data, Metadata, Linked Open Data in archeologia

Embed Size (px)

Citation preview

ANDREA D’ANDREA DATA, METADATA, LINKED OPEN DATA

Organizzare la conoscenza «… un sistema con regole comuni accettabili per tutti, … il più vicino possibile alla mancanza di regole» (BERNERS-LEE 2001 p. 28).

Dati WEB Invisibile Disambiguare i dati WEB Semantico o WEB di dati Metadati DublinCore, CULTURA ITALIA EUROPEANA Tassonomie SKOS AAT ICONCLASS Linked Open Data (LOD) DBPEDIA GEONAMES PLEIADES

DEEP WEB

contenuti dinamici: pagine web dinamiche, ovvero pagine Web il cui contenuto viene generato sul momento dal server, che possono essere richiamati solo compilando un form o a risposta di una particolare richiesta pagine ad accesso ristretto: siti che richiedono una registrazione o comunque limitano l'accesso alle loro pagine impedendo che i motori di ricerca possano accedervi

DEEP WEB

PERCHE’ DISAMBIGUARE I DATI

“A fundamental characteristic of our age is the rising tide of data – global, diverse, valuable and complex. In the realm of science, this is both an opportunity and a challenge” (Riding the wave, Final Report of the High Level Expert Group on Scientific Data. European Commission, Brussels, 2010). Questo rapporto sui dati scientifici illustra il potenziale di efficienza determinato dalla larga rete di distribuzione dei dati. I ricercatori riceveranno chiari benefici potendo collaborare sugli stessi dati, ma partendo da domini diversi. Questa collaborazione però non poterà alla perdita di diritti e garanzie. Usare, riusare, combinare, integrare i dati fornirà un incremento in termini di produttività scientifica.

… una esigenza scientifica…

PERCHE’ DISAMBIGUARE I DATI

In un report del 2010 pubblicato da The Economist, I dati divengono “an economic raw input almost on par with capital and labour”. Nel Digital Britain Final Report si riconosce che I dati sono “an innovation currency … the lifeblood of the knowledge economy”. Nel 2008 si stimava che il mercato per il PSI fosse di €28 miliardi, mentre la previsione è di circa 40€ per il prossimo futuro. Un recente rapporto (2013) su “The Value and Impact of the Archaeology Data Service: a study and methods for enhancing sustainability” (Eds. Beagrie, N. and Houghton J.) ha evidenziato come ogni £1 investita dall’ADS dà un ricavo fino £ 8.30 nei prossimi 30 anni.

(http://archaeologydataservice.ac.uk/research/impact).

… una esigenza economica…

Direttive Comunitarie

La Direttiva 2003/98/CE, recepita a livello italiano dal D. Lgs 36/2006, nel dettare le norme in materia di dati e loro riutilizzo, esclude all’art. 1 i documenti in possesso di diverse istituzioni tra cui le università e gli enti di ricerca, i musei, le biblioteche e gli archivi. Il quadro che emerge dalla lettura delle norme nazionali prefigura un atteggiamento di tipo protezionistico nel campo dei beni culturali e quindi dell’uso e dei riuso dei dati. La Direttiva 2013/37/CE, che andrà recepita entro 18 Luglio 2015, estende le norme relative all’uso e al riuso dei dati anche alle biblioteche, incluse quelle universitarie, i musei e gli archivi. Ci sono però limitazioni e va letta anche la normativa italiana sull’argomento.

DATI Consultabili Machine Readble Formati

ACCESSO

RIUSO

ESCLUSIONE

Art. 124 BBCC L. 241/90

USO

Legge Diritto D’Autore

Licenza

Direttiva 2013/37UE

Considerazione 18) L’estensione … dovrebbe essere limitata a biblioteche, musei e archivi, poiché le loro collezioni sono e diverranno sempre più un materiale prezioso per il riutilizzo in numerosi prodotti, come le applicazioni mobili.

Direttive Italiane

• il D.lgs. 33 del 14.03.2013, ribattezzato “Decreto semplificazione” o “Decreto trasparenza” e pubblicato in Gazzetta Ufficiale n.80 del 5-4-2013

• il Decreto Legge 22 giugno 2012, n. 83, detto “Decreto Sviluppo” convertito in legge con modificazioni il 7 agosto 2012, n. 134 e pubblicato in Gazzetta Ufficiale n. 187 del 11-08-2012.

• il Decreto-Legge 18 ottobre 2012, n. 179 convertito in legge il 17 dicembre 2012, n. 221 – e pubblicato in Gazzetta Ufficiale 18 dicembre 2012, n. 294 noto come “Decreto sviluppo bis” o anche “Decreto crescita 2.0”.

DISAMBIGUARE I DATI

Quali sono gli archeologi che hanno studiato all’Università di Roma La Sapienza e hanno iniziato la loro carriera come Funzionari del MIBAC? Quali Funzionari hanno iniziato la loro carriera nello stesso anno di ……… ? Quali Funzionari sono andati all’Università di Roma La Sapienza e sono stati colleghi di …………. ?

Qualsiasi tipo di domanda implica una diversa formalizzazione dei dati e per queste domande Google è insufficiente.

Il Web 1.0 era un sistema di documenti interconnessi (interlinked) accessibili attraverso Internet. I Web browsers usavano il protocollo HTTP per comunicare con Web Servers. L’utente accedeva a pagine HTML e usava gli hyperlinks per navigare tra le pagine. L’utente poteva così accedere a qualsiasi documento raggiungibile sul Web

Dal WEB 1.0 al WEB Semantico

Nel Web 2.0 gli utenti condividono (share) foto, video e pensieri, interagiscono sui social networks, pubblicano contenuti nei blogs, usano tags per dare significato ai documenti. L’utente ha piena libertà di interagire con i siti Web, che diventano dinamici Se una macchina potesse comprendere il significato dell’informazione, potrebbe aiutare l’utente a trovare ciò di cui ha veramente bisogno. Mentre il Web attuale si basa su documenti interconnessi, il Web semantico sarà basato su oggetti e sulle relazioni tra di essi

Dal WEB 1.0 al WEB Semantico

Dal WEB 1.0 al WEB Semantico

WEB WEB di Documenti di Dati

Human understandable but “only” machine-readable

Human and machine “understandable”

Dal WEB 1.0 al WEB Semantico

Il WEB Semantico

Un metadato, letteralmente “(dato) oltre un (altro) dato”, è un'informazione che descrive un insieme di dati. Un esempio tipico di metadati è costituito dalla scheda del catalogo di una biblioteca, la quale contiene informazioni circa il contenuto e la posizione di un libro, cioè dati riguardanti le risorse che si riferiscono al libro.

Metadati

Cos’è una risorsa?

Nel mondo del web una risorsa è tutto ciò che può essere riferito da una URL:

oggetti digitali (un documento elettronico, un’immagine, un servizio ...)

oggetti fisici (libri, persone, opere …)

concetti (soggetti, categorie …)

Funzioni dei metadati

i metadati possono essere distinti in: Descrittivi: contengono informazioni per facilitare la ricerca di risorse attraverso query espresse in linguaggio naturale

Strutturali: per l’identificazione delle risorse all’interno di strutture di sistemi informativi

Amministrativi: contengono informazioni per la gestione delle risorse (storage, preservation ...)

Metadati descrittivi

Esistono vari sistemi per la descrizione delle risorse, concepiti per domini specifici, es.: ambito bibliotecario: MARC ambito storico artistico: VRA, CIDOC ambito archivistico: EAD Nel contesto delle Digital Libraries è nata la necessità di uno schema minimo comune, per raggiungere l’interoperabilità tra domini diversi.

Dublin Core e interoperabilità

Dublin Core è uno schema di metadati sufficientemente generico per essere utilizzato in domini diversi

I metadati DC sono espressi in XML o in RDF Attraverso il Protocol for Metadata Harvesting della Open Archive Initiative (OAI-PMH), consentono l’individuazione e la “raccolta” (harvesting) di risorse provenienti da fonti dati distinte verso uno o più harvester, che utilizzano i dati per fornire informazioni a valore aggiunto, come l’indicizzazione e la classificazione automatiche

Harvesting dei metadati

Da: Open Archive Forum http://www.oaforum.org

Dublin Core Metadata Initiative

Dublin Core Metadata Initiative è nata da una conferenza tenuta nel 1995 a Dublin, Ohio, nell’ambito della OCLC (On line Computer Library Center), la grande rete di servizi americana per le biblioteche. Lo scopo era trovare un nucleo di base di elementi per la descrizione di tipi diversi di risorse digitali. Con l’adozione in contesti diversi da quello esclusivamente digitale, sono stati via via aggiunti altri descrittori.

DC: principi generali

Non vi sono restrizioni per l’uso del DC: questo può essere applicato a qualsiasi tipo di risorsa (= anything that has identity)

Nessun elemento è obbligatorio

Ogni elemento e qualificatore è ripetibile

L’ordine degli elementi è irrilevante La ripetizione di elementi è raccomandata per

garantire le relazioni ed è d’aiuto alla ricerca. il DC non supporta direttamente delle gerarchie

Simple e Qualified DC Lo standard DC comprende due livelli: ‘Simple’ e "Qualified". 1) Simple DC o DC Element Set - comprende 15 elementi:

title, creator, subject, description, publisher, contributor, date, type, format, identifier, source, language, relation, coverage, rights.

Questo set di base è stato recepito come standard: ISO 15836:2003 NISO Standard Z39.85-2001 http://it.wikipedia.org/wiki/Dublin_Core

<dc:title>La Divina commedia</dc:title>

<dc:creator>Dante Alighieri</dc:creator>

<dc:contributor>G. Vandelli</dc:contributor>

<dc:publisher>Hoepli</dc:publisher>

<dc:language>Italiano</dc:language>

<dc:date>1989</dc:date>

<dc:type>Text</dc:type>

Qualified Dublin Core Il Qualfied DC aggiunge al DC Element Set:

7 elements: ulteriori descrittori aggiunti al set di 15 elementi

33 element-refinements: qualificatori che raffinano i singoli elementi encoding-schemes: una serie di schemi di

codifica (come vocabolari controllati) utili a interpretare in modo univoco un valore.

Qualified DC - Element refinements

Audience educationLevel - mediator spatial - temporal Coverage

Description abstract - tableOfContents Date available - created - dateAccepted -

dateCopyrighted - dateSubmitted - issued modified - valid extent - medium bibliographicCitation conformsTo - hasFormat - hasPart - hasVersion isFormatOf - isPartOf - isReferencedBy - isReplacedBy - isRequiredBy - isVersionOf - references - replaces - requires accessRights - license

Format Identifier Relation

Rights Title alternative

ESE Profilo Application

EUROPEANA

• Le ricerche sul web basate sul contenuto testuale (stringhe) come abbiamo visto sono limitate

• L’uso di metadata può migliorare la ricerca e la gestione delle informazioni ….

• … a patto che i metadata usino concetti condivisi

• Per supportare lo scambio, l’uso e il riuso dobbiamo adottare un linguaggio semplice per formalizzare i concetti. E questo linguaggio deve essere machine-understandable

Evoluzione dei metadata: dall’XML al RDF

Dalle relazioni al Grafo

Grafo con risorse…

…Espresso con elementi DC PURLs (Persistent Uniform Resource Locators) sono indirizzi WEB che agiscono come permanent identifiers al posto delle pagine dinamiche di molti siti Internet.

Qualunque cosa descritta da RDF è detta risorsa. Principalmente una risorsa è reperibile sul web, ma RDF

può descrivere anche risorse che non si trovano direttamente sul web.

Ogni risorsa è identificata da un URI, Universal Resource Identifier.

Il modello di dati RDF è formato da risorse, proprietà e valori.

Le proprietà sono delle relazioni che legano tra loro risorse e valori, e sono anch'esse identificate da URI. Un valore, invece, è un tipo di dato primitivo, che può essere una stringa contenente l'URI di una risorsa.

RDF

L'unità base per rappresentare un'informazione in RDF è lo statement. Uno statement è una tripla del tipo Soggetto – Predicato – Oggetto, dove il soggetto è una risorsa, il predicato è una proprietà e l'oggetto è un valore (e quindi anche un URI che punta ad un'altra risorsa). Il Data Model RDF permette di definire un modello semplice per descrivere le relazioni tra le risorse, in termini di proprietà identificate da un nome e relativi valori. RDF data model non fornisce nessun meccanismo per dichiarare queste proprietà, né per definire le relazioni tra queste proprietà ed altre risorse. A tale compito è definito da RDF Schema.

RDF

Bisogna esporre i dati in un linguaggio che ne evidenzi la semantica disambiguando i significati e che sia comprensibile dalle macchine. La tripla è il perno di una rappresentazione semantica. Essa è composta da un soggetto, un predicato e un oggetto (asserzioni della logica dei predicati)

RDF

Il Computer può pensare?

Europeana in pillole

• Progetto della Commissione Europea cui contribuiscono gli Stati Membri

• Portale multilingue che integra le risorse digitali di oltre 1.500 musei, archivi e biblioteche d’Europa

• Contiene quasi 26 milioni di dati tra testi, filmati, audio, immagini, 3D

• È alimentata da progetti nazionali (i portali della cultura) ed europei

• Interfaccia in 29 lingue

Come si alimenta Europeana?

Aggregatore tematico Aggregatori nazionali

Musei Aggregatori nazionali

Aggregatori regionali (AV) Archivi

Biblioteche Aggregatore “cieco”

musei, biblioteche,

archivi

musei, biblioteche, archivi

musei, biblioteche, archivi

Aggregare secondo Europeana

• Un aggregatore raccoglie metadati da altri fornitori di contenuti per renderli interoperabili con Europeana o con altre piattaforme

• Un aggregatore – partecipa alla diffusione della visione e degli

obiettivi di Europeana presso la propria rete di istituzioni;

– contribuisce al dibattito europeo sulle tematiche tecnico-scientifiche del settore;

– promuove l’uso di standard internazionali e l’alfabetizzazione degli operatori culturali.

Tipi di aggregatori Gli aggregatori – di livello europeo, nazionale, regionale, locale – possono essere di diversi tipi: orizzontali o intersettoriali (cross-domain), quando i metadati aggregati afferiscono a tipologie di istituti diversi (biblioteche, archivi, musei ecc.) verticali, quando i metadati aggregati afferiscono a un’unica tipologia di istituzioni (ad esempio, le biblioteche) tematici, quando i metadati aggregati, forniti da settori diversi, sono legati da un tema specifico (ad esempio, la Prima Guerra Mondiale) L’aggregatore può avere un’interfaccia pubblica di consultazione o essere un “aggregatore cieco” (dark aggregator) che funziona solo da repository per la memorizzazione dei metadati; il suo ruolo è solo quello di intermediazione.

Anche Europeana è un aggregatore • Europeana raccoglie e indicizza

solamente i metadati, non gli oggetti digitali

• Gli oggetti digitali restano consultabili sul sito dell’istituzione che li ha prodotti – quasi 26 milioni di record – 131 fornitori (progetti, aggregatori,

singole istituzioni) che portano centinaia di istituti culturali europei

Europeana (integra diversi modelli)

Europeana (integra diversi modelli)

Europeana Data Model

EDM example

• Fornisce un cornice aperta cross-domain framework che integra differenti standard

• E’ basato su un approccio semantic web approach

• Considera i Linked Open Data

EDM

• Distingue “gli oggetti forniti” - painting, book, movie, etc (edm:providedCHO) da

• Rappresentazioni digitali dell’oggetto online (edm:webResource) e

• Raggruppa questi oggetti per rappresentare l’insieme logicamente attraverso una aggregazione (ore:Aggregation)

Provided Cultural Heritage Object (CHO) e I metadata

Web Resources – rappresentazioni digitali

Aggregare

3D ICONS

Aggregatore di oggetti 3D

Ha sviluppato uno schema di metadati per

oggetti 3D

Il progetto 3D-ICONS

• Finanziato dal programma CIP-ICT PSP programme • 16 partner da 11 paesi • Digitalizzazione di oggetti e siti archeologici • Definizione di un pipeline per acquisire, processare e

pubblicare dati 3D online – in formato user-friendly – Con metadata – Per Europeana

Metadata e il contenuto 3D • I dati scientifici non possono essere

correttamente adoperati senza le informazioni relativi agli strumenti che sono stati adoperati per acquisirle e alla condizioni in cui si è operato.

• Per I dati 3D è importante fornire informazioni relative a : – Strumenti, metodi e tecniche – Processi adopeati per acquisizione e

processamento – Motivazioni e obiettivi della ricostruzione

3D Pompeii, Italy

Benefici dei Metadata

• Metadata registano informazioni sul ciclo di vita dell’oggetto 3D – Field: possono registrare informazioni sugli strumenti,

settaggi, parametri, condizioni fisiche dell’oggetto ripreso e sulle motivazioni del processo di scansione.

– Lab: possono registrare informazioni sul post-processamento dei dati e fornire basi per l’interpretazione dell’evidenza

– Access: possono supportare un uso diverso dei dati per formazione, turismo, ricerca

– Preservation: possono supportare la long term preservation e consentire il riuso dei dati

Metadata: alcuni riferimenti

• The London Charter – Stabilisce principi sulla computer

visualisation

• CIDOC CRMdig – Permette una semplice e chiara

decrizione dei processi realizzti per digitalizzare e costruire un oggetto digitrale

Pisa

Provenance

• Nella digitalizzazione degli oggetti culturali la provenance copre gli aspetti tecnici del processo: – Strumenti scelti e parametri – Considizioni di luce – Qualsiasi ostacolo o rumore/riflessione che può

disturbare l’acquisizione – Software scelto e parametri – Tecniche scelte per creare mesh, texture, decimare e

semplificare il modello, registrare e allineare le riprese – Scala e risoluzione

Paradata

• I paradata forniscono informazioni relative ai processi umani di comprensione e interpretazione dell’evidenza: – L’evidenza usata per interpretare un oggetto e creare

una ricostruzione – La metodologia usata nel progetto di ricerca

• Paradata consentono:

– Intepretazioni alternative o ipotesi e collegarle ad evidenze fattuali

3D ICONS e EUROPEANA

3D ICONS e EUROPEANA

http://vast-lab.org/3dicons/page.php?obj=1822

file:///C:/Users/Andrea/Desktop/MetadataEuropeana/1822.xml

Thesauros

3D ICONS e EUROPEANA

• L’uso di metadata può migliorare la ricerca e la gestione delle informazioni ….

• … a patto che i metadata usino concetti condivisi

• Per supportare lo scambio, l’uso e il riuso dobbiamo adottare un linguaggio semplice per formalizzare i concetti espressi da un vocabolario.

VOCABOLARI

• Pittore Domenikos Theotocopoulos = “El Greco” (soprannome)

• Altri indicizzano come “El Greco”, altri solo “D. Theotocopoulos”

• Ricercare “El Greco” non restituisce tutti i risultati

• Soluzione: un solo concetto con differenti etichette

SKOS

• Simple Knowledge Organization System – Strumento/Linguaggio per pubblicare descrizione di

concetti e organizzare una semplice struttura di conoscenza

– Applicazione di RDF (Resource Description Framework) • RDF non è un formato, ma un formalismo per il data management distribuito

http://www.w3.org/2004/02/skos/

SKOS

SKOS CORE

•Skos definisce classi e proprietà sufficienti a rappresentare le caratteristiche comuni dei Thesauri.

•Si basa su un concept- centric view nel quale le primitive non sono i termini, ma concetti astratti rappresentati da termini.

•I concetti possono essere organizzati in gerarchia usando relazioni (broader-narrower) e/o associazioni.

Glossario

Etichette lessicali

N.B. No more than one skos:prefLabel per language

Etichette Multilinguistiche

Simboli - Etichette

N.B. skos:broader owl:inverseOf skos:narrower . skos:narrower owl:inverseOf skos:broader . skos:broader a owl:TransitiveProperty . skos:narrower a owl:TransitiveProperty .

Broader-Narrower

Schema del Thesaurus

Integrare SKOS con altri standard

<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:foaf="http://xmlns.com/foaf/0.1/" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"> <foaf:Person rdf:about="#JW"> <foaf:name>Jimmy Wales</foaf:name> <foaf:mbox rdf:resource="mailto:[email protected]" /> <foaf:homepage rdf:resource="http://www.jimmywales.com/" /> <foaf:nick>Jimbo</foaf:nick> <foaf:depiction rdf:resource="http://www.jimmywales.com/aus_img_small.jpg" /> <foaf:interest> <rdf:Description rdf:about="http://www.wikimedia.org" rdfs:label="Wikipedia" /> </foaf:interest> <foaf:knows> <foaf:Person> <foaf:name>Angela Beesley</foaf:name> </foaf:Person> </foaf:knows> </foaf:Person> </rdf:RDF>

Il seguente profilo FOAF (scritto in formato XML) parla di Jimmy Wales; il suo indirizzo e-mail, la sua homepage e la sua fotografia sono delle risorse. Lui ha interesse in Wikipedia e conosce Angela Beesley (che è il nome della risorsa 'Persona').

FOAF (friend of a friend)

http://www.culturaitalia.it/pico/thesaurus/4.3/thesaurus_4.3.0.skos.xml

PICO Thesaurus

http://www.heritagedata.org/blog/vocabularies-provided/

AAT

http://www.getty.edu/research/tools/vocabularies/aat/

http://www.iconclass.nl/home

Un grafo gigante

Il soggetto corrisponde in genere ad un concetto univoco, o entità, che può essere una persona, un luogo, un’idea. I predicati rappresentano proprietà dell’entità a cui sono collegati Gli oggetti possono essere: Soggetti di altre triple Valori letterali, come stringhe o numeri

Linked Open Data

La tripla si rappresenta con un grafo Sostituiamo alla tripla una risorsa WEB

4 regole per la creazione di LD sul WEB

Usare URI (Universal Resource Identifier) per identificare ogni risorsa (concetto/documento). pleiades.stoa.org/places/579885

Usare HTTP URI per individuare in modo univico la risorsa sulla rete: http:\\pleiades.stoa.org/places/579885

Fornire informazioni utili sull’oggetto usando formati standard (es. RDF)

Includere link ad altri URI. Le interconnessioni rendono più ricchi e visibili i nostri dati

Linked Open Data

Le ontologie sono le linee che connettono tra loro le applicazioni (le stazioni). I metadati sono i convogli che trasportano l’informazione (i passeggeri) tra una stazione e l’altra.

Tim Berners-Lee ha proposto l’analogia con una rete di metropolitane

Linked Open Data

Cultura Italia LOD

Cultura Italia LOD

Cultura Italia LOD http://194.242.241.172/sparql/index.jsp?locale=it

Europeana LOD http://europeana.ontotext.com/

AAT LOD

ICONCLASS LOD

PLEIADES pleiades.stoa.org/

PLEIADES pleiades.stoa.org/

Periodi http://pleiades.stoa.org/vocabularies/time-periods Luoghi Antichi http://pleiades.stoa.org/places

Altri LOD

DBPEDIA http://it.dbpedia.org/ DBpedia Italiana è un progetto aperto e collaborativo per l’estrazione e il riutilizzo di informazioni semanticamente strutturate dalla versione italiana di Wikipedia GEONAMES http://www.geonames.org/ Il DB di GeoNames copre tutte le nazioni e contiene più di 8 milioni di luoghi

GeoNames

http://data.clarosnet.org/ Claros

CLAROS è un progetto internazionale che usa l’ICT per realizzare ricerche in differenti collezioni

Claros

Claros

CIDOC-CRM CORE SCHEMA

EVENTO

Attori

Spazio

Tempo

Oggetto

FOAF PROTON

GEONAMES

DBPEDIA DOLCE

DBPEDIA

THESAURI

FLICKR

PLEIADES

AAT

CIDOC-CRM + LD

CIDOC-CRM + LD http://data.archaeologydataservice.ac.uk/page/

CIDOC-CRM + LD

CIDOC-CRM + LD http://collection.britishmuseum.org/

CIDOC-CRM + LD

CIDOC-CRM + LD http://www.ontotext.com/customers/