Presentazione marco giannone240607

Università degli studi Roma Tre

Corso di Laurea Magistrale in

Ingegneria Informatica

UA Service Provider – Un service provider OAI per la raccolta di metadata e la condivisione della conoscenza

Relatore Laureando

Prof. Paolo Merialdo Marco Giannone

Obiettivi

Sviluppo di un service provider per la raccolta di metadata riguardanti documenti open access pubblicati nei repository olandesi

Creazione di un servizio Web per la ricerca dei documenti

Garantire la scalabilità del sistema

Diffusione documenti Open Access

33 914 611 item disponibili

2311 repository sparsi sul globo

Il 20% degli articoli peer-review pubblicati nel 2010

Il protocollo OAI-PMH (1)

Data Provider : amministrano I sistemi che supportano l'OAI-PMH come mezzo per poter esporre I metadata

Service Provider : usano I metadata raccolti attraverso l'OAI-PMH come base per costruire servizi a valore aggiunto

Harvester : applicazione client per la raccolta dei metadata

Repository : server accessibile in rete in grado di elaborare le 6 richieste OAI-PMH.

Il protocollo OAI-PMH (2)

Richieste gestite via HTTP GET/POST

Metadata restituiti in codifica XML

I record raccolti

Header: informazioni necessarie per poter effettuare l'harvesting

Metadata:espressi in formato Dublin Core; 15 elementi descrittivi della risorsa

About:campo opzionale per informazioni riguardanti i termini di utilizzo e la provenienza dei metadata

UA Service Provider

Architettura:

Action Manager

Scraper

OAI Connection Manager

Publication Manager

Repository Manager

Scan Manager

Normalizer

Database Manager

MongoDB

Solr Search Engine

Il modulo Normalizer

Normalizzazione del campo language agli standard ISO 639

Utilizzo di un algoritmo di classificazione basato su N-Gram per l'identificazione della lingua

Analisi metadata raccolti

Alcuni dati:

Harvest effettuato sui 21 repository presenti sul territorio olandese

740 067 pubblicazioni collezionate

434 929 pubblicazioni prive del campo language

104 identificatori di lingue differenti trovati

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 210

50000

100000

150000

200000

250000

300000

0

4

8

12

16

20

24

28

32

36

40

Number of PublicationsPublications without LanguageLanguages retrieved

Il Database NoSQL

MongoDB:

Documenti JSON composti da coppie chiave=valore

Partizione dei dati su diverse macchine (Sharding) preservando l'ordine degli stessi. Le operazioni sono indirizzate ai soli nodi interessati

Replica Set per la distribuzione del carico nelle operazioni di lettura

Le transazioni non garantiscono le proprietà ACID

La form di ricerca delle pubblicazioni

Una semplice form di ricerca full text possibile grazie all'uso del full text search engine Solr

Possibilità di filtrare i risultati in base alla data, la casa di pubblicazione, la lingua e l'autore (Haystack)

Link ad una pagina dedicata alla pubblicazione o diretto alla risorsa

La pagina dedicata

Metadata della pubblicazione

Link diretto alla risorsa

'Social button' per la condivisione attraverso i più noti social network

Conclusioni

Sono stati raccolti metadata riguardanti 740 067 pubblicazioni provenienti dai 21 repository olandesi.

La normalizzazione del campo language, che ha interessato 305 138 pubblicazioni, è risultata efficace nel 98,54% dei casi.

L'algoritmo di identificazione della lingua, utilizzato sulle 434 929 pubblicazioni prive del campo language, ha riportato un risultato di successo per il 95.86% dei casi.

Scalabilità e velocità di query garantite grazie all'uso di MongoDB.

Sviluppi futuri

Ampliamento della raccolta dei metadata a tutti I repository sparsi sul suolo europeo, partendo da quelli tedeschi.

Arricchimento dei dati raccolti grazie all'aggiunta di un modulo per l'identificazione di un nome univoco per ogni singolo autore.

Raccolta di metadata in formati differenti dal Dublin Core.

Documents

Presentazione marco giannone240607