Upload
marco-giannone
View
178
Download
3
Embed Size (px)
Citation preview
Università degli studi Roma Tre
Corso di Laurea Magistrale in
Ingegneria Informatica
UA Service Provider – Un service provider OAI per la raccolta di metadata e la condivisione della conoscenza
Relatore Laureando
Prof. Paolo Merialdo Marco Giannone
Obiettivi
Sviluppo di un service provider per la raccolta di metadata riguardanti documenti open access pubblicati nei repository olandesi
Creazione di un servizio Web per la ricerca dei documenti
Garantire la scalabilità del sistema
Diffusione documenti Open Access
33 914 611 item disponibili
2311 repository sparsi sul globo
Il 20% degli articoli peer-review pubblicati nel 2010
Il protocollo OAI-PMH (1)
Data Provider : amministrano I sistemi che supportano l'OAI-PMH come mezzo per poter esporre I metadata
Service Provider : usano I metadata raccolti attraverso l'OAI-PMH come base per costruire servizi a valore aggiunto
Harvester : applicazione client per la raccolta dei metadata
Repository : server accessibile in rete in grado di elaborare le 6 richieste OAI-PMH.
Il protocollo OAI-PMH (2)
Richieste gestite via HTTP GET/POST
Metadata restituiti in codifica XML
I record raccolti
Header: informazioni necessarie per poter effettuare l'harvesting
Metadata:espressi in formato Dublin Core; 15 elementi descrittivi della risorsa
About:campo opzionale per informazioni riguardanti i termini di utilizzo e la provenienza dei metadata
UA Service Provider
Architettura:
Action Manager
Scraper
OAI Connection Manager
Publication Manager
Repository Manager
Scan Manager
Normalizer
Database Manager
MongoDB
Solr Search Engine
Il modulo Normalizer
Normalizzazione del campo language agli standard ISO 639
Utilizzo di un algoritmo di classificazione basato su N-Gram per l'identificazione della lingua
Analisi metadata raccolti
Alcuni dati:
Harvest effettuato sui 21 repository presenti sul territorio olandese
740 067 pubblicazioni collezionate
434 929 pubblicazioni prive del campo language
104 identificatori di lingue differenti trovati
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 210
50000
100000
150000
200000
250000
300000
0
4
8
12
16
20
24
28
32
36
40
Number of PublicationsPublications without LanguageLanguages retrieved
Il Database NoSQL
MongoDB:
Documenti JSON composti da coppie chiave=valore
Partizione dei dati su diverse macchine (Sharding) preservando l'ordine degli stessi. Le operazioni sono indirizzate ai soli nodi interessati
Replica Set per la distribuzione del carico nelle operazioni di lettura
Le transazioni non garantiscono le proprietà ACID
La form di ricerca delle pubblicazioni
Una semplice form di ricerca full text possibile grazie all'uso del full text search engine Solr
Possibilità di filtrare i risultati in base alla data, la casa di pubblicazione, la lingua e l'autore (Haystack)
Link ad una pagina dedicata alla pubblicazione o diretto alla risorsa
La pagina dedicata
Metadata della pubblicazione
Link diretto alla risorsa
'Social button' per la condivisione attraverso i più noti social network
Conclusioni
Sono stati raccolti metadata riguardanti 740 067 pubblicazioni provenienti dai 21 repository olandesi.
La normalizzazione del campo language, che ha interessato 305 138 pubblicazioni, è risultata efficace nel 98,54% dei casi.
L'algoritmo di identificazione della lingua, utilizzato sulle 434 929 pubblicazioni prive del campo language, ha riportato un risultato di successo per il 95.86% dei casi.
Scalabilità e velocità di query garantite grazie all'uso di MongoDB.
Sviluppi futuri
Ampliamento della raccolta dei metadata a tutti I repository sparsi sul suolo europeo, partendo da quelli tedeschi.
Arricchimento dei dati raccolti grazie all'aggiunta di un modulo per l'identificazione di un nome univoco per ogni singolo autore.
Raccolta di metadata in formati differenti dal Dublin Core.