Upload
vominh
View
214
Download
0
Embed Size (px)
Citation preview
Semantic Web e Big Data!Applicazioni per l'Information Retrieval e il Knowledge Management
Lorenzo Verna M: [email protected] W: tykli.com
!
Tykli _ New ICT Trends _ 27/05/2014
Le problematiche dell’Information Age
Espansione dei Volumi!
Varietà / Velocità!
Frammentazione!
Interoperabilità !
Accessibilità!
Tykli _ New ICT Trends _ 27/05/2014
La sfida dell’Information Age
In 2002, digital data storage surpassed non-digital for the first time. By 2007, 94 percent of all information on the planet was in digital form.!!!!Source: Researchers at the University of Southern California took four years. "Credit: Todd Lindeman and Brian Vastag/ The Washington Post!!!!
Tykli _ New ICT Trends _ 27/05/2014
“There was 5 exabytes of information created between the dawn of civilization through 2003, but that much information is now created every 2 days, and the pace is increasing.” !Eric Schmidt – Google CEO !
Every two days now we create as much information as we did from the dawn of civilization up until 2003.
Tykli _ New ICT Trends _ 27/05/2014
!Huge amount of data come from Industries and Organizations activities. - Health Care and Clinical Data - Scientific Research
(astronomy, engineering, genetics) - Finance, Stock exchange - Market analysis - News and Editorial Contents - Applications Logs - TLC, mobile networks providers - IoT, sensors - Public Administration (OpenData) - Security and Surveillances - E-commerce: Amazon.com, ebay.com
Tykli _ New ICT Trends _ 27/05/2014
Big Data
2008 "Big Data" caught on quickly as a blanket term for any collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications. 3V: • high volume, • high velocity, • and/or high variety
Tykli _ New ICT Trends _ 27/05/2014
3V Model
• Volume (amount of data),
• Velocity (speed of data in and out),
• Variety (range of data types and sources)
• Veracity
(data inconsistency, incompleteness, ambiguities, noise vs signal)
Tykli _ New ICT Trends _ 27/05/2014
Big Data
4/28/13 Bill Howe, UW 3
# of
byt
es
# of data sources
telescopes
spectra
LSST (~100PB; images, spectra)
PanSTARRS (~40PB; images, trajectories)
OOI (~50TB/year; sims, RSN) IOOS (~50TB/year; sims, satellite, gliders,
AUVs, vessels, more) CMOP (~10TB/year; sims, stations, gliders,
AUVs, vessels, more)
SDSS (~400TB; images, spectra, catalogs)
n-body sims
models
AUVs
stations
cruises, CTDs flow cytometry
gliders
ADCP satellites
Astronomy
Ocean Sciences
3 V’s of Big Data Volume Variety Velocity
Tykli _ New ICT Trends _ 27/05/2014
Le problematiche dell’Information Age
Espansione dei Volumi!
Varietà / Velocità!
Frammentazione!
Interoperabilità !
Accessibilità!
Tykli _ New ICT Trends _ 27/05/2014
Information Retrieval
Information retrieval is the activity of obtaining information resources relevant to an information need from a collection of information resources. Searches can be based onmetadata or on full-text (or other content-based) indexing. Automated information retrieval systems are used to reduce what has been called "information overload". Many universities and public libraries use IR systems to provide access to books, journals and other documents. Web search engines are the most visible IR applications.
Tykli _ New ICT Trends _ 27/05/2014
Information Retrieval
“L'IR è un campo interdisciplinare che nasce dall'incrocio di discipline diverse. L'IR coinvolge la psicologia cognitiva, l'architettura informativa, la filosofia, il design, il comportamento umano sull'informazione, la linguistica, la semiotica, la scienza dell'informazione e l'informatica.”
Information Retrieval Models
the source of that image is: !Dominik Kuropka: Modelle zur Repräsentation natürlichsprachlicher Dokumente. Ontologie-basiertes Information-Filtering und -Retrieval mit relationalen Datenbanken, ISBN 3-8325-0514-8!
Cognitive models of IR
Exploratory Search
Exploratory search: from finding to understanding Gary Marchionini - CACM April 2006/Vol. 49, No. 4
Tykli _ New ICT Trends _ 27/05/2014
Tools
Strutture gerarchiche di categorizzazione e classificazione. !Troppo onerose da mantenere e troppo complesso orientarsi.!
Ricerca full-text.!! - Quale domanda fare! - Troppi Risultati! - Zero Risultati!
Tykli _ New ICT Trends _ 27/05/2014
Google Knowledge Graph
2012
Its semantic network contained over 570 million objects and more than 18 billion facts about and relationships between different objects.
Tykli _ New ICT Trends _ 27/05/2014
Facebook Open Graph
Mark Zuckerberg, CEO of Facebook, spoke about his vision for the "open graph" . – September 2011 !
Tykli _ New ICT Trends _ 27/05/2014
Linked Data
Insieme di standard W3C per la pubblicazione, condivisione e correlazione di dati strutturati: RDF come modello dei dati, SPARQL per l’interrogazione.
Dati “sparsi” e semanticamente interconnessi attraverso diverse sorgenti:
Da silos di dati al Web of data.
Tykli _ New ICT Trends _ 27/05/2014
SPARQL
PREFIX abc: <http://example.com/exampleOntology#>
SELECT ?capital ?country
WHERE {
?x abc:cityname ?capital ;
abc:isCapitalOf ?y .
?y abc:countryname ?country ;
abc:isInContinent abc:Africa .
}
SPARQL Protocol and RDF Query Language
Tykli _ New ICT Trends _ 27/05/2014
Network Science
Source: http://barabasilab.neu.edu/networksciencebook/!
Problema dei ponti di Königsberg
Nel 1736 Eulero ha enunciato il seguente teorema:!Un qualsiasi grafo è percorribile se e solo se ha tutti i nodi di grado pari, o due di essi sono di grado dispari; per percorrere un grafo "possibile" con due nodi di grado dispari, è necessario partire da uno di essi, e si terminerà sull’altro nodo dispari.!Tykli _ New ICT Trends _ 27/05/2014
Node Centrality
Alcuni nodi che sono più importanti di altri per la configurazione della rete.
Ci sono diverse misure di centralità che colgono diverse peculiarità dei nodi nella rete.
• Degree Centrality
• Betweenness Centrality
• Eignevalue Centrality
Tykli _ New ICT Trends _ 27/05/2014
Tykli _ New ICT Trends _ 27/05/2014
Le problematiche dell’Information Age
Espansione dei Volumi!
Varietà / Velocità!
Frammentazione!
Interoperabilità !
Accessibilità!
Tykli _ New ICT Trends _ 27/05/2014
La Risposta
• Abbiamo più strumenti per affrontare grandi volumi di dati (horse power);
• Possiamo modellare i dati su strutture a grafo;
• Possiamo integrare frammenti da sorgenti eterogenee;
• Possiamo analizzare le reti che ne derivano;
• Possiamo generare delle mappe di esplorazione;
• Possiamo rendere semplice e intuitiva l’interfaccia utente;
• Possiamo garantire la migliore esperienza di fruizione, esplorazione, scoperta.