54
Semantic Web e Big Data Applicazioni per l'Information Retrieval e il Knowledge Management Lorenzo Verna M: [email protected] W: tykli.com

Semantic Web e Big Data - DiUniTogoy/materiale/1314/Tykli_2014_s.pdf · Semantic Web e Big Data! Applicazioni per l'Information Retrieval e il Knowledge Management ... il design,

  • Upload
    vominh

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

Semantic Web e Big Data!Applicazioni per l'Information Retrieval e il Knowledge Management

Lorenzo Verna M: [email protected] W: tykli.com

!

Tykli _ New ICT Trends _ 27/05/2014

Le problematiche dell’Information Age

Espansione dei Volumi!

Varietà / Velocità!

Frammentazione!

Interoperabilità !

Accessibilità!

Tykli _ New ICT Trends _ 27/05/2014

La sfida dell’Information Age

In 2002, digital data storage surpassed non-digital for the first time. By 2007, 94 percent of all information on the planet was in digital form.!!!!Source: Researchers at the University of Southern California took four years. "Credit: Todd Lindeman and Brian Vastag/ The Washington Post!!!!

Tykli _ New ICT Trends _ 27/05/2014

“There was 5 exabytes of information created between the dawn of civilization through 2003, but that much information is now created every 2 days, and the pace is increasing.” !Eric Schmidt – Google CEO !

Every two days now we create as much information as we did from the dawn of civilization up until 2003.

Tykli _ New ICT Trends _ 27/05/2014

Tykli _ New ICT Trends _ 27/05/2014

!Huge amount of data come from Industries and Organizations activities. -  Health Care and Clinical Data -  Scientific Research

(astronomy, engineering, genetics) -  Finance, Stock exchange -  Market analysis -  News and Editorial Contents -  Applications Logs -  TLC, mobile networks providers -  IoT, sensors -  Public Administration (OpenData) -  Security and Surveillances -  E-commerce: Amazon.com, ebay.com

Tykli _ New ICT Trends _ 27/05/2014

Big Data

2008 "Big Data" caught on quickly as a blanket term for any collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications. 3V: •  high volume, •  high velocity, •  and/or high variety

Tykli _ New ICT Trends _ 27/05/2014

3V Model

•  Volume (amount of data),

•  Velocity (speed of data in and out),

•  Variety (range of data types and sources)

•  Veracity

(data inconsistency, incompleteness, ambiguities, noise vs signal)

Tykli _ New ICT Trends _ 27/05/2014

Big Data

4/28/13 Bill Howe, UW 3

# of

byt

es

# of data sources

telescopes

spectra

LSST (~100PB; images, spectra)

PanSTARRS (~40PB; images, trajectories)

OOI (~50TB/year; sims, RSN) IOOS (~50TB/year; sims, satellite, gliders,

AUVs, vessels, more) CMOP (~10TB/year; sims, stations, gliders,

AUVs, vessels, more)

SDSS (~400TB; images, spectra, catalogs)

n-body sims

models

AUVs

stations

cruises, CTDs flow cytometry

gliders

ADCP satellites

Astronomy

Ocean Sciences

3 V’s of Big Data Volume Variety Velocity

Tykli _ New ICT Trends _ 27/05/2014

Big Data

Tykli _ New ICT Trends _ 27/05/2014

"Data is the new oil" Ann Winblad

1

l'Information Retrieval !

Tykli _ New ICT Trends _ 27/05/2014

Le problematiche dell’Information Age

Espansione dei Volumi!

Varietà / Velocità!

Frammentazione!

Interoperabilità !

Accessibilità!

Tykli _ New ICT Trends _ 27/05/2014

Information Retrieval

Information retrieval is the activity of obtaining information resources relevant to an information need from a collection of information resources. Searches can be based onmetadata or on full-text (or other content-based) indexing. Automated information retrieval systems are used to reduce what has been called "information overload". Many universities and public libraries use IR systems to provide access to books, journals and other documents. Web search engines are the most visible IR applications.

Tykli _ New ICT Trends _ 27/05/2014

Information Retrieval

“L'IR è un campo interdisciplinare che nasce dall'incrocio di discipline diverse. L'IR coinvolge la psicologia cognitiva, l'architettura informativa, la filosofia, il design, il comportamento umano sull'informazione, la linguistica, la semiotica, la scienza dell'informazione e l'informatica.”

Information Retrieval Models

 the source of that image is: !Dominik Kuropka: Modelle zur Repräsentation natürlichsprachlicher Dokumente. Ontologie-basiertes Information-Filtering und -Retrieval mit relationalen Datenbanken, ISBN 3-8325-0514-8!

Tykli _ New ICT Trends _ 27/05/2014

Cognitive models of IR

Berrypicking (Marcia Bates)

Cognitive models of IR

Exploratory Search

Exploratory search: from finding to understanding  Gary Marchionini - CACM April 2006/Vol. 49, No. 4

Tykli _ New ICT Trends _ 27/05/2014

Tools

Strutture gerarchiche di categorizzazione e classificazione. !Troppo onerose da mantenere e troppo complesso orientarsi.!

Ricerca full-text.!! - Quale domanda fare! - Troppi Risultati! - Zero Risultati!

Tykli _ New ICT Trends _ 27/05/2014

Graph Data Model

Tykli _ New ICT Trends _ 27/05/2014

Google Knowledge Graph

http://g.co/knowledge!

Tykli _ New ICT Trends _ 27/05/2014

Google Knowledge Graph

2012

Its semantic network contained over 570 million objects and more than 18 billion facts about and relationships between different objects.

Tykli _ New ICT Trends _ 27/05/2014

Facebook Open Graph

Mark Zuckerberg, CEO of Facebook, spoke about his vision for the "open graph" . – September 2011 !

Tykli _ New ICT Trends _ 27/05/2014

Facebook Open Graph

Tykli _ New ICT Trends _ 27/05/2014

Linked Data

Insieme di standard W3C per la pubblicazione, condivisione e correlazione di dati strutturati: RDF come modello dei dati, SPARQL per l’interrogazione.

Dati “sparsi” e semanticamente interconnessi attraverso diverse sorgenti:

Da silos di dati al Web of data.

Tykli _ New ICT Trends _ 27/05/2014

RDF

Tykli _ New ICT Trends _ 27/05/2014

Web of Data

Tykli _ New ICT Trends _ 27/05/2014

Global Data Space

Tykli _ New ICT Trends _ 27/05/2014

Linked Open Data Cloud

Tykli _ New ICT Trends _ 27/05/2014

SPARQL

PREFIX abc: <http://example.com/exampleOntology#>

SELECT ?capital ?country

WHERE {

?x abc:cityname ?capital ;

abc:isCapitalOf ?y .

?y abc:countryname ?country ;

abc:isInContinent abc:Africa .

}

SPARQL Protocol and RDF Query Language

Tykli _ New ICT Trends _ 27/05/2014

Raw data now

Tykli _ New ICT Trends _ 27/05/2014

Semantic Web

Tykli _ New ICT Trends _ 27/05/2014

Network Science

Source: http://barabasilab.neu.edu/networksciencebook/!

Tykli _ New ICT Trends _ 27/05/2014

Problema dei ponti di Königsberg

Nel 1736 Eulero ha enunciato il seguente teorema:!Un qualsiasi grafo è percorribile se e solo se ha tutti i nodi di grado pari, o due di essi sono di grado dispari; per percorrere un grafo "possibile" con due nodi di grado dispari, è necessario partire da uno di essi, e si terminerà sull’altro nodo dispari.!Tykli _ New ICT Trends _ 27/05/2014

Cammino minimo ecc.

Tykli _ New ICT Trends _ 27/05/2014

Scale-free network

Tykli _ New ICT Trends _ 27/05/2014

Node Centrality

Alcuni nodi che sono più importanti di altri per la configurazione della rete.

Ci sono diverse misure di centralità che colgono diverse peculiarità dei nodi nella rete.

•  Degree Centrality

•  Betweenness Centrality

•  Eignevalue Centrality

Tykli _ New ICT Trends _ 27/05/2014

Degree Centrality

Tykli _ New ICT Trends _ 27/05/2014

Betweenness Centrality

Tykli _ New ICT Trends _ 27/05/2014

Tykli _ New ICT Trends _ 27/05/2014

Community Detection

Tykli _ New ICT Trends _ 27/05/2014

PageRank®

Tykli _ New ICT Trends _ 27/05/2014

Network Analysis

Tykli _ New ICT Trends _ 27/05/2014

Network Analysis

Tykli _ New ICT Trends _ 27/05/2014

Relationship Rank®

Tykli _ New ICT Trends _ 27/05/2014

Semantic Network

Tykli _ New ICT Trends _ 27/05/2014

Le problematiche dell’Information Age

Espansione dei Volumi!

Varietà / Velocità!

Frammentazione!

Interoperabilità !

Accessibilità!

Tykli _ New ICT Trends _ 27/05/2014

La Risposta

•  Abbiamo più strumenti per affrontare grandi volumi di dati (horse power);

•  Possiamo modellare i dati su strutture a grafo;

•  Possiamo integrare frammenti da sorgenti eterogenee;

•  Possiamo analizzare le reti che ne derivano;

•  Possiamo generare delle mappe di esplorazione;

•  Possiamo rendere semplice e intuitiva l’interfaccia utente;

•  Possiamo garantire la migliore esperienza di fruizione, esplorazione, scoperta.

Tykli _ New ICT Trends _ 27/05/2014

Value lies in relationships

Grazie.

Lorenzo Verna M: [email protected] W: tykli.com