Upload
michele-barbera
View
16.407
Download
0
Tags:
Embed Size (px)
DESCRIPTION
Presentation given at "Global Interoperability and Linked Data in Libraries", University of Florence, 18 Jun 2012
Citation preview
1����������� ������������������ TECH����������� ������������������ CHALLENGES
2����������� ������������������ SOCIAL����������� ������������������ CHALLENGES
3����������� ������������������ LINKED����������� ������������������ DATA����������� ������������������ ECONOMY
Unità Web of Datasmart data now!
<spaziodati.eu> <netseven.it> <fbk.eu>
Is����������� ������������������ the����������� ������������������ Semantic����������� ������������������ Web����������� ������������������ real?
no*.*����������� ������������������ I’m����������� ������������������ provocative
we����������� ������������������ aimed����������� ������������������ at����������� ������������������ this:
and����������� ������������������ failed*.
*����������� ������������������ But����������� ������������������ produced����������� ������������������ ~170k����������� ������������������ research����������� ������������������ papers����������� ������������������ in����������� ������������������ 11����������� ������������������ years,����������� ������������������ not����������� ������������������ bad!
Pizza����������� ������������������ ontology?!
well,����������� ������������������ not����������� ������������������ really����������� ������������������ failed...
we’re����������� ������������������ still����������� ������������������ working����������� ������������������ on����������� ������������������ it
less����������� ������������������ pizza����������� ������������������ more����������� ������������������ engineering
A����������� ������������������ little����������� ������������������ semantics����������� ������������������ goesa����������� ������������������ long����������� ������������������ way...
Linked����������� ������������������ Data
Semantic����������� ������������������ Web
Semantic����������� ������������������ Web
Linked����������� ������������������ Data
Web����������� ������������������ of����������� ������������������ Data
it’s����������� ������������������ not����������� ������������������ just����������� ������������������ technology
it’s����������� ������������������ definetely����������� ������������������ not����������� ������������������ AI
it’s����������� ������������������ just����������� ������������������ about����������� ������������������ linking����������� ������������������ things����������� ������������������ together
DATA IS LESS VALUABLE WHEN SILOED
your web site
because����������� ������������������ value����������� ������������������ is����������� ������������������ in����������� ������������������ context
content����������� ������������������ is����������� ������������������ king
content����������� ������������������ is����������� ������������������ kingx
linking
issuessome����������� ������������������ tec
h
1����������� ������������������ SCALABILITY
Flexibility,����������� ������������������ dinamicity,����������� ������������������ scalability
by Giovanni Tummarello
is����������� ������������������ it����������� ������������������ all����������� ������������������ about����������� ������������������ size?
by Giovanni Tummarello
dataspaces
by Giovanni Tummarello
Large����������� ������������������ Scale����������� ������������������ RDF����������� ������������������ summaries
Class Level
12M����������� ������������������ relationships
http://test01.sindice.net/szydan/dataset-view/dataset/default/www.bbc.co.uk
by Giovanni Tummarello
Large����������� ������������������ Scale����������� ������������������ RDF����������� ������������������ summaries
10B����������� ������������������ relationships
Class Level
12M����������� ������������������ relationships
http://test01.sindice.net/szydan/dataset-view/dataset/default/www.bbc.co.uk
2����������� ������������������ -����������� ������������������ streaming����������� ������������������ linked����������� ������������������ data
moved
deleted
SPOT����������� ������������������ THE����������� ������������������ DIFFERENCE
3����������� ������������������ -����������� ������������������ versioning
<self_promotion>
SIREnData Collection
500M web data documents (RDF, RDFa, Microformat, etc.)
200K datasets 50B triples
Settings Cluster of 4 nodes
2 nodes for indexing 2 nodes for querying
Replication
Indexing Performance Full index construction takes
approx 24 hours 436K triples / second
Services Keyword and structured queries Dataset search >> 99% uptime
SIREnData Collection
500M web data documents (RDF, RDFa, Microformat, etc.)
200K datasets 50B triples
Settings Cluster of 4 nodes
2 nodes for indexing 2 nodes for querying
Replication
Indexing Performance Full index construction takes
approx 24 hours 436K triples / second
Services Keyword and structured queries Dataset search >> 99% uptime
SIREnData Collection
500M web data documents (RDF, RDFa, Microformat, etc.)
200K datasets 50B triples
Settings Cluster of 4 nodes
2 nodes for indexing 2 nodes for querying
Replication
Indexing Performance Full index construction takes
approx 24 hours 436K triples / second
Services Keyword and structured queries Dataset search >> 99% uptime
SIREnData Collection
500M web data documents (RDF, RDFa, Microformat, etc.)
200K datasets 50B triples
Settings Cluster of 4 nodes
2 nodes for indexing 2 nodes for querying
Replication
Indexing Performance Full index construction takes
approx 24 hours 436K triples / second
Services Keyword and structured queries Dataset search >> 99% uptime
SIREnData Collection
500M web data documents (RDF, RDFa, Microformat, etc.)
200K datasets 50B triples
Settings Cluster of 4 nodes
2 nodes for indexing 2 nodes for querying
Replication
Indexing Performance Full index construction takes
approx 24 hours 436K triples / second
Services Keyword and structured queries Dataset search >> 99% uptime
spaziodati.3scale.net
SIREnData Collection
500M web data documents (RDF, RDFa, Microformat, etc.)
200K datasets 50B triples
Settings Cluster of 4 nodes
2 nodes for indexing 2 nodes for querying
Replication
Indexing Performance Full index construction takes
approx 24 hours 436K triples / second
Services Keyword and structured queries Dataset search >> 99% uptime
spaziodati.3scale.net
SIREnData Collection
500M web data documents (RDF, RDFa, Microformat, etc.)
200K datasets 50B triples
Settings Cluster of 4 nodes
2 nodes for indexing 2 nodes for querying
Replication
Indexing Performance Full index construction takes
approx 24 hours 436K triples / second
Services Keyword and structured queries Dataset search >> 99% uptime
spaziodati.3scale.net
</self_promotion>
issuessome����������� ������������������ social
1����������� ������������������ THINKING����������� ������������������ IN����������� ������������������ THE����������� ������������������ GRAPH
1����������� ������������������ -����������� ������������������ thinking����������� ������������������ in����������� ������������������ tables
1����������� ������������������ -����������� ������������������ thinking����������� ������������������ in����������� ������������������ tables
1����������� ������������������ -����������� ������������������ thinking����������� ������������������ in����������� ������������������ tables
1����������� ������������������ -����������� ������������������ thinking����������� ������������������ in����������� ������������������ tables
1����������� ������������������ -����������� ������������������ thinking����������� ������������������ in����������� ������������������ tables
1����������� ������������������ -����������� ������������������ thinking����������� ������������������ in����������� ������������������ tables
1����������� ������������������ -����������� ������������������ thinking����������� ������������������ in����������� ������������������ tables
1����������� ������������������ -����������� ������������������ thinking����������� ������������������ in����������� ������������������ tables
1����������� ������������������ -����������� ������������������ thinking����������� ������������������ in����������� ������������������ tables
id name age affiliation
1 Michele 33 net7
2 Mario 32 unipi
3 Silvia 28 unifi
4 Irene 27 unitn Institution City
net7 pisa
unipi pisa
unifi firenze
unitn trento
u_id f_id
1 2
1 3
3 4
4 3
thinking����������� ������������������ in����������� ������������������ tables
michele����������� ������������������ (33)
mario����������� ������������������ (32)
silvia����������� ������������������ (28)
irene����������� ������������������ (27)
friend
friend
friend
friend
works
works
works
net7unipi
unifi
unitn
place
plac
e
pisa Firenze
Trento
place
place
thinking����������� ������������������ in����������� ������������������ graphs?
Mario����������� ������������������ 342-2345672,����������� ������������������ 12����������� ������������������ Apr,����������� ������������������ Via����������� ������������������ san����������� ������������������ Giuseeppe����������� ������������������ 34Giovanni����������� ������������������ 333-2313450,����������� ������������������ Bologna,����������� ������������������ via����������� ������������������ Ugo����������� ������������������ Bassi����������� ������������������ 12Anna����������� ������������������ 328-3422345,����������� ������������������ Trento,����������� ������������������ p.zza����������� ������������������ Verdi����������� ������������������ 11Mamma����������� ������������������ 050-3422124,����������� ������������������ PisaAntonio����������� ������������������ 051-342456,����������� ������������������ Bologna
e.g.social����������� ������������������ graphs
2����������� ������������������ -����������� ������������������ A.A.A.*
*����������� ������������������ “you����������� ������������������ don’t����������� ������������������ know����������� ������������������ what����������� ������������������ you’re����������� ������������������ talking����������� ������������������ about”
AAAlibrary wikidb
scholarly����������� ������������������ community
It����������� ������������������ is����������� ������������������ about����������� ������������������ getting����������� ������������������ excited����������� ������������������ about����������� ������������������ connections,����������� ������������������ rather����������� ������������������ than����������� ������������������ nervous”“
“The����������� ������������������ less����������� ������������������ inviting����������� ������������������ side����������� ������������������ of����������� ������������������ sharing����������� ������������������ is����������� ������������������ losing����������� ������������������ some����������� ������������������ control.����������� ������������������ Indeed,����������� ������������������ at����������� ������������������ each����������� ������������������ layer����������� ������������������ ---����������� ������������������ Net,����������� ������������������ Web,����������� ������������������ or����������� ������������������ Graph����������� ������������������ ---����������� ������������������ we����������� ������������������ have����������� ������������������ ceded����������� ������������������ some����������� ������������������ control����������� ������������������ for����������� ������������������ greater����������� ������������������ benefits”
“ “
tbl
3)info����������� ������������������ vs.����������� ������������������ non-info
http://example.com/resource/CNR
http://example.com/page/CNR
http://example.com/data/CNR
http://www.cnr.it/homepage#CNR
303����������� ������������������ redirection?
hash����������� ������������������ uri?http://www.cnr.it/homepage
http-range-14
ns:creator <jonnhy����������� ������������������ web����������� ������������������ developer>
ns:date 12����������� ������������������ Jun����������� ������������������ 2011
ns:name “The����������� ������������������ Website”
ns:president <a_person>
ns:department <some_department>
ns:department <some_department>
owl:sameAs
http://www.example.com/cnr
http://universities.org/italy#cnr
caution!
4)Open����������� ������������������ World����������� ������������������ Assumption
Seat����������� ������������������ 14����������� ������������������ is����������� ������������������ reservedSeat����������� ������������������ 27����������� ������������������ is����������� ������������������ reserved
Kbase
OWA CWA
is����������� ������������������ seat����������� ������������������ 28����������� ������������������ reserved?
UNKNOWN NO
-����������� ������������������ We’re����������� ������������������ more����������� ������������������ familiar����������� ������������������ with����������� ������������������ CW����������� ������������������ reasoning-����������� ������������������ many����������� ������������������ existing����������� ������������������ tools����������� ������������������ are����������� ������������������ CW
-����������� ������������������ OWA����������� ������������������ is����������� ������������������ not����������� ������������������ difficult����������� ������������������ to����������� ������������������ understand-����������� ������������������ OWA����������� ������������������ is����������� ������������������ good����������� ������������������ to����������� ������������������ deal����������� ������������������ with����������� ������������������ inconsistencies����������� ������������������ anduniversal����������� ������������������ systems
economy?a����������� ������������������ Lin
ked����������� ������������������ Data
-����������� ������������������ ~����������� ������������������ 300����������� ������������������ datasets-����������� ������������������ not����������� ������������������ frequently����������� ������������������ updated-����������� ������������������ 0,1����������� ������������������ %����������� ������������������ of����������� ������������������ the����������� ������������������ Web����������� ������������������ of����������� ������������������ Data
Linked����������� ������������������ Data
Web����������� ������������������ of����������� ������������������ Data
<h1 id="name"><span class="fn n"> <span class="given-name">Michele </span> <span class="family-name">Barbera</span> </span></h1>
Schema.org
http://www.linkedopendata.it/schema-org-e-le-responsabilita-dei-monopolisti
G����������� ������������������ knowledge����������� ������������������ graph
Freebase����������� ������������������ +����������� ������������������ Geonames����������� ������������������ +����������� ������������������ DBpedia����������� ������������������ +����������� ������������������ schema.org����������� ������������������ +����������� ������������������ search����������� ������������������ statistics?
opaque/hidden����������� ������������������ identifiers����������� ������������������ =����������� ������������������ not����������� ������������������ reusable
BIG DATA AND INFO OVERLOAD IN USE IN 2010:
250$ billion potential annual value
to Europe’s public sector administration - more
than GDP of Greece
5 billionmobile phones 30 billion
pieces of content shared on facebook every month
40% projected growth in global datagenerated per year vs 5%
235terabytes
data collected by US library of Congress in april 2011
60% potential increas in retailers’ operating margins possible
with big data
15 out of 17 sectors in US have more data stored
per company than the US Library
of Congress
300$billion
potential annual value to US health care
(more than double the total annual
health care spending in Spain)
600$ billion potential annual consumer
surplus from using personal location data globally
60%potential increase
in retailers’ operating margins possible wiith big dat
140.000-190.000 more deep analytical talent positions
and 1,5 million more data-savvy managers need to take full advantage of big data
only in United Stateswith big data
Paul����������� ������������������ Houle,����������� ������������������ http://lists.w3.org/Archives/Public/public-lod/2012Jun/0038.html
The����������� ������������������ real����������� ������������������ value����������� ������������������ of����������� ������������������ the����������� ������������������ GKG����������� ������������������ may����������� ������������������ be����������� ������������������ in����������� ������������������ what����������� ������������������ gets����������� ������������������ deleted����������� ������������������ instead����������� ������������������ of����������� ������������������ what����������� ������������������ gets����������� ������������������ added.“ “
Open����������� ������������������ Data����������� ������������������ (and����������� ������������������ digital����������� ������������������ public����������� ������������������ goods)����������� ������������������ r e p r e s e n t s����������� ������������������ a n����������� ������������������ u n p r e c e d e n t e d����������� ������������������ opportunity����������� ������������������ to����������� ������������������ build����������� ������������������ a����������� ������������������ (local?����������� ������������������ vertical?)����������� ������������������ data����������� ������������������ economy����������� ������������������ and����������� ������������������ to����������� ������������������ preserve����������� ������������������ our����������� ������������������ cultural����������� ������������������ diversity
The����������� ������������������ gist����������� ������������������ of����������� ������������������ the����������� ������������������ matter����������� ������������������ is����������� ������������������ to����������� ������������������ turn����������� ������������������ large����������� ������������������ streams����������� ������������������ of����������� ������������������ data����������� ������������������ into����������� ������������������ added����������� ������������������ value����������� ������������������ for����������� ������������������ the����������� ������������������ public����������� ������������������ and����������� ������������������ private����������� ������������������ sector����������� ������������������ [...]Clearly,����������� ������������������ research,����������� ������������������ engineering,����������� ������������������ policy����������� ������������������ making����������� ������������������ for����������� ������������������ the����������� ������������������ Data����������� ������������������ Economy����������� ������������������ and����������� ������������������ the����������� ������������������ exploitation����������� ������������������ of����������� ������������������ the����������� ������������������ unprecedented����������� ������������������ wealth����������� ������������������ of����������� ������������������ data����������� ������������������ have����������� ������������������ become����������� ������������������ keys����������� ������������������ to����������� ������������������ the����������� ������������������ Future����������� ������������������ of����������� ������������������ Europe.
“ “
WE CAN DO IT!!!
Thank����������� ������������������ you.
@barbz79it