View
485
Download
0
Category
Preview:
Citation preview
Tecnologías de la Web SemánticaDatos abiertos enlazados
Jose Emilio Labra GayoDepartamento de Informática
Universidad de Oviedo, España
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
PresentaciónDesde 2004, grupo investigación WESO (WEb Semántics Oviedo)
Miembro del W3c WG Data ShapesChairman W3c Best practices Multilingual linked open data
Libro Web SemánticaEditorial NetBiblo, Colección Pocket Innova
http://www.netbiblo.com
Oviedo
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
La charla en 1’
¿Qué pasa?
¿Porqué?
¿Cómo?
La era de los datos
Razones para publicar datos
Portles de datos Web SemánticaEjemplos de portales de datosMitos y realidades
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
¡Atención!...llega la
era de los datos!
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Evolución de la WebCrecimiento casi exponencial
Fuente: http://www.internetlivestats.com
Dic. 2015: 965,049,928 sitios web online
3,264,979,367 usuarios de internetSitios web
Año
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
http://www.facebook.com/note.php?note_id=76191543919 http://beerpla.net/2008/08/14/how-to-find-out-the-number-of-videos-on-youtube/
Datos y datos...
Facebook: 1556 millones usuarios activosYoutube: 100 horas de video subidas/minutoTwitter: 500 millones de tweets/díaFlickr: 48 millones de fotos/mes...y lo que está por llegar...
Fuente: http://www.coverpop.com/pop/flickr_interesting
Fuente: http://www.internetlivestats.com
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Avalancha de datosTendencias Open
Producir datos es tecnológicamente fácilMovimientos:
Open SoftwareOpen Content
Open DataOpen ScienceOpen Government
Viejos modelos afectadosMúsica, Cine, finanzas,...¿Educación? ¿Gobierno? ...
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
¿Porqué publicar datos?
2 razones (para los gobiernos)TrasparenciaLiderazgo
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Trasparencia
Publicar datos abiertosAumentar credibilidadConfianza en el gobiernoLegitimar decisiones tomadasFacilitar medidas anti-corrupción
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Trasparencia
Fomentar la investigaciónAcelerar tasa de descubrimientoBien común de la ciudadaníaFacilitan contribuciones externas
Sabiduría de las masas
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Trasparencia
Datos creados con dinero públicoSon nuestrosLos hemos pagado con nuestros impuestosRetorno de inversión
Rendición de cuentasEficiencia
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Liderazgo
Gobierno como catalizadorFomentar nuevas iniciativas Colaboración ciudadana Prevención de catástrofes Portales de saludNuevas Apps
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Liderazgo
Contrarrestar fuentes de datos no oficiales¿Cómo evitar filtraciones de datos?Posibilidades 1.- Aumerntar seguridad 2.- Publicar datos oficiales
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Liderazgo
Aumentar calidad del softwareDatos oficiales interoperablesReducción de costes de mantenimientoEjemplo: ¿Última lista de barrios en una ciudad?
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Si realmente quieres algo…
…déjalo libre
Dedicado a los administradores de Bases de Datos
OK, ¡vivan los datos abiertos!pero…
¿Cómo publicarlos?
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
El mayor reto = IntegraciónEn general, el problema no es informatizar algoEl problema es integrar los sistemasInteroperabilidad
No basta con publicar datos…
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Publicar = hacer accesible
Niveles de accesibilidadDiscapacidad físicaDiscapacidad técnica: otros entornosIntelectual y cultural
AnalfabetismoBarreras de conocimientoOtros idiomas…
Accesible para las máquinas
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Pérdida semántica
Pérdida de semántica al publicarLa persona que publica tiene información que se pierde
publicador
Contenidopublicado
Múltiples formatos:HTML, PDF, JPG,
...
consumidor (persona)
consumidor (agente)
próximosábado
Semántica
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
¿Publicar para personas y computadoras a la vez?
Problema: entes muy diferentesLas computadoras necesitan un contexto
Hay que buscar solución de compromiso
001010000100100010010010010000010001
Formato ideal Formato idealEl texto en lenguaje natural es el formato ideal para tí...
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Cadenas de texto = ambigüas
¿Qué significa "Oviedo" ?Puede ser una ciudad en España...o una ciudad en Florida, USA...o un jugador de fútbol...o....¿Cómo sabemos a qué se refiere?
URIs como identificadores únicoshttp://www.oviedo.es/http://www.cityofoviedo.net/https://twitter.com/Bryan_Oviedo
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Modelo de Estrellas*★ Publicar los datos
(en cualquier formato)★★ Utilizar formato estructurado
(Excel en lugar de imágenes escaneadas)★★★ Usar formatos no propietarios
(CSV en lugar de Excel)★★★★ Usar URIs para identificar datos
(otros sistemas puedan enlazar nuestros datos)
★★★★★ Enlazar con otros datos externos (proporcionar contexto)
* Enunciado por Tim Berners-Lee en Gov 2.0 Expo 2010http://www.youtube.com/watch?v=ga1aSJXCFe0
http://5stardata.info/
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Formatos no estructurados
Formatos “caja negra”: Imágenes, vídeos, música, etc.
Formatos binarios: PDF, PS, etc.Requieren técnicas de tratamiento de la
señal, reconocimiento de patrones, etc.
★
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Ejemplo: Servicio Público de Empleo
http://www.sepe.es/contenidos/cifras/datos_estadisticos/municipios/
★
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Formatos estructurados
Los datos tienen una estructuraEjemplo: Hojas de cálculo
Problema con formatos propietariosRequieren herramientas que no son públicas
★ ★
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Ejemplo: Servicio Público de empleo
http://www.sepe.es/contenidos/cifras/datos_estadisticos/municipios/9
★ ★
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Formatos no propietarios
Utilizar formatos abiertos estructuradosEjemplos: CSV, HTML, XML, JSON,...Puede procesarse automáticamenteProblema:
El procesado depende del contextoDifícil reutilizar técnicas entre diferentes sistemas
★ ★ ★
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
CSV“Comma separated values” valores
delimitados por comas
★ ★ ★
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
HTML
HTML = información que se visualiza en navegadorSeres humanos que usan un navegadorEtiquetas de presentación: h1, p, br, table, ...
★ ★ ★
Procesar HTML automáticamente puede ser muy complicado
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
URIs para identificar datos
Utilizar URIs para identificar datosLos datos pueden ser referenciadosDiferentes representaciones mediante
negociación de contenido:• Para humanos (HTML,...)• Para máquinas (RDF,...)
★ ★ ★ ★
http://puzzles.org/pieza23471
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Ejemplo: RDF ★ ★ ★ ★
<http://www.sepe.es/datos/desempleo/Asturias/Allande/2013/10>
HTML?
@prefix sepe: <http://www.sepe.es/datos/>
sepe:obs1 sepe:municipio "Allande" ; sepe:desempleados 18 .
RDF?
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
¿Varias representaciones para lo mismo?
¿Se puede hacer un sitio web bonito para los humanos y útil para las máquinas?
★ ★ ★ ★
Metáfora: Bolsa de patatas fritas
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
¡5 estrellas!Datos enlazados
Las representaciones devuelven enlaces a otros datosEnlaces entre datasets
Ventajas:Los consumidores podrán reutilizar y descubrir
nuevos datosAplicaciones "no previstas"
★ ★ ★ ★ ★
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Ejemplo: RDF bien enlazado ★ ★ ★ ★ ★
<http://www.sepe.es/datos/desempleo/Asturias/Allende/2013/10>
HTML?
@prefix sepe: <http://www.sepe.es/datos/>
sepe:obs1 sepe:municipio <http://dbpedia.org/resource/Allande>; sepe:desempleados 23 .
RDF?
dbo:allande dbo:areaTotal 342.24 ; rdf:type <http:/.../municipalitiesInAsturias> ; dbo:country <http:/.../Spain> ; dbo:populationTotal 2106 ; . . .
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Principios Linked Open Data
1. Utilizar URIs para denotar cosas2. Permitir que las URIs sean dereferenciables3. Proporcionar información útil
Para personas y máquinas (HTML, RDF)4. Incluir enlaces a otras cosas relacionadas
★ ★ ★ ★ ★
La mejor manera de explotar tus datos se le ocurrirá a otro
Jo Walsh, Rufus Pollock, http://www.okfn.org/files/talks/xtech_2007/
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Linking Open Data (2007)
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Linking Open Data (2008)
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Linking Open Data (2009)
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Linking Open Data (2010)
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Linking Open Data (2011)
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Linking Open Data (2014)
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Portales de datos enlazados
Algunas iniciativas
data.gov.uk...datos.bcn.cldata.webfoundation.orglandportal.info
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
La Web SemánticaWeb semántica Web de DatosVisión donde los datos se publican y se
enlazan con otros datosObjetivos:
ReutilizarAutomatizarIntegrar
Tim Berners Lee, inventor de la WWW
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Algunas tecnologías
RDFDescripción datos
SPARQLConsultas
OWL - RDFSInferencias
SHEX - SHACLValidación
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
RDF
Resource Description Framework (1998)Descripción de recursos
Recurso = se identifica con URISe basa en tripletas
Sujeto Predicado Objeto
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Tripletas RDF
http://purl.org/dc/elements/1.1/creator
SujetoURI que Identifica Facultad Biología
PredicadoURI que identifica
propiedad de creación
ObjetoURI que identifica Juan
@prefix dc: <http://purl.org/dc/elements/1.1/>.
@prefix uni: <http://uniovi.es/> .
uni:biologia dc:creator uni:juan .
http://uniovi.es/biology
http://uniovi.es/juan
RDF en notación Turtle
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Grafo RDF
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .@prefix uni: <http://uniovi.es/> .@prefix dc: <http://purl.org/dc/elements/1.1/> .
uni:biologia dc:creator uni:juan .uni:biologia dc:creator uni:ana .uni:juan rdf:type uni:Profesor .uni:ana rdf:type uni:Profesor .
uni:biologia
uni:juandc:creator
uni:anadc:creator
uni:Profesor
rdf:type
rdf:type
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
RDF es composicional
uni:quimica
uni:ana
dc:creator
uni:luisdc:creator
uni:Becario
rdf:type
uni:biologia
uni:juandc:creator
dc:creator
uni:Profesor
rdf:type
rdf:type
uni:derechodc:creator
uni:Profesoruni:ana
rdf:type
uni:luis
uni:Becario
rdf:type
Grafo 1
Grafo 2
Grafo 3
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
RDF es composicional
uni:quimica
uni:ana
dc:creator
uni:luisdc:creator
uni:Becario
rdf:type
uni:biologia
uni:juan
dc:creator
dc:creator
uni:Profesor
rdf:type
rdf:type
uni:derechodc:creator
uni:Profesoruni:ana
rdf:type
uni:luis
uni:Becario
rdf:type
Grafo 1
Grafo 2
Grafo 3
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
RDF es composicional
uni:quimica
uni:anadc:creator
uni:luis
dc:creatoruni:Becario
rdf:type
uni:biologia
uni:juan
dc:creator
dc:creator
uni:Profesor
rdf:type
rdf:type
uni:derechodc:creator
Grafo 1+
Grafo 2+
Grafo 3
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Formatos RDF
Numerosos formatos y sintaxis:N3RDF/XMLN-TriplesTurtlejson-ldRDFaetc.
¡Lo más importante es el modelo de
grafo!
...pero...
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
SPARQL
Simple Protocol and RDF Query LanguageLenguaje de consultas para la web semántica
Se basa en encaje de grafosExtrae información de modelos RDF
Un protocoloMecanismo para invocar SPARQL en un servicioEndpoint SPARQL: Servicio que cumple el protocolo
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
SPARQL
Ejemplo: Buscar páginas cuyo autor sea un profesor
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .@prefix uni: <http://uniovi.es/> .@prefix dc: <http://purl.org/dc/elements/1.1/> .
SELECT ?p ?c WHERE { ?p dc:creator ?c . ?c rdf:type uni:Profesor. }
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
SPARQL
SELECT ?p ?c WHERE { ?p dc:creator ?c . ?c rdf:type uni:Profesor .}
uni:quimica
uni:anadc:creator
uni:luis
dc:creatoruni:Becario
rdf:type
uni:biologia
uni:juan
dc:creator
dc:creator
uni:Profesor
rdf:type
rdf:type
uni:derechodc:creator
?p
dc:creator ?c
uni:Profesor
rdf:type
?p
?c
Resultados ?p ?cuni:biologia uni:juan
uni:quimica uni:anauni:biologia uni:ana
?p
?c
?p
?c
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
OWL, RDF Schema
Permite definir clases, propiedades,...OWL permite declarar ontologíasRDF Schema es un poco más sencillo
Se pueden hacer inferencias
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Ejemplo con inferencias
rdf:type
uni:Profesor
rdfs:subClassOf
uni:Persona
Ejemplo
uni:juan
rdf:type
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
SPARQL + Inferencia
Combinar SPARQL e inferenciaEjemplo: Páginas cuyo autor sea una persona@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .@prefix uni: <http://uniovi.es/> .@prefix dc: <http://purl.org/dc/elements/1.1/> .
SELECT ?p ?c WHERE { ?p dc:creator ?c . ?p rdf:type uni:Persona. }
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
uni:quimica
uni:anadc:creator
uni:luis
dc:creatoruni:Becario
rdf:type
uni:biologia
uni:juan
dc:creator
dc:creator
uni:Profesor
rdf:type
rdf:type
uni:derechodc:creator
uni:Persona
rdfs:subClassOf
rdfs:subClassOf
SPARQL con inferencia
SELECT ?p ?c WHERE { ?p dc:creator ?c . ?c rdf:type uni:Persona .}
?p
dc:creator ?c
uni:Persona
rdf:type
?p
?c
Resultados ?p ?cuni:biologia uni:juan
uni:quimica uni:anauni:biologia uni:ana
?p
?c
?p
?c
rdf:type
rdf:type
?p
?c
uni:derecho uni:luis
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Ontologías
RDF Schema permite hacer inferencias sencillasPoca expresividad
OWL (Web Ontology Language) Añade más expresividadFormalizar dominios concretos: ontologías
Expresividad vs Complejidad
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
ShEx - SHACL
Objetivo: Describir y validar datos en RDFShEx (Shape Expressions)
Comienza a desarrollarse en 2014Versión 1.0 (inicios de 2016)
SHACL (Shapes Constraint Language)Grupo de trabajo W3c RDF Data Shapes Primer borrador (Oct. 2015)
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
ShEx - SHACLEjemplo (ShEx)
uni:biologia dc:title "02/03/2015"^^xsd:date .uni:biologia dc:creator uni:juan .uni:biologia dc:creator uni:luis .uni:juan rdf:type uni:Profesor .uni:luis rdf:type uni:Becario .uni:derecho dc:title "Febrero" .uni:derecho dc:creator uni:juan .uni:derecho dc:creator uni:pepe .uni:pepe rdf:type uni:Elefante .
<WebPage> { dc:creator @<Creator>+, dc:created xsd:date? }
<Creator> { rdf:type [uni:Profesor uni:Becario]}
X
WebPagedc:created : xsd:date ?
Creatorrdf:type: [uni:Profesor uni:Becario]
dc:creator
1..*
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
ShEx - SHACL
SHACL: borrador de trabajo Oct. 2015Sintaxis RDF de momento
Podría utilizarse sintaxis similar a ShExSemántica a través de SPARQL2 niveles: básico y avanzado (más SPARQL)Más información: http://www.w3.org/TR/shacl/
Expresividad vs Complejidad
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
WESOWeb Semantics Oviedo
Grupo de investigación creado en 2004Algunos proyectos
Tecnologías semánticasConciliación de entidades, multimedia, validación, ...
Portales de datos: BOPA Asturias, BCN Chile, Licitaciones públicas,...
2 ejemplos seleccionados:WebIndex - Web FoundationLandPortal
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
WebIndex
Índice del impacto de la Web a nivel mundialPresentado por Tim Berners-Lee
http://data.webfoundation.org/webindex/v2013/country/PER
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
LandPortal
Portal con datos de la tierra Desarrollado para la IFAD (Naciones Unidas)
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Mitos y realidadesWeb Semántica
Navegador inteligenteUna nueva WebEl cerebro globalLa gran verdad: Una única ontologíaUna etiqueta para cada cosaNadie querrá compartir datosDemasiada aperturaModa pasajeraNo hay Killer application
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
El navegador inteligenteMito:
El objetivo es conseguir sistemas que naveguen por internet de forma inteligente
Realidad:Objetivo = desarrollar tecnologías que faciliten
el procesamiento automático de la información de la Web y su integración
No es Inteligencia Artificial pero sí se utilizan técnicas de esa disciplina
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Una nueva Web
Mito:La Web Semántica ( Web 3.0) es una nueva
versión de la web que obligará a cambiar todo lo que ya hay
Realidad:Se propone transición gradual. Tecnologías semánticas ofrecen valor añadido.
"A Little semantics goes a long way"J. A. hendler
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
El cerebro global
Mito:La Web semántica generará un cerebro global
Realidad:Objetivo: facilitar un mejor uso de los datos de la
web.Sí es un camino hacia la inteligencia colectiva
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
La gran verdad
Mito: Se propone la creación de una única ontología
con todo el conocimiento de la humanidadRealidad:
Múltiples ontologías para diferentes dominios Facilitar la integraciónMejorar la descripción de dominios
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Una etiqueta para cada cosa
Mito: Quieren asignar una etiqueta similar a RFID
para cada cosaRealidad
No es factible que cada cosa conlleve sus propios metadatos
Descripciones de recursos externas a ellos
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Nadie querrá compartir datos
Mito: Los publicadores de datos no estarán
motivados a liberar los datosRealidad:
Lo harán cuando encuentren un retorno de inversión adecuado
Posicionamiento semántico
http://schema.orgPrincipales buscadores indexan datos estructurados
Google, Yandex, Yahoo, Bing
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Demasiada apertura
Mito:Si sacamos los datos de las bases de datos, los
perdemosRealidad:
Existen tecnologías para limitar accesoDeclarar de dónde provienen los datosEstablecer propiedad legal de los datos (licencias)
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Moda pasajera
Mito:Mito1: La Web semántica es algo nuevoMito 2: La Web semántica es algo viejo
Realidad:Planteada ya en 1994, visión a largo plazoExceso de entusiasmo vs escepticismo
Casos de éxito no siempre asociados a web semántica: RSS, microformatos, XBRL, Schema, …
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
No hay killer applicationMito:
No se ha desarrollado una killer applicationRealidad:
¿Es necesaria?¿Linked Open Data?
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Es caroMito:
Publicar datos enlazados es caroRealidad
El trabajo más difícil suele estar ya hechoLo más difícil es convencer a las personas
Involucrar a desarrolladores, organizaciones, etc.Existe mucho código abierto disponiblePero...
...publicar datos enlazados no es a coste cero
Jose Emilio Labra Gayo, http://www.di.uniovi.es/~labra
Conclusiones y retosProyecto Linked Open Data es imparable De portales Web a portales de datos
Primera fase = producciónSegunda fase = consumo
¿Qué quieren los usuarios?Calidad es cada vez más importante
Fin de la presentación
Recommended