Upload
christian-sifaqui
View
240
Download
0
Embed Size (px)
DESCRIPTION
Presentación realizada en Salón Ercilla de la Biblioteca Nacional, Santiago, 24 de julio de 2014
Citation preview
Conceptos de datos abiertos, datos enlazados y ontologías
24 de julio de 2014Christian Sifaqui
Introducción
Estamos en el año 2014
Celulares, computadores…Web, internet…
Mucha información está disponible…
Introducción
WebRepleta de información
Orientada al ser humano:para comprender el contenido de una páginapara relacionar contenidos dentro de una página (textos, imágenes, videos, etc.)
Introducción
Si quiero saber algo (y estoy solito)...wikipediaalgún blogalgún foro
¿Calidad de la información? ¿es confiable?¿Licencia de la información? ¿es
reutilizable?
Introducción
Originalmente la webfue creada paracompartir“documentos”
Introducción
Estándares:Documento “Bolsa” de palabrasLinks entre documentosPalabras y enlaces como el centro del universoLenguajes y protocolos:
HTML y HTTP
Introducción
WebBuscadores actuales funcionan bien, pero orientados al keywordAnálisis de palabras y textosAnálisis de los enlaces
¿y la semántica?Ejemplo: “diputados o senadores cuyos
hermanos hayan sido jueces”
Introducción
Lo que “entiende” Lo que “entiende”un programa un ser humano
Introducción
Un problema es la heterogeneidad de la información incluso en las diferentes capas
• Codificación (ASCII, UNICODE, etc.)• Lenguaje natural utilizado• Disposición de la información en la página
web
Introducción
Soluciones• ad hoc: usar métodos de IA para analizar
la información no estructurada existente en la Web
• a priori: estructurar la información en la Web para facilitar el análisis automático Web Semántica
Introducción
Estándares
Grafos
Árboles
Introducción
Tablas Árboles Grafos--------------------- ------------- -------------BD relacional XML RDF
SQL XQUERY SPARQL
Introducción
Datos abiertos (open data)
es un idea que impulsa la publicación de datos de forma libre y asequible a cualquier persona, para que sean usados y republicados sin restricciones de ningún tipo
Introducción
Datos enlazados (linked data):
es usar la web para conectar datos que no estaban relacionados previamente. Usa algunas de las mejores prácticas de la Web Semántica
Introducción
Modelo web clásica
Use HTTPUse URIUse HTMLNavegue y siga links
Buscador: proveedor lo hace por usted
Introducción
Modelo datos abiertos
Publique datos en formatos estándares para que sean asequibles
Indique licencias
Y nada más
Introducción
Modelo datos enlazados
Use URIs para expresar “cosas”Use HTTP URIs para que estas “cosas” puedan
ser referenciadas por personas y programasProporcione información útil acerca de la “cosa”
(cuando se acceda a la URI) usando estándares como RDF o SPARQL
Incluya enlaces a otras “cosas” (usando sus URIs)
Introducción
★ coloque sus cosas en la web en cualquier formato bajo una licencia abierta
★★ coloque sus cosas como datos estructurados, por ejemplo, Excel en vez de una imagen escaneada
★★★ utilice formatos no propietarios, por ejemplo, CSV en vez de Excel
★★★★ use URIs para expresar cosas, de tal manera que las personas puedan referirse a sus cosas
★★★★★ enlace sus datos a otros datos para proveer contexto
Esquema de las 5 estrellas
Ejemplos
Buenos ejemplos:
http://datos.gob.cl (septiembre 2011)http://datos.bcn.cl (mayo 2011)http://data.worldbank.org/ (abril 2010)http://data.gov.uk/ (enero 2010)http://www.data.gov/ (mayo 2009)
Ejemplos
Mal ejemplo:
http://opendata.congreso.cl/ (julio 2014)
No hay licencia explícitaNo hay manualesUsa diversas variedades de tecnologías (algunas
ya arcaicas)No hay posibilidad de contactoEstamos en Chile… ¿porqué “opendata”?
Algunos detalles
Pero la web originalmente fue concebida para documentos…
¿cómo llegar a una web de datos?
Algunos detalles
Algunos caminos:Agregar metadatos a los documentos, y que
estos metadatos estén en el modelo de datos enlazados, o
Crear sitios especiales con datos descriptivos acorde al modelo de datos enlazados, o
Crear documentos con marcas semánticas y que estas marcas estén acorde al modelo de datos enlazados, u
Otra manera
Algunos detalles
Lo que se quiere es que el significado de la información pueda ser procesada algorítmicamente
Ejemplo:El <Río>Mapocho</Río> es el principal curso de
agua de <Ciudad>Santiago</Ciudad>.
Algunos detalles
Una forma de lograr lo anterior es mediante la “representación del conocimiento”
Algunos detalles
Lógica: proporciona la estructura formal para formular reglas, permitiendo que los algoritmos puedan obtener inferencias
Ontología: define los objetos, que existen en un dominio particular
Computabilidad: es una propiedad de una base de conocimientos, que permite que sea efectiva/real
Algunos detalles
Ontologías: son representaciones, de un conjunto de conceptos y las relaciones entre ellos en un dominio determinado, lingüísticamente precisas y estructuradas formalmente
Algunos detalles
Las ontologías se utilizan como medio de estructuración de la información y para el intercambio de datos
StringStringArtista
Obra
EsculturaEscultor
Pintor Cuadro
Técnica
Museo
Cubista Flamenca
StringString
StringString
StringString
StringString
nombre
nombre
nombre
utilizapintado_por
pinta
talla
tallado_por
producida_por
produce
expuesta_ennombre
apellido
Algunos detalles
Conceptos, clasesTiposInstanciasRelacionesHerenciaAxiomas
PabloPabloGarçon à la pipeGarçon à la pipe
PicassoPicasso utiliza
talla
pintanombre
apellido
Óleo sobre lienzoÓleo sobre lienzonombre
TizianoTiziano
VecelliVecelli
nombre
apellidopinta
Fuga in EgittoFuga in Egittonombre
Miguel ÁngelMiguel Ángel
Buonarroti Buonarroti
nombre
apellido
Museo del HermitageMuseo del Hermitage
Joven en cuclillasJoven en cuclillas
nombre
expuesta_en
expuesta_en
nombre
Pintor:I1
nombre
Cuadro:I2
Pintor:I4
Escultor:I7
Técnica:I3
Cuadro:I5
Museo:I6
Escultura:I8
utiliza
Algunos detalles
Lenguajes para ontologías:RDF-Schema (extiende RDF con un vocabulario
de esquema y permite inferencias)OWL (añade mayor expresividad)DAML+OILTopic MapsF-LogicWSMLKIF…
Algunos detalles
RDFResource Description Framework (1998)
Descripción de recursosRecurso = identificado por una URISe basa en tripletas
Sujeto Predicado Objeto
Algunos detalles
Tripletas RDF
Sujeto•URI•Nodo anónimo
Sujeto•URI•Nodo anónimo
Predicado•URIPredicado•URI
Objeto•URI•Literal•Nodo anónimo
Objeto•URI•Literal•Nodo anónimo
Un colegioUn colegio Tiene como nombre/etiquetaTiene como nombre/etiqueta
Un literalUn literal
Algunos detalles
Tripletas RDFUn colegioUn colegio Tiene como
nombre/etiquetaTiene como nombre/etiqueta
Un literalUn literal
Algunos detalles
Tripletas RDFUn colegioUn colegio Tiene como
nombre/etiquetaTiene como nombre/etiqueta
Un literalUn literal
http://education.data.gov.uk/id/school/401874
http://education.data.gov.uk/id/school/401874
Tiene como nombre/etiquetaTiene como nombre/etiqueta
“Cardiff High School”“Cardiff High School”
Algunos detalles
Tripletas RDFUn colegioUn colegio Tiene como
nombre/etiquetaTiene como nombre/etiqueta
Un literalUn literal
http://education.data.gov.uk/id/school/401874
http://education.data.gov.uk/id/school/401874
Tiene como nombre/etiquetaTiene como nombre/etiqueta
“Cardiff High School”“Cardiff High School”
http://education.data.gov.uk/id/school/401874
http://education.data.gov.uk/id/school/401874
http://www.w3.org/2000/01/rdf-schema#label
http://www.w3.org/2000/01/rdf-schema#label
“Cardiff High School”“Cardiff High School”
Aplicación
LeyChile, liberado en 2008
Idea: añadirle Datos abiertos enlazados (linked open data)
- http://dl.acm.org/citation.cfm?id=2063529- h
ttp://conference.ifla.org/conference/past/ifla78/214-sifaqui-en.pdf
Aplicación
Paso 1:Use URIs para expresar “cosas”¿Cómo definir estas URIs?
Ley 20000 podría ser: http://datos.bcn.cl/recurso/cl/ley/20000¿Decretos?
Se requiere: número, fecha y organismoDecreto 341 del 11 de noviembre de 2008 del Ministerio de Educación
http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341
Aplicación
Pero las normas tienen modificaciones, por lo que la norma podría verse como una fuente bibliográfica y así sería posible de aplicar FRBR para obtener el recurso, o una versión actualizada o una manifestación específica en algún formato especial
Aplicación
Paso 3:Recurso
http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341
Versión originalhttp://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341/es@2008-11-07
Última versiónhttp://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341/es@2010-07-20
Aplicación
Ontología
Aplicación
Paso 4:Relaciones a otros datasets: países
(tratados internacionales)DBPedia, Geonames
Reutilizar vocabularios/ontologíasSKOS, DC, FOAF, DBPedia, ORG
PREFIX dc: <http://purl.org/dc/elements/1.1/>PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#> SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ?Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ?Fecha_modificacionWHERE { ?norm n:createdBy ?creator . ?creator n:hasName ?creatorName . ?norm dc:title ?normTitle . ?norm n:publishDate ?pubDate . ?norm n:isModifiedBy ?otherNorm . ?otherNorm n:publishDate ?pubDateOther . FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) FILTER (?pubDate > xsd:date("1995") && ?pubDate < xsd:date("2000") && ?pubDateOther > xsd:date("2005"))}ORDER BY (?pubDate)
PREFIX dc: <http://purl.org/dc/elements/1.1/>PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#> SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ?Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ?Fecha_modificacionWHERE { ?norm n:createdBy ?creator . ?creator n:hasName ?creatorName . ?norm dc:title ?normTitle . ?norm n:publishDate ?pubDate . ?norm n:isModifiedBy ?otherNorm . ?otherNorm n:publishDate ?pubDateOther . FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) FILTER (?pubDate > xsd:date("1995") && ?pubDate < xsd:date("2000") && ?pubDateOther > xsd:date("2005"))}ORDER BY (?pubDate)
Aplicación
Consulta compleja usando SPARQLEncontrar todas las normas emitidas por una municipalidad entre
los años 1995 y 2000, pero que fueron modificadas después del año 2005
Aplicación
Visualizaciones
Aplicación
Visualizaciones
Aplicación
Reseñas biográficas
Aplicación
Reseñas biográficas
Aplicación
Visualizaciones
Aplicación
Visualizaciones
Bibliotecas
Kungliga biblioteket https://github.com/libris/librisxl/
Library of CongressBritish LibraryBibliothèque nationale de FranceDeutsche NationalbibliothekBiblioteca Nacional de España
Bibliotecas
Library data cannot be used in a Linked Data environment without having Uniform Resource Identifiers (URIs) both for specific resources and for library-standard concepts. The official owners of resource data and standards should assign URIs as soon as possible, since application developers and other users of such data will not delay their activities, but are more likely to assign URIs themselves, outside of the owning institution. When owners are not able to assign URIs in good time, they should seek partners for this work or delegate the assignment and maintenance of URIs to others in order to avoid the proliferation of URIs for the same thing and to encourage the re-use of URIs already assigned.
Agencies responsible for the creation of catalog records and other metadata, such as national bibliographies, are the logical organizations to take a leading role in creating URIs for their described resources.
Bibliotecas
Bibliotecas ofrecen/ofrecerán su acervo en datos abiertos enlazados desde el punto de vista bibliográfico
Bibliotecas
Oferta de acervo desde el punto de vista literario
Sarah Bartlett, 2010Sarah Bartlett, 2010
Bibliotecas
Pablo Neruda
http://datos.bcn.cl/recurso/persona/2559http://id.worldcat.org/fast/34660http://dbpedia.org/page/Pablo_Nerudahttps://www.freebase.com/m/066c_http://viaf.org/viaf/95126958/http://d-nb.info/gnd/118587005http://www.idref.fr/027337960
Finalmente
Dos mundos• Mundo de documentos para el ser
humano• Mundo de datos para las máquinas
¿Futuro?
Documentos• OCR• aplicación de algoritmos Named-entity
Recognition• Enlaces a ontologías
• Ejemplo: proyecto Historia de la Ley y Labor Parlamentaria
Referencias
http://users.dcc.uchile.cl/~cgutierr/sw/
http://manzanamecanica.org/2014/07/open_data_en_el_congreso_chileno_lo_bueno_lo_malo_y_lo_feo.html
http://de.wikipedia.org/wiki/Ontologie_(Informatik)
http://www.slideshare.net/der42
http://www.w3.org/2005/Incubator/lld/XGR-lld-20111025/