Retos y oportunidades en Archivos y Gestión documental ante la Web Semántica. Ana Carrillo Pozas

Preview:

Citation preview

Retos y Oportunidades en Archivos y Gestión Documental

ante la Web Semántica

Curso impartido en la Escuela Gallega de Administración Pública, Xunta de Galicia

21 y 22 de abril de 2014

Ana Carrillo Pozas @anacarrillop

1

Objetivos

Entender los retos y oportunidades que plantea la Web

Semántica en la gestión y difusión documental con el fin de compartir, relacionar y reutilizar la información en Archivos

y otras instituciones culturales.

2

De la Web 1.0 a la Web 3.0

Evolución de la Web En realidad todas las eras de la Web conviven en la Web actual

Web 1.0 (1995) Internet de las

empresas

Consumidores Enfocada a empresas Contenido propietario

Britannica online HTML, portales

Web 2.0 (2005) Internet de las

personas Prosumidores

Redes sociales Aplicaciones en línea

Definición de estándares Wikipedia, Blogs, Wikis

Google

Web 3.0 (2015) Internet de las

cosas Portable y personal

Construida socialmente y reinventada contextualmente

Web Semántica Mashups

RDF/RDFS/OWL 3

El problema del acceso a la información en la Web actual

4

HTML

HTML

href

href href href

href

href

href

href

La web de documentos, tal y como la conocemos

Los orígenes de la Web Semántica

5

1994 1st International Conference on the World Wide Web. “Future directions”.

2001 Berners-Lee, Hendler y Lassila. “The Semantic Web: A New form of web content that is meaningful to computers will unleash a revolution of new possibilities”. Scientific American, vol. 284 (5), pp. 35-43

Tim Berners-Lee

2006 “Linked Data Principles”

2009: The Next Web

6

http://www.ted.com/talks/tim_berners_lee_on_the_next_web/

¡ Datos crudos !

7

Raw Data Now ! Tim Berners-Lee, 2009

En esta famosa charla Berners-Lee hizo un llamamiento a los gobiernos, científicos e instituciones a poner sus datos de forma abierta y accesible en la web, lo que denominó “datos crudos”. Declaró que si la gente pusiera sus datos en la web (científicos, gobiernos, comunidades, etc.), serían usados por otras personas para hacer cosas maravillosas en formas que nunca pudieron haber imaginado. Tras esta charla de 2009, se inició un movimiento de open data en todo el mundo.

Entendiendo conceptos

8

Open Data = Datos Abiertos “Open data son todos los datos que pueden ser utilizados, reutilizados y redistribuidos libremente por cualquier persona (OKF, 2012)

Características: Disponibilidad y acceso. Reutilización y redistribución. Participación universal.

Open Government Data = Reutilización de la Información del Sector Público (RISP) Es publicar la información del sector público en formatos estándares, abiertos e interoperables, facilitando su acceso y permitiendo su reutilización.

10

Relación conceptual entre Gobierno Abierto y Open Data. Autora: Dra. Flavia Baladán

https://twitter.com/datosgob/status/454586287899422721/photo/1

Relación entre los conceptos de Gobierno Abierto

12

Fuente: Fundación Telefónica. Las TICs en el gobierno abierto: Transparencia, participación y colaboración. Ariel, 2011.

Inclusión de las TIC en los procesos administrativos internos

Utilización por parte de los políticos de la Web 2.0

Abarca los procesos electorales y/o procesos de votación, deliberación y participación

Apertura de datos al público y reutilización

Gobierno Abierto: permite reforzar o restaurar los mecanismos de control y de exigencia efectiva de rendición de cuentas a políticos y gestores públicos, así como los mecanismos de pesos y contrapesos al poder ejecutivo, mediante Transparencia y derecho de Acceso a la Información Pública.

Linked Data = Datos enlazados Un conjunto de buenas prácticas para publicar y conectar datos estructurados en la Web.

13

“The term Linked Data refers to a set of best practices for publishing and connecting structured data on the Web. These best practices have been adopted by an increasing number of data providers over the last three years, leading to the creation of a global data space containing billions of assertions - the Web of Data”.

Bizer, Heath and Berners-Lee (2009)

Principios básicos de Linked Data: Time Berners-Lee Utilizar URIs para asignar un nombre (y por tanto identificar) objetos

o recursos.

Utilizar URIs para que los recursos y objetos sean accesibles a través del protocolo HTTP.

Ofrecer información útil de dichos recursos identificados mediante URIs, y en formato estándar (RDF, SPARQL).

Incluir enlaces a URIs de datos externos para conectar con recursos que puedan ser descubiertos por los clientes web.

14

Ejemplo de Linked Data: VIAF

15 http://viaf.org/

Ofrece URIs para cada registro único de autoridad. VIAF es en sí misma una aplicación Linked Data porque genera automáticamente conexiones a páginas de Wikipedia y a entidades de WorldCat.

Linked Open Data = Datos abiertos enlazados Son los datos enlazados que se han publicado

explícitamente bajo una licencia abierta.

No todos los datos enlazados son o serán abiertos.

No todos los datos abiertos son o serán enlazados.

#lodlam 16

Linked Open Data

17

Ejemplo de Linked Open Data

18

19 Ejemplo de interfaz de Linked Open Data del LOCAH Linked Archives Hub Project http://data.archiveshub.ac.uk/page/person/nra/webbmarthabeatrice1858-1943socialreformer

Ejemplos de Linked Open Data (LOD)

20 http://thedatahub.org

21 Fundación CTIC. Mapa Mundial de catálogos de datos públicos: http://datos.fundacionctic.org/sandbox/catalog/faceted/

Catalogo mundial de datos públicos

Ejemplos de reutilización (RISP) Oferta Formativa del Sector Público de Empleo del Principado de

Asturias: ejemplo de buscador facetado. Se muestran los cursos en una línea de tiempo y los centros en que se imparten en un mapa.

Federal IT Spending Dashboard: ejemplo de lo que persigue el gobierno de EEUU con la “Open Governement Directive”, una directiva en la que el presidente Obama dio instrucciones a departamentos y agencias del gobierno para “abrirse” a los ciudadanos. Este sitio web permite ver qué proyectos TIC están siendo realizados por el gobierno y su planificación.

Zaragoza Estaziona: aplicación móvil desarrollada por el propio Ayuntamiento de Zaragoza, lo que constituye un servicio de valor añadido de la propia administración creando nuevas utilidades basadas en sus propios datos.

22

España: Transparencia, Buen Gobierno, Acceso y Reutilización de la Información Pública

23

Ley 19/2013, de 9 de diciembre de transparencia, acceso a la información pública y buen gobierno.

Resolución de 19 de febrero de 2013, se la Secretaría de Estado de Administraciones Públicas, por la que se aprueba la Norma Técnica de Interoperabilidad de Reutilización de recursos de la información.

Real Decreto 1495/2011, de 24 de octubre, por el que se desarrolla la Ley 37/2007, de 16 de noviembre, sobre reutilización de la información del sector público, para el ámbito del sector público estatal.

Ley 37/2007, de 16 de noviembre, sobre reutilización de la información del sector público.

El presente/futuro de la Administración española

24

Ley 19/2013 Transparencia,

Acceso a la Información

Pública y Buen Gobierno

Ley 37/2007 RISP

Ley 11/2007 Administración

Electrónica

Sobre estas tres leyes pivotará la administración

La Tecnología no lo es todo

“La Tecnología por sí misma, no va a conseguir que una Administración sea más transparente,

abierta, participativa o generadora de conocimiento.

Lo más importante son los cambios culturales,

procedimentales, organizativos y normativos que adopte la Administración en su conjunto.”

25

La Web Semántica

26

Diapositiva presentada por Berners-Lee en TED 2009, "The Great Unveiling" en Long Beach, CA. USA, 4, Feb 2009

En la Web de documentos podemos navegar enlace tras enlace. En la Web de datos, las máquinas continúan esa navegación de un modo más profundo y ofrecen mucho más contexto de cualquier dato.

Una definición

27

“La Web Semántica es una extensión de la web actual en la que a la información disponible se le otorga un significado bien definido que permita a los ordenadores y las personas trabajar en cooperación. Está basada en la idea de proporcionar en la web datos definidos y enlazados, permitiendo que aplicaciones heterogéneas localicen, integren, razonen y reutilicen la información presente en la web”.

Hendler, Miller y Berners-Lee (2002)

Modelo Multicapa de la Web Semántica

28

Arquitectura básica Web actual Localización de objetos y recursos

mediante URL. Uso del protocolo HTTP para

establecer la comunicación entre clientes y servidores.

Marcado de documentos con el lenguaje HTML.

Web Semántica Identificación y referenciación de

recursos mediante URI.

El protocolo HTTP sigue siendo la base sobre la que se crean el resto de desarrollos.

Marcado de información en XML.

Dotar de semántica a los recursos web: RDF, RDFS, OWL.

29

Capa Sintáctica Unicode: estándar de caracteres

universal.

URI (Uniform Resource Identifier): elemento que permite referenciar e identificar los recursos de una manera unívoca.

XML (Extensible Markup Language): lenguaje de marcado, formato estándar válido para representar la información. Va a conformar la base sintáctica de todo el modelo.

XML Schema: lenguaje de esquema sintáctico que nos permite definir y validar tanto su contenido como su estructura.

30

Esta capa es el basamento del modelo de Web Semántica

Capa Semántica RDF: la piedra angular sobre la que se

vertebra la estructura semántica de la Web. Es un modelo de datos que estructura la información en forma de tripletas sujeto-propiedad-objeto que pueden ser representadas en forma de grafos.

RDF Schema (RDFS): extensión

semántica del RDF, define un lenguaje con el que es posible describir las propiedades y las clases de los recursos RDF así como las jerarquías entre dichas propiedades y clases.

31

No confundir RDF, que es un modelo de datos, con la sintaxis en la que puede presentarse RDF: RDF/XML, RDFa (para documentos HTML), Trutle, RDF/JSON.

Capa de pruebas y confianza Finalmente, es necesario establecer mecanismos para evaluar el nivel de confianza y veracidad de los recursos de información: Tecnologías de firma digital y

encriptación de datos.

34

¿?

Vamos a intentar aclararnos

35

Web de Documentos vs Web de Datos

36

dato dato dato

enlace

enlace enlace

enlace

enlace

Bases sobre las que se asienta la filosofía de la Web Semántica Se apoya en mecanismos universales como RDF, OWL y

SPARQL que proporcionan una infraestructura global.

RDF y el mecanismo de URIs son piezas fundamentales para dar forma a una red de datos enlazados (Linked Open Data) que permita exponer, compartir y conectar datos, información, recursos y conocimiento en la web semántica.

37

Elementos básicos URIs: el identificador único del recurso.

RDF: el modelo de datos para la descripción conceptual de

relaciones.

Serialización RDF: lenguaje procesable (RDF-XML)

Vocabularios RDF: define los vocabularios que utilizamos en las sentencias RDF.

SPARQL: protocolo de búsqueda de sentencias RDF.

38

Gramática de relaciones

39

Recurso A

Recurso B

relacionado con

sujeto

predicado

objeto

Lo importante son las relaciones. Estos grafos son la base de RDF.

Cada “recurso-relación-recurso” es una sentencia, con una estructura gramatical. Hay reglas para construir estos “grafos”.

La Web de Documentos tiene relaciones implícitas, pero las máquinas no pueden interpretarlas.

En la Web de Datos hacemos las relaciones explícitas para que las máquinas las “comprendan”.

Ejemplo básico de un grafo

40

http://es.wikipedia.org/wiki/Rosalia_de_

Castro

Rosalía de Castro

http://purl.org/dc/terms/title

http://bdh.bne.es/bnesearch/detalle/bdh0000058968

http://purl.org/dc/elements/1.1/creator

Cantares gallegos

http://purl.org/dc/terms/title

El grafo podría interpretarse del siguiente modo: Rosalía de Castro http://es.wikipedia.org/wiki/Rosalia_de_Castro es autora de la obra digitalizada en BDH http://bdh.bne.es/bnesearch/detalle/bdh0000058968 cuyo título es “Cantares gallegos”.

Las relaciones entre URIs se realizan mediante vocabularios/ontologías controladas. En este caso. Dublin Core: http://purl.org/dc/terms

Modelos de datos RDF para colecciones de archivos

41 http://sites.tufts.edu/liam/

42

43

RDF/XML

44

Metadatos y Ontologías En ellos se fundamenta la representación de la información en la web semántica. Metadatos

De propósito general: DCMI (Dublin Core Metadata Initiative) Para archivos: EDM (Europeana Data Model), EAD (Encoded Archival

Description), EAC-CPF (Encoded Archival Context for Corporate Bodies, Persons, and Families)

Ontologías: tienen como objetivo describir tipos de entidades y la forma en

la que se relacionan entre sí. Realizan descripciones de objetos, basadas en los principios de interoperabilidad semántica, mediante la definición de clases, propiedades, relaciones y axiomas.

45

EDM (Europeana Data Model)

Modelo adecuado para descripciones y objetos de archivos, bibliotecas y museos.

Objetivo: preservar los datos originales manteniendo la interoperabilidad mediante RDF como modelo de representación. Y sustentar la búsqueda semántica.

Construido sobre estándares establecidos: RDF(S), OAI-ORE, SKOS y Dublin Core.

Manual básico de Europeana Data Model: http://travesia.mcu.es/portalnb/jspui/bitstream/10421/7261/1/EDM_Primer_130714_es.pdf

46

EAD (Encoded Archival Description)

47

http://www.loc.gov/ead/tglib/index.html

48

http://editor.archiveshub.ac.uk/edit/

EAC-CPF (Encoded Archival Context for coporate bodies, persons and families)

49 http://eac.staatsbibliothek-berlin.de/

Modelo Conceptual de la CNEDA

50 http://www.mcu.es/archivos/docs/NEDA_MCDA_P1_P2_20120618.pdf http://www.mcu.es/archivos/MC/CNEDA/Presentacion.html

Algunas aplicaciones software para el desarrollo de la Web Semántica Editores RDF (Protégé, IsaViz) Herramientas de visualización (RDF Validator, Protégé, IsaViz) Software de almacenamiento y recuperación (Sesame) Gestión de contenido semántico (Apache Stanbol) Plataformas de desarrollo (Perllib, Pyrple, Apache Jena) Navegadores (Tabulator) Paquetes de gestión de ontologías (Ontobuilder, Text-to-Onto) Plataformas de desarrollo de servicios web semánticos (Internet Reasoning

Service) Motores de inferencia (Pellet) Aplicaciones web (Swoogle) Aplicaciones de gestión y publicación de colecciones de datos (CKAN)

“Hay un mercado open source de aplicaciones software para el desarrollo de la web semántica”. Santiago Navarro. En: Jornada de Web Semántica en archivos, bibliotecas y museos (10 abril 2014).

51

Metodología para la Reutilización de la Información y Transparencia

52

1. Selección de datos

Análisis de fuentes de

información, datos, soportes,

formatos, herramientas,

usos

Tecnologías auxiliares

2. Extracción de datos

Extraer datos de sus fuentes primarias

Tecnologías de digitalización de la información, para formatos

analógicos

3. Catalogación e Indexación de

datos

Proceso de limpieza,

catalogación, asignación de

metadatos,

Dublin Core, XML, RDF…

4. Almacenamiento y Búsqueda

de datos

Almacenamiento eficiente y con

capacidad de acceder a los

datos de forma rápida y segura

Big Data, almacenamiento

en la nube, SPARQL

5. Generación de

conocimiento

Generación de conocimiento a

partir de la información en

bruto

Linked Data

6. Presentación y

Consulta

Garantizar el acceso a la información

desde herramientas y aplicaciones de

usuario final

Aplicaciones de visualización, aplicaciones

móviles, portales…

CKAN

7. Protección de datos y seguridad

Papel esencial de Archiveros, Bibliotecarios

Requisitos para la transparencia de la información

53

Datos (no estructurados) disponibles en la Web bajo cualquier formato y en licencia abierta.

Datos disponibles como datos estructurados.

Datos disponibles en formatos no propietarios.

Utilizar URIs de forma que se puedan referenciar los datos.

Enlazar los datos con otros datos para proporcionar contexto adicional.

Sistema de clasificación de Tim Berners-Lee sobre la calidad de los datos

El objetivo de la Administración debe ser alcanzar al menos las 3 estrellas en el corto plazo: catalogar toda la información sobre los datos disponibles en la actualidad, sea cual sea su formato, primando la exposición de la información.

Formatos de Open Data (según Open Data Handbook) JSON XML RDF Hojas de Cálculo CSV Documento de texto Texto Imagen escaneada Formatos propietarios HTML

54

Proyectos de Gobierno Abierto, Transparencia y Open Data

55 http://datos.gob.es/content/iniciativas-espanolas

56

Fundación CTIC. Mapa actualizado (marzo 2014) donde se pueden consultar todas las iniciativas de datos públicos abiertos en el territorio español: http://datos.fundacionctic.org/2014/03/mapa-actual-de-las-iniciativas-open-data-en-espana/

57 http://abertos.xunta.es/portada

58 http://opendata.euskadi.net/w79-home/es

59 http://www20.gencat.cat/portal/site/dadesobertes?newLang=es_ES

60 http://governobert.terrassa.cat/

62 http://www.data.gov/

63 http://data.gov.uk

64 http://data.gov.au

Proyectos de Web Semántica de Archivos

65

http://archiveshub.ac.uk/

66

http://www.legislation.gov.uk/

67

http://labs.regesta.com/progettoReload/

69

http://lodlam.net/

70 http://www.europeana.eu/portal/

71

Video: Qué es Linked Open Data según Europeana http://vimeo.com/album/2072014/video/49231112

72

En la Jornada de Web Semántica en archivos, bibliotecas y museos (10 de abril de 2014, Madrid), Alfonso Sánchez Mairena presentó la voluntad de caminar hacia la web semántica en PARES. http://pares.mcu.es/

Caso BNE: El Mapa de Procesos 2011: Definición del Modelo de Gestión

Documental de la BNE.

2012: Desarrollo del Mapa de procesos de la BNE.

2012: Implantación de la herramienta Alfresco para la gestión documental.

2013: Despliegue de la gestión documental por procesos.

74

http://www.slideshare.net/bne/definicin-de-un-modelo-de-gestin-documental-para-la-bne

http://blog.bne.es/blog/el-mapa-de-procesos-un-medio-para-la-transparencia-de-la-bne/

http://blog.bne.es/blog/gestion-documental-colaborativa-en-la-intranet/

Caso BNE: El Mapa de Procesos Vinculación entre el Mapa de Procesos y el Sistema de Gestión

Documental:

75

Mapa de Procesos <metadatos> Estructura documental del SGD

Proceso <codigoproceso> Espacio de colaboración

Subproceso <codigosubproceso> Espacio de colaboración o Carpeta 1 nivel

Serie <codigosimplificadoserie> Carpeta 2 nivel

Expediente <denominacioncarpeta> Unidad documental compuesta

Unidad documental <denominacionunicaficheroENI>

Unidades documentales Simples

Caso BNE: El Mapa de Procesos Estructura de información del Mapa de Procesos

76

Campos Información

Nombre del Proceso Adquisiciones

Id Proceso 007

Tipo de proceso Realización

Descripción Proceso por el que se incorporan nuevos materiales o recursos al fondo de la BNE con el fin de incrementar y enriquecer el patrimonio bibliográfico.

Entradas Materiales o recursos susceptibles de adquisición

Salidas Materiales o recursos adquiridos y preparados para su proceso técnico

Áreas implicadas Departamento de Adquisiciones e Incremento del Patrimonio

Legislación y normativa Ley 29/2011, de 29 de julio, de depósito legal…. etc

Procesos asociados Proceso Técnico

Ejemplo de ficha de proceso

Caso BNE: El Mapa de Procesos Reflexión evolutiva del Mapa de Procesos:

No sólo es un instrumento de soporte a la Gestión Documental de la

BNE para respaldar su producción informativa y documental. Puede ser un medio para la transparencia de la institución, al informar

de qué se hace, cómo y por quién. Puede ser un instrumento estratégico: para el control de las actividades

y servicios, para servir de apoyo a los programas de evaluación y calidad de la biblioteca, así como facilitar la adopción de decisiones.

Puede ser un elemento clave en el Plan RISP de la BNE, en la fase de selección de datos.

Puede ser el esquema de conocimiento de la BNE, enlazado con otros esquemas de conocimiento, basándose en la web semántica.

ver más: http://blog.bne.es/blog/el-mapa-de-procesos-un-medio-para-la-transparencia-de-la-bne/#sthash.exstEE7E.dpuf

77

Caso BNE: El Mapa de Procesos Objetivos de esta reflexión evolutiva del Mapa de

Procesos: Mejorar la flexibilidad y rendimiento de la aplicación en su

vinculación con la GD. Rediseñar la aplicación cambiando el lenguaje de la base de

datos a formatos abiertos y con posibilidad de reutilización por otras aplicaciones.

Considerar la posibilidad de explotación de los recursos del mapa en entornos de datos abiertos y semánticos.

Rediseñar el modelo de datos hacia un modelo entidad-relación, basándose en el Modelo Conceptual de la CNEDA.

78

Caso BNE: El Mapa de Procesos Basándonos en el Modelo de la CNEDA se plantea un modelo de datos básico con 4 entidades:

Proceso: son los procesos y subprocesos del mapa. Agente: son las áreas implicadas, unidades productoras y proveedores externos e internos

del mapa. Documentos: son los elementos series, expedientes y documentos del mapa. Normas: la legislación y normativa consignada en el mapa.

79

Retos para archiveros y gestores de documentos

Hacer frente al reto de gestionar eficazmente el gran volumen de documentos que almacenan los archivos e instituciones culturales para facilitar a sus usuarios un acceso sencillo y enriquecido que satisfaga sus necesidades de información.

Necesidad de aportar otras soluciones para adaptar servicios a los entornos de conocimiento.

La curva de aprendizaje de la Web Semántica es muy elevada. La tecnología de Linked Data no es sencilla. Dificultad de mantener los datos actualizados. Cuestiones de licencias de datos. Faltan más ejemplos de archivos.

80

Oportunidades para archiveros y gestores de documentos

Las leyes de transparencia y reutilización son una oportunidad para los archivos.

Generación de conocimiento. Pensar primero, antes de comenzar un proyecto, qué se quiere hacer

con la información: ¿explotarla semánticamente?, ¿abrirla para su reutilización?, ¿difundirla?

Visibilidad de las instituciones. Posicionar a los archivos en el espacio global de la información. Romper el concepto de silo de información. Valores añadidos:

descripción enriquecida de objetos y repositorios, contextualización externa, sistemas de recomendación, establecimiento de esquemas comunes de conocimiento

81

82

“La web semántica puede dar salida a las relaciones de la información, de manera automática, si los datos (documentos,

expedientes, personas, lugares....) de los archivos están correctamente estructurados, normalizados y lo que es más

importante identificados con RDF”, @jmcollado

http://www.slideshare.net/bne/il-ny-a-pas-de-horstexte-challenges-for-archivallinkeddataadrianstevenson

Ana Carrillo Pozas

83

Jefe de Servicio de Intranet Responsable del Sistema de Gestión Documental

y del Mapa de Procesos

Biblioteca Nacional de España

@anacarrillop

Recommended