58
Datos abiertos en ciencias (4to. Taller LEARN, CEPAL, Santiago, 27 octubre 2016) Claudio Guti ´ errez DCC, Universidad de Chile / CIWS [email protected]

Open Data in the world of Science” by Dr. Claudio Gutiérrez

Embed Size (px)

Citation preview

Datos abiertos en ciencias(4to. Taller LEARN, CEPAL, Santiago, 27 octubre 2016)

Claudio Gutierrez • DCC, Universidad de Chile / CIWS •[email protected]

. ”[...] la Companıa de Jesus que no permite al profano elacceso a sus colecciones, por lo que tantos problemas de lahistoria quedaran siempre desesperadamente oscuros, o el

Banco de Francia que no permite a los especialistas del primerImperio consultar sus registros [...] ası seguiremos, hasta que

las sociedades consientan organizar racionalmente, con sumemoria, el conocimiento de sı mismas. No lo lograran sino

luchando cuerpo a cuerpo con los dos principalesresponsables del olvido y la ignorancia: la negligencia queextravıa documentos, y, mas peligroso aun, la pasion por

el secreto [...] Nuestra civilizacion habra hecho un inmensoprogreso el dıa en que el disimulo, erigido en metodo de

accion y casi en virtud burguesa, deje el lugar al gusto porla informacion.

(MARC BLOCH, APOLOGIA PARA LA HISTORIA, 1943)

Mas informacion, mas comunicacion no elimina la fundamentalimprecision del todo, mas bien la agrava. [...] La masa deinformacion no engendra ninguna verdad. Cuanta mas

informacion se pone en marcha, tanto mas intrincado sehace el mundo. La hiperinformacion y la hipercomunicacion

no inyecta ninguna luz en la oscuridad. (BYUNG-CHUL HAN, LA

SOCIEDAD DE LA TRANSPARENCIA, 2012)

ASUNTO POLITICO Y TECNICO

En esta charla: el desafıo tecnicoI. Datos abiertos hoyII. Entender los datos

A- DatosB- Datos abiertosC- Datos abiertos cientıficos

III. Desafıos

I. DATOS ABIERTOS HOY

Resumen:

• Portales de datos cientıficos• APIs para datos cientıficos online• Datasets y journals• Visualizaciones y herramientas• Marcos legales y regulaciones• Iniciativas pro datos abiertos• ... ¿que mas?... ¿como jerarquizar?

II. ENTENDER LOS DATOS

II.A. DATOS

ACLARACION NECESARIA

Datos 6= informacion; Datos 6= conocimiento

conocimiento = informacion + metainformacioninformacion = datos + metadatosdatos = ?

DATOS (DEFINICION DE BUROCRATA)hechos y estadısticas reunidas para referencia o analisis

COMPUTACION. cantidades, caracteres o sımbolos sobrelas que opera un computador, almacenadas y transmitidasen forma de senales electricas y almacenadas en mediosmagneticos, opticos o mecanicos.FILOSOFIA. cosas conocidas o asumidas como hechos,que forman la base de un razonamiento o calculo

DATOS (DEFINICION ENTRE NOS)

DatosMundo virtual

=Atomos

Mundo material

O sin matematicas:Ciencia de los datos = quımica del mundo virtual

¿QUE ES UN DATO? UN DATASET?

1. Definicion extensional:• Un archivo de datos• Un conjunto (red) de archivos de datos

2. Definicion intensional:• Una URI (o una direccion o una API)• La salida (el output) de un sensor• Un concepto: “los jugadores de la Premier League”

GESTIONAR DATOS VERSION 1.0(el enfoque tradicional)

1. Limpiar, organizar, clasificar2. Sistema de curatorıa y almacenamiento3. Sistema de recuperacion (catalogos, lenguajes consulta,

etc.)

Ejemplo de enfoque tradicional: NATURE

SCIENTIFIC DATA JOURNAL:“Scientific Data is a peer-reviewed, open-access journal fordescriptions of scientifically valuable datasets, and research

that advances the sharing and reuse of scientific data.”

GESTIONAR DATOS VERSION 2.0

JIM GRAY: No mover los datos...La Web como unificador, como infraestrutura de datos

1. Repositorios locales de los propios productores yorganizaciones que los producen

2. Infraestructura para integrarlos (virtualmente) y enlazarlos3. Sistema de archivo para efectos de seguridad

¿Y los bibliotecarios donde quedan?: diseno integracion,estandares de metadatos, sistemas de archivo.

¿POR QUE HABLAMOS DE ESTO hoy?

1. Nuevas tecnologıas de captura, transformacion yalmacenamiento de datos. Diluvio datos

2. Alcanzamos las fronteras de nuestro “hogar comun”.Empezamos a “toparnos” (Brundtland Report).Interconectiviidad

3. Nueva forma de crear conocimiento. Otra “ciencia”.

I.B. DATOS CIENTIFICOS

PREGUNTA (NADA) INGENUA:¿Que son “datos cientıficos” (de “investigacion”)?

Los datos cientıficos se definen como informacion recolectadausando metodos especıficos para un proposito especıfico deestudio o analisis. Datos recolectados en un experimento de

laboratorio hecho bajo condiciones controladas es un ejemplode datos cientıficos.

“Datos generados en el ciclo de vida de una investigacioncomo de sus resultados.” (Biblioteca CEPAL).

PREGUNTA (NADA) INGENUA:¿Que son “datos cientıficos”?

(OECD) “Research data” are defined as factual records(numerical scores, textual records, images and sounds) used

as primary sources for scientific research, and that arecommonly accepted in the scientific community as necessary to

validate research findings. A research data set constitutes asystematic, partial representation of the subject being

investigated.

PREGUNTA (NADA) INGENUA:¿Que son “datos cientıficos”?

1. Diferencia importante: datos “usados” versus datos“recolectados” o “generados”

2. Mas amplio que datos que generan (o que dejan) losproyectos cientıficos (e.g. para efectos de replicacion)

3. Verdadero desafıo que viene: datos de sensores4. Otros no menores: privacidad, seguridad (datos medicos)

II.C. DATOS ABIERTOS

Un dato es abierto si cualquiera es libre paraacceder a el, usarlo, modificarlo y compartirlobajo condiciones que, como mucho, preserven

su autorıa y su apertura.(Handbook of Open Data)

NSF Principles:

PublicAccesibleDescribedReusableCompleteTimelyManaged Post Release

OECD Principles

Openness FlexibilityTransparency Legal conformityProfessionalism InteroperabilityQuality SecurityEfficiency AccountabilitySustainability Formal responsabilityProtection ofintellectual property

OKF Principles

Access (whole, cost, form)Redistribution & ReuseAtribution & IntegrityNo discrimination against persons or groupsNo discrimination gaints fields of endeavorDistribution of LicenseLicense must not be specific to packageLicense must not restrict distribution of other works

Cinco enfoques y argumentos para “open”:

1. Democracia: acceso esta hoy desigualmentedistribuıdo

2. Economıa: baja los costos y promueve la innovacion3. Tecnico: ventajas tecnicas de arquitecturas abiertas4. Transparencia: datos deben ser accesibles a todo

publico5. Accountability: mejora la replicabilidad y la auditorıa

(tomado y modificado de Fecher & Friesike, 2014)

Open realmente open

At the end of the day, information outlives software andtranscends software and is more valuable than software. Ithink any online service can call itself “Open” if it makes,

and lives up to, this commitment: Any data that you giveus, we’ll let you take away again, without withholding

anything, or encoding it in a proprietary format, orclaiming any intellectual-property rights whatsoever.

(Set My Data Free, Tim Bray, 2006)

III. DESAFIOS

ALGUNOS DESAFIOS:1. “Negligencia que extravıa.” Hacer conciencia sobre el valor

de los datos.2. “Pasion por el secreto” (y crisis del concepto de

propiedad para datos, informacion, conocimiento).Cambiar mentalidad.

3. Modelos de incentivos y negocios adecuados. Entenderlos commons del mundo virtual.

4. Mas desafiante que los anteriores: lidiar con la avalanchade datos.

“Some of the design flaws of current open data sites are prettyobvious. The datasets that are more important, or could

potentially be more useful, are not brought into the surface ofthese sites” (Cesar Hidalgo)

DESAFIO 1: ¿Como calcular el valor de los datos? Antela avalancha de datos, ¿como jerarquizar los datos?

Cantidad de datos excede por mucho las capacidadeshumanas de “I/O”.

DESAFIO 2: Visualizacion, interfaces para maquinas,recuperacion automatizada de datos

Mentalidad clasica: bases de datos, repositorios “finitos”,accesos locales, enfoque centralizado.

DESAFIO 3: Datos globales como extension de loslocales o cualitativamente diferentes? (infinitos, globales,

decentralizados)

Los datos (atomos) estan naturalmente enlazados

DESAFIO 4: La estructura de enlazamiento (de red) delos datos Cuanto replicar, como (e.g. portales de datos

abiertos). El tema de las dificultades tecnicas.

Test de las cinco estrellas:1. disponga sus datos en la Web (en cualquier formato) bajo

licencias abiertas2. dispongalos como datos estructurados (e.g. use Excel en

vez de la imagen escaneadas de una tabla)3. hagalos disponibles en formatos abiertos no propietarios

(e.g. CSV en vez de Excel)4. use URIs para denotar cosas, de forma que las personas

puedan apuntar a, o referenciar vuestros datos5. enlace sus datos a otros datos para proveer contexto

GRACIAS POR LA ATENCION

[email protected]