Upload
learn-project
View
217
Download
0
Embed Size (px)
Citation preview
Datos abiertos en ciencias(4to. Taller LEARN, CEPAL, Santiago, 27 octubre 2016)
Claudio Gutierrez • DCC, Universidad de Chile / CIWS •[email protected]
. ”[...] la Companıa de Jesus que no permite al profano elacceso a sus colecciones, por lo que tantos problemas de lahistoria quedaran siempre desesperadamente oscuros, o el
Banco de Francia que no permite a los especialistas del primerImperio consultar sus registros [...] ası seguiremos, hasta que
las sociedades consientan organizar racionalmente, con sumemoria, el conocimiento de sı mismas. No lo lograran sino
luchando cuerpo a cuerpo con los dos principalesresponsables del olvido y la ignorancia: la negligencia queextravıa documentos, y, mas peligroso aun, la pasion por
el secreto [...] Nuestra civilizacion habra hecho un inmensoprogreso el dıa en que el disimulo, erigido en metodo de
accion y casi en virtud burguesa, deje el lugar al gusto porla informacion.
(MARC BLOCH, APOLOGIA PARA LA HISTORIA, 1943)
Mas informacion, mas comunicacion no elimina la fundamentalimprecision del todo, mas bien la agrava. [...] La masa deinformacion no engendra ninguna verdad. Cuanta mas
informacion se pone en marcha, tanto mas intrincado sehace el mundo. La hiperinformacion y la hipercomunicacion
no inyecta ninguna luz en la oscuridad. (BYUNG-CHUL HAN, LA
SOCIEDAD DE LA TRANSPARENCIA, 2012)
En esta charla: el desafıo tecnicoI. Datos abiertos hoyII. Entender los datos
A- DatosB- Datos abiertosC- Datos abiertos cientıficos
III. Desafıos
• Portales de datos cientıficos• APIs para datos cientıficos online• Datasets y journals• Visualizaciones y herramientas• Marcos legales y regulaciones• Iniciativas pro datos abiertos• ... ¿que mas?... ¿como jerarquizar?
ACLARACION NECESARIA
Datos 6= informacion; Datos 6= conocimiento
conocimiento = informacion + metainformacioninformacion = datos + metadatosdatos = ?
DATOS (DEFINICION DE BUROCRATA)hechos y estadısticas reunidas para referencia o analisis
COMPUTACION. cantidades, caracteres o sımbolos sobrelas que opera un computador, almacenadas y transmitidasen forma de senales electricas y almacenadas en mediosmagneticos, opticos o mecanicos.FILOSOFIA. cosas conocidas o asumidas como hechos,que forman la base de un razonamiento o calculo
DATOS (DEFINICION ENTRE NOS)
DatosMundo virtual
=Atomos
Mundo material
O sin matematicas:Ciencia de los datos = quımica del mundo virtual
¿QUE ES UN DATO? UN DATASET?
1. Definicion extensional:• Un archivo de datos• Un conjunto (red) de archivos de datos
2. Definicion intensional:• Una URI (o una direccion o una API)• La salida (el output) de un sensor• Un concepto: “los jugadores de la Premier League”
GESTIONAR DATOS VERSION 1.0(el enfoque tradicional)
1. Limpiar, organizar, clasificar2. Sistema de curatorıa y almacenamiento3. Sistema de recuperacion (catalogos, lenguajes consulta,
etc.)
Ejemplo de enfoque tradicional: NATURE
SCIENTIFIC DATA JOURNAL:“Scientific Data is a peer-reviewed, open-access journal fordescriptions of scientifically valuable datasets, and research
that advances the sharing and reuse of scientific data.”
GESTIONAR DATOS VERSION 2.0
JIM GRAY: No mover los datos...La Web como unificador, como infraestrutura de datos
1. Repositorios locales de los propios productores yorganizaciones que los producen
2. Infraestructura para integrarlos (virtualmente) y enlazarlos3. Sistema de archivo para efectos de seguridad
¿Y los bibliotecarios donde quedan?: diseno integracion,estandares de metadatos, sistemas de archivo.
¿POR QUE HABLAMOS DE ESTO hoy?
1. Nuevas tecnologıas de captura, transformacion yalmacenamiento de datos. Diluvio datos
2. Alcanzamos las fronteras de nuestro “hogar comun”.Empezamos a “toparnos” (Brundtland Report).Interconectiviidad
3. Nueva forma de crear conocimiento. Otra “ciencia”.
PREGUNTA (NADA) INGENUA:¿Que son “datos cientıficos” (de “investigacion”)?
Los datos cientıficos se definen como informacion recolectadausando metodos especıficos para un proposito especıfico deestudio o analisis. Datos recolectados en un experimento de
laboratorio hecho bajo condiciones controladas es un ejemplode datos cientıficos.
“Datos generados en el ciclo de vida de una investigacioncomo de sus resultados.” (Biblioteca CEPAL).
PREGUNTA (NADA) INGENUA:¿Que son “datos cientıficos”?
(OECD) “Research data” are defined as factual records(numerical scores, textual records, images and sounds) used
as primary sources for scientific research, and that arecommonly accepted in the scientific community as necessary to
validate research findings. A research data set constitutes asystematic, partial representation of the subject being
investigated.
PREGUNTA (NADA) INGENUA:¿Que son “datos cientıficos”?
1. Diferencia importante: datos “usados” versus datos“recolectados” o “generados”
2. Mas amplio que datos que generan (o que dejan) losproyectos cientıficos (e.g. para efectos de replicacion)
3. Verdadero desafıo que viene: datos de sensores4. Otros no menores: privacidad, seguridad (datos medicos)
Un dato es abierto si cualquiera es libre paraacceder a el, usarlo, modificarlo y compartirlobajo condiciones que, como mucho, preserven
su autorıa y su apertura.(Handbook of Open Data)
OECD Principles
Openness FlexibilityTransparency Legal conformityProfessionalism InteroperabilityQuality SecurityEfficiency AccountabilitySustainability Formal responsabilityProtection ofintellectual property
OKF Principles
Access (whole, cost, form)Redistribution & ReuseAtribution & IntegrityNo discrimination against persons or groupsNo discrimination gaints fields of endeavorDistribution of LicenseLicense must not be specific to packageLicense must not restrict distribution of other works
Cinco enfoques y argumentos para “open”:
1. Democracia: acceso esta hoy desigualmentedistribuıdo
2. Economıa: baja los costos y promueve la innovacion3. Tecnico: ventajas tecnicas de arquitecturas abiertas4. Transparencia: datos deben ser accesibles a todo
publico5. Accountability: mejora la replicabilidad y la auditorıa
(tomado y modificado de Fecher & Friesike, 2014)
Open realmente open
At the end of the day, information outlives software andtranscends software and is more valuable than software. Ithink any online service can call itself “Open” if it makes,
and lives up to, this commitment: Any data that you giveus, we’ll let you take away again, without withholding
anything, or encoding it in a proprietary format, orclaiming any intellectual-property rights whatsoever.
(Set My Data Free, Tim Bray, 2006)
ALGUNOS DESAFIOS:1. “Negligencia que extravıa.” Hacer conciencia sobre el valor
de los datos.2. “Pasion por el secreto” (y crisis del concepto de
propiedad para datos, informacion, conocimiento).Cambiar mentalidad.
3. Modelos de incentivos y negocios adecuados. Entenderlos commons del mundo virtual.
4. Mas desafiante que los anteriores: lidiar con la avalanchade datos.
“Some of the design flaws of current open data sites are prettyobvious. The datasets that are more important, or could
potentially be more useful, are not brought into the surface ofthese sites” (Cesar Hidalgo)
DESAFIO 1: ¿Como calcular el valor de los datos? Antela avalancha de datos, ¿como jerarquizar los datos?
Cantidad de datos excede por mucho las capacidadeshumanas de “I/O”.
DESAFIO 2: Visualizacion, interfaces para maquinas,recuperacion automatizada de datos
Mentalidad clasica: bases de datos, repositorios “finitos”,accesos locales, enfoque centralizado.
DESAFIO 3: Datos globales como extension de loslocales o cualitativamente diferentes? (infinitos, globales,
decentralizados)
Los datos (atomos) estan naturalmente enlazados
DESAFIO 4: La estructura de enlazamiento (de red) delos datos Cuanto replicar, como (e.g. portales de datos
abiertos). El tema de las dificultades tecnicas.
Test de las cinco estrellas:1. disponga sus datos en la Web (en cualquier formato) bajo
licencias abiertas2. dispongalos como datos estructurados (e.g. use Excel en
vez de la imagen escaneadas de una tabla)3. hagalos disponibles en formatos abiertos no propietarios
(e.g. CSV en vez de Excel)4. use URIs para denotar cosas, de forma que las personas
puedan apuntar a, o referenciar vuestros datos5. enlace sus datos a otros datos para proveer contexto