Upload
others
View
11
Download
0
Embed Size (px)
Citation preview
CASOS DE USO DE FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
XIX JORNADAS ESTADÍSTICAS DE LAS COMUNIDADES AUTONOMAS (JECAS 2016)
Alberto González YanesDomingo Lorenzo DíazCarlos Sierra Fumero
CASOS DE USO DE FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIASXIX JORNADAS ESTADÍSTICAS DE LAS COMUNIDADES AUTONOMAS (JECAS 2016)Madrid, 22 y 23 de septiembre de 2016
Fuentes Big Data en la estadística pública
“Big Data son las fuentes de datos que generalmente pueden ser descritas como de alto volumen, velocidad y variedad, que requieren formas rentables e innovadoras de procesamiento con el fin de mejorar los análisis y de apoyar las tomas de decisiones”
Conference of European Statisticians. “What Does ‘Big Data’ Mean for Official Statistics?” UNECE, March 10, 2013.
Fuentes Big Data en la estadística pública
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
Fuentes Big Data en la estadística pública
● La propiedad sobre las fuentes de datos generalmente no es pública, con los problemas derivados para el acceso, uso y mantenimiento de las fuentes.
● La fuentes de datos generalmente son muestras no probabilísticas que no están pensadas para fines estadísticos, con los problemas derivados de conceptualización y sesgos.
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
Fuentes Big Data en la estadística pública
Cooperación público-privadaKlein, Thilo, Johannes Jütting, and Nicholas Robin. “Public-Private Partnerships for Statistics: Lessons Learned, Future Steps.” OECD Development Co-operation Working Papers, February 29, 2016.
Marco de calidad
UNECE Big Data Quality Task Team. “A Suggested Big Data Quality Framework.” UNECE, December 2014.
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
● Sensorización de alojamientos turísticos
● Datos de centrales de compra de pasajes
● Datos de unidades económicas en fuente abiertas
● Datos de precios en supermercados
Casos de uso en estudio dentro del ISTAC
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
Sensorización alojamientos
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
Objetivo
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
Arquitectura
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
Datos de compra de pasajes
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
Estadística de Movilidad Aérea de Canarias. Estudiar la movilidad aérea de los residentes en Canarias en sus conexiones tanto interinsulares como con el resto de España; permitiendo estudiar la evolución de los precios de compra de los viajes según anticipación a la fechas de vuelo y las conectividades realizadas por los residentes.
Estadística de Movilidad Marítima de Canarias. Estudiar la movilidad marítima de los residentes en Canarias en sus conexiones interinsulares; permitiendo estudiar la evolución de los precios de compra de los viajes según anticipación a la fechas de travesía y las conectividades realizadas por los residentes.
Estadística de Movimientos Turísticos en Fronteras de Canarias (FRONTUR-Canarias). Fuente auxiliar para la estimación de entra de turistas y para la proyección a corto plazo de entra de turistas.
Objetivo
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
Datos de interés
Ficheros de microdatos basados en los PNR (Passenger Name Record) que contiene información relevante del transporte de cada viajero aéreo. El Passenger Name Record (PNR), (español Registro de Nombre de Pasajero), es el nombre comúnmente utilizado para designar la información relativo a reservas hechas en sistemas de reservas (CRS).
Clave de viaje - Residente (Sí / No) - Fecha de nacimiento – Sexo - Municipio de compra (con codificación INE) - Fecha de compra - Código de vuelo - Identificador de aerolínea - Aeropuerto de origen - Aeropuerto de destino - Fecha del vuelo - Compra ida y vuelta (Sí / No) - Clave de viaje asociado (si compra ida y vuelta) - Precio de compra - Descuento de residente – Tasas - Código de vuelo n - Identificador de aerolínea n - Aeropuerto de origen n - Aeropuerto de destino n - Fecha de vuelo n - Precio de compra n - Descuento de residente n - Tasas n - Clave de viaje en grupo n
45% de PNR de vuelos regulares
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
Directorios de establecimientos
Fuentes externas
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
GRID para la recogida de datos
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
Proceso ETL
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
Ejemplo de proceso de extracción
1) LLamada “Listado”
• aprox 40.000 ficheros• aprox 400 Mb• 21 campos • máximo nº registros devuelve: 60
2) Llamada “Detalle”
• aprox 100.000 ficheros• aprox 500 Mb• 51 campos
3) Llamada “Fotos del sitio”
aprox 550.000 referencias aprox 128 Mb 1 campo
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
Reconciliación de fuentes
Nombre Identificador Rating Clasificación Latitud/Longitud Región/Área (según fuente) Localidad Código postal Dirección Imágenes Comentarios principales Celda Publicador URL del publicador
Nombre Identificador Rating Clasificación Latitud/Longitud Región/Área (según fuente) Localidad Código postal Dirección Imágenes Comentarios principales Celda Publicador URL del publicador
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
Mapeo a tecnología semántica que utiliza vocabularios y clasificaciones estandares, que además de ofrecer los datos se dan los metadatos de cada definición bajo unas reglas públicas y publicadas.
En concreto se han utilizado los siguientes vocabularios:
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:geo="http://www.w3.org/2003/01/geo/wgs84_pos#" xmlns:locn="http://www.w3.org/ns/locn#" xmlns:schema="http://schema.org/" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:os="http://a9.com/-/spec/opensearch/1.1/" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:owl="http://www.w3.org/2002/07/owl#" xmlns:locationOnt="http://data.linkedevents.org/def/location#" xmlns:xhv="http://www.w3.org/1999/xhtml/vocab#" xmlns:gPlacesKOS="http://data.linkedevents.org/kos/googleplaces/" xmlns:api="http://purl.org/linked-data/api/vocab#" xmlns:xsd="http://www.w3.org/2001/XMLSchema#">
Reconciliación de fuentes. Aplicación semántica
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
PVP on-line en supermercados
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
Objetivo PPA: Comparar niveles de precios entre territorios· Canarias vs Resto de España
· Listado de productos utilizado por Eurostat para el cálculo de las PPA.
- Sólo datos de alimentación y bebidas
- Ponderaciones facilitadas por el INE
Metodología Eurostat-OCDEhttp://ec.europa.eu/eurostat/web/purchasing-power-parities/methodology
Cálculo PPAij
Objetivo
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
Fuente de datos
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
PERIODO CADENA SUPERMERCADOS
CODIGO POSTAL
PRODUCTO PRECIO
Formato resumido: Productos, precios, grupos de códigos postales
PRODUCTOS
PERIODO
ID_PRODUCTO
NOMBRE_PRODUCTO
MARCA
CUANTIFICADOR
UNIDAD_DE_MEDIDA
(Otras variables de identificación del producto)
PRECIOS
PERIODO
ID_PRODUCTO
ID_GRUPO_CODIGOS_POSTALES
PRECIO
(Otras variables)
CODIGOS_POSTALES
PERIODO
ID_GRUPO_CODIGOS_POSTALES
CODIGO_POSTAL
CADENA_SUPERMERCADOS
Formato de los datos
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
Dimensión de los ficheros
PRODUCTOS: 123.000 registros, 27,6 Mb CODIGOS POSTALES: 13.500 registros, 530 Kb
PRECIOS
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
Calidad de los datos
Comparativas con precios recogidos off-line y análisis de la variabilidad de precios
Problemas de fuente● Selección de artículos Soysuper y relación con el listado de productos PPA: Búsqueda
casi manual entre los literales
● Problemas iniciales en la exportación de la información
● Códigos coherentes a lo largo del tiempo
● Problemas de integridad referencial
● Errores en tipos de datos: “Pack de 3 latas de 80 gr.” en campo numérico
● Líneas en blanco. Registros incompletos
● Existencia de registros con precios iguales a 0
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
Calidad de los datos
Dificultad para encontrar productos relacionados con carne fresca
Influencia muy elevada de un solo artículo en una posición elemental completa (Posición elemental = Conjunto de productos)
No considerar carne fresca
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
Resultados
PPA Canarias - Resto de España (resultado provisional 2014)
109,56
Gracias por su atención
Síguenos en Twitter: @istac_es
Slideshare: http://www.slideshare.net/ISTAC