28
Big Data: experiencias (académicas) reales Marcos Colebrook Santamaría Carlos J. Pérez González José L. Roda García Jornadas #BigDataCanarias 21-22 diciembre 2016

Big Data: Experiencias (académicas) reales

Embed Size (px)

Citation preview

Page 1: Big Data: Experiencias (académicas) reales

Big Data: experiencias (académicas) reales

Marcos Colebrook SantamaríaCarlos J. Pérez González

José L. Roda García

Jornadas #BigDataCanarias 21-22 diciembre 2016

Page 2: Big Data: Experiencias (académicas) reales

Contenidos

■ Un poco de retrospectiva■ Proyectos Fin de Carrera (PFC) y Trabajos Fin de Grado (TFG)

sobre Big Data:● PFC: Hadoop + MapReduce (2014)● TFG: Análisis de ficheros log de la WiFi-ULL (2015)● TFG: Ana ́lisis de los incidentes del 1·1·2 (2016)● TFG: Módulo BI para la plataforma X4Apps (2016)● TFG: Despliegue de clúster Spark sobre Docker (2016)

■ PFC y TFG sobre Genómica:● PFC: IonGAP (2014)● TFG: QuiimeApp (2016)● TFG: Notebook de Jupyter para el MinION (2016)

■ Otros proyectos relacionados:● TFG: Extracción y visualización de info legal (2015)

■ ¿Preguntas?2

Page 3: Big Data: Experiencias (académicas) reales

Conclusiones:

■ Big Data: tecnología emergente, pero verdadera oportunidad de mercado.

■ Data Scientist/Engineer:● Matemáticas+Estadística● R, Python, Hadoop, Spark,

D3, Java, etc.● Curiosidad● Storytelling: comunicación

de resultados.■ Tendencias:

● Visualización de datos● Modelos predictivos● Social Analytics● Spark / Storm vs. Hadoop

Un poco de retrospectiva: 16-6-2014

3Jornadas #BigDataCanarias 21-22 diciembre 2016

Page 4: Big Data: Experiencias (académicas) reales

PFC: Hadoop+MapReduce (1)

4Jornadas #BigDataCanarias 21-22 diciembre 2016

Procesando Big Data mediante MapReduce (2014)Autores: Alejandro Tejera, Jaime CorralesDirectores: José L. Roda, Marcos Colebrook

■ Primer proyecto dirigido en ETSII y una primera aproximación al tópico Big Data

■ Esquema:● Introduccio ́n a Big Data● Te ́cnicas y algoritmos● Hadoop y MapReduce● Casos de estudio

■ Tecnología: Java y Hadoop 2 sobre los casi 200 PCs del Centro de Cálculo ETSII.

Page 5: Big Data: Experiencias (académicas) reales

PFC: Hadoop+MapReduce (2)

5Jornadas #BigDataCanarias 21-22 diciembre 2016

■ Resultados interesantes:● Cálculo de la temperatura máxima de datos

meteorológicos: reducción del tiempo de cómputo en un 90%.

● Ana ́lisis del weblog del Centro de Ca ́lculo: detección de IPs conflictivas.

● Bu ́squeda de duplicados en el registro de padro ́n: comparando 106 registros (+detalles luego)

● Estudio estadi ́stico del contexto: buenos resultados con corpus de 4GB y solo 16 nodos.

Page 6: Big Data: Experiencias (académicas) reales

TFG: Análisis de ficheros log de la WiFi-ULL (1)

6Jornadas #BigDataCanarias 21-22 diciembre 2016

Análisis de ficheros log de la WiFi-ULL usando técnicas de Big Data (2015)Autor: Víctor PlazaDirectores: Marcos Colebrook, José L. Roda

■ Objetivo: dado un rango de fechas obtener tuplas(Fecha, Hora, Acceso Campus Virtual, IP, MAC, Punto acceso, Coord. GPS)

■ Esquema:● Estado del arte● Problemática● Fases y Desarrollo del proyecto

■ Tecnología: Python y Hadoop 2 sobre cluster de 5-7 nodos.

Page 7: Big Data: Experiencias (académicas) reales

TFG: Análisis de ficheros log de la WiFi-ULL (2)

7Jornadas #BigDataCanarias 21-22 diciembre 2016

■ Resultados interesantes: se pudieron relacionar diferentes logs de los servidores, del DNS, de la WiFi, del DHCP, y de la geolocalización de los edificios, en base a un rango de fechas y horas, para obtener:

■ Para + info: riull.ull.es/xmlui/handle/915/1412

Page 8: Big Data: Experiencias (académicas) reales

TFG: Análisis de ficheros log de la WiFi-ULL (3)

8Jornadas #BigDataCanarias 21-22 diciembre 2016

Page 9: Big Data: Experiencias (académicas) reales

TFG: Análisis de los incidentes del 1·1·2 (1)

Ana ́lisis de los incidentes del CECOES 1·1·2 utilizando te ́cnicas de Ciencia de los Datos (2016)Autor: Teno GonzálezDirectores: Marcos Colebrook, Carlos J. Pérez

■ Objetivo: creación de una interfaz que muestra info extraída de los 7 millones de registros (2005-2014) como gráficas dinámicas o mapas.

■ Esquema:● Estado del arte● Problemática● Fases y desarrollo del proyecto

■ Tecnología: R+Shiny y RStudio para el desarrollo.9Jornadas #BigDataCanarias 21-22 diciembre 2016

Page 10: Big Data: Experiencias (académicas) reales

TFG: Análisis de los incidentes del 1·1·2 (2)

10Jornadas #BigDataCanarias 21-22 diciembre 2016

■ Resultados interesantes: limpieza y carga optimizada de datos, además de una web intuitiva (más detalles en la siguiente charla)

■ Para + info: riull.ull.es/xmlui/handle/915/2616

Page 11: Big Data: Experiencias (académicas) reales

TFG: Módulo BI para plataforma X4Apps (1)

Módulo de Inteligencia de Negocio para la plataforma X4Apps (2016)Autor: Sandro ChineaDirector: Marcos Colebrook

■ Objetivo: diseño de un mo ́dulo de BI para la plataforma X4Apps de desarrollo para móviles.

■ Esquema:● Estado del arte● Desarrollo de la solución

■ Se analizaron tecnologías como MongoDB, Hadoop, y Pentaho.

11Jornadas #BigDataCanarias 21-22 diciembre 2016

Page 12: Big Data: Experiencias (académicas) reales

TFG: Módulo BI para plataforma X4Apps (2)

12Jornadas #BigDataCanarias 21-22 diciembre 2016

■ Resultados interesantes:

Page 13: Big Data: Experiencias (académicas) reales

TFG: Despliegue de clúster Spark sobre Docker (1)

Despliegue de un clúster Spark sobre Docker para Big Data (2016)Autor: Sergio MartínDirectores: Marcos Colebrook, Carlos J. Pérez

■ Objetivo: desarrollo y despliegue de un cluster Spark 2.0.0 sobre Docker 1.12

■ Esquema:● Análisis del problema● Solución basada en Docker 1.11● Solución basada en Docker 1.12● Ejecución y benchmarks

13Jornadas #BigDataCanarias 21-22 diciembre 2016

Page 14: Big Data: Experiencias (académicas) reales

TFG: Despliegue de clúster Spark sobre Docker (2)

14Jornadas #BigDataCanarias 21-22 diciembre 2016

■ Resultados interesantes:

■ Para + info: riull.ull.es/xmlui/handle/915/3088

Page 15: Big Data: Experiencias (académicas) reales

PFC y TFG en Bioinformática (1)

15Jornadas #BigDataCanarias 21-22 diciembre 2016

Fuente: www.genome.gov/sequencingcostsdata

Page 16: Big Data: Experiencias (académicas) reales

PFC y TFG en Bioinformática (2)

16Jornadas #BigDataCanarias 21-22 diciembre 2016

Page 17: Big Data: Experiencias (académicas) reales

PFC: IonGAP (1)

IonGAP – an Integrated Genome Assembly Platform for Ion Torrent Data (2014)Autor: Adrián BaezDirectores: Marcos Colebrook, José L. Roda■ Objetivo: desarrollo de una web pu ́blica para el ensamblado de

genomas bacterianos y su ana ́lisis posterior.■ Esquema:

● The genome assembler● A genome assembly and analysis pipeline● IonGAP web service● Parallel assembly of large genomes

■ Tecnologías: Django, Apache Web Server, HTML+CSS+JavaScript y apps libres para análisis genómico.

17Jornadas #BigDataCanarias 21-22 diciembre 2016

Page 18: Big Data: Experiencias (académicas) reales

PFC: IonGAP (2)

18Jornadas #BigDataCanarias 21-22 diciembre 2016

■ Resultados interesantes:

Page 19: Big Data: Experiencias (académicas) reales

PFC: IonGAP (3)

IonGAP: integrative bacterial genome analysis for Ion Torrent sequence data (2015). A. Baez-Ortega, F. Lorenzo-Diaz, M. Hernandez, C.I. Gonzalez-Vila, J.L. Roda-Garcia, M. Colebrook, C. Flores, Bioinformatics, 31(17).

iongap.hpc.iter.es

19Jornadas #BigDataCanarias 21-22 diciembre 2016

Page 20: Big Data: Experiencias (académicas) reales

TFG: QuiimeApp (1)

QiimeApp – Una plataforma web para análisis metagenómicos (2016)Autor: Víctor JuidíasDirectores: Marcos Colebrook, José L. Roda■ Objetivo: desarrollo de app para procesar y analizar datos

metagenómicos obtenidos por secuenciación masiva de ADN.■ Esquema:

● Estado del arte● Diseño y desarrollo de la app● Resultados

■ Tecnologías: la app base es QIIME (Python), la cual permite realizar análisis metagenómicos sobre comunidades microbianas.

20Jornadas #BigDataCanarias 21-22 diciembre 2016

$ split_libraries_fastq.py -i lane1_read1.fastq.gz -b lane1_barcode.fastq.gz --rev_comp_mapping_barcodes -o slout_q20/ -m map.txt -q 19

Page 21: Big Data: Experiencias (académicas) reales

PFC: QuiimeApp (2)

21Jornadas #BigDataCanarias 21-22 diciembre 2016

■ Resultados interesantes:

■ Para + info: riull.ull.es/xmlui/handle/915/2614

Page 22: Big Data: Experiencias (académicas) reales

TFG: Notebook de Jupyter para el MinION (1)

Herramienta bioinformática usando Jupyter para el secuenciador de ADN MinION (2016)Autor: Héctor RodríguezDirectores: Marcos Colebrook, José L. Roda■ Objetivo: desarrollo de un notebook de Jupyter para trabajar con

el secuenciador MinION de Nanopore.■ Esquema:

● Estado del arte● Diseño y desarrollo de la solución● Resultados

■ Tecnologías: Jupyter (IPython) y varias apps libres y abiertas específicas del MinION.

22Jornadas #BigDataCanarias 21-22 diciembre 2016

Page 23: Big Data: Experiencias (académicas) reales

TFG: Notebook de Jupyter para el MinION (2)

23Jornadas #BigDataCanarias 21-22 diciembre 2016

■ Resultados interesantes:

■ Para + info: riull.ull.es/xmlui/handle/915/3089

Page 24: Big Data: Experiencias (académicas) reales

TFG en NLP de textos legales

24Jornadas #BigDataCanarias 21-22 diciembre 2016

Page 25: Big Data: Experiencias (académicas) reales

TFG: Extracción y visualización de info legal (1)

Extracción y visualización de información de textos legales (2015)Autor: Francisco J. RodríguezDirectores: Isabel Sánchez, Marcos Colebrook■ Objetivo: visualización de info estructurada a partir de un corpus

de textos de jurisprudencia (CENDOJ) para obtener conclusiones sobre las sentencias (fav. / desfav. / parcial) usando NLP.

■ Esquema:● Desarrollo del proyecto● Diseño e implementación● Resultados

■ Tecnologías: Java, FreeLing, PDFBox, HTML+CSS+JavaScript, D3.

25Jornadas #BigDataCanarias 21-22 diciembre 2016

Page 26: Big Data: Experiencias (académicas) reales

TFG: Extracción y visualización de info legal (2)

26Jornadas #BigDataCanarias 21-22 diciembre 2016

■ Resultados interesantes:

■ Para + info: riull.ull.es/xmlui/handle/915/845

Page 27: Big Data: Experiencias (académicas) reales

■ Desde 2014, se han propuesto y desarrollado varios PFC y TFG en Big Data usando herramientas abiertas y de software libre.

■ Son proyectos piloto o PoC (Proof of Concept) que nos permiten adquirir know-how para proyectos más complejos.

■ A partir de estos PFC/TFG, tenemos buena experiencia con proyectos financiados/subvencionados con contratos menores (<18K) que permiten contratar becarios al menos 12 meses.

■ Para ello, habrá que firmar un convenio (marco y específico) de colaboración con ULL.Y la autorización para difundir los resultados en forma de publicación científica (revista, congreso, libro).

Conclusiones

27Jornadas #BigDataCanarias 21-22 diciembre 2016

Page 28: Big Data: Experiencias (académicas) reales

¡¡ GRACIAS !!

¿Preguntas?

28Jornadas #BigDataCanarias 21-22 diciembre 2016