Upload
daniel-torres-soto
View
216
Download
0
Embed Size (px)
Citation preview
Aplicaciones de Big Data en R
V Jornadas de Usuarios de RZaragoza, diciembre 2013
Índice presentación• Introducción : Tecnología Big Data. ¿Dónde
encaja R en todo esto?• Principios: herramientas básicas y cómo
trabajar en Big Data• ¿Qué es Map-Reduce?• Map-Reduce programando en R• Map-Reduce usando paquetes de R• Map-Reduce usando SQL desde R
© 2013 Synergic Partners – Proprietary and Confidential
Introducción : Tecnología Big Data. ¿Dónde encaja R en todo esto? (I)
¿Qué es?
• Big Data != muchos datos• Hadoop
– Pig, jaql– Hive– HBase– …
• MongoDB• Cassandra• … © 2013 Synergic Partners – Proprietary and Confidential
Introducción : Tecnología Big Data. ¿Dónde encaja R en todo esto? (II)
• Usamos datos tabulados. (En caso contrario, habría otras soluciones que no explicamos aquí.)
• R es:– la solución analítica – la consola de control de (casi) todo el sistema
© 2013 Synergic Partners – Proprietary and Confidential
Principios: herramientas básicas y cómo trabajar en Big Data (I)
© 2013 Synergic Partners – Proprietary and Confidential
Principios: herramientas básicas y cómo trabajar en Big Data (II)
© 2013 Synergic Partners – Proprietary and Confidential
Principios: herramientas básicas y cómo trabajar en Big Data (III)
© 2013 Synergic Partners – Proprietary and Confidential
¿Qué es Map-Reduce? (I)
© 2013 Synergic Partners – Proprietary and Confidential
¿Qué es Map-Reduce? (II)Tanto para clasificación como para regresión:
• Algunos algoritmos se pueden paralelizar de manera centralizada. Por ejemplo: Regresión lineal, regresión logística, k-means
• Algunos algoritmos se pueden paralelizar “as is” y combinar todos los modelos en un único modelo. Por ejemplo: Random Forests
• Todos los algoritmos se pueden paralelizar “as is” y utilizar una metaheurística (por ejemplo, un voto ponderado) para obtener una clasificación conjunta.
© 2013 Synergic Partners – Proprietary and Confidential
¿Qué es Map-Reduce? (III)
En R
• Podemos programar Map-Reduce• Podemos usar un paquete que use Map-
Reduce• Podemos controlar desde R programas como
Hive que usan Map-Reduce
© 2013 Synergic Partners – Proprietary and Confidential
Map-Reduce programando en R (I)
Map-Reduce programando en R (I)
Map-Reduce programando en R (I)
Map-Reduce programando en R (I)
© 2013 Synergic Partners – Proprietary and Confidential
Map-Reduce programando en R (II)
Map-Reduce programando en R (II)
Map-Reduce programando en R (II)
© 2013 Synergic Partners – Proprietary and Confidential
Map-Reduce programando en R (III)
Map-Reduce usando paquetes de R (I)
Map-Reduce usando paquetes de R (I)
Map-Reduce usando paquetes de R (II)
Map-Reduce usando paquetes de R (II)
Map-Reduce usando paquetes de R (II)
Map-Reduce usando paquetes de R (II)
Map-Reduce usando SQL desde R (I)
Map-Reduce usando SQL desde R (II)
Map-Reduce usando SQL desde R (III)
Map-Reduce usando SQL desde R (III)
© 2013 Synergic Partners – Proprietary and Confidential
Map-Reduce usando SQL desde R (III)
© 2013 Synergic Partners – Proprietary and Confidential
Map-Reduce usando SQL desde R (III)
© 2013 Synergic Partners – Proprietary and Confidential
Map-Reduce usando SQL desde R (III)
© 2013 Synergic Partners – Proprietary and Confidential
www.synergicpartners.com