56
Inteligencia de Negocios Jon Geiler Ordoñez P. Consultor Inteligencia de Negocios [email protected]

Presentacion Inteligencia de Negocios

Embed Size (px)

DESCRIPTION

Bodega de Datos e Inteligencia de Negocios

Citation preview

Page 1: Presentacion Inteligencia de Negocios

Inteligencia de Negocios

Jon Geiler Ordoñez P.Consultor Inteligencia de [email protected]

Page 2: Presentacion Inteligencia de Negocios

Contenido Primera Parte

◦ Introducción◦ OLTP VS OLAP◦ Limpieza de datos e integración

Segunda Parte◦ Modelo de datos y diseño de Bodegas

Tercera Parte◦ Minería de Datos

Page 3: Presentacion Inteligencia de Negocios

Datos y datos en todas parte.. No puedo encontrar los datos que necesito

◦ Datos dispersos en la red.◦ Muchas versiones diferencias sutiles

No puedo obtener los datos que necesito◦ Necesito experto para obtener los datos

No entiendo los datos que obtengo◦ Pobre documentación de datos

No puedo usar los datos que encuentro◦ Resultados inesperados◦ Datos necesitan ser transformados de una forma a otra.

Page 4: Presentacion Inteligencia de Negocios

Que es Bodega de Datos Bodega de datos es una colección de datos,

orientada a temas, integrada, no volátil, y variante en el tiempo que soporta decisiones administrativas. Datos obtenidos de una variedad de fuentes diferentes, a disposición de los usuarios finales en lo que pueden entender y utilizar en un contexto empresarial

Page 5: Presentacion Inteligencia de Negocios

Porque Bodegas de Datos

Que epoca del año es mejor para

lanzar promociones?

Que epoca del año es mejor para

lanzar promociones?

Quienes son los clientes y que productos estan

Comprando?

Quienes son los clientes y que productos estan

Comprando?

Que clientes son mas probables que se vayan

a la competencia?

Que clientes son mas probables que se vayan

a la competencia?

Que impacto tiene los nuevos

servicios/productos en las ganancias?

Que impacto tiene los nuevos

servicios/productos en las ganancias?

Que productotiene el mayor impacto

en las ganancias?

Que productotiene el mayor impacto

en las ganancias?

Cual es el canal de distribucion mas

Efectivo?

Cual es el canal de distribucion mas

Efectivo?

Page 6: Presentacion Inteligencia de Negocios

Procesamiento Analítico en Línea (OLAP)

Page 7: Presentacion Inteligencia de Negocios

Características de Búsquedas OLAP

Agregación y suma de varios conjuntos de datos.

Agrupamiento (Cluster) Detectar Tendencias Proyecciones Multi-dimensionales (Como

influye el una variable en otra)

Page 8: Presentacion Inteligencia de Negocios

OLTP VS OLAP OLTP

• Orientado a aplicaciones• Usado para manejar

negocios• Usuarios de oficina• Detalle de datos• Datos actuales

• Accesos repetitivos en pequeñas transacciones

• Acceso de lectura y escritura

OLAP• Orientado a un tema.• Usados para analizar

negocios• Administrador/Analista• Suma de datos• Datos tomados en cierto

periodo.• Accesos usando

búsquedas extensas.• Mayormente lectura

(Cambios por lotes)

Page 9: Presentacion Inteligencia de Negocios

OLTP VS OLAP

Tiempo 60/90 Dias 5 a 10 años Cambio de Registros Sofisticado Fotos de Datos Llave puede no contener Llave debe contener elemento de tiempo elemento de tiempo

Variante en el Tiempo

Page 10: Presentacion Inteligencia de Negocios

OLTP VS OLAP

Manipulación Carga/Acceso en De datos registro Masa a registro

No Volátil

Page 11: Presentacion Inteligencia de Negocios

OLTP VS OLAP

Page 12: Presentacion Inteligencia de Negocios

Datamart

Un Data mart es una versión especial de almacén de datos (data warehouse). Son subconjuntos de datos con el propósito de ayudar a que un área específica dentro del negocio pueda tomar mejores decisiones. Los datos existentes en este contexto pueden ser agrupados, explorados y propagados de múltiples formas para que diversos grupos de usuarios realicen la explotación de los mismos de la forma más conveniente según sus necesidades.Puede ser simplemente una copia de parte de un DataWarehouse para uso departamental.

Page 13: Presentacion Inteligencia de Negocios

Porque Crear Datamart

Fácil acceso a los datos que se necesitan frecuentemente.

Crea vista colectiva para grupo de usuarios. Mejora el tiempo de respuesta del usuario

final. Facilidad de creación. Costo inferior al de la aplicación de un

completo almacén de datos. Los usuarios potenciales son más

claramente identificables que en un almacén de datos completo

Page 14: Presentacion Inteligencia de Negocios

Almacenando Datos

Bodega de Datos

UNIDADOLTP

UNIDADOLTP

UNIDADOLTP

LIMPIEZA DE DATOS

E INTEGRACION

Cambios/retroalimentación

Retroalimentacion

Page 15: Presentacion Inteligencia de Negocios

Introduccion a Bodega de Datos

Limpieza de Datos Datos Sucios

◦ Multiplicidad de códigos◦ Igual significado “EN LA WEB”, es igual que “EN

INTERNET” .◦ Varios Estándares.

Page 16: Presentacion Inteligencia de Negocios

Limpieza de Datos

Cod

ific

acio

nU

nida

d

m,f

pipeline - cmappl A - pipeline - cmappl B - pipeline - inappl C - pipeline - feetappl D - pipeline - yds

appl A - m,fappl B - 1,0appl C - x,yappl D - male, female

Bodega de Datos

Page 17: Presentacion Inteligencia de Negocios

Limpieza de Datos Datos Faltantes, Falsos y Duplicados

◦ Falta la edad del empleado.◦ Días de incapacidad digitados erróneamente.◦ Duplicación de datos en los diferentes OLTP o

misma OLTP.◦ Duplicación en el significado (Jon G. Ordonez,

aparece en otra OLTP como Jon Geiler Ordonez.)

Page 18: Presentacion Inteligencia de Negocios

Limpieza de Datos Inconsistencia

◦ Códigos mal digitados (El codigo de genero es M/F, se encuentran datos con 1/0).

◦ Códigos que no tienen significado (AL), no tiene ningún significados en los códigos usados.

◦ Inconsistencia de datos duplicados (Dos datos son encontrados con la misma persona pero ambos tiene direcciones difentes)

Page 19: Presentacion Inteligencia de Negocios

Problemas Con Limpieza de Datos No puede ser automatizada. Requiere considerable conocimientos

que es tácticamente y mas allá de los competencias en Bodega de Datos (Medidas, Políticas, Geografía).

Complejidad se incrementa con el incremento en base de datos.

Complejidad se incrementa con datos históricos.

Page 20: Presentacion Inteligencia de Negocios

Técnicas de Análisis

Problema a Detectar Tecnica Usada

Valores No Legales (Max, Min), Desviacion, Media

Falta de Estandares Comparacion de Columnas (Compara los valores en

determinada columna en toda la tabla)

Duplicados y Datos No Digitados Comparar con numero de filas, Detectar nulos, usar reglas para predecir datos incorrectos y no

digitados

Page 21: Presentacion Inteligencia de Negocios

Mejoramiento de Datos

Para garantizar el uso de los mejores datos posibles para labodega, se deben tener en cuenta los siguientes pasos:

Identificar la fuente de datos con la mejor calidad: Es posible que se encuentren varias fuentes con los mismos datos, pero en algunas se tenga mejor calidad de los mismos.

Identificar variaciones en palabras : Como errores de ortografía y mayúscula y minúscula.

Discutir problemas de datos con el equipo. Arreglar los problemas de datos en las fuentes cuando sea posible,

en vez de hacerlo en el proceso ETL o directamente a la bodega. SI existen muchos problemas en las fuentes, arreglarlos en el

proceso ira en contra del rendimiento, estos problemas deber ser responsabilidad de los sistemas fuentes.

Realizar tareas de limpieza sobre los datos.

Page 22: Presentacion Inteligencia de Negocios

Integración Tres funciones separadas: ETL

◦ Extracción – Leer los datos de fuentes de datos especificadas y extraer el grupo de datos deseado.

◦ Transformación – Uso de reglas o búsqueda de tabla, o creando combinaciones con otros datos, para convertir fuente de datos en los estados deseados

◦ Cargar : Escribir los datos resultantes en la base de datos destino

Page 23: Presentacion Inteligencia de Negocios

Integración Desarrollo del ETL

◦ Oportunidad para eliminar datos inservibles◦ Normalmente 80% verificando integridad y reglas

de negocio◦ Contar con un involucrado del negocio que pueda

tomar decisiones acerca de las reglas

Page 24: Presentacion Inteligencia de Negocios

Integración

Page 25: Presentacion Inteligencia de Negocios

Integración Combinar fuentes de datos dispares en una

sola estructura.◦ Integración de Esquemas: Crear e integrar

esquemas con fuentes de datos disparejas.◦ Integración de Datos: Limpiar y concatenar datos

de diferentes fuentes de datos

Page 26: Presentacion Inteligencia de Negocios

Integración de Esquemas Retos

◦ Nombres diferentes◦ Estructuras diferentes◦ Tipo de datos diferentes◦ Campos Faltantes◦ Semántica diferente

Page 27: Presentacion Inteligencia de Negocios

Integración de Esquemas

Por ejemplo :Carros (Noserie, Modelo, Color, Estero..)

Autos (Serialnr, Model, Color)Optionen(Serialnr, Stereo,..)

Page 28: Presentacion Inteligencia de Negocios

Integración de Esquemas

Extractor Extractor Extractor

Mediador

Page 29: Presentacion Inteligencia de Negocios

Integración de Esquemas Extractor

◦ Crea una vista común para toda las fuentes de datos.

◦ Realiza el puente en las diferencias de nombre, tipos y estructuras.

Mediador◦ Construye e integra esquemas.◦ Realiza la integración de datos y pasa la

información a la bodega de datos.

Page 30: Presentacion Inteligencia de Negocios

Transformación La Bodega de datos puede fallar sin una

apropiada estrategia de transformación es desarrollada.◦ Limpieza de Datos◦ Integración de Esquemas

Page 31: Presentacion Inteligencia de Negocios

Refrescando la Bodega de Datos Propagar cambios en los datos fuente en el

almacén

Problemas:Cuando refrescarCómo actualizar – técnicas incrementales de cargar

Page 32: Presentacion Inteligencia de Negocios

Cuando Refrescar Periódicamente (por ejemplo, todas las noches,

todas las semanas) o después de eventos importantes.

En cada actualización: no se justifica a menos que la bodega de datos requiera datos actuales.

Política de actualización establecidos por el administrador basadas en las necesidades de los usuario y el tráfico.

Posiblemente diferentes políticas para diferentes fuentes

Page 33: Presentacion Inteligencia de Negocios

Aseguramiento de la Calidad

Una vez se tienen los datos, es importante determinar si este contenido es realmente correcto. Se pueden hacer varios procesos para determinar esto:

Cruce de datos. Se ejecutan varios Queries contra las fuentes de datos y se

verifica que el resultado de estos Queries sea el mismo que el datos con los datos seleccionados del proceso ETL.

Validación del Proceso. Al utilizar la bodega de datos es posible encontrar diferentes

resultados de los que se harían con simples Queries sobre las fuentes. Esto se da debido a la limpieza y transformación hechas a los datos en el proceso ETL. Por lo tanto es importante identificar las causas de las diferencias y determinar cual resultados es realmente el correcto.

Page 34: Presentacion Inteligencia de Negocios

Como Detectar CambiosAlgunas técnicas para limitar la cantidad de operaciones necesarias para refrescar las bodegas de datos

Aplicación Existente

Tiempo de Cambio (TimeStamp)

Aplicación Existente

Archivo de Log

Aplicación Existente

------

------

------

------

Codigo de Aplicacion

Antes Despues

Cambios desde la ultima carga

Page 35: Presentacion Inteligencia de Negocios

Diseño Lógico

Page 36: Presentacion Inteligencia de Negocios

Diseño Lógico Esquema en Estrella

◦ Una sola tabla de hechos, y una tabla de dimensión por cada dimensión.

◦ Soportado por múltiples RDBMS

Page 37: Presentacion Inteligencia de Negocios

Diseño Lógico Tabla de Hechos – Modelo de Estrella

◦ Ejemplo típico: los registros de ventas individuales◦ Los hechos son valores cuantificables.◦ Medidas numéricas para analizar.◦ Las tablas de hechos tienen gran cantidad de

registros en comparación con el número de columnas.

◦ Acceso a través de las dimensiones.

Page 38: Presentacion Inteligencia de Negocios

Diseño Lógico Dimensiones – Modelo de Estrella

◦ Definición de negocio en términos ya familiares para los usuarios

◦ Las dimensiones son denormalizadas ( jerarquías que llevan a redundancia)

◦ Tablas pequeñas.◦ Se unen a la tabla de hechos mediante una clave

externa◦ Bien indexada◦ Dimensiones típicas

períodos de tiempo, región geográfica (mercados, ciudades), los productos, clientes, vendedores, etc

Page 39: Presentacion Inteligencia de Negocios

Ejemplo Esquema En Estrella

Page 40: Presentacion Inteligencia de Negocios

Diseño Lógico Modelo de copo de nieve

◦ Mayor normalización, es decir, los niveles de las jerarquías se normalizan.

◦ Mayor flexibilidad◦ Mayor dificultad de mantenimiento◦ Joins más costosos◦ Menos registros en las dimensiones.

Page 41: Presentacion Inteligencia de Negocios

Diseño Lógico

Ejemplo Modelo de copo de nieve

Page 42: Presentacion Inteligencia de Negocios

Diseño Lógico

Dimensión de Tiempo◦ Obligatoria en la mayoría de las bodegas de

datos.◦ Tiene varios significados y técnicas roll-up

dependiente del contesto. Calendario simple Calendario Fiscal Calendario Académico

◦ Se necesita indexar fechas especiales como eventos, lanzamientos..

Page 43: Presentacion Inteligencia de Negocios

Diseño Lógico

Llaves Subrogadas Todas las llaves de las tablas de la bodega

de datos deben ser llaves subrogadas, es decir no deben significar nada respecto a las características de su contenido ni a su fuente en los sistemas fuente. No se deben utilizar las llaves originales de un sistema fuente del cual fueron extraídas. Estas llaves subrogadas se manejan con enteros.

Page 44: Presentacion Inteligencia de Negocios

Diseño Lógico Declaración de Granularidad de la tabla de hechos.

Es necesario definir claramente lo que es un registro de la tabla de hechos en el diseño dimensional propuesto. La granularidad es la respuesta a la pregunta. Que es un registro en la tabla de hechos ?

La granularidad se refiere al nivel de detalle existente en las unidades de los datos de la bodega. Entre mas detalle halla, menor será el nivel de granularidad. Entre menos detalle halla, mayor será la granularidad. Es un factor determinante en el desarrollo de la bodega de datos, debido a que de ella depende el volumen de datos que será almacenada en la bodega y el tipo de queries que pueden ser realizados.

Page 45: Presentacion Inteligencia de Negocios

Diseño Lógico

Granularidad

Page 46: Presentacion Inteligencia de Negocios

Uso OLAP

Page 47: Presentacion Inteligencia de Negocios

Operaciones en Cubos

Pivotear : Escoger (Rotar el cubo en un pivote) un grupo de dimensiones a mostrar.

Slicing-Dicing : Seleccionar cierto datos de el cubo.

Roll-up : Sumar una dimensión en una dimensión mas pequeña (Roll-up semanas en meses).

Drill-down : Abrir una dimensión agrega para relevar detalles (Abrir meses para relevar información en semanas)

Page 48: Presentacion Inteligencia de Negocios

Operaciones en Cubos

Page 49: Presentacion Inteligencia de Negocios

Operaciones en Cubos

Page 50: Presentacion Inteligencia de Negocios

Mineria de Datos Mineria de datos es una tecnología de soporte para usuario final, cuyo

objetivo es extraer conocimiento útil y utilizable a partir de la información contenida en las bases de datos de las empresas.

Los objetivos de un sistema Mineria de Datos nos permitirían analizar factores de influencia en determinados procesos, predecir o estimar variables o comportamientos futuros, sementar o agrupar ítems similares, además de obtener secuencias de eventos que provocan comportamientos específicos. Los sistemas Minería de Datos se desarrollan bajo lenguajes de ultima generación basados en la inteligencia artificial y utilizando métodos matemáticos, tales como:• Redes neuronales• Introducción de reglas• Arboles de decisión• Conjunto de reglas por clase• Soporta también sofisticadas operaciones de análisis tales como los• sistemas Scoring y aplicaciones de detección de fraude.

Page 51: Presentacion Inteligencia de Negocios

Porque Mineria de Datos Calificaciones de crédito / marketing dirigido:

◦ Dada una base de datos de 100.000 nombres, que las personas son los menos propensos a dejar de pagar sus tarjetas de crédito?

◦ Identificar las probabilidades de respuesta a las promociones de ventas

Detección de fraudes◦ ¿Qué tipo de operaciones es probable que sean

fraudulentas, dada la demografía y el historial de transacciones de un cliente en particular?

Manejo de Relaciones con Clientes:◦ ¿Cuál de mis clientes son probablemente los más fieles, y

que tienen más probabilidades de irse a la competencia? :

Page 52: Presentacion Inteligencia de Negocios

Mineria de Datos Proceso de semi-automático para analizar grandes bases

de datos en búsqueda de patrones interesantes y útiles.

Coincide en parte con el aprendizaje de máquina, estadísticas, e inteligencia artificial y bases de datos, pero◦ más escalable en número de características y casos◦ más automática para manejar datos heterogéneos

Page 53: Presentacion Inteligencia de Negocios

Algunas Operaciones Basicas Predecir:

RegresiónClasificación

Descriptivo:Agrupaciones (Cluster) o se pongan en venta similitudReglas de AsociaciónDetección de Desviación

Page 54: Presentacion Inteligencia de Negocios

Clasificacion

Teniendo en cuenta los datos antiguos sobre los clientes y los pagos, predecir si un nuevo solicitante es Elegible para préstamo o no

Clientes Anteriores Clasificador Arboles de

Decision

Salary > 5 L

Prof. = Exec

EdadSalarioProfesionLocalidadTipo de Cliente

Page 55: Presentacion Inteligencia de Negocios

Arboles de Decision

Árbol donde los nodos internos son simples reglas de decisión en uno o más atributos y nodos de la hoja se prevé etiquetas de clase.

Salario < 1 M

Prof = teacher

Bueno

Edad < 30

MaloMalo Bueno

Page 56: Presentacion Inteligencia de Negocios

Areas de Aplicacion

Industria

FinanzasSegurosTelecomunicacionesTransporte

Aplicación

Análisis de Tarjetas de CréditoReglamos y Análisis de fraudesAnálisis de LlamadasManejo de Logística