18
LICENCIATURA EN INFORMATICA TOPICOS AVANZADOS DE BASES DE DATOS DISEÑO FISICO ALUMNAS: GUADALUPE ELIZABETH HERRERA CISNEROS 07230473 MARIA DE JESUS ALFARO CARRERA 07230459 PROFESOR: ING. RICARDO DE JESUS BUSTAMANTE FECHA: 25 DE FEBRERO DEL 2011

Diseño fisico

Embed Size (px)

Citation preview

Page 1: Diseño fisico

LICENCIATURA EN INFORMATICA

TOPICOS AVANZADOS DE BASES DE DATOS

DISEÑO FISICO

ALUMNAS: GUADALUPE ELIZABETH HERRERA CISNEROS 07230473

MARIA DE JESUS ALFARO CARRERA 07230459

PROFESOR:

ING. RICARDO DE JESUS BUSTAMANTE

FECHA: 25 DE FEBRERO DEL 2011

Page 2: Diseño fisico
Page 3: Diseño fisico

Un DW puede almacenarse en un SGBD:

De forma multidimensional, mediante cubos.Como una base de datos relacional, según los diseños de estrella y copo de nieve, creando tablas relacionales.

Además de almacenar los propios datos del DW, se deben guardar los agregados que se estimen oportuno.

Por lo general, lo determina el propio sistema.

Page 4: Diseño fisico

MULTIDIMENSIONAL ONLINE ANALYTICAL PROCESSING (MOLAP)

Se almacenan los datos como una matriz multidimensional optimizada. Se suele organizar en base a vectores comprimidos.

Problemas:•Proceso de carga bastante largo•Problemas cuando hay muchas dimensiones•Hay redundancia de datos

Existen 3 formas de almacenamiento

Page 5: Diseño fisico

Se almacenan los datos en una BD relacional.También es necesario crear nuevas tablas con los agregados.

Problemas:

Los datos agregados deben ser calculados por aplicaciones del usuario.

RELATIONAL ONLINE ANALYTICAL PROCESSING (ROLAP)

Page 6: Diseño fisico

MOLAP vs. ROLAP

MOLAP necesita menos espacio de almacenamiento debido a las compresiones.

Existen diversas herramientas de carga (ETL) para ROLAP. Esto automatiza el proceso de carga, y lo hace más rápido.

ROLAP se considera mejor para grandes volúmenes de datos

Los SGBD relacionales han creado funciones especializadas para realizar consultas OLAP.

Page 7: Diseño fisico

HYBRID ONLINE ANALYTICAL PROCESS (HOLAP)

Combinación de MOLAP y ROLAP.Mantiene una parte como MOLAP y otra como ROLAP.

Se puede realizar de diversas formas:

Datos en ROLAP y agregaciones en MOLAPAlgunos cubos en MOLAP y otros en ROLAPLos más recientes en MOLAP (división por tiempo) División por cualquier otra dimensión

Page 8: Diseño fisico

TABLA HECHOS VENTA. AJUSTE DISEÑO FISICO Y PROCESOS CARGA ETL. CONTEXTOS EN TALEND

Carga inicial: será la primera que se realice para la puesta en marcha del proyecto, e incluirá el volcado de los datos de venta desde una fecha inicial (a seleccionar en el proceso) hasta una fecha final.

-Cargas semanales: es el tipo de carga mas inmediato. Se realiza para cada semana pasada (por ejemplo, el martes de cada semana se realiza la carga de la semana anterior), para tener un primer avance de información de la semana anterior (que posteriormente se refrescara para consolidar los datos finales de ese periodo). La carga de una semana en concreto también se podrá realizar a petición (fuera de los procesos batch automáticos).

- Recargas mensuales: una vez se cierra un periodo mensual (lo que implica que ya no puede haber modificaciones sobre ese periodo), se refresca por completo el mes en el DW para consolidar la información y darle el status de definitiva para ese periodo. La ejecución es a petición y se indicara el periodo de tiempo que se quiere procesar.

Page 9: Diseño fisico

CONTEXTOS EN TALEND

son grupos de variables contextuales que luego podemos reutilizar en los diferentes jobs de nuestras transformaciones.

Utilizadas para definir variables con los valores de paths de ficheros, valores para conexión a bases de datos (servidor, usuario, contraseña, puerto, base de datos por defecto, etc), valores a pasar a los procesos (constantes o definidos por el usuario en tiempo de ejecución).

Los valores de los contextos se inicializan con un valor que puede ser cambiado por el usuario mediante un prompt (petición de valor).

Un mismo contexto puede tener diferentes “grupos de valores”. Es decir, en el contexto “conexion a base de datos”, podemos tener un grupo de valores llamado “test”, que incluira los valores para conectarnos al sistema de pruebas y un grupo llamado “productivo”, que incluira los valores para la conexión a la base de datos real.

Page 10: Diseño fisico
Page 11: Diseño fisico

Definición de Contextos en Talend

Dentro del contexto, definiremos que grupo de valores es el que se utilizara por defecto. Esto nos va a permitir trabajar con los jobs y sus componentes olvidandonos de contra que sistema estamos trabajando. Tendremos, por ejemplo, el contexto de test activo, y es el que utilizaremos para las pruebas. Y podremos cambiar en cualquier momento, al ejecutar un job, para decirle que utilice el contexto “productivo”. Igualmente, podremos preparar un fichero o una tabla de base de datos con los valores de las variables de contexto, que serán pasadas al job para su utilización en la ejecución de un proceso (utilizando el componente tContextLoad).

Page 12: Diseño fisico

Definición del proceso de cargaEl diseño físico definitivo de la tabla de hechos será el siguiente:

Page 13: Diseño fisico

Una vez hechas todas las consideraciones, veamos el esquema de como quedaría nuestro proceso de transformación.

Page 14: Diseño fisico

Carga del contexto de ejecución: para que el proceso sepa que tipo de carga ha de realizar y para que periodo de fechas, es necesario proporcionarle la información.

Page 15: Diseño fisico

Borrado previo a la recarga de los datos del periodo en la tabla de hechos

Page 16: Diseño fisico

TRANSFORMACIÓN DE LOS CAMPOS, NORMALIZACIÓN, OPERACIONES.

En este proceso realizamos conversión de tipos, llenado de campos vacios, cálculos, operaciones. Todo con el objetivo de dejar los datos preparados para la carga en la tabla de Hechos de la base de datos.

Page 17: Diseño fisico
Page 18: Diseño fisico

INSERCIÓN EN LA TABLA DE HECHOS

Como paso final, vamos realizando el insertado de los registros en la tabla DWH_VENTAS utilizando el componente tMysqlOutput