17

Índice general - ILAPEPilapep.mx/adi/unidad3/04_caracteristicas_de_un_dwh.pdf · Prefacio Este libro se centra en proporcionar los conceptos y aspectos básicos necesarios para aco-meter

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Índice general - ILAPEPilapep.mx/adi/unidad3/04_caracteristicas_de_un_dwh.pdf · Prefacio Este libro se centra en proporcionar los conceptos y aspectos básicos necesarios para aco-meter
Page 2: Índice general - ILAPEPilapep.mx/adi/unidad3/04_caracteristicas_de_un_dwh.pdf · Prefacio Este libro se centra en proporcionar los conceptos y aspectos básicos necesarios para aco-meter

Diseño y explotación de datos. Conceptos básicos de modelado multidimensional

© Juan Carlos Trujillo Mondéjar José Norberto Mazón López Jesús Pardillo Vela

ISBN: 978-84-8454-902-4Depósito legal: A–19–2011

Edita: Editorial Club Universitario. Telf.: 96 567 61 33C/ Decano, 4 – 03690 San Vicente (Alicante)[email protected]

Printed in SpainImprime: Imprenta Gamma. Telf.: 965 67 19 87C/ Cottolengo, 25 – 03690 San Vicente (Alicante)[email protected]

Reservados todos los derechos. Ni la totalidad ni parte de este libro puede reproducirse o transmitirse por ningún procedimiento electrónico o mecánico, incluyendo fotocopia, grabación magnética o cualquier almacenamiento de información o sistema de reproducción, sin permiso previo y por escrito de los titulares del Copyright.

Page 3: Índice general - ILAPEPilapep.mx/adi/unidad3/04_caracteristicas_de_un_dwh.pdf · Prefacio Este libro se centra en proporcionar los conceptos y aspectos básicos necesarios para aco-meter

Índice general

Índice general III

1. Introducción 11.1. La tecnología de bases de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2. Las nuevas necesidades de gestión de datos . . . . . . . . . . . . . . . . . . . . . 21.3. Historia de las soluciones informáticas a datos históricos . . . . . . . . . . . . . . 41.4. El almacén de datos: una primera aproximación . . . . . . . . . . . . . . . . . . . 61.5. Historia de las aplicaciones OLAP . . . . . . . . . . . . . . . . . . . . . . . . . . 81.6. Sistemas analíticos contra transaccionales . . . . . . . . . . . . . . . . . . . . . . 9

2. Arquitectura 132.1. Arquitectura general de almacenes de datos . . . . . . . . . . . . . . . . . . . . . 142.2. Las fuentes de datos operacionales . . . . . . . . . . . . . . . . . . . . . . . . . . 152.3. Los procesos ETL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.3.1. Extracción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.3.2. Transformación o limpieza . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.3.3. Carga . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.3.4. Herramientas para procesos ETL . . . . . . . . . . . . . . . . . . . . . . . 19

2.4. El almacén de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.4.1. Almacenes de datos departamentales o data marts . . . . . . . . . . . . . 19

2.5. Los metadatos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.6. Servidores de bases de datos y consulta . . . . . . . . . . . . . . . . . . . . . . . 212.7. Las herramientas de consulta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.8. Aproximaciones metodológicas para el diseño de almacenes de datos . . . . . . . 22

3. Modelado Multidimensional 273.1. Modelado multidimensional conceptual . . . . . . . . . . . . . . . . . . . . . . . . 28

3.1.1. Propiedades multidimensionales estructurales . . . . . . . . . . . . . . . . 293.1.2. Propiedades multidimensionales dinámicas . . . . . . . . . . . . . . . . . . 32

3.2. Modelado multidimensional lógico . . . . . . . . . . . . . . . . . . . . . . . . . . 333.2.1. Esquema estrella . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343.2.2. Esquema de constelaciones de hechos . . . . . . . . . . . . . . . . . . . . . 413.2.3. Esquema de copo de nieve . . . . . . . . . . . . . . . . . . . . . . . . . . . 423.2.4. Resumen de los diferentes esquemas . . . . . . . . . . . . . . . . . . . . . 433.2.5. La dimensión tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443.2.6. Otras consideraciones de diseño . . . . . . . . . . . . . . . . . . . . . . . . 45

iii

Page 4: Índice general - ILAPEPilapep.mx/adi/unidad3/04_caracteristicas_de_un_dwh.pdf · Prefacio Este libro se centra en proporcionar los conceptos y aspectos básicos necesarios para aco-meter

iv Índice general

4. Procesos ETL 514.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514.2. Fase de extracción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.3. Fase de transformación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554.4. Fase de carga . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604.5. Elementos principales de diseño . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

5. Herramientas de explotación OLAP 695.1. ¾Qué es OLAP? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 695.2. Arquitectura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 725.3. Vendedores OLAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

6. Herramientas de minería de datos 816.1. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 816.2. ¾Qué es la minería de datos? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 826.3. Aplicaciones y técnicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 836.4. El proceso de descubrimiento de conocimiento . . . . . . . . . . . . . . . . . . . . 85

7. Metadatos en almacenes de datos 917.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 917.2. Metadatos de procesos ETL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 937.3. Metadatos de usuarios finales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 947.4. Metadatos del almacén de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

A. Aplicaciones de almacenes de datos en el mercado 101

Índice alfabético 103

Page 5: Índice general - ILAPEPilapep.mx/adi/unidad3/04_caracteristicas_de_un_dwh.pdf · Prefacio Este libro se centra en proporcionar los conceptos y aspectos básicos necesarios para aco-meter

Prólogo

Diseño y explotación de almacenes de datos: conceptos básicos y modelado multidimensionalse presenta como un libro que introduce aspectos básicos del modelado multidimensional y deldiseño de los almacenes de datos, y que pretende ser un instrumento útil para los estudiantesde grado y postgrado de las Titulaciones de Informática y de los profesionales del desarrollo dealmacenes de datos. En este sentido, el libro pretende cubrir un hueco existente hasta ahora enla literatura y proporcionar un manual en castellano que recoja y ponga en orden los conceptosbásicos para acometer con garantías el diseño y explotación de almacenes de datos.

En el año 2002, propongo a través del Dpto. de Lenguajes y Sistemas Informáticos (DLSI) dela Universidad de Alicante la asignatura Bases de Datos Multidimensionales como asignaturaoptativa de las tres Titulaciones de Informática. Desde sus orígenes y hasta la actualidad, losalumnos han demandado año tras año, un material (en castellano a ser posible) donde se reco-gieran los aspectos básicos del diseño de las bases de datos multidimensionales, almacenes dedatos y las herramientas de consulta más utilizadas para su correcta explotación.

Esta demanda también se produce en la asignatura Diseño y Explotación de Almacenes deDatos del Programa de Tercer Ciclo Aplicaciones de la Informática del DLSI impartida en laUniversidad de Alicante y del Máster en Informática que se imparte en la Escuela PolitécnicaSuperior desde 2009. Además, dicha asignatura también se oferta en el Programa de Tercer Cicloque el DLSI imparte en universidades extranjeras como la Universidad de Matanzas “CamiloCienfuegos” o la Universidad de la Habana en Cuba, Universidad Latina en Costa Rica y laUniversidad de la Frontera en Temuco (Chile).

Estas experiencias docentes heterogéneas tanto en contenido como en alumnado, me hanpermitido obtener una retroalimentación valiosa a la hora de preparar este libro, que pretendeser claro y conciso además de versátil. Además, tengo el placer de compartir la escritura deeste texto con dos ex-alumnos que me “sufrieron” de profesor en los inicios de esta asignatura yque, con en el paso de los años, se incorporaron como investigadores al Grupo de InvestigaciónLucentia (http://www.lucentia.es) desde sus orígenes, siendo en la actualidad dos miembrosfundamentales de dicho grupo. José Norberto Mazón defendió su tesis doctoral (A model-drivenapproach for the multidimensional design of data warehouses) el pasado 15 de diciembre de 2008y, Jesús Pardillo se encuentra en la fase final de la suya y, que esperamos defender en el cursoacadémico 2009/10. ½Cuánto camino hemos recorrido ya y cuánto más nos queda por recorrer!

Por otro lado, en los proyectos privados con las empresas con las que hemos colaborado,hemos detectado en muchas ocasiones una falta de conceptos y criterios básicos para abordar eldiseño de almacenes de datos. Esto es quizás una consecuencia de que las empresas que ofertansistemas de gestión y mantenimiento de almacenes de datos ofrecen productos (comerciales ode código abierto) para acometer el diseño de almacenes de datos desde su perspectiva lógica,obviando las importantes fases de análisis de requisitos y diseño conceptual, con lo que muchos

v

Page 6: Índice general - ILAPEPilapep.mx/adi/unidad3/04_caracteristicas_de_un_dwh.pdf · Prefacio Este libro se centra en proporcionar los conceptos y aspectos básicos necesarios para aco-meter

vi Índice general

conceptos necesarios se obvian y, por tanto, se obtienen diseños erróneos y poco funcionales conel consiguiente gasto añadido en recursos de todo tipo (humanos, técnicos, tecnológicos, etc.).

Por todo ello, este libro nace con la ilusión de ser el primero de una serie de textos quepretenden cubrir un hueco en la literatura actual proporcionando aspectos básicos del diseñoy explotación de almacenes de datos. Actualmente estamos preparando (I) un texto centradoen aspectos de implementación con plataformas concretas y, (II) otro texto que presenta lametodología propia desarrollada en el seno del Grupo Lucentia que permite acometer el diseñode almacenes de datos de forma automática desde la fase de análisis de requisitos hasta laimplementación final utilizando MDA (Model Driven Architecture) y UML (Uni�ed ModelingLanguage). Además, este método está soportado por una herramienta de diseño basada enel entorno de desarrollo ECLIPSE que permite acometer el diseño de los almacenes de datosdesde etapas tempranas de desarrollo. Este último texto, sin embargo, estará más enfocado aprofesionales de la Informática y alumnos del Tercer Ciclo.

Por último, quisiera agradecer personalmente a los dos co-autores del libro por su apoyodurante estos últimos años y a todos los miembros del Grupo de Investigación Lucentia (IreneGarrigós, Lilia Muñoz, Sergio Luján, Rafael Romero, José Jacobo Zubco�, Octavio Glorio yEmilio Soler). No quisiera despedirme sin mostrar mi agradecimiento a todos los miembros delDpto. de Lenguajes y Sistemas Informáticos de la Universidad de Alicante, por todo el apoyoque siempre han mostrado hacia nuestro grupo y las actividades que desarrollamos.

Juan Carlos Trujillo

Alicante, a 15 de junio de 2009

Page 7: Índice general - ILAPEPilapep.mx/adi/unidad3/04_caracteristicas_de_un_dwh.pdf · Prefacio Este libro se centra en proporcionar los conceptos y aspectos básicos necesarios para aco-meter

Prefacio

Este libro se centra en proporcionar los conceptos y aspectos básicos necesarios para aco-meter el diseño y explotación de almacenes de datos. Tal y como se dejará patente a lo largodel libro, estos sistemas presentan peculiaridades y aspectos propios que los diferencian de lossistemas transaccionales y, por tanto, demandan métodos, modelos y herramientas distintas delas utilizadas en el diseño y explotación de los sistemas transaccionales.

Por ello, el libro comienza con el Capítulo 1 de Introducción, cuyo objetivo fundamental esreflexionar sobre los sistemas transaccionales y su inconveniencia para ser utilizados para latoma de decisiones estratégicas en el entorno empresarial. Además, en este capítulo se hace unaprimera aproximación a los almacenes de datos y sus objetivos y, lo más importante, se finalizael capítulo con una comparativa entre los sistemas transaccionales y los almacenes de datospara enfatizar las diferencias entre ambos. Por otro lado, se introduce el modelado o paradigmamultidimensional como la aproximación de modelado ampliamente utilizada para estos sistemas.Por último, estas diferencias son suficientes para justificar los modelos y métodos particularesnecesarios para acometer con éxito su diseño y, además, justifican el resto de capítulos del libro.

En el Capítulo 2, se presenta de manera general todos los componentes fundamentales de unaarquitectura básica de almacenes de datos y, cómo interactúan entre ellos. Al ser éste un textode introducción de conceptos básicos, hemos evitado hacer alusión a arquitecturas de almacenesde datos de nueva generación como son los almacenes de datos espaciales, biomédicos, socialeso de flujo continuo de datos.

En el Capítulo 3, se aborda la parte central del libro: el paradigma o modelado multidimen-sional. En una primera parte, se presenta el modelado multidimensional a nivel conceptual. Sinembargo, como en la actualidad no existe ninguna propuesta estándar ampliamente aceptadapara acometer esta fase de diseño, se presentan los conceptos imprescindibles para acometer conéxito el diseño de estos sistemas como son los niveles de jerarquías, la aditividad, la cardina-lidad entre relaciones, etc. Si estos conceptos no se recogen de alguna forma desde las etapastempranas de desarrollo, lo más probable es que el diseño final del almacén de datos sea erróneo.

En la segunda parte, se hace hincapié en cómo representar los conceptos recogidos en lafase anterior en un modelo multidimensional lógico. Como nos centramos principalemente enplataformas relacionales, utilizamos como base el esquema estrella y sus variantes. Una vezllegado a este punto, el alumno y profesional estará en disposición de realizar el diseño lógico deun almacén de datos desde su perspectiva lógica utilizando cualquier plataforma del mercado.

En el Capítulo 4, se describen los aspectos fundamentales de los cruciales procesos ETL(Extraction, Transformation, and Loading, extracción, transformación y carga). Estos procesosson los encargados de extraer los datos de las diversas y heterogéneas fuentes de datos, realizarlas transformaciones necesarias y cargar los datos en las estructuras lógicas del almacén definidasen el capítulo anterior. En la actualidad, un 80 por ciento del esfuerzo total dedicado al diseñode los almacenes de datos se dedica a estos procesos.

vii

Page 8: Índice general - ILAPEPilapep.mx/adi/unidad3/04_caracteristicas_de_un_dwh.pdf · Prefacio Este libro se centra en proporcionar los conceptos y aspectos básicos necesarios para aco-meter

viii Índice general

En el Capítulo 5, se describen las herramientas de consulta más habituales en este tipo desistemas: las herramientas OLAP (On-Line Analytical Processing, procesamiento analítico enlínea). Estas herramientas presentan un conjunto común de operaciones que se ejecutan sobreel modelo multidimensional definido en la fase anterior y que permiten al analista obtener losdatos adecuados para la toma de decisiones.

En el Capítulo 6, se introducen las herramientas de minería de datos. Mientras que las he-rramientas OLAP presentan los datos después de ejecutar consultas contra el almacén de da-tos, las herramientas de minería de datos, ejecutan algoritmos sobre los datos existentes conel fin de encontrar patrones y tendencias ocultas en los datos y de alguna forma, predecir quepuede suceder en un futuro en base a los datos actuales. Este capítulo clarifica la diferenciaentre estas herramientas y las herramientas OLAP, ya que a menudo se suelen confundir susfuncionalidades.

En el Capítulo 7, se presentan los metadatos de una arquitectura de almacenes de datos. Losmetadatos son importantes en cualquier aplicación, sin embargo, cobran especial importancia enlos sistemas de almacenes de datos dada la complejidad de los mismos; ya que se ha de guardarno solo información de los usuarios y los datos en sí sino, por ejemplo, de las transformacionessufridas por los mismos antes de ser cargados en el almacén.

Para finalizar y, tal y como se ha comentado en el prólogo, este libro pretende ser el primerode una serie de textos con los que se desea abordar el diseño y explotación de almacenes dedatos. Además, deseamos orientar los a los alumnos de las Titulaciones de Grado y Posgradode Informática y a los profesionales de los almacenes de datos. Por ello, se intenta por todos losmedios que sea un libro accesible a todo el público.

Juan Carlos TrujilloJosé Norberto Mazón

Jesús Pardillo

Alicante, a 15 de Junio de 2009

Page 9: Índice general - ILAPEPilapep.mx/adi/unidad3/04_caracteristicas_de_un_dwh.pdf · Prefacio Este libro se centra en proporcionar los conceptos y aspectos básicos necesarios para aco-meter

Un viaje de miles de kilómetros empieza conun solo paso.

Lao-Tsu

1Introducción

Comenzaremos nuestro estudio de los almacenes de datos repasando brevemente la tecnologíaactual de las bases de datos, haciendo hincapié en los sistemas transaccionales. A continuación,se expondrán las nuevas necesidades de gestión de datos dentro del contexto empresarial y deglobalización en el que se desenvuelven las empresas. Tras ello, se introducirán los almacenesde datos realizando una primera aproximación a este tipo de sistemas. El capítulo finalizarádiscutiendo las diferencias entre los sistemas transaccionales y los de almacenes de datos paraclarificar aún más la razón de existencia de los almacenes de datos.

Índice1.1. La tecnología de bases de datos . . . . . . . . . . . . . . . . . . . . . 11.2. Las nuevas necesidades de gestión de datos . . . . . . . . . . . . . . 21.3. Historia de las soluciones informáticas a datos históricos . . . . . 41.4. El almacén de datos: una primera aproximación . . . . . . . . . . . 61.5. Historia de las aplicaciones OLAP . . . . . . . . . . . . . . . . . . . 81.6. Sistemas analíticos contra transaccionales . . . . . . . . . . . . . . . 9

1.1. La tecnología de bases de datosDesde los primeros sistemas de gestión de ficheros allá por los años 70 hasta los SGBD

(Sistema de gestión de bases de datos) actuales, la tecnología de bases de datos ha evolucionadohasta disponer en la actualidad de SGBD robustos, eficientes y con un amplio espectro deherramientas de alto nivel que facilitan su manejo y gestión tanto desde la perspectiva delservidor como de la de cliente.

1

Page 10: Índice general - ILAPEPilapep.mx/adi/unidad3/04_caracteristicas_de_un_dwh.pdf · Prefacio Este libro se centra en proporcionar los conceptos y aspectos básicos necesarios para aco-meter

2 Capítulo 1. Introducción

En la actualidad, podríamos decir que aproximadamente el 90% de los SGBD implantadosson relacionales, obteniendo así las ventajas inherentes del modelo relacional subyacente a talessistemas, tales como la integridad de los datos o independencia de los datos y las aplicaciones.Obviamente, en el mercado también se dan otros SGBD como, por ejemplo, los SGBD en red,jerárquicos, OO (Orientado u orientación a objetos) o los objeto-relacionales. Los dos primerossolemos encontrarlos en entornos bancarios donde todavía los mainframes y hosts de los añosochenta siguen albergando una gran cantidad de datos confidenciales consecuencia de llevarvarias décadas operativos. Sin embargo, en tales sistemas, las empresas llevan ya algún tiempooptando por una de estas dos alternativas:

La migración paulatina de estos sistemas a SGBDR (SGBD relacional) basados en ar-quitecturas cliente-servidor, o bien,

La construcción de una serie de herramientas de gestión y clientes que se conectan a talessistemas y con interfaces que facilitan la interacción.

En general, los sistemas OO se encuentran en contextos donde es necesario tratar con tiposde datos más complejos, como en bases de datos multimedia, sistemas CAD/CAM (Computer-Aided Design/Computer-Aided Manufacturing), etc.

Otra forma de referirse conjuntamente a los SGBD mencionados es la de sistemas tradi-cionales o transaccionales. La razón de ello es que estos SGBD están orientados a satisfacerlas necesidades diarias de datos de la empresa, y por ello, están enfocados a procesar un grannúmero de transacciones fruto de la actividad diaria de la empresa, como pueda ser: la comprade productos, la venta de propiedades, el servicio de transporte, etc. A tales sistemas se les sueledenominar OLTP (On-Line Transaction Processing, procesamiento transaccional en línea).

Cuando en tales sistemas se decide que ciertos datos no se utilizan con suficiente frecuencia,estos se catalogan como históricos y se suelen depositar en almacenamientos externos comodiscos duros dedicados o cintas magnéticas. Como ejemplo de este tipo de datos tenemos: losdatos económicos de ejercicios o trimestres anteriores, los clientes dados de baja o los productosdevueltos a los proveedores por defectos detectados.

1.2. Las nuevas necesidades de gestión de datos

Dentro de un contexto económico-empresarial, los analistas económicos coinciden en que asis-timos a un fenómeno definido como globalización de la economía. Este fenómeno se ha vistonotablemente influenciado por las TIC (Tecnologías de la Información y Comunicación), queproporcionan una gran cantidad de información y contribuyen a disminuir las barreras físicasentre mercados, y consecuentemente, entre empresas. Por lo tanto, las empresas se enfrentan aentornos más hostiles con un elevado índice de competencia. En esta situación, es imprescindi-ble adoptar decisiones estratégicas que proporcionen a una empresa ventajas competitivas conrespecto a sus rivales.

Independientemente del contexto en el que una empresa opere, en el cuadro 1.1 se exponen unaserie de preguntas que bien podrían ser cuestiones formuladas por los responsables de adoptardecisiones estratégicas en un entorno empresarial. Estas cuestiones pueden servir para introduciral experto en TIC al punto de vista del analista de información o del responsable de la tomade decisiones en la empresa.

Page 11: Índice general - ILAPEPilapep.mx/adi/unidad3/04_caracteristicas_de_un_dwh.pdf · Prefacio Este libro se centra en proporcionar los conceptos y aspectos básicos necesarios para aco-meter

1.2. Las nuevas necesidades de gestión de datos 3

¾Cuántos zapatos del 41 de color rojo se vendieron el último mes en la zona norte, este ysur; comparados con las ventas del mismo mes el año pasado?

¾Qué tipo de cliente me ha estado comprando el BMW 320i durante los últimos 10 años?¾Directivo, profesor, trabajador escala básica, etc.?

¾Ha variado un cliente sus gustos de compra de vehículos? ¾Ha estado comprando el mismovehículo de soltero que de casado?

¾Cuáles son las 25 primeras marcas, por productos, estilos y regiones de España clasificadaspor el margen de ventas en e?

¾Cuál fue el presupuesto gastado en promociones en clientes que luego hicieron comprasinferiores a 100e?

¾Qué descuento deberíamos ofrecer para incrementar significativamente las ventas?

El producto de tipo A se ha vendido mucho más que el producto de tipo B. Encontrarpatrones de correlación entre esos tipos de productos y extraer similitudes y diferencias.

¾Cuáles son las tendencias en mis ventas?

Cuadro 1.1.: Típicas cuestiones estratégicas para tomar decisiones en un negocio

Tal y como se puede concluir de las preguntas formuladas en el Cuadro 1.1, las decisionesestratégicas requieren una gran cantidad de información, normalmente información histórica,procedente de distintas fuentes, que permita al analista descubrir fenómenos y tendencias es-condidos en los datos. En este contexto, es fundamental que tal información sea proporcionadaal analista de una forma rápida y sencilla, y sobre todo, en una interfaz fácil de utilizar porel no experto en TIC. Los sistemas de apoyo para la toma de decisiones han experimentadoun gran auge desde los años ochenta ya que son capaces de proporcionar una gran cantidad deinformación en un formato fácil de interpretar por el analista. Sin embargo, el problema quetenían estos sistemas hasta principios de los noventa era poder disponer de información históricade una forma unificada, compacta y coherente.

En este punto cabría formularse una cuestión: ¾son válidos los sistemas OLTP para talesdecisiones? La respuesta a esta pregunta debería ser el punto de partida para saber si, o bienescalando, o bien actualizando los actuales OLTP, se podrían satisfacer tales requerimientos;o si por el contrario, necesitamos otro tipo de sistema. Aportando algunas razones, en primerlugar, los datos históricos no están (o no deberían estar) disponibles en los sistemas OLTP.Si analizamos brevemente las preguntas del cuadro 1.1, se puede ver que la mayoría de laspreguntas requieren datos que residen en distintas fuentes de datos de la empresa. Por ejemplo,los datos de proveedores residirán en la base de datos de proveedores, mientras que los de clientesy productos residirán en la base de datos de ventas.

Así que, tal y como vemos, una característica común a tales preguntas es que se necesitandatos de varias fuentes o bases de datos (algunos de ellos no disponibles al ser históricos) y queintegrar tales datos en tiempo real no solo consumiría una gran cantidad de recursos, sino quesería prácticamente inviable. Por otro lado, los analistas del negocio no entienden de tablas,

Page 12: Índice general - ILAPEPilapep.mx/adi/unidad3/04_caracteristicas_de_un_dwh.pdf · Prefacio Este libro se centra en proporcionar los conceptos y aspectos básicos necesarios para aco-meter

4 Capítulo 1. Introducción

columnas, etc. Necesitan entornos de consulta específicos en el que se manejen términos denegocio más próximos a las cuestiones que se formulan. Estas son solo algunas característicasque podríamos citar para concluir que los sistemas OLTP no son adecuados para proporcionardatos en la respuesta a preguntas estratégicas.

1.3. Historia de las soluciones informáticas a datoshistóricos

Sin embargo, las decisiones estratégicas existen desde que una persona emprendedora deciderealizar una actividad o profesión por cuenta propia. Así que vamos a repasar brevemente lassoluciones tecnológicas que se han ido proporcionando a lo largo de la historia para manejartales datos históricos y ponerlos a disposición del analista de información.

Datos procedentes de sistemas heredados

Es durante los años 70 cuando se extiende el uso de los grandes mainframes o hosts deIBM. Estos sistemas albergaban los datos en el SGBD DB2 de IBM, disponiendo de rutinasescritas fundamentalmente en lenguajes como COBOL, CICS o IMS. En los años ochenta,se extiende el uso de plataformas AS/400 y del VAX/VMSR. En estos AS/400, el principalproblema radicaba en que los datos estaban embebidos junto con las aplicaciones (no disponíande la propiedad de independencia de aplicaciones y datos) y, para acceder a ellos, se tenía quedisponer del código fuente de tales sistemas. Hoy en día, muchas aplicaciones de negocio seejecutan sobre estos sistemas, ya que durante muchos años han estado recogiendo datos y reglasde negocio, y resulta más sencillo diseñar aplicaciones que se comuniquen con ellos que implantarotro sistema. Generalmente, los datos se vuelcan en bibliotecas a las que otras aplicaciones denegocio accederán. Sin embargo, el coste de estas aplicaciones de negocio es elevado, ya que setrata de desarrollar aplicaciones totalmente personalizadas.

Datos extraídos en el escritorio

Los años noventa se conocen en términos generales como la gran expansión de las aplica-ciones de escritorio. El abaratamiento del hardware permitiría que en cada puesto de trabajohubiese un PC (Personal Computer) para analizar datos. Con esto, se redujo la distancia entreusuario final y programador, dado que se extiende el uso de herramientas sencillas de utilizar,como hojas de cálculo o herramientas de análisis que, además, el propio usuario final puedepersonalizar en función del uso. Así, aun disponiendo de los sistemas heredados (donde resideel mayor volumen de datos de la empresa), estas herramientas de escritorio acceden a los datosproducidos por dichos sistemas heredados. El problema común que suele generar esta forma deproceder es que los datos tienden a permanecer fragmentados y están orientados a necesidadesespecíficas de grupos de usuarios finales, presentando así soluciones parciales para estos, con laproblemática añadida de que no todos los usuarios disponen de la destreza o tiempo suficientespara personalizar tales aplicaciones.

Page 13: Índice general - ILAPEPilapep.mx/adi/unidad3/04_caracteristicas_de_un_dwh.pdf · Prefacio Este libro se centra en proporcionar los conceptos y aspectos básicos necesarios para aco-meter

1.3. Historia de las soluciones informáticas a datos históricos 5

Sistemas de apoyo para la toma de decisiones

Estos sistemas experimentaron un gran auge en los años ochenta pues estaban orientadosa facilitar el análisis de datos a los ejecutivos que, por normal general, no estaban dispuestosa personalizar herramientas de escritorio como las hojas de cálculo. En términos generales,podemos resumir que:

Los DSS (Decision Support System, sistema de apoyo a la decisión) ofrecen datos másdetallados y están más orientados a los ejecutivos de la escala intermedia de una empresa.

Los EIS (Executive Information System, sistema de información para ejecutivos) ofrecendatos más consolidados y, en general, están más orientados a los ejecutivos de las altasescalas de la empresa.

Estos sistemas poseen en común que presentan los datos en una vista multidimensional; deforma muy parecida a las rejillas típicas de las hojas de cálculo. A pesar de las diferencias departida, cada vez más autores consideran que son herramientas similares y que incluso solapansus funciones, puesto que ambas se pueden orientar a obtener el mismo tipo de informes.

A continuación, se resumen las características comunes a los DSS y EIS:

Presentan datos descritos en términos propios del negocio, en lugar de términos técnicoscomo tupla, fila o tabla. La principal razón es que tales sistemas están enfocados a usuariosno expertos en las TIC.

Los datos se preprocesan siguiendo patrones de reglas de negocio con las que las empresashan estado trabajando y aplicando; como por ejemplo, los beneficios por la venta deproductos en distintos almacenes.

Ofrecen vistas consolidadas de los datos. Aunque, por supuesto, permiten ver datos endetalle, rara vez pueden acceder a todos los datos en detalle dado el volumen de los mismos.Por ello, suele ser mucho más operativo la consulta de vistas consolidadas o resumidas.

En cierto sentido, DSS y EIS se consideran como los precursores de los almacenes de datosdado su enfoque multidimensional en la presentación de los datos para facilitar el análisis dela información al no experto de las TIC. Sin embargo, el gran inconveniente con el que seenfrentaba una empresa era la considerable inversión necesaria para implantarlas y, sobre todo,la descoordinación existente entre todas las soluciones sobre los datos necesarios para efectuarinformes: cada solución extraía los datos necesarios del servidor, sin tener en cuenta si la otrasolución también los estaba extrayendo.

Como preámbulo del siguiente epígrafe, podemos resumir que los almacenes de datos incor-poran la filosofía de las herramientas analíticas de datos de los sistemas precedentes: facilidadde manejo, datos resumidos, capacidad de análisis, etc. Sin embargo, tal y como veremos en elsiguiente punto, la gran ventaja que aportan los almacenes de datos es proporcionar una soluciónglobal de repositorio de datos a la empresa, en lugar de proporcionar soluciones parciales condatos duplicados tal y como ocurría en las soluciones anteriores.

Page 14: Índice general - ILAPEPilapep.mx/adi/unidad3/04_caracteristicas_de_un_dwh.pdf · Prefacio Este libro se centra en proporcionar los conceptos y aspectos básicos necesarios para aco-meter

6 Capítulo 1. Introducción

1.4. El almacén de datos: una primera aproximaciónAntes de proporcionar la definición técnica y más extendida, definiremos a los almacenes de

datos como sistemas que almacenan datos históricos para ser utilizados por los DSS para tomade decisiones estratégicas. Dichos sistemas son eminentemente de consulta y están enfocados aextraer conocimiento de los datos históricos almacenados. Por ello, un almacén de datos no es unabase de datos en el sentido tradicional, donde cualquier aplicación de usuario final puede realizarinserciones, actualizaciones y borrados sobre la base de datos. Adelantamos que las herramientasmás extendidas para realizar el análisis de estos datos históricos son las herramientas OLAP(On-Line Analytical Processing, procesamiento analítico en línea), basadas en el denominadomodelado o modelo multidimensional, que a su vez basa el análisis en cubos, hipercubos ytablas multidimensionales.

Desde su aparición a principios de los noventa, aún permanece invariable la definición dealmacén de datos proporcionada por Bill Inmon, considerado uno de los pioneros o padres deesta tecnología, en los 90:

“Un almacén de datos en una colección de datos orientados por tema, integrados,variables en el tiempo y no volátiles que se emplea como apoyo a la toma dedecisiones estratégicas”.

Vamos a desglosar cada una de las partes importantes de esta definición:

Orientados por tema. El diseño del almacén de datos está enfocado a responder eficientementea las consultas estratégicas y no a procesar un gran número de transacciones, como sucedeen el diseño de las bases de datos tradicionales o transaccionales. Por ello, el almacén dedatos está organizado de acuerdo con los temas más importantes para la organización y,por ende, para proporcionar respuestas a estas consultas estratégicas. Desde un punto devista intuitivo, se distinguen dos aspectos fundamentales:

Actividades de interés para el análisis: compras de productos, ventas de vehículos,alquileres, etc.

Contexto de análisis para estas actividades de interés: clientes, vendedores, productos,etc.

Nos permitimos aquí proporcionar la primera aproximación al modelado o modelo multi-dimensional que, tal y como veremos a lo largo del libro, es la base para el diseño eficazde los almacenes de datos. El modelado multidimensional estructura su diseño en:

Hechos: que son las actividades de interés para la empresa.

Dimensiones: que son el contexto sobre el que se desea analizar estas actividades.

Integrados. Los datos proceden de distintas fuentes de datos, en general heterogéneas, dentro dela organización. Esta heterogeneidad de los datos hace que nos enfrentemos, por ejemplo,a distintos formatos, definiciones o esquemas de bases de datos; con lo que un problemafundamental al cargar los datos en el almacén de datos será resolver estas diferencias yalmacenar datos coherentes y homogéneos.

Variables en el tiempo. Los datos en el almacén de datos siempre se cargan con una referenciatemporal bajo la que son válidos. Esta referencia puede ser puntual y concreta, es decir,

Page 15: Índice general - ILAPEPilapep.mx/adi/unidad3/04_caracteristicas_de_un_dwh.pdf · Prefacio Este libro se centra en proporcionar los conceptos y aspectos básicos necesarios para aco-meter

1.4. El almacén de datos: una primera aproximación 7

Figura 1.1.: Tabla multidimensional producida por una posible herramienta OLAP

en un instante determinado, o ser válidos en un intervalo de tiempo. La variación conrespecto del tiempo se manifiesta también en el gran intervalo de tiempo durante el quese almacenan los datos, en la asociación implícita o explícita a la variable temporal, y enel hecho de que los datos representan una serie de instantáneas o intervalos.

No volátiles. Los datos no se insertan, actualizan, borran o refrescan en tiempo real, sino que serefrescan de forma periódica a partir de las fuentes de datos operaciones. Los nuevos datosse añaden siempre (o siendo más realistas, en la mayoría de las ocasiones como veremos)para aumentar el repositorio de datos, en lugar de para sustituir los datos existentes. Taly como veremos más adelante, ciertos procesos serán los encargados de poblar el almacénde datos desde las fuentes de datos.

Así, el objetivo de las técnicas de almacenamiento de datos es ofrecer información históricapara la toma de decisiones integrando la información procedente de distintas fuentes de datosoperacionales. En realidad, los almacenes de datos no son una tecnología totalmente nueva, sinoque integran eficientemente tecnología de bases de datos con análisis de datos: en cuanto a lasbases de datos, utilizan un SGBD que alberga el repositorio del almacén de datos; con respectoal análisis de datos, proporcionan herramientas que permitan llevar a cabo de manera sencilla elanálisis en línea. Las herramientas de análisis más conocidas son las herramientas OLAP, queestán basadas en el análisis multidimensional de los datos.

Veamos en este punto un ejemplo sencillo de consulta que se podría formular a un almacénde datos y la tabla o rejilla multidimensional (a modo de hoja de cálculo) que devolvería unaherramienta OLAP típica.

Supongamos que deseamos conocer las ventas de productos con respecto a los productos ven-didos, los almacenes donde se vendieron y el tiempo en el que se produjeron estas ventas. En esteejemplo, la actividad de interés para la empresa sería la venta de productos y las dimensionesdel contexto del análisis serían la dimensión producto, almacén y tiempo. En la fig. 1.1, vemosuna tabla multidimensional donde en las celdas centrales se muestran los valores de los hechos,mientras que en los encabezados horizontal y vertical se muestran los valores de las dimensiones.

Para finalizar esta primera aproximación al almacén de datos, mencionaremos brevementealgunas de las ventajas e inconvenientes que los almacenes de datos presentan para las empresas:

//

Page 16: Índice general - ILAPEPilapep.mx/adi/unidad3/04_caracteristicas_de_un_dwh.pdf · Prefacio Este libro se centra en proporcionar los conceptos y aspectos básicos necesarios para aco-meter

8 Capítulo 1. Introducción

Ventajas para las empresas: Decisiones soportadas por datos fiables, coherentes y homo-géneos.

Rentabilidad de inversiones (ROI, Return of Investment). Muchos son los informesque presentan datos en cuanto a la rentabilidad obtenida a un almacén de datos frutode las correctas decisiones estratégicas adoptadas.

Aumenta la competitividad en los entornos hostiles ya que se dispone de datos másfiables.

Entornos amigables, ya que los directivos o analistas de información acceden a losdatos por ellos mismos con interfaces sencillas de manejar.

Incovenientes para las empresas :

Infravalorar los recursos necesarios para construir, poblar y mantener el almacén dedatos a partir de datos operacionales.

No planificar el considerable esfuerzo necesario para lograr un buen diseño.

Considerar que una vez entregado al cliente, el almacén de datos ya está acabado. Elalmacén de datos recibe un incremento continuo de requerimientos ad hoc, necesitandoescalar y evolucionar conforme lo hacen las aplicaciones operacionales.

A más cantidad de datos, más problemas de seguridad. Dada la confidencialidad yel matiz de los datos contenidos en los almacenes de datos, hay que extremar lasmedidas de seguridad para que personas no autorizadas accedan a datos sensibles.

1.5. Historia de las aplicaciones OLAP

Quizás, la primera herramienta OLAP considerada como tal del mercado fue el lenguaje deprogramación APL de los años 70. Sin embargo, este lenguaje fracasó ya que el analista debíatener altos conocimientos de programación para poder obtener los informes requeridos.

A principios de los ochenta surge el producto de Comshare's System W. Enfocado a solucionesfinancieras, proporcionaba datos multidimensionales en forma similar a cubos e hipercubos. Esteproducto evolucionó al Commander Prism de Essabe. Sin embargo, tuvo que enfrentarse a ladificultad de que el hardware de aquella época no soportase los requisitos de estas aplicaciones.Así, surgieron los primeros DSS y los EIS.

Mientras tanto, E. F. Codd, el creador del tan conocido modelo relacional, definió 12 reglaspara diseñar aplicaciones OLAP. Básicamente, su propuesta se basa en el tratamiento de datosmultidimensional haciendo uso de la tecnología relacional.

A finales de los 90 se incrementa tanto la oferta como la demanda de las herramientas OLAP,surgiendo así dos tipos de arquitectura:

Las herramientas ROLAP (Relational OLAP, OLAP relacional), que utilizan tecnologíarelacional para implementar el almacén de datos.

Las herramientas MOLAP (Multidimensional OLAP, OLAP multidimensional), queen lugar de utilizar tecnología relacional, albergan y procesan los datos directamente envectores multidimensionales o matrices.

Page 17: Índice general - ILAPEPilapep.mx/adi/unidad3/04_caracteristicas_de_un_dwh.pdf · Prefacio Este libro se centra en proporcionar los conceptos y aspectos básicos necesarios para aco-meter

1.6. Sistemas analíticos contra transaccionales 9

Figura 1.2.: Evolución del mercado OLAP desde 1994 hasta 2004

A modo de resumen, en la fig. 1.2 podemos ver un gráfico que muestra la evolución del mercadoamericano de herramientas y soluciones OLAP hasta el año 2004. Mientras que se observa uncrecimiento significativo alrededor del 2001, en 2004, el mercado OLAP ya está maduro y condificultad para crecer exponencialmente, presentando incluso cierto grado de saturación. Sinembargo, la maduración del mercado traerá consigo la reducción de costes de forma drástica.

1.6. Sistemas analíticos contra transaccionalesFinalizaremos este capítulo de introducción a la tecnología de los almacenes de datos con un

resumen (cuadro 1.2) de las principales diferencias entre los sistemas operacionales o transac-cionales y los sistemas analíticos.

Del cuadro 1.2 se desprende que mientras los almacenes de datos (como sistemas analíticos)están orientados al tema y el negocio, pues su objetivo es proporcionar respuesta a una grancantidad de requisitos ad hoc lanzados por los analistas del negocio, los sistemas operacionalesestán orientados a la aplicación y a procesar un gran número de transacciones. Este aspecto fun-damental marcará el diseño del repositorio del almacén de datos (la base de datos que almacenala información para el análisis), como veremos en los capítulos siguientes.

Por ello, mientras que en los sistemas transaccionales se utilizan técnicas de normalizacióndesde las primeras fases de diseño, tal y como justificaremos a lo largo del texto, mostraremosque en los almacenes de datos las técnicas de desnormalización serán las más adecuadas para eldiseño eficaz de los almacenes de datos.