78
Almacenes de datos Ing. Roanny Lamas López

Fundamentos teóricos de los almacenes de datos. Metodologías y herramientas para el desarrollo de almacenes de datos

Embed Size (px)

Citation preview

Almacenes de datosIng. Roanny Lamas López

Distribución de horas

C CP L S Eval. Total

Tema 1: Fundamentos teóricosde los almacenes de datos.

2 - - 2 - 4

Tema 2: Análisis y diseño dealmacenes de datos.

2 2 6 2 2 14

Tema 3: Carga y Explotación dealmacenes de datos.

4 - 20 - 6 30

Totales 8 2 26 4 8 48

Introducción

Sistemas de Bases de Datos I

Sistemas de Bases de Datos II

SistemasGestores de

Bases de Datos

Relacionales

Modelo Relacional

Aplicaciones informáticas

Contexto empresarial

Orientadas a procesos

Introducción

• Sistemas de Información de Clientes

• Sistemas Financieros• Sistemas de Ventas• Sistemas de Producción• Sistemas de Recursos

Humanos• Sistemas de Marketing

¿Cuántos zapatos vendimos el último mes?

¿Cuántos zapatos del 41 decolor rojo se vendieron elúltimo mes en la zonanorte; comparados con lasventas del mismo mes elaño pasado?

Introducción

• Sistemas de Información de Clientes

• Sistemas Financieros• Sistemas de Ventas• Sistemas de Producción• Sistemas de Recursos

Humanos• Sistemas de Marketing

¿Cuántos zapatos vendimos el último mes?

¿Cuántos zapatos del 41 decolor rojo se vendieron elúltimo mes en la zonanorte; comparados con lasventas del mismo mes elaño pasado?

Introducción

Gran volumen de información

Entorno empresarial competitivo

Mercado global

• Mejor control sobrelas áreas de laempresa.

• Alerta oportuna.• Seguimiento de

indicadores.• Respuestas rápidas

a las preguntas delnegocio.

C

o

n

t

e

x

t

o

N

e

c

e

s

i

d

a

d

Solución

Almacenes de datos

Tema 1: Fundamentos teóricos de los almacenes de datos.Conferencia 1: Metodologías y herramientas para el desarrollo de almacenes de datos.

Objetivos

•Caracterizar la tecnología de almacenes de datos, asícomo las metodologías y herramientas para suimplementación.

Sumario

• Sistemas de información.

• Introducción a los almacenes de datos*.

• Metodologías para el desarrollo de DW.

• Arquitectura de un DW.

• Tecnologías para desarrollar DW.

*Data Warehouse - DW

Bibliografía

• DEVLIN, Barry. Data Warehouse: From Architecture toImplementation. Addison-Wesley, 1997. ISBN 9780201964257.

• INMON, W. H. Building the Data Warehouse. John Wiley & Sons,2005. ISBN 9780471774235.

• KIMBALL, Ralph and ROSS, Margy. The Data Warehouse Toolkit:The Complete Guide to Dimensional Modeling. John Wiley &Sons, 2011. ISBN 9781118082140.

Sistemas de información

Un sistema de información es un conjunto deelementos orientados al tratamiento y administraciónde datos e información, organizados y listos para su usoposterior, generados para cubrir una necesidad uobjetivo.

Sistemas de información

Nivelestratégico

Nivel táctico

Nivel operativo

Nivel transaccional

Sistemas de información

Nivelestratégico

Nivel táctico

Nivel operativo

Nivel transaccional

Cubren el núcleode operacionestradicionales decaptura masiva dedatos y serviciosbásicos detratamiento dedatos.

Trabajadores

Gerentes de nivel medio

Sistemas de información

Nivelestratégico

Nivel táctico

Nivel operativo

Nivel transaccional

Facilitar la gestiónindependiente dela información porparte de losnivelesintermedios de laorganización.

Gerentes de alto nivel

Sistemas de información

Nivelestratégico

Nivel táctico

Nivel operativo

Nivel transaccional

Orientados asoportar la tomade decisiones yfacilitar la labor dedirección.

Ejecutivos

Sistemas de información

Nivelestratégico

Nivel táctico

Nivel operativo

Nivel transaccional

Sistemas informacionales

Sistemas operacionales

Sistemas de información

Sistemas operacionales:Son aquellos que tienen como objetivo reflejar elestado y funcionamiento de las empresas/organizaciones, registrando las transacciones uoperaciones diarias de los principales procesos oactividades que realizan.

Procesamiento Transaccional en Línea (OLTP)

Sistemas de información

Sistemas informacionales:Son aquellos que tienen como objetivo mantenerdisponible un compendio de información históricagarantizando una fuente única, contribuyendo arealizar análisis y toma de decisiones estratégicas alargo plazo.

Procesamiento Analítico en Línea (OLAP)

Sistemas de información

Nivelestratégico

Nivel táctico

Nivel operativo

Nivel transaccional

Sistemas informacionales

Sistemas operacionales

Almacenes de

datos

Sistemas operacionales ↔ informacionales

Sistemas operacionales

Sistemasinformacionales

Sistemasinformacionales

Data Warehouse

OLTP vs OLAP

Sistemas operacionales

(OLTP)

Sistemas informacionales

(OLAP)

Base de datos orientada al proceso

Base de datos orientada al análisis

OLTP vs OLAP

Sistemas operacionales Sistemas informacionales

Pocos registros Muchos registros

Actualizan datos Leen datos

Tiempo de respuesta críticoTiempo de respuesta no tan crítico

Usuarios: operativosUsuarios: directivos y administradores

Datos operacionales Datos relevantes

Toma de decisiones

La toma de decisiones es el proceso de identificaciónde un problema u oportunidad y la selección de unaalternativa de acción entre varias existentes.

Sistemas para el Soporte de Decisiones*

Son aquellos que tienen como objetivos medir, evaluary controlar los principales indicadores del negocio,buscando identificar, proyectar o predecir tendencias apartir de los datos acumulados.

*Decision Support System(DSS)

Inteligencia de negocio*

Conjunto de estrategias y herramientas enfocadas a laadministración y creación de conocimiento medianteel análisis de datos existentes en una organización.

*Inteligencia empresarial, Business intelligence (BI)

Avances en los sistemas de informaciónConocimiento

Datos

R

e

f

i

n

a

m

i

e

n

t

o

Estadísticasy reportes

Modelo relacionalSGBD

Almacenes de Datos + OLAP

Minería dedatos

Modelos, reglas,patrones

1970 1980 1990 2000

Almacén de Datos

“Simplemente es un almacén de datos único, completoy consistente, obtenido de una variedad de fuentes ypuesto a disposición de los usuarios terminales de talmanera que ellos puedan entenderlo y usarlo en uncontexto empresarial”.

Barry Devlin (1997)

Almacén de Datos

Es una fuente de datos de la empresa que puede serconsultada.

• No debe ser organizada con ayuda del modeloentidad/relación• Es frecuentemente modificada, a partir de datoscorrectos.

Ralph Kimball (1998)

Almacén de datos

“Un almacén de datos es una colección de datos•orientados a temas,• integrados,•no volátiles y• variables en el tiempo,

organizados para soportar necesidades empresariales”.

W. H. Inmon (1992)

Metodologías de desarrollo

• Hefesto

• SQLBI

• Inmon

• Kimball

Bill Inmon Ralph Kimball

Metodología Hefesto

• La construcción e implementación de un almacén dedatos puede adaptarse muy bien a cualquier ciclo devida de desarrollo de software.

• No se recomienda utilizar metodologías con largasfases de captura de requisitos y de análisis.

• Fases de desarrollo y de despliegue relativamentecortas.

Metodología SQLBI

Avalada por Microsoft y orientada totalmente a susherramientas: Microsoft SQL Server, Microsoft SQLServer Analysis Services y su oferta más completa eneste campo que es Microsoft Suite for BusinessIntelligence.

Metodologías de desarrollo

Enfoques

bottom-up(Ascendente)

top-down(Descendente)

Mercado de datos*

Es un repositorio de información, similar a un almacénde datos, pero orientado a un área o departamentoespecífico de la organización.

Ralph Kimball (1998)

*Data Mart - DM

Metodología Inmon

Data Mart

Data Mart

Data Mart

Data Warehouse

Modelo relacional

Metodología Kimball

Data Mart

Data Mart

Data Mart

Data Warehouse

Modelo dimensional

Metodología Kimball

Ciclo de vida dimensional del negocio:• Centrarse en el negocio• Construir una infraestructura de información

adecuada• Realizar entregas en incrementos significativos• Ofrecer la solución completa

Metodología Kimball

Planificación

del proyecto

Definición

de

requisitos

del

negocio

Diseño ArquitecturaSelección de productos e

instalación

Modelo

Dimensional

Diseño

Físico

Diseño

de

procesos

ETL

Integración

y

despliegue

Mantenimiento

y crecimiento

Especificación

Aplicación Usuario

Desarrollo

Aplicación Usuario

Gestión del proyecto

Metodología Kimball

Planificación

del proyecto

Definición

de

requisitos

del

negocio

Diseño ArquitecturaSelección de productos e

instalación

Modelo

Dimensional

Diseño

Físico

Diseño

de

procesos

ETL

Integración

y

despliegue

Mantenimiento

y crecimiento

Especificación

Aplicación Usuario

Desarrollo

Aplicación Usuario

Gestión del proyecto

Planificacióndel proyecto

Metodología Kimball

Planificación

del proyecto

Definición

de

requisitos

del

negocio

Diseño ArquitecturaSelección de productos e

instalación

Modelo

Dimensional

Diseño

Físico

Diseño

de

procesos

ETL

Integración

y

despliegue

Mantenimiento

y crecimiento

Especificación

Aplicación Usuario

Desarrollo

Aplicación Usuario

Gestión del proyecto

Definiciónde

requisitosdel

negocio

Metodología Kimball

Planificación

del proyecto

Definición

de

requisitos

del

negocio

Diseño ArquitecturaSelección de productos e

instalación

Modelo

Dimensional

Diseño

Físico

Diseño

de

procesos

ETL

Integración

y

despliegue

Mantenimiento

y crecimiento

Especificación

Aplicación Usuario

Desarrollo

Aplicación Usuario

Gestión del proyecto

DiseñoArquitectura

técnica

Metodología Kimball

Planificación

del proyecto

Definición

de

requisitos

del

negocio

Diseño ArquitecturaSelección de productos e

instalación

Modelo

Dimensional

Diseño

Físico

Diseño

de

procesos

ETL

Integración

y

despliegue

Mantenimiento

y crecimiento

Especificación

Aplicación Usuario

Desarrollo

Aplicación Usuario

Gestión del proyecto

Selección de productos e instalación

Metodología Kimball

Planificación

del proyecto

Definición

de

requisitos

del

negocio

Diseño ArquitecturaSelección de productos e

instalación

Modelo

Dimensional

Diseño

Físico

Diseño

de

procesos

ETL

Integración

y

despliegue

Mantenimiento

y crecimiento

Especificación

Aplicación Usuario

Desarrollo

Aplicación Usuario

Gestión del proyecto

ModeloDimensional

Metodología Kimball

Planificación

del proyecto

Definición

de

requisitos

del

negocio

Diseño ArquitecturaSelección de productos e

instalación

Modelo

Dimensional

Diseño

Físico

Diseño

de

procesos

ETL

Integración

y

despliegue

Mantenimiento

y crecimiento

Especificación

Aplicación Usuario

Desarrollo

Aplicación Usuario

Gestión del proyecto

DiseñoFísico

Metodología Kimball

Planificación

del proyecto

Definición

de

requisitos

del

negocio

Diseño ArquitecturaSelección de productos e

instalación

Modelo

Dimensional

Diseño

Físico

Diseño

de

procesos

ETL

Integración

y

despliegue

Mantenimiento

y crecimiento

Especificación

Aplicación Usuario

Desarrollo

Aplicación Usuario

Gestión del proyecto

Diseño de procesos

ETL

Metodología Kimball

Planificación

del proyecto

Definición

de

requisitos

del

negocio

Diseño ArquitecturaSelección de productos e

instalación

Modelo

Dimensional

Diseño

Físico

Diseño

de

procesos

ETL

Integración

y

despliegue

Mantenimiento

y crecimiento

Especificación

Aplicación Usuario

Desarrollo

Aplicación Usuario

Gestión del proyecto

EspecificaciónAplicación

Usuario

Metodología Kimball

Planificación

del proyecto

Definición

de

requisitos

del

negocio

Diseño ArquitecturaSelección de productos e

instalación

Modelo

Dimensional

Diseño

Físico

Diseño

de

procesos

ETL

Integración

y

despliegue

Mantenimiento

y crecimiento

Especificación

Aplicación Usuario

Desarrollo

Aplicación Usuario

Gestión del proyecto

DesarrolloAplicación

Usuario

Metodología Kimball

Planificación

del proyecto

Definición

de

requisitos

del

negocio

Diseño ArquitecturaSelección de productos e

instalación

Modelo

Dimensional

Diseño

Físico

Diseño

de

procesos

ETL

Integración

y

despliegue

Mantenimiento

y crecimiento

Especificación

Aplicación Usuario

Desarrollo

Aplicación Usuario

Gestión del proyecto

Integracióny

despliegue

Metodología Kimball

Planificación

del proyecto

Definición

de

requisitos

del

negocio

Diseño ArquitecturaSelección de productos e

instalación

Modelo

Dimensional

Diseño

Físico

Diseño

de

procesos

ETL

Integración

y

despliegue

Mantenimiento

y crecimiento

Especificación

Aplicación Usuario

Desarrollo

Aplicación Usuario

Gestión del proyecto

Mantenimientoy crecimiento

Metodología Kimball

Planificación

del proyecto

Definición

de

requisitos

del

negocio

Diseño ArquitecturaSelección de productos e

instalación

Modelo

Dimensional

Diseño

Físico

Diseño

de

procesos

ETL

Integración

y

despliegue

Mantenimiento

y crecimiento

Especificación

Aplicación Usuario

Desarrollo

Aplicación Usuario

Gestión del proyectoGestión del proyecto

Metodología Kimball

Planificación

del proyecto

Definición

de

requisitos

del

negocio

Diseño ArquitecturaSelección de productos e

instalación

Modelo

Dimensional

Diseño

Físico

Diseño

de

procesos

ETL

Integración

y

despliegue

Mantenimiento

y crecimiento

Especificación

Aplicación Usuario

Desarrollo

Aplicación Usuario

Gestión del proyecto

Arquitectura de un Almacén de Datos

OLTP

Datos antiguos

Fuentes externas

Datos de oficina

ReportesInformes

OLAP

Mineríade datos

Almacén

Datos

Metadatos

ETL

Herramientas

Oracle:

• Oracle OLAP

• JOLAP

• OWB

Herramientas

Oracle:

• Oracle OLAP

• JOLAP

• OWB

Plataforma integrada de datawarehousing y businessintelligence que contienefuncionalidad ETL, OLAP y datamining en la base de datos.Oracle cambia el planteamientotradicional ofreciendo una basede datos integrada relacional-multidimensional.

Herramientas

Oracle:

• Oracle OLAP

• JOLAP

• OWB

Hyperion, IBM, Oracle ySun Microsystems se unenpara crear una nuevaplataforma independienteque permita la creación,almacenamiento, acceso ymanejo de datos ymetadatos en servidoresOLAP.

Herramientas

Oracle:

• Oracle OLAP

• JOLAP

• OWB

Oracle Warehouse Builder es elproducto tradicional de Oraclepara la creación del esquema delDW, definición de jerarquías ymedidas, mapeo de las fuentesde información, ejecución ymantenimiento de las actividadesde ETL y herramientas paramejorar la calidad de lainformación.

Herramientas

Microsoft :

• SSAS

• SSIS

• SSRS

• MDX

• SQL Server

Herramientas

Microsoft :

• SSAS

• SSIS

• SSRS

• MDX

• SQL Server

Ofrece funciones de OLAP yminería de datos paraaplicaciones de Inteligencia deNegocio. Permite diseñar,crear y administrarestructurasmultidimensionales yvisualizar modelos de mineríade datos.

Herramientas

Microsoft :

• SSAS

• SSIS

• SSRS

• MDX

• SQL Server

Es una plataforma paracrear soluciones deintegración de datos de altorendimiento, incluidos lospaquetes de extracción,transformación y carga (ETL)para el almacenamiento dedatos.

Herramientas

Microsoft :

• SSAS

• SSIS

• SSRS

• MDX

• SQL Server

Dispone de una gama completade herramientas y servicios listospara usar, para crear,implementar y administrarinformes para la organización,así como de características deprogramación que permitiránextender y personalizar lafuncionalidad de los informes.

Herramientas

Microsoft :

• SSAS

• SSIS

• SSRS

• MDX

• SQL Server

MultiDimensionaleXpressions o expresionesmultidimensionales es unlenguaje de consulta parabases de datosmultidimensionales.

Herramientas

Microsoft :

• SSAS

• SSIS

• SSRS

• MDX

• SQL Server

Es una plataforma global debase de datos que ofreceadministración de datosempresariales conherramientas integradas deinteligencia de negocios.

Herramientas

Hadoop (BigData):

•Hive™

•HiveQL

Apache Hadoop es unframework de software quesoporta aplicacionesdistribuidas bajo una licencialibre. Permite a lasaplicaciones trabajar conmiles de nodos y petabytesde datos.

Herramientas

Hadoop (BigData):

•Hive™

•HiveQL

Permite la creación de undatawarehouse sobre tecnologíaHadoop, mediante elalmacenamiento de grandescantidades de datos y su análisis através de una interfaz SQL. Hive escompatible con diversasherramientas de generación deinformes e inteligencia de negociocomo Pentaho.

Herramientas

Hadoop (BigData):

•Hive™

•HiveQL

Es la interfaz SQL que ofreceHive para ser capaz demanejar la informaciónalmacenada por Hadoop.

Herramientas

Pentaho:• Es una suite de herramientas de inteligencia de

negocio, con licencia de software libre, para lagestión y toma de decisiones empresariales.•Permite realizar análisis multidimensional,

presentación de informes, minería de datos,tableros de control, así como el montaje decuadros de mandos.

Herramientas

Herramientas

Pentaho Analysis Services:

Su nombre de desarrollo es Mondrian. Es un servidorOLAP (procesamiento analítico en línea) escrito enJava. Es compatible con MDX (expresionesmultidimensionales) y el lenguaje de consulta XMLpara el análisis (XMLA).

Herramientas

Pentaho Reporting:

Es la herramienta con la cual el usuario es capaz decrear informes usando datos de fuentes externas.Estos informes son generados en XML y pueden serexportados a diversos tipo de archivos finales, comopuede ser PDF, HTML o documentos de texto.

Herramientas

Pentaho DashBoard:

Se utiliza para crear cuadros de mando en la interfazfinal de la herramienta web (Pentaho BI Server). Estoscuadros de mando podrán realizar funciones deconsulta y análisis de los datos.

Herramientas

Pentaho Data Mining:

Se emplea para extraer información implícita en losdatos. Desarrollado con el motor de minería de datosWeka. Permite extraer patrones, clusterizar, clasificaro extraer reglas de asociación de los datos.

Herramientas

Pentaho Data Integration:

Es la herramienta que proporciona mediante unainterfaz de usuario sencilla e intuitiva la posibilidad demanipulación de los datos desde una fuente externa eindependiente a la herramienta. Permite implementarlos procesos de extracción, transformación y carga dedatos.

Conclusiones

Orientación del Estudio Independiente

Dividir el aula en 4 equipos para desarrollar el Seminario #1 de laasignatura “Principales tendencias y arquitecturas de almacenesde datos. Componentes y estándares de las tecnologías dealmacenes de datos”.

Temas:

1- Tendencias actuales en el desarrollo de almacenes de datos.

2- Arquitecturas para el diseño de almacenes de datos.

3- Componentes de las tecnologías de almacenes de datos.

4- Estándares existentes para soluciones de almacenes de datos.

Almacenes de DatosIng. Roanny Lamas López