16
1 Tecnologías Inteligentes para Explotación de Información Dr. Ramón García-Martínez M. Ing. Paola Britos Metodologías para la Explotación de Información

Tecnologías Inteligentes para Explotación de Información

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

1

Tecnologías Inteligentes para Explotación de Información

Dr. Ramón García-Martínez

M. Ing. Paola Britos

Metodologías para la Explotación de Información

2

Hoja 3

Temas a tratar

�Alcances de las metodologías

�Características�CRISP-DM,�SEMMA, y�P3TQ.

�Metodología CRISP-DM�Desarrollos de las fases, �Dependencia entre fases.

�Metodología de educción de requerimientos

Hoja 4

Alcance de las metodologías

�Un proyecto de Explotación de Información involucra, en general las siguientes fases: �Comprensión del negocio y del problema que se quiere resolver,

�Determinación, obtención y limpieza de los datos necesarios,

�Ejecución de los modelos, �Validación de los algoritmos, �Comunicación de los resultados obtenidos, e �Integración de los mismos, si procede.

�Metodologías existentes:�CRISP-DM, �SEMMA, y�P3TQ (Product, Place, Price,Time and Quality).

3

Hoja 5

Características CRISP-DM

�Niveles de abstracción

�Ciclo de vida

Hoja 6

Características SEMMA

�Dinámica metodológica

4

Hoja 7

Características P3TQ

�Fases

Hoja 8

Metodología CRISP-DM

Compresión del negocio

Compresión de los datos

Preparación de los datos

Modelado

Evaluación

Desarrollo

5

Hoja 9

Compresión del negocio

Hoja 10

Compresión de los datos

6

Hoja 11

Preparación de los datos

Hoja 12

Modelado

7

Hoja 13

Evaluación

Hoja 14

Desarrollo

8

Hoja 15

Dependencias Fase: Comprensión del negocio

Costos y beneficios- Objetivo de negocio, Inventario de recursos Requerimientos, presunciones y restricciones,

- Riesgos y contingencias.

- Plan de proyecto.

- Criterio de éxito de negocio,- Requerimientos, presunciones

y restricciones, - Metas de explotación de datos.

- Criterio de éxito de explotación de datos.

- Objetivo de negocio, Requerimientos, asunciones y restricciones.

- Metas de explotación de datos.

Plan de proyecto- Objetivo de negocio.- Costos y beneficios.

Objetivo de negocio- Backgorund.- Terminología.

- Objetivo de negocio, Criterios de éxito de negocio.

- Riesgos y contingencias.

- Objetivo de negocio.- Requerimientos, asunciones y restricciones.

- Inventario de recursos.

- Objetivo de negocio.- Criterios de éxito de negocio.

Terminología- Backgorund.- Objetivo de negocio.

- Background.

Relacionado aDepende deEntregable

Hoja 16

Dependencias Fase: Comprensión de los datos

-Objetivo de negocio, -Reporte de colección inicial de datos.

-Reporte de calidad de datos.

Reporte de descripción de datos

-Objetivo de negocio, -Reporte de colección inicial de datos.

-Reporte de exploración de datos.

Reporte de calidad de datos

-Objetivo de negocio,-Reporte de colección inicial de datos.

-Reporte de descripción de datos.

-Objetivo de negocio, Inventario de recursos, -Objetivos de explotación de datos.

-Reporte de colección inicial de datos.

Relacionado aDepende deEntregable

9

Hoja 17

Dependencias Fase: Preparación de los datos

-Objetivo de negocio, -Objetivo de explotación de datos,-Reporte de descripción de datos,-Reporte de calidad de datos,-Reporte de exploración de datos.

-Set de datos y descripción de set de datos.

Relacionado aDepende deEntregable

Hoja 18

Dependencias Fase: Modelado

-Criterio de éxito de negocio,-Diseño de test,-Modelos.

-Evaluación de modelo.

-Modelos,-Setear parámetros, Diseño de test.

-Descripción de modelo.

Modelos-Objetivo de explotación de datos.-Setear parámetros.

Setear parámetros-Objetivo de explotación de datos.-Modelos.

-Objetivo de explotación de datos,-Criterio de éxito de explotación de datos.

-Diseño de test.

Relacionado aDepende deEntregable

10

Hoja 19

Dependencias Fase: Evaluación

-Plan de proyecto, -Evaluación de resultado de explotación de datos, -Criterios de éxito de negocio.

-Pasos a seguir.

-Objetivo de negocio,-Evaluación de resultado de explotación de datos,-Criterios de éxito de negocio.

-Revisión de proceso.

-Criterio de éxito de negocio,-Terminología.

-Evaluar resultado de explotación de datos,-Criterios de éxito de negocio.

Relacionado aDepende deEntregable

Hoja 20

Dependencias Fase: Desarrollo

-Plan de proyecto,-Revisión de proceso.

-Documentación de experiencia.

-Objetivo de negocio,-Terminología,-Evaluación de resultado de explotación de datos, -Criterios de éxito de negocio.

-Reporte final y presentación.

Desarrollo de plan-Objetivo de negocio. -Requerimientos, presunciones y restricciones.

-Plan de mantenimiento.

Plan de mantenimiento-Objetivo de negocio, -Requerimientos, presunciones y restricciones.

-Desarrollo de plan.

Relacionado aDepende deEntregable

11

Hoja 21

Metodología de Educción de Requisitos

� La Ingeniera de Requisitos es una fase importante en las metodologías de Ingeniería del Software que intentan especificar las necesidades del sistema del cliente.

� Varios autores han tratado la necesidad de mejorar las metodologías de Explotación de Datos que se centraban en la especificación de la definición de los objetivos y en la tarea de especificación, especialmente en fase de análisis de datos.

� La comunidad de Explotación de Datos ha descuidado los aspectos de la especificación de requisitos de estos proyectos, no pudiendo identificar cualquier técnica utilizar para obtener el conocimiento necesario o para sugerir plantillas para la documentación sistemática de requisitos.

Hoja 22

Estado de situación en las metodologías existentes

� El proceso del elicitación del requisito es tratado por la mayoría de las metodologías de uso general de la explotación de datos.

� Las metodologías del Explotación de Datos (CRISP-DM, P3TQ, SEMMA) mencionan la necesidad de la comprensión del negocio como punto de partida para cualquier desarrollo de este tipo de proyecto.

� Una suposición en la Ingeniería de Requisitos para este tipo de proyectos es que el recurso humano implicado tiene suficiente conocimiento para saber los requisitos.

� La tarea de compresión entre clientes y usuarios y los equipos del desarrollo es realizada por los Ingenieros de Requerimientos y los Analista de Negocio que usan diversas notaciones.

� Sin embargo, esto es muy complejo debido a diversidad de los modelos con que se especifican estos sistemas y la experiencia de los recursos humanos implicados.

� En este contexto, la fase del elicitación de los requisitos de las metodologías existentes no cubre todos los conceptos necesarios ni la documentación necesaria.

12

Hoja 23

Marco para la educción de requerimientos

PROBLEMAS

� Los clientes no entienden el lenguaje utilizado por el grupo de DM-BI.� El grupo de DM BI no entiende el lenguaje que utiliza el cliente.� Al grupo de DM-BI le es difícil de entender como puede ayudar al cliente

porque no conoce el dominio del problema.

� El cliente no esta seguro de a que se refieren los proyectos de DM-BI, o que se puede hacer.

� Los modelos definidos por el grupo de DM-BI son diferentes a la situación percibida por el cliente.

� El cliente tiene un grupo de trabajo impredecible, no comprometido con el proyecto.

� El cliente no conoce la necesidad de información de la organización ni su condición.

� Los datos que conciernen a los requerimientos no son los correctos.

� Cuando un proyecto de DM -BI es modelados (solución a los requerimientos) y el grupo de DM-Bi detecta un problema en los datos (por ejemplo: los datos que involucran a los requerimientos no son los correctos), es necesario redefinir el requerimiento.

� Los requerimientos de un proyecto de DM-BI definidos incorrectamente implican una incorrecta selección de la herramienta de modelado.

CONCEPTOS A SER EDUCIDO

Definiciones, acrónimos y abreviaturas.

Objetivos del proyectos.Criterios de éxito del proyecto.Expectativas del proyecto.Suposiciones del proyecto.

Recursos humanos involucrados.

Restricciones del proyecto.Riesgo del proyecto.Plan de contingencia.

Objetivo del requerimiento.Información del requerimiento o fuente de datos.Atributos relacionados con los requerimientos.

Suposiciones de los requerimientos.Restricciones de los requerimientos.Riegos de los requerimientos.Plan de contingencia de los requerimientos.

Evaluación de herramientas de DM-BI

Hoja 24

Comparación de metodologías

�El análisis de las metodologías existentes permiten analizar las necesidades de educir los puntos planteados durante la fase de entendimiento del negocio:�CRISP-DM presta atención a 10 sobre 17 conceptos necesarios.

�P3TQ presta atención a 4 sobre 17 . �SEMMA no le presta atención a ningún concepto.

�En general: �Los conceptos relativo a determinar los objetivos de negocio y son atendidos al menos por una metodología, y

�Los conceptos relativos a la determinación de los objetivos del proyecto de DM y la planificación del mismo no son tenidos en cuenta.

13

Hoja 25

█Evaluacion de herramientas

Contingencias de los requerimientos

Riesgos de los requerimientos

Atributos relativos a los requerimientos

Restricciones de los requerimientos

Suposiciones de los requerimientos

█Fuente de informacion de los requerimientos

██Objetivos de los requerimientos

█Definiciones, acronimos y abreviaturas

█Plan de contingencia

█Riesgos del proyecto

█Restricciones del proyecto

█Suposiciones del proyecto

█Expectativas del proyecto

█Recursos humanos

█Criterios de éxito del proyecto

██Objetivos del proyecto

SEMMA[SAS, 2008]

P3TQ[Pyle, 2003]

CRISP-DM[Chapman et al. 2000]

CONCEPTOS A EDUCIR

Comparación de metodologías

Hoja 26

Método propuestoProceso

El propósito del:� Paso 1: Consiste en establecer un lenguaje en común con la gente involucrada

en el proyecto. � Paso 2: Consiste en establecer los requerimientos del proyecto; los datos que

necesitan esos requerimientos, su localización, los riesgos involucrados, las restricciones y finalmente las suposiciones.

� Paso 3: Consiste en definir los objetivos del proyecto de DM-BI, sus limitaciones, expectativas y riesgos.

� Paso 4: Consiste en conocer los recursos humanos involucrados, sus restricciones, riesgos y responsabilidades.

� Paso 5: Consiste en seleccionar la herramienta adecuada que permita cumplir con los pasos anteriores.

Una necesidad de los conceptos que tienen que ser identificados es establecer pasos de educción entre los conceptos. Para las fases de entendimiento del negocio de las metodologías de DM-BI proponemos un proceso de elicitación de requerimientos que consta de 5 pasos:

14

Hoja 27

Método propuestoProceso

� La dependencia conceptual entre los conceptos debe existir, la referencia cruzada entre conceptos esta dada por las plantillas.

Hoja 28

Métodos propuestosProductos

�Se definen un conjunto de plantillas. �Cada plantilla esta asociada a un concepto. �Estas plantillas contienen la descripción de los conceptos a ser educidos.

�Los conceptos de las plantillas evolucionan a través del proceso de elicitación de requerimientos.

�La relación entre los conceptos educidos como productos y los pasos del proceso planteado se muestra en el cuadro:

15

Hoja 29█Evaluación de herramientas

█Plan de contingencia de los requerimientos

█Riesgos de los requerimientos

██Atributos de los requerimientos

██Restricciones de los requerimientos

█Suposiciones de los requerimientos

█Fuentes de información los requerimientos

██Objetivos de los requerimientos

█████Recursos humanos

█Plan de contingencia

█Riesgos del proyecto

█Restricciones del proyecto

█Suposiciones del proyecto

█Expectativas del proyecto

█Criterios de éxito

█Objetivos del proyecto

█████Definiciones acrónimos y abreviaturas

Seleccionar las herramientas de explotación de

datos

Identificar los recursos humanos

Entender los objetivos del proyecto

Conocer los datos del dominio del proyecto

Entender el dominio del proyecto

PASOS

PRODUCTOS(conceptos a ser educidos)

Hoja 30

Uso de las plantillas

� Para el uso de las plantillas propuesta un tesista de magíster realizó el primer prototipo de una herramienta software que las contienen (http://tdmbi.plugit.com.ar/)

16

Muchas Gracias