ANÁLISIS PARA PREDICCIÓN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

Embed Size (px)

Citation preview

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    1/109

    ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERA DE DATOSEN ALMACENES DE VENTAS DE GRANDES SUPERFICIES.

    JOS ANTONIO GARCA BERMDEZNGELA MARA ACEVEDO RAMIREZ

    UNIVERSIDAD TECNOLGICA DE PEREIRAFACULTAD DE INGENIERIAS: ELCTRICA, ELECTRNICA, FSICA Y

    CIENCIAS DE LA COMPUTACININGENIERA DE SISTEMAS Y COMPUTACIN

    PEREIRA2010

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    2/109

    ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERA DE DATOSEN ALMACENES DE VENTAS DE GRANDES SUPERFICIES.

    JOS ANTONIO GARCA BERMDEZNGELA MARA ACEVEDO RAMIREZ

    TRABAJO DE GRADO PARA OPTAR AL TTULO DEINGENIERO DE SISTEMAS Y COMPUTACIN

    DIRECTORJORGE IVN RIOS PATIO

    UNIVERSIDAD TECNOLGICA DE PEREIRAFACULTAD DE INGENIERIAS: ELCTRICA, ELECTRNICA, FSICA Y

    CIENCIAS DE LA COMPUTACININGENIERA DE SISTEMAS Y COMPUTACIN

    PEREIRA2010

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    3/109

    NOTA DE ACEPTACIN

    ______________________________________________________________________________________________________________________________

    ________________________________________FIRMA DEL PRESIDENTE DEL JURADO

    ________________________________________FIRMA DEL JURADO

    ________________________________________FIRMA DEL JURADO

    PEREIRA, 2010.

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    4/109

    TABLA DE CONTENIDO.

    INTRODUCCIN_______________________________________________________ 12

    MARCO PROBLMICO _______________________________________________ 12

    1. JUSTIFICACIN______________________________________________________ 13

    2. OBJETIVOS _________________________________________________________ 14

    2.1 OBJETIVO GENERAL _____________________________________________ 14

    2.2 OBJETIVOS ESPECFICOS ________________________________________ 14

    3. MARCO REFERENCIAL ______________________________________________ 15

    3.1 TCNICAS DE ALMACENAMIENTO DE DATOS________________________ 15

    3.1.1 BASES DE DATOS______________________________________________ 15

    3.1.1.1 CARACTERSTICAS_________________________________________ 16

    3.1.1.2 VENTAJAS DE LAS BASES DE DATOS________________________ 17

    3.1.1.3 DESVENTAJAS DE LAS BASES DE DATOS____________________ 20

    3.1.1.4 TIPOS DE CAMPOS_________________________________________ 20

    3.1.2 BODEGAS DE DATOS___________________________________________ 21

    3.1.2.1 OBJETIVOS DE LAS BODEGAS DE DATOS____________________ 22

    3.1.2.2 UTILIDAD DE LAS BODEGAS DE DATOS______________________ 23

    3.1.2.3 DIFERENCIAS ENTRE BASE DE DATOS Y LAS BODEGAS DEDATOS____________________________________________________________ 23

    3.1.2.4 CARACTERSTICAS DE LAS BODEGAS DE DATOS____________ 24

    3.1.2.5 FUNCIONALIDADES DE LAS BODEGAS DE DATOS ____________ 25

    3.1.2.6 ARQUITECTURA DE LAS BODEGAS DE DATOS________________ 25

    3.2 MINERIA DE DATOS________________________________________________ 27

    3.2.1 INTRODUCCIN________________________________________________ 27

    3.2.2 HISTORIA______________________________________________________ 28

    3.2.3 DEFINICIN____________________________________________________ 29

    3.2.4 ANTECEDENTES DE LA MINERA DE DATOS_____________________ 31

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    5/109

    3.2.5 FASES DEL PROCESO DE MINERA DE DATOS___________________ 33

    3.2.5.1 Definicin de los Objetivos____________________________________ 33

    3.2.5.2 Preparacin de los Datos_____________________________________ 34

    3.2.5.3 Anlisis Exploratorio de los Datos______________________________ 35

    3.2.5.4 Especificacin del Mtodo____________________________________ 35

    3.2.5.5 El Anlisis de Datos __________________________________________ 36

    3.2.5.6 Evaluacin del Mtodo _______________________________________ 37

    3.2.5.7 Implementacin de los Mtodos_______________________________ 37

    3.2.6 ALGORITMOS DE MINERA DE DATOS___________________________ 38

    3.2.7 TAREAS DE LA MINERIA DE DATOS_____________________________ 39

    3.2.7.1 Clasificacin.________________________________________________ 40

    3.2.7.2 Estimacin__________________________________________________ 41

    3.2.7.3 Prediccin __________________________________________________ 42

    3.2.7.4 Asociacin__________________________________________________ 43

    3.2.7.5 Agrupamiento o Clustering____________________________________ 44

    3.2.7.6 Descripcin _________________________________________________ 45

    3.2.8 TCNICAS DE MINERA DE DATOS______________________________ 45

    3.2.8.1 Tcnicas de Inferencia Estadstica _____________________________ 46

    3.2.8.2 Visualizacin________________________________________________ 46

    3.2.8.3 Razonamiento Basado en Memoria ____________________________ 47

    3.2.8.4 Deteccin de Conglomerados _________________________________ 47

    3.2.8.5 Anlisis de Vnculos__________________________________________ 48

    3.2.8.6 rboles de Decisin__________________________________________ 49

    3.2.8.7 Redes Neuronales___________________________________________ 49

    3.2.8.8 Algoritmos Genticos_________________________________________ 50

    3.2.9 HERRAMIENTAS DE MINERA DE DATOS ________________________ 50

    3.2.10 RAPIDMINER__________________________________________________ 53

    3.2.10.1 RapidMiner como Herramienta de Minera de Datos_____________ 53

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    6/109

    3.2.10.2 Diversas maneras de utilizar RapidMiner_______________________ 54

    3.2.10.3 Manipulacin transparente de los datos________________________ 54

    3.2.10.4 Operadores integrados para la Minera de Datos________________ 55

    3.3 REGLAS DE ASOCIACION__________________________________________ 57

    3.3.1 INTRODUCCIN________________________________________________ 57

    3.3.2 DEFINICION DE REGLAS DE ASOCIACIN_______________________ 58

    3.3.3 ANLISIS DE LA CANASTA DE MERCADO________________________ 58

    3.3.4 REGLAS DE ASOCIACIN EN LA TRANSACCIN DE NEGOCIOS___ 59

    3.3.5 BSQUEDA DE TEMSETS FRECUENTES________________________ 62

    3.3.6 ALGORITMOS DE REGLAS DE ASOCIACIN______________________ 64

    3.3.6.1 Algoritmo A Priori____________________________________________ 65

    3.3.6.2 Algoritmo DHP (Direct Hashing Pruning: Poda y Hashing Directa)__ 65

    3.3.6.3 Algoritmo Partition ___________________________________________ 66

    3.3.6.4 Algoritmo ECLAT ____________________________________________ 67

    3.3.6.5 FP-Growth (Frequent Pattern Growth: Crecimiento de PatronesFrecuentes) ________________________________________________________ 69

    4. INFORME DE RESULTADOS_________________________________________ 71

    4.1 OBTENCIN DE LOS DATOS._____________________________________ 714.2 FUNCIONES DE MANIPULACIN, SELECCIN Y PROCESAMIENTO DELOS DATOS._________________________________________________________ 72

    4.2.1 MANIPULACIN DE LOS DATOS_______________________________ 72

    4.2.2 SELECCIN DE LOS DATOS.__________________________________ 73

    4.2.3 PROCESAMIENTO DE LOS DATOS. ____________________________ 73

    4.3 SELECCIN DEL MODELO._______________________________________ 80

    4.4 APLICACIN DE LA TCNICA______________________________________ 80

    5. CONCLUSIONES.____________________________________________________ 95

    BIBLIOGRAFA_________________________________________________________ 98

    BIBLIOGRAFA REFERENCIADA_______________________________________ 98

    LIBROS____________________________________________________________ 98

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    7/109

    PGINAS WEB_____________________________________________________ 98

    BIBLIOGRAFA CONSULTADA________________________________________ 100

    LIBROS___________________________________________________________ 100

    ANEXOS._____________________________________________________________ 102

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    8/109

    LISTA DE TABLAS

    Pg.

    Tabla No 1. Diferencias entre Bases de Datos y Bodegas de Datos. 23

    Tabla No 2. Clasificacin de las tcnicas de Minera de Datos. 39

    Tabla No 3.Artculos comprados por los clientes. 60

    Tabla No 4. Criterios de Evaluacin de Algoritmos. 70

    Tabla No 5. Cdigos de producto eliminados por incoherencias. 75

    Tabla No 6. Total artculos en cada factura. 81

    Tabla No 7. Nmero de veces en la venta de una misma cantidad de producto 82

    Tabla No 8.Cuantas veces se compr determinado artculo en total. 83Tabla No 9. Cuantos artculos se compraron en determinada factura. 85

    Tabla No 10. Cuantas veces se compr determinada cantidad de productos en

    una factura. 87

    Tabla No 11. Cuantas veces se compr determinado artculo en especfico. 89

    Tabla No 12. Reglas de asociacin obtenidas Soporte entre 0% y 12% y

    Confianza > 70%. 91

    Tabla No 13. Reglas de asociacin obtenidas Soporte entre 0% y 12% y

    Confianza > 50%. 92

    Tabla No 14. Cdigos de producto con su respectivo nombre. 93

    Tabla No 15. Interpretacin de las reglas de asociacin. 93

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    9/109

    LISTA DE FIGURAS

    Pg

    Figura 1. Soporte de A B 60

    Figura 2. Confianza de A B 60

    Figura 3. Consulta SQL para conocer cuntos artculos se compraron en

    determinada factura. 80Figura 4. Consulta SQL para conocer cuntas veces se compr la misma cantidad

    de productos. 81

    Figura 5. Total de facturas en la base de datos. 82

    Figura 6. Total de artculos en la base de datos. 83

    Figura 7. Cuantas veces se compr determinado artculo en total. 83

    Figura 8. Total de artculos en la base de datos. 84

    Figura 9. Total de facturas en la base de datos. 84

    Figura 10. Consulta SQL para determinar cuntos artculos se compraron en

    determinada factura. 84

    Figura 11. Consulta SQL para determinar cuntas veces se compr determinada

    cantidad de productos en una factura. 86

    Figura 12. Consulta SQL para determinar cuntas veces se compr determinado

    artculo en especfico. 88

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    10/109

    LISTA DE IMGENES

    Pg

    Imagen No 1. Lattice del espacio de bsqueda. 63

    Imagen No 2.rbol utilizado en la estrategia BFS 63

    Imagen No 3.rbol usado en los algoritmos con estrategia DFS. 63

    Imagen No 4.Algoritmos para el clculo de itemsets frecuentes. 64Imagen No 5. Base de datos original. 72

    Imagen No 6. Base de datos en Excel. 73

    Imagen No 7. Incoherencias en la Base de Datos. 74

    Imagen No 8. Ejemplo de matriz utilizada. 76

    Imagen No 9. Error presentado por la herramienta. 77

    Imagen No 10. Prueba Manual (Soporte = 50% y Confianza = 100%). 78

    Imagen No 11. Prueba con XLMiner (Soporte = 50% y Confianza = 100%). 79

    Imagen No 12. Prueba con RapidMiner(Soporte = 50% y Confianza = 100%). 79

    Imagen No 13. Error por desbordamiento de memoria. 90

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    11/109

    LISTA DE ANEXOS

    Anexo No 1. Foro creado en la pgina web de RapidMiner. 101

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    12/109

    12

    INTRODUCCIN

    MARCO PROBLMICO

    Desde hace algunas dcadas, el hombre se ha visto en la necesidad deadministrar sus actividades la mayora de stas comerciales, como lo es el usoque le da al dinero tanto en el hogar como a nivel empresarial, por lo tanto le esnecesario almacenar un historial de algunos o la mayora de sus actividadescomerciales, lo que lo obliga a llevar de manera ordenada el cmo y en qu hagastado su dinero, hasta el punto de ser necesario contar con una persona quese dedique a administrar, almacenar y vigilar dichas actividades a nivelempresarial.

    Con el paso del tiempo se ha visto que para dar una adecuada administracin de

    todas esas actividades y con el fin de evitar muchos conflictos, en la mayora delos lugares como por ejemplo los hospitales se realizan historial de visitas,entradas y salidas de pacientes; en las estaciones de polica se registran conhora y fecha exactas de los hechos sucedidos; en almacenes grandes seregistran las transacciones en facturas con fecha de compra y en algunos casoscon nombre del cajero, entre otros ejemplos; por lo que se comienza a formaruna generacin masiva de datos los cuales llevan a la creacin de almacenes obodegas de datos, algunos con un crecimiento tan exagerado que hasta para lasconsultas realizadas por lenguajes como SQL es imposible lograr resultadoseficientes.

    A nivel comercial se puede observar que las empresas logran la recoleccin degrandes volmenes de informacin acerca de su actividad, tales como compras,ventas, inventarios, entre otros, de los cuales algunos de estos datos sernusados y otros se acumularn hasta inclusive llegar a perderse por falta deactualidad o cambio en las polticas de manejo de datos. Para darle un poco deutilidad a esta informacin se han aplicado diversos modelos y tcnicasespecialmente desarrollados en el campo de la Minera de Datospor medio de loscuales es posible describir el movimiento de los inventarios as como encontrarposibles relaciones que se puedan dar entre determinados productos.

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    13/109

    13

    1. JUSTIFICACIN

    La recoleccin y almacenamiento de datos ha sido una de las tareas mscomunes en todo tipo de empresas, puesto que se hace necesario contar con unhistrico de los movimientos comerciales que realizan en una organizacin parapoder llegar a controlar dichos movimientos, pero hasta ahora en muchas deestas empresas este control se lleva de una manera muy arcaica o con mtodosque no son muy efectivos, por lo que los resultados pueden no ser los esperados.

    Sabiendo que la Minera de Datos se fundamenta en la bsqueda de patronesdentro de grandes bases de datos, utilizando diversos mtodos tanto deestadstica como de inteligencia artificial, haciendo uso de recursos informticosy tecnolgicos, en el presente proyecto se busca aprovechar los beneficios de lamisma con el fin de extraer informacin e inclusive conocimiento oculto en los

    datos con el fin de apoyar la toma de decisiones en una organizacin.

    Cuando a los datos previamente recolectados y almacenados se les da un tratoadecuado, es posible aplicar sobre stos diversas metodologas, entre las cualesse encuentran las tcnicas de Minera de Datos, de tal forma que stas permitanconocer el comportamiento de los inventarios o las posibles relaciones que sepresenten entre dos o ms productos. La aplicacin de este modelo ayuda de talforma que se puede encontrar a partir de los datos informacin que hasta elmomento haba sido desconocida, adems de que dicha informacin obtenidaayuda en la toma de decisiones o al desarrollo de algn proceso a nivelempresarial.

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    14/109

    14

    2. OBJETIVOS

    2.1 OBJETIVO GENERAL

    Utilizar la Minera de Datos haciendo uso de la plataforma RapidMiner, paraaplicar un modelo de prediccin de ventas sobre un conjunto de datosseleccionados de una gran superficie de venta, con el fin de encontrar relacionesentre dos o ms productos.

    2.2 OBJETIVOS ESPECFICOS

    Realizar la gestin necesaria para obtener una base de datos que permita laaplicacin de alguna de las tcnicas de Minera de Datos.

    Determinar la tcnica a utilizar sobre la base de datos de acuerdo a losdatos que sta contenga.

    Realizar las funciones de manipulacin, seleccin y procesamiento de losdatos.

    Seleccionar una tcnica de Minera de Datos que permita descubrirasociaciones entre dos o ms productos.

    Aplicar una tcnica de Minera de Datosque permita descubrir asociacioneso correlaciones entre productos que se venden juntos.

    Validar la tcnica, comprobando que sta se ajusta apropiadamente a losrequerimientos del problema planteado.

    Dar una breve explicacin de los resultados obtenidos y el por qu de losmismos.

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    15/109

    15

    3. MARCO REFERENCIAL

    3.1 TCNICAS DE ALMACENAMIENTO DE DATOS

    La mayora de las decisiones que se toman en una empresa u organizacin, sehace con base en la informacin obtenida de los datos que se tienen almacenadossobre la actividad de dicha organizacin; generalmente ste almacenamiento estconsolidado como una base de datos en primera instancia, la cual puede sertransformada en una bodega de datos para facilitar la toma de decisiones, peroinclusive y mejor an se puede hacer una bsqueda inteligente de patrones otendencias con una nueva tcnica llamada Minera de Datos.

    Para no dejar estos conceptos tan difusos, a continuacin se har una descripcin

    de lo que son y cmo se estn utilizando en ste campo de crecimiento masivo delos datos.

    3.1.1 BASES DE DATOS

    Una base de datos, es el almacenamiento organizado de datos que tienen unadependencia y que han sido recolectados y explotados por una organizacin oempresa en particular, dicha explotacin se hace con programas creados para lamanipulacin de la misma.

    El trmino base de datos fue escuchado por primera vez en 1.963 en un simposiorealizado en Estados Unidos California, donde se defini como un conjunto deinformacin relacionada que se encuentra agrupada estructurada 1; aunquerealmente no se puede afirmar que sea un conjunto de informacin ya que enrealidad son datos, los cuales como tal no son informacin a menos que se lesintervenga para que lo sean, pero por ser la primera vez que se utiliz, se puededecir que es aceptable tal definicin.

    Para dar una informacin ms detallada sobre las bases de datos es bueno hacernfasis en cmo surgieron y para qu han sido utilizadas, se comenzar por hacersaber que stas no han sido como hoy se presentan ya procesadas en

    computador, sino que esta informacin se tena almacenada en papel como enarchivos o bibliotecas por ejemplo; en las cuales se encuentra informacin y estorganizada de acuerdo a unas mtricas utilizadas por los archivistas/bibliotecarios;en las empresas, los datos que almacenaban eran demasiados y a la hora de

    1CAMPBELL, Mary. base IV Gua de Autoenseanza.Espaa.Editorial McGraw HillInteramericana. 1990.pp110/111,121/122,161,169, 179-191/192. (4 Mar 2009)

    http://www.monografias.com/trabajos6/hies/hies.shtmlhttp://www.monografias.com/trabajos6/hies/hies.shtml
  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    16/109

    16

    necesitar hacer uso de estos podra resultar engorroso dependiendo del orden conel que los tuviesen guardados; quizs es a raz de este problema en cuanto atiempo, eficiencia y espacio que surgen las bases de datos en formato digital, lascuales solucionan estos problemas puesto que es mejor el tiempo de respuesta de

    una mquina que de una persona, los datos son los que se requieren y se ahorraespacio y dinero en papelera; adems tienen ciertas caractersticas como reducirla redundancia de datos, evitar inconsistencias, se pueden crear restricciones deseguridad como acceso a ciertas personas, acceso concurrente por parte demltiples usuarios, respaldo y recuperacin, y su gestin en cuanto alalmacenamiento es mejor.

    Otra de las definiciones para bases de datos la da el autor Daniel Cohen2quiendice que:

    Se define una base de datos como una serie de datos organizados yrelacionados entre s, los cuales son recolectados y explotados por los sistemas

    de informacin de una empresa o negocio en particular..

    Desde el punto de vista informtico, la base de datos es un sistema formado porun conjunto de datos almacenados en discos que permiten el acceso directo aellos y un conjunto de programas que manipulen ese conjunto de datos.

    Cada base de datos se compone de una o ms tablas que guarda un conjunto dedatos. Cada tabla tiene una o ms columnas y filas. Las columnas guardan unaparte de la informacin sobre cada elemento que se requiera guardar en la tabla,cada fila de la

    3.1.1.1 CARACTERSTICAS

    Entre las principales caractersticas de los sistemas de base de datos se puedenmencionar:

    Independencia lgica y fsica de los datos.

    Redundancia mnima.

    Acceso concurrente por parte de mltiples usuarios.

    Integridad de los datos.

    2Cohen Karen Daniel. (1996). Sistemas de informacin para la toma de decisiones. Mxico. McGraw-Hill.

    243p. (4 Mar 2009)

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    17/109

    17

    Consultas complejas optimizadas.

    Seguridad de acceso y auditoria.

    Respaldo y recuperacin. Acceso a travs de lenguajes de programacin estndar.

    Como se puede ver, las caractersticas que muestran las bases de datos dan elrespaldo para que se le pueda aplicar en este caso la Minera de Datosy puedaarrojar el resultado que se espera.

    3.1.1.2 VENTAJAS DE LAS BASES DE DATOS

    Utilizar bases de datos en este proyecto es primordial, ya que por medio de losdatos que proporcionarn, se har una conexin directa y efectiva para aplicar laMinera de Datos y su correspondiente herramienta que en ste caso esRapidMiner, por tal motivo a continuacin se mostrar qu ventajas tiene el uso destas para este proyecto.

    El autor Daniel Cohen muestra las grandes ventajas3que dan confiabilidad paratomar la base datos como base en la utilizacin de Minera de Datos:

    Control Sobre la Redundancia de Datos:

    Los sistemas de ficheros almacenan varias copias de los mismos datos enficheros distintos. Esto hace que se desperdicie espacio de almacenamiento,adems de provocar la falta de consistencia de datos.

    En los sistemas de bases de datos todos los registros estn integrados, por lo queno se almacenan varias copias de los mismos datos.

    Consistencia de Datos:

    Eliminando o controlando las redundancias de datos se reduce en gran medida el

    riesgo de que haya inconsistencias. Si un dato est almacenado una sola vez,cualquier actualizacin se debe realizar slo una vez, y est disponible para todoslos usuarios inmediatamente. Si un dato est duplicado y el sistema conoce estaredundancia, el propio sistema puede encargarse de garantizar que todas lascopias se mantienen consistentes.

    3Ibdem

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    18/109

    18

    Datos Compartidos:

    En los sistemas de ficheros, los ficheros pertenecen a las personas o a losdepartamentos que los utilizan. Pero en los sistemas de bases de datos, la basede datos pertenece a la empresa y puede ser compartida por todos los usuariosque estn autorizados.

    Mantenimiento de Estndares:

    Gracias a la integracin es ms fcil respetar los estndares necesarios, tanto losestablecidos a nivel de la empresa como los nacionales e internacionales. Estosestndares pueden establecerse sobre el formato de los datos para facilitar suintercambio, pueden ser de documentacin, procedimientos de actualizacin y

    tambin reglas de acceso. Mejora en la Integridad de Datos:

    La integridad de la base de datos se refiere a la validez y la consistencia de losdatos almacenados. Normalmente, la integridad se expresa mediante restriccioneso reglas que no se pueden violar. Estas restricciones se pueden aplicar tanto a losdatos, como a sus relaciones, y es el Sistema de Gestin de Base de Datos(SGBD) quien se debe encargar de mantenerlas.

    Mejora en la Seguridad:

    La seguridad de la base de datos es la proteccin de la base de datos frente ausuarios no autorizados. Sin unas buenas medidas de seguridad, la integracin dedatos en los sistemas de bases de datos hace que stos sean ms vulnerablesque en los sistemas de ficheros.

    Mejora en la Accesibilidad a los Datos

    Muchos SGBD proporcionan lenguajes de consultas o generadores de informesque permiten al usuario hacer cualquier tipo de consulta sobre los datos, sin quesea necesario que un programador escriba una aplicacin que realice tal tarea.

    Mejora en la Productividad

    El SGBD proporciona muchas de las funciones estndar que el programadornecesita escribir en un sistema de ficheros. A nivel bsico, ste proporciona todaslas rutinas de manejo de ficheros tpicas de los programas de aplicacin.

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    19/109

    19

    El hecho de disponer de estas funciones permite al programador centrarse mejoren la funcin especfica requerida por los usuarios, sin tener que preocuparse delos detalles de implementacin de bajo nivel.

    Mejora en el Mantenimiento:En los sistemas de ficheros, las descripciones de los datos se encuentraninmersas en los programas de aplicacin que los manejan.

    Esto hace que los programas sean dependientes de los datos, de modo que uncambio en su estructura, o un cambio en el modo en que se almacena en disco,requiere cambios importantes en los programas cuyos datos se ven afectados.

    Sin embargo, los SGBD separan las descripciones de los datos de lasaplicaciones. Esto es lo que se conoce como independencia de datos, gracias a la

    cual se simplifica el mantenimiento de las aplicaciones que acceden a la base dedatos.

    Aumento de la Concurrencia:

    En algunos sistemas de ficheros, si hay varios usuarios que pueden accedersimultneamente a un mismo fichero, es posible que el acceso interfiera entreellos de modo que se pierda informacin o se pierda la integridad. La mayora delos SGBD gestionan el acceso concurrente a la base de datos y garantizan que noocurran problemas de este tipo.

    Mejora en los Servicios de Copias de Seguridad:

    Muchos sistemas de ficheros dejan que sea el usuario quien proporcione lasmedidas necesarias para proteger los datos ante fallos en el sistema o en lasaplicaciones. Los usuarios tienen que hacer copias de seguridad cada da, y si seproduce algn fallo, utilizar estas copias para restaurarlos.

    En este caso, todo el trabajo realizado sobre los datos desde que se hizo la ltimacopia de seguridad se pierde y se tiene que volver a realizar. Sin embargo, losSGBD actuales funcionan de modo que se minimiza la cantidad de trabajo perdidocuando se produce un fallo.

    Teniendo en cuenta la explicacin dada anteriormente ante las ventajas de lasbases de datos se puede asegurar que se puede emplear con confiabilidad;aunque esta herramienta se muestra con tan buenas posibilidades de trabajo,tambin tiene sus desventajas, las cuales se mostrarn a continuacin.

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    20/109

    20

    3.1.1.3 DESVENTAJAS DE LAS BASES DE DATOS

    Complejidad

    Los SGBD se componen de un conjunto de programas y funcionalidades quedebido a la cantidad de operaciones y la capacidad de cmputo de los mismos, seconvierte en un producto de complejo funcionamiento y es por eso que para elcorrecto desempeo de dichas funcionalidades se exige la aplicacin deprocedimientos altamente especializados, por lo cual las personas encargadas desu mantenimiento requieren de conocimientos altamente especializados yespecficos.

    Deduccin de Informacin Especfica

    Los SGBD actuales carecen de funcionalidades que permitan definir ReglasDeductivas y Activas que permitan modelar directamente los datos para ladeduccin, inferencia y obtencin de informacin precisa derivada de dichosdatos.

    Vulnerable a los Fallos

    El hecho de que todo est centralizado en el SGBD hace que el sistema sea msvulnerable ante los fallos que puedan producirse. Es por ello que deben tenersecopias de seguridad (Backup).

    3.1.1.4 TIPOS DE CAMPOS

    Cada Sistema de Base de Datos posee tipos de campos que pueden ser similareso diferentes. Entre los ms comunes podemos nombrar:

    Numrico: entre los diferentes tipos de campos numricos podemosencontrar enteros sin decimales y reales decimales.

    Booleanos:poseen dos estados: Verdadero Si y Falso No.

    Memos:Estos campos son particularmente adecuados para dotar a cadaregistro de la tabla de un lugar para escribir todo tipo de comentarios. No esnecesario definir su longitud, ya que la misma se maneja de maneraautomtica, extendindose a medida que se le agrega informacin.

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    21/109

    21

    Fechas: almacenan fechas facilitando posteriormente su explotacin.Almacenar fechas de esta forma posibilita ordenar los registros por fechas ocalcular los das entre una fecha y otra.

    Alfanumricos: contienen cifras y letras. Presentan una longitud limitada(255 caracteres).

    Autoincrementables:son campos numricos enteros que incrementan enuna unidad su valor para cada registro incorporado. Su utilidad resulta:Servir de identificador ya que resultan exclusivos de un registro.

    Estos campos muestran en qu reas y de qu forma se estn sometiendo lasbases de datos en el desarrollo de la Minera de Datos y en qu manera stapuede ser til.Teniendo en cuenta lo anteriormente presentado, se puede deducir que las Bases

    de Datos y los SGBD son ideales para el correcto almacenamiento de los datos enuna organizacin, sin embargo dichos SGBD exigen la aplicacin deprocedimientos altamente complejos para la extraccin de informacin quepermanece oculta en los datos, por lo cual para lograr el objetivo planeado seaplicar el Modelado en Minera de Datos ya que permite la obtencin deinformacin deseada de una forma ms eficiente.

    3.1.2 BODEGAS DE DATOS

    Tambin conocidas como Almacenes de Datos, es un concepto relativamentenuevo, orientado al manejo de grandes volmenes de datos, provenientes dediversas fuentes, de muy diversos tipos. Estos datos cubren largos perodos detiempo, lo que trae consigo que se tengan diferentes esquemas de las bases dedatos fuentes. La concentracin de esta informacin est orientada a su anlisispara apoyar la toma de decisiones oportunas y fundamentadas.Una Bodega de Datos, es un conjunto de datos integrados orientados a unamateria, que varan con el tiempo y que no son transitorios, los cuales sirven desoporte en el proceso de toma de decisiones de la administracin4.

    Su nombre, Bodega de Datos de ahora en adelante BGDs., se asocia con unacoleccin de datos de gran volumen, provenientes de sistemas en operacin yotras fuentes, despus de aplicarles procesos de anlisis, seleccin ytransferencia de datos seleccionados. Su misin consiste en, a partir de estos

    4Duque Mndez, Nstor Daro. Bases de Datos. Universidad Nacional de Colombia. (2005).

    http://www.virtual.unal.edu.co/cursos/sedes/manizales/4060029/lecciones/cap8-1.html.(9 Mar 2009).

    http://www.virtual.unal.edu.co/cursos/sedes/manizales/4060029/lecciones/cap8-1.html.%20(9http://www.virtual.unal.edu.co/cursos/sedes/manizales/4060029/lecciones/cap8-1.html.%20(9http://www.virtual.unal.edu.co/cursos/sedes/manizales/4060029/lecciones/cap8-1.html.%20(9
  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    22/109

    22

    datos y apoyado en herramientas sofisticadas de anlisis, obtener informacin tilpara el soporte a la toma de decisiones.

    En sntesis una BGDs. es una gran coleccin de datos que recoge informacin demltiples sistemas fuentes u operacionales dispersos, y cuya actividad se centraen la Toma de Decisiones-es decir, en el anlisis de la informacin- en vez de ensu captura. Una vez reunidos los datos de los sistemas fuentes se guardandurante mucho tiempo, lo que permite el acceso a datos histricos; as losalmacenes de datos proporcionan al usuario una interfaz consolidada nica paralos datos, lo que hace ms fcil escribir las consultas para la toma de decisiones 5.

    Segn lo anterior se puede observar como las bodegas de datos, estn msorientadas para ayudar al usuario en la toma de decisiones, diferente a las basesde datos las cuales tienen como principal objetivo la captura y almacenamiento dedatos, siendo esto lo necesario para el desarrollo de ste proyecto.

    3.1.2.1 OBJETIVOS DE LAS BODEGAS DE DATOS

    A continuacin se muestran los objetivos6que las BGDs. tienen para la utilizacinde datos de una empresa:

    Proveer una visin nica de los clientes en toda la empresa.

    Poner tanta informacin comercial como sea posible en manos de tantos

    usuarios diferentes como sea posible.

    Mejorar el tiempo de espera que insumen los informes habituales.

    Monitorear el comportamiento de los clientes.

    Predecir compras de productos.

    Mejorar la capacidad de respuesta a problemas comerciales.

    Incrementar la precisin de las mediciones.5Velazco, Roberto Hernando. Almacenes de datos (Datawarehouse). (2007).

    http://www.rhernando.net/modules/tutorials/doc/bd/dw.html.(7 Mar 2009)6Bressn Griselda E. (2003). Lic. en sistemas de informacin. Almacenes de datos y Minera de Datos.Trabajo monogrfico de adscripcin.http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/MineriaDatosBressan.htm. (12 Mar. 2009)

    http://www.rhernando.net/modules/tutorials/doc/bd/dw.html.%20(7http://www.rhernando.net/modules/tutorials/doc/bd/dw.html.%20(7http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/MineriaDatosBressan.htm.%20%20(12http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/MineriaDatosBressan.htm.%20%20(12http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/MineriaDatosBressan.htm.%20%20(12http://www.rhernando.net/modules/tutorials/doc/bd/dw.html.%20(7
  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    23/109

    23

    Aumentar la productividad.

    Incrementar y distribuir las responsabilidades.

    Con estos objetivos se hace ms preciso el alcance y responsabilidad que lasBGDS. tienen sobre los datos y la empresa para la cual son aplicadas.

    3.1.2.2 UTILIDAD DE LAS BODEGAS DE DATOS

    Teniendo en cuenta lo mencionado se puede decir que las BGDS. pueden serutilizadas para:

    Manejo de relaciones de marketing.

    Anlisis de rentabilidad.

    Reduccin de costos.

    Como se puede ver las BGDs. se utilizan para ayudar en la toma de decisionesbasada en la informacin que muestran de manera clara.

    3.1.2.3 DIFERENCIAS ENTRE BASE DE DATOS Y LAS BODEGAS DE DATOS

    A continuacin se presenta una serie de diferencias que muestran desde diversospuntos de vista, desde que perspectiva funciona cada almacn.

    BASE DE DATOS OPERACIONAL BODEGA DE DATOS

    Datos Operacionales Datos del Negocio para Informacin

    Orientado a la Aplicacin Orientado al Sujeto

    Actual Actual + Histrico

    Detallada Detallada + Resumida

    Cambia Continuamente Estable

    Tabla No 1. Diferencias entre Bases de Datos y Bodegas de Datos

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    24/109

    24

    Como se pudo observar en la tabla anterior (Tabla No 1.)7, las BGDs., aportaninformacin de mayor valor que las bases de datos, ya que dicha informacin esms completa y detallada. Aunque las BGDs. seran de gran utilidad para estetrabajo, se sigue manejando el prospecto de bases de datos ya que permite

    trabajar directamente sobre los datos en el estado en que han sido almacenados.

    3.1.2.4 CARACTERSTICAS DE LAS BODEGAS DE DATOS

    Con lo mencionado anteriormente en el texto, las BGDs. muestran su capacidadpara la integracin, ejecucin, agrupamiento, anlisis y control de los datos, ahorase mencionar que caractersticas8 rodean los almacenes de datos las cualesmuestran que son:

    Organizados en torno a temas:La informacin se clasifica con base a losaspectos que son de inters para la empresa.

    Integrado:Es el aspecto ms importante. La integracin de datos consisteen convenciones de nombres, codificaciones consistentes, medida uniformede variables, etc.

    Dependiente del tiempo:Esta dependencia aparece de tres formas: La informacin representa los datos sobre un horizonte largo de

    tiempo. Cada estructura clave contiene (implcita o explcitamente) un

    elemento de tiempo (da, semana, mes, etc.). La informacin, una vez registrada correctamente, no puede seractualizada.

    No voltil: El Almacn de Datos slo permite cargar nuevos datos yacceder a los ya almacenados, pero no permite ni borrar ni modificar losdatos.

    Estas caractersticas muestran una BGDs. organizada y centrada en realizar unbuen trabajo en el uso de los datos, la cual con el paso del tiempo mostrar laelaboracin de un buen desempeo segn sus funciones.

    7Ibdem

    8Ibdem

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    25/109

    25

    3.1.2.5 FUNCIONALIDADES DE LAS BODEGAS DE DATOS

    Con lo anteriormente mencionado se hace una fusin que lleva a implementardiferentes funcionalidades que haciendo uso de las BGDs, facilita la creacin y

    explotacin de los datos almacenados en ella, y por consiguiente lo hacen mseficaz en el momento de su uso.

    Las BGDs. incluyen funcionalidades como:

    Integracin de bases de datos heterogneas (relacionales, documentales,geogrficas, archivos, etc.)

    Ejecucin de consultas complejas no predefinidas visualizando el resultadoen forma grfica y en diferentes niveles de agrupamiento y totalizacin dedatos.

    Agrupamiento y desagrupamiento de datos en forma interactiva.

    Anlisis del problema en trminos de dimensiones.

    Control de calidad de datos.Teniendo en cuenta las funciones permiten observar las diversas y ampliastemticas que se le pueden aplicar a las BGDs. y la efectividad que sus datospuedan arrojar debido a la variedad de funciones que emplea para su desarrollo.

    3.1.2.6 ARQUITECTURA DE LAS BODEGAS DE DATOS

    Como se ha mencionado anteriormente, y con lo que se mostrar a continuacin,se hace saber por qu al usar las BGDs. se estara incrementando de formainnecesaria el trabajo en este proyecto, ya que el tiempo que se estara utilizandoen crear una arquitectura de BGDs., podra emplearse en otro campo del proyecto;a continuacin se mostrar la arquitectura que emplea un almacn de datos.La estructura bsica de la arquitectura de las BGDs. incluye9:

    1. Datos Operacionales: Origen de datos para el componente dealmacenamiento fsico de las BGDs.

    2. Extraccin de datos: Seleccin sistemtica de datos operacionales usadospara formar parte de las BGDs.

    9Ibdem

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    26/109

    26

    3. Transformacin de datos: Procesos para resumir y realizar cambios enlos datos operacionales.

    4. Carga de datos: Insercin de datos en las BGDs.

    5. Almacn: Almacenamiento fsico de datos de la arquitectura de las BGDs.

    6. Herramienta de acceso: Herramientas que proveen acceso a los datos.

    Como se ha visto, para generar una arquitectura de BGDs. se emplea unacantidad de datos, los cuales se deben presentar en una forma muy detallada yseleccionada, la cual requiere el empleo de una cantidad de tiempo y datos quequiz para el alcance de este proyecto, sea innecesario utilizar, por eso se siguecon la ayuda de la Minera de Datos accediendo a los datos directamente desdela Base de Datos.

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    27/109

    27

    3.2 MINERIA DE DATOS

    3.2.1 INTRODUCCIN

    A lo largo del funcionamiento de una empresa se acumulan grandes cantidades dedatos que son almacenados, algunos de ellos sern usados, otros se acumularnhasta perderse por falta de actualidad o por cambios en las polticas de manejo delos mismos.Con el desarrollo de los sistemas de cmputo que se ha incrementadoconsiderablemente en los ltimos 20 (veinte) aos10, las empresas han tenido lacapacidad de almacenar grandes volmenes de datos histricos sobre lasoperaciones diarias en todas las reas de la organizacin, con el fin de satisfacer

    las necesidades propias de la empresa, pero en la mayora de las organizacionesse presenta exceso de registros, por lo que se hace ms complicado encontrarinformacin especfica y verdaderamente significativa que permita obtenerconocimiento que hasta el momento permaneca oculto y el cual brinda unavisin ms completa y clara de la situacin operacional de la empresa ayudando amejorar la forma en la que se toman las decisiones en la organizacin 11.

    La creciente necesidad de informacin ha hecho que en las empresas se diseensistemas de informacin y de apoyo a la toma de decisiones, que han tenidocomo objetivo primordial proveer de toda la informacin necesaria a los ejecutivosde alto nivel para apoyarlos en la toma de decisiones, adems de que les permite

    tener acceso rpido y efectivo a la informacin compartida y crtica del negocio; sinembargo actualmente la demanda de las empresas en cuanto a la informacin, vamas all de simples consultas, o reportes consolidados.

    Como respuesta a dichos requerimientos, se han creado tcnicas dealmacenamiento y anlisis de informacin, haciendo uso de diversas reas deconocimiento como la estadstica, inteligencia artificial, computacin grfica,bases de datos y el procesamiento masivo12, que han servido como fundamentode nuevas tcnicas de anlisis como la Minera de Datos, que ha facilitado elproceso de extraer informacin de los grandes volmenes de datos, revelandoconocimiento innovador a las organizaciones, permitiendo conocer de una forma

    ms detallada el comportamiento de variables sumamente importantes para las

    10 Molina, Luis Carlos. (2002). Data Mining: Torturando los datos hasta que confiesen.

    http://www.uoc.edu/web/esp/art/uoc/molina1102/molina1102.html. (4 Mar. 2009).11Larrieta, Mara Isabel ngeles y Santilln Anglica Mara. (2004). Minera de Datos: Concepto,caractersticas, estructura y aplicaciones.http://www.ejournal.unam.mx/rca/190/RCA19007.pdf (10 Mar.2009).12

    Vallejos, Sofa. (2006). Minera de Datos.http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/Mineria_Datos_Vallejos.pdf (7 Mar.2009).

    http://www.uoc.edu/web/esp/art/uoc/molina1102/molina1102.html.%20%20(4http://www.uoc.edu/web/esp/art/uoc/molina1102/molina1102.html.%20%20(4http://www.ejournal.unam.mx/rca/190/RCA19007.pdf%20%20(10http://www.ejournal.unam.mx/rca/190/RCA19007.pdf%20%20(10http://www.ejournal.unam.mx/rca/190/RCA19007.pdf%20%20(10http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/Mineria_Datos_Vallejos.pdf%20%20(7http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/Mineria_Datos_Vallejos.pdf%20%20(7http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/Mineria_Datos_Vallejos.pdf%20%20(7http://www.ejournal.unam.mx/rca/190/RCA19007.pdf%20%20(10http://www.uoc.edu/web/esp/art/uoc/molina1102/molina1102.html.%20%20(4
  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    28/109

    28

    empresas, como lo son inventarios, ventas, el comportamiento de los clientes,entre otros factores.

    3.2.2 HISTORIA

    Las tecnologas de la informacin han facilitado los procesos administrativos delas organizaciones, ya que mediante stas, las empresas han podido almacenarde manera segura todos los datos referentes a las funciones que desempean,entre las cuales se encuentran, las interacciones pasadas con los clientes, lacontabilidad de sus procesos internos, entre otras muchas funciones que se llevana cabo a diario en las empresas, que representan la memoria de la organizacin.

    Una vez satisfechas stas necesidades, surgen un nuevo grupo de requerimientos

    relacionados con informacin precisa sobre los sistemas de las organizacionesque exigen pasar a la accin inteligente sobre los datos para extraer la informacinoculta que representan dichos datos, y que puede servir de base para la toma dedecisiones13, ste es el objetivo de la Minera de Datos.

    La Minera de Datostiene sus races bsicamente en dos reas del conocimiento:la primera y ms grande en la cual tiene sus cimientos, es la estadstica clsica,la cual cuenta con diversos conceptos como la distribucin estndar, la varianza,anlisis de clustering14, entre muchos otros, los cuales juegan un papel muyimportante en el proceso de la misma, ya que stos, brindan gran parte de lafundamentacin bajo la cual muchos de sus modelos han sido construidos.

    La segunda rea de conocimiento que hace parte de la fundamentacin de laMinera de Datos es la inteligencia artificial, sta disciplina procura aplicarprocesamiento lgico a travs de algoritmos genticos, redes neuronales, rbolesde decisin, entre otros, a diversos problemas estadsticos; para poder aplicardicho procesamiento, es necesario contar con gran capacidad de poder decmputo lo cual no fue posible hasta comienzos de los 80s cuando loscomputadores empezaron a ofrecer mayor capacidad de procesamiento a preciosms asequibles, permitiendo que se empezaran a generar diferentes aplicacionesde ste tipo, que en un principio tuvieron fines cientficos y de investigacin15.

    A pesar que las tcnicas de anlisis estadstico permiten conocer informacin quepuede ser til, no permiten identificar relaciones cualitativas entre los datos, quepodran llegar a ser bastante significativas para las empresas.

    13Aranguren, Silvia Mnica y Muzachiodi, Silvia Liliana.(2003). Implicancias del Data Mining.http://www.fceco.uner.edu.ar/extinv/publicdocent/sarangur/pdf/introduccion.pdf (4 Mar.2009)14Agrupacin15A Brief History of Data Mining. Data mining software. (2006).http://www.data-mining-software.com/data_mining_history.htm (5 Mar. 2009)

    http://www.fceco.uner.edu.ar/extinv/publicdocent/sarangur/pdf/introduccion.pdfhttp://www.fceco.uner.edu.ar/extinv/publicdocent/sarangur/pdf/introduccion.pdfhttp://www.data-mining-software.com/data_mining_history.htm%E0%A5%B20(5http://www.data-mining-software.com/data_mining_history.htm%E0%A5%B20(5http://www.data-mining-software.com/data_mining_history.htm%E0%A5%B20(5http://www.data-mining-software.com/data_mining_history.htm%E0%A5%B20(5http://www.data-mining-software.com/data_mining_history.htm%E0%A5%B20(5http://www.data-mining-software.com/data_mining_history.htm%E0%A5%B20(5http://www.fceco.uner.edu.ar/extinv/publicdocent/sarangur/pdf/introduccion.pdf
  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    29/109

    29

    Para poder obtener de los datos cierto tipo de informacin que aporteconocimiento altamente valioso para las organizaciones, se requiere disponertambin de tcnicas y mtodos de anlisis inteligente que aunque todava no hansido perfectamente establecidos, estn siendo desarrollados dentro de la

    inteligencia artificial con el fin de descubrir dicha informacin que se encuentraoculta en las bases de datos de la organizaciones.

    El concepto de Minera de Datosfue usado por primera vez en los aos sesenta,cuando los estadsticos manejaban trminos como data fishing16, data mining17odata archaealogy18con la idea de encontrar correlaciones entre los datos sin unahiptesis previa, en bases de datos imprecisas e inconsistentes. A principios delos aos ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y GregoryPiatetsky-Shapiro, entre otros, empezaron a consolidar los trminos de la Minerade Datos. A finales de los aos ochenta slo existan un par de empresasdedicadas a esta tecnologa; en 2002 ya existan ms de 100 empresas en elmundo ofreciendo alrededor de 300 soluciones. En la actualidad, las listas de

    discusin sobre este tema, las forman investigadores de ms de ochenta pases19.

    Actualmente el proceso de Minera de Datos, al estar compuesto por variasetapas, hace el uso de diferentes disciplinas, como la visualizacin, lacomputacin de alto rendimiento, la estadstica, modelos matemticos y lainteligencia artificial, los cuales le permiten obtener mejores resultados a la horade extraer informacin de las bases de datos20, al igual que existen gran variedadde aplicaciones o herramientas comerciales que adems de ser muy poderosas yaque cuentan con un sinfn de utileras que facilitan el desarrollo de un proyecto,stas pueden complementarse entre s para poder arrojar resultadossatisfactorios21que entreguen informacin altamente significativa para la toma de

    decisiones en una organizacin.

    3.2.3 DEFINICIN

    La Minera de Datoses un proceso no trivial que tiene como propsito descubrir,extraer y almacenar informacin relevante de amplias bases de datos, a travs deprogramas de bsqueda e identificacin de patrones, relaciones globales,tendencias, desviaciones y otros indicadores aparentemente caticos que tiene

    16Pesca de Datos.http://www.businesspme.com/uk/articles/technologies/13/Data-dredging,-data-fishing.html17Minera de Datos.http://en.wikipedia.org/wiki/Data_mining18Arqueologa de Datos.http://en.wikipedia.org/wiki/Data_archaeology19Molina, Luis Carlos.(2002). Data Mining: Torturando los datos hasta que confiesen.http://www.uoc.edu/web/esp/art/uoc/molina1102/molina1102.html. (4 Mar. 2009)20Christen, Peter.(2005) A very short introduction to Data Mining.http://datamining.anu.edu.au/talks/2005/datamining-comp2340-2005.pdf(9 Mar. 2009)21Vallejos, Sofa.(2006). Minera de Datos.http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/Mineria_Datos_Vallejos.pdf (7 Mar.2009)

    http://www.businesspme.com/uk/articles/technologies/13/Data-dredging,-data-fishing.htmlhttp://www.businesspme.com/uk/articles/technologies/13/Data-dredging,-data-fishing.htmlhttp://www.businesspme.com/uk/articles/technologies/13/Data-dredging,-data-fishing.htmlhttp://en.wikipedia.org/wiki/Data_mininghttp://en.wikipedia.org/wiki/Data_mininghttp://en.wikipedia.org/wiki/Data_mininghttp://en.wikipedia.org/wiki/Data_archaeologyhttp://en.wikipedia.org/wiki/Data_archaeologyhttp://en.wikipedia.org/wiki/Data_archaeologyhttp://www.uoc.edu/web/esp/art/uoc/molina1102/molina1102.html.%20%20(4http://www.uoc.edu/web/esp/art/uoc/molina1102/molina1102.html.%20%20(4http://datamining.anu.edu.au/talks/2005/datamining-comp2340-2005.pdf%20(9http://datamining.anu.edu.au/talks/2005/datamining-comp2340-2005.pdf%20(9http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/Mineria_Datos_Vallejos.pdf%20%20(7http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/Mineria_Datos_Vallejos.pdf%20%20(7http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/Mineria_Datos_Vallejos.pdf%20%20(7http://datamining.anu.edu.au/talks/2005/datamining-comp2340-2005.pdf%20(9http://www.uoc.edu/web/esp/art/uoc/molina1102/molina1102.html.%20%20(4http://en.wikipedia.org/wiki/Data_archaeologyhttp://en.wikipedia.org/wiki/Data_mininghttp://www.businesspme.com/uk/articles/technologies/13/Data-dredging,-data-fishing.html
  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    30/109

    30

    una explicacin que pueden descubrirse mediante diversos mtodos de estatcnica22.

    Integra un conjunto de reas como lo son la estadstica y la inteligencia artificial

    para identificar informacin valiosa en grandes volmenes de datos, con elpropsito que dicha informacin hallada en el proceso, aporte un sesgo hacia latoma de decisiones a nivel empresarial; debido a esta caracterstica, el proceso deMinera de Datos incluye dos componentes para servir de apoyo a la toma dedecisiones: el componente de anlisis de verificacin y el de descubrimiento.

    El anlisis de verificacin permite obtener conclusiones basadas en elcomportamiento pasado, la Minera de Datos con enfoque en el descubrimientoayuda a descubrir nuevas oportunidades de negocio. El anlisis de verificacinpermite confirmar o rechazar los descubrimientos obtenidos con el nuevoenfoque. Por lo cual se puede decir que la Minera de Datoses un proceso queayuda a descubrir informacin til desde las bases de datos y por lo tanto es unaherramienta relacionada directamente al negocio.

    La Minera de Datos se encarga de extraer relaciones fundamentales en elcomportamiento de los clientes, productos e incluso proveedores de una empresa,invirtiendo la dinmica del mtodo cientfico, ya que se concentra en llenar lanecesidad de descubrir el por qu, para luego predecir y pronosticar las posiblesacciones a tomar con cierto factor de confianza para cada prediccin.

    En el proceso de Minera de Datos, se coleccionan los datos y se espera que deellos emerjan hiptesis. Se busca que los datos describan o indiquen por qu soncomo son. Luego entonces, se valida si la hiptesis inspirada por los datos en losmismos, ser numricamente significativa, pero experimentalmente invlida. Deah que la Minera de Datos debe presentar un enfoque exploratorio, y noconfirmador. Usarla para confirmar las hiptesis formuladas no es recomendable,pues se estara haciendo una inferencia poco vlida23.

    La Minera de Datosderiva patrones y tendencias que existen en los datos. Estospatrones y tendencias se pueden recopilar y definir como un modelo de la misma

    Los modelos de Minera de Datos se pueden aplicar, entre otras muchas, asituaciones empresariales como las siguientes:

    Prediccin de ventas.

    22Larrieta, Mara Isabel ngeles y Santilln Anglica Mara.(2004). Minera de Datos: Concepto,caractersticas, estructura y aplicaciones.http://www.ejournal.unam.mx/rca/190/RCA19007.pdf (10 Mar.2009)23Bressn Griselda E. (2003). Lic. en sistemas de informacin. Almacenes de datos y Minera de Datos.Trabajo monogrfico de adscripcin.http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/MineriaDatosBressan.htm(12 Mar. 2009).

    http://www.ejournal.unam.mx/rca/190/RCA19007.pdf%20%20(10http://www.ejournal.unam.mx/rca/190/RCA19007.pdf%20%20(10http://www.ejournal.unam.mx/rca/190/RCA19007.pdf%20%20(10http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/MineriaDatosBressan.htm%20(12http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/MineriaDatosBressan.htm%20(12http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/MineriaDatosBressan.htm%20(12http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/MineriaDatosBressan.htm%20(12http://www.ejournal.unam.mx/rca/190/RCA19007.pdf%20%20(10
  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    31/109

    31

    Clasificacin y estratificacin de Clientes.

    Determinar relaciones entre productos que generalmente se venden juntos.

    Buscar secuencias en el orden en que los clientes agregan productos a unacesta de compra.

    3.2.4 ANTECEDENTES DE LA MINERA DE DATOS

    La extraccin de conocimiento a partir de datos, tiene como objetivo descubrirpatrones que, entre otras cosas, deben ser vlidos, novedosos, interesantes y, enltima instancia, comprensibles. Los seres humanos tienen una capacidad innatade ver patrones a su alrededor. Las tcnicas de Minera de Datos han queridoemular, estas capacidades de aprendizaje para deducir informacin significativa apartir de grandes volmenes de datos en diversas reas y disciplinas24.

    Desde sus inicios, la Minera de Datos ha sido utilizada en diversas reas deconocimiento, en las cuales ha sido de gran ayuda en la extraccin de informacina partir de grandes volmenes de datos, se han desarrollado investigaciones yproyectos en casi todas las ramas de la ciencia, como la astronoma, medicina,mercadotecnia, entre otros, obteniendo resultados satisfactorios tanto a nivelcientfico como empresarial.

    Dichos proyectos e investigaciones han contribuido enormemente al desarrollo,evolucin y especializacin de los algoritmos y mtodos de extraccin deconocimiento, permitiendo obtener cada vez con mayor exactitud, informacinaltamente significativa tanto para una investigacin acadmica como para unaorganizacin o empresa.

    Los algoritmos y mtodos de Minera de Datos, han servido de apoyo en la tomade decisiones en una organizacin, facilitando de sta forma la labor deadministracin del negocio, como tambin ha sido de gran ayuda en el mbito delas ciencias, en las investigaciones cientficas y acadmicas, permitiendoentender las causas que generan los fenmenos, as como ha sido til paraabordar los problemas desde una perspectiva apropiada para resolver conflictosdesde su causa ms bsica.

    La Minera de Datosha posibilitado el desarrollo de proyectos de investigacin enun menor tiempo que los mtodos tradicionales, logrando alcanzar resultadosaltamente significativos para los grupos y organizaciones, ya que los resultados

    24 Zamarron. Sanz, Carlos et al. (2008). Aplicacin de la Minera de Datos al estudio de las alteracionesrespiratorias durante el sueo.http://www.sogapar.org/pneuma/pneuma6/pneuma-n-6-5c.pdf(29 Ag. 2009).

    http://www.sogapar.org/pneuma/pneuma6/pneuma-n-6-5c.pdfhttp://www.sogapar.org/pneuma/pneuma6/pneuma-n-6-5c.pdfhttp://www.sogapar.org/pneuma/pneuma6/pneuma-n-6-5c.pdfhttp://www.sogapar.org/pneuma/pneuma6/pneuma-n-6-5c.pdf
  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    32/109

    32

    obtenidos arrojan informacin altamente valiosa, que ha contribuido eninvestigaciones tanto acadmicas como experimentales en un rea definida de laciencia.

    A continuacin se presentan algunas de las reas en las que se han aplicado laMinera de Datosobteniendo resultados altamente significativos25:

    Astronoma:clasificacin de cuerpos celestes.

    Metereologa:prediccin de tormentas, entre otros.

    Medicina: caracterizacin y prediccin de enfermedades, probabilidad derespuesta satisfactoria a tratamiento mdico.

    Industria y manufactura:diagnstico de fallas.

    Mercadotecnia: identificar clientes susceptibles de responder a ofertas deproductos y servicios por correo, fidelidad de clientes, seleccin de sitios detiendas, afinidad de productos, entre otros.

    Inversin en casas de bolsa y banca:anlisis de clientes, aprobacin deprstamos, determinacin de montos de crdito, entre otros.

    Gestin de Riesgos:Las compaas de seguros y empresas de hipotecasutilizan la de Minera de Datospara descubrir los riesgos asociados con losclientes potenciales.

    Deteccin de fraudes y comportamientos inusuales: telefnicos,seguros, en tarjetas de crdito, de evasin fiscal, electricidad, entre otros.

    Anlisis de canasta de mercado:para mejorar la organizacin de tiendas,segmentacin de mercado.

    Rating: Determinacin de niveles de audiencia de programas televisivos.

    25Bressn Griselda E. (2003). Lic. en sistemas de informacin. Almacenes de datos y Minera de Datos.Trabajo monogrfico de adscripcin.http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/MineriaDatosBressan.htm(12 Mar. 2009)

    http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/MineriaDatosBressan.htm%20(12http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/MineriaDatosBressan.htm%20(12http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/MineriaDatosBressan.htm%20(12http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/MineriaDatosBressan.htm%20(12
  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    33/109

    33

    3.2.5 FASES DEL PROCESO DE MINERA DE DATOS

    La aplicacin de los algoritmos de Minera de Datos, requiere la realizacin de una

    serie de actividades previas encaminadas a preparar los datos de entrada debidoa que, en muchas ocasiones dichos datos proceden de fuentes heterogneas, notienen el formato adecuado o contienen datos errneos o redundantes. Por otraparte, es necesario interpretar y evaluar los resultados obtenidos.

    El proceso completo consta de las siguientes fases26:

    1. Definicin de los objetivos.

    2. Preparacin de datos.

    3. Anlisis exploratorio de los datos.

    4. Especificacin de los mtodos.

    5. Anlisis de los datos.

    6. Evaluacin de los mtodos.

    7. Implementacin de los mtodos.

    3.2.5.1 Definicin de los Objetivos

    Esta fase del proceso de Minera de Datos consiste en definir los objetivos delanlisis. No siempre es fcil definir el fenmeno que queremos analizar, de hecho,los objetivos del grupo u organizacin interesado en realizar ste procesogeneralmente son claros, pero los problemas de fondo como los que se pretendenabordar a partir de la misma, pueden ser difciles de traducir en objetivosconcretos que deben ser analizados.Una definicin clara del problema y los objetivos que se persiguen son losrequisitos previos para iniciar el anlisis correctamente. Esta es ciertamente una

    de las fases ms difciles del proceso, ya que lo establecido en esta fasedetermina cmo se organizan las fases siguientes, por lo tanto, los objetivosdeben ser claros y no debe haber lugar para dudas ni incertidumbres.

    26Moreno. Garca, Mara et al. (2009). Aplicacin de tcnicas de Minera de Datos en la construccin yvalidacin de modelos predictivos y asociativos a partir de especificaciones de requisitos de software.http://www.sc.ehu.es/jiwdocoj/remis/docs/minerw.pdf(29 Ag. 2009)

    http://www.sc.ehu.es/jiwdocoj/remis/docs/minerw.pdfhttp://www.sc.ehu.es/jiwdocoj/remis/docs/minerw.pdfhttp://www.sc.ehu.es/jiwdocoj/remis/docs/minerw.pdf
  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    34/109

    34

    3.2.5.2 Preparacin de los Datos

    Una vez que los objetivos del anlisis han sido identificados, es primordial

    identificar las fuentes de informacin externas e internas para seleccionar elsubconjunto de datos necesario de datos para el anlisis. Las fuentes de datoscorresponden generalmente a fuentes de datos internas de la organizacininteresada en el proceso de Minera de Datos, ya que de sta forma los datospueden ser ms fiables para la investigacin.

    Estos datos tambin tienen la ventaja de ser el resultado de experiencias yprocedimientos de la propia empresa. La fuente de datos ideal es el almacn dedatos de la empresa a la que se le realiza el proceso de Minera de Datos. En unalmacn de datos se recopilan datos histricos que no estn sujetos a cambios, locual les da una alta fiabilidad a los datos, adems de que puede resultar ms

    sencillo extraer porciones de las bases de datos de acuerdo a reas especficasde la organizacin.

    Los datos utilizados para la realizacin del presente proyecto, son datos que noestn sujetos a cambios ya que son una copia de la base de datos original y noestn sujetos a sufrir ningn cambio que si podra tener la misma a lo largo deltiempo.

    El primer paso fundamental antes de realizar el anlisis de datos, es disponer deuna adecuada seleccin de los mismos, lo que implica que es necesario tener unaapropiada representacin de los datos que generalmente se encuentrancondensados en una tabla que se conoce como matriz de datos.

    La matriz de datos se construye segn las necesidades analticas del problema yde los objetivos previamente establecidos. Una vez que una matriz de datos estdisponible, es necesario llevar a cabo una limpieza preliminar de los datos, enotras palabras, se realiza un control de calidad de los datos disponibles, quegeneralmente es conocido como la limpieza de datos o preprocesado.

    El preprocesado, es un proceso formal que se usa para resaltar las variables queexisten en la matriz de datos, pero que no son adecuadas para el anlisis que sedesea realizar, el preprocesado de los datos es tambin un importante controlsobre los elementos de las variables y la posible presencia de datos errneos oredundantes.

    Por ltimo, es til establecer un subconjunto o una muestra de los datosdisponibles, esto se debe a que la calidad de la informacin recogida a partir delanlisis completo de todo el conjunto de datos disponibles no siempre es mejorque la informacin obtenida del anlisis sobre las muestras de los mismos datos.De hecho, en la Minera de Datos, las bases de datos que usualmente se analizan

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    35/109

    35

    son muy grandes, por lo tanto al usar una muestra de los datos se reduce eltiempo de anlisis.

    Trabajar con muestras permite comprobar la validez del modelo para el resto delos datos, siendo de sta forma una importante herramienta de diagnstico,adems de que tambin reduce el riesgo de que el mtodo aplicado presenteirregularidades perdiendo su capacidad de generalizar y de diagnosticar sobre losdatos.

    3.2.5.3 Anlisis Exploratorio de los Datos

    En el Anlisis exploratorio de los datos se puede destacar cualquier anomala enlos mismos, ya que se pueden presentar elementos que son diferentes del resto,estos elementos de los datos no necesariamente deben ser eliminados ya quepodran contener informacin que es importante para alcanzar los objetivos delanlisis.Un anlisis exploratorio de los datos es esencial, ya que permite al analistapredecir cul o cules mtodos pueden ser ms adecuados para aplicar en lasiguiente fase del anlisis. En esta opcin, hay que tener en cuenta la calidad delos datos obtenidos en la fase anterior.

    El anlisis exploratorio tambin puede sugerir la necesidad de realizar una nuevaextraccin de datos porque los datos anteriormente recogidos se puedenconsiderar insuficientes para alcanzar los objetivos establecidos.

    3.2.5.4 Especificacin del Mtodo

    Existen varios mtodos y algoritmos que se pueden aplicar en el proceso deMinera de Datos, por lo que es importante tener una clasificacin de los mtodosexistentes.La eleccin del mtodo depende del problema en estudio o el tipo de datosdisponibles, el proceso de extraccin de datos se rige por las aplicaciones, poresta razn, los mtodos utilizados se pueden clasificar de acuerdo con el objetivode los anlisis. Se pueden distinguir tres clases principales:

    Mtodos Descriptivos: Permiten formar grupos de datos rpidamente,tambin son conocidos como mtodos simtricos, no supervisados oindirectos. Las observaciones son generalmente clasificadas en gruposque no son conocidos con anterioridad (anlisis de conglomerados, mapasde Kohonen), los elementos de las variables pueden estar conectados entres de acuerdo a vnculos desconocidos de antemano (los mtodos de

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    36/109

    36

    asociacin, los modelos log-lineales, los modelos grficos), de esta manera,todas las variables disponibles son tratados en el mismo nivel y no hayhiptesis de causalidad.

    Mtodos de Prediccin: Su objetivo es describir una o ms de lasvariables en relacin con todas las dems, son conocidos como mtodosasimtricos, supervisados o directos. Se llevan a cabo mediante labsqueda de normas de clasificacin o de prediccin basada en los datos,estas normas nos ayudan a predecir o clasificar el resultado futuro de una oms variables de respuesta o de destino en relacin a lo que ocurre en laprctica con los motivos que la causan o bien en relacin con las variablesde entrada. Los principales mtodos de este tipo son los desarrollados en elmbito de la mquina de aprendizaje, tales como las redes neuronales(perceptrn de multicapa y rboles de decisin), como tambin lo sonmodelos estadsticos clsicos, como los modelos de regresin lineal ylogstica.

    Mtodos Locales: Su objetivo es identificar las caractersticas particularesrelacionadas con un subconjunto de la base de datos, los mtodosdescriptivos y mtodos de prediccin, son globales ms que locales.Ejemplos de mtodos locales son las reglas de asociacin para el anlisisde datos transaccionales y la determinacin de observaciones anmalas uoutliers.

    La anterior clasificacin de los mtodos de Minera de Datoses exhaustiva, sobretodo desde el punto de vista funcional y cada mtodo puede ser utilizado como tal

    o como una etapa en un anlisis de varias etapas en el proceso de Minera deDatos.

    3.2.5.5 El Anlisis de Datos

    Una vez que el o los mtodos a aplicar en el proceso han sido especificados,deben traducirse en algoritmos apropiados para realizar los clculos que ayudana sintetizar los resultados que se necesitan de la base de datos disponible. Laamplia gama de programas informticos especializados y no especializados para

    la Minera de Datossignifica que para la mayora de aplicaciones estndar, no esnecesario el desarrollo de algoritmos, sin embargo, aquellos que gestionan esteproceso deben tener un buen conocimiento de los diferentes mtodos, as comolas soluciones de software, para que puedan adaptar el proceso a las necesidadesespecficas de la organizacin e interpretar correctamente los resultados para latoma de decisiones.

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    37/109

    37

    3.2.5.6 Evaluacin del Mtodo

    Una vez aplicado el mtodo, se debe proceder a su validacin comprobando que

    las conclusiones que arroja son vlidas y suficientemente satisfactorias. En el casode haber aplicado varios mtodos mediante el uso de distintas tcnicas, se debencomparar los mtodos en busca de aquel que se ajuste mejor al problema. Esta esuna verificacin de diagnstico importante sobre la validez del mtodo especficoque se aplica a los datos disponibles. Idealmente, los patrones descubiertos debentener las siguientes cualidades: ser precisos, comprensibles, es decir, inteligibles einteresantes lo que implica que deben ser tiles y novedosos27.

    Es posible que ninguno de los mtodos utilizados permitan alcanzar el conjunto deobjetivos propuestos de manera satisfactoria, en ese caso ser necesario volver yespecificar un nuevo mtodo que es ms apropiado para el anlisis. Al evaluar el

    rendimiento de un mtodo especfico, as como medidas de diagnstico de un tipode estadsticas, otras cosas deben ser consideradas, como lo son las restriccionesde tiempo, las limitaciones de recursos, y la calidad y disponibilidad de datos.

    3.2.5.7 Implementacin de los Mtodos

    La Minera de Datosno es slo un anlisis de los datos, es tambin la integracinde los resultados en el proceso de decisin de la empresa u organizacin. ElConocimiento del negocio, la extraccin de las normas y su participacin en el

    proceso de decisin permite pasar de la fase analtica a la produccin de un motorde decisin.Una vez que el modelo ha sido elegido y probado con un conjunto de datos, laregla de clasificacin se puede aplicar a toda la poblacin de referencia. Porejemplo, se puede adquirir la capacidad de distinguir con anterioridad qu clientesson ms rentables para la empresa, o tambin se puede adquirir la habilidad decalibrar las polticas comerciales diferenciadas para los distintos grupos deconsumidores, lo que aumenta los beneficios de la empresa.

    Despus de haber visto los beneficios que se pueden obtener de la Minera deDatos, es fundamental implementar correctamente dicho proceso en una

    organizacin, con el fin de explotar todo su potencial.Aunque las fases anteriores se realizan en el orden en que aparecen, el procesoes altamente iterativo, establecindose retroalimentacin entre los mismos.

    Adems, no todos las fases requieren el mismo esfuerzo, generalmente la fase de

    27 Zamarron. Sanz, Carlos et al. (2008). Aplicacin de la Minera de Datos al estudio de las alteracionesrespiratorias durante el sueo.http://www.sogapar.org/pneuma/pneuma6/pneuma-n-6-5c.pdf(29 Ag. 2009 )

    http://www.sogapar.org/pneuma/pneuma6/pneuma-n-6-5c.pdfhttp://www.sogapar.org/pneuma/pneuma6/pneuma-n-6-5c.pdfhttp://www.sogapar.org/pneuma/pneuma6/pneuma-n-6-5c.pdfhttp://www.sogapar.org/pneuma/pneuma6/pneuma-n-6-5c.pdf
  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    38/109

    38

    preparacin de datos es la ms dispendiosa ya que representa aproximadamenteel 60 % del esfuerzo total de todo el proyecto28.

    3.2.6 ALGORITMOS DE MINERA DE DATOS

    La aplicacin automatizada de algoritmos de Minera de Datos permite detectarpatrones en los datos eficientemente y a partir de stos, derivar informacinimplcita en ellos, de tal forma que se pueda comprobar qu tan tiles son laspredicciones que se derivan de los datos para una organizacin en general.

    Dichos algoritmos de Minera de Datosse encuentran en continua evolucin y sedesarrollan como resultado de la colaboracin entre campos de investigacin talescomo bases de datos, reconocimiento de patrones, inteligencia artificial, sistemas

    expertos, estadstica, visualizacin, recuperacin de informacin, y computacinde altas prestaciones.

    A continuacin se muestra la clasificacin de los algoritmos en la Minera deDatos,29 la cual se da en dos grandes categoras:

    Supervisados o Predictivos: Los algoritmos supervisados o predictivospredicen el valor de un atributo (etiqueta) de un conjunto de datos, conocidosotros atributos (atributos descriptivos). A partir de datos cuya etiqueta seconoce, se induce una relacin entre dicha etiqueta y otra serie de atributos.Esas relaciones sirven para realizar la prediccin en datos cuya etiqueta es

    desconocida. Esta forma de trabajar se conoce como aprendizajesupervisado y se desarrolla en dos fases:

    a) Entrenamiento: Se construye un modelo usando un subconjunto dedatos con una etiqueta conocida.

    b) Prueba: Se prueba del modelo sobre el resto de los datos.

    No Supervisados o de Descubrimiento del Conocimiento: Descubrenpatrones y tendencias en los datos actuales (no utilizan datos histricos). Eldescubrimiento de esa informacin sirve para llevar a cabo acciones yobtener un beneficio (cientfico o de negocio) de ellas.

    28Giudici, Paolo. (2003). Applied Data Mining Stadistical Methods for Bussines and Industry.Chichester. Jhon

    Wiley & Sons, Inc. 364p.29Moreno. Garca, Mara et al. (2009). Aplicacin de tcnicas de Minera de Datos en la construccin yvalidacin de modelos predictivos y asociativos a partir de especificaciones de requisitos de software.http://www.sc.ehu.es/jiwdocoj/remis/docs/minerw.pdf(29 Ag. 2009)

    http://www.sc.ehu.es/jiwdocoj/remis/docs/minerw.pdfhttp://www.sc.ehu.es/jiwdocoj/remis/docs/minerw.pdfhttp://www.sc.ehu.es/jiwdocoj/remis/docs/minerw.pdf
  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    39/109

    39

    En la Tabla No 2., se muestran algunas de las tcnicas de minera de ambascategoras30.

    SUPERVISADOS NO SUPERVISADOS

    rboles de decisin Deteccin de Desviaciones

    Induccin Neuronal Segmentacin

    Regresin Agrupamiento ("clustering")

    Series Temporales Reglas de Asociacin

    Patrones Secuenciales

    Tabla No 2. Clasificacin de las tcnicas de Min era d e Dato s.

    Como se puede observar en la tabla anterior (Tabla No 2.), las reglas deasociacin utilizan algoritmos no supervisados o de descubrimiento deinformacin, como lo son el algoritmo a priori, GRI (Induccin generalizada dereglas), FP Growth (crecimiento de patrones frecuentes), entre otros, los cuales seexpondrn en otra seccin (seccin 3.3.6) ms adelante en este documento.Debido a que las reglas de asociacin tienen como propsito descubrir patrones ytendencias que se presentan en los datos, en el presente proyecto se empleardicha tcnica de Minera de Datos, ya que stas permiten alcanzar los objetivosdel presente proyecto satisfactoriamente.

    3.2.7 TAREAS DE LA MINERIA DE DATOS

    Los algoritmos de Minera de Datos realizan en general tareas de prediccin deinformacin desconocida que puede estar contenida en los datos, como tambinpuede realizar la labor de describir de patrones de comportamiento de los datos31.

    Muchos de los problemas de tipo intelectual, econmico, y de inters comercial sepueden solucionar en trminos de las tareas que la Minera de Datos estplanteada a cumplir; la siguiente lista muestra las tareas ms comunes de Minera

    de Datos32:

    30Ibdem.31Larose, Daniel T.(2005).Discovering Knowledge in Data an Introduction to Data Mining. Hoboken, NewJersey. Jhon Wiley & Sons, Inc Publication. 222p.32Berry,Michael J.A y Gordon S. Linoff.(2004).Data Mining techniques for Marketing, Sales, and CustomerRelationship Management. Indianapolis. Wiley Publishing, Inc. 637p.

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    40/109

    40

    Clasificacin.

    Estimacin.

    Prediccin.

    Asociacin.

    Agrupamiento o Clustering.

    Descripcin.

    A continuacin se describen cada una de las tareas de la Minera de Datos:

    3.2.7.1 Clasificacin.

    La clasificacin, es una de las tareas ms comunes de Minera de Datos, queparece ser un imperativo humano, ya que con el fin de comprender el mundo quenos rodea, usamos constantemente la clasificacin y categorizacin.

    Consiste en examinar las caractersticas de un elemento presente en el conjuntode datos y asignarlo a uno de los conjuntos predefinidos de clases. Los elementosque van a ser clasificados, estn generalmente representados por los registrosque se contienen de ese elemento en una tabla de base de datos o un archivo.

    La tarea de clasificacin se caracteriza por contar con una correcta definicin delas clases, y de una formacin de entrenamiento que consiste en ejemplospreclasificados. La tarea es construir o aplicar un modelo de algn tipo que puedaser empleado en los datos que an no hayan sido clasificados con el fin declasificarlos.

    Algunos ejemplos de las tareas de clasificacin tanto en el mbito empresarialcomo en la investigacin son:

    Establecer si una determinada transaccin mediante tarjeta de crdito esfraudulenta.

    Asignar a un nuevo estudiante en un tema particular con respecto a sus

    necesidades especiales. Evaluar si una solicitud de hipoteca es un buen riesgo de crdito o no.

    Diagnosticar determinadas enfermedades.

    Determinar qu nmeros de telfono corresponden a mquinas de fax.

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    41/109

    41

    Las tcnicas que generalmente emplean la clasificacin son: Los rboles dedecisin y las tcnicas del vecino ms cercano. Las redes neuronales y anlisisde enlaces tambin utilizan la clasificacin en ciertos casos.

    3.2.7.2 Estimacin

    Es la actividad donde dado unos datos de entrada, se debe estimar los valorespara algunas variables continuas desconocidas, tales como ingreso, balance deuna tarjeta de crdito, entre otros. La estimacin es similar a la clasificacin, salvoque la variable de destino es numrica y no categrica. Los modelos sonconstruidos usando registros "completos, que proporcionan el valor de la variablede destino as como los predictores. Entonces, para las nuevas observaciones, lasestimaciones del valor de la variable son realizadas en base a los valores de lasvariables predictoras.

    El mtodo de estimacin tiene la gran ventaja de que los registros individualespueden ser ordenados de acuerdo con rango de la estimacin.

    Para ver la importancia de esto, se puede suponer que una empresa de botas deesqu ha presupuestado para una distribucin de 500.000 catlogos de publicidad,si el mtodo de clasificacin se utiliza y son identificados 1,5 millones deesquiadores, entonces se podra simplemente colocar el anuncio en las facturasde 500.000 personas seleccionadas al azar de esa muestra, si, por otra parte,

    cada titular tiene una propensin a la puntuacin de esqu, se puede enviar elanuncio a los 500.000 candidatos ms probables.

    Algunos ejemplos de las tareas de estimacin son:

    Estimacin del nmero de nios en una familia.

    Estimacin de los ingresos totales del hogar de una familia.

    La estimacin del valor de toda la vida de un cliente como comprador.

    Estimacin de la probabilidad de que alguien pague un crdito solicitado.

    Los modelos de regresin y las redes neuronales se adaptan bien a las tareas deestimacin.

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    42/109

    42

    3.2.7.3 Prediccin

    La prediccin es similar a la clasificacin y a la estimacin, salvo que para la

    prediccin, los registros se clasifican de acuerdo a algn comportamiento futuro, ovalor futuro estimado. La prediccin es una de las ms importantes actividadesrealizadas en la Minera de Datos.

    En una tarea de prediccin, la nica manera de comprobar la exactitud de laclasificacin es esperar los resultados y evaluarlos. La razn principal para eltratamiento de la prediccin como una actividad separada de la clasificacin y laestimacin es que en el modelado predictivo hay otras cuestiones relativas a larelacin temporal de las variables de entrada o predictores de la variable objetivo.

    Cualquiera de las tcnicas utilizadas para la clasificacin y la estimacin puede seradaptada para su uso en la prediccin mediante el uso de ejemplos deentrenamiento donde el valor de la variable que se predijo que ya es conocido,

    junto con los datos histricos de esos ejemplos. Los datos histricos se utilizanpara construir un modelo que explica el comportamiento observado en los datos.Cuando este modelo se aplica a nuevas entradas de datos, el resultado es unaprediccin del comportamiento futuro de los mismos.

    Algunos ejemplos de las tareas de prediccin tanto en el mbito empresarial comoen la investigacin son:

    Predecir qu clientes se retirarn dentro de los prximos seis meses.

    Predecir qu suscriptores de telefona ordenarn un servicio de valoragregado.

    Predecir el porcentaje de aumento en las muertes de trfico el prximo aosi se aumenta el lmite de velocidad.

    Predecir si una molcula particular, en el descubrimiento de frmacos darlugar a un nuevo medicamento rentable para una empresa farmacutica.

    La mayora de las tcnicas de Minera de Datos son adecuadas para usar laprediccin a partir de datos histricos como tambin de datos de entrenamiento de

    forma adecuada. La eleccin de la tcnica depende de la naturaleza de los datosde entrada, el tipo de valor que se predice, y la importancia concedida a laexplicabilidad de la prediccin.

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    43/109

    43

    3.2.7.4 Asociacin

    La tarea de asociacin en Minera de Datoses encontrar los atributos que deben

    "ir juntos", es decir aquellos atributos que se relacionan entre s.

    Ms prevalente en el mundo de los negocios, donde es conocido como anlisis deafinidad, o anlisis de la canasta de mercado, la tarea de la asociacin trata dedescubrir las reglas para cuantificar la relacin entre dos o ms atributos. Reglasde la Asociacin son de la forma "Si antecedente, a continuacin, comoconsecuencia," junto con una medida de la confianza y apoyo relacionados con laregla.

    Por ejemplo, un supermercado en particular puede encontrar que de las comprasde 1000 clientes en un jueves por la noche, 200 compraron paales, y de los 200

    que compraron paales, 50 compraron cerveza. As pues, la regla de asociacinsera "Si se compran paales entonces se compra cerveza" con un soporte depaalesde 200/1000 = 20%; soporte de paales entonces cervezade 50/1000y una confianza (soporte paales entonces cerveza/soporte paales)de 50/200= 25%.

    Algunos ejemplos de las tareas de asociacin tanto en el mbito empresarial comoen la investigacin son:

    Investigar la proporcin de suscriptores de un plan telefnico de unacompaa de celulares que responden positivamente a una oferta de unservicio de actualizacin.

    Examinar la proporcin de nios cuyos padres les leen a s mismos y queson buenos lectores

    La prediccin de la degradacin de las redes de telecomunicaciones.

    Encontrar qu artculos en un supermercado se compran juntos y quartculos no se compran juntos.

    Determinar la proporcin de casos en que un nuevo frmaco se presentaefectos secundarios peligrosos.

    Existen varios algoritmos para la generacin de reglas de asociacin, como elalgoritmo a priori, el algoritmo de GRI (Induccin generalizada de reglas), entreotros.

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    44/109

    44

    3.2.7.5 Agrupamiento o Cluster ing

    El Clusteringse refiere a la agrupacin de los registros, las observaciones, o los

    casos en las clases de objetos similares. Un clster es una coleccin de registrosque son similares entre s, y diferentes a los registros de las otras categoras.

    El agrupamiento o Clustering difiere de la clasificacin en que no hay ningunavariable de destino para la agrupacin o bien no existen tipos predefinidos nimodelos de clasificacin. La tarea de la agrupacin no es tratar de clasificar,calcular o predecir el valor de una variable de destino. En cambio, los algoritmosde agrupamiento buscan segmentar el conjunto de datos en subgrupos o gruposrelativamente homogneos, donde la similitud de los registros dentro de laagrupacin se maximiza y la similitud con los registros fuera del clster seminimiza.

    Algunos ejemplos de las tareas de agrupamiento o clustering tanto en el mbitoempresarial como en la investigacin son:

    Marketing de destino de un producto de nicho para un negocio de pequeacapitalizacin que no tiene un gran presupuesto publicitario.

    Para efectos de auditora contable, se pueden segmentar loscomportamientos financieros en las categoras de benignos ysospechosos.

    Como una herramienta para reducir, cuando el conjunto de datos tiene

    cientos de atributos Expresin de genes por agrupacin, en donde grandes cantidades de

    genes pueden mostrar un comportamiento similar

    La agrupacin o Clustering se hace a menudo como un preludio a alguna otromodelo o tarea de Minera de Datos. Por ejemplo, la agrupacin podra ser elprimer paso en un esfuerzo de la segmentacin del mercado: en lugar de tratar dellegar a todos los clientes de una empresa, se puede crear una norma como "aqu tipo de promocin no responden mejor los clientes", primero dividir la base declientes en grupos o personas con hbitos de compra similar, y luego preguntarqu tipo de promocin funciona mejor para cada grupo.

  • 7/25/2019 ANLISIS PARA PREDICCIN DE VENTAS UTILIZANDO MINERIA DATOS EN ALAMCENES DE GRANDES DIMENSIONES.pdf

    45/109

    45

    3.2.7.6 Descripcin

    A veces el propsito de aplicar la Minera de Datoses simplemente para describir

    lo que est ocurriendo en una base de datos compleja de una manera queaumente nuestra comprensin de las personas, productos o procesos queprodujeron los datos en primer lugar. Una suficientemente buena descripcin deun comportamiento, usualmente sugiere una explicacin para ello tambin.

    Por lo menos, una buena descripcin sugiere dnde empezar a buscar unaexplicacin. La famosa brecha de gnero en la poltica estadounidense es unejemplo de cmo una simple descripcin, "las mujeres apoyan a los demcratasen mayor nmero que los hombres," puede provocar gran inters y estudio porparte de periodistas, socilogos, economistas y cientficos polticos, por no hablarde los candidatos a cargos pblicos33.

    Los modelos de Minera de Datosdebe ser lo ms transparente posible, es decir,los resultados del modelo deben describir patrones claros que se puedan explicare interpretar intuitivamente. Algunos mtodos de Minera de Datos son msapropiados que otros a la interpretacin transparente. Por