31
Taller de Inteligencia de Negocios • SQL Server Analysis Services Data Mining Semana 11

Taller de Inteligencia de Negocios SQL Server Analysis Services Data Mining Semana 11

Embed Size (px)

Citation preview

  • Diapositiva 1
  • Taller de Inteligencia de Negocios SQL Server Analysis Services Data Mining Semana 11
  • Diapositiva 2
  • Taller de Inteligencia de Negocios Heterogeneous data sources End-to-End BI Offering END USER TOOLS AND PERFORMANCE MANAGEMENT APPS Excel PerformancePoint Server BI PLATFORM SQL Server Reporting Services SQL Server Reporting Services SQL Server Analysis Services SQL Server Analysis Services SQL Server DBMS SQL Server Integration Services SharePoint Server DELIVERY Reports Dashboards Excel Workbooks Excel Workbooks Analytic Views Analytic Views Scorecards Plans
  • Diapositiva 3
  • Taller de Inteligencia de Negocios Ayudan a identificar patrones en los datos, que le permiten determinar las razones por las que suceden las cosas, y a crear reglas y recomendaciones, con las que puede predecir lo que ocurrir en el futuro. No es necesario crear un almacn de datos para realizar la minera de datos; puede usar datos tabulares de proveedores externos, hojas de clculo e incluso archivos de texto. Tambin puede minar con facilidad cubos OLAP creados en Analysis Services. Minera de Datos
  • Diapositiva 4
  • Taller de Inteligencia de Negocios Utiliza el anlisis matemtico para deducir los patrones y tendencias que existen en los datos. Normalmente, estos patrones no se pueden detectar mediante la exploracin tradicional de los datos porque las relaciones son demasiado complejas o porque hay demasiados datos. Los modelos de minera de datos se pueden aplicar a situaciones empresariales como las siguientes: Predecir ventas Dirigir correo a clientes especficos Determinar los productos que se pueden vender juntos Buscar secuencias en el orden en que los clientes agregan productos a una cesta de compra Minera de Datos
  • Diapositiva 5
  • Taller de Inteligencia de Negocios Cada proyecto de minera de datos contiene los cuatro tipos siguientes de objetos: orgenes de datos; vistas del origen de datos, que se basan en los orgenes de datos; estructuras de minera de datos, que definen cmo se utilizan los datos en el modelo; y modelos de minera de datos, que crean y almacenan los patrones. Minera de Datos
  • Diapositiva 6
  • Taller de Inteligencia de Negocios Es un conjunto de clculos y reglas heursticas que permite crear un modelo de minera de datos a partir de los datos. Para crear un modelo, el algoritmo analiza primero los datos proporcionados, en busca de tipos especficos de patrones o tendencias. El algoritmo usa los resultados de este anlisis para definir los parmetros ptimos para la creacin del modelo de minera de datos. A continuacin, estos parmetros se aplican en todo el conjunto de datos para extraer patrones procesables y estadsticas detalladas. Algoritmos de Minera de Datos
  • Diapositiva 7
  • Taller de Inteligencia de Negocios Analysis Services incluye los siguientes tipos de algoritmos: Algoritmos de clasificacin, que predicen una o ms variables discretas, basndose en otros atributos del conjunto de datos. Algoritmos de regresin, que predicen una o ms variables continuas, como las prdidas o los beneficios, basndose en otros atributos del conjunto de datos. Algoritmos de segmentacin, que dividen los datos en grupos, o clsteres, de elementos que tienen propiedades similares. Algoritmos de asociacin, que buscan correlaciones entre diferentes atributos de un conjunto de datos. La aplicacin ms comn de esta clase de algoritmo es la creacin de reglas de asociacin, que pueden usarse en un anlisis de la cesta de compra. Algoritmos de Minera de Datos
  • Diapositiva 8
  • Taller de Inteligencia de Negocios Analysis Services incluye los siguientes tipos (continuacin): Algoritmos de anlisis de secuencias, que resumen secuencias o episodios frecuentes en los datos, como un flujo de rutas web. La minera de datos le permite generar varios modelos en una nica estructura de minera de datos, por lo que en una solucin de minera de datos puede usar un algoritmo de clsteres, un modelo de rboles de decisin y un modelo de Bayes nave para obtener distintas vistas de los datos. Tambin puede usar varios algoritmos dentro de una nica solucin para realizar tareas independientes: por ejemplo, podra usar la regresin para obtener predicciones financieras, y un algoritmo de red neuronal para realizar un anlisis de los factores que influyen en las ventas. Algoritmos de Minera de Datos
  • Diapositiva 9
  • Taller de Inteligencia de Negocios La tabla siguiente proporciona sugerencias para los tipos de tareas para las que se usa normalmente cada algoritmo. Eleccin de Algoritmo por tarea
  • Diapositiva 10
  • Taller de Inteligencia de Negocios Analysis Services Ver Videos sobre el tema:
  • Diapositiva 11
  • Taller de Inteligencia de Negocios Analysis Services Anexo Modelos de Minera de Datos
  • Diapositiva 12
  • Taller de Inteligencia de Negocios Es un algoritmo de clasificacin y regresin proporcionado por SSAS para el modelado de prediccin de atributos discretos y continuos. Para los atributos discretos, el algoritmo hace predicciones basndose en las relaciones entre las columnas de entrada de un conjunto de datos. Especficamente, el algoritmo identifica las columnas de entrada que se correlacionan con la columna de prediccin. Por ejemplo, en un escenario para predecir qu clientes van a adquirir probablemente una bicicleta, si nueve de diez clientes jvenes compran una bicicleta, pero solo lo hacen dos de diez clientes de edad mayor, el algoritmo infiere que la edad es un buen elemento de prediccin en la compra de bicicletas. rboles de decisin de Microsoft
  • Diapositiva 13
  • Taller de Inteligencia de Negocios Para los atributos continuos, el algoritmo usa la regresin lineal para determinar dnde se divide un rbol de decisin. Si se define ms de una columna como elemento de prediccin, el algoritmo genera un rbol de decisin independiente para cada columna de prediccin. Ejemplo Marketing desea identificar las caractersticas de los clientes antiguos que indicarian si es probable que realicen alguna compra futura. El DB almacena informacin demogrfica. Mediante los rboles de decisiones que analizan esta informacin, Marketing puede generar un modelo que predice si un cliente va a comprar productos, basndose en el estado de las columnas conocidas sobre ese cliente, como la demografa o los patrones de compra anteriores. rboles de decisin de Microsoft
  • Diapositiva 14
  • Taller de Inteligencia de Negocios El algoritmo genera un modelo mediante la creacin de una serie de divisiones en el rbol. El algoritmo agrega un nodo al modelo cada vez que una columna de entrada tiene una correlacin significativa con la columna de prediccin. La forma en que el algoritmo determina una divisin vara en funcin de si predice una columna continua o una columna discreta. El algoritmo utiliza la seleccin de caractersticas para guiar la seleccin de los atributos ms tiles. Entre los mtodos que se usan para determinar si hay que dividir el rbol figuran mtricas estndar del sector para la entropa y las redes Bayesianas. rboles de decisin de Microsoft
  • Diapositiva 15
  • Taller de Inteligencia de Negocios rboles de decisin de Microsoft DiscretaContinua
  • Diapositiva 16
  • Taller de Inteligencia de Negocios Es un algoritmo de segmentacin que utiliza tcnicas iterativas para agrupar los casos de un conjunto de datos dentro de clsteres que contienen caractersticas similares. Estas agrupaciones son tiles para la exploracin de datos, la identificacin de anomalas en los datos y la creacin de predicciones. Identifican las relaciones en un conjunto de datos que no se podran derivar lgicamente a travs de la observacin casual. Algoritmo de clsteres
  • Diapositiva 17
  • Taller de Inteligencia de Negocios Por ejemplo, puede discernir lgicamente que las personas que se desplazan a sus trabajos en bicicleta no viven, por lo general, a gran distancia de sus centros de trabajo. Sin embargo, el algoritmo puede encontrar otras caractersticas que no son evidentes acerca de los trabajadores que se desplazan en bicicleta. Algoritmo de clsteres
  • Diapositiva 18
  • Taller de Inteligencia de Negocios Se diferencia de otros algoritmos de minera de datos, como el algoritmo de rboles de decisin, en que no se tiene que designar una columna de prediccin para generar un modelo de agrupacin en clsteres. El algoritmo de clsteres entrena el modelo de forma estricta a partir de las relaciones que existen en los datos y de los clsteres que identifica el algoritmo. Ejemplo Considere un grupo de personas que comparten informacin demogrfica similar y que adquieren productos similares de la empresa. Este grupo de personas representa un clster de datos. En una base de datos pueden existir varios clsteres como stos. Mediante la observacin de las columnas que forman un clster, puede ver con mayor claridad la forma en que los registros de un conjunto de datos se relacionan entre s.. Algoritmo de clsteres
  • Diapositiva 19
  • Taller de Inteligencia de Negocios Algoritmo de clsteres
  • Diapositiva 20
  • Taller de Inteligencia de Negocios Es una variacin del algoritmo de rboles de decisin que ayuda a calcular una relacin lineal entre una variable independiente y otra dependiente y, a continuacin, utilizar esa relacin para la prediccin. Algoritmo de regresin lineal
  • Diapositiva 21
  • Taller de Inteligencia de Negocios La relacin toma la forma de una ecuacin para la lnea que mejor represente una serie de datos. Cada punto de datos tiene un error asociado con su distancia con respecto a la lnea de regresin. Los coeficientes a y b de la ecuacin de regresin (y=a+bx) ajustan el ngulo y la ubicacin de la recta de regresin. Hay otros tipos de regresin que utilizan varias variables y tambin hay mtodos no lineales de regresin. Sin embargo, la regresin lineal es un mtodo til y conocido para modelar una respuesta a un cambio de algn factor subyacente.. Algoritmo de regresin lineal
  • Diapositiva 22
  • Taller de Inteligencia de Negocios 1. Crear una conexin a AdventureWorksDW2008R2 Ejercicios de Minera de Datos
  • Diapositiva 23
  • Taller de Inteligencia de Negocios 2. Crear una vista al DataSource creado previamente que incluya la tabla: ProspectiveBuyer(dbo). Posteriormente puede explorar el contenido de los datos de la tabla. Ejercicios de Minera de Datos
  • Diapositiva 24
  • Taller de Inteligencia de Negocios 3. Construir un modelo de Minera de Datos usando la tcnica: Microsoft Decision Trees. Ejercicios de Minera de Datos
  • Diapositiva 25
  • Taller de Inteligencia de Negocios 4. Seleccionar la vista al origen de datos definida en el paso 2. Especifique la tabla y el tipo (Escenario) que ser usada para el anlisis. Especifique los campos: -De entrada: Gender, Maritalstatus, Numberchildrenathome, Stateprovincecode, occupation, -A predecir: NumbercarsOwned -Clave: ProspectAlternateKey Ejercicios de Minera de Datos
  • Diapositiva 26
  • Taller de Inteligencia de Negocios Datos para el modelo Decision trees Ejercicios de Minera de Datos
  • Diapositiva 27
  • Taller de Inteligencia de Negocios 5. Determinar el contenido y el tipo de datos seleccionados en el paso anterior: Ejercicios de Minera de Datos
  • Diapositiva 28
  • Taller de Inteligencia de Negocios 6. Se debe especificar la cantidad o porcentaje de datos de prueba para correr el modelo (default 30%). Puede elegir tambin el nmero de casos para la prueba. Ejercicios de Minera de Datos
  • Diapositiva 29
  • Taller de Inteligencia de Negocios 7. Se ingresan detalles finales del modelo de minera de datos. Ejercicios de Minera de Datos
  • Diapositiva 30
  • Taller de Inteligencia de Negocios 8. Implementamos el modelo de minera de datos. Ejercicios de Minera de Datos
  • Diapositiva 31
  • Taller de Inteligencia de Negocios 8. Observe las probabilidades de ocurrencia para la variable a predecir (Number cars owned). Ejercicios de Minera de Datos