Taller de Inteligencia de Negocios SQL Server Analysis Services
Data Mining Semana 11
Diapositiva 2
Taller de Inteligencia de Negocios Heterogeneous data sources
End-to-End BI Offering END USER TOOLS AND PERFORMANCE MANAGEMENT
APPS Excel PerformancePoint Server BI PLATFORM SQL Server Reporting
Services SQL Server Reporting Services SQL Server Analysis Services
SQL Server Analysis Services SQL Server DBMS SQL Server Integration
Services SharePoint Server DELIVERY Reports Dashboards Excel
Workbooks Excel Workbooks Analytic Views Analytic Views Scorecards
Plans
Diapositiva 3
Taller de Inteligencia de Negocios Ayudan a identificar
patrones en los datos, que le permiten determinar las razones por
las que suceden las cosas, y a crear reglas y recomendaciones, con
las que puede predecir lo que ocurrir en el futuro. No es necesario
crear un almacn de datos para realizar la minera de datos; puede
usar datos tabulares de proveedores externos, hojas de clculo e
incluso archivos de texto. Tambin puede minar con facilidad cubos
OLAP creados en Analysis Services. Minera de Datos
Diapositiva 4
Taller de Inteligencia de Negocios Utiliza el anlisis matemtico
para deducir los patrones y tendencias que existen en los datos.
Normalmente, estos patrones no se pueden detectar mediante la
exploracin tradicional de los datos porque las relaciones son
demasiado complejas o porque hay demasiados datos. Los modelos de
minera de datos se pueden aplicar a situaciones empresariales como
las siguientes: Predecir ventas Dirigir correo a clientes
especficos Determinar los productos que se pueden vender juntos
Buscar secuencias en el orden en que los clientes agregan productos
a una cesta de compra Minera de Datos
Diapositiva 5
Taller de Inteligencia de Negocios Cada proyecto de minera de
datos contiene los cuatro tipos siguientes de objetos: orgenes de
datos; vistas del origen de datos, que se basan en los orgenes de
datos; estructuras de minera de datos, que definen cmo se utilizan
los datos en el modelo; y modelos de minera de datos, que crean y
almacenan los patrones. Minera de Datos
Diapositiva 6
Taller de Inteligencia de Negocios Es un conjunto de clculos y
reglas heursticas que permite crear un modelo de minera de datos a
partir de los datos. Para crear un modelo, el algoritmo analiza
primero los datos proporcionados, en busca de tipos especficos de
patrones o tendencias. El algoritmo usa los resultados de este
anlisis para definir los parmetros ptimos para la creacin del
modelo de minera de datos. A continuacin, estos parmetros se
aplican en todo el conjunto de datos para extraer patrones
procesables y estadsticas detalladas. Algoritmos de Minera de
Datos
Diapositiva 7
Taller de Inteligencia de Negocios Analysis Services incluye
los siguientes tipos de algoritmos: Algoritmos de clasificacin, que
predicen una o ms variables discretas, basndose en otros atributos
del conjunto de datos. Algoritmos de regresin, que predicen una o
ms variables continuas, como las prdidas o los beneficios, basndose
en otros atributos del conjunto de datos. Algoritmos de
segmentacin, que dividen los datos en grupos, o clsteres, de
elementos que tienen propiedades similares. Algoritmos de
asociacin, que buscan correlaciones entre diferentes atributos de
un conjunto de datos. La aplicacin ms comn de esta clase de
algoritmo es la creacin de reglas de asociacin, que pueden usarse
en un anlisis de la cesta de compra. Algoritmos de Minera de
Datos
Diapositiva 8
Taller de Inteligencia de Negocios Analysis Services incluye
los siguientes tipos (continuacin): Algoritmos de anlisis de
secuencias, que resumen secuencias o episodios frecuentes en los
datos, como un flujo de rutas web. La minera de datos le permite
generar varios modelos en una nica estructura de minera de datos,
por lo que en una solucin de minera de datos puede usar un
algoritmo de clsteres, un modelo de rboles de decisin y un modelo
de Bayes nave para obtener distintas vistas de los datos. Tambin
puede usar varios algoritmos dentro de una nica solucin para
realizar tareas independientes: por ejemplo, podra usar la regresin
para obtener predicciones financieras, y un algoritmo de red
neuronal para realizar un anlisis de los factores que influyen en
las ventas. Algoritmos de Minera de Datos
Diapositiva 9
Taller de Inteligencia de Negocios La tabla siguiente
proporciona sugerencias para los tipos de tareas para las que se
usa normalmente cada algoritmo. Eleccin de Algoritmo por tarea
Diapositiva 10
Taller de Inteligencia de Negocios Analysis Services Ver Videos
sobre el tema:
Diapositiva 11
Taller de Inteligencia de Negocios Analysis Services Anexo
Modelos de Minera de Datos
Diapositiva 12
Taller de Inteligencia de Negocios Es un algoritmo de
clasificacin y regresin proporcionado por SSAS para el modelado de
prediccin de atributos discretos y continuos. Para los atributos
discretos, el algoritmo hace predicciones basndose en las
relaciones entre las columnas de entrada de un conjunto de datos.
Especficamente, el algoritmo identifica las columnas de entrada que
se correlacionan con la columna de prediccin. Por ejemplo, en un
escenario para predecir qu clientes van a adquirir probablemente
una bicicleta, si nueve de diez clientes jvenes compran una
bicicleta, pero solo lo hacen dos de diez clientes de edad mayor,
el algoritmo infiere que la edad es un buen elemento de prediccin
en la compra de bicicletas. rboles de decisin de Microsoft
Diapositiva 13
Taller de Inteligencia de Negocios Para los atributos
continuos, el algoritmo usa la regresin lineal para determinar dnde
se divide un rbol de decisin. Si se define ms de una columna como
elemento de prediccin, el algoritmo genera un rbol de decisin
independiente para cada columna de prediccin. Ejemplo Marketing
desea identificar las caractersticas de los clientes antiguos que
indicarian si es probable que realicen alguna compra futura. El DB
almacena informacin demogrfica. Mediante los rboles de decisiones
que analizan esta informacin, Marketing puede generar un modelo que
predice si un cliente va a comprar productos, basndose en el estado
de las columnas conocidas sobre ese cliente, como la demografa o
los patrones de compra anteriores. rboles de decisin de
Microsoft
Diapositiva 14
Taller de Inteligencia de Negocios El algoritmo genera un
modelo mediante la creacin de una serie de divisiones en el rbol.
El algoritmo agrega un nodo al modelo cada vez que una columna de
entrada tiene una correlacin significativa con la columna de
prediccin. La forma en que el algoritmo determina una divisin vara
en funcin de si predice una columna continua o una columna
discreta. El algoritmo utiliza la seleccin de caractersticas para
guiar la seleccin de los atributos ms tiles. Entre los mtodos que
se usan para determinar si hay que dividir el rbol figuran mtricas
estndar del sector para la entropa y las redes Bayesianas. rboles
de decisin de Microsoft
Diapositiva 15
Taller de Inteligencia de Negocios rboles de decisin de
Microsoft DiscretaContinua
Diapositiva 16
Taller de Inteligencia de Negocios Es un algoritmo de
segmentacin que utiliza tcnicas iterativas para agrupar los casos
de un conjunto de datos dentro de clsteres que contienen
caractersticas similares. Estas agrupaciones son tiles para la
exploracin de datos, la identificacin de anomalas en los datos y la
creacin de predicciones. Identifican las relaciones en un conjunto
de datos que no se podran derivar lgicamente a travs de la
observacin casual. Algoritmo de clsteres
Diapositiva 17
Taller de Inteligencia de Negocios Por ejemplo, puede discernir
lgicamente que las personas que se desplazan a sus trabajos en
bicicleta no viven, por lo general, a gran distancia de sus centros
de trabajo. Sin embargo, el algoritmo puede encontrar otras
caractersticas que no son evidentes acerca de los trabajadores que
se desplazan en bicicleta. Algoritmo de clsteres
Diapositiva 18
Taller de Inteligencia de Negocios Se diferencia de otros
algoritmos de minera de datos, como el algoritmo de rboles de
decisin, en que no se tiene que designar una columna de prediccin
para generar un modelo de agrupacin en clsteres. El algoritmo de
clsteres entrena el modelo de forma estricta a partir de las
relaciones que existen en los datos y de los clsteres que
identifica el algoritmo. Ejemplo Considere un grupo de personas que
comparten informacin demogrfica similar y que adquieren productos
similares de la empresa. Este grupo de personas representa un
clster de datos. En una base de datos pueden existir varios
clsteres como stos. Mediante la observacin de las columnas que
forman un clster, puede ver con mayor claridad la forma en que los
registros de un conjunto de datos se relacionan entre s.. Algoritmo
de clsteres
Diapositiva 19
Taller de Inteligencia de Negocios Algoritmo de clsteres
Diapositiva 20
Taller de Inteligencia de Negocios Es una variacin del
algoritmo de rboles de decisin que ayuda a calcular una relacin
lineal entre una variable independiente y otra dependiente y, a
continuacin, utilizar esa relacin para la prediccin. Algoritmo de
regresin lineal
Diapositiva 21
Taller de Inteligencia de Negocios La relacin toma la forma de
una ecuacin para la lnea que mejor represente una serie de datos.
Cada punto de datos tiene un error asociado con su distancia con
respecto a la lnea de regresin. Los coeficientes a y b de la
ecuacin de regresin (y=a+bx) ajustan el ngulo y la ubicacin de la
recta de regresin. Hay otros tipos de regresin que utilizan varias
variables y tambin hay mtodos no lineales de regresin. Sin embargo,
la regresin lineal es un mtodo til y conocido para modelar una
respuesta a un cambio de algn factor subyacente.. Algoritmo de
regresin lineal
Diapositiva 22
Taller de Inteligencia de Negocios 1. Crear una conexin a
AdventureWorksDW2008R2 Ejercicios de Minera de Datos
Diapositiva 23
Taller de Inteligencia de Negocios 2. Crear una vista al
DataSource creado previamente que incluya la tabla:
ProspectiveBuyer(dbo). Posteriormente puede explorar el contenido
de los datos de la tabla. Ejercicios de Minera de Datos
Diapositiva 24
Taller de Inteligencia de Negocios 3. Construir un modelo de
Minera de Datos usando la tcnica: Microsoft Decision Trees.
Ejercicios de Minera de Datos
Diapositiva 25
Taller de Inteligencia de Negocios 4. Seleccionar la vista al
origen de datos definida en el paso 2. Especifique la tabla y el
tipo (Escenario) que ser usada para el anlisis. Especifique los
campos: -De entrada: Gender, Maritalstatus, Numberchildrenathome,
Stateprovincecode, occupation, -A predecir: NumbercarsOwned -Clave:
ProspectAlternateKey Ejercicios de Minera de Datos
Diapositiva 26
Taller de Inteligencia de Negocios Datos para el modelo
Decision trees Ejercicios de Minera de Datos
Diapositiva 27
Taller de Inteligencia de Negocios 5. Determinar el contenido y
el tipo de datos seleccionados en el paso anterior: Ejercicios de
Minera de Datos
Diapositiva 28
Taller de Inteligencia de Negocios 6. Se debe especificar la
cantidad o porcentaje de datos de prueba para correr el modelo
(default 30%). Puede elegir tambin el nmero de casos para la
prueba. Ejercicios de Minera de Datos
Diapositiva 29
Taller de Inteligencia de Negocios 7. Se ingresan detalles
finales del modelo de minera de datos. Ejercicios de Minera de
Datos
Diapositiva 30
Taller de Inteligencia de Negocios 8. Implementamos el modelo
de minera de datos. Ejercicios de Minera de Datos
Diapositiva 31
Taller de Inteligencia de Negocios 8. Observe las
probabilidades de ocurrencia para la variable a predecir (Number
cars owned). Ejercicios de Minera de Datos