42
Universidad Nacional Federico Villarreal Facultad de ingeniería industrial y de sistemas Escuela de ingeniería de sistema Gestión del Conocimiento Alumnos: Chihuan Omonte Kevin Ruben Oscco Buendía Juan Pablo Quispe Oscco Alin Aymara Huallpa Mijail Chauca Ventura, Victor Docente: Ing. Cachay Tema: Conocimiento y Minería de Datos Lima-Perú 2015

Tema01_Grupo07_Conocimiento y Minería de Datos

Embed Size (px)

DESCRIPTION

Conocimiento

Citation preview

Page 1: Tema01_Grupo07_Conocimiento y Minería de Datos

Universidad Nacional Federico Villarreal

Facultad de ingeniería industrial y de sistemas

Escuela de ingeniería de sistema

Gestión del ConocimientoAlumnos:

Chihuan Omonte Kevin Ruben Oscco Buendía Juan Pablo Quispe Oscco Alin Aymara Huallpa Mijail Chauca Ventura, Victor

Docente: Ing. Cachay

Tema: Conocimiento y Minería de Datos

Lima-Perú

2015

Page 2: Tema01_Grupo07_Conocimiento y Minería de Datos

CONTENIDO:

INTRODUCCIÓN-------------------------------------------------------------------------------------------------------3

1. CONOCIMIENTO---------------------------------------------------------------------------------------------------4

1.1. LOS TRES NIVELES DEL CONOCIMIENTO.--------------------------------------------------------------4

1.1.1. Conocimiento sensible--------------------------------------------------------------------------------4

1.1.2. Conocimiento conceptual----------------------------------------------------------------------------4

1.1.3. Conocimiento holístico-------------------------------------------------------------------------------5

1.2. TIPOS DE CONOCIMIENTO---------------------------------------------------------------------------------5

1.2.1. Tipos de conocimiento--------------------------------------------------------------------------------5

2. MINERÍA DE DATOS----------------------------------------------------------------------------------------------11

2.1. CONCEPTOS GENERALES---------------------------------------------------------------------------------11

2.2. FUNDAMENTOS DEL DATA MINING-------------------------------------------------------------------11

2.3. PROCESOS DATA MINING--------------------------------------------------------------------------------12

2.3.1. Determinación de los objetivos.------------------------------------------------------------------12

2.3.2. Pre procesamiento de los datos.-----------------------------------------------------------------12

2.3.3. Determinación del modelo.------------------------------------------------------------------------12

2.3.4. Análisis de los Resultados.-------------------------------------------------------------------------12

2.4. CARACTERÍSTICAS DE LA MINERÍA DE DATOS-------------------------------------------------------13

2.5. VENTAJAS DE LA MINERÍA DE DATOS-----------------------------------------------------------------13

2.6. TÉCNICAS EN DATA MINING----------------------------------------------------------------------------14

2.6.1. Algoritmo de clústeres------------------------------------------------------------------------------14

2.6.2. Algoritmo de asociación----------------------------------------------------------------------------14

2.6.3. Algoritmo de árbol de decisión-------------------------------------------------------------------15

2.6.4. Algoritmo de Red Neuronal------------------------------------------------------------------------16

2.6.5. Algoritmo Bayes Naive------------------------------------------------------------------------------16

2.7. ESTRUCTURA DE MINERÍA DE DATOS-----------------------------------------------------------------17

2.8. EL ALCANCE DE DATA MINING--------------------------------------------------------------------------18

2.9. ARQUITECTURA DE MINERÍA DE DATOS-------------------------------------------------------------19

2.9.1 Procesamiento de objetos del modelo multidimensional.----------------------------------19

2.9.2. Conectar a analysis services-----------------------------------------------------------------------22

2.9.3. Ubicación de almacenamiento de las bases de datos.-------------------------------------22

2.9.4. Cambiar entre los modos readonily y readwrite en una base de datos de analysis services.---------------------------------------------------------------------------------------------------------23

2.10. HERRAMIENTAS DE SOFTWARE DEL DATA MINING---------------------------------------------24

Page 3: Tema01_Grupo07_Conocimiento y Minería de Datos

CONCLUSIONES------------------------------------------------------------------------------------------------------28

Page 4: Tema01_Grupo07_Conocimiento y Minería de Datos

INTRODUCCIÓN

Distintos enfoques tratan el estudio de los activos intangibles, principalmente por dos razones. Por una parte, por las implicaciones que la naturaleza de estos activos tienen en la ventaja competitiva de las empresas. Por otra parte, porque todavía quedan cuestiones por resolver en cuanto a su gestión y valoración. En este papel nos centramos en el estudio de uno de los activos intangibles clave para la organización: el conocimiento.

La importancia del conocimiento como un recurso valioso para la empresa es un argumento que ha ido cobrando progresivamente un mayor interés en la literatura sobre dirección de empresas. En este sentido, varios autores apuntan una serie de razones que destacan la importancia de este activo y las implicaciones que tiene su naturaleza y gestión para las organizaciones.

Page 5: Tema01_Grupo07_Conocimiento y Minería de Datos

1. CONOCIMIENTO

Tradicionalmente se ha presentado el conocimiento como algo específico del hombre en relación con la “creencia” en la existencia del alma racional que hace posible intuir la realidad como verdad.

El conocimiento suele entenderse como:

Hechos o información adquiridos por un ser vivo a través de la experiencia o la educación, la comprensión teórica o práctica de un asunto referente a la realidad.

Conciencia o familiaridad adquirida por la experiencia de un hecho o situación.

No existe una única definición de "Conocimiento". Sin embargo existen muchas perspectivas desde las que se puede considerar el conocimiento, siendo la consideración de su función y fundamento, un problema histórico de la reflexión filosófica y de la ciencia. La rama de la filosofía que estudia el conocimiento es la epistemología o teoría del conocimiento. La teoría del conocimiento estudia las posibles formas de relación entre el sujeto y el objeto. Se trata por lo tanto del estudio de la función del entendimiento propia de la persona.

La gestión del conocimiento (del inglés knowledge management) es un concepto aplicado en las organizaciones. Tiene el fin de transferir el conocimiento desde el lugar dónde se genera hasta el lugar en dónde se va a emplear e implica el desarrollo de las competencias necesarias al interior de las organizaciones para compartirlo y utilizarlo entre sus miembros, así como para valorarlo y asimilarlo si se encuentra en el exterior de estas.

1.1. LOS TRES NIVELES DEL CONOCIMIENTO.

El ser humano puede captar un objeto en tres diferentes niveles, sensible, conceptual y holístico.

1.1.1. Conocimiento sensibleEl conocimiento sensible consiste en captar un objeto por medio de los sentidos; tal es el caso de las imágenes captadas por medio de la vista. Gracias a ella podemos almacenar en nuestra mente las imágenes de las cosas, con color, figura y dimensiones. Los ojos y los oídos son los principales sentidos utilizados por el ser humano. Los animales han desarrollado poderosamente el olfato y el tacto.

1.1.2. Conocimiento conceptualEl conocimiento conceptual, que consiste en representaciones invisibles, inmateriales, pero universales y esenciales. La principal diferencia entre el nivel sensible y el conceptual reside en la singularidad y universalidad que caracteriza, respectivamente, a estos dos tipos de conocimiento. El conocimiento sensible es singular y el conceptual es universal.

1.1.3. Conocimiento holístico

El conocimiento holístico (también llamado intuitivo, con el riesgo de muchas confusiones, dado que la palabra intuición se ha utilizado hasta para hablar de premoniciones y corazonadas). En este nivel tampoco hay colores, dimensiones ni estructuras universales como

Page 6: Tema01_Grupo07_Conocimiento y Minería de Datos

es el caso del conocimiento conceptual. Intuir un objeto significa captarlo dentro de un amplio contexto, como elemento de una totalidad, sin estructuras ni límites definidos con claridad. La palabra holístico se refiere a esta totalidad percibida en el momento de la intuición (holos significa totalidad en griego).

12 .TIPOS DE CONOCIMIENTO

Vulgar

Se conoce bajo este nombre a aquel conocimiento que ha sido adquirido a partir de lo que otras personas han transmitido, de generación en generación, o bien, a partir del contacto directo que la persona establezca con el fenómeno del que se tiene conocimiento. Entre otras cosas, el conocimiento vulgar se caracteriza por ser superficial, ya que no se conoce a la cuestión de manera profunda o completa. También, es un conocimiento sensitivo puesto que no persigue establecer relaciones causales entre los distintos fenómenos que se hagan presentes. También se trata de un conocimiento subjetivo ya que se encuentra condicionado por la persona que lo observa, es decir, depende de la percepción que este tenga sobre los hechos, sin ningún fundamento científico que lo abale o guíe.

Además, no son conocimientos que han sido comprobados o verificados científicamente, ni tampoco se encuentran organizados de manera sistemática. Por otro lado, algunos lo definen como un conocimiento dogmático, ya que se encuentra limitado a las creencias y explicaciones que la persona haya elegido otorgarle. Por último, el conocimiento vulgar suele ser poco preciso, ya que las descripciones y definiciones de quien lo formula son poco exactas.

Científico

Este tipo de conocimiento, en cambio, sí busca establecer relaciones para así conformar un sistema entre los distintos saberes en torno a un tema específico. Para ello, la persona que almacena los saberes ha recurrido a mecanismos que permitan validarlos, como lo son los razonamientos, la reflexión o los métodos de indagación de cualquier especie. Este conocimiento, entonces, se define por ser fáctico puesto que parte de los hechos, los analiza, y vuelve a ellos para corroborar las conclusiones obtenidas. Además, es un conocimiento que persigue la objetividad, por lo que los saberes están lo menos posiblemente afectados por la ideología, creencias o emociones de quienes lo abordan.

Otra característica del conocimiento científico es que parte de casos particulares a los que analiza en profundidad, para luego establecer leyes generales, aplicables a todos los fenómenos que se le asemejen. También es un conocimiento acumulativo, puesto que se vale de saberes previos para ir avanzando e incrementando los nuevos conocimientos. Esto también hace que sea un conocimiento progresivo, ya que el hecho de ir avanzando en nuevos saberes e ir confrontándolos con la realidad permite eliminar o corregir conclusiones previas, cuando estas dejen de ser válidas. La racionalidad es otro rasgo esencial del conocimiento científico, puesto que lo que se intenta es explicar, a partir del análisis los fenómenos abordados, y no simplemente describirlos. Por último, el conocimiento racional también es un conocimiento verificable, generalmente por medio de la experiencia.

Page 7: Tema01_Grupo07_Conocimiento y Minería de Datos

Intuitivo

De acuerdo con el filósofo Locke, el conocimiento intuitivo es aquel que no requiere de ninguna mediación ni interferencia para alcanzarlo. En vez de esto, requiere que se tengan en cuenta dos ideas y percibir de forma inmediata si existe o no un acuerdo entre ambas, sin que surja duda alguna, por lo que se convierte en el conocimiento más seguro de todos.

Demostrativo

A diferencia del conocimiento anterior, el demostrativo sí requiere de ideas mediadoras a la hora de determinar si existe o no un acuerdo entre dos ideas. De esta forma, se lo podría definir, de acuerdo a Locke, como una serie de intuiciones que permitirían demostrar el acuerdo o no entre las ideas a lo largo de un determinado proceso discursivo. El conocimiento matemático, que depende de una serie de axiomas evidentes que interfieren, es un claro ejemplo.

Sensible

Por medio de este conocimiento, según Locke, es que se puede tener conocimiento de lo que se denominan existencias individuales, tal como ocurre, por ejemplo, con el sol, y que se encuentran más allá de las ideas que puedan tener las personas.

Artístico

Este tipo de conocimiento es el que les permite a las personas no sólo tener una representación abstracta de los sentimientos, emociones o pensamientos. Sino que también es el conocimiento que permite a las personas comunicar dichas representaciones y no sus sensaciones puesto que estas son incomunicables por sí solas.

Formales

Estos son los conocimientos que se desarrollan sin tener como base material alguno. En vez de esto, cuentan con estructuras lógicas en las que se establecen relaciones lógicas compuestas por símbolos que carecen de cualquier tipo de significado.

Materiales

A diferencia de los conocimientos formales, los materiales aluden a un determinado fenómeno o material del cual transmiten una serie de datos e informaciones. Estos conocimientos pueden ser de dos formas: axiomáticos, cuando están compuestos por explicaciones de causas finales a priori como si fueran verdaderas. Por otro lado el conocimiento descriptivo, que es aquel que enuncia relaciones causales que se establecen entre dos o más conceptos.

Empírico

Este se caracteriza por ser prácticamente consecuencia de la experiencia, por lo que los contenidos conceptuales en torno a los fenómenos abordados son sumamente escasos, a veces como consecuencia de la dificultad de expresarlos con conceptos. Por lo general, el conocimiento empírico es el que se relaciona con las emociones o sentimientos que una persona puede atravesar.

A posteriori

Este conocimiento es la consecuencia de la experiencia. Es decir que, a partir de esta es que se formulan los razonamientos y los conceptos en torno a un determinado fenómeno abordado.

Page 8: Tema01_Grupo07_Conocimiento y Minería de Datos

A priori

También conocido bajo el nombre de analítico, este conocimiento se caracteriza por contener información lógica debido a que justamente la relación que se establece entre los conceptos en torno a un fenómeno es de tipo lógica. Esto significa que es un conocimiento que se formula independientemente de la experiencia.

CONCEPTOS DE MINERÍA DE DATOS

La minería de datos o exploración de datos es un campo de las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos.

Utiliza los métodos de la inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos. El objetivo general del proceso de minería de datos consiste en extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. Además de la etapa de análisis en bruto, que involucra aspectos de bases de datos y de gestión de datos, de procesamiento de datos, del modelo y de las consideraciones de inferencia, de métricas de Intereses, de consideraciones de la Teoría de la complejidad computacional, de post-procesamiento de las estructuras descubiertas, de la visualización y de la actualización en línea.

El término es una palabra de moda, y es frecuentemente mal utilizado para referirse a cualquier forma de datos a gran escala o procesamiento de la información (recolección, extracción, almacenamiento, análisis y estadísticas), pero también se ha generalizado a cualquier tipo de sistema de apoyo informático decisión, incluyendo la inteligencia artificial, aprendizaje automático y la inteligencia empresarial. En el uso de la palabra, el término clave es el descubrimiento, comúnmente se define como "la detección de algo nuevo". Incluso el popular libro "La minería de datos: sistema de prácticas herramientas de aprendizaje y técnicas con Java" (que cubre todo el material de aprendizaje automático) originalmente iba a ser llamado simplemente "la máquina de aprendizaje práctico", y el término "minería de datos" se añadió por razones de marketing. A menudo, los términos más generales "(gran escala) el análisis de datos", o "análisis" -. o cuando se refiere a los métodos actuales, la inteligencia artificial y aprendizaje automático, son más apropiados.

Los términos relacionados con la obtención de datos, la pesca de datos y espionaje de los datos se refieren a la utilización de métodos de minería de datos a las partes de la muestra de un conjunto de datos de población más grandes establecidas que son (o pueden ser) demasiado pequeñas para las inferencias estadísticas fiables que se hizo acerca de la validez de cualquier patrón descubierto. Estos métodos pueden, sin embargo, ser utilizados en la creación de nuevas hipótesis que se prueban contra poblaciones de datos más grandes.

Normalmente, estos patrones no se pueden detectar mediante la exploración tradicional de los datos porque las relaciones son demasiado complejas o porque hay demasiado datos..

Estos patrones y tendencias se pueden recopilar y definir como un modelo de minería de datos.Los modelos de minería de datos se pueden aplicar en escenarios como los siguientes:

• Previsión: calcular las ventas y predecir las cargas de servidor o el tiempo de inactividad del servidor.

Page 9: Tema01_Grupo07_Conocimiento y Minería de Datos

• Riesgo y probabilidad: elegir los mejores clientes para la distribución de correo directo, determinar el punto de equilibrio probable para los escenarios de riesgo, y asignat probabilidades a diagnósticos u otros resultados.

• Recomendaciones: determinar los productos que se pueden vender juntos y generar recomendaciones.

• Buscar secuencias: analizar los artículos que los clientes han introducido en el carrito de compra y predecir los posibles eventos.

• Agrupación: separar los clientes o los eventos en clústeres de elementos relacionados, y analizar y predecir afinidades

Características

• Explorar los datos se encuentran en las profundidades de las bases de datos, como los almacenes de datos, que algunas veces contienen información almacenada durante varios años.

• En algunos casos, los datos se consolidan en un almacén de datos y en mercados de datos; en otros, se mantienen en servidores de Internet e Intranet. El entorno de la minería de datos suele tener una arquitectura cliente/servidor.

• Las herramientas de la minería de datos ayudan a extraer el mineral de la información enterrado en archivos corporativos o en registros públicos, archivados

• El minero es, muchas veces un usuario final con poca o ninguna habilidad de programación, facultado por barrenadoras de datos y otras poderosas herramientas indagatorias para efectuar preguntas adhoc y obtener rápidamente respuestas.

• Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e inesperados.

• Las herramientas de la minería de datos se combinan fácilmente y pueden analizarse y procesarse rápidamente.

• Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minería de datos.

Page 10: Tema01_Grupo07_Conocimiento y Minería de Datos

2 .- PROCESO DE MIENERÍA DE DATOS

Determinación de los objetivos:

Trata de la delimitación de los objetivos que el cliente desea bajo la orientación del especialista en minería de datos.

2.1. Pre procesamiento de los datos.

Se refiere a la selección, la limpieza, el enriquecimiento, la reducción y la transformación de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de minería de datos.

2.3 Diseño del modelo.

Se comienza realizando unos análisis estadísticos de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial.

2.4. Análisis y determinación de los Resultados.

Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los análisis estadísticos y de visualización gráfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.

Etapas

1.- Selección del conjunto de datos, tanto en lo que se refiere a las variables objetivo (aquellas que se quiere predecir, calcular o inferir), como a las variables independientes (las que sirven para hacer el cálculo o proceso), como posiblemente al muestreo de los registros disponibles.

2. Transformación o pre procesamiento: en éste paso, se normalizan los datos a una misma escala. También se decide cómo se van a tratar datos faltantes, atípicos o dudosos. Una posibilidad es tratarlos como un tipo de dato especial o bien se decide descartarlos.

3. Selección y aplicación de técnicas de minería de datos: se construye un modelo, el cual será utilizado sobre los datos para predecir las clases mediante clasificación o para descubrir grupos similares mediante segmentación.

Técnicas predictivas : Enfocada a la modelización , se especifica un modelo basado en un conocimiento teórico previo , se puede incluir análisis de varianza, árboles de decision etc.

Técnicas descriptiva : No existe un modelo previo, los modelos se crean automáticamente partiendo de patrones.

Page 11: Tema01_Grupo07_Conocimiento y Minería de Datos

4. Extracción de conocimiento: una vez aplicado el paso anterior, se buscan patrones de comportamiento en los valores de las variables del problema o relaciones de asociación entre dichas variables.

5. Interpretación y evaluación de datos: el modelo debe ser validado comprobando que las conclusiones arrojadas son válidas y satisfactorias. Si el modelo final no supera ésta evaluación, el proceso puede repetirse desde el principio o a partir de cualquiera de los pasos anteriores.

************

4. Técnicas de DataMining:

Las técnicas utilizadas para la Minería de Datos son básicamente los algoritmos para el análisis de datos; asociaciadas a redes neuronales, arboles de decisión, regresión lineal, regresión logística, modelos estadísticos y redes bayesianas.

4.1 Algoritmo de Asociación:

Los modelos de asociación se generan basándose en conjuntos de datos que contienen identificadores para casos individuales y para los elementos que contienen los casos. Un grupo de elementos de un caso se denomina un conjunto de elementos. Un modelo de asociación se compone de una serie de conjuntos de elementos y de las reglas que describen cómo estos elementos se agrupan dentro de los casos. Las reglas que el algoritmo identifica pueden utilizarse para predecir las probables compras de un cliente en el futuro, basándose en los elementos existentes en la cesta de compra actual del cliente. El siguiente diagrama muestra una serie de reglas en un conjunto de elementos.

Como muestra el diagrama, el algoritmo de asociación puede encontrar potencialmente muchas reglas dentro de un conjunto de datos. El algoritmo usa dos parámetros, soporte y probabilidad, para describir los conjuntos de elementos y las reglas que genera. Por ejemplo, si X e Y representan dos elementos que podrían estar en un carro de la compra, el parámetro de soporte es el número de casos en el conjunto de datos que contienen la combinación de elementos, X e Y. Utilizando el parámetro de soporte en combinación con los parámetros definidos por el usuario, MINIMUM_SUPPORT y MAXIMUM_SUPPORT, el algoritmo controla el número de conjuntos de elementos que se generan. El parámetro de probabilidad, también denominado confianza, representa la fracción de casos en el conjunto de datos que contienen X y que también contienen Y. Utilizando el parámetro de probabilidad en combinación con el parámetro MINIMUM_PROBABILITY, el algoritmo controla el número de reglas que se generan.

EjemploLa empresa Adventure Works Cycle está rediseñando la funcionalidad de su sitio web.El objetivo del nuevo diseño es incrementar la venta directa de sus productos. Debido a que la

Page 12: Tema01_Grupo07_Conocimiento y Minería de Datos

empresa registra cada venta en una base de datos transaccional, se puede utilizar el algoritmo de asociación para identificar los conjuntos de productos que suelen adquirirse juntos. Así, se pueden predecir los elementos adicionales en los que un cliente puede estar interesado basándose en los elementos que ya se encuentran en su cesta de la compra.

Cómo funciona el algoritmoEl algoritmo de asociación recorre un conjunto de datos para hallar elementos que aparezcan juntos en un caso. A continuación, agrupa en conjuntos de elementos todos los elementos asociados que aparecen, como mínimo, en el número de casos especificado en el parámetro MINIMUM_SUPPORT. Por ejemplo, un conjunto de elementos puede ser "Mountain 200=Existing, Sport 100=Existing" y tener un soporte de 710.El algoritmo generará reglas a partir de los conjuntos de elementos. Estas reglas se usan para predecir la presencia de un elemento en la base de datos, basándose en la presencia de otros elementos específicos que el algoritmo ha identificado como importantes. Por ejemplo, una regla puede ser "if Touring 1000=existing and Road bottle cage=existing, then Water bottle=existing", y puede tener una probabilidad de 0.812.En este ejemplo, el algoritmo identifica que la presencia en la cesta del neumático Touring 1000 y del soporte de la botella de agua predice que probablemente la cesta de compra incluirá también una botella de agua.

4.2 Algoritmo de Clústeres:

El algoritmo utiliza técnicas iterativas para agrupar los casos de un conjunto de datos dentro de clústeres que contienen características similares. Estas agrupaciones son útiles para la exploración de datos, la identificación de anomalías en los datos y la creación de predicciones.Los modelos de agrupación en clústeres identifican las relaciones en un conjunto de datos que no se podrían derivar lógicamente a través de la observación casual. Por ejemplo, puede discernir lógicamente que las personas que se desplazan a sus trabajos en bicicleta no viven, por lo general, a gran distancia de sus centros de trabajo.Sin embargo, el algoritmo puede encontrar otras características que no son evidentes acerca de los trabajadores que se desplazan en bicicleta.En el siguiente diagrama, el clúster A representa los datos sobre las personas que suelen conducir hasta el trabajo, en tanto que el clúster B representa los datos sobre las personas que van hasta allí en bicicleta.

El algoritmo de clústeres se diferencia de otros algoritmos de minería de datos, como el algoritmo de árboles de decisión, en que no se tiene que designar una columna de predicción para generar un modelo de agrupación en clústeres.El algoritmo de clústeres entrena el modelo de forma estricta a partir de las relaciones que existen en los datos y de los clústeres que identifica el algoritmo.

EjemploConsidere un grupo de personas que comparten información demográfica similar y que adquieren productos similares de la empresa Adventure Works.Este grupo de personas representa un clúster de datos. En una base de datos pueden existir varios clústeres como

Page 13: Tema01_Grupo07_Conocimiento y Minería de Datos

éstos. Mediante la observación de las columnas que forman un clúster, puede ver con mayor claridad la forma en que los registros de un conjunto de datos se relacionan entre sí.

Cómo funciona el algoritmoEl algoritmo de clústeres identifica primero las relaciones de un conjunto de datos y genera una serie de clústeres basándose en ellas. Un gráfico de dispersión es una forma útil de representar visualmente el modo en que el algoritmo agrupa los datos, tal como se muestra en el siguiente diagrama. El gráfico de dispersión representa todos los casos del conjunto de datos; cada caso es un punto del gráfico. Los clústeres agrupan los puntos del gráfico e ilustran las relaciones que identifica el algoritmo.

Después de definir los clústeres, el algoritmo calcula el grado de perfección con que los clústeres representan las agrupaciones de puntos y, a continuación, intenta volver a definir las agrupaciones para crear clústeres que representen mejor los datos. El algoritmo establece una iteración en este proceso hasta que ya no es posible

mejorar los resultados mediante la redefinición de los clústeres.Puede personalizar el funcionamiento del algoritmo seleccionando una técnica de agrupación en clústeres, limitando el número máximo de clústeres o cambiando la cantidad de soporte que se requiere para crear un clúster.

4.3 Algoritmo de Árbol de Decisión:

Es un algoritmo de clasificación y regresión para el modelado de predicción de atributos discretos y continuos.Para los atributos discretos, el algoritmo hace predicciones basándose en las relaciones entre las columnas de entrada de un conjunto de datos.Utiliza los valores, conocidos como estados, de estas columnas para predecir los estados de una columna que se designa como elemento de predicción.Específicamente, el algoritmo identifica las columnas de entrada que se correlacionan con la columna de predicción.Por ejemplo, en un escenario para predecir qué clientes van a adquirir probablemente una bicicleta, si nueve de diez clientes jóvenes compran una bicicleta, pero solo lo hacen dos de diez clientes de edad mayor, el algoritmo infiere que la edad es un buen elemento de predicción en la compra de bicicletas.El árbol de decisión realiza predicciones basándose en la tendencia hacia un resultado concreto.Para los atributos continuos, el algoritmo usa la regresión lineal para determinar dónde se divide un árbol de decisión.Si se define más de una columna como elemento de predicción, o si los datos de entrada contienen una tabla anidada que se haya establecido como elemento de predicción, el algoritmo genera un árbol de decisión independiente para cada columna de predicción.

EjemploEl departamento de marketing de la empresa Adventure Works Cycles desea identificar las características de los clientes antiguos que podrían indicar si es probable que realicen alguna compra en el futuro. La base de datos AdventureWorks2012 almacena información demográfica que describe a los clientes antiguos. Mediante el algoritmo de árboles de decisión que analiza esta información, el departamento puede generar un modelo que predice si un determinado cliente va a comprar productos, basándose en el estado de las columnas conocidas sobre ese cliente, como la demografía o los patrones de compra anteriores.

Cómo funciona el algoritmo

Page 14: Tema01_Grupo07_Conocimiento y Minería de Datos

El algoritmo de árboles de decisión genera un modelo de minería de datos mediante la creación de una serie de divisiones en el árbol. Estas divisiones se representan como nodos. El algoritmo agrega un nodo al modelo cada vez que una columna de entrada tiene una correlación significativa con la columna de predicción. La forma en que el algoritmo determina una división varía en función de si predice una columna continua o una columna discreta.El algoritmo de árboles de decisión utiliza la selección de características para guiar la selección de los atributos más útiles. Todos los algoritmos de minería de datos de Analysis Services utilizan la selección de características para mejorar el rendimiento y la calidad del análisis. La selección de características es importante para evitar que los atributos irrelevantes utilicen tiempo de procesador. Si utiliza demasiados atributos de predicción o de entrada al diseñar un modelo de minería de datos, el modelo puede tardar mucho tiempo en procesarse o incluso quedarse sin memoria. Entre los métodos que se usan para determinar si hay que dividir el árbol figuran métricas estándar del sector para la entropía y las redes Bayesianas. Para obtener más información sobre los métodos que se usan para seleccionar los atributos significativos y, a continuación, puntuarlos y clasificarlos, vea Selección de características (minería de datos).Un problema común de los modelos de minería de datos es que el modelo se vuelve demasiado sensible a las diferencias pequeñas en los datos de entrenamiento, en cuyo caso se dice que está sobre ajustado o sobre entrenado. Un modelo sobre ajustado no se puede generalizar a otros conjuntos de datos. Para evitar sobre ajustar un conjunto de datos determinado, el algoritmo de árboles de decisión utiliza técnicas para controlar el crecimiento del árbol.

Predecir columnas discretasLa forma en que el algoritmo de árboles de decisión genera un árbol para una columna de predicción discreta puede mostrarse mediante un histograma. El siguiente diagrama muestra un histograma que traza una columna de predicción, Bike Buyers, según una columna de entrada, Age. El histograma muestra que la edad de una persona ayuda a distinguir si esa persona comprará una bicicleta.

La correlación que aparece en el diagrama hará que el algoritmo de árboles de decisión cree un nuevo nodo en el modelo.

Page 15: Tema01_Grupo07_Conocimiento y Minería de Datos

A medida que el algoritmo agrega nuevos nodos a un modelo, se forma una estructura en árbol. El nodo superior del árbol describe el desglose de la columna de predicción para la población global de clientes. A medida que el modelo crece, el algoritmo considera todas las columnas.

Predecir columnas continuasCuando el algoritmo de árboles de decisión genera un árbol basándose en una columna de predicción continua, cada nodo contiene una fórmula de regresión. Se produce una división en un punto de no linealidad de la fórmula de regresión. Por ejemplo, considere el siguiente diagrama.

El diagrama contiene los datos que pueden modelarse utilizando una sola línea o dos líneas conectadas.Sin embargo, una sola línea realizará un pobre trabajo en la representación de los datos.En su lugar, si se usan dos líneas, el modelo hará un mejor trabajo en la aproximación a los datos.El punto donde las dos líneas se unen es el punto de no linealidad y donde se dividiría un nodo de un modelo de árbol de decisión.Por ejemplo, el nodo que corresponde al punto de no linealidad del gráfico anterior podría representarse mediante el siguiente diagrama.Las dos ecuaciones representan las ecuaciones de regresión de las dos líneas.

4.4 Algoritmo de Red Neuronal

El algoritmo de red neuronal combina cada posible estado del atributo de entrada con cada posible estado del atributo de predicción, y usa los datos de entrenamiento para calcular las probabilidades. Posteriormente, puede usar estas probabilidades para la clasificación o la regresión, así como para predecir un resultado del atributo de predicción basándose en los atributos de entrada.

Page 16: Tema01_Grupo07_Conocimiento y Minería de Datos

Los modelos de minería de datos construidos con el algoritmo de red neuronal pueden contener varias redes, en función del número de columnas que se utilizan para la entrada y la predicción, o solo para la predicción. El número de redes que contiene un único modelo de minería de datos depende del número de estados que contienen las columnas de entrada y las columnas de predicción que utiliza el modelo.

EjemploEl algoritmo de red neuronal es útil para analizar datos de entrada complejos, como los datos de un proceso comercial o de producción, o problemas empresariales para los que hay una cantidad importante de datos de entrenamiento disponibles pero en los que no es fácil derivar reglas mediante otros algoritmos.Los casos sugeridos para utilizar el algoritmo de red neuronal son:

Análisis de comercialización y promoción, como medir el éxito de una promoción por correo directo o una campaña publicitaria en la radio.

Predecir los movimientos de las acciones, la fluctuación de la moneda u otra información financiera con gran número de cambios a partir de los datos históricos.

Analizar los procesos industriales y de producción. Minería de texto. Cualquier modelo de predicción que analice relaciones complejas entre muchas

entradas y relativamente pocas salidas.Cómo funciona el algoritmoEl algoritmo de red neuronal crea una red formada por hasta tres niveles de neuronas. Estas capas son una capa de entrada, una capa oculta opcional y una capa de salida.Nivel de entrada: las neuronas de entrada definen todos los valores de atributos de entrada para el modelo de minería de datos, así como sus probabilidades.Nivel oculto: las neuronas ocultas reciben entradas de las neuronas de entrada y proporcionan salidas a las neuronas de salida. El nivel oculto es donde se asignan pesos a las distintas probabilidades de las entradas. Un peso describe la relevancia o importancia de una entrada determinada para la neurona oculta. Cuanto mayor sea el peso asignado a una entrada, más importante será el valor de dicha entrada. Los pesos pueden ser negativos, lo que significa que la entrada puede desactivar, en lugar de activar, un resultado concreto.Nivel de salida: las neuronas de salida representan valores de atributo de predicción para el modelo de minería de datos.

4.5 Algoritmo de Bayes Nieve

El algoritmo Bayes naive es un algoritmo de clasificación basado en los teoremas de Bayes. La palabra naïve (ingenuo en inglés) del término Bayes naive proviene del hecho que el algoritmo utiliza técnicas Bayesianas pero no tiene en cuenta las dependencias que puedan existir.Desde el punto de vista computacional, el algoritmo es menos complejo que otros algoritmos y, por tanto, resulta útil para generar rápidamente modelos de minería de datos que detectan las relaciones entre las columnas de entrada y las columnas de predicción. Puede utilizar este

Page 17: Tema01_Grupo07_Conocimiento y Minería de Datos

algoritmo para realizar la exploración inicial de los datos y, más adelante, aplicar los resultados para crear modelos de minería de datos adicionales con otros algoritmos más complejos y precisos desde el punto de vista computacional.

EjemploComo parte de su estrategia promocional, el departamento de comercialización de la empresa Adventure Works Cycles ha decidido atraer a posibles clientes realizando un envío por correo de folletos. Para reducir costos, desean enviar los folletos solo a los clientes de los que esperan recibir respuesta. La empresa almacena información en una base de datos sobre datos demográficos y respuestas a envíos de correo anteriores. Desean utilizar estos datos para ver el modo en que los datos demográficos como la edad o la ciudad pueden ayudarles a predecir la respuesta a una promoción, comparando los clientes potenciales con los que tienen características similares y con los que han adquirido productos de la empresa en el pasado. En concreto, lo que desean es ver las diferencias entre los clientes que adquirieron una bicicleta y los que no lo hicieron.Mediante el algoritmo Bayes naive el departamento de comercialización pude predecir rápidamente un resultado de un perfil de cliente concreto y, por tanto, puede determinar qué clientes responderán a los folletos con más probabilidad. Con el Visor Bayes naive de SQL Server Data Tools (SSDT), también pueden investigar visualmente qué columnas de entrada específicas contribuyen a conseguir respuestas positivas a los folletos.

Funcionamiento del algoritmoEl algoritmo Bayes naive calcula la probabilidad de cada estado de cada columna de entrada, dado cada posible estado de la columna de predicción.Para comprender cómo funciona, utilice el Visor Bayes naive de SQL Server Data Tools (SSDT) (como se muestra en el siguiente gráfico) para consultar una representación visual del modo en que el algoritmo distribuye los estados.

Page 18: Tema01_Grupo07_Conocimiento y Minería de Datos

Aquí, el Visor Bayes naive muestra cada columna de entrada del conjunto de datos e indica cómo se distribuyen los estados de cada columna, dado cada estado de la columna de predicción.Esta vista del modelo se utilizaría para identificar las columnas de entrada que son importantes para diferenciar los distintos estados de la columna de predicción.Por ejemplo, en la fila Commute Distance que se muestra aquí, la distribución de valores de entrada es visiblemente diferente para los compradores en comparación con losno compradores.Esto indica que la entrada, Commute Distance = 0-1 miles, es un factor de predicción potencial.El visor también proporciona valores para las distribuciones, de modo que pueda ver que para los clientes que viajan entre una y dos millas para ir a trabajar, la probabilidad de que compren una bicicleta es de 0,387, y la probabilidad que no la compren es de 0,287.En este ejemplo, el algoritmo utiliza la información numérica, derivada de un dato de cliente (como la distancia entre el domicilio y el lugar de trabajo), para predecir si un cliente compraría una bicicleta.

4.6 Algoritmos Genéticos:

El algoritmo genético permite obtener soluciones a un problema que no tiene ningún método de resolución descrito de forma precisa, o cuya solución exacta, si es conocida, es demasiado complicada para ser calculada en un tiempo aceptable. Es el caso particular de cuando se

Page 19: Tema01_Grupo07_Conocimiento y Minería de Datos

encuentran restricciones múltiples y complejas, e incluso contradictorias, que deben ser satisfechas simultáneamente como, por ejemplo, para formar equipos de trabajo, planificar rondas de entregas, implantar puntos de venta de manera óptima, construir modelos estadísticos.Según el algoritmo genético, numerosas soluciones más o menos correctas inherentes a dicho problema son creadas al azar, según una forma ya definida: itinerario, horarios, base de reglas de decisión, evaluación por puntuación, red neuronal, etc. Cada solución será representada a través de una cadena de 0 y de 1 en cromosomas que se verán entonces sometidos a una imitación de la evolución de las especies: mutaciones y reproducción por hibridación. Al favorecer la supervivencia de los más aptos (las soluciones más correctas), se provoca la aparición de híbridos cada vez mejores que sus padres. La población inicial da paso de esta manera a generaciones sucesivas mutadas y procreadas por hibridación a partir de sus padres. Al despejar los elementos más aptos presión de la evolución se garantiza que las generaciones sucesivas serán cada vez más adaptadas a la resolución del problema. Este mecanismo sorprendente de clasificación ha sido validado matemáticamente con el rigor que le corresponde.El mecanismo de evolución y de selección es independiente del problema por resolver: sólo varían la función que descodifica el genotipo en una solución posible (cualquier tipo de descodificación tiene la posibilidad de ser utilizado de la manera más sencilla posible) y la función que evalúa la justeza de la solución (en el caso de los previsores probándolos en unas cuantas centenas de casos). Esta técnica es de aplicación general. El algoritmo genético puede aplicarse a la producción de una variedad de objetos mientras sea posible obtener una calificación que represente la justeza de la solución. En particular, es posible fabricar previsores estadísticos no a través de cálculos de datos como en la estadística clásica sino haciendo evolucionar los datos por algoritmo genético (inducción. Por problemas de clasificación o de segmentación, la justeza significa simple y llanamente la tasa de reordenación del previsor con respecto a un conjunto dado de ejemplos. El mecanismo de estimulación de lo más apto permite entonces la aparición del previsor que reordenará los datos lo mejor posible. Este tipo de construcción de previsor forma parte de las técnicas de algoritmo genético utilizadas en DM.La técnica del algoritmo genético da enfoque un poco brutal que necesita un gran poder de cálculo pero que posee la inmensa ventaja de proporcionar soluciones no muy lejos de lo óptimo incluso sin conocer métodos de soluciones. El algoritmo genético no exige ningún conocimiento acerca de la manera más idónea de resolver el problema; sólo es necesario la capacidad de evaluar la calidad de una solución. También es muy ligero para ponerlo en práctica (el motor es común, no hay mucha programación específica que hacer). En la resolución de un mismo problema el enfoque algorítmico es específico, muy rápido, mientras el algoritmo genético se caracteriza por ser general pero muy lento.

5. ARQUITECTURA DE DATAMINING

Para aplicar mejor estas técnicas avanzadas, éstas deben estar totalmente integradas con el data warehouse así como con herramientas flexibles e interactivas para el análisis de negocios. Varias herramientas de Data Mining actualmente operan fuera del warehouse, requiriendo pasos extra para extraer, importar y analizar los datos. Además, cuando nuevos conceptos requieren implementación operacional, la integración con el warehouse simplifica la aplicación de los resultados desde Data Mining. El Data warehouse analítico resultante puede ser aplicado para mejorar procesos de negocios en toda la organización, en áreas tales como manejo de campañas promocionales, detección de fraudes, lanzamiento de nuevos productos, etc.

Page 20: Tema01_Grupo07_Conocimiento y Minería de Datos

El punto de inicio ideal es un data warehouse que contenga una combinación de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores. Información histórica sobre potenciales clientes también provee una excelente base para prospecting. Este warehouse puede ser implementado en una variedad de sistemas de bases relacionales y debe ser optimizado para un acceso a los datos flexible y rápido.Un server multidimensional OLAP permite que un modelo de negocios más sofisticado pueda ser aplicado cuando se navega por el data warehouse. Las estructuras multidimensionales permiten que el usuario analice los datos de acuerdo a como quiera mirar el negocio - resumido por línea de producto, u otras perspectivas claves para su negocio. El server de Data Mining debe estar integrado con el data warehouse y el server OLAP para insertar el análisis de negocios directamente en esta infraestructura. Un avanzado, metadata centrado en procesos define los objetivos del Data Mining para resultados específicos tales como manejos de campaña, prospecting, y optimización de promociones. La integración con el data warehouse permite que decisiones operacionales sean implementadas directamente y monitoreadas. A medida que el data warehouse crece con nuevas decisiones y resultados, la organización puede "minar" las mejores prácticas y aplicarlas en futuras decisiones.Este diseño representa una transferencia fundamental desde los sistemas de soporte de decisión convencionales. Más que simplemente proveer datos a los usuarios finales a través de software de consultas y reportes, el server de Análisis Avanzado aplica los modelos de negocios del usuario directamente al warehouse y devuelve un análisis proactivo de la información más relevante. Estos resultados mejoran los metadatos en el server OLAP proveyendo una estrato de metadatos que representa una vista fraccionada de los datos. Generadores de reportes, visualizadores y otras herramientas de análisis pueden ser aplicadas para planificar futuras acciones y confirmar el impacto de esos planes.

Page 21: Tema01_Grupo07_Conocimiento y Minería de Datos

6. HERRAMIENTAS DE SOFTWARE EN MINERÍA DE DATOSExisten muchas herramientas de software para el desarrollo de modelos de minería de datos, por ejemplo:

XLMiner

XLMiner Es un complemento para Excel, con funcionamiento mediante macros, que permite muchos tipos de análisis tanto para datos de tipo corte transversal, como secuencias temporales.

Entre las principales características de XLMiner se encuentran:

Manejo de bases de datos, con imputación de datos faltantes. Realización de predicciones. Modelos ARIMA, Holt winters, Polinomiales. Arboles de decisión, análisis clúster. Facilidad para la entrega de informes. Redes neuronales.

A favor de este programa se puede decir que:

Posee un buen manual que se encuentra dentro de la sección ayuda, que describe los distintos métodos y parámetros.

Presenta opciones de configuración y trabajo (interface) amigables para cada método. Los formatos de presentación de resultados como gráficos tablas e indicadores de

cambios son muy ordenados y tienen buen formato. Existen muchos videos tutoriales para los distintos métodos que indican paso a paso

qué se necesita hacer.

En contra de este programa tenemos que:

XLMiner es accesible como herramienta de prueba por un periodo limitado de 30 días.

Se debe pagar por tener acceso a la versión que no limita el tamaño de la base de datos.

No posee indicadores de errores claros. Como XLMiner trabaja en base a macros de Excel, al parametrizar alguna operación con datos inadecuados, la operación se interrumpe, siendo imposible de recuperar lo último realizado.

Finalmente el programa puede descargarse desde la web del creador http://www.solver.com/xlminer/, tras rellenar el formulario para la versión prueba que se encuentra al final de la página.

Page 22: Tema01_Grupo07_Conocimiento y Minería de Datos

Matlab

MATLAB (abreviatura de MATrix LABoratory) es un entorno de computación y desarrollo de aplicaciones totalmente integrado orientado para llevar a cabo proyectos en donde se encuentren implicados elevados cálculos matemáticos y la visualización gráfica de los mismos.

Este programa dispone también de un amplio abanico de programas de apoyo especializado, denominados Toolboxes, que extienden significativamente el número de funciones incorporadas en el programa principal. Estos Toolboxes cubren en la actualidad prácticamente casi todas las áreas principales en el mundo de la ingeniería y la simulación.

MATLAB también se provee de un lenguaje de programación propio, similar al de otros lenguajes como Fortran o C. A través de este lenguaje, el usuario puede realizar cualquier tipo de regresión disponible o bien crear un proceso de validación cruzada a medida.

En relación a este trabajo destacaremos las siguientes Toolboxes:

Statistics Toolbox: Combina algoritmos estadísticos con interfaces gráficas interactivas. Nnet: Herramientas para el procesado de redes neuronales. Se subdivide

principalmente en:

◦ nnet\nnet ‐ Neural Network Toolbox: La Neural Network Toolbox es un paquete de Matlab que contiene una serie de funciones para crear y trabajar con redes neurolales artificiales. Así pues, proporciona las herramientas para el diseño, la puesta en práctica, la visualización, y la simulación de redes neuronales. Las redes neuronales son herramientas de gran alcance en situaciones donde sería difícil o imposible el análisis formal, por ejemplo el reconocimiento de patrones y la identificación y el control no lineales del sistema. La Neuronal Network Toolbox también proporciona una interfaz gráfica que permite diseñar y manejar las redes que el usuario desee. El diseño modular, abierto, y extensible de la Neuronal Network Toolbox simplifica la creación de funciones y de redes. En resumen, como principales características presenta:

Interfaz gráfica (GUI) para crear, entrenar, y simular a sus redes neuronales, así como ayuda al usuario de las arquitecturas de redes supervisadas y no supervisadas más comunes.

Un sistema sencillo para realizar el entrenamiento y creación de funciones de aprendizaje.

Representación modular de la red, permitiendo un número ilimitado de la entrada que fija capas, e interconexiones de la red, así como funciones para mejorar el entrenamiento, funcionamiento y visualización de la misma.

Page 23: Tema01_Grupo07_Conocimiento y Minería de Datos

◦ nnet\nncontrol ‐ Neural Network Toolbox Control System Functions: Provee un conjunto de funciones para medir y controlar el sistema de redes neuronales construido.

◦ nnet\nndemos ‐ Neural Network Demonstrations: Conjunto de muestras de redes neuronales.

Finalmente, se trata de un programa comercial por lo que para su uso se ha de pagar una licencia. Para obtener más información sobre MATLAB se puede acceder a la página oficial de esta herramienta: http://www.mathworks.es/products/matlab/

IBM SPSS Modeler

Se trata de un producto de la empresa IBM SPSS que permite, mediante una interfaz gráfica, aplicar técnicas de minería de datos para descubrir patrones y tendencias en datos estructurados o no estructurados.

IBM SPSS es una empresa reconocida como líder en análisis predictivo. Sus aplicaciones tienen una buena visibilidad y fuerza de ventas en el mercado y es considerada por algunos expertos como uno de los mejores proveedores de software de minería de datos.

Con IBM SPSS Modeler se puede visualizar gráficamente el proceso llevado a cabo, así como crear nuevas funciones que se añaden a las ya implementadas. Además se provee de una serie de módulos que permiten realizar un análisis de minería de datos con grandes volúmenes de datos.

En lo referido a técnicas de minería de datos, esta herramienta proporciona diferentes métodos según el proceso que vayamos a realizar; algunas de ellas son:

Segmentación: K medias, Kohonen, Bietápico, Anomalía. ‐

Asociación: A priori, GRI, CARMA y Análisis de Secuencia.

Clasificación: Factorial, Discriminante, Red Neuronal, C5.0, GLM, Máquinas de Vectores de Soporte, Redes Bayesianas, Modelos de auto aprendizaje, Vecino más próximo, Árboles, Listas de Decisión, Selección de características, etc.

Predicción: Regresión Lineal, Series Temporales, Regresión de Cox, Regresión Logística.

Automáticos: Auto numérico, Auto clasificador, Auto Agrupación, Modelizador ARIMA automático.

Finalmente y al igual que en los programas anteriores se trata de un programa comercial y se ha de pagar una licencia para su uso. Para obtener más información sobre IBM SPSS Modeler se puede consultar la web del fabricante: http://www-01.ibm.com/software/analytics/spss/products/modeler/

Page 24: Tema01_Grupo07_Conocimiento y Minería de Datos

SAS Enterprise Miner

SAS Enterprise Miner agiliza el proceso de minería de datos para crear modelos predictivos y descriptivos de alta precisión para grandes volúmenes de datos. Ofrece una sencilla interfaz gráfica que integra el conjunto de herramientas necesario para la toma de decisiones.

La solución Enterprise Miner se basa en la metodología SEMMA (Sample, Explore, Modify, Model, Assess) desarrollada por SAS Institute y puede definirse de la siguiente forma:

Muestra (Sample): Consiste en identificar los datos. Explora (Explore): Su función se traduce en explorar los conjuntos de datos para

observar huellas inesperadas, relaciones, patrones, u observaciones inusuales, con nodos para representar los datos, generar una amplia variedad de análisis, identificar las variables importantes, o realizar análisis de asociación.

Modificar (Modify): Consiste en preparar los datos para el análisis. Los nodos pueden crear variables adicionales o transformar las variables existentes para el análisis mediante la modificación o la transformación de la forma en la que las variables se utilizan en el análisis, filtrar los datos, sustituir los valores perdidos, condensar y contraer los datos en preparación para el modelado de series, o realizar análisis de conglomerados.

Modelo (Model): Donde se adapta el modelo estadístico. Los nodos predicen la variable objetivo en función de las variables de entrada mediante el uso de cualquier método: mínimos cuadrados o regresión logística, árboles de decisión, redes neuronales, redes dmneural, definido por el usuario, conjunto, vecino más cercano, o el modelado de dos etapas.

Evaluar (Asses): Donde es posible comparar la exactitud entre los modelos estadísticos, con nodos para comparar el desempeño de los diversos modelos de clasificación mediante la visualización de las estimaciones de probabilidad en competencia de los gráficos de elevación, gráficos ROC y tablas de umbral. Para diseños de modelado predictivo, el rendimiento de cada modelo y los supuestos del modelo pueden ser verificados a partir de las parcelas de predicción y gráficos de diagnóstico.

Entre las principales características de esta herramienta destacan:

El acceso a los datos, la gestión y la limpieza se integran a la perfección, por lo que es más fácil de preparar los datos para el análisis.

Alta integración con otras bases de datos debido a la gran experiencia de la empresa para operar con grandes volúmenes de datos.

Page 25: Tema01_Grupo07_Conocimiento y Minería de Datos

Proporciona sólidas herramientas de modificación y selección de los datos lo que redundará en una mejora de su calidad, en un mejor modelado y en resultados más fiables.

Un entorno dinámico e interactivo que está optimizado para visualizar los datos y comprender sus relaciones.

Ofrece uno de los conjuntos más completos de algoritmos avanzados de modelado predictivo y descriptivo, incluyendo árboles de decisión, splines de regresión, redes neuronales, regresión lineal y logística, regresión por mínimos cuadrados parciales, y muchos más. También se incluyen modelos específicos de la industria tales como la puntuación de crédito y ratemaking para el seguro.

En resumen, se trata de una de las herramientas con más potencia del mercado desde el punto de vista de trabajar con grandes bases de datos; sin embargo, contrasta con el alto precio que se ha de pagar por su licencia.

Para obtener más información de esta herramienta se puede acceder a través del siguiente enlace: http://www.sas.com/technologies/analytics/datamining/miner/

Salford Systems Data Mining

Salford Systems es una empresa especializada, entre otras tareas, en la elaboración de software de minería de datos y consultoría. A este respecto ofrece los siguientes productos:

Software CART: ofrece una clasificación multi plataforma robusta, con una amplia‐ variedad de análisis de alta precisión de minería de datos. Es la única herramienta basada en árboles de decisión según la metodología desarrollada por la Universidad de Stanford y la Universidad de Berkeley en California.

TreeNet: Basada en árboles de decisiones impulsadas. TreeNet es un sistema de aproximación de funciones y que también sirve como herramienta de exploración inicial de los datos.

RandomForests: Ofrece modelos predictivos de alto rendimiento e incorpora nuevos análisis de clúster de métrica libre.

SPM Salford Predictive Modeler: Cuenta con características adicionales orientadas a mejorar los modelos predictivos.

Para utilizar cada uno de estos programas se ha de pagar su correspondiente licencia.

Finalmente para obtener información sobre cada uno de ellos se puede consultar la web de Salford Systems a través del enlace: http://www.salford systems.com/‐

Page 26: Tema01_Grupo07_Conocimiento y Minería de Datos

Oracle Data Mining

Oracle Data Mining (ODM) es una herramienta de software desarrollada por la empresa Oracle para aplicar técnicas de minería de datos a grandes volúmenes de datos.

A través de esta herramienta se realizará el proceso de importación de los datos, su preparación, así como el desarrollo y despliegue del modelo.

La herramienta ODM está basada en un esquema de flujo de trabajo, similar a otras herramientas de minería de datos, siendo una extensión del SQLDeveloper, permitiendo analizar los datos, explorar los datos, construir y evaluar modelos y aplicar estos modelos a nuevos datos, así como compartir estos modelos en aplicaciones en línea entregando resultados en tiempo real. La herramienta integra todas las etapas del proceso de la minería de datos y permite integrar los modelos en otras aplicaciones con objetivos similares.

ODM funciona dentro de la base de datos de Oracle, así que no hay necesidad de exportar los archivos a un paquete de software estadístico fuera de la base de datos, lo que reduce los costos y mejora la eficiencia. Con un lenguaje de procedimiento integrado/ lenguaje de consulta estructurado (PL / SQL) e interfaces de Java de programación de aplicaciones (API), Oracle DM permite a los usuarios construir modelos.

ODM ofrece dos versiones, una en la que a través de una interfaz gráfica los usuarios podrán aplicar las técnicas de minerías de datos que consideren necesarias y una versión en la que los desarrolladores podrán utilizar la API de SQP para crear aplicaciones a medida. Imagen 5: Ventana principal de Oracle Data Miner

Se trata de la herramienta más potente para trabajar con bases de datos de Oracle, si bien habrá que pagar una licencia por su uso. Para obtener más información sobre la herramienta se puede consultar su sección dentro de la web de Oracle a través del siguiente enlace: http://www.oracle.com/products/database/options/advanced analytics/index.html‐

Rapid Miner

Esta herramienta forma parte del proyecto Rapid i. Este‐ proyecto nació en 2006 como Spin Off de la Universidad de‐ Dortmund, donde se inauguró la primera versión del software en 2001.

Rapid i cuenta con dos componentes:‐

RapidMiner: Versión stand alone para analistas. Implementa todos los operadores de data‐ mining, modelos predictivos, modelos descriptivos, transformación de datos, series de tiempo, etc.

Page 27: Tema01_Grupo07_Conocimiento y Minería de Datos

RapidAnalytics: Versión Servidor de RapidMiner. Permite trabajo colaborativo, escalable y concurrente de múltiples usuarios, capacidad de delegar en bases de datos (In Database‐ Mining) y otras mejoras de funcionalidad como: plataforma Web de publicación de informes, implementación de sistemas de scoring, diseño y navegación Web de informes, Single sign on‐ e integración vía Servicios Web, entre otras.

RapidMiner permite el desarrollo de procesos de análisis de datos mediante el encadenamiento de operadores a través de un entorno gráfico.

Entre las características principales de RapidMiner destacamos que:

Está desarrollado en Java.

Es multiplataforma.

Representación interna de los procesos de análisis de datos en ficheros XML.

Permite a los experimentos componerse de un gran número de operadores anidables arbitrariamente, que se detallan en archivos XML.

Permite el desarrollo de programas a través de un lenguaje de script.

Puede usarse de diversas maneras:

1. ‐ A través de un GUI. ‐ En línea de comandos.2. ‐ En batch (lotes) 3. ‐ Desde otros programas, a través de llamadas a sus bibliotecas.

Extensible.

Incluye gráficos y herramientas de visualización de datos.

Dispone de un módulo de integración con R.

Software de código abierto.

Además, esta aplicación ofrece más de 500 operadores para todos los principales procedimientos de máquina de aprendizaje, y también combina esquemas de aprendizaje y evaluadores de atributos del entorno de aprendizaje Weka.

Finalmente, al tratarse de un software libre y de código abierto puede ser descargado a través del siguiente enlace: http://rapid i.com/content/view/181/190/‐

KNIME

KNIME (Konstanz Information Miner) es una plataforma de código abierto de fácil uso y comprensible para integración de datos, procesamiento, análisis y exploración.

Esta herramienta fue desarrollada originalmente en el departamento de Bioinformática y Minería de Datos de la Universidad de Constanza, Alemania, bajo la supervisión del profesor Michael Berthold. En la actualidad, la empresa

Page 28: Tema01_Grupo07_Conocimiento y Minería de Datos

KNIME.com, radicada en Zúrich, Suiza, continúa su desarrollo, además de prestar servicios de formación y consultoría.

KNIME ofrece a los usuarios la capacidad de crear de forma visual flujos o tuberías de datos, ejecutar selectivamente algunos o todos los pasos de análisis, y luego estudiar los resultados, modelos y vistas interactivas.

Está desarrollado sobre la plataforma Eclipse y programado, esencialmente, en Java. Como otros entornos de este tipo, su uso se basa en el diseño de un flujo de ejecución que plasme las distintas etapas de un proyecto de minería de datos.

Para ello, KNIME proporciona distintos nodos agrupados en fichas, como por ejemplo:

a. Entrada de datos [IO > Read] b. Salida de datos [IO > Write] c. Preprocesamiento [Data Manipulation], para filtrar, discretizar, normalizar,

filtrar, seleccionar variables, etc. d. Minería de datos [Mining], para construir modelos (reglas de asociación,

clustering, clasificación, MDS, PCA…) e. Salida de resultados [Data Views] para mostrar resultados en pantalla (ya

sea de forma textual o gráfica)

Por otro lado, a través de plugins, los usuarios pueden añadir módulos de texto, imágenes, procesamiento de series de tiempo y la integración de varios proyectos de código abierto, tales como el lenguaje de programación R, WEKA, el kit de desarrollo de Química y LIBSVM.

Finalmente se trata de una herramienta multiplataforma que puede ser descargada junto con su documentación a través del enlace http://www.knime.org/

R

R es un entorno estadístico tremendamente potente y completo. Las llamadas a R se realizan en línea de comando, si bien existen algunas interfaces gráficas (Rcommander, etc) que facilitan el uso de este programa. Fue desarrollado inicialmente por el Departamento de Estadística de la Universidad de Auckland, Nueva Zelanda, en 1993.

R es un lenguaje de programación y entorno de software de código abierto para computación y gráficos estadísticos. Proporciona múltiples técnicas para simulación, modelado lineal y no lineal, análisis de series temporales, pruebas estadísticas clásicas, clasificación, agrupación en clústeres, etc.

El entorno de R se caracteriza por su flexibilidad e incluye, entre otros:

Un buen gestor de datos. Un conjunto de operadores para cálculos en arrays (vectores de gran tamaño) Un conjunto integrado de herramientas de análisis de datos. Funciones gráficas para análisis y visualización de los datos. Un lenguaje de programación simple que incluye condicionales, bucles, funciones

recursivas definidas por el usuario y capacidades de entrada y salida.

Page 29: Tema01_Grupo07_Conocimiento y Minería de Datos

En relación al proceso de minería de datos, R posee gran cantidad de paquetes estadísticos útiles para realizar este proceso; en especial, destacaremos:

Rattle: que ofrece al usuario una interfaz gráfica para aplicar técnicas de minería de datos a grandes bases de datos.

Caret: que, más allá de integrar diversos algoritmos, incluye funciones auxiliares útiles para seleccionar modelos, comparar la importancia de funciones, realizar validaciones cruzadas, etc., utilizando una sintaxis coherente y homogénea.

RDataMining. El objetivo de sus promotores es incluir en él algoritmos publicados que no tengan todavía implementación en R.

Se trata de un software libre, distribuido bajo licencia GPL, muy extendido en la comunidad universitaria y que está llamado a cobrar un papel cada vez más relevante en el mundo de las aplicaciones profesionales y de la empresa.

Tanto el programa como los paquetes estadísticos y su documentación asociada pueden descargarse a través de la web del proyecto R: http://www.r project.org/ ‐

Orange

Se trata de una suite para minería de datos y aprendizaje automático, desarrollado en la Facultad de Informática de la Universidad de Ljubljana (Eslovenia)

Esta herramienta cuenta con un fácil y potente, rápido y versátil front end de programación visual para el análisis exploratorio de datos y visualización, y‐ librerias para Python y secuencias de comando.

Contiene un completo juego de componentes desarrollados en C++ para preprocesamiento de datos, características de puntuación y filtrado, modelado, evaluación del modelo y técnicas de exploración. A estos componentes se puede acceder de dos formas:

Por medio de scripts desde Python. Por medio de widgets (componentes GUI), desde CANVAS. Se trata de una aplicación multiplataforma y se distribuye bajo licencia GPL. Además, orange proporciona componentes para: Entrada/salida de datos, soportando los formatos C4.5, assistant, retis y tab (nativo) Preprocesamiento de datos: selección, discretización, etc. Modelado predictivo: árboles de clasificación, regresión logística, clasificador de Bayes,

reglas de asociación, etc. Métodos de descripción de los datos: mapas autoorganizados, k means clustering, etc.‐ Técnicas de validación del modelo, como la validación cruzada.

Finalmente, si se desea descargar y conocer más en profundidad la herramienta es recomendable visitar la página web de sus creadores: http://orange.biolab.si/.

Page 30: Tema01_Grupo07_Conocimiento y Minería de Datos

WEKA

WEKA, acrónimo de Waikato Environment for Knowledge Analysis, es un conjunto de librerías JAVA para la extracción de conocimiento desde bases de datos. Está constituido por una serie de paquetes de código abierto con diferentes técnicas de preprocesado, clasificación, agrupamiento, asociación y visualización.

Se trata de un software desarrollado en la Universidad de Waikato (Nueva Zelanda) bajo licencia GNU GPL lo cual ha impulsado que sea una de las suites más utilizadas en el área en‐ los últimos años. Se trata de una herramienta de gran potencia, si bien no tiene implementados, a fecha de hoy, algoritmos para la realización de un modelado de secuencias.

Tanto la aplicación como los manuales de referencia se pueden descargar a través de la web del proyecto: http://www.cs.waikato.ac.nz/ml/weka/

R, ¿LA HERRAMIENTA DE MINERÍA DE DATOS MÁS UTILIZADA?

R es la herramienta más popular para la minería y la ciencia de datos según la encuesta anual realizada por KDnuggets que esta vez contó con alrededor de 3000 votantes sobre un registro récord de 93 herramientas diferentes.

Page 31: Tema01_Grupo07_Conocimiento y Minería de Datos

El top 10 de las herramientas analíticas preferidas por los usuarios:

1. R, 46.9% ( 38.5% en 2014)

2. RapidMiner, 31.5% ( 44.2% en 2014)

3. SQL, 30.9% ( 25.3% en 2014)

4. Python, 30.3% ( 19.5% en 2014)

5. Excel, 22.9% ( 25.8% en 2014)

6. KNIME, 20.0% ( 15.0% en 2014)

7. Hadoop, 18.4% ( 12.7% en 2014)

8. Tableau, 12.4% ( 9.1% en 2014)

9. SAS, 11.3 (10.9% en 2014)

10. Spark, 11.3% ( 2.6% en 2014)

Si se compara con la encuesta del 2014, Tableau y Spark son los nuevos ingresantes a esta lista

del top 10 desplazando a Weka y Microsoft SQL Server.