30
Minería de datos Dr. Francisco J. Mata 1 Introducción a la Introducción a la minería de datos minería de datos Tema 1 Tema 1

MIneria de datos

Embed Size (px)

DESCRIPTION

MIneria de datos

Citation preview

Page 1: MIneria de datos

Minería de datosDr. Francisco J. Mata

1

Introducción a la Introducción a la minería de datosminería de datos

Tema 1Tema 1

Page 2: MIneria de datos

2

Minería de datosDr. Francisco J. Mata

TemarioTemario

¿Qué es minería de datos?¿Qué es minería de datos? ¿Quién usa minería de datos?¿Quién usa minería de datos? ¿Por qué de la minería de datos?¿Por qué de la minería de datos? Ciclo virtuoso de la minería de datosCiclo virtuoso de la minería de datos Resumen de principales técnicas de minería de Resumen de principales técnicas de minería de

datosdatos

Page 3: MIneria de datos

3

Minería de datosDr. Francisco J. Mata

Definición de minería de datosDefinición de minería de datos

Minería de datos es la exploración y análisis de Minería de datos es la exploración y análisis de grandes cantidades de datos con el objeto de grandes cantidades de datos con el objeto de encontrar patrones y reglas significativas encontrar patrones y reglas significativas (conocimiento)(conocimiento)

Page 4: MIneria de datos

4

Minería de datosDr. Francisco J. Mata

Metas de la minería de datosMetas de la minería de datos

Permitir a una organización MEJORAR _____ Permitir a una organización MEJORAR _____ a través de un mejor CONOCIMIENTO de a través de un mejor CONOCIMIENTO de ______________

Mejorar la ventaja competitivaMejorar la ventaja competitiva

Page 5: MIneria de datos

5

Minería de datosDr. Francisco J. Mata

La minería de datos es un campo La minería de datos es un campo multidisciplinariomultidisciplinario

Minería de datos

InteligenciaArtificial

(“MachineLearning”)

Estadística

Bases deDatos

(VLDB)

Graficación yvisualización

Ciencias dela información

Otrasdisciplinas

Page 6: MIneria de datos

6

Minería de datosDr. Francisco J. Mata

La minería de datos es un subconjunto de La minería de datos es un subconjunto de la inteligencia de negociosla inteligencia de negocios

Page 7: MIneria de datos

7

Minería de datosDr. Francisco J. Mata

Minería de datosMinería de datos

Proceso de utilizar datos “crudos” para inferir Proceso de utilizar datos “crudos” para inferir importantes relaciones entre ellosimportantes relaciones entre ellos

Colección de técnicas poderosas para analizar grandes Colección de técnicas poderosas para analizar grandes volúmenes de datosvolúmenes de datos

No existe un solo enfoque para minería de datos sino No existe un solo enfoque para minería de datos sino un conjunto de técnicas que se pueden utilizar de un conjunto de técnicas que se pueden utilizar de manera independiente o en combinaciónmanera independiente o en combinación

Existe una relación con la estadística, aunque Existe una relación con la estadística, aunque frecuentemente se separan las técnicas que no están frecuentemente se separan las técnicas que no están basadas en métodos estadísticosbasadas en métodos estadísticos

Page 8: MIneria de datos

8

Minería de datosDr. Francisco J. Mata

Tipos de aplicaciones de la minería Tipos de aplicaciones de la minería de datosde datos

Aplicaciones o problemas de minería de datos Aplicaciones o problemas de minería de datos pueden clasificarse en las siguientes categoríaspueden clasificarse en las siguientes categorías ClasificaciónClasificación EstimaciónEstimación PronósticoPronóstico AsociaciónAsociación Agrupación o segmentaciónAgrupación o segmentación

Page 9: MIneria de datos

9

Minería de datosDr. Francisco J. Mata

ClasificaciónClasificación

Examinar las características de un nuevo objeto Examinar las características de un nuevo objeto y asignarle una clase o categoría de acuerdo a un y asignarle una clase o categoría de acuerdo a un conjunto de tales objetos previamente definidoconjunto de tales objetos previamente definido

Ejemplos:Ejemplos: Clasificar aplicaciones a crédito como bajo, medio y Clasificar aplicaciones a crédito como bajo, medio y

alto riesgoalto riesgo Detectar reclamos fraudulentos de segurosDetectar reclamos fraudulentos de seguros

Page 10: MIneria de datos

10

Minería de datosDr. Francisco J. Mata

EstimaciónEstimación

Relacionado con clasificaciónRelacionado con clasificación Mientras clasificación asigna un valor discreto, Mientras clasificación asigna un valor discreto,

estimación produce un valor continuoestimación produce un valor continuo

Ejemplos:Ejemplos: Estimar el precio de una viviendaEstimar el precio de una vivienda Estimar el ingreso total de una familiaEstimar el ingreso total de una familia

Page 11: MIneria de datos

11

Minería de datosDr. Francisco J. Mata

PronósticoPronóstico

Predecir un valor futuro con base a valores Predecir un valor futuro con base a valores pasadospasados

Ejemplos:Ejemplos: Predecir cuánto efectivo requerirá un cajero Predecir cuánto efectivo requerirá un cajero

automático en un fin de semanaautomático en un fin de semana

Page 12: MIneria de datos

12

Minería de datosDr. Francisco J. Mata

AsociaciónAsociación

Determinar cosas u objetos que van juntosDeterminar cosas u objetos que van juntos Ejemplo:Ejemplo:

Determinar que productos se adquieren Determinar que productos se adquieren conjuntamente en un supermercadoconjuntamente en un supermercado

Page 13: MIneria de datos

13

Minería de datosDr. Francisco J. Mata

Agrupación o segmentaciónAgrupación o segmentación

Dividir una población en un número de grupos Dividir una población en un número de grupos más homogéneosmás homogéneos

No depende de clases pre-definidas a diferencia No depende de clases pre-definidas a diferencia de clasificaciónde clasificación

Ejemplo:Ejemplo: Dividir la base de clientes de acuerdo con los hábitos Dividir la base de clientes de acuerdo con los hábitos

de consumode consumo

Page 14: MIneria de datos

14

Minería de datosDr. Francisco J. Mata

Usos de la minería de datosUsos de la minería de datos

Administración de la relación con los clientes:Administración de la relación con los clientes: Identificar nuevos clientes potenciales para aumentar Identificar nuevos clientes potenciales para aumentar

ventasventas Ampliar la base de cliente con la mínima inversión Ampliar la base de cliente con la mínima inversión

por parte de la empresapor parte de la empresa Retener clientes existentes evitando que se vayan a la Retener clientes existentes evitando que se vayan a la

competencia (“attrition”)competencia (“attrition”) Vender más a clientes existentes (“ventas cruzadas”) Vender más a clientes existentes (“ventas cruzadas”)

Page 15: MIneria de datos

15

Minería de datosDr. Francisco J. Mata

Usos de la minería de datosUsos de la minería de datos

Detección de fraudes en el uso de tarjetas de Detección de fraudes en el uso de tarjetas de créditocrédito

Determinar patrones que puedan estar Determinar patrones que puedan estar relacionados con lavado de dinerorelacionados con lavado de dinero

Determinar el precio de una casa con base en Determinar el precio de una casa con base en sus características y el precio de otras casas sus características y el precio de otras casas vendidasvendidas

Page 16: MIneria de datos

16

Minería de datosDr. Francisco J. Mata

Ejercicio en gruposEjercicio en grupos

Equipos: 3 personas máximoEquipos: 3 personas máximo Objetivos: Objetivos:

Identificar situaciones concretas para utilizar la Identificar situaciones concretas para utilizar la minería de datos (10 minutos)minería de datos (10 minutos)

Reportar a la clase verbalmente (3 minutos)Reportar a la clase verbalmente (3 minutos) Las situaciones identificadasLas situaciones identificadas Tipo de aplicación o problema de minería de datos Tipo de aplicación o problema de minería de datos

relacionadorelacionado Los beneficios esperados de aplicar la minería de datosLos beneficios esperados de aplicar la minería de datos

Page 17: MIneria de datos

17

Minería de datosDr. Francisco J. Mata

Usos de la minería de datosUsos de la minería de datos

Usos de la minería de datos se han ampliado con Usos de la minería de datos se han ampliado con el comercio electrónicoel comercio electrónico

Page 18: MIneria de datos

18

Minería de datosDr. Francisco J. Mata

RecomendacionesRecomendaciones

Page 19: MIneria de datos

19

Minería de datosDr. Francisco J. Mata

Disponibilidad de datos de Disponibilidad de datos de transaccionestransacciones

Page 20: MIneria de datos

20

Minería de datosDr. Francisco J. Mata

¿Por qué de la minería de datos?¿Por qué de la minería de datos?

Datos se encuentran disponiblesDatos se encuentran disponibles Poder computacional es cada vez menos costosoPoder computacional es cada vez menos costoso Las presiones competitivas son enormesLas presiones competitivas son enormes Software para minería de datos se encuentra Software para minería de datos se encuentra

disponibledisponible

Page 21: MIneria de datos

21

Minería de datosDr. Francisco J. Mata

Ciclo virtuoso de la minería de datosCiclo virtuoso de la minería de datos

Page 22: MIneria de datos

22

Minería de datosDr. Francisco J. Mata

Principales técnicas de minería de Principales técnicas de minería de datosdatos

Análisis de canasta de supermercadoAnálisis de canasta de supermercado K vecinos más cercanosK vecinos más cercanos Detección de gruposDetección de grupos Análisis de encadenamientoAnálisis de encadenamiento Árboles de decisiónÁrboles de decisión Redes neuronales artificialesRedes neuronales artificiales Algoritmos genéticosAlgoritmos genéticos

Page 23: MIneria de datos

23

Minería de datosDr. Francisco J. Mata

Resumen técnicas de minería de Resumen técnicas de minería de datosdatos

Análisis de canasta de supermercadoAnálisis de canasta de supermercado Agrupar objetos que aparecen juntosAgrupar objetos que aparecen juntos Ejemplos:Ejemplos:

Pañales y cervezas Pañales y cervezas

Page 24: MIneria de datos

24

Minería de datosDr. Francisco J. Mata

Resumen técnicas de minería de Resumen técnicas de minería de datosdatos

K vecinos más cercanosK vecinos más cercanos Determinar los K vecinos más cercanos en instancias Determinar los K vecinos más cercanos en instancias

conocidos con el objeto de clasificar o hacer una conocidos con el objeto de clasificar o hacer una predicción sobre una instancia desconocidapredicción sobre una instancia desconocida

Ejemplo: Dado un reclamo para un seguro Ejemplo: Dado un reclamo para un seguro determinar basado en reclamos similares (vecinos) si determinar basado en reclamos similares (vecinos) si se debe pagar o investigarse debe pagar o investigar

Page 25: MIneria de datos

25

Minería de datosDr. Francisco J. Mata

Resumen técnicas de minería de Resumen técnicas de minería de datosdatos

Detección de gruposDetección de grupos Encontrar objetos similares entre síEncontrar objetos similares entre sí Ejemplos: tipificar clases de clientesEjemplos: tipificar clases de clientes

Page 26: MIneria de datos

26

Minería de datosDr. Francisco J. Mata

Resumen técnicas de minería de Resumen técnicas de minería de datosdatos

Análisis de encadenamientoAnálisis de encadenamiento Encuentra relaciones entre objetos de acuerdo con Encuentra relaciones entre objetos de acuerdo con

patronespatrones Relacionado con la teoría de grafosRelacionado con la teoría de grafos Ejemplos:Ejemplos:

Relaciones entre individuos basados en llamadas Relaciones entre individuos basados en llamadas telefónicastelefónicas

Relaciones entre casos criminales de acuerdo con sus Relaciones entre casos criminales de acuerdo con sus característicascaracterísticas

Page 27: MIneria de datos

27

Minería de datosDr. Francisco J. Mata

Resumen técnicas de minería de Resumen técnicas de minería de datosdatos

Árboles de decisiónÁrboles de decisión Dividir objetos en grupos asociando reglas para la Dividir objetos en grupos asociando reglas para la

asignación de los objetos en su correspondiente asignación de los objetos en su correspondiente grupogrupo

Ejemplos: determinar el sexo o grupo de edad de Ejemplos: determinar el sexo o grupo de edad de una persona en función a una serie de preguntas una persona en función a una serie de preguntas contestadascontestadas

Page 28: MIneria de datos

28

Minería de datosDr. Francisco J. Mata

Resumen técnicas de minería de Resumen técnicas de minería de datosdatos

Redes neuronales artificialesRedes neuronales artificiales Más común de las técnicas y para algunos sinónimo Más común de las técnicas y para algunos sinónimo

de minería de datosde minería de datos Modelos simples de interconexiones neuronales en el Modelos simples de interconexiones neuronales en el

cerebro que aprenden de un conjunto de cerebro que aprenden de un conjunto de adiestramiento y generalizan patrones dentro de él adiestramiento y generalizan patrones dentro de él con el objeto de clasificar, estimar o predecircon el objeto de clasificar, estimar o predecir

Ejemplo: estimar el valor de una casa tomando en Ejemplo: estimar el valor de una casa tomando en cuenta el precio pagado por casas similarescuenta el precio pagado por casas similares

Page 29: MIneria de datos

29

Minería de datosDr. Francisco J. Mata

Resumen técnicas de minería de Resumen técnicas de minería de datosdatos

Algoritmos genéticosAlgoritmos genéticos Aplican la mecánica de la genética y la selección Aplican la mecánica de la genética y la selección

natural para encontrar un conjunto de parámetros natural para encontrar un conjunto de parámetros óptimos para una función predictivaóptimos para una función predictiva

Utilizados para entrenar redes neuronales artificialesUtilizados para entrenar redes neuronales artificiales

Page 30: MIneria de datos

30

Minería de datosDr. Francisco J. Mata

Resumen técnicas de minería de Resumen técnicas de minería de datosdatos

Técnicas mencionadas pueden utilizarse en varias Técnicas mencionadas pueden utilizarse en varias aplicaciones o problemas de minería de datosaplicaciones o problemas de minería de datos Ejemplo: árboles de decisión sirven para detectar grupos, Ejemplo: árboles de decisión sirven para detectar grupos,

clasificar y predecirclasificar y predecir

Varias técnicas pueden ser utilizadas en una misma Varias técnicas pueden ser utilizadas en una misma aplicación o problema de minería de datosaplicación o problema de minería de datos Ejemplo: K vecinos más próximos, árboles de decisión y Ejemplo: K vecinos más próximos, árboles de decisión y

redes neuronales artificiales pueden utilizarse para redes neuronales artificiales pueden utilizarse para clasificaciónclasificación