Técnicas Avanzadas de Data Mining

  • Upload
    skate89

  • View
    220

  • Download
    0

Embed Size (px)

Citation preview

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    1/80

    1

    Técnicas Avanzadas de Data Mining

    Comunidad Analytics Cono SurSAS Educación

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    2/80

    2

     Agenda

    ¿Porqué deberías conocer técnicas avanzadas de

    Data Mining?

    ¿Qué aportan a los análisis tradicionales?

    ¿En qué escenarios deberían usarse?

    ¿Cuáles son las bondades y limitaciones?

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    3/80

    3

     Agenda

    Hace ya mucho que existe una variedad de técnicas

    avanzadas de data mining que aportan valor más allá

    de las clásicas regresiones.

    Sin embargo, encontramos que en el día a día se

    usan muy poco o por debajo de sus posibilidades.

    Creemos que estas técnicas son un valioso aporte a

    la “caja de herramientas” de cualquier Profesional de

     Analytics

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    4/80

    4

    Temario

    Falacia del libro de cocina y sus consecuencias

    Usos inapropiados de las técnicas tradicionales:

    regresion logística

    Usos insuficientes de las técnicas tradicionales: reglas

    de asociación

    Errores de concepción de las técnicas tradicionales:

    redes neuronales

    Necesidad de un upgrade al data mining “tradicional”: Análisis de supervivencia y Análisis de redes sociales

    (SNA)

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    5/80

    5

    Falacia del libro de cocina

    Data Mining consiste en seleccionar y aplicar una

    herramienta apropiada al problema

    Data Mining, en tanto disciplina, no sería más que un

    conjunto de “herramientas”

    Esta creencia errónea suele ser propiciada por la mayoría de los libros de texto, por las

    curricula de carreras universitarias relacionadas con estos temas e incluso por la propia práctica de los

     profesionales de Analytics.

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    6/80

    6

    La falacia es incorrecta porque…

    Las herramientas no se encuentran

    aisladas entre sí. Más bien mantienen

    relaciones complejas en la forma de clases

    generales de técnicas y otras más

    específicas. La base de estas relaciones es

    el cuerpo de conceptos de la estadística.

    Raramente un problema hace posible que

    sea suficiente la única y exclusiva

    aplicación de un solo método o elparadigma ingenuo de “modelo ganador”

    Ejemplos de algunas relaciones: el análisis de varianza es un modelo lineal, al igual que

    el análisis de regresión; los modelos lineales son un caso especial de los modelos lineales generalizados y

    también del modelo lineal general (extensión multivariada); la regresión logística es un modelo lineal

    generalizado y es también una forma simple de red neuronal (perceptrón simple); los modelos aditivosgeneralizados generalizan de un modo diferente; los métodos no paramétricos relajan algunos de los

    supuestos de los tests paramétricos clásicos, etc. Las técnicas de modelización pueden conceptualizarse

    según su ubicación respecto de algunos ejes conceptuales como modelización local vs. global, el tipo de

     búsqueda de un modelo “apropiado”, e incluso una dimensión inducción-deducción.

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    7/80

    7

    Consecuencias de la falacia

    Uso inapropiado de técnicas

    Uso insuficiente de técnicas

    Errores de concepción sobre las técnicas

     Aplicación de técnicas inapropiadas: necesidad de un

    “upgrade”

    En síntesis, el conocimiento y aplicación de las

    técnicas tradicionales carece de “profundidad”conceptual y de eficacia práctica

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    8/80

    8

    Entonces, que son “ técnicas avanzadas”

    Conocimiento y aplicación de las técnicastradicionales con suficiente “profundidad”, lejos delparadigma ingenuo de “modelo ganador”.

    Métodos que intentan superar las limitaciones de lastécnicas “tradicionales”:

     – Supuesto de observaciones independientes entresí

     – Análisis exclusivamente de atributos norelacionales

     – El objetivo es minimizar los errores deentrenamiento (lleva a MLE)

     – En un contexto de un conjunto limitado de datos,resolver un problema más general

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    9/80

    9

    Entonces que son “ técnicas avanzadas”

    Los casos son

    independientes entre sí

     Atributos no relacionales

    El objetivo es minimizar

    los errores de

    entrenamiento (lleva a

    MLE)

    y, en un contexto de un

    conjunto limitado de

    datos, resolver un

    problema más general

    Incluir en la

    modelización las

    relaciones entre los

    casos y entre atributos

    Formular una nueva

    teoría estadística del

    aprendizaje y generar

    algoritmos simples en

    base a ella

    Técnicas tradicionales Técnicas avanzadas

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    10/80

    10

    Entonces que son “ técnicas avanzadas”

    Los casos son

    independientes entre sí

     Atributos no relacionales

    El objetivo es minimizar

    los errores de

    entrenamiento (lleva a

    MLE)

    y, en un contexto de un

    conjunto limitado de

    datos, resolver un

    problema más general

    Data Mining Relacional

     – Modelización de sucesos en

    el tiempo (Análisis de

    supervivencia)

     – Modelización de relaciones

    (SNA y otros)

    Nueva teoría estadística

    del aprendizaje

     – Principio de minimizacióndel riesgo empírico

     – Estimación de una función

    en base a un conjunto

    limitado de ejemplos

    Técnicas tradicionales Técnicas avanzadas

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    11/80

    11

    Entonces que son “ técnicas avanzadas”

    Los casos son

    independientes entre sí

     Atributos no relacionales

    El objetivo es minimizar

    los errores de

    entrenamiento (lleva a

    MLE)

    y, en un contexto de un

    conjunto limitado de

    datos, resolver un

    problema más general

    Nuevos paradigmas

    conceptuales

    Nuevos métodos

     – Grafos de vínculos

     – Curvas de riesgo

     – SVM

     – Etc.

    Técnicas tradicionales Técnicas avanzadas

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    12/80

    12

    Ejemplos

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    13/80

    13

    Usos inapropiados de las técnicastradicionales: regresión logística

    logit(p) p

    1

    0x1

    x2 x1x2

    0

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    14/80

    14

    Usos inapropiados de las técnicastradicionales: regresión logística

    La regresión logística es una técnica paramétrica de

    modelización

    Es decir, adopta supuestos sobre la distribución de las

    variables involucradas

    Un supuesto de la regresión logística es que la relación

    entre la variable target transformada (el logit) y las

    variables predictoras es lineal Consecuencia de vulnerar el supuesto de linealidad:

    Deterioro de la capacidad predictiva del modelo

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    15/80

    15

    Usos inapropiados de las técnicastradicionales: regresión logística

    En el análisis de regresión es una práctica estándar 

    examinar gráficos de dispersión de la variable target contra

    cada variable predictora

    Cuando la variable target es binaria estos gráficos no son

    apropiados

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    16/80

    16

    Logits empíricos

    donde

    mi= número de eventos

     M i = número de casos

    ⎟⎟⎟⎟

     ⎠

     ⎞

    ⎜⎜⎜⎜

    ⎝ 

    ⎛ 

    +−

    +

    2

    2lni

    ii

    i

    i

     M m M 

     M m

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    17/80

    17

    Gráficos de logits empíricos

    Verificar linealidad

    17

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    18/80

    18

    Gráficos de Logits Empíricos

    Si el supuesto de linealidad del modelo de regresión se satisfice, todos los

    gráficos aparecerían como líneas aproximadamente rectas. Por lo menos, los suavizamientos

    LOESS (“Predicted Elogit”) de los logits empíricos graficados (“Elogit”) serían rectos. Esto no

    ocurre para algunas variables como GiftCnt36 ,  DemMedHomeValue y PromCntCard12.

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    19/80

    19

    Gráficos de Logits Empíricos

    Patrón asociado con variables sesgadas. Binning de la variable y su linealización.

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    20/80

    20

    Gráficos de Logits Empíricos

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    21/80

    21

    Gráficos de Logits Empíricos

    Relación cuadrática de la variable PromCntCard12 con el logit. Un binning de

    la variable no alcanza para generar una relación lineal. Entonces, incluir la variable al cuadrado

    en la regresión.

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    22/80

    22

    Gráficos de Logits Empíricos

    La generación de estos gráficos debe hacerse luego

    de una etapa de selección de variables y anterior a la

    generación del modelo de regresión logística (el

    cálculo es costoso como para hacerlo para gran

    cantidad de variables)

    No existe un nodo del Miner que genere estos

    gráficos

    Deben realizarse con código

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    23/80

    23

    Usos insuficientes de técnicas tradicionales:análisis de reglas de asociación

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    24/80

    24

    Paradigma general

    Generar reglas de asociación limitando soporte y

    confianza

    Seleccionar las reglas “interesantes” usando lift,

    confianza y soporte

    Usar la lógica del ítem ausente: recomendar el ítem

    ausente en una regla aplicada a un segmento de

    clientes

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    25/80

    25

    Problemas y limitaciones del análisis dereglas simples

    La cantidad de reglas obtenidas es función de la

    cantidad de transacciones, la cantidad de ítems y la

    composición de las transacciones

    Cuanto mayor el número de reglas obtenido, más

    difícil es la selección de las reglas útiles o relevantes

    Para la selección se utilizan las medidas de soporte,

    confianza y lift representadas en tablas o gráficos

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    26/80

    26

    Insuf iciencia de lift, confianza y soporte

    Las reglas interesantes no pueden determinarse automáticamente apartir de lift, confianza o soporte

    Las reglas con lift elevado frecuentemente representan “rarezas” queno son generales o suficientemente confiables (efectos de nicho)

    Las reglas con confianza elevada frecuentemente representanpatrones conocidos por un especialista de dominio

    Las reglas con soporte elevado son usualmente triviales o nointeresantes

    Las reglas que tienen lift, soporte y confianza elevados usualmenteson raras

    Suele ser conveniente alguna tarea adicional: ordenamiento de lasreglas por rango en base a su valor potencial o real para el negocio,focalización en ítems o combinación de ítems de interés, etc.

    Las tareas adicionales requieren manipulación de la tabla de reglas(vía programación probablemente)

    Datos relevantes en las transacciones no suelen incorporarse, aunque pueden ser

    muy valiosos: monto de la transacción, costo o ganancia de los ítems de la transacción, cantidad

    de ítems comprados, etc.

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    27/80

    27

    Fuerte dependencia del dominio: ejemplos

    Las reglas de asociación no son muy útiles en sectoresdonde la adquisición o tenencia de ítems dependefuertemente de campañas de marketing

    No son útiles en sectores con adquisición o tenencia depocos productos

    En fraude, seguros y otros se buscan lascombinaciones infrecuentes

     Algunos problemas requieren identificar lasasociaciones negativas, no las positivas

    Problemas médicos requieren encontrar asociacionespositivas y negativas

    Las reglas de asociación no son buena elección para construir modelos de cross-

    selling en industrias como bancos minoristas porque las reglas terminan describiendo

     promociones previas. También en la industria bancaria minorista, los clientes típicamente inician

    con uno o dos productos. La diferenciación entre productos solo aparece cuando los clientestienen más productos. Recién en ese momento puede ser interesante la aplicación de un análisis

    de reglas de asociación.

    Problema de seguridad: Qué tipos de instalaciones eléctricas no están asociadas

    con incendios (asociaciones negativas)

    Problemas de análisis clínico: Síntomas (presentes y ausentes) en enfermedades

    (asociaciones positivas y negativas)

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    28/80

    28

    Ejemplo: la lógica de ítem ausente esinsuficiente

    Este es un ejemplo de una regla que parecería sumamente aplicable, sin

    embargo, en base al negocio no lo es. Por qué la regla no es exitosa: es necesario más que una

    señal de “oportunidad”. Se necesita mucho más…

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    29/80

    29

    Ejemplo: la lógica de ítem ausente funciona

    Ejemplo de aplicación potencialmente exitosa en bancos.

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    30/80

    30

    Jerarquía de ítems

    Los análisis de reglas de asociación producen los mejores resultados

    cuando los ítems ocurren en aproximadamente el mismo número detransacciones en los datos. Esto ayuda a impedir que las reglas estén

    dominadas por los ítems más comunes

     Asociaciones significativas y potencialmente útiles pueden no ser

    detectadas cuando itemsets con ítems específicos que corresponden a

    categorías fuertemente asociadas no alcanzan un soporte mínimo

     – Esto tiende a ocurrir cuando hay un número importante de ítems

    distintos que pertenecen a una misma categoría

    Una jerarquía puede ayudar a evitar los efectos de ítems con frecuencia

    muy desigual. Se agregan los ítems infrecuentes usando la jerarquía

    para generar clases de ítems más frecuentes, mientras que los ítemsfrecuentes se mantienen en su nivel

    El nodo Market Basket Analysis en SAS Enterprise Miner utiliza una

     jerarquía de ítems

    Las técnicas simples de análisis de asociación calculan el soporte

     para la combinación de tipos específicos de ítems. Estos soportes podrían no ser

    suficientemente grandes como para generar una regla. Este problema no puederesolverse modificando el umbral de soporte:

    •Umbral demasiado bajo: posiblemente un número grande de reglas

    irrelevantes que habrá que filtrar 

    •Umbral demasiado alto: menor número de reglas probablemente obvias y

     por lo tanto inútiles

    Este problema es tanto más probable cuanto mayor sea la

    diversidad de ítems en categorías dadas. Sin embargo, si se calcula el soporte de

    la combinación de cualquier tipo de ítem dentro de categorías dadas, el valor

    obtenido podría superar el umbral de soporte.

    El nivel apropiado depende del ítem, de su importancia para

     producir resultados “accionables” y de su frecuencia en el conjunto de

    transacciones. Por ejemplo, ítems costosos podrían quedar en un nivel inferior en

    la jerarquía, mientras que ítems menos costosos podrían encontrarse en un nivel

    más general. Este enfoque híbrido es útil también cuando se consideran productos

    individuales de interés dentro de un conjunto grande de ítems. Se generalizan

    todos los ítems excepto los de interés.

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    31/80

    31

    Items virtuales

    Los ítems virtuales son características o propiedades queno forman parte de los ítems considerados o de una jerarquía de los mismos

    Pueden ser características vinculadas a las transacciones(p. ej., día de la semana, modo de pago, etc.), a losclientes que realizaron las transacciones (característicasdemográficas) o clases de ítems que atraviesan la jerarquía (por ejemplo, marcas, fabricantes, etc.)

    Tiene sentido incluir ítems virtuales cuando las reglas quese producirán (que incluirán a estos ítems) resultarán en

    acciones concretas vinculadas con los ítems virtuales El peligro frecuente de incluir ítems virtuales es que puede

    generar reglas triviales o reglas que oscurecen laasociación entre los ítems

    El propósito de los ítems virtuales es permitir que el análisis pueda

    usar información que va más allá de la jerarquía de productos. Los ítems virtuales

    no aparecen en la jerarquía de los ítems originales porque cruzan sus divisiones. No es buena idea usar muchos ítems virtuales ya que pueden

    generar fácilmente reglas triviales. Por ejemplo, sin usamos un ítem virtual para

    “producto dietético” y otro para “gaseosa”, podría fácilmente surgir la regla

    Gaseosa & Producto Dietético Coca-Cola dietética. La regla es trivial porque

    cada vez que aparece el antecedente de la regla, aparecerá el consecuente. La

    regla tiene un lift muy alto porque es prácticamente la definición del

    consecuente. Cuando se usan ítems virtuales, es conveniente verificar

    detenidamente que no estén surgiendo reglas triviales.

    Otro peligro es cuando el lado derecho de la regla no incluye el

    ítem asociado y genera reglas con un sentido oscuro. Por ejemplo, una reglaGaseosa & Producto dietético entonces Papas fritas, puede ocultar la relación

    entre Coca-Cola light y Papas fritas.

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    32/80

    32

    Caracterizar diferencialmente grupos deconsumidores

    Identificar grupos distintos y caracterizarlos permite reconocer características

    importantes de cada grupo que puede aprovecharse para diseñar estrategias de CRM

    (promociones, descuentos, etc.). Una manera de hacerlo es primero generar segmentos usando

    alguna técnica de clustering y luego aplicar un análisis de asociación para caracterizar cada grupomediante las asociaciones de productos más importantes. Caracterizamos cada grupo en base a su

     patrón de compras, tal como lo describen las reglas de asociación más relevantes (p. ej. de mayor

    lift).

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    33/80

    33

    Modelo predictivo de segmentos de clientes

    Se determinan las aprox. 100 asociaciones más relevantes en base

    al soporte. Probablemente se deba explorar diferentes valores de soporte. Estas

    asociaciones se usan en un nodo de código (Profile training data) para marcarcada cliente según posea o no cada asociación. La salida del nodo consiste de un

    registro por cliente con 100 o más variables binarias, cada una de las cuales

    indica si el cliente posee la asociación representada por la variable. Se puede

    agregar a cada cliente información demográfica. También se agrega información

    de segmentación. Luego se construye un árbol de decisiones para predecir la

     pertenencia de los clientes a los distintos segmentos en función, principalmente,

    de su patrón transaccional representado por las asociaciones.

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    34/80

    34

    Modelo de regresión

    Se selecciona un conjunto de reglas de asociación

     A cada regla se le asocian características vinculadas

    con la aplicación o dominio del problema (por ejemplo,

    valor total, ganancia, etc.)

    Cada regla se representa mediante un conjunto de

    variables dummy que indican la presencia o ausencia

    de un ítem (pueden incluirse reglas negativas)

    Se construye un modelo de regresión, usando como

    variable target alguna característica relevante (p. ej.valor total o gasto)

     A partir del modelo puede predecirse el costo o gasto de

    distintas combinaciones de ítems, su elasticidad, etc.

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    35/80

    35

    Errores de concepción: redes neuronales

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    36/80

    36

    Errores de concepción: redes neuronales

    Diversos errores de concepción sobre las redes

    neuronales hacen que estas no se apliquen en los

    contextos apropiados:

    - Qué limitaciones de los métodos tradicionales

    superan

    - Son métodos ineficientes (computacionalmente

    complejos) para hacer predicciones (scoring)

    - Son difíciles de interpretar 

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    37/80

    37

    37

    Limitaciones de los enfoques tradicionales

    Los métodos tradicionales son muy limitados respecto

    del número de variables predictoras que pueden

    considerar:

     – es difícil especificar la forma funcional de modelos

    no lineales y polinomiales con más de unas pocas

    variables

     – la regresión no paramétrica puede fallar debido a la

    escasez relativa de datos en altas dimensiones

    En cambio, una red neuronal tiene, por lo general,

    buena performance en espacios ralos de dimensión

    elevada

    37373737

    1-38

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    38/80

    38

    38

    No se requiere especificar una forma funcional

    La función que describe la relación de entrada-salida nonecesita ser especificada… ni siquiera comprendida.

    38383838

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    39/80

    39

    39

     Aproximador universal Dada una cantidad suficiente de unidades y tiempo,

    una red neuronal puede modelizar cualquier relaciónde I/O, con cualquier grado deseado de precisión.

    Es decir, las redes neuronales son “aproximadores

    universales”.

    39393939

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    40/80

    40

    40

    Desencanto

    “Se muestra que, al menos para los datos usados en este

    estudio, el ajuste logrado [por una regresión] es

    aproximadamente el mismo, pero el proceso de

    configurar y ajustar una red neuronal para una aplicación

    de marketing en bases de datos no es simple, y puede

    requerir una experimentación extensa y considerables

    recursos computacionales”.

    Zahavi and Levin (1997), “Applying Neural Computing to Target Marketing,”

    Journal of Direct Marketing.

    40404040

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    41/80

    4141

    Impacto de datos ruidosos

    414141

    Red neuronal

    regresión

    Red neuronal

    regresión

    señal68

    ruido=   señal 0.76

    ruido=

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    42/80

    42

    42

    Velocidad

    Una red neuronal es uno de los algoritmos más veloces

    para scoring, lo que lo hace muy apropiado para

    predicciones en línea, filtrado de grandes volúmenes de

    datos, etc.

    42424242

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    43/80

    43

    43

    Dificultad de interpretación

    Famosa objeción de la caja negra, usada

    frecuentemente para evitar el uso de redes neuronales.

    Dos modos de responder a la objeción:

    1. Admitir que las redes neuronales son más relevantes

    para tareas puramente predictivas

    2. Aplicar otras técnicas de modelización, como árboles

    de decisiones, para tratar de “abrir” la caja negra

    (modelos subrogantes)

    43434343

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    44/80

    44

    Modelos subrrogantes

    44

    Frontera de decisión 

    Red neuronal 

    Frontera de decisión 

    Modelo subrrogante 

     Aproximar un modelo

    inescrutable con un árbol

    de decisión

    44

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    45/80

    45

    Descripción mediante modelos subrogantes

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    46/80

    46

    Necesidad de un upgrade al data mining“tradicional”

    Modelización de sucesos en el tiempo: Analisis de

    supervivencia

    Modelización de casos no independientes: Análisis de

    redes sociales (SNA)

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    47/80

    47

     Análisis de supervivencia

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    48/80

    48

    Enfoque tradicional de data mining enmodelización predictiva

    4 3 2 1 +1

    Jan Feb Mar Apr May Jun Jul  Aug Sep

    Data set de modelización

    Data set de scor ing   4 3 2 1 +1

    La tabla de modelización proviene del pasado

    El scoring se hace en el presente para nuevos datos

    Las predicciones se hacen para algún periodo fijo en el futuro Los modelos se construyen mediante árboles de decisiones, redes

    neuronales, regresión logística, etc.

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    49/80

    49

    Limitación del data mining tradicional

    Predice la ocurrencia de sucesos específicos en un cierto

    intervalo (relativamente breve) de tiempo futuro, no

    cuándo ocurrirán:

    Sí: Qué clientes probablemente desertarán el mes que

    viene

    No: Cuándo desertarán durante los próximos dos

    años

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    50/80

    50

     Análisis de supervivencia

     Análisis del tiempo transcurrido hasta un suceso o hasta la

    repetición n-ésima de un suceso

    Conceptos, herramientas y terminología provienen de la

    medicina

     – Estimar cuánto sobrevivirán los pacientes en base a

    alguna intervención médica

    Puede medir los efectos de variables (covariables iniciales o

    covariables dependientes del tiempo) sobre el tiempo desupervivencia

    Herramienta natural para comprender la relación con los

    clientes

    El data mining basado en análisis de supervivencia agrega el elemento de cuándo ocurren

    las cosas. La supervivencia es particularmente valiosa para ganar comprensión de los clientes y cuantificar 

    esa comprensión. Una estimación de cuánto durarán los clientes es útil para cálculos de valor, además de

    comparaciones directas entre diversos grupos La estimación de la duración de la relación con el cliente puede refinarse en base a las características del periodo inicial de análisis, además de con los sucesos que

    ocurren durante el ciclo de vida de un cliente.

    El enfoque tradicional y el de supervivencia son complementarios. Ningún enfoque es

    mejor que el otro. Para una campaña específica de marketing basada en el ROI, el enfoque tradicional

    usualmente funciona mejor que el enfoque de supervivencia, porque la campaña ocurre durante un periodo

     particular de tiempo. Para la comprensión de los clientes y cuantificar resultados en el tiempo, el análisis de

    supervivencia es preferible.

    El análisis de supervivencia tiene su origen a finales del siglo XVII, fue utilizado por 

    diversas disciplinas a lo largo del siglo XX (medicina, industria, actuarios, finanzas, marketing, etc.) e

    introducido en data mining a comienzos del siglo XXI por Michael Berry y Gordon Linoff. La referencia

     básica es Berry; Michael J.A. y Linoff; Gordon S. Data Mining Techniques - For Marketing, Sales, and

    Customer Relationship Management. Wiley, Indianapolis, Indiana, 2004, 2a ed., Cap. 12.

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    51/80

    51

     Algunas aplicaciones del análisis de supervivencia

    ¿Cuánto durarán los clientes?

    ¿Cuándo empezar a preocuparse si un cliente no se

    reactiva?

    ¿Cómo cuantificar el valor de un programa de fidelización?

    ¿Cuánto más valioso es un cliente con tarjeta dorada que

    uno con tarjeta ordinaria?

    ¿Cuál será la tasa futura de churn?

    ¿Cuándo será la próxima transacción de un cliente? ¿Cuál es el efecto de diversos factores sobre la duración

    de la relación con el cliente?

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    52/80

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    53/80

    53

    Novedades

    Conceptos: – Tenure (antigüedad o permanencia)

     – Riesgo y su estimación no sesgada

     – Supervivencia

     – Censura

     – Truncado a izquierda

     – Efecto y tipos de covariables

     – Predicción por tipo de cliente

    Herramientas:

     – Gráficos de función de riesgo

     – Gráficos de función de supervivencia – Estratificación

     – Regresión de Cox

     – Tiempo mediano residual

    ¡Cuidado con el

    muestreo!

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    54/80

    54

    Clientes en tiempo calendario y censura

    Tiempo

    Inicio clientes

    Ex clientes (círculos

    blancos)

    Clientes todavía

    activos (circ.

    llenos).

    Hoy

    (fecha censura)

     Ana, Permanencia 12, Activa

    Rober, Permanencia 6,cesó

    Cora, Permanencia 6, cesó

    Diana, Permanencia3, cesó

    Ema, Permanencia 3, Activa

    Fede, Permanencia 5,Cesó

    Gus, Permanencia 6,

    cesó

    Juan Permanencia 9, Activo

    La censura significa eliminar (no incluir) a algunos clientes de algunos de los cálculos de riesgo. Es

    uno de los conceptos más importantes en el análisis de supervivencia. El ejemplo más básico de censura es que los

    clientes que cesaron no se incluyen en los cálculos después de que lo hicieron. Otro ejemplo es el de los clientes cuya

     permanencia es t, pero están actualmente activos. Estos clientes no se incluyen en la población para el riesgo de permanencia t, porque los clientes podrían todavía cesar antes de t + 1. Estos clientes son eliminados para el cálculo de

    ese riesgo particular, aunque son incluidos en los cálculos de los riesgos para valores más pequeños de t. Además de los

    dos tipos de censura anteriores (riesgos para clientes después de que cesaron y riesgos para clientes que todavía están

    activos) existen muchos otros tipos relevantes en los cálculos en distintas clases de fenómenos, tipos de productos o

    servicios, etc.

    El gráfico muestra clientes que iniciaron y cesaron en diferentes momentos. Tres de los clientes

    cesaron en el pasado. Dos cesaron hoy, y tres están todavía activos. Conocemos la permanencia de los ex-clientes,

     porque tenemos una fecha de inicio y una fecha de finalización. Para los clientes activos, no conocemos si cesarán

    mañana o continuarán durante los próximos diez años. Es decir, solo tenemos una cota inferior de su permanencia.

    Decimos que su permanencia está censurada.

    Cuando examinamos los datos más recientes, la fecha de censura es hoy (o la fecha de

    actualización más reciente). Para algunos propósitos, como testeo, a veces es deseable fijar la fecha de censura en un

     punto en el pasado. Cuando hacemos esto, debemos estar seguros de excluir toda información futura. Por ejemplo, si la

    fecha de censura fuera fijada en la barra de más a la izquierda, los datos cambiarían. La permanencia de Ana sería

    menor. Rober, Cora, Ema, Fede y Juan no serían clientes porque no habrían comenzado. Gus todavia estaría activo,

     pero con una menor permanencia. El único cliente que quedaría igual sería Diana.

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    55/80

    55

    Tenure

    Clientes en el tiempo de permanencia

     Ann, Tenure 12, Active

    Bob, Tenure 6, Stopped

    Cora, Tenure 6, Stopped

    Diane, Tenure 3,

    Stopped

    Emma, Tenure 3,

     Active

    Fred, Tenure 5, Stopped

    Gus, Tenure 6, Stopped

    Hal, Tenure 9, Active 09Hal

    16Gus

    15Fred

    03Emma

    13Diane

    16Cora

    16Bob

    012 Ann

    Stop?TenureCust

    El cálculo de riesgo cambia de línea de tiempo: en lugar del tiempo calendario usa el

    tiempo de permanencia. En esta escala, todos los clientes inician en el tiempo 0 y continúan hasta que

    cesan o son censurados. Nótese que los clientes activos son censurados en diferentes momentos. Desde esta

     perspectiva podemos obtener los dos datos necesarios para el cálculo de los riesgos: la antigüedad delcliente y si cesó.

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    56/80

    56

    Riesgos

    El riesgo, h(t), en el tiempo t es la probabilidad de que uncliente que sobrevivió en el tiempo t no sobreviva en el

    tiempo t+1.

    h(t) =

    El valor del riesgo depende de la unidad de tiempo: días,

    semanas, meses, años.

    Difiere de la definición tradicional porque el tiempo es

    discreto, es la probabilidad de riesgo, no la tasa de riesgo

     # clientes que cesan exactamente en t

     # clientes en riesgo de cesar en t

    El riesgo (en realidad la probabilidad de riesgo) es la probabilidad en cualquier punto en

    el tiempo de que un cliente deje de serlo en el tiempo t y antes del tiempo t + 1. El riesgo es una

     probabilidad (condicional), de modo que siempre tiene un valor entre 0 y 1. El valor específico depende de

    las unidades de tiempo usadas.

    Cuando usamos todos los datos, la probabilidad de riesgo es el número de clientes que

    dejaron de serlo con una permanencia particular dividido por el número de clientes con esa permanencia o

    mayor. Esto hace al cálculo particularmente fácil de comprender y visualizar.

    Un supuesto sobre este cálculo es que la tasa de riesgo es estable en el tiempo. Una

    cuestión importante con los clientes es cómo cambian los riesgos. Diversos fenómenos como cambios en la

     política de una empresa pueden hacer que las tasas de riesgo sean inestables.

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    57/80

    57

    Función empírica de riesgo

    0.00%

    0.05%

    0.10%

    0.15%

    0.20%

    0.25%

    0.30%

    0 60 120 180 240 300 360 420 480 540 600 660 720

    Permanencia (días)

       R   i  e  s  g  o   d   i  a  r   i  o

       d  e  c   h  u  r  n

    LasLas irregularidadesirregularidades sese

    debendeben aa variacivariacióónn

    intrasemanalintrasemanal

    BajasBajas por por nono

    pagopago

    LaLa declinacideclinacióónn gradualgradual

    de largode largo plazoplazo eses unauna

    medidamedida dede fidelidadfidelidad

    RiesgoRiesgo alto enalto en

    tiempotiempo 00

    Fin de laFin de la

    promocipromocióónn

    Ejemplo de los clientes suscriptos a un servicio particular (por ejemplo, telefoníacelular). Los riesgos se calculan sobre una base diaria. Miden la probabilidad de que un cliente termine lasuscripción un número dado de días después de haberla contratado. Una unidad diaria de tiempo suele

    tener problemas debido a la irregularidad de las observaciones diarias, su susceptibilidad al ruido(fluctuaciones debidas a cuestiones aleatorias), etc. Muchas veces conviene una perspectiva con unagranularidad un poco menor (p. ej. semanal).

    El análisis de las características de la curva permite una verdadera radiografía de laconducta de los clientes. Algunas de estas características son:

    •Riesgo inicial alto en tiempo cero. La razón de esto es que algunos clientes nunca inician la relación ocesan inmediatamente después de haber iniciado. En algunos casos, podría no quererse incluir a estosclientes. En otros casos, por ejemplo cuando la tasa de clientes que no inician varía por producto, servicio ocanal de adquisición, esta puede ser una medida interesante.

    •Entre los días 60 y 120 hay dos picos cercanos. El primer pico es de terminación por no pago. Los clientesque nunca pagan reciben cartas de cobranza en escalada en relación con su grado de morosidad. Este es unejemplo de un riesgo causado por una política comercial específica.

    •El segundo de estos picos se debe a la finalización de la promoción inicial. La mayoría de los clientes son

    atraídos por una promoción durante un periodo de tiempo. Los clientes que no están suficientementecomprometidos toman la promoción pero no tienen la intención de pagar el precio completo de lasuscripción.

    •Los dos riesgos anteriores se basan en la fecha de compromiso del cliente, el primer día en que incurre encargos. Debido a esto, los picos de no pago y fin de promoción son bastante claros. Si hubiésemos usadootro día, como la fecha de contacto del cliente, los picos podrían no estar tan bien definidos.

    •Además de estos picos, los riesgos tienen una tendencia general con irregularidades. Parte de estas sedeben a la variación intrasemanal. También, hay picos que corresponden al ciclo de facturación típico. Esmás probable que los clientes cesen cuando reciben sus facturas.

    •La tendencia general de los riesgos es una disminución gradual en el tiempo. Esto significa que cuantomás permanecen los clientes en la compañía, menos probable es que cesen. Esta es una buena medida defidelidad.

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    58/80

    58

    Curva de retención (no monotónica)

    0%

    10%

    20%

    30%

    40%

    50%

    60%

    70%

    80%

    90%

    100%

    0 10 20 30 40 50 60 70 80 90 100 110

    Permanencia (Semanas)

       R  e   t  e  n  c   i   ó  n

    Una curva de retención proporciona información sobre cuántos clientesfueron retenidos durante una cierta cantidad de tiempo. Una forma de calcularla es: paralos clientes que iniciaron hace una unidad de tiempo, medir la retención de 1 unidad detiempo, para los clientes que iniciaron hace dos unidades de tiempo, medir la retenciónde dos unidades de tiempo, etc.

     Nótese que la curva es bastante dentada y no monotónica. A veces vahacia arriba y a veces hacia abajo. ¿Qué significa que la retención en las 21 semanas seamás alta que la retención a las 20 semanas? Esperaríamos que el número de personas con

     permanencia de 21 semanas que cesaron incluirían a los que cesaron a las veinte semanasmás un número adicional.

    Una razón podria ser el error de muestreo. Sin embargo, hay otras causas.Por ejemplo, la mezcla de clientes que están siendo adquiridos podrían cambiar entre lasdos semanas. Considérese un centro de telemarketing que utiliza para priorizar sus

    llamadas un puntaje de “buen cliente”. Tal vez los mejores de los buenos clientes fueronllamados hace 21 semanas. Estos son clientes que esperaríamos que tengan una mejor retención. Una semana después (hace 20 semanas) se llamaron a clientes no tan buenos yestos tienen una tasa mayor de cese.

    Otro factor que podría variar en el tiempo es el número de clientes queestán siendo adquiridos. Tal vez el número de inicios descendió a 0 en una de lassemanas. En este caso, la variación del muestreo puede jugar un papel importante en lavariabilidad de la retención.

    Este tipo de curvas ofrece algunas dificultades para algunos cálculos: eltiempo de vida mediano podría no ser uno solo o la retención promedio con una

     permanencia dada podría ser mayor que la retención promedio con una permanencia

    menor.

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    59/80

    59

    Supervivencia vs. retención

    Retención solo usa clientes de un periodo de tiempo estrecho para

    calcular cualquier punto

    Supervivencia usa tanta información como sea posible de todos los

    clientes para calcular cada punto

    0%

    10%

    20%

    30%

    40%

    50%

    60%

    70%

    80%90%

    100%

    0 10 20 30 40 50 60 70 80 90 100 110

    Permanencia (Semanas)

       R  e   t  e  n  c   i   ó  n   /   S  u  p  e  r  v   i  v  e  n  c   i  a

    1)0(

    ))1(1()(1

    =

    −−= ∏=

    t hT S T 

    Los riesgos dan la probabilidad de que un cliente pueda cesar en un punto particular del tiempo. La

    supervivencia da la probabilidad de que un cliente sobreviva hasta ese momento. En cualquier punto del tiempo, la

     probabilidad de que un cliente sobreviva hasta la siguiente unidad de tiempo es 1 – riesgo, lo que se llama

    supervivencia condicional en el tiempo t (condicional porque se supone que el cliente sobrevivió hasta el tiempo t).Para calcular la supervivencia total en un momento t dado, se multiplican todas las supervivencias condicionales hasta

    ese punto del tiempo. La curva de supervivencia es siempre monotónica decreciente.

    El gráfico muestra dos curvas, una para retención y otra para supervivencia, basadas en los mismos

    días. La curva de supervivencia parece una media móvil de la retención, pero no lo es. Un buen modo de comparar las

    dos curvas es definir lo que significan. La curva de supervivencia provee un benchmark de la conducta de churn de los

    clientes. Cada punto en la curva de supervivencia incorpora información de todo el data set. La curva de retención, por 

    otro lado, provee la información más reciente sobre cada punto. Por ejemplo, para la medición de retención de 50

    semanas la información más reciente es la de los clientes que iniciaron hace 50 semanas.

    Desde esta perspectiva, se pueden interpretar las dos curvas de arriba. Durante las primeras

    semanas, la retención es más elevada que la supervivencia. Esto significa que los nuevos clientes de las últimas

    semanas tuvieron una mejor performance que los clientes como un todo durante las primeras semanas de permanencia.

    La adquisición de clientes está atrayendo clientes de mejor calidad. Gran parte de la diferencia ocurre durante la

     primera semana. Tal vez la diferencia se deba a una reducción grande del fenómeno llamado “remordimiento inicial del

    comprador”.

    Durante otros períodos, la retención es inferior a la supervivencia. Esto implica que los clientes

    durante esas semanas fueron peores que los clientes en general. En el ejemplo, la curva de retención y la curva de

    supervivencia son bastante similares. Las diversas diferencias son pequeñas y podrían deberse solamente a variaciones

    aleatorias.

    Debido a que el cálculo de supervivencia usa todos los datos, los valores son más estables que los

    cálculos de retención. Cada punto en una curva de retención se limita a los clientes que iniciaron en un punto particular

    del tiempo. También debido a que una curva de supervivencia es monotónica decreciente, los cálculos de tiempo de

    vida mediano y permanencia promedio son más precisos. Al incorporar más información, la supervivencia provee una

    imagen más precisa de la retención de los clientes. Como la supervivencia es acumulativa, produce un buen valor de

    resumen para comparar diferentes grupos de clientes y mejores estimaciones de retención para los cálculos de valor de

    tiempo de vida del cliente.

    Por otro lado los riesgos hacen más evidentes las causas específicas. Es posible identificar sucesosdurante el ciclo de vida del cliente que son causas de riesgos. Las curvas de supervivencia no destacan esos sucesos tan

    claramente como los riesgos. Pero no tiene sentido comparar riesgos para diferentes grupos de clientes. El enfoque

    apropiado es transformar los riesgos en supervivencia y comparar los valores en las curvas de supervivencia.

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    60/80

    60

    Supervivencia versus Retención

    Retención dice qué ocurrió a un grupo particular declientes.

     – Por ejemplo, los que iniciaron su relación hace

    exactamente 24 semanas

    Cada valor de supervivencia incluye información

    sobre todos los clientes.

     – Porque la supervivencia es el producto de (1-h(t))

    para todos los tiempos, y se usan todos losclientes en h(0)

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    61/80

    61

    Tiempo hasta la próxima compra, estratificado por 

    número de compras previas

    Otro ejemplo de la aplicación de supervivencia es el tiempo hasta la próxima compra

     para sucesos de retail. En este caso, el inicio es cuando el cliente hace una compra. El fin es cuando (si

    ocurre) el cliente hace otra compra. Como supervivencia aquí mide la probabilidad de que un cliente no

    haga una compra, tiene más sentido considerar la inversa, la probabilidad de que un cliente hará unacompra.

    El gráfico muestra el tiempo hasta la próxima compra, estratificado por el número de

    compras en el pasado. La línea gruesa gris es el promedio global para cualquier número de compras.

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    62/80

    62

    Regresión de riesgos proporcionales (Cox)

    La regresión de Cox considera la verosimilitud paratodas las permanencias

    Esta es la verosimilitud de que exactamente esosclientes cesaron cuando lo hicieron, y no en cualquier otro momento

    Gracias a algunos pocos supuestos es posible eliminar los términos relacionados con la permanencia, y soloquedan las covariables

    Los valores de los parámetros se estiman mediantemáxima verosimilitud

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    63/80

    63

    360

    420

    480

    540

    600

    660

    0 60 120 180 240 300 360 420 480 540

    Tenure

       R  e  m  a   i  n   i  n  g   T  e  n  u  r  e

    Tiempo de vida residual mediano

     Al Al deshacersedeshacerse dede loslos queque

    nono intentanintentan pagar pagar , el, el

    tiempotiempo dede vidavida residualresidual

    medianomediano aumentaaumenta

    LaLa permanenciapermanencia medianamediana

    bajabaja debidodebido al churn deal churn de

    aniversarioaniversario

    LaLa permanenciapermanencia medianamedianaaumentaaumenta luegoluego del churndel churn

    dede aniversarioaniversario

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    64/80

    64

    Predicción de supervivencia para dos grupos

    0

    20

    40

    60

    80

    100

    120

    140

           0       6       0

           1       2       0

           1       8       0

           2      4       0

           3       0       0

           3       6       0

          4       2       0

          4       8       0

          5      4       0

           6       0       0

           6       6       0

          7       2       0

          7       8       0

           8      4       0

           9       0       0

           9       6       0

           1       0       2       0

           1       0       8       0

    Days in the Future

       C  u  s   t  o  m  e  r  s

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    65/80

    65

    Existing

    Customer 

    Base

    New Start

    Forecast

    Do Existing Base

    Forecast (EBF)

    Do New Start

    Forecast (NSF)

    Do Existing Base

    Churn Forecast

    (EBCF)

    Do New Start Churn

    Forecast (NSCF)

    Existing Customer 

    Base Forecast

    New Start

    Forecast

    Churn

    Forecast

    Churn

     Actuals

    Compare

    Combinación de la base de nuevos clientescon la existente

    Parte de la predicción se basa en predecir que ocurrirá con la base existente, pero este es

    solo un componente. La parte más difícil es pronosticar qué ocurrirá con los clientes que iniciarán en el

    futuro. Esto requiere una predicción de los inicios a lo largo del tiempo, pero también de los ceses en esos

    tiempos.

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    66/80

    66

    Técnicas de Análisis de

    redes sociales

    El análisis de redes sociales surge como un paradigma clave en la sociología, tecnología y ciencias

    de la información modernas. El paradigma surge de la concepción de que los atributos de un individuo inmerso en una

    red social son menos importantes que sus vínculos (relaciones) con otros individuos en la red. Explorar la naturaleza y

    fuerza de estos vínculos puede ayudar a comprender la estructura y dinámica de las redes sociales y explicar fenómenosdel mundo real, que van desde cuestiones de eficiencia de una organización hasta la difusión de la información y las

    enfermedades, pasando por distintas cuestiones relevantes al mundo de BI como fraude, churn, marketing y otras.

    •Barabasi, A.-L. Linked – The new science of networks. Perseus Publishing, Cambridge, 2002.

    •Breiger, R. et al. (comps.). Dynamic Social Network Modeling and Analysis. National Academies Press, Washington

    D.C., 2003.

    •Galaskiewicz, J. y Wasserman, S. “Social Network Analysis – Concepts, Methodology, and Directions for the 1990s”.

    Sociological Methods and Research, Vol. 22, No. 1, August 1993, pp. 3-22

    •Hanneman, Robert A. Introduction to Social Network Methods. http://faculty.ucr.edu/~hanneman/nettext/

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    67/80

    67

    Fraude

    Delito sofisticado, se manifiesta en forma distinta endiferentes industrias

    Produce pérdidas millonarias

    Permanentemente se desarrollan nuevas estrategiasde fraude

    Los ataques suelen ser veloces, en intervalos detiempo cortos

    Suele no haber datos supervisados disponibles o muypocos datos

    Frecuentemente involucran a varias personas y otrosobjetos en relación

    Son necesarias técnicas híbridas y relacionales dedata mining

    Hay muchos tipos de fraude: “first party”, fraude con tarjetas de crédito, fraude

    impositivo, fraude con seguros de salud, fraudes en denuncias de seguros, etc. Otras conductas que pueden

    analizarse de modos similares: churn/adopción por contagio, cross-selling, financiamiento de terrorismo,

    lavado de dinero, marketing viral, marketing B2B, etc.

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    68/80

    68

    Fraude “ first party”

    Fraude cometido por los propios clientes de una

    institución

    Usualmente abren una cuenta corriente, realizan muchas

    transacciones y luego solicitan créditos sin garantía

    prendaria que nunca pagan

    La unidad de análisis es una red con diversos tipos de

    entidades (clientes, cuentas, números de teléfonos,

    direcciones, transacciones)

    Fraude “First party” es cuando uno o más individuos establecen una relación con un

     banco (usualmente abren una cuenta corriente), realizan muchas transacciones para incrementar su puntaje

    como clientes y luego solicitan créditos sin cobertura que nunca pagan.

    Se usan diversos tipos de indicadores: la red se cierra sobre si misma debido al reciclado

    de direcciones y teléfonos; tasa grande de cuentas sin garantía que se abren rápidamente; evolución en el

    tiempo; métricas sobre el grafo; reglas.

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    69/80

    69

    Red de fraude “ third party”

    Cuentas

    s/garantía

    Individuo

    Fono

    Dirección

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    70/80

    70

    Evolución en el tiempo

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    71/80

    71

    SNA (Análisis de redes sociales)

    SNA es un conjunto de métodos relacionales paracomprender e identificar conexiones entre actores(puntos, nodos o agentes)

    Enfoque que intenta superar las limitaciones de lastécnicas no relacionales (independencia entre loscasos, atributos en lugar de relaciones, etc.)

    Utiliza técnicas matemáticas (esp. teoría de grafos) eimportantes recursos computacionales

    Las redes sociales pueden involucran un gran número

    de objetos (p. ej., 60 millones de celulares, 300-400millones de vínculos, 7-9 millones de subredes, etc.) yestructuras (subredes) anidadas

    Otras características:

    •Dado la relación entre los actores, es difícil implementar muestreos aleatorios de observaciones

    independientes.

    •Estructura “multimodal”: subredes anidadas en otras (red de relaciones familiares anidada en la red de

    relaciones sociales de grupos, anidada en la red de relaciones sociales de comunidades, etc.)

    •Muchos análisis solo representan una relación o vínculo entre los actores. Algunos pocos análisis son

    multirrelacionales.

    •Las relaciones pueden ser binarias, nominales, ordinales o de intervalo.

    •El análisis de redes sociales surge de la sociología matemática (inicialmente de los sociogramas).

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    72/80

    72

    Novedades

    Conceptos

     – Varios niveles de análisis (no solo los casos

    individuales)

     – Contagio, difusión, cohesión, roles

     – Muestreo agrupado en lugar de muestreo simple o

    estratificado, y en muchos casos, toda la población

     – Investigación (en lugar de modelización)

     – Conceptos de teoría de grafos

    Herramientas

     – Grafos (muy grandes) – Graficación interactiva

     – Alarmas basadas en métricas

     – Inferencia colectiva

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    73/80

    73

     Actores y relaciones

    Los actores se describen por sus relaciones, no por

    sus atributos

    Las relaciones son tan fundamentales como los

    actores a los que conectan (mucho menos los

    atributos de los actores)

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    74/80

    74

    Niveles de análisis de una red

    Redes-ego: actor y actores (alter) conectados con él

     – Roles (líder, seguidor, marginal, antagonista)

     – Métricas: densidad de conexiones, centralidad

    Redes parciales: redes ego más conexiones entre

    esas redes

     – Métricas: diámetro, densidad de conexiones, etc.

    Red global

     – Métricas: diámetro, densidad de conexiones, etc.

    •Densidad de conexiones (coeficiente de clustering): tasa entre el número efectivo de conexiones

    y las posibles

    •Diámetro: distancia máxima entre dos nodos

    Las métricas sobre comunidades se aplican sobre subredes determinadas

     previamente mediante algún algoritmo de detección de comunidades.

    Coeficiente de clustering: http://en.wikipedia.org/wiki/Clustering_coefficient

    Centralidad: http://en.wikipedia.org/wiki/Centrality

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    75/80

    75

    Métodos de recolección de datos

    Como los métodos de redes se concentran en las relaciones

    entre los actores, estos no pueden muestrearse

    independientemente de los actores con los que están

    vinculados

    Métodos de red completa

    Métodos en cascada (“snowball”)

    Redes egocéntricas (conexiones alter)

    Redes egocéntricas (solo ego)

    •Métodos de red completa: produce un máximo de información, pero es costoso, difícil de realizar y puede

    ser difícil de generalizar. La definición y medición de muchos conceptos estructurales del análisis de redes

    requiere de información completa.

    •Métodos en cascada (“snowball”): Se parte de un actor o conjunto de actores focales. La recolección de

    datos continúa con los actores vinculados a los actores focales y así siguiendo hasta un criterio de

    detención. Particularmente útil para registrar datos de poblaciones “especiales”. Problemas: Actores no

    conectados (aislados) no pueden localizarse con este método; sesgo hacia las conexiones; no se garantiza

    encontrar todos los actores conectados en la población (esto puede depender de la elección de los actores

    focales).

    •Redes egocéntricas (conexiones alter): Similar a los métodos en cascada pero se parte de una muestra de

    nodos focales y se determina que actores están vinculados entre sí. Puede ser bastante efectivo en

     poblaciones grandes y puede combinarse con enfoques basados en atributos. Sin embargo, muchas

     propiedades de una red como distancia, centralidad, etc. no pueden evaluarse con este tipo de datos.

    •Redes egocéntricas (solo ego): Recogen información de los nodos focales, pero no de los vínculos entre

    los alter. En principio pierden mucha información sobre la red, pero pueden ser métodos útiles para tiposespeciales de redes (redes egocéntricas).

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    76/80

    76

    Tareas del investigador 

    Desde las entidades hacer drill down a reportes de

    detalle

    Examinar detalles de un alerta

    Explorar y anotar redes sociales

    Responder a las alertas

    Referir las alertas a un manejo de casos

    Detección de comunidades (descubrir subestructuras)

    Detección de roles

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    77/80

    77

     Análisis bottom-up vs. top-down

    Bottom-up: Una entidad dispara una alerta. El

    investigador expande los vínculos para examinar una

    o dos capas alrededor de la entidad.

    Top-down: La red globalmente dispara una alerta

    dibido a asociaciones entre múltiples entidades de

    varios tipos. Se analiza la red globalmente.

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    78/80

    78

    Conceptos de teoría de grafos

    Cliques

    Subredes desconectadas

    Bloques y puntos de corte

    Facciones

    Vecindades de un paso

    Etc.

    •Cliques: red donde cada nodo está conectado con todos los demás.

    •Bloques y puntos de corte: componentes que quedarían desconectados si se eliminase un nodo o relación.

    •Facciones: componente en el que los miembros están más estrechamente conectados entre sí que conmiembros de otras facciones

    •Vecindades de un paso: componente generado seleccionando un nodo, los nodos conectados con ese nodo

    y las conexiones entre estos otros nodos.

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    79/80

    79

    Diagrama conceptual genérico

    ExploreExploreexistingexisting

    informationinformation

    ExtractExtract datadata  MeasureMeasure

    social linkssocial links A B

     Assign Assign rolesroles

    DetectDetectcommunitiescommunities

    QualifyQualifycommunitiescommunities

     Entirenetwork

     Communities (maxmodularity)

    Results

     Apply Apply SNASNAmetricsmetrics

     Entirenetwork

     Community

     Actors

    1

    2

    3   4

    567

  • 8/18/2019 Técnicas Avanzadas de Data Mining

    80/80

    80

    Cursos apropiados

    Usos inapropiados de las tecnicas tradicionales: regresion logística

    Modelización predictiva con regresión logística

    Modelizacion predictiva avanzada con SAS Enterprise Miner 

    Usos insuficientes de tecnicas tradicionales: reglas de asociación

     Análisis de reglas de asociación

    Errores de concepción: redes neuronales

    Modelización con redes neuronales

     Análisis de supervivencia

     Análisis de supervivencia en Data Mining

     Análisis de redes socialesTécnicas de análisis de redes sociales

    http://www.sas.com/argentina/educacion