Click here to load reader

Capítulo Capítulo 7 Clasificación Bayesiana (Método de ...³n... · Tomado del libro: Probabilidad y estadística para ingenieros - R. Walpole, R. Myers ... 10 PF-3808 Minería

  • View
    218

  • Download
    0

Embed Size (px)

Text of Capítulo Capítulo 7 Clasificación Bayesiana (Método de ...³n... · Tomado del libro:...

  • 1

    Universidad de Costa RicaPF-3808 Minera de Datos

    Captulo Captulo 77Clasificacin BayesianaClasificacin Bayesiana(Mtodo de (Mtodo de NaveNave BayesBayes))

    Universidad de Costa RicaPF-3808 Minera de Datos

    Tareas de la Minera de Datos

    Clasificacin (discriminacin): Mapea o asocia individuos a grupos predefinidos (aprendizaje supervisado). Encuentra modelos (funciones) que describen

    y distinguen clases o conceptos para futuras predicciones.

    Ejemplos: Credit scoring.

    Mtodos: Anlisis discriminante, decision-tree, classification rule, neural network.

  • 2

    Universidad de Costa RicaPF-3808 Minera de Datos

    v1v2

    v4

    v3

    v5

    v6

    v8

    Universidad de Costa RicaPF-3808 Minera de Datos

    Definicin de Clasificacin

    Dada una base de datos = {1, 2, , } de tuplas o registros (individuos) y un conjunto de clases = {1, 2 , , }, el problema de la clasificacin es encontrar una funcin : tal que para cada es asignada una clase .

    : podra ser una Red Neuronal, un rbol de Decisin, un modelo basado en Anlisis Discriminante, o una Red Beyesiana.

  • 3

    Universidad de Costa RicaPF-3808 Minera de Datos

    Ejemplo: Crditos en un BancoTabla de Aprendizaje

    Con la Tabla de Aprendizaje se entrena (aprende) el modelo matemtico de prediccin, es decir, a partir de esta tabla se calcula la funcin f de la definicin anterior.

    Variable Discriminante

    Universidad de Costa RicaPF-3808 Minera de Datos

    Descripcin de Variables

    MontoCredito MontoCuota

    1=Muy Bajo 1=Muy Bajo

    2=Bajo 2=Bajo

    3=Medio 3=Medio

    4=Alto 4=Alto

    IngresoNeto GradoAcademico

    1=Muy Bajo 1=Bachiller

    2=Bajo 2=Licenciatura

    3=Medio 3=Maestra

    4=Alto 4=Doctorado

    CoeficienteCreditoAvaluo BuenPagador

    1=Muy Bajo 1=SI

    2=Bajo 2=NO

    3=Medio

    4=Alto

  • 4

    Universidad de Costa RicaPF-3808 Minera de Datos

    Ejemplo: Crditos en un BancoTabla de Testing

    Con la Tabla de Testing se valida el modelo matemtico de prediccin, es decir, se verifica que los resultados en individuos que no participaron en la construccin del modelo es bueno o aceptable.

    Variable Discriminante

    Universidad de Costa RicaPF-3808 Minera de Datos

    Ejemplo: Crditos en un BancoNuevos Individuos

    Con la Tabla de Nuevos Individuos se predice si estos sern o no buenos pagadores.

    Variable Discriminante

  • 5

    Universidad de Costa RicaPF-3808 Minera de Datos

    Clculo de ProbabilidadesTomado del libro: Probabilidad y estadstica para ingenieros - R. Walpole, R. Myers

    Universidad de Costa RicaPF-3808 Minera de Datos

    Probabilidad Condicional

    Ejemplo: Se lanza un dado y se tienen los siguientes eventos:A: Se observa un nmero impar.B: Se observa un 1.

    P(B)=1/6 pues solo hay un caso favorable {1} y hay 6 casos posibles {1,2,3,4,5,6}

    P(B|A)=1/3 pues solo hay un caso favorable {1} y hay nicamente 3 casos posibles {1,3,5}, como ya ocurri A el dado debe ser impar por lo que el universo de posibilidades se reduce a los nmeros impares.

    Ntese que A={1} por lo que P(A)=1/6, adems P(A)=3/6 pues hay 3 casos favorables {1,3,5} y 6 casos posibles {1,2,3,4,5,6}.

    Entonces: ESTO SIEMPRE SE CUMPLE

  • 6

    Universidad de Costa RicaPF-3808 Minera de Datos

    Definicin de Probabilidad Condicional

    Universidad de Costa RicaPF-3808 Minera de Datos

    Teorema de la Probabilidad Total

  • 7

    Universidad de Costa RicaPF-3808 Minera de Datos

    Teorema de la Probabilidad Total

    Universidad de Costa RicaPF-3808 Minera de Datos

    Ejemplo: Cierto artculo es manufacturado por tres fbricas, F1, F2, y F3. Se sabe que la primera fbrica produce el doble que la segunda, y que la segunda fbrica produce igual que la tercera. Se sabe adems que el 2% de los artculos producidos por las dos primeras fbricas son defectuosos, mientras que el 4% de los artculos producidos por la tercera fbrica son defectuosos.

    Si se colocan todos los artculos en una fila y se escoge uno al azar cul es la probabilidad de que este artculo sea defectuoso?

    SoluciSoluciSoluciSolucin: n: n: n: Sea S el espacio muestral completo y considere los siguientes eventos:

    B={El artculo es defectuoso}

    A1={El artculo fue fabricado en F1}

    A2={El artculo fue fabricado en F2}

    A3={El artculo fue fabricado en F3}

    Ntese que 0 = 11 12 13, entonces:

    3456 = 345|11634116 + 345|12634126 + 345|13634136

    3456 =2

    100

    12

    +2

    100

    14

    +4

    100

    14

    =5

    200= 0,025

  • 8

    Universidad de Costa RicaPF-3808 Minera de Datos

    Teorema de Nave Bayes

    Universidad de Costa RicaPF-3808 Minera de Datos

    Teorema de Nave Bayes

  • 9

    Universidad de Costa RicaPF-3808 Minera de Datos

    Ejemplo: Siguiendo con el ejemplo anterior, supngase que se escoge un artculo al azar y que este resulta defectuoso. Cul es la probabilidad de que este artculo haya sido producido en la primera fabrica?

    Solucin:Solucin:Solucin:Solucin: Deseamos calcular 3411|56, usando el Teorema de Nave Bayes, esto es:

    3411|56 =345|116 34116

    345|1 6 341 63 =1=

    345|116 34116345|11634116 + 345|12634126 + 345|13634136

    3411|56 =

    2100

    12

    2100

    12 +

    2100

    14 +

    4100

    14 =

    5200

    =0,01

    0,025= 0,4

    Universidad de Costa RicaPF-3808 Minera de Datos

    Eventos Independientes

  • 10

    Universidad de Costa RicaPF-3808 Minera de Datos

    Ejemplo de Clasificacin BayesianaSupongamos que tenemos la siguiente tabla de datos con el Gnero y la Altura para 15 individuos,

    adems se tiene una columna con la clasificacin para cada individuo en P=Pequeo, M=Mediano

    o A=Alto. La variable Gnero tiene dos modalidades F=Femenino y M=Masculino, mientras que la

    variables Altura tiene 6 modalidades 1 si Altura]0,1.6], 2 si Altura]1.6,1.7], 3 si

    Altura]1.7,1.8], 4 si Altura]1.8,1.9], 5 si Altura]1.9,2] y 1 si Altura]2,+].

    Nombre Gnero Altura Clase

    Kristina F 1 P

    Jim M 5 A

    Maggi F 4 M

    Martha F 4 M

    Stephanie F 2 P

    Bob M 4 M

    Kathy F 1 P

    Dave M 2 P

    Worth M 6 A

    Steven M 6 A

    Debbie F 3 M

    Todd M 5 M

    Kim F 4 M

    Amy F 3 M

    Wynette F 3 M

    Universidad de Costa RicaPF-3808 Minera de Datos

    Ejemplo de Clasificacin Bayesiana

    Supongamos que se tiene una nueva fila de la base de datost = (Adam, M, 5, ?).

    El problema es: a partir de los datos histricos y usandoClasificacin Bayesiana predecir si Adam corresponde a un

    individuo Pequeo, Mediano o Alto, es decir, saber si tiene

    mayor probabilidad de ser Pequeo, Mediano o Alto.

    Un anlisis a la ligera dira que es alto pues Todd es M y 5 yfue clasificado como Alto. Sin embargo, esto no quiere decir

    que necesariamente sea Alto, pues por ejemplo podra ser

    que existan muchas personas Medianas lo cual aumentara la

    probabilidad de ser Mediano.

    Lo que se hace en estos caso es calcular P(Pequeo|t),P(Mediano|t) y P(Alto|t) para determinar cul es mayor.

  • 11

    Universidad de Costa RicaPF-3808 Minera de Datos

    Ejemplo de Clasificacin Bayesiana

    343ABCAE|6 = 34|3ABCA E6343ABCA E634|3ABCA E6343ABCA E6+34|FAGHE 634FAGHE 6+34|1IE 6341IE 6

    .

    Tenemos que:

    343ABCAE6 =4

    15, 34FAGHE6 =

    815

    K 341IE6 =3

    15

    Como t = (Adam, M, 5, ?), este es un evento que corresponde realmente a dos eventos

    independientes, ser M=Masculino y ser de Altura=5. As:

    34|3ABCAE6 = 34FHLMCIE|3ABCAE6 3N41ICOH = 56P3ABCAEQ =14

    04

    = 0.

    34|FAGHE6 = 34FHLMCIE|FAGHE6 3N41ICOH = 56PFAGHEQ =28

    18

    =1

    32.

    34|1IE6 = 34FHLMCIE|1IE6 3N41ICOH = 56P1IEQ =33

    13

    =13

    .

    Universidad de Costa RicaPF-3808 Minera de Datos

    Ejemplo de Clasificacin Bayesiana

    Entonces:

    343ABCAE|6

    =34|3ABCAE6 343ABCAE6

    34|3ABCAE6 343ABCAE6 + 34|FAGHE6 34FAGHE6 + 34|1IE6 341IE6

    =0 415

    0 415 +1

    32 8

    15 +13

    315

    = 0

    34FAGHE|6

    =34|FAGHE6 34FAGHE6

    34|3ABCAE6 343ABCAE6 + 34|FAGHE6 34FAGHE6 + 34|1IE6 341IE6

    =

    132

    815

    0 415 +1

    32 8

    15 +13

    315

    = 0,2

  • 12

    Universidad de Costa RicaPF-3808 Minera de Datos

    Ejemplo de Clasificacin Bayesiana

    341IE|6

    =34|1IE6 341IE6

    34|3ABCAE6 343ABCAE6 + 34|FAGHE6 34FAGHE6 + 34|1IE6 341IE6

    =

    13

    315

    0 415 +1

    32 8

    15 +13

    315

    = 0,806

    Por lo tanto Adam tiene mayor probabilidad de ser alto.

    Universidad de Costa RicaPF-3808 Minera de Datos

    Ejemplo: Crditos en un Banco

    Dada esta de Aprendizaje predecir para los siguientes individuos si van a ser buenos o malos pagadores.

  • 13

    Universidad de Costa RicaPF-3808 Minera de Datos

    Ejemplo: Crditos en un BancoNuevos Individuos

    Se tiene una nueva fila de la base de datos t = (100,2,4,2,2,3,?). El problema es: a partir de la tabla de aprendizaje y usando

    Clasificacin Bayesiana predecir si el individuo #100

    corresponde a un buen pagador o a un mal pagador.

    Lo que se hace en estos caso es calcular P(Bueno|t) y P(Malo|t)para determinar cul es mayor, en donde por bueno se

    entiende que la variable BuenPagador=1 y por malo que

    BuenPagador=2.

    Hay que hacer los mismo con el #101 y el #102 TAREA.

    Universidad de Costa RicaPF-3808 Minera de Datos

    Ejemplo de Clasificacin Bayesiana

    345CAE|6 =34|5CAE6 345CAE6

    34|5CAE6 345CAE6 + 34|FHIE6 34FHIE6

    345CAE6 =6

    10 K 34FHIE6 =

    410

    Como t = (100,2,4,2,2,3,?), este es un evento que corresponde realmente a 5 eventos

    independientes, tener MontoCredito=2, IngresoNeto=4, CoeficienteCreditoAvaluo=2,

    MontoCuota=2 y GradoAcademico=3. As:

    34|5CAE6= 344MontoCredito = 26|5CAE6 3N4IngresoNeto = 46P5CAEQ

    3N4CoeficienteCreditoAvaluo = 26P5CAEQ 344MontoCuota = 2 6|5CAE6

    344GradoAcademico = 36|5CAE6 =26

    46

    26

    16

    16

    =16

    7776= 0,002.

  • 14

    Universidad de Costa RicaPF-3808 Minera de Datos

    Ejemplo de Clasificacin Bayesiana

    34|FHIE6= 344MontoCredito = 26|FHIE6 3N4IngresoNeto = 46PFHIEQ

    3N4CoeficienteCreditoAvaluo = 26PFHIEQ 344MontoCuota = 2 6|FHIE6

    344GradoAcademico = 36|FHIE6 =04

    04

    04

    04

    04

    = 0.

    345CAE|6 =34|5CAE6 345CAE6

    34|5CAE6 345CAE6 + 34|FHIE6 34FHIE6=

    167776

    610

    167776

    610 + 0

    410

    = 1

    Por lo que 34FHIE|6 = 0. Pero lo vamos a verificar:

    34FHIE|6 =34|FHIE6 34FHIE6

    34|5CAE6 345CAE6 + 34|FHIE6 34FHIE6=

    0 41016

    7776 6

    10 + 0 4

    10

    = 0.

    Por lo que claramente el individuo #100 tiene una probabilidad mxima de ser un buen pagador.

    Universidad de Costa RicaPF-3808 Minera de Datos

    Nave Bayes SQL2005 Analysis Service

    Cree o importe en SQL Server Management Studio una tabla de aprendizaje:

  • 15

    Universidad de Costa RicaPF-3808 Minera de Datos

    Nave Bayes SQL2005 Analysis Service

    Cree o importe en SQL Server Management Studio una tabla de testing o prediccin:

    Universidad de Costa RicaPF-3808 Minera de Datos

    Nave Bayes SQL2005 Analysis Service

    Cree en SQL Analysis Service un nuevo proyecto con estas dos tablas:

  • 16

    Universidad de Costa RicaPF-3808 Minera de Datos

    Nave Bayes SQL2005 Analysis Service

    Use el algortimo Microsoft Nave Bayes y selecciones como Case Table (tabla de individuos) la tabla de aprendizaje:

    Universidad de Costa RicaPF-3808 Minera de Datos

    Nave Bayes SQL2005 Analysis Service

    Selecciones la variable a predecir o dependiente (predict) y las variables de aprendizaje o independientes (input), para esto ltimo puede usar el botn Suggest.

  • 17

    Universidad de Costa RicaPF-3808 Minera de Datos

    Nave Bayes SQL2005 Analysis Service

    La variable a predecir debe ser discreta (o sea varchar en SQL) y las variables de aprendizaje deben ser discretizadas (o sea int en SQL).

    Universidad de Costa RicaPF-3808 Minera de Datos

    Nave Bayes SQL2005 Analysis Service

    El SQL Analysis Service tiene 4 diferentes grficos que ayudan a interpretar las clases existentes en la tabla de aprendizaje.

  • 18

    Universidad de Costa RicaPF-3808 Minera de Datos

    Universidad de Costa RicaPF-3808 Minera de Datos

    Nave Bayes SQL2005 Analysis Service

    Para predecir en el Tab Mining Model Prediction seleccione el modelo de minera (Mining Model) y la tabla de entrada (Input Table). Esta es la tabla de testing o de prediccin.

  • 19

    Universidad de Costa RicaPF-3808 Minera de Datos

    Nave Bayes SQL2005 Analysis Service

    En el Tab SQL construya un query DMX para hacer la prediccin, usando Design, Query y Result

    Universidad de Costa RicaPF-3808 Minera de Datos

    Nave Bayes SQL2005 Analysis Service

    Para construir el Query visualmente en Source seleccione el modelo (nombre que le di al modelo), el Field seleccione la variable a predecir y en Alias el nombre con se desplegar la prediccin.

  • 20

    Universidad de Costa RicaPF-3808 Minera de Datos

    Nave Bayes SQL2005 Analysis Service

    Finalmente en el Tab SQL seleccione Query si quiere editar la consulta DMX y Result para ver los resultados.

    Universidad de Costa RicaPF-3808 Minera de Datos

    Nave Bayes SQL2005 Analysis Service

    Finalmente se desplegan las predicciones para cada uno de los individuos (cases) en la tabla de prediccin.

    Comparando con la tabla de testing, podemos notar que acert 4 de 5 casos, es decir, el modelo tiene un 80% de buena prediccin, lo cual es aceptable.

  • 21

    Universidad de Costa RicaPF-3808 Minera de Datos

    Gracias.