120
i SPSS Classification Trees 16.0

SPSS Classification Trees 16.0

Embed Size (px)

Citation preview

  • iSPSS Classification Trees

    16.0

  • Si desea obtener ms informacin sobre los productos de software de SPSS, visite nuestra pgina Web en http://www.spss.com o pngaseen contacto con

    SPSS Inc.233 South Wacker Drive, 11th FloorChicago, IL 60606-6412 EE.UU.Tel: (312) 651-3000Fax: (312) 651-3668

    SPSS es una marca registrada; los dems nombres de productos son marcas comerciales de SPSS Inc. para los programas de software de supropiedad. El material descrito en este software no puede ser reproducido ni distribuido sin la autorizacin expresa por escrito por parte de lospropietarios de la marca registrada y de los derechos de la licencia en el software y en los copyrights de los materiales publicados.

    El SOFTWARE y la documentacin se proporcionan con DERECHOS LIMITADOS. Su uso, duplicacin o revelacin por parte del Gobierno estnsujetos a las restricciones establecidas en la subdivisin (c)(1)(ii) de la clusula Rights in Technical Data and Computer Software en 52.227-7013.El fabricante es SPSS Inc., 233 South Wacker Drive, 11th Floor, Chicago, IL 60606-6412, EE.UU.N de patente 7,023,453

    Aviso general: El resto de los nombres de productos mencionados en este documento se utilizan slo con fines identificativos y pueden ser marcascomerciales de sus respectivas empresas.

    Windows es una marca comercial registrada de Microsoft Corporation.

    Apple, Mac y el logotipo de Mac son marcas comerciales de Apple Computer, Inc., registradas en Estados Unidos y en otros pases.

    Este producto utiliza WinWrap Basic, Copyright 1993-2007, Polar Engineering and Consulting, http://www.winwrap.com.

    SPSS Classification Trees 16.0Copyright 2007 de SPSS Inc.Reservados todos los derechos.

    Queda prohibida la reproduccin, el almacenamiento en sistemas de recuperacin o la transmisin de cualquier parte de esta publicacin encualquier forma y por cualquier medio (electrnico o mecnico, fotocopia, grabacin o cualquier otro) sin previa autorizacin expresa ypor escrito de parte del editor.

    1 2 3 4 5 6 7 8 9 0 10 09 08 07

  • Prefacio

    SPSS 16.0 es un sistema global para el anlisis de datos. El mdulo adicional opcional SPSSrboles de clasificacin proporciona las tcnicas de anlisis adicionales que se describen en estemanual. El mdulo adicional rboles de clasificacin se debe utilizar con el sistema Base deSPSS 16.0 y est completamente integrado en dicho sistema.

    Instalacin

    Para instalar SPSS rboles de clasificacin mdulo adicional, ejecute el Asistente paraautorizacin de licencia utilizando el cdigo de autorizacin que le envi SPSS Inc. Si deseaobtener ms informacin, consulte las instrucciones de instalacin proporcionadas con SPSSrboles de clasificacin mdulo adicional.

    Compatibilidad

    SPSS est diseado para ejecutarse en gran cantidad de sistemas de ordenadores. Consulte lasinstrucciones de instalacin entregadas con su sistema para obtener informacin especfica acercade los requisitos mnimos y los recomendados.

    Nmeros de serie

    El nmero de serie es su nmero de identificacin con SPSS Inc. Necesitar este nmero cuandose ponga en contacto con SPSS Inc. para recibir informacin sobre asistencia, formas de pago oactualizacin del sistema. El nmero de serie se incluye en el sistema Base de SPSS.

    Servicio al cliente

    Si tiene cualquier duda referente a la forma de envo o pago, pngase en contacto con su oficinalocal, que encontrar en la pgina Web de SPSS en http://www.spss.com/worldwide. Tengapreparado su nmero de serie para identificarse.

    Cursos de preparacin

    SPSS Inc. ofrece cursos de preparacin, tanto pblicos como in situ. En todos los cursos habrtalleres prcticos. Estos cursos tendrn lugar peridicamente en las principales capitales. Sidesea obtener ms informacin sobre estos cursos, pngase en contacto con su oficina local queencontrar en la pgina Web de SPSS en http://www.spss.com/worldwide.

    iii

  • Asistencia tcnica

    El servicio de asistencia tcnica de SPSS est a disposicin de todos los clientes de mantenimiento.Los clientes podrn ponerse en contacto con este servicio de asistencia tcnica si desean recibirayuda sobre el uso de SPSS o sobre la instalacin en alguno de los entornos de hardwareadmitidos. Para ponerse en contacto con el servicio de asistencia tcnica, consulte la pgina Webde SPSS en http://www.spss.com, o pngase en contacto con la oficina ms cercana, que encontraren la pgina Web de SPSS en http://www.spss.com/worldwide. Tenga preparada la informacinnecesaria para identificarse personalmente, a su organizacin y el nmero de serie de su sistema.

    Publicaciones adicionales

    Puede adquirir copias adicionales de los manuales de los productos directamente de SPSSInc. Visite la seccin Store de la pgina Web de SPSS en http://www.spss.com/estore opngase en contacto con su oficina de SPSS local que encontrar en la pgina Web de SPSS enhttp://www.spss.com/worldwide. Para pedidos telefnicos en Estados Unidos y Canad, llame aSPSS Inc. al 800-543-2185. Para pedidos telefnicos desde otros pases, pngase en contacto conla oficina ms cercana que encontrar en la pgina Web de SPSS.

    El libro SPSS Statistical Procedures Companion, de Marija Noruis, ha sido publicado porPrentice Hall. Est prevista una nueva versin de este libro, actualizado para SPSS 16.0. Ellibro SPSS Advanced Statistical Procedures Companion, que tambin se basa en SPSS 16.0, sepublicar muy pronto. El libro SPSS Guide to Data Analysis para SPSS 16.0 tambin est enproceso de desarrollo. Las publicaciones anunciadas de forma exclusiva por Prentice Hall estarndisponibles en la pgina Web de SPSS en http://www.spss.com/estore (seleccione su pas deorigen y pulse en Books).

    Dganos su opinin

    Sus comentarios son importantes. Hganos saber su experiencia con los productos SPSS.Nos interesa especialmente recibir noticias sobre aplicaciones nuevas e interesantes para elsistema SPSS rboles de clasificacin mdulo adicional. Envenos un correo electrnico [email protected] o escriba a SPSS Inc., Attn.: Director of Product Planning, 233 South WackerDrive, 11th Floor, Chicago, IL 60606-6412, EE.UU.

    Acerca de este manual

    Este manual es la documentacin de la interfaz grfica del usuario para los procedimientosincluidos en el mdulo SPSS rboles de clasificacin mdulo adicional. Las ilustraciones delos cuadros de dilogo estn tomadas de SPSS . La informacin detallada sobre la sintaxisde comandos para las caractersticas de SPSS rboles de clasificacin mdulo adicional estdisponible en dos formatos: integrada en el sistema de ayuda global y como un documentoindependiente en formato PDF en SPSS 16.0 Command Syntax Reference, disponible en el menAyuda.

    Cmo ponerse en contacto con SPSS

    Si desea que le incluyamos en nuestra lista de correo, pngase en contacto con nuestras oficinasque encontrar en la pgina Web en http://www.spss.com/worldwide.

    iv

  • Contenido

    1 Creacin de rboles de clasificacin 1

    Seleccin de categoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6Validacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7Criterios de crecimiento del rbol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    Lmites de crecimiento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9Criterios para CHAID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10Criterios para CRT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12Criterios para QUEST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13Poda de rboles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14Sustitutos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

    Opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15Costes de clasificacin errnea. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16Beneficios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17Probabilidades previas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18Puntuaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20Valores perdidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    Almacenamiento de informacin del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    Presentacin del rbol. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24Statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26Grficos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30Reglas de seleccin y puntuacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

    2 Editor del rbol 38

    Trabajo con rboles grandes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39Mapa del rbol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40Escalamiento de la presentacin del rbol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41Ventana de resumen de nodos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    Control de la informacin que se muestra en el rbol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42Modificacin de las fuentes de texto y los colores del rbol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43Reglas de seleccin de casos y puntuacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

    Filtrado de casos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46Almacenamiento de las reglas de seleccin y puntuacin . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

    v

  • 3 Requisitos y supuestos de los datos 49

    Efectos del nivel de medida en los modelos de rbol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49Asignacin permanente del nivel de medida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

    Efectos de las etiquetas de valor en los modelos de rbol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53Asignacin de etiquetas de valor a todos los valores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

    4 Utilizacin de rboles de clasificacin para evaluar riesgos decrdito 56

    Creacin del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56Creacin del modelo de rbol CHAID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56Seleccin de categoras objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57Especificacin de los criterios de crecimiento del rbol. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58Seleccin de resultados adicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59Almacenamiento de los valores pronosticados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    Evaluacin del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62Tabla de resumen del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63Diagrama del rbol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64Tabla del rbol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65Ganancias para nodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66Grfico de ganancias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67Grfico de ndice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68Estimacin de riesgo y clasificacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69Valores pronosticados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

    Ajuste del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71Seleccin de casos en nodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71Examen de los casos seleccionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72Asignacin de costes a resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

    Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

    5 Creacin de un modelo de puntuacin 79

    Creacin del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79Evaluacin del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

    Resumen del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82Diagrama del modelo de rbol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83Estimacin de riesgo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

    vi

  • Aplicacin del modelo a otro archivo de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

    6 Valores perdidos en modelos de rbol 90

    Valores perdidos con CHAID. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91Resultados de CHAID. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

    Valores perdidos con CRT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94Resultados de CRT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

    Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

    Apndice

    A Archivos de ejemplo 100

    ndice 111

    vii

  • Captulo

    1Creacin de rboles de clasificacin

    Figura 1-1rbol de clasificacin

    El procedimiento rbol de clasificacin crea un modelo de clasificacin basado en rboles, yclasifica casos en grupos o pronostica valores de una variable (criterio) dependiente basada envalores de variables independientes (predictores). El procedimiento proporciona herramientas devalidacin para anlisis de clasificacin exploratorios y confirmatorios.

    1

  • 2Captulo 1

    El procedimiento se puede utilizar para:

    Segmentacin. Identifica a las personas que es probable que pertenezcan a un grupo especfico.

    Estratificacin. Asigna los casos a una categora de entre varias, por ejemplo, grupos de altoriesgo, bajo riesgo y riesgo intermedio.

    Prediccin. Crea reglas y las utiliza para predecir eventos futuros, como la verosimilitud de queuna persona cause mora en un crdito o el valor de reventa potencial de un vehculo o una casa.

    Reduccin de datos y clasificacin de variables. Selecciona un subconjunto til de predictores apartir de un gran conjunto de variables para utilizarlo en la creacin de un modelo paramtricoformal.

    Identificacin de interaccin. Identifica las relaciones que pertenecen slo a subgrupos especficosy las especifica en un modelo paramtrico formal.

    Fusin de categoras y discretizacin de variables continuas. Vuelve a codificar las variablescontinuas y las categoras de los predictores del grupo, con una prdida mnima de informacin.

    Ejemplo. Un banco desea categorizar a los solicitantes de crditos en funcin de si representano no un riesgo crediticio razonable. Basndose en varios factores, incluyendo las valoracionesdel crdito conocidas de clientes anteriores, se puede generar un modelo para pronosticar si esprobable que los clientes futuros causen mora en sus crditos.

    Un anlisis basado en rboles ofrece algunas caractersticas atractivas: Permite identificar grupos homogneos con alto o bajo riesgo. Facilita la construccin de reglas para realizar pronsticos sobre casos individuales.

    Consideraciones sobre los datos

    Datos. Las variables dependientes e independientes pueden ser: Nominal. Una variable puede ser tratada como nominal cuando sus valores representan

    categoras que no obedecen a una ordenacin intrnseca. Por ejemplo, el departamento de lacompaa en el que trabaja un empleado. Son ejemplos de variables nominales: la regin, elcdigo postal y la confesin religiosa.

    Ordinal. Una variable puede ser tratada como ordinal cuando sus valores representan categorascon alguna ordenacin intrnseca. Por ejemplo, los niveles de satisfaccin con un servicio,que abarquen desde muy insatisfecho hasta muy satisfecho. Son ejemplos de variablesordinales: las puntuaciones de actitud que representan el nivel de satisfaccin o confianza ylas puntuaciones de evaluacin de la preferencia.

    Escala. Una variable puede ser tratada como de escala cuando sus valores representancategoras ordenadas con una mtrica con significado, por lo que son adecuadas lascomparaciones de distancia entre valores. Son ejemplos de variables de escala: la edaden aos y los ingresos en dlares.

  • 3Creacin de rboles de clasificacin

    Ponderaciones de frecuencia Si se encuentra activada la ponderacin, las ponderacionesfraccionarias se redondearn al nmero entero ms cercano; de esta manera, a los casos con unvalor de ponderacin menor que 0,5 se les asignar una ponderacin de 0 y, por consiguiente, severn excluidos del anlisis.

    Supuestos. Este procedimiento supone que se ha asignado el nivel de medida adecuado a todas lasvariables del anlisis; adems, algunas funciones suponen que todos los valores de la variabledependiente incluidos en el anlisis tienen etiquetas de valor definidas. Nivel de medida. El nivel de medida afecta a los tres clculos; por lo tanto, todas las variables

    deben tener asignado el nivel de medida adecuado. Por defecto, se supone que las variablesnumricas son de escala y que las variables de cadena son nominales, lo cual podra no reflejarcon exactitud el verdadero nivel de medida. Un icono situado junto a cada variable de la listade variables identifica el tipo de variable.

    Escala

    Nominal

    Ordinal

    Puede cambiar de forma temporal el nivel de medida de una variable; para ello, pulse con elbotn derecho del ratn en la variable en la lista de variables de origen y seleccione un nivel demedida del men contextual. Etiquetas de valor. La interfaz del cuadro de dilogo para este procedimiento supone que o

    todos los valores no perdidos de una variable dependiente categrica (nominal, ordinal)tienen etiquetas de valor definidas o ninguno de ellos las tiene. Algunas funciones noestarn disponibles a menos que haya como mnimo dos valores no perdidos de la variabledependiente categrica que tengan etiquetas de valor. Si al menos dos valores no perdidostienen etiquetas de valor definidas, todos los dems casos con otros valores que no tenganetiquetas de valor se excluirn del anlisis.

    Para obtener rboles de clasificacin

    E Elija en los mens:Analizar

    Clasificarrbol...

  • 4Captulo 1

    Figura 1-2Cuadro de dilogo rbol de clasificacin

    E Seleccione una variable dependiente.

    E Seleccione una o ms variables independientes.

    E Seleccione un mtodo de crecimiento.

    Si lo desea, puede: Cambiar el nivel de medida para cualquier variable de la lista de origen. Forzar que la primera variable en la lista de variables independientes en el modelo sea la

    primera variable de divisin. Seleccionar una variable de influencia que defina cunta influencia tiene un caso en el proceso

    de crecimiento de un rbol. Los casos con valores de influencia inferiores tendrn menosinfluencia, mientras que los casos con valores superiores tendrn ms. Los valores de lavariable de influencia deben ser valores positivos.

    Validar el rbol. Personalizar los criterios de crecimiento del rbol. Guardar los nmeros de nodos terminales, valores pronosticados y probabilidades

    pronosticadas como variables. Guardar el modelo en formato XML (PMML).

    Cambio del nivel de medida

    E En la lista de origen, pulse con el botn derecho del ratn en la variable.

    E Seleccione un nivel de medida del men contextual emergente.

  • 5Creacin de rboles de clasificacin

    Esto modifica de forma temporal el nivel de medida para su uso en el procedimiento rbol declasificacin.

    Mtodos de crecimiento

    Los mtodos de crecimiento disponibles son:

    CHAID. Deteccin automtica de interacciones mediante chi-cuadrado (CHi-square AutomaticInteraction Detection). En cada paso, CHAID elige la variable independiente (predictora) quepresenta la interaccin ms fuerte con la variable dependiente. Las categoras de cada predictor sefunden si no son significativamente distintas respecto a la variable dependiente.

    CHAID exhaustivo. Una modificacin del CHAID que examina todas las divisiones posibles decada predictor.

    CRT. rboles de clasificacin y regresin (Classification and Regression Trees). CRT divide losdatos en segmentos para que sean lo ms homogneos que sea posible respecto a la variabledependiente. Un nodo terminal en el que todos los casos toman el mismo valor en la variabledependiente es un nodo homogneo y puro.

    QUEST. rbol estadstico rpido, insesgado y eficiente (Quick, Unbiased, Efficient StatisticalTree). Un mtodo que es rpido y que evita el sesgo que presentan otros mtodos al favorecer lospredictores con muchas categoras. Slo puede especificarse QUEST si la variable dependientees nominal.

    Cada mtodo presenta ventajas y limitaciones, entre las que se incluyen:

    CHAID* CRT QUESTBasado en chi-cuadrado** XVariables (predictoras)independientes sustitutas

    X X

    Poda de rboles X XDivisin de nodos multinivel XDivisin de nodos binarios X XVariables de influencia X XProbabilidades previas X XCostes de clasificacin errnea X X XClculo rpido X X

    *Incluye CHAID exhaustivo.

    **QUEST tambin utiliza una medida de chi-cuadrado para variables independientes nominales.

  • 6Captulo 1

    Seleccin de categorasFigura 1-3Cuadro de dilogo Categoras

    Para variables dependientes categricas (nominales, ordinales), puede: Controlar qu categoras se incluirn en el anlisis. Identificar las categoras objetivo de inters.

    Inclusin y exclusin de categoras

    Puede limitar el anlisis a categoras especficas de la variable dependiente. Aquellos casos que tengan valores de la variable dependiente en la lista de exclusin no

    se incluirn en el anlisis. Para variables dependientes nominales, tambin puede incluir en el anlisis categoras

    definidas como perdidas por el usuario. (Por defecto, las categoras definidas como perdidaspor el usuario se muestran en la lista de exclusin.)

    Categoras objetivo

    Las categoras seleccionadas (marcadas) se tratarn durante el anlisis como las categoras deinters fundamental. Por ejemplo, si persigue identificar a las personas que es ms probable quecausen mora en un crdito, podra seleccionar como categora objetivo la categora negativade valoracin del crdito. No hay ninguna categora objetivo por defecto. Si no se selecciona ninguna categora, algunas

    opciones de las reglas de clasificacin y algunos resultados relacionados con las ganancias noestarn disponibles.

    Si hay varias categoras seleccionadas, se generarn grficos y tablas de gananciasindependientes para cada una de las categoras objetivo.

    La designacin de una o ms categoras como categoras objetivo no tiene ningn efecto sobrelos resultados de clasificacin errnea, modelo de rbol o estimacin del riesgo.

  • 7Creacin de rboles de clasificacin

    Categoras y etiquetas de valor

    Este cuadro de dilogo requiere etiquetas de valor definidas para la variable dependiente. Noestar disponible a menos que dos valores como mnimo de la variable dependiente categricatengan etiquetas de valor definidas.

    Para incluir/excluir categoras y seleccionar categoras objetivo

    E En el cuadro de dilogo principal rbol de clasificacin, seleccione una variable dependientecategrica (nominal, ordinal) con dos o ms etiquetas de valor definidas.

    E Pulse Categoras.

    ValidacinFigura 1-4Cuadro de dilogo Validacin

    La validacin permite evaluar la bondad de la estructura de rbol cuando se generaliza para unamayor poblacin. Hay dos mtodos de validacin disponibles: validacin cruzada y validacinpor divisin muestral.

  • 8Captulo 1

    Validacin cruzada

    La validacin cruzada divide la muestra en un nmero de submuestras. A continuacin, segeneran los modelos de rbol, que no incluyen los datos de cada submuestra. El primer rbolse basa en todos los casos excepto los correspondientes al primer pliegue de la muestra; elsegundo rbol se basa en todos los casos excepto los del segundo pliegue de la muestra y assucesivamente. Para cada rbol se calcula el riesgo de clasificacin errnea aplicando el rbol a lasubmuestra que se excluy al generarse este. Se puede especificar un mximo de 25 pliegues de la muestra. Cuanto mayor sea el valor,

    menor ser el nmero de casos excluidos de cada modelo de rbol. La validacin cruzada genera un modelo de rbol nico y final. La estimacin de riesgo

    mediante validacin cruzada para el rbol final se calcula como promedio de los riesgosde todos los rboles.

    Validacin por divisin muestral

    Con la validacin por divisin muestral, el modelo se genera utilizando una muestra deentrenamiento y despus pone a prueba ese modelo con una muestra de reserva. Puede especificar un tamao de la muestra de entrenamiento, expresado como un porcentaje

    del tamao muestral total, o una variable que divida la muestra en muestras de entrenamientoy de comprobacin.

    Si utiliza una variable para definir las muestras de entrenamiento y de comprobacin, loscasos con un valor igual a 1 para la variable se asignarn a la muestra de entrenamientoy todos los dems casos se asignarn a la muestra de comprobacin. Dicha variable nopuede ser ni la variable dependiente, ni la de ponderacin, ni la de influencia ni una variableindependiente forzada.

    Los resultados se pueden mostrar tanto para la muestra de entrenamiento como para la decomprobacin, o slo para esta ltima.

    La validacin por divisin muestral se debe utilizar con precaucin en archivos de datospequeos (archivos de datos con un nmero pequeo de casos). Si se utilizan muestras deentrenamiento de pequeo tamao, pueden generarse modelos que no sean significativos, yaque es posible que no haya suficientes casos en algunas categoras para lograr un adecuadocrecimiento del rbol.

    Criterios de crecimiento del rbol

    Los criterios de crecimiento disponibles pueden depender del mtodo de crecimiento, del nivel demedida de la variable dependiente o de una combinacin de ambos.

  • 9Creacin de rboles de clasificacin

    Lmites de crecimientoFigura 1-5Cuadro de dilogo Criterios, pestaa Lmites de crecimiento

    La pestaa Lmites de crecimiento permite limitar el nmero de niveles del rbol y controlar elnmero de casos mnimo para nodos parentales y filiales.

    Mxima profundidad de rbol. Controla el nmero mximo de niveles de crecimiento por debajodel nodo raz. El ajuste Automtica limita el rbol a tres niveles por debajo del nodo raz para losmtodos CHAID y CHAID exhaustivo y a cinco niveles para los mtodos CRT y QUEST.

    Nmero de casos mnimo. Controla el nmero de casos mnimo para los nodos. Los nodos que nocumplen estos criterios no se dividen. El aumento de los valores mnimos tiende a generar rboles con menos nodos. La disminucin de dichos valores mnimos generar rboles con ms nodos.Para archivos de datos con un nmero pequeo de casos, es posible que, en ocasiones, los valorespor defecto de 100 casos para nodos parentales y de 50 casos para nodos filiales den comoresultado rboles sin ningn nodo por debajo del nodo raz; en este caso, la disminucin de losvalores mnimos podra generar resultados ms tiles.

  • 10

    Captulo 1

    Criterios para CHAIDFigura 1-6Cuadro de dilogo Criterios, pestaa CHAID

    Para los mtodos CHAID y CHAID exhaustivo, puede controlar:

    Nivel de significacin. Puede controlar el valor de significacin para la divisin de nodos y lafusin de categoras. Para ambos criterios, el nivel de significacin por defecto es igual a 0,05. La divisin de nodos requiere un valor mayor que 0 y menor que 1. Los valores inferiores

    tienden a generar rboles con menos nodos. La fusin de categoras requiere que el valor sea mayor que 0 y menor o igual que 1. Si

    desea impedir la fusin de categoras, especifique un valor igual a 1. Para una variableindependiente de escala, esto significa que el nmero de categoras para la variable en el rbolfinal ser el nmero especificado de intervalos (el valor por defecto es 10). Si desea obtenerms informacin, consulte Intervalos de escala para el anlisis CHAID en p. 11.

    Estadstico de Chi-cuadrado. Para variables dependientes ordinales, el valor de chi-cuadrado paradeterminar la divisin de nodos y la fusin de categoras se calcula mediante el mtodo de la raznde verosimilitud. Para variables dependientes nominales, puede seleccionar el mtodo: Pearson. Este mtodo proporciona clculos ms rpidos pero se debe utilizar con precaucin

    en muestras pequeas. Este es el mtodo por defecto. Razn de verosimilitud. Este mtodo es ms robusto que el de Pearson pero tarda ms en

    realizar los clculos. Es el mtodo preferido para muestras pequeas.

  • 11

    Creacin de rboles de clasificacin

    Estimacin del modelo. Para variables dependientes ordinales y nominales, puede especificar: Nmero mximo de iteraciones. El valor por defecto es 100. Si el rbol detiene su crecimiento

    porque se ha alcanzado el nmero mximo de iteraciones, puede que desee aumentar el nmeromximo o modificar alguno de los dems criterios que controlan el crecimiento del rbol.

    Cambio mnimo en las frecuencias esperadas de las casillas. El valor debe ser mayor que 0 ymenor que 1. El valor por defecto es 0,05. Los valores inferiores tienden a generar rbolescon menos nodos.

    Corregir los valores de significacin mediante el mtodo de Bonferroni. Para comparacionesmltiples, los valores de significacin para los criterios de divisin y fusin se corrigen utilizandoel mtodo de Bonferroni. Este es el mtodo por defecto.

    Permitir nueva divisin de las categoras fusionadas dentro de un nodo. A menos que se impidade forma explcita la fusin de categoras, el procedimiento intentar la fusin de las categorasde variables (predictoras) independientes entre s para generar el rbol ms simple que describael modelo. Esta opcin permite al procedimiento volver a dividir las categoras fusionadas sicon ello se puede obtener una solucin mejor.

    Intervalos de escala para el anlisis CHAID

    Figura 1-7Cuadro de dilogo Criterios, pestaa Intervalos

    En el anlisis CHAID, las variables (predictoras) independientes de escala siempre se categorizanen grupos discretos (por ejemplo, 010, 1120, 2130, etc.) antes del anlisis. Puede controlarel nmero inicial/mximo de grupos (aunque el procedimiento puede fundir grupos contiguosdespus de la divisin inicial): Nmero fijo. Todas las variables independientes de escala se categorizan inicialmente en el

    mismo nmero de grupos. El valor por defecto es 10. Personalizado. Todas las variables independientes de escala se categorizan inicialmente en el

    nmero de grupos especificado para esta variable.

  • 12

    Captulo 1

    Para especificar intervalos para variables independientes de escala

    E En el cuadro de dilogo principal rbol de clasificacin, seleccione una o ms variablesindependientes de escala.

    E Para el mtodo de crecimiento, seleccione CHAID o CHAID exhaustivo.

    E Pulse en Criterios.

    E Pulse en la pestaa Intervalos.

    En los anlisis CRT y QUEST, todas las divisiones son binarias y las variables independientes deescala y ordinales se tratan de la misma manera; por lo tanto, no se puede especificar un nmerode intervalos para variables independientes de escala.

    Criterios para CRTFigura 1-8Cuadro de dilogo Criterios, pestaa CRT

    El mtodo de crecimiento CRT procura maximizar la homogeneidad interna de los nodos. Elgrado en el que un nodo no representa un subconjunto homogneo de casos es una indicacinde impureza. Por ejemplo, un nodo terminal en el que todos los casos tienen el mismo valorpara la variable dependiente es un nodo homogneo que no requiere ninguna divisin ms yaque es puro.

    Puede seleccionar el mtodo utilizado para medir la impureza as como la reduccin mnimade la impureza necesaria para dividir nodos.

    Medida de la impureza. Para variables dependientes de escala, se utilizar la medida de impurezade desviacin cuadrtica mnima (LSD). Este valor se calcula como la varianza dentro del nodo,corregida para todas las ponderaciones de frecuencia o valores de influencia.

  • 13

    Creacin de rboles de clasificacin

    Para variables dependientes categricas (nominales, ordinales), puede seleccionar la medidade la impureza: Gini. Se obtienen divisiones que maximizan la homogeneidad de los nodos filiales con

    respecto al valor de la variable dependiente. Gini se basa en el cuadrado de las probabilidadesde pertenencia de cada categora de la variable dependiente. El valor mnimo (cero) sealcanza cuando todos los casos de un nodo corresponden a una sola categora. Esta es lamedida por defecto.

    Binaria. Las categoras de la variable dependiente se agrupan en dos subclases. Se obtienenlas divisiones que mejor separan los dos grupos.

    Binaria ordinal. Similar a la regla binaria con la nica diferencia de que slo se puedenagrupar las categoras adyacentes. Esta medida slo se encuentra disponible para variablesdependientes ordinales.

    Cambio mnimo en la mejora. Esta es la reduccin mnima de la impureza necesaria para dividirun nodo. El valor por defecto es 0,0001. Los valores superiores tienden a generar rboles conmenos nodos.

    Criterios para QUESTFigura 1-9Cuadro de dilogo Criterios, pestaa QUEST

    Para el mtodo QUEST, puede especificar el nivel de significacin para la divisin de nodos.No se puede utilizar una variable independiente para dividir nodos a menos que el nivel designificacin sea menor o igual que el valor especificado. El valor debe ser mayor que 0 y menorque 1. El valor por defecto es 0,05. Los valores ms pequeos tendern a excluir ms variablesindependientes del modelo final.

  • 14

    Captulo 1

    Para especificar criterios para QUEST

    E En el cuadro de dilogo principal rbol de clasificacin, seleccione una variable dependientenominal.

    E Para el mtodo de crecimiento, seleccione QUEST.

    E Pulse en Criterios.

    E Pulse en la pestaa QUEST.

    Poda de rboles

    Figura 1-10Cuadro de dilogo Criterios, pestaa Poda del rbol

    Con los mtodos CRT y QUEST, puede evitar el sobreajuste del modelo mediante la poda delrbol: el rbol crece hasta que se cumplen los criterios de parada y, a continuacin, se recorta deforma automtica hasta obtener el subrbol ms pequeo basado en la mxima diferencia en elriesgo especificada. El valor del riesgo se expresa en errores tpicos. El valor por defecto es 1. Elvalor debe ser no negativo. Para obtener el subrbol con el mnimo riesgo, especifique 0.

    La poda del rbol frente a la ocultacin de nodos

    Cuando se crea un rbol podado, ninguno de los nodos podados del rbol estarn disponibles en elrbol final. Es posible ocultar y mostrar de forma interactiva los nodos filiales en el rbol final,pero no se pueden mostrar los nodos podados durante el proceso de creacin del rbol. Si deseaobtener ms informacin, consulte Editor del rbol en Captulo 2 en p. 38.

  • 15

    Creacin de rboles de clasificacin

    SustitutosFigura 1-11Cuadro de dilogo Criterios, pestaa Sustitutos

    CRT y QUEST pueden utilizar sustitutos para variables (predictoras) independientes. Para loscasos en que el valor de esa variable falte, se utilizarn otras variables independientes conasociaciones muy cercanas a la variable original para la clasificacin. A estas variables predictorasalternativas se les denomina sustitutos. Se puede especificar el nmero mximo de sustitutosque utilizar en el modelo. Por defecto, el nmero mximo de sustitutos es igual al nmero de variables independientes

    menos uno. Es decir, para cada variable independiente, se pueden utilizar todas las demsvariables independientes como sustitutos.

    Si no desea que el modelo utilice sustitutos, especifique 0 para el nmero de sustitutos.

    Opciones

    Las opciones disponibles pueden depender del mtodo de crecimiento, del nivel de medida dela variable dependiente y de la existencia de etiquetas de valor definidas para los valores de lavariable dependiente.

  • 16

    Captulo 1

    Costes de clasificacin errneaFigura 1-12Cuadro de dilogo Opciones, pestaa Costes de clasificacin errnea

    Para las variables dependientes categricas (nominales, ordinales), los costes de clasificacinerrnea permiten incluir informacin referente a las penalizaciones relativas asociadas a unaclasificacin incorrecta. Por ejemplo: El coste de negar crdito a un cliente solvente ser diferente al coste de otorgar crdito a un

    cliente que posteriormente incurra en un incumplimiento. El coste de clasificacin errnea de una persona con un alto riesgo de dolencias cardacas

    como de bajo riesgo es, probablemente, mucho mayor que el coste de clasificar errneamentea una persona de bajo riesgo como de alto riesgo.

    El coste de realizar un mailing a alguien con poca propensin a responder es probablementemuy bajo, mientras que el coste de no enviar dicho mailing a personas con propensin aresponder es relativamente ms alto (en trminos de prdida de beneficios).

    Costes de clasificacin errnea y etiquetas de valor

    Este cuadro de dilogo no estar disponible a menos que dos valores como mnimo de la variabledependiente categrica tengan etiquetas de valor definidas.

    Para especificar los costes de clasificacin errnea

    E En el cuadro de dilogo principal rbol de clasificacin, seleccione una variable dependientecategrica (nominal, ordinal) con dos o ms etiquetas de valor definidas.

    E Pulse en Opciones.

    E Pulse en la pestaa Costes de clasificacin errnea.

    E Pulse en Personalizados.

  • 17

    Creacin de rboles de clasificacin

    E Introduzca uno o ms costes de clasificacin errnea en la cuadrcula. Los valores deben ser nonegativos. (Las clasificaciones correctas, representadas en la diagonal, son siempre 0.)

    Rellenar matriz. Es posible que en muchos casos se desee que los costes sean simtricos, esdecir, que el coste de clasificar errneamente A como B sea el mismo que el coste de clasificarerrneamente B como A. Las siguientes opciones le ayudarn a especificar una matriz de costessimtrica: Duplicar tringulo inferior. Copia los valores del tringulo inferior de la matriz (bajo la

    diagonal) en las casillas correspondientes del tringulo superior. Duplicar tringulo superior. Copia los valores del tringulo superior de la matriz (sobre la

    diagonal) en las casillas correspondientes del tringulo inferior. Usar valores promedio de casillas Para cada casilla de cada mitad de la matriz, se calcula el

    promedio de los dos valores (tringulo superior e inferior) y dicho promedio reemplazaambos valores. Por ejemplo, si el coste de clasificacin errnea de A como B es 1, y elcoste de clasificacin errnea de B como A es 3, esta opcin reemplaza ambos valores por elpromedio obtenido: (1+3)/2 = 2.

    BeneficiosFigura 1-13Cuadro de dilogo Opciones, pestaa Beneficios

    Para las variables dependientes categricas, puede asignar valores de ingresos y gastos a nivelesde la variable dependiente. El beneficio se calcula como la diferencia entre ingresos y gastos.

  • 18

    Captulo 1

    Los valores de beneficio afectan a los valores del beneficio promedio y ROI (retorno dela inversin) en las tablas de ganancias. No afectan, sin embargo, a la estructura bsicadel modelo del rbol.

    Los valores de ingresos y gastos deben ser numricos y se deben estar especificados para todaslas categoras de la variable dependiente que aparezcan en la cuadrcula.

    Beneficios y etiquetas de valor

    Este cuadro de dilogo requiere etiquetas de valor definidas para la variable dependiente. Noestar disponible a menos que dos valores como mnimo de la variable dependiente categricatengan etiquetas de valor definidas.

    Para especificar los beneficios

    E En el cuadro de dilogo principal rbol de clasificacin, seleccione una variable dependientecategrica (nominal, ordinal) con dos o ms etiquetas de valor definidas.

    E Pulse en Opciones.

    E Pulse en la pestaa Beneficios.

    E Pulse en Personalizados.

    E Introduzca los valores de ingresos y gastos para todas las categoras de la variable dependiente queaparecen en la cuadrcula.

    Probabilidades previasFigura 1-14Cuadro de dilogo Opciones, pestaa Probabilidades previas

  • 19

    Creacin de rboles de clasificacin

    Para los rboles CRT y QUEST con variables dependientes categricas, puede especificarprobabilidades previas de pertenencia al grupo. Las probabilidades previas son estimacionesde la frecuencia relativa global de cada categora de la variable dependiente, previas a cualquierconocimiento sobre los valores de las variables (predictoras) independientes. La utilizacin de lasprobabilidades previas ayuda a corregir cualquier crecimiento del rbol causado por datos de lamuestra que no sean representativos de la totalidad de la poblacin.

    Obtener de la muestra de entrenamiento (previas empricas). Utilice este ajuste si la distribucin delos valores de la variable dependiente en el archivo de datos es representativa de la distribucin depoblacin. Si se usa validacin por divisin muestral, se utilizar la distribucin de los casos en lamuestra de entrenamiento.

    Nota: como en la validacin por divisin muestral se asignan los casos de forma aleatoria a lamuestra de entrenamiento, no podr conocer de antemano la distribucin real de los casos en lamuestra de entrenamiento. Si desea obtener ms informacin, consulte Validacin en p. 7.

    Iguales para todas las categoras. Utilice este ajuste si las categoras de la variable dependientetienen la misma representacin dentro de la poblacin. Por ejemplo, si hay cuatro categoras conaproximadamente el 25% de los casos en cada una de ellas.

    Personalizado. Introduzca un valor no negativo para cada categora de la variable dependienteque aparezca en la cuadrcula. Los valores pueden ser proporciones, porcentajes, frecuencias ocualquier otro valor que represente la distribucin de valores entre categoras.

    Corregir las previas mediante los costes de clasificacin errnea. Si define costes de clasificacinerrnea personalizados, podr corregir las probabilidades previas basndose en dichos costes. Sidesea obtener ms informacin, consulte Costes de clasificacin errnea en p. 16.

    Beneficios y etiquetas de valor

    Este cuadro de dilogo requiere etiquetas de valor definidas para la variable dependiente. Noestar disponible a menos que dos valores como mnimo de la variable dependiente categricatengan etiquetas de valor definidas.

    Para especificar probabilidades previas

    E En el cuadro de dilogo principal rbol de clasificacin, seleccione una variable dependientecategrica (nominal, ordinal) con dos o ms etiquetas de valor definidas.

    E Para el mtodo de crecimiento, seleccione CRT o QUEST.

    E Pulse en Opciones.

    E Pulse en la pestaa Probabilidades previas.

  • 20

    Captulo 1

    PuntuacionesFigura 1-15Cuadro de dilogo Opciones, pestaa Puntuaciones

    Para CHAID y CHAID exhaustivo con una variable dependiente ordinal, puede asignarpuntuaciones personalizadas a cada categora de la variable dependiente. Las puntuacionesdefinen el orden y la distancia entre las categoras de la variable dependiente. Puede utilizarlas puntuaciones para aumentar o disminuir la distancia relativa entre valores ordinales o paracambiar el orden de los valores. Utilizar para cada categora su rango ordinal. A la categora inferior de la variable dependiente

    se le asigna una puntuacin de 1, a la siguiente categora superior se le asigna una puntuacinde 2, etc. Este es el mtodo por defecto.

    Personalizado. Introduzca una puntuacin numrica para cada categora de la variabledependiente que aparezca en la cuadrcula.

    Ejemplo

    Etiqueta de valor Valor original PuntuacinNo especializado 1 1Obreroespecializado

    2 4

    Administrativo 3 4.5Profesional 4 7Directivo 5 6

    Las puntuaciones aumentan la distancia relativa entre No especializado yObrero especializadoy disminuyen la distancia relativa entre Obrero especializado y Administrativo.

    Las puntuaciones invierten el orden entre Directivo y Profesional.

  • 21

    Creacin de rboles de clasificacin

    Puntuaciones y etiquetas de valor

    Este cuadro de dilogo requiere etiquetas de valor definidas para la variable dependiente. Noestar disponible a menos que dos valores como mnimo de la variable dependiente categricatengan etiquetas de valor definidas.

    Para especificar puntuaciones

    E En el cuadro de dilogo principal rbol de clasificacin, seleccione una variable dependienteordinal con dos o ms etiquetas de valor definidas.

    E Para el mtodo de crecimiento, seleccione CHAID o CHAID exhaustivo.

    E Pulse en Opciones.

    E Pulse en la pestaa Puntuaciones.

    Valores perdidosFigura 1-16Cuadro de dilogo Opciones, pestaa Valores perdidos

    La pestaa Valores perdidos controla el tratamiento de los valores definidos como perdidos por elusuario de las variables (predictoras) independientes nominales. El tratamiento de los valores definidos como perdidos por el usuario de las variables

    independientes ordinales y de escala vara en funcin del mtodo de crecimiento. En el cuadro de dilogo Categoras, se especifica el tratamiento de las variables dependientes

    nominales. Si desea obtener ms informacin, consulte Seleccin de categoras en p. 6. Para las variables dependientes ordinales y de escala, siempre se excluyen los casos con

    valores de variables dependientes perdidos del sistema o definidos como tales por el usuario.

  • 22

    Captulo 1

    Tratar como valores perdidos. Los valores definidos como perdidos por el usuario reciben elmismo tratamiento que los valores perdidos del sistema. El tratamiento de estos vara en funcindel mtodo de crecimiento.

    Tratar como valores vlidos. Los valores definidos como perdidos por el usuario de las variablesindependientes nominales se tratan como valores ordinarios en la clasificacin y crecimientodel rbol.

    Reglas dependientes del mtodo

    Si algunos, pero no todos, los valores de las variables independientes son valores perdidos delsistema o definidos como tales por el usuario: Para CHAID y CHAID exhaustivo, los valores de las variables independientes perdidos del

    sistema o definidos como perdidos por el usuario se incluyen en el anlisis como una nicacategora combinada. Para las variables independientes ordinales y de escala, los algoritmosprimero generan categoras utilizando valores vlidos y, a continuacin, deciden si fundir lacategora de valores perdidos con la categora (vlida) que ms se le parece o se mantienecomo una categora separada.

    Para CRT y QUEST, los casos con valores perdidos en variables independientes se excluyendel proceso de crecimiento del rbol pero se clasifican utilizando sustitutos si estos estnincluidos en el mtodo. Si los valores definidos como perdidos por el usuario nominales setratan como perdidos, tambin se procesarn de la misma manera. Si desea obtener msinformacin, consulte Sustitutos en p. 15.

    Para especificar el tratamiento de los valores definidos como perdidos por el usuario de variablesindependientes nominales

    E En el cuadro de dilogo principal rbol de clasificacin, seleccione al menos una variableindependiente nominal.

    E Pulse en Opciones.

    E Pulse en la pestaa Valores perdidos.

  • 23

    Creacin de rboles de clasificacin

    Almacenamiento de informacin del modeloFigura 1-17Cuadro de dilogo Guardar

    Puede guardar la informacin sobre el modelo como variables en el archivo de datos de trabajo y,asimismo, puede guardar todo el modelo en formato XML (PMML) en un archivo externo.

    Variables guardadas

    Nmero del nodo terminal. Identifica el nodo terminal al que se asigna cada caso. El valor es elnmero de nodo del rbol.

    Valor pronosticado. La clase (grupo) o valor de la variable dependiente pronosticada por el modelo.

    Probabilidades pronosticadas. La probabilidad asociada con la prediccin del modelo. Seguarda una variable por cada categora de la variable dependiente. No disponible para variablesdependientes de escala.

    Asignacin muestral (entrenamiento/comprobacin). Para la validacin por divisin muestral, estavariable indica si se ha utilizado un caso en la muestra de entrenamiento o de comprobacin. Elvalor es 1 si la muestra es de entrenamiento y 0 si es de comprobacin. No disponible a menosque se haya seleccionado la validacin por divisin muestral. Si desea obtener ms informacin,consulte Validacin en p. 7.

    Exportar modelo de rbol como XML

    Puede guardar todo el modelo del rbol en formato XML (PMML). SmartScore y servidorde SPSS (un producto independiente) pueden utilizar este archivo del modelo para aplicar lainformacin del modelo en otros archivos de datos con fines de puntuacin.

    Muestra de entrenamiento. Escribe el modelo en el archivo especificado. Para rboles validadospor divisin muestral, este es el modelo para la muestra de entrenamiento.

  • 24

    Captulo 1

    Muestra de comprobacin. Escribe el modelo para la muestra de comprobacin en el archivoespecificado. No disponible a menos que se haya seleccionado la validacin por divisin muestral.

    Resultados

    Las opciones de resultados disponibles dependen del mtodo de crecimiento, del nivel de medidade la variable dependiente y de otros valores de configuracin.

    Presentacin del rbol

    Figura 1-18Cuadro de dilogo Resultados, pestaa rbol

    Permite controlar el aspecto inicial del rbol o suprimir completamente la presentacin del rbol.

    rbol. Por defecto, el diagrama del rbol se incluye en los resultados que se muestran en el Visor.Desactive la seleccin (quite la marca) de esta opcin para excluir el diagrama de rbol de losresultados.

    Mostrar. Estas opciones controlan el aspecto inicial del diagrama de rbol en el Visor. Todos estosatributos tambin se pueden modificar editando el rbol generado. Orientacin. El rbol se puede mostrar de arriba a abajo con el nodo raz situado en la parte

    superior, de izquierda a derecha, o de derecha a izquierda.

  • 25

    Creacin de rboles de clasificacin

    Contenidos de los nodos. Los nodos pueden mostrar tablas, grficos o ambos. Para variablesdependientes categricas, las tablas muestran frecuencias y porcentajes, y los grficos sondiagramas de barras. Para variables dependientes de escala, las tablas muestran medias,desviaciones tpicas, nmero de casos y valores pronosticados, y los grficos son histogramas.

    Escala. Por defecto, los rboles grandes se reducen de forma automtica para intentar ajustarel rbol a la pgina. Puede especificar un porcentaje de escala personalizado de hasta el 200%.

    Estadsticos de las variables independientes. Para CHAID y CHAID exhaustivo, losestadsticos incluyen el valor F (para variables dependientes de escala) o el valor chi-cuadrado(para variables dependientes categricas) as como el valor de significacin y los grados delibertad. Para CRT, se muestra el valor de mejora. Para QUEST, se muestra el valor F, elvalor de significacin y los grados de libertad para las variables independientes ordinales yde escala; para las variables independientes nominales, se muestra el valor chi-cuadrado, elvalor de significacin y los grados de libertad.

    Definiciones de los nodos. Las definiciones de nodos muestran el valor o valores de la variableindependiente utilizados en cada divisin de nodos.

    rbol en formato de tabla. Informacin de resumen para cada nodo del rbol, incluyendo el nmerodel nodo parental, los estadsticos de las variables independientes, el valor o valores de lasvariables independientes para el nodo, la media y la desviacin tpica para variables dependientesde escala, o las frecuencias y porcentajes para variables dependientes categricas.

    Figura 1-19rbol en formato de tabla

  • 26

    Captulo 1

    StatisticsFigura 1-20Cuadro de dilogo Resultados, pestaa Estadsticos

    Las tablas de estadsticos disponibles dependen del nivel de medida de la variable dependiente,del mtodo de crecimiento y de otros valores de configuracin.

    Modelo

    Resumen. El resumen incluye el mtodo utilizado, las variables incluidas en el modelo y lasvariables especificadas pero no incluidas en el modelo.Figura 1-21Tabla de resumen del modelo

  • 27

    Creacin de rboles de clasificacin

    Riesgo. Estimacin del riesgo y su error tpico. Una medida de la precisin predictiva del rbol. Para variables dependientes categricas, la estimacin de riesgo es la proporcin de casos

    clasificados incorrectamente despus de corregidos respecto a las probabilidades previas ylos costes de clasificacin errnea.

    Para variables dependientes de escala, la estimacin de riesgo corresponde a la varianzadentro del nodo.

    Tabla de clasificacin. Para variables dependientes categricas (nominales, ordinales), esta tablamuestra el nmero de casos clasificados correcta e incorrectamente para cada categora de lavariable dependiente. No disponible para variables dependientes de escala.Figura 1-22Tablas de riesgos y de clasificacin

    Valores de costes, probabilidades previas, puntuaciones y beneficios. Para variables dependientescategricas, esta tabla muestra los valores de costes, probabilidades previas, puntuaciones ybeneficios utilizados en el anlisis. No disponible para variables dependientes de escala.

    Variables independientes

    Importancia en el modelo. Para el mtodo de crecimiento CRT, esta opcin asigna rangos a cadavariable (predictora) independiente de acuerdo con su importancia para el modelo. No disponiblepara los mtodos QUEST o CHAID.

    Sustitutos por divisin. Para los mtodos de crecimiento CRT y QUEST, si el modelo incluyesustitutos, se enumeran estos para cada divisin en el rbol. No disponible para los mtodosCHAID. Si desea obtener ms informacin, consulte Sustitutos en p. 15.

    Comportamiento del nodo

    Resumen. En el caso de variables dependientes de escala, la tabla incluye el nmero de nodo,el nmero de casos y el valor de la media de la variable dependiente. En el caso de variablesdependientes categricas con beneficios definidos, la tabla incluye el nmero de nodo, el nmerode casos, el beneficio promedio y los valores de ROI (retorno de la inversin). No disponible paravariables dependientes categricas para las que no se hayan definido beneficios. Si desea obtenerms informacin, consulte Beneficios en p. 17.

  • 28

    Captulo 1

    Figura 1-23Tablas de resumen de ganancias para nodos y percentiles

    Por categora objetivo. Para variables dependientes categricas con categoras objetivo definidas,la tabla incluye el porcentaje de ganancia, el porcentaje de respuestas y el ndice porcentual(elevacin) por nodo o grupo de percentiles. Se genera una tabla separada para cada categoraobjetivo. No disponible para variables dependientes de escala o categricas para las que nose hayan definido categoras objetivo. Si desea obtener ms informacin, consulte Seleccinde categoras en p. 6.

  • 29

    Creacin de rboles de clasificacin

    Figura 1-24Ganancias de categoras objetivo para nodos y percentiles

    Filas. Las tablas de comportamiento de los nodos pueden mostrar resultados por nodos terminales,por percentiles o por ambos. Si selecciona ambos, se generan dos tablas por cada categoraobjetivo. Las tablas de percentiles muestran valores acumulados para cada percentil, basadosen el orden.

    Incremento del percentil. Para las tablas de percentiles, puede seleccionar el incremento delpercentil: 1, 2, 5, 10, 20 o 25.

    Mostrar estadsticos acumulados. Para las tablas de nodos terminales, muestra columnasadicionales en cada tabla con resultados acumulados.

  • 30

    Captulo 1

    GrficosFigura 1-25Cuadro de dilogo Resultados, pestaa Grficos

    Los grficos disponibles dependen del nivel de medida de la variable dependiente, del mtodo decrecimiento y de otros valores de configuracin.

    Importancia de la variable independiente en el modelo. Diagrama de barras de la importancia delmodelo por variable (predictora) independiente. Disponible slo con el mtodo de crecimientoCRT.

    Comportamiento del nodo

    Ganancia. La ganancia es el porcentaje de los casos totales en la categora objetivo en cada nodo,calculada como: (n criterio de nodo/n total de criterios) x 100. El grfico de ganancias es ungrfico de lneas de las ganancias por percentiles acumulados, calculadas como: (n de percentil decriterios acumulados / n total de criterios) x 100. Se generar un grfico de lneas distinto paracada categora objetivo. Disponible slo para variables dependientes categricas con categorasobjetivo definidas. Si desea obtener ms informacin, consulte Seleccin de categoras en p. 6.

    El grfico de ganancias representa los mismos valores que se muestran en la columna Porcentajede ganancia en la tabla de ganancias para los percentiles, que tambin informa de los valoresacumulados.

  • 31

    Creacin de rboles de clasificacin

    Figura 1-26Tabla de ganancias para los percentiles y grfico de ganancias

    ndice. El ndice es la razn del porcentaje de respuestas en la categora criterio del nodocomparado con el porcentaje global de respuestas en la categora criterio para toda la muestra. Elgrfico de ndices es un grfico de lneas que representa los valores de los ndices de percentilesacumulados. Disponible slo para variables dependientes categricas. El ndice de percentilesacumulados se calcula como: (porcentaje de respuestas de percentiles acumulados / porcentajede respuestas total) x 100. Se genera un grfico separado para cada categora objetivo, y lascategoras objetivo deben estar definidas.

    El grfico de ndices representa los mismos valores que se muestran en la columna ndice en latabla de ganancias para los percentiles.

  • 32

    Captulo 1

    Figura 1-27Tabla de ganancias para los percentiles y grfico de ndices

    Respuesta. El porcentaje de casos pertenecientes al nodo que pertenecen a la categora objetivoespecificada. El grfico de respuestas es un grfico de lneas de las respuestas por percentilesacumulados, calculado como: (n de percentil de criterios acumulados / n total de percentilesacumulados) x 100. Disponible slo para variables dependientes categricas con categorasobjetivo definidas.

    El grfico de respuestas representa los mismos valores que se muestran en la columna Respondeen la tabla de ganancias para los percentiles.

  • 33

    Creacin de rboles de clasificacin

    Figura 1-28Tabla de ganancias para los percentiles y grfico de respuestas

    Media. Grfico de lneas de los valores de las medias de percentiles acumulados para la variabledependiente. Disponible slo para variables dependientes de escala.

    Beneficio promedio. Grfico de lneas del beneficio promedio acumulado. Disponible slo paravariables dependientes categricas con beneficios definidos. Si desea obtener ms informacin,consulte Beneficios en p. 17.

    El grfico de los beneficios promedios representa los mismos valores que se muestran en lacolumna Beneficio en la tabla de resumen de ganancias para los percentiles.

  • 34

    Captulo 1

    Figura 1-29Tabla de resumen de ganancias para los percentiles y grfico de beneficio medio

    Retorno de la inversin (ROI). Grfico de lneas de ROI (retorno de la inversin) acumulado. ROIse calcula como la relacin entre los beneficios y los gastos. Disponible slo para variablesdependientes categricas con beneficios definidos.

    El grfico de ROI representa los mismos valores que se muestran en la columna ROI en la tablade resumen de ganancias para los percentiles.

  • 35

    Creacin de rboles de clasificacin

    Figura 1-30Tabla de resumen de ganancias para los percentiles y grfico de ROI

    Incremento del percentil. Para todos los grficos de percentiles, este ajuste controla los incrementosde los percentiles que se muestran en el grfico: 1, 2, 5, 10, 20 o 25.

  • 36

    Captulo 1

    Reglas de seleccin y puntuacin

    Figura 1-31Cuadro de dilogo Resultados, pestaa Reglas

    La pestaa Reglas ofrece la capacidad de generar reglas de seleccin o clasificacin/prediccin enforma de sintaxis de comandos, SQL o slo texto (ingls sin formato). Estas reglas se puedenvisualizar en el Visor y/o guardar en un archivo externo.

    Sintaxis. Controla la forma de las reglas de seleccin en los resultados que se muestran en el Visory de las reglas de seleccin almacenadas en un archivo externo. SPSS. Lenguaje de sintaxis de comandos. Las reglas se expresan como un conjunto de

    comandos que definen una condicin de filtrado que permite la seleccin de subconjuntosde casos o como instrucciones COMPUTE que se pueden utilizar para asignar puntuaciones alos casos.

    SQL. Las reglas SQL estndar se generan para seleccionar o extraer registros de una basede datos, o para asignar valores a dichos registros. Las reglas SQL generadas no incluyennombres de tablas ni ninguna otra informacin sobre orgenes de datos.

    Slo texto. Pseudocdigo en ingls sin formato. Las reglas se expresan como un conjunto deinstrucciones lgicas if...then que describen las clasificaciones o predicciones del modelopara cada nodo. Las reglas expresadas en esta forma pueden utilizar etiquetas de variable y devalor definidas o nombres de variables y valores de datos.

    Tipo. Para las reglas de SPSS y SQL, controla el tipo de reglas generadas: reglas de seleccin opuntuacin.

  • 37

    Creacin de rboles de clasificacin

    Asignar valores a los casos. Las reglas se pueden utilizar para asignar las predicciones delmodelo a los casos que cumplan los criterios de pertenencia al nodo. Se genera una reglaindependiente para cada nodo que cumple los criterios de pertenencia.

    Seleccionar casos. Las reglas se pueden utilizar para seleccionar aquellos casos que cumplanlos criterios de pertenencia al nodo. Para las reglas de SPSS y SQL, se genera una nica reglapara seleccionar todos los casos que cumplan los criterios de seleccin.

    Incluir sustitutos en las reglas de SPSS y SQL. Para CRT y QUEST, puede incluir predictoressustitutos del modelo en las reglas. Es conveniente tener en cuenta que las reglas que incluyensustitutos pueden ser bastante complejas. En general, si slo desea derivar informacin conceptualsobre el rbol, excluya a los sustitutos. Si algunos casos tienen datos de variables (predictoras)independientes incompletas y desea reglas que imiten a su rbol, entonces deber incluir a lossustitutos. Si desea obtener ms informacin, consulte Sustitutos en p. 15.

    Nodos. Controla el mbito de las reglas generadas. Se genera una regla distinta para cada nodoincluido en el mbito. Todos los nodos terminales. Genera reglas para cada nodo terminal. Mejores nodos terminales. Genera reglas para los n nodos terminales superiores segn los

    valores de ndice. Si la cifra supera el nmero de nodos terminales del rbol, se generan reglaspara todos los nodos terminales. (Consulte la siguiente nota.)

    Mejores nodos terminales hasta un porcentaje de casos especificado. Genera reglas para nodosterminales para el porcentaje n de casos superiores segn los valores de ndice. (Consulte lasiguiente nota.)

    Nodos terminales cuyo valor del ndice alcanza o excede un valor de corte. Genera reglas paratodos los nodos terminales con un valor de ndice mayor o igual que el valor especificado. Unvalor de ndice mayor que 100 significa que el porcentaje de casos en la categora objetivo endicho nodo supera el porcentaje del nodo raz. (Consulte la siguiente nota.)

    Todos los nodos. Genera reglas para todos los nodos.Nota 1: La seleccin de nodos basada en los valores de ndice slo est disponible para lasvariables dependientes categricas con categoras objetivo definidas. Si ha especificado variascategoras objetivo, se generar un conjunto separado de reglas para cada una de las categorasobjetivo.

    Nota 2: En el caso de reglas de SPSS y SQL para la seleccin de casos (no reglas para laasignacin de valores), Todos los nodos y Todos los nodos terminales generarn de forma eficaz unaregla que seleccione todos los casos utilizados en el anlisis.

    Exportar reglas a un archivo. Guarda las reglas en un archivo de texto externo.

    Tambin se pueden generar y guardar, de forma interactiva, reglas de seleccin o puntuacin,basadas en los nodos seleccionados en el modelo del rbol final. Si desea obtener ms informacin,consulte Reglas de seleccin de casos y puntuacin en Captulo 2 en p. 46.

    Nota: si aplica reglas con el formato de sintaxis de comandos a otro archivo de datos, dichoarchivo deber contener variables con los mismos nombres que las variables independientesincluidas en el modelo final, medidas con la misma mtrica y con los mismos valores definidoscomo perdidos por el usuario (si hubiera).

  • Captulo

    2Editor del rbol

    Con el Editor del rbol es posible: Ocultar y mostrar ramas seleccionadas del rbol. Controlar la presentacin del contenido de los nodos, los estadsticos que se muestran en las

    divisiones de los nodos y otra informacin. Cambiar los colores de los nodos, fondos, bordes, grficos y fuentes. Cambiar el estilo y el tamao de la fuente. Cambiar la alineacin de los rboles. Seleccionar subconjuntos de casos para realizar anlisis ms detallados basados en los nodos

    seleccionados. Crear y guardar reglas para la seleccin y puntuacin de casos basadas en los nodos

    seleccionados.

    Para editar un modelo de rbol:

    E Pulse dos veces en el modelo del rbol en la ventana del Visor.

    o

    E En la ventana del Visor, pulse con el botn derecho del ratn en el modelo del rbol y, en elmen contextual, seleccione:Objeto de rbol de SPSS

    Abrir

    Ocultacin y presentacin de nodos

    Para ocultar, contraer, todos los nodos filiales en una rama por debajo de un nodo parental:

    E Pulse en el signo menos () de la pequea casilla situada debajo de la esquina derecha inferior delnodo parental.

    Se ocultarn todos los nodos de esa rama situados por debajo del nodo parental.

    Para mostrar, expandir, los nodos filiales en una rama por debajo de un nodo parental:

    E Pulse en el signo ms (+) de la pequea casilla situada debajo de la esquina derecha inferior delnodo parental.

    38

  • 39

    Editor del rbol

    Nota: ocultar los nodos filiales que hay en una rama no es lo mismo que podar un rbol. Sidesea un rbol podado, deber solicitar la poda antes de crear el rbol y las ramas podadas nose incluirn en el rbol final. Si desea obtener ms informacin, consulte Poda de rboles enCaptulo 1 en p. 14.

    Figura 2-1rbol expandido y contrado

    Seleccin de varios nodos

    Utilizando como base los nodos seleccionados actualmente, es posible seleccionar casos, generarreglas de puntuacin y de seleccin, as como realizar otras acciones. Para seleccionar variosnodos:

    E Pulse en un nodo que desee seleccionar.

    E Mientras mantiene pulsada Ctrl pulse con el ratn en los dems nodos que desee aadir a laseleccin.

    Puede realizar una seleccin mltiple de nodos hermanos y/o de nodos parentales en una rama, yde nodos filiales en otra rama. Sin embargo, no podr utilizar la seleccin mltiple en un nodoparental y en un nodo filial/descendiente de la misma rama del nodo.

    Trabajo con rboles grandes

    En ocasiones, los modelos de rbol pueden contener tantos nodos y ramas que resulta difcil oimposible ver todo el rbol a tamao completo. Para ello existen ciertas funciones que le sern deutilidad a la hora de trabajar con rboles grandes: Mapa del rbol. Puede utilizar el mapa del rbol, que es una versin ms pequea y

    simplificada del rbol, para desplazarse por l y seleccionar nodos. Si desea obtener msinformacin, consulte Mapa del rbol en p. 40.

  • 40

    Captulo 2

    Escalamiento. Puede acercarse o alejarse cambiando el porcentaje de escala para lapresentacin del rbol. Si desea obtener ms informacin, consulte Escalamiento de lapresentacin del rbol en p. 41.

    Presentacin de nodos y ramas. Puede hacer que la presentacin de un rbol sea ms compactamostrando slo tablas o slo grficos en los nodos, o desactivando la visualizacin de lasetiquetas de los nodos o la informacin de las variables independientes. Si desea obtener msinformacin, consulte Control de la informacin que se muestra en el rbol en p. 42.

    Mapa del rbol

    El mapa del rbol proporciona una vista compacta y simplificada del rbol que puede utilizar paradesplazarse por el rbol y seleccionar nodos.

    Para utilizar la ventana del mapa del rbol:

    E En los mens del Editor del rbol, seleccione:Ver

    Mapa del rbol

    Figura 2-2Ventana del mapa del rbol

    El nodo seleccionado actualmente aparece resaltado tanto en el Editor del modelo del rbolcomo en la ventana del mapa del rbol.

    La parte del rbol que se ve actualmente en el rea de presentacin del Editor del modelodel rbol aparece indicada con un rectngulo rojo en el mapa del rbol. Pulse con el botnderecho en el rectngulo y arrstrelo para cambiar la seccin del rbol que se muestra en elrea de presentacin.

    Si selecciona un nodo en el mapa del rbol que no aparece actualmente en el rea depresentacin del Editor del rbol, la vista cambiar para incluir el nodo seleccionado.

    La seleccin de varios nodos en el mapa del rbol funciona de la misma manera que en elEditor del rbol: Mantenga pulsada la tecla Ctrl al mismo tiempo que pulsa el botn del ratnpara seleccionar varios nodos. No podr utilizar la seleccin mltiple en un nodo parental yen un nodo filial/descendiente de la misma rama del nodo.

  • 41

    Editor del rbol

    Escalamiento de la presentacin del rbol

    Por defecto, los rboles se escalan de forma automtica para ajustarse a la ventana del Visor, loque puede dar como resultado que, inicialmente, algunos rboles sean difciles de leer. Puedeseleccionar un ajuste de escala predefinida o introducir su propio valor de escala entre el 5% yel 200%.

    Para cambiar la escala del rbol:

    E Seleccione un porcentaje de escala de la lista desplegable situada en la barra de herramientas ointroduzca un valor de porcentaje personalizado.

    o

    E En los mens del Editor del rbol, seleccione:Ver

    Escala...

    Figura 2-3Cuadro de dilogo Escala

    Tambin puede especificar un valor de escala antes de crear el modelo del rbol. Si desea obtenerms informacin, consulte Resultados en Captulo 1 en p. 24.

    Ventana de resumen de nodos

    La ventana de resumen de nodos proporciona una vista de mayor tamao de los nodosseleccionados. Tambin puede utilizar la ventana de resumen para ver, aplicar o guardar las reglasde seleccin o de puntuacin basadas en los nodos seleccionados. Utilice el men Ver de la ventana de resumen de nodos para cambiar entre las vistas de tabla,

    grfico o reglas de resumen. Utilice el men Reglas de la ventana de resumen de nodos para seleccionar el tipo de reglas

    que desea ver. Si desea obtener ms informacin, consulte Reglas de seleccin de casos ypuntuacin en p. 46.

    Todas las vistas de la ventana de resumen de nodos reflejan un resumen combinado para todoslos nodos seleccionados.

  • 42

    Captulo 2

    Para utilizar la ventana de resumen de nodos:

    E Seleccione los nodos en el Editor del rbol. Mantenga pulsada la tecla Ctrl al mismo tiempo quepulsa el botn del ratn para seleccionar varios nodos.

    E Elija en los mens:Ver

    Resumen

    Figura 2-4rbol con grficos en nodos y tabla para nodo seleccionado en la ventana de resumen

    Control de la informacin que se muestra en el rbol

    El men Opciones del Editor del rbol le permite controlar la presentacin del contenido de losnodos, estadsticos y nombres de las variables (predictoras) independientes, definiciones de nodosy otros valores de configuracin. Muchos de estos ajustes tambin se pueden controlar desde labarra de herramientas.

    Configuracin Seleccin en el men OpcionesResaltar categora pronosticada (variable dependientecategrica)

    Resaltar pronosticada

    Tablas y/o grficos en el nodo Contenidos de los nodosValores de la prueba de significacin y valores p Estadsticos de las variables

    independientesNombres de las variables (predictoras) independientes Variables independientes

  • 43

    Editor del rbol

    Configuracin Seleccin en el men OpcionesValor(es) independientes (predictores) para nodos Definiciones de los nodosAlineacin (arriba-abajo, izquierda-derecha,derecha-izquierda)

    Orientacin

    Leyenda del grfico Leyenda

    Figura 2-5Elementos del rbol

    Modificacin de las fuentes de texto y los colores del rbol

    En los rboles, se pueden modificar los siguientes colores: Color del borde, del fondo y del texto de los nodos Color de las ramas y del texto de las ramas Color del fondo del rbol Color de resalte de las categoras pronosticadas (variables dependientes categricas) Colores de los grficos de los nodos

    Asimismo, se puede modificar el tipo, estilo y tamao de las fuentes de todo el texto del rbol.

    Nota: no se puede cambiar el color o los atributos de fuente para nodos o ramas individuales. Loscambios de color se aplican a todos los elementos del mismo tipo, y los cambios de fuente (que nosean el cambio de color) se aplican a todos los elementos del grfico.

    Para modificar los colores y los atributos de la fuente de texto

  • 44

    Captulo 2

    E Utilice la barra de herramientas para cambiar los atributos de fuente para todo el rbol o loscolores para los distintos elementos de dicho rbol. (Las pistas para las herramientas describentodos los controles de la barra de herramientas cuando se sita el puntero del ratn sobre ellos.)

    o

    E Pulse dos veces en cualquier lugar del Editor del rbol para abrir la ventana Propiedades, o,en los mens, seleccione:Ver

    Propiedades

    E Para el borde, rama, fondo de los nodos, categora pronosticada y fondo del rbol, pulse enla pestaa Color.

    E Para los colores y atributos de fuente, pulse en la pestaa Texto.

    E Para los colores de los grficos de los nodos, pulse en la pestaa Grficos de nodos.

    Figura 2-6Ventana Propiedades, pestaa Color

  • 45

    Editor del rbol

    Figura 2-7Ventana Propiedades, pestaa Texto

    Figura 2-8Ventana Propiedades, pestaa Grficos de nodos

  • 46

    Captulo 2

    Reglas de seleccin de casos y puntuacin

    Puede utilizar el Editor del rbol para: Seleccionar subconjuntos de casos basados en los nodos seleccionados. Si desea obtener ms

    informacin, consulte Filtrado de casos en p. 46. Generar reglas de seleccin de casos o reglas de puntuacin en formato de SPSS o SQL.

    Si desea obtener ms informacin, consulte Almacenamiento de las reglas de seleccin ypuntuacin en p. 46.

    Tambin puede guardar de forma automtica reglas basadas en distintos criterios cuando ejecuteel procedimiento rbol de clasificacin para crear el modelo del rbol. Si desea obtener msinformacin, consulte Reglas de seleccin y puntuacin en Captulo 1 en p. 36.

    Filtrado de casos

    Si desea obtener ms informacin sobre los casos de un determinado nodo o de un grupo denodos, puede seleccionar un subconjunto de casos para realizar un anlisis ms detallado en losnodos seleccionados.

    E Seleccione los nodos en el Editor del rbol. Mantenga pulsada la tecla Ctrl al mismo tiempo quepulsa el botn del ratn para seleccionar varios nodos.

    E Elija en los mens:Reglas

    Filtrar casos...

    E Introduzca un nombre de variable de filtro. Los casos de los nodos seleccionados recibirn unvalor igual a 1 para esta variable. Todos los dems casos recibirn un valor igual a 0 y se excluirndel anlisis subsiguiente hasta que se modifique el estado del filtro.

    E Pulse en Aceptar.

    Figura 2-9Cuadro de dilogo Filtrar casos

    Almacenamiento de las reglas de seleccin y puntuacin

    Puede guardar las reglas de seleccin de casos y puntuacin en un archivo externo y, acontinuacin, aplicar dichas reglas a otro origen de datos. Las reglas estn basadas en los nodosseleccionados en el Editor del rbol.

  • 47

    Editor del rbol

    Sintaxis. Controla la forma de las reglas de seleccin en los resultados que se muestran en el Visory de las reglas de seleccin almacenadas en un archivo externo. SPSS. Lenguaje de sintaxis de comandos. Las reglas se expresan como un conjunto de

    comandos que definen una condicin de filtrado que permite la seleccin de subconjuntosde casos o como instrucciones COMPUTE que se pueden utilizar para asignar puntuaciones alos casos.

    SQL. Las reglas SQL estndar se generan para seleccionar o extraer registros de una basede datos, o para asignar valores a dichos registros. Las reglas SQL generadas no incluyennombres de tablas ni ninguna otra informacin sobre orgenes de datos.

    Tipo. Puede crear reglas de seleccin o de puntuacin. Seleccionar casos. Las reglas se pueden utilizar para seleccionar aquellos casos que cumplan

    los criterios de pertenencia al nodo. Para las reglas de SPSS y SQL, se genera una nica reglapara seleccionar todos los casos que cumplan los criterios de seleccin.

    Asignar valores a los casos. Las reglas se pueden utilizar para asignar las predicciones delmodelo a los casos que cumplan los criterios de pertenencia al nodo. Se genera una reglaindependiente para cada nodo que cumple los criterios de pertenencia.

    Incluir sustitutos. Para CRT y QUEST, puede incluir predictores sustitutos del modelo en lasreglas. Es conveniente tener en cuenta que las reglas que incluyen sustitutos pueden ser bastantecomplejas. En general, si slo desea derivar informacin conceptual sobre el rbol, excluya a lossustitutos. Si algunos casos tienen datos de variables (predictoras) independientes incompletasy desea reglas que imiten a su rbol, entonces deber incluir a los sustitutos. Si desea obtenerms informacin, consulte Sustitutos en Captulo 1 en p. 15.

    Para guardar reglas de seleccin de casos o puntuacin:

    E Seleccione los nodos en el Editor del rbol. Mantenga pulsada la tecla Ctrl al mismo tiempo quepulsa el botn del ratn para seleccionar varios nodos.

    E Elija en los mens:Reglas

    Exportar...

    E Seleccione el tipo de reglas que desea e introduzca un nombre de archivo.

    Figura 2-10Cuadro de dilogo Exportar reglas

  • 48

    Captulo 2

    Nota: si aplica reglas con el formato de sintaxis de comandos a otro archivo de datos, dichoarchivo deber contener variables con los mismos nombres que las variables independientesincluidas en el modelo final, medidas con la misma mtrica y con los mismos valores definidoscomo perdidos por el usuario (si hubiera).

  • Captulo

    3Requisitos y supuestos de los datos

    El procedimiento rbol de clasificacin supone que: Se ha asignado el nivel de medida adecuado a todas las variables del anlisis. En el caso de variables dependientes categricas (nominales, ordinales), se han definido

    etiquetas de valor para todas las categoras que se deben incluir en el anlisis.

    Utilizaremos el archivo tree_textdata.sav para ilustrar la importancia de estos dos requisitos.Este archivo de datos refleja el estado por defecto de los datos ledos o introducidos antes dedefinir ningn atributo, como el nivel de medida o las etiquetas de valor. Si desea obtener msinformacin, consulte Archivos de ejemplo en Apndice A en p. 100.

    Efectos del nivel de medida en los modelos de rbol

    Las dos variables de este archivo de datos son numricas. Por defecto, se supone que las variablesnumricas tienen un nivel de medida de escala. Pero, como veremos ms adelante, ambasvariables son en realidad variables categricas que utilizan cdigos numricos para indicarvalores de categora.

    E Para ejecutar un anlisis de rbol de clasificacin, elija en los mens:Analizar

    Clasificarrbol...

    49

  • 50

    Captulo 3

    Los iconos situados junto a las dos variables en la lista de variables de origen indican que seambas se tratarn como variables de escala.

    Figura 3-1Cuadro de dilogo principal rbol de clasificacin con dos variables de escala

    E Seleccione dependiente como la variable dependiente.

    E Seleccione independiente como la variable independiente.

    E Pulse en Aceptar para ejecutar el procedimiento.

    E Vuelva a abrir el cuadro de dilogo rbol de clasificacin y pulse en Restablecer.

    E Pulse con el botn derecho en dependiente en la lista de origen y, en el men contextual,seleccione Nominal.

    E Realice los mismos pasos para la variable independiente en la lista de origen.

  • 51

    Requisitos y supuestos de los datos

    Ahora los iconos situados junto a cada variable indican que sern tratadas como variablesnominales.

    Figura 3-2Iconos nominales en la lista de origen

    E Seleccione dependiente como variable dependiente e independiente como variable independientey pulse en Aceptar para ejecutar el procedimiento.

    Comparemos los dos rboles. Primero estudiaremos el rbol en el que las dos variables numricasse han tratado como variables de escala.

    Figura 3-3rbol con las dos variables tratadas como variables de escala

  • 52

    Captulo 3

    Cada nodo del rbol muestra el valor pronosticado, que es el valor de la media de la variabledependiente en dicho nodo. Para una variable que es en realidad categrica, puede que lamedia no sea un estadstico significativo.

    El rbol tiene cuatro nodos filiales, uno para cada valor de la variable independiente.Los modelos de rbol fundirn a menudo nodos similares, pero para una variable de escala, slose pueden fundir valores contiguos. En este ejemplo, no hay valores contiguos que se hayanconsiderado lo suficientemente similares como para fundir nodos entre s.

    El rbol en el que se ha tratado a las dos variables como nominales es algo distinto en variosaspectos.

    Figura 3-4rbol con las dos variables tratadas como nominales

    En lugar de un valor pronosticado, cada nodo contiene una tabla de frecuencias que muestra elnmero de casos (frecuencia y porcentaje) para cada categora de la variable dependiente.

    La categora pronosticada, que es la categora con la mayor frecuencia en cada nodo,aparece resaltada. Por ejemplo, la categora pronosticada para el nodo 2 es la categora 3.

    En lugar de cuatro nodos filiales, slo hay tres, con dos valores de la variable independientefundidos en un nico nodo.

    Los dos valores independientes fundidos en el mismo nodo son el 1 y el 4. Ya que, por definicin,no hay ningn orden inherente a los valores nominales, se permite la fusin de valores aunqueestos no sean contiguos.

    Asignacin permanente del nivel de medida

    Cuando se modifica el nivel de medida para una variable en el cuadro de dilogo rbol declasificacin, el cambio es slo temporal; y no se almacenar con el archivo de datos. Es ms, esposible que no siempre sepa cul es el nivel de medida correcto para todas las variables.

  • 53

    Requisitos y supuestos de los datos

    La opcin Definir propiedades de variables puede ayudarle a determinar el nivel de medidacorrecto para cada variable y modificar, de forma permanente, el nivel de medida asignado. Parautilizar la opcin Definir propiedades de variables:

    E Elija en los mens:Datos

    Definir propiedades de variables...

    Efectos de las etiquetas de valor en los modelos de rbol

    La interfaz del cuadro de dilogo rbol de clasificacin supone que o todos los valores noperdidos de una variable dependiente categrica (nominal, ordinal) tienen etiquetas de valordefinidas o ninguno de ellos las tienen. Algunas caractersticas no estarn disponibles a menos quedos valores como mnimo de la variable dependiente categrica tengan etiquetas de valor. Si almenos dos valores no perdidos tienen etiquetas de valor definidas, todos los dems casos con otrosvalores que no tengan etiquetas de valor se excluirn del anlisis.

    El archivo de datos original de este ejemplo no contiene ninguna etiqueta de valor definida y,cuando la variable dependiente se trata como nominal, el modelo de rbol utiliza todos los valoresno perdidos en el anlisis. En este ejemplo, dichos valores son 1, 2 y 3.

    Pero, qu sucede si definimos etiquetas de valor para algunos, aunque no todos, valoresde la variable dependiente?

    E En la ventana del Editor de datos, pulse en la pestaa Vista de variables.

    E Pulse en la casilla Valores para la variable dependiente.

    Figura 3-5Definicin de etiquetas de valor para la variable dependiente

    E Primero, introduzca 1 para Valor y S para Etiqueta de valor y, a continuacin, pulse en Aadir.

    E A continuacin, introduzca 2 para Valor y No para Etiqueta de valor y, a continuacin, vuelva apulsar en Aadir.

    E A continuacin, pulse en Aceptar.

  • 54

    Captulo 3

    E Vuelva a abrir el cuadro de dilogo rbol de clasificacin. En el cuadro de dilogo an debeaparecer seleccionada dependiente como la variable dependiente, con un nivel de medida nominal.

    E Pulse en Aceptar para volver a ejecutar el procedimiento.

    Figura 3-6rbol para la variable dependiente nominal con etiquetas de valor parciales

    Ahora slo se incluirn en el modelo de rbol los dos valores de la variable dependiente conetiquetas de valor definidas. Se han excluido todos los casos con un valor igual a 3 para la variabledependiente, lo que podra no apreciarse con facilidad si no se est familiarizado con los datos.

    Asignacin de etiquetas de valor a todos los valores

    Para evitar la omisin accidental del anlisis de valores categricos vlidos, utilice la opcinDefinir propiedades de variables para asignar etiquetas de valor a todos los valores de la variabledependiente encontrados en los datos.

  • 55

    Requisitos y supuestos de los datos

    Cuando aparezca la informacin del diccionario de datos para la variable nombre en el cuadro dedilogo Definir propiedades de variables, se observa que aunque hay unos 300 casos con valorigual a 3 para dicha variable, no se ha definido ninguna etiqueta de valor para dicho valor.

    Figura 3-7Variable con etiquetas de valor parciales en el cuadro de dilogo Definir propiedade