MODELOS PREDICTIVOS

Embed Size (px)

Citation preview

Extraccin de modelos predictivos e interpretables en conjuntos de datos de tamao grande mediante la seleccin de conjuntos de entrenamientoJos Ramn Cano, Francisco Herrera y Manuel LozanoDept. de Informtica EUP de Linares Univ. de Jan 23700 Linares (Jan) [email protected] Dept. de Ciencias de la Computacin e Inteligencia Articial ETS Ingeniera Informtica Univ. de Granada 18071 Granada [email protected], [email protected]

ResumenLa extraccin de modelos predictivos es una tarea frecuente en Minera de Datos y tiene como objetivo la generacin de modelos precisos e interpretables. La reduccin de datos es un preprocesamiento interesante que puede ser empleado para extraer modelos con estas caractersticas en conjuntos de gran tamao. En este estudio analizamos la extraccin de modelos predictivos basados en reglas a partir de los conjuntos de entrenamiento obtenidos mediante un algoritmo de seleccin de instancias evolutivo estraticado. Este mtodo permite enfrentarse al problema de escalado que aparece al evaluar conjuntos de datos de gran tamao, ofreciendo modelos precisos e interpretables. 1

la literatura podemos encontrar diferentes propuestas para evaluar la calidad de estos modelos, tales como su simplicidad, interpretabilidad, etc [14]. Modelos Descriptivos. Este tipo de modelos intentan encontrar relaciones y patrones de comportamiento en el conjunto de datos para ofrecer conocimiento sobre un problema concreto de MDD [9].

1. IntroduccinEn Minera de Datos (MDD) la extraccin de modelos representativos es un proceso bsico [21]. Los modelos, dependiendo del mbito en el que se vayan a emplear pueden ser: Modelos Predictivos. El objetivo perseguido en estos modelos es la precisin. En1 Este trabajo esta soportado por la Comisin Interministerial de Ciencia y Tecnologa con el proyecto TIC2002-04036-C05-01

En este estudio centramos la atencin en los modelos predictivos basados en reglas de clasicacin. Los modelos, concretamente rboles de decisin, son extrados a partir de los conjuntos de datos utilizando el algoritmo C4.5 de Quinlan [16]. Para analizar la calidad de los rboles generados se pueden emplear diferentes medidas [14]. Los modelos son generados empleando como entrada conjuntos de datos de tamao grande. Debido a ello, los modelos extrados presentan tamaos elevados, lo cual disminuye su interpretabilidad. Con objeto de mejorar dicha interpretabilidad, los conjuntos de instancias son preprocesados mediante algoritmos de reduccin de datos. Se pretende con ello seleccionar del conjunto original, conjuntos de entrenamiento tales que permitan extraer modelos con equilibrio entre interpretabilidad y precisin [18]. La seleccin de conjuntos de entrenamiento se

Actas del III Taller Nacional de Minera de Datos y Aprendizaje, TAMIDA2005, pp.145-152 ISBN: 84-9732-449-8 2005 Los autores, Thomson

146

III Taller de Minera de Datos y Aprendizaje

puede llevar cabo utilizando algoritmos de seleccin de instancias (SII), siguiendo una determinada estrategia [12, 20]. Los algoritmos evolutivos (AAEE [7]) son mtodos adaptativos basados en la evolucin natural que pueden ser aplicados a problemas de optimizacin tales como la SII [19]. En este estudio emplearemos el algoritmo CHC ([4]) de entre los AAEE considerando el comportamiento que muestra en [2]. Los algoritmos de SII aplicados sobre conjuntos de datos grandes pueden ser inecaces e inecientes. Al efecto que produce el tamao del conjunto de datos sobre los algoritmos lo llamaremos problema de escalado. Este estudio analiza la SII evolutiva de conjuntos de entrenamiento sobre conjuntos de tamao grande con el objetivo de obtener reglas con ndices elevados de interpretabilidad y precisin. Para hacer frente al problema de escalado se combina la estraticacin de los conjuntos de datos con la SII evolutiva sobre ellos. Mediante la estraticacin reducimos el tamao del conjunto original, dividindolo en estratos en los que la seleccin ser aplicada. Se ha analizado la calidad de los conjuntos de entrenamiento seleccionados a travs de los modelos (rboles de decisin) que extraemos a partir de ellos desde las perspectivas de la precisin y la interpretabilidad. Este estudio est organizado de la siguiente manera. En la Seccin 2 se analizan los modelos predictivos y las medidas consideradas para evaluar su comportamiento. La Seccin 3 describe el problema de escalado debido a la evaluacin de conjuntos de gran tamao y como afecta a los algoritmos de seleccin de instancias y de extraccin de reglas. La Seccin 4 presenta la seleccin evolutiva estraticada de conjuntos de entrenamiento. La Seccin 5 contiene el estudio experimental desarrollado, ofreciendo la metodologa seguida, los resultados y su anlisis. Finlmente, en la Seccin 6 se muestran las conclusiones alcanzadas.

2. Modelos predictivos: extraccin de rboles de decisin con C4.5Uno de los principales benecios que ofrece la utilizacin de rboles de decisin y reglas es que permiten obtener modelos comprensibles, un punto clave para su utilidad y su aplicacin. Concretamente, en este estudio los rboles de decisin han sido generados empleando el algoritmo C4.5 [16]. Los modelos generados son completos y consistentes, cubriendo totlmente el conjunto de ejemplos. Dicha situacin origina que los modelos se sobreajusten con respecto al conjunto de entrenamiento y disminuyan su precisin al clasicar nuevos ejemplos. Como aadido, estos modelos son sensibles a la presencia de ruido en el conjunto de entrenamiento, ajustando sus ramas y nodos a l. Para limitar estas desventajas, se aplican mecanismos de poda a los rboles generados [5]: Mtodos de prepoda. El proceso de poda se desarrolla durante la generacin del rbol. La poda determina el criterio de parada en la especializacin de las ramas. Mtodos de postpoda. En este caso, el proceso de poda se aplica despus de la construccin del rbol. La poda elimina nodos de abajo hacia arriba del rbol hasta que se alcanza un determinado lmite.

Los mecanismos de poda aumentan la capacidad de generalizacin del modelo y reducen su tamao, lo cual mejora su interpretabilidad. El inconveniente de ambos mecanismos de poda es determinar el lmite de parada. Este lmite depender del conjunto de entrenamiento del que se extraiga el rbol de decisin. El ajuste adecuado de este lmite produce modelos con mejores o peores prestaciones. Si la poda es minimal, el sobreajuste se mantiene. Si la poda es mxima, la precisin del modelo podra reducirse debido a una excesiva generalizacin. En el caso del algoritmo C4.5, se emplea la poda basada en el error [16]. Esta estrategia de poda presenta un mayor equilibrio entre la precisin y el tamao del rbol que otros mecanismos de poda [5].

III Taller Nacional de Minera de Datos y Aprendizaje, TAMIDA2005

147

Cuando el rbol de decisin se emplea en dominios donde su carcter predictivo y descriptivo es importante, la simplicidad del rbol de decisin es un factor clave [11]. Las medidas que se emplean en este estudio para evaluar los modelos predictivos generados con C4.5 son las siguientes [14]: Precisin en test. En el aprendizaje de modelos predictivos, el optimizar la precisin del conjunto de reglas es un factor clave. El modelo se genera empleando como entrada el conjunto de entrenamiento seleccionado. El porcentaje de test se calcula utilizando el modelo construido (lo denotaremos como TEST ). Tamao del rbol de decisin. El tamao del rbol se evala mediante el nmero de reglas (nR ) que componen el modelo (T AM = nR ). Numero de antecedentes. Como segunda medida del tamao del rbol de decisin se utiliza el nmero medio de antecedentes por regla. Considerando las reglas Ri de la forma Cond Clase, NAntec (Ri ) es el nmero de antecedentes de Ri y AN T el nmero medio de antecedentes del modelo: AN T = nR 1 NAntec (Ri ). nR i=1 Tanto el nmero de reglas (TAM) como el nmero de medio de antecedentes (ANT) son empleados para analizar la interpretabilidad del modelo.

3. El problema de escaladoEn esta seccin se estudia el efecto del tamao del conjunto de datos sobre los algoritmos de SII y en la extraccin de rboles de decisin. La mayora de los algoritmos de SII presentan problemas al ser aplicados sobre conjuntos de datos grandes. Deben hacer frente principalmente a las siguientes dicultades: Eciencia. La eciencia de los algoritmos de SII no evolutivos es al menos de O(n2 ), siendo n el nmero de instancias en el conjunto de datos. Existe otro conjunto de algoritmos (como el Rnn [6], Shrink [10], etc.) pero la mayora presenta un orden de eciencia muy superior a O(n2 ). Conforme el tamao del conjunto crece, el tiempo necesario para evaluar

cada algoritmo aumenta tambin. Recursos. La mayora de los algoritmos evaluados necesitan tener almacenado el conjunto completo de datos en memoria para poder ejecutarse. Si el tamao de este conjunto es demasiado grande, podra ser necesario el empleo del disco duro como memoria de intercambio. Esta situacin supone un efecto adverso en la eciencia debido al excesivo acceso a disco. Representacin. Los AAEE sufren el efecto del tamao del conjunto de datos en la representacin de las soluciones (tamao de los cromosomas). Cuando el tamao de estos cromosomas es demasiado grande, el algoritmo ve afectada su convergencia as como su tiempo de ejecucin. Estas desventajas producen una degradacin considerable del comportamiento de los algoritmos de SII. La evaluacin de los algoritmos directamente sobre el conjunto de datos completo puede ser inecaz e ineciente. A su vez, el tamao del rbol de decisin generado empleando conjuntos de datos de tamao grande se ve aumentado considerablemente [15]. El crecimiento del tamao del rbol provoca: Sobreajuste. En este caso, la hiptesis aprendida se encuentra demasiado relacionada con los conjuntos de entrenamiento, lo que origina que su capacidad de generalizacin se vea penalizada [17]. Prdida de interpretabilidad. El elevado tamao de los rboles de decisin produce una excesiva complejidad en ellos, que puede provocar el que sean incomprensibles para los expertos [18, 22].

4. Seleccin de conjuntos de entrenamiento evolutiva estraticadaPara llevar a cabo la SII en conjuntos de gran tamao se ha combinado la estraticacin del conjunto inicial con los AAEE. Siguiendo esta va, el algoritmo puede ser aplicado independientemente del tamao del conjunto. La estraticacin reduce el espacio de bsqueda, al mismo tiempo que el algoritmo evolutivo explora cada estrato.

148

III Taller de Minera de Datos y Aprendizaje El porcentaje de clasicacin con el vecino ms cercano asociado a TSS (porc_clas1 ) y el porcentaje de reduccin conseguido en TSS con respecto a TR (porc_red1 ): FEval1 (T SS) = porc_clas1 + (1 ) porc_red1 .

La Subseccin 4.1 describe el proceso de seleccin de conjuntos de entrenamiento. En la Subseccin 4.2 se muestra el empleo de los algoritmos evolutivos en la seleccin de conjuntos de entrenamiento. Finlmente, la Subseccin 4.3 est dedicada a presentar la seleccn de conjuntos de entrenamiento evolutiva estraticada.

(1)

4.1. Seleccin de conjuntos de entrenamientoEl objetivo de esta seleccin consiste en encontrar el conjunto de entrenamiento del que se pueden extraer, cuando es empleado como entrada, conjuntos de reglas con precisin e interpretabilidad altas. En seleccin de conjuntos de entrenamiento, el conjunto inicial (D) se divide en conjunto de entrenamiento (TR) y test (TS). Empleando TR como entrada, el algoritmo de seleccin de instancias obtiene el conjunto de entrenamiento seleccionado (TSS). Este conjunto es utilizado por el algoritmo C4.5 para extraer el modelo a partir de l. Finlmente, el modelo se valida empleando el conjunto de test TS.

Para calcular el porcentaje de clasicacin (porc_clas1 ) se emplea el clasicador 1-vecino ms cercano. Dicho porcentaje representa el porcentaje de muestras clasicadas correctamente de TR empleando tan solo instancias de TSS para encontrar el vecino ms cercano. Para cada objeto y en TR, se busca su vecino ms cercano entre aquellos pertenecientes a T SS \ {y}. El porcentaje de reduccin (porc_red1 ) se obtiene de la siguiente forma:100 (|T R| |T SS|) (2) |T R|

porc_red1 =

4.2. Algoritmos evolutivos para seleccin de conjuntos de entrenamientoPara describir el empleo de los AAEE en SII hay que referenciar dos factores clave: la especicacin de la representacin y la denicin de la funcin objetivo. Representacin: Partimos de un conjunto de datos al que denominaremos TR compuesto por n instancias. De esta forma, el espacio de bsqueda estar constituido por todos los subconjuntos de TR. Cada cromosoma es uno de esos subconjuntos. La solucin estar representada empleando un cromosoma binario con n genes, donde cada gen puede presentar dos posibles estados: 1 0, indicando pertenencia o no al conjunto seleccionado respectivamente. Funcin objetivo: Se han empleado dos funciones objetivo distintas. Sea TSS un subconjunto de instancias de TR codicadas en un cromosoma para ser evaluado. Deniremos las funciones de evaluacin como combinacin de dos valores:

El porcentaje de clasicacin con C4.5 asociado a TSS (porc_clas2 ) y el porcentaje de reduccin conseguido en el tamao del modelo extrado de TSS con respecto al extrado de TR (porc_red2 ): FEval2 (T SS) = porc_clas2 + (1 ) porc_red2 .

(3)

Para calcular el porcentaje de clasicacin se emplea el modelo generado por C4.5 a partir de TSS (porc_clas2 ). Dicho porcentaje representa el porcentaje de muestras clasicadas correctamente de TR empleando tan solo instancias de TSS para confeccionar el rbol de decisin. El porcentaje de reduccin (porc_red2 ) se obtiene de la siguiente forma:100 (T AMT R T AMT SS ) T AMT R (4)

porc_red2 =

III Taller Nacional de Minera de Datos y Aprendizaje, TAMIDA2005

149

Para diferenciar el empleo de una funcin objetivo u otra en el algoritmo CHC se utilizara la notacin CHC1 para la primera funcin objetivo y CHC2 para la segunda.

5.1. Metodologa de experimentacinEn esta subseccin se presentan: los conjuntos de datos, algoritmos y parmetros considerados, el esquema de estraticacin y la extraccin de modelos seguida en el algoritmo C4.5.

4.3. Seleccin de conjuntos de entrenamiento evolutiva estraticadaLa estraticacin ha sido empleada en trabajos previos para hacer frente al problema de escalado ofreciendo buenos resultados [3]. Consiste en dividir el conjunto inicial en subconjuntos disjuntos manteniendo la distribucin de las clases. El nmero de estratos determinar el tamao de cada uno de ellos. Empleando el nmero adecuado de estratos se puede reducir sensiblemente el tamao del conjunto de datos, reducindose el problema de escalado. Con la estraticacin, el conjunto D se divide en t subconjuntos disjuntos Dj , de igual tamao. El conjunto de entrenamiento TR se obtiene como muestra la expresin (5) y TS, su complementario en D, como indica la expresin (6).TR =jJ

5.1.1. Conjuntos de datos, algoritmos de seleccin de instancias y parmetrosLos experimentos se han llevado a cabo aumentando el tamao y la complejidad de los conjuntos de datos. Se han seleccionado conjuntos de tamao grande y muy grande, como podemos ver en la Tabla 1 (los conjuntos han sido seleccionados del depsito de UCI [13], donde el conjunto Kdd Cup'99 corresponde a su versin al 10 %). Cuadro 1: Conjuntos de Datos Conjunto Inst. Atrib. Clases Adult Kdd Cup'99 30132 494022 14 41 2 23

Dj , J {1, 2, ..., t}

(5) (6)

TS = D \ TR

Los algoritmos de SII se aplican a cada Dj , obteniendo los conjuntos seleccionados DSj . El conjunto de entrenamiento seleccionado (TSS) siguiendo la estrategia de estraticacin se obtendr empleando los DSj (ver expresin (7)) y se denomina subconjunto estraticado de entrenamiento (STSS).ST SS =jJ

DSj , J {1, 2, ..., t}

(7)

5. Estudio experimentalEn esta seccin se describe el estudio experimental desarrollado. La Subseccin 5.1 presenta la metodologa seguida en los experimentos. La Subseccin 5.2 muestra los resultados que, nlmente en la Subseccin 5.3, se analizan.

Los algoritmos evaluados se han dividido en dos grupos, considerando su naturaleza evolutiva: Algoritmos no evolutivos. Los algoritmos escogidos son: Cnn [8], Ib2 [1] y Ib3 [1]. Han sido seleccionados por ser los que han mostrado ser mas ecientes en [2]. Los parmetros de Ib3 son: Nivel de Aceptacin=0,9 y Nivel de Eliminacin=0,7. Los otros algoritmos no presentan parmetros que necesiten ajuste. Algoritmos evolutivos. Se ha seleccionado el algoritmo CHC como algoritmo ecaz y eciente por su comportamiento en [2]. Se ha empleado un tamao de poblacin de 50 cromosomas y 10000 evaluaciones. El valor de en ambas funciones objetivo es 0,5 segn [2, 3].

5.1.2. Estraticacin y particionesCada algoritmo ha sido ejecutado siguiendo un proceso de validacin cruzada de orden 10. De esta forma, T Ri , con i=1,...,10 es un 90 % del

150

III Taller de Minera de Datos y Aprendizaje

conjunto D y T Si su complementario al 10 % en D. A la ejecucin siguiendo el proceso de estraticacin la llamaremos validacin cruzada estraticada de orden 10 (Tfcv st). En Tfcv st cada T Ri y T Si se dene como indican las expresiones (8) y (9), mediante la unin de subconjuntos Dj .T Ri = jJ Dj , J = {j/1 j b (i 1) y (i b) + 1 j t} (8) T Si = D \ T Ri

(9)

es seguido por el tipo de validacin empleada, st (Tfcv st) o cl (Tfcv cl). La segunda columna ofrece el porcentaje de reduccin media conseguido por el algoritmo de seleccin sobre el conjunto inicial de datos. La tercera columna contiene el porcentaje de acierto en test del rbol de decisin generado a partir del subconjunto seleccionado. La cuarta columna presenta el nmero medio de reglas que componen el modelo. La quinta columna muestra el nmero medio de antecedentes de las reglas que componen el modelo. A continuacin se presentan las tablas de resultados obtenidas: Cuadro 2: Resultados en datos Adult RED TEST TAM ANT C4.5 Min cl C4.5 cl C4.5 Max cl Cnn st 84,27 99,57 76,69 99,38 58,54 Ib2 st Ib3 stCHC1 st CHC2 st

donde t es el nmero de estratos, y b el nmero de estratos agrupados (b = t/10 para llevar a cabo la validacin de orden 10). El conjunto ST SSi es generado empleando los subconjuntos DSj seleccionados en vez de los Dj (ver exprexin (10)).ST SSi = jJ DSj , J = {j/1 j b (i 1) y (i b) + 1 j t} (10) Los conjuntos de datos han sido divididos en 100 estratos (t=100).

84,02 85,4 85,86 85,75 36,4 82,7 82,7 85,24

1252 359 52 292 12 179 5 216

17,31 14,38 11,15 15,56 5,08 12,86 2,80 14,51

5.1.3. Evaluacin de C4.5Como referencia incorporamos la evaluacin del algoritmo C4.5 sobre el conjunto de datos inicial sin reduccin, empleando una validacin cruzada de orden 10 sin estraticar (la llamaremos Tfcv cl). Se ha incluido al mismo tiempo la ejecucin de C4.5 aplicando poda mxima (C4.5 Max) y mnima (C4.5 Min) y la que emplea por defecto (C4.5). En todos los casos se trata de la poda basada en el error. El objetivo es analizar el efecto de la poda en el rbol desde la perspectiva de la precisin y la interpretabilidad. Cuadro 3: Resultados en Kdd Cup'99 RED TEST TAM ANT C4.5 Min cl C4.5 cl C4.5 Max cl Cnn st Ib2 st Ib3 stCHC1 st CHC2 st

99,96 99,95 99,99 63,85 82,01 78,82 99,28 60,32 99,5 95,05 96,77 98,41 99,7

281 143 106 105 58 74 9 69

15,07 11,78 10,44 12,11 10,86 11,48 3,56 10,03

5.2. ResultadosLa tabla de resultados presenta la siguiente estructura: La primera columna muestra el nombre del algoritmo. En esta columna el nombre

5.3. AnlisisEl anlisis de las Tablas 2 y 3 permite hacer las siguientes observaciones:

III Taller Nacional de Minera de Datos y Aprendizaje, TAMIDA2005 Considerando el porcentaje de reduccin sobre el conjunto original de muestras, la seleccin evolutiva estraticada (en su versin CHC1 ) presenta el mejor comportamiento de entre los algoritmos analizados, conforme crece el tamao del conjunto. El tamao del modelo predictivo depende del tamao del conjunto de entrenamiento que se emplea como entrada para generarlo. De esta forma, los algoritmos de seleccin que presentan los mayores porcentajes de reduccin son los tienen asociados los rboles de decisin ms pequeos. El algoritmo de seleccin evolutivo estraticado, en su versin CHC1 , consigue porcentajes de reduccin de los ms elevados, junto con el algoritmo Ib2, sin embargo los modelos predictivos extrados a partir del conjunto seleccionado por el CHC1 son mucho menores. Del empleo de las dos funciones objetivo (CHC1 y CHC2 ) habra que destacar que en CHC1 existe una mayor tendencia a reducir el conjunto inicial, lo que supone menores modelos asociados y un leve descenso en la precisin. En CHC2 la reduccin es menor, con lo lo cual los modelos extrados tienen un tamao superior que los ofrecidos por CHC1 junto con una precisin cercana a la de C4.5.

151

6. ConclusionesEs este estudio se ha analizado la extraccin de modelos predictivos basados en reglas mediante la seleccin de conjuntos de entrenamiento sobre conjuntos de datos de tamao grande. La calidad de los modelos ha sido evaluada desde la perspectiva de su precisin y de su interpretabilidad. Las principales conclusiones alcanzadas son las siguientes: La seleccin evolutiva estraticada, en su versin CHC1 ofrece los porcentajes de reduccin ms altos del estudio conforme se incrementa el tamao del conjunto. El algoritmo CHC estraticado, en su versin CHC2 muestra los mejores porcentajes de acierto de entre los algoritmos de seleccin conforme crece el tamao del conjunto, solo superados por el algoritmo C4.5 sin reducir. Prestndo atencin al tamao de los modelos se puede destacar que el algoritmo CHC1 estraticado ofrece los rboles de decisin compuestos por el menor nmero de reglas y de antecedentes, siendo los ms interpretables.

La seleccin evolutiva estraticada consigue modelos con precisiones cercanas a las ofrecidas por C4.5 sin reduccin, con el aadido de presentar unos modelos con tamaos muy inferiores a los que se consigue con C4.5, an llevando a cabo poda mxima. As mismo, habra que destacar el comportamiento de CHC1 . ste ofrece reducciones superiores al 99 % del conjunto original, con porcentajes en precisin tan solo un 3 % menores que las ofrecidas por C4.5 sin reduccin. La reduccin del tamao del modelo es ms que signicativa al compararlo con los dems (por ejemplo, en Kdd Cup'99 de 143 reglas y 14,38 antecedentes obtenidos por C4.5 con poda por defecto, a las 9 reglas y 3,56 antecedentes por regla de CHC1 ).

Como conclusin nal consideramos que la extraccin de modelos predictivos mediante la seleccin evolutiva estraticada presenta el mejor comportamiento de entre los algoritmos de seleccin de instancias analizados. Ofrece los rboles de decisin ms pequeos con indices de precisin altos, similares a los que muestra el C4.5 sin reduccin. La seleccin evolutiva estraticada permite obtener modelos predictivos con el equilibrio adecuado entre interpretabilidad y precisin.

Referencias[1] Aha, D. W., Kibbler, D., y Albert, M. K., Instance-Based learning algorithms, Machine Learning, 6, 3766, 1991. [2] Cano, J. R., Herrera, F., y Lozano, M. Using evolutionary algorithms as instance selection for data reduction in KDD: An

152

III Taller de Minera de Datos y Aprendizaje

experimental study, IEEE Transaction on Evolutionary Computation, 7 (6), 561575, 2003. [3] Cano, J. R., Herrera, F., y Lozano, M., Stratication for scaling up evolutionary prototype selection, Pattern Recognition Letters, 26 (7), 953963, 2005. [4] Eshelman, L. J., The CHC adaptive search algorithm: How to have safe search when engaging in nontraditional genetic recombination, Foundations of Genetic Algorithms, 1, 265283, 1991. [5] Esposito, F., Malerba, D., y Semeraro, G., A comparative analysis of methods for pruning decision trees, IEEE Transactions on Pattern Analysis and Machine Intelligence, 19 (5), 476491, 1997. [6] Gates, G. W., The reduced nearest neighbour rule, IEEE Transaction on Information Theory, 18 (5), 431433, 1972. [7] Goldberg, D. E., The design of competent genetic algorithms: Steps toward a computational theory of innovation, Kluwer Academic Pub., 2002. [8] Hart, P. E., The condensed nearest neighbour rule, IEEE Transaction on Information Theory, 18 (3), 431433, 1968. [9] Hipp, J., Guntzer, U., y Nakhaeizadeh, G., Algorithms for Association Rule Mining: A General Survey and Comparison, SIGKDD Explorations, 2 (1), 5864, 2000. [10] Kibbler, D., y Aha, D. W., Learning representative exemplars of concepts: An initial case of study, En Proc. of the Fourth International Workshop on Machine Learning, 2430, 1987. [11] Last, M., y Maimon; O., A compact and accurate model for classication, IEEE Transactions on Knowledge and Data Engineering, 16 (2), 203215, 2004. [12] Liu, H., y Motoda, H., On issues of instance selection, Data Mining and Knowledge Discovery, 6, 115130, 2002.

[13] Merz, C. J., y Murphy, P. M., UCI repository of machine learning databases, University of California Irvine, Department of Information and Computer Science, 1996. [14] Kweku-Muata y Osei-Bryson, Evaluation of decision trees: a multicriteria approach, Computers and Operations Research, 31, 19331945, 2004. [15] Oates, T., y Jensen, D., Large datasets lead to overly complex models: an explanation and a solution, Proceedings of the Fourth International Conference on Knowledge Discovery and Data Mining, 294298, 1998. [16] Quinlan, J. R., C4.5: Programs for machine learning, Morgan Kaufmann. 1993. [17] Schaer, C., When does overtting decrease prediction accuracy in induced decision trees and rule sets?, In Proceedings of the European Working Session on Learning (EWSL-91), 192205, 1991. [18] Sebban, M., Nock, R., Chauchat, J. H., y Rakotomalala, R., Impact of learning set quality and size on decision tree perfomances International Journal of Computers, Systems and Signals, 1 (1), 85105, 2000. [19] Shinn-Ying, H., Chia-Cheng, L., y Soundy, L., Design of an optimal nearest neighbour classier using an intelligent genetic algorithm, Pattern Recognition Letters, 23 (13), 14951503, 2002. [20] Wilson, D. R., y Martinez, T. R., Reduction techniques for instance-based learning algorithms, Machine Learning, 38, 257 268, 2000. [21] Witten, I. H., y Frank, E., Data mining: practical machine learning tools and techniques with java implementations, Morgan Kaufmann, 2000. [22] Zhou, Z.-H., y Jiang, Y., Medical diagnosis with C4.5 rule preceded by articial neural network ensemble, IEEE Transactions on Information Technology in Biomedicine, 7 (1), 3742, 2003.