11
Plantilla del Estado del Arte Author (s): I-Cheng Yeh a,*, Che-hui Lien Títle of paper: The comparisons of data mining techniques for the predictive accuracy of probability of default of credit card clients Journal: Expert Systems with Applications Volume (issue): 36 pag – pag (year): 2473 - 2480 Problema que el autor desea resolver (0.5 página) Predecir el riesgo de morosidad de crédito en la banca de las líneas de crédito para las personas naturales del banco de Taiwan, utilizando técnicas de minerías de datos a través de un método de clasificación Smoothing para estimar la verdadera probabilidad de incumplimiento. Importancia del problema (0.5 página) Si la probabilidad estimada de impago producido a partir de métodos de minería de datos pueden representar la probabilidad '"real" de incumplimiento es un problema importante. Para pronosticar la probabilidad de incumplimiento es un paramento desafíos profesionales e investigadores, y que necesita más estudio. Debido a que la verdadera probabilidad de incumplimiento es desconocida, este estudio propone el método de clasificación Smoothing "para deducir la verdadera probabilidad de

Plantilla Del Efstado Del Arte

Embed Size (px)

DESCRIPTION

sdsddsds

Citation preview

Page 1: Plantilla Del Efstado Del Arte

Plantilla del Estado del Arte

Author (s): I-Cheng Yeh a,*, Che-hui LienTítle of paper: The comparisons of data mining techniques for the predictiveaccuracy of probability of default of credit card clientsJournal: Expert Systems with ApplicationsVolume (issue): 36pag – pag (year): 2473 - 2480

Problema que el autor desea resolver (0.5 página)

Predecir el riesgo de morosidad de crédito en la banca de las líneas de crédito para las personas naturales del banco de Taiwan, utilizando técnicas de minerías de datos a través de un método de clasificación Smoothing para estimar la verdadera probabilidad de incumplimiento.

Importancia del problema (0.5 página)

Si la probabilidad estimada de impago producido a partir de métodos de minería de datos pueden representar la probabilidad '"real" de incumplimiento es un problema importante.Para pronosticar la probabilidad de incumplimiento es un paramento desafíos profesionales e investigadores, y que necesita más estudio.

Debido a que la verdadera probabilidad de incumplimiento es desconocida, este estudio propone el método de clasificación Smoothing "para deducir la verdadera probabilidad de incumplimiento y que ofrece las soluciones a las dos preguntas siguientes:(1) ¿Hay alguna diferencia de precisión de la clasificación entre las técnicas de minería de datos de seis?(2) ¿Podría la probabilidad estimada de incumplimiento producido a partir de datos métodos de minería representan la probabilidad real de incumplimiento?

Page 2: Plantilla Del Efstado Del Arte

Estado del arte que hace el autor (1 a 2 página)

En la era de la explosión de la información, las empresas individuales producían y recogían gran volumen de datos de todos los días. El descubrimiento útil de conocimiento a partir de la base de datos y la transformación de la información en acciones concretas es un reto importante el cual se enfrentan las empresas. La minería de datos es el proceso de exploración y análisis, por automático o semi-automático que signifique, de grandes cantidades de datos con el fin de descubrir patrones significativos y reglas (Berry y Linoff, 2000).

K cercanos clasificadores vecino (KNN). Los K-vecinos más cercanos (KNN) clasificadores se basan en aprendizaje por analogía. Cuando se le presenta una muestra desconocida, un KNN clasificador busca en el espacio de patrones para el KNN que son los más cercanos a la muestra desconocida. La cercanía se define en términos de distancia. La muestra desconocida es asignado a la clase más común entre su KNN. La ventaja importante de este enfoque es que no se requiere establecer un modelo predictivo antes de la clasificación. Las desventajas para las KNN son que no produce una simple fórmula de clasificación de probabilidad y su predictiva exactitud es altamente afectado por la medida de la distancia y la cardinalidad k del barrio.

La regresión logística (LR). La regresión logística puede considerarse un caso especial de modelos de regresión lineal. Sin embargo, la respuesta de variables binarias viola supuestos de normalidad de regresión general. Un modelo de regresión logística se especifica que una función apropiada de la probabilidad equipada del evento es una función lineal de los valores observados de las variables explicativas disponibles. La principal ventaja de este enfoque es que puede producir una fórmula sencilla probabilística de clasificación. Las debilidades son que LR no puede tratar adecuadamente los problemas del no lineal e efecto interactivo de las variables explicativas.

El análisis discriminante (DA). El análisis discriminante, también conocida como regla de Fisher, es Otra técnica aplicada al resultado binario de la respuesta variable. DA es una alternativa a la regresión logística y es basado en la suposición de que, para cada clase dada de variable de respuesta, se distribuyen las variables explicativas como una distribución normal multivariante con una matriz común de varianzas de covarianza. El objetivo del gobierno de Fisher es para maximizar la distancia entre los diferentes grupos y minimizar la distancia dentro de cada grupo. Los pros y contras de DA son similares a los de LR.

Clasificador bayesiano Naive (NB) El clasificador bayesiano ingenuo se basa en la teoría de Bayes y se supone que el efecto de un valor de atributo en una clase dada es independiente de los valores de los otros atributos. Este supuesto se llama clase de independencia condicional.Clasificadores bayesianos son útiles ya que proporcionan una justificación teórica de otros clasificadores que no lo hacen de forma explícita utilizar el teorema de Bayes. La principal debilidad de NB es que la precisión predictiva está altamente correlacionada con la asunción de clase independencia condicional.

Las redes neuronales artificiales (RNA). Las redes neuronales artificiales utilizan matemática no lineal, ecuaciones para desarrollar sucesivamente relaciones significativas entre las variables de entrada y salida a través de un proceso de aprendizaje. Se aplicó de nuevo las redes de propagación para clasificar datos. Una red neuronal de retropropagación utiliza una topología feed-forward ty de aprendizaje supervisado. La estructura de espalda redes de propagación se componen típicamente de una capa de entrada, una o más capas ocultas, y una salida capa, cada uno compuesto de varias neuronas. RNAs puede fácilmente manejar los efectos interactivos de explicativa no lineal y variables. El principal inconveniente de las RNA es - que no pueden resultar en una fórmula sencilla de la clasificación probabilística.

Page 3: Plantilla Del Efstado Del Arte

Árboles de clasificación (TC). En una estructura de árbol de clasificación, cada nodo internodenota una prueba en un atributo, cada rama representa un resultado de la prueba, y los nodos de la hoja representan clases. EL nodo más arriba en un árbol es el nodo raíz. TC se aplican cuando la respuesta de la variable es cualitativa o cuantitativa discreta. Árboles de clasificación realizan una clasificación de las observaciones sobre la base de todas las variables explicativas y supervisadas por la presencia de la variable de respuesta. El proceso de segmentación se lleva a cabo típicamente usando sólo una variable explicativa a la vez. TC se basan en la minimización de la impureza, que hace referencia a una medida de variabilidad de los valores de respuesta de las observaciones. TC da lugar a normas de clasificación simple y puede manejar el lineal y los efectos interactivos de las variables explicativas. Pero su naturaleza secuencial y complejidad algorítmica puede hacer que depende de los datos observados, e incluso un pequeño cambio podría alterar la estructura del árbol. Es difícil tener una estructura de árbol diseñado para un contexto y generalizar para otros contextos

Rosenberg y Gleit (1994) señalaron que muchas estáticas y modelos dinámicos se han utilizado para ayudar a la toma de decisiones en el área de consumo y crédito comercial. Las decisiones de interés, como la posibilidad de ampliar el crédito, cuánto crédito para ampliar, cuando existen colecciones en mora, que cuentas deben ser iniciados y qué medidas deben ser tomado. Los investigadores encuestaron a la utilización del análisis discriminante, clasificación árboles, y sistemas expertos para las decisiones estáticos, y programación dinámica, programación lineal, y cadenas de Markov para los modelos de decisión dinámicos.

Hand y Henley (1997) argumentaron que la puntuación de crédito es el término utilizado para describir los métodos estadísticos formales que son utilizados para la clasificación de los solicitantes de crédito en '' bueno "y '' Malas clases de riesgo”. Tales métodos se han convertido en un importante y espectacular crecimiento del crédito al consumo en años recientes. Una amplia gama de métodos estadísticos ha sido aplicado, aunque la literatura a disposición del público es limitado por razones de confidencialidad comercial.

Paolo (2001) mostró que los métodos bayesianos, acoplados con técnicas computacionales de Markov Chain Monte Carlo, podría emplear con éxito en el análisis de un complejo conjunto de datos altamente dimensional, tales como los de crédito anotado y benchmarking. Paolo emplea gráficos de independencia para localizar la especificación del modelo e inferencias, lo que permite una ganancia considerable en flexibilidad de la modelización y la eficiencia de los cálculos.

Lee et al. (2002) exploraron el desempeño de la puntuación de crédito mediante la integración de las redes neuronales backpropagation con el enfoque de análisis discriminante tradicional. El enfoque híbrido propuesto converge mucho más rápido que el modelo convencional de las redes neuronales. Además, la precisión de puntuación de crédito aumenta en términos de la metodología propuesta y el enfoque híbrido supera al tradicional análisis discriminante y regresión logística.

Baesens et al. (2003) encontraron que, en base al conjuntos de datos de credit scoring, tanto en el LS-SVM y red neuronal clasificadores producen un rendimiento muy bueno, pero también clasificadores simples, tales como la regresión logística y discriminante lineal funcionan muy bien para la puntuación de crédito.

Page 4: Plantilla Del Efstado Del Arte

Motivación del autor (críticas del autor a otros trabajos) (0.5 página)

Muchos métodos estadísticos, incluyendo el análisis discriminante, regresión logística, Bayes clasificador, y el vecino más cercano, se han utilizado para desarrollar modelos de predicción de riesgo. Con la evolución de la inteligencia artificial y el aprendizaje automático, redes neuronales artificiales y se emplearon también los árboles de clasificación para pronosticar riesgo de crédito, pero ninguno de estos tiene una probabilidad de impago del crédito aproximado a la realidad. Debido a que la verdadera probabilidad de incumplimiento es desconocida, este estudio propone la novela '' método de clasificación Smoothing "para deducir la verdadera probabilidad de incumplimiento.

Descripción del aporte del autor (1.5 - 2 páginas)

Del total de 25.000 observaciones, 5.529 observaciones (22,12%) son los titulares de la tarjeta con pago predeterminado. Esta investigación utilizó una variable binaria - pago por defecto (Sí = 1, No = 0). Este estudio revisado utilizo las siguientes 23 variables como variables explicativas:

X1: Monto del crédito dado (en dólares NT): incluye tanto en el crédito al consumo individual y su / su familia Crédito (complementaria).X2: Género (1 = hombre; 2 = mujer).X3: Educación (1 = la escuela de posgrado; 2 = universitario; 3 = la escuela secundaria; 4 = otros).X4: Estado civil (1 = casado; 2 = único; 3 = otros).X5: Edad (años).X6-X11: Historia de pago pasado. Rastreamos el pasado registros de pago mensuales (de abril a septiembre, 2005) como sigue: X6 = el estado de devolución en septiembre, 2005X7 = el estado de devolución en agosto, 2005X11 = el estado de devolución en abril de 2005.La escala de medición para el estado de devolución es: 1 = pagan debidamente; 1 = retraso en el pago de un mes; 2 = retraso en el pago de dos meses; 8 = pago retrasar durante ocho meses; 9 = retraso en el pago de nueve meses o más.X12-X17: Cantidad de estado de cuenta (dólar NT).X12 = cantidad de estado de cuenta, en septiembre de 2005X13 = cantidad de estado de cuenta, en agosto 2005X17 = cantidad de estado de cuenta, en abril de 2005.X18-X23: Monto del pago anterior (dólar NT).X18 = importe pagado en septiembre de 2005X19 = cantidad pagado en agosto de 2005X23 = importe pagado en abril, 2005.

Los datos se dividieron al azar en dos grupos, uno para formación de modelo y la otra para validar el modelo. Revisión de la literatura (Jain, Duin, y Mao, 2000; Nelson, Runger, & Si, 2003) revela que las tasas de error se utilizan a menudo como la medición de la precisión de la clasificación de modelos. Sin embargo, la mayoría de los registros en el conjunto de datos de clientes de tarjetas de crédito son sin riesgo (87,88%); Por lo tanto, la tasa de error es insensible a la clasificación precisión de los modelos para el problema de clasificación binaria, relación de área en el gráfico de elevación puede ofrecer la mejor solución para comparar el rendimiento de diferentes modelos que la que hicieron por la tasa de error

Page 5: Plantilla Del Efstado Del Arte

Por lo tanto, el estudio que hace el autor empleó relación de área, en vez de la tasa de error, para examinar la precisión de la clasificación entre las técnicas de minería de datos. En el gráfico de elevación, el eje horizontal representa el número de datos en total. El eje vertical muestra el número acumulativo de datos de destino. Cuanto mayor es el área entre el modelo curva y la curva de línea base, mejor será el modelo.

Relación de áreas = Área entre la curva modelo y la curva de línea de base / área entre teóricamente mejor curva y la curva de línea de base

Para estimar la verdadera probabilidad de incumplimiento, el enfoque, denominado método de Clasificación Smoothing (SSM), fue propuesto en este estudio. En primer lugar, de acuerdo con la probabilidad predictivo, ordenar los datos de validación del mínimo al máximo. En segundo lugar, utilizar el SSM para estimar la verdadera probabilidad de incumplimiento de la siguiente manera:

Donde Pi = estima la probabilidad real de forma predeterminada en el ITH orden de los datos de validación; Yi = variable binaria con verdadero defecto riesgo en el orden i de datos de validación; Yi = 1 grado para '' pasó "; Yi = 0 significa '' no pasó "; n = número de datos de suavizado.

Page 6: Plantilla Del Efstado Del Arte

Proceso para resolver el problema (solo si hay validación) (0.5 páginas)

Con la probabilidad real estimado de incumplimiento (visto como probabilidad real por defecto), el siguiente procedimiento podría ser utilizado para explorar si el defecto probabilidad predictivo representa la verdadera probabilidad de incumplimiento: (1) Diagrama de dispersión: el eje horizontal representa la probabilidad de impago de predicción; el eje vertical representa la probabilidad real estimado de incumplimiento. (2) La regresión lineal: la línea de regresión lineal (Y = A + BX) se produce a partir del diagrama gráfico de dispersión, y el coeficiente de determinación (R2) se calcula. Si R2 está cerca de uno, interceptar (A) a cero, y coeficiente de regresión (B) a uno, entonces podemos concluir que la probabilidad de impago de predicción producida de métodos de minería de datos puede representar la verdadera probabilidad de incumplimiento. En este estudio, el n = 50 fue elegido y SSM era empleada para estimar la verdadera probabilidad de incumplimiento. La dispersión diagrama de trama, la línea de regresión, y R2, producido.

Principal resultado (solo si hay validación) (0.5 página)

En la precisión de la clasificación entre las 6 técnicas de minería de datos, los resultados muestran que hay pequeñas diferencias en las tasas de error entre los seis métodos. Sin embargo, hay relativamente grandes diferencias en la relación de áreas entre las seis técnicas. Obviamente, la proporción de área es más sensible y es un criterio adecuado para medir la precisión de la clasificación de modelos. Las redes neuronales artificiales realizan clasificación con mayor precisión que los otros cinco métodos. En la precisión de la predicción de la probabilidad de incumplimiento, las redes neuronales artificiales también muestran el mejor desempeño basado en R2 (0,9647, cerca de 1), intercepto de la regresión (0,0145, cerca de 0), y el coeficiente de regresión (0,9971, cerca a 1). La probabilidad de impago predictivo producido por ANN es el único que podría ser utilizado para representar la probabilidad real de de forma predeterminada. Desde la perspectiva de control de riesgos, la estimación la probabilidad de incumplimiento es más significativo que clasificación de los clientes en resultados binarios - arriesgado y sin riesgo.Por lo tanto, las redes neuronales artificiales se deben emplear para anotar los clientes en lugar de otro.

Page 7: Plantilla Del Efstado Del Arte

Colocar las referencias bibliográficas referenciadas en este informe (0.5 página)

Baesens, B., Setiono, R., Mues, C., & Vanthienen, J. (2003). Using neural network rule extraction and decision tables for credit-risk evaluation.

Management Science, 49(3), 312–329. Baesens, B., Van Gestel, T., Viaene, S., Stepanova , M., Suykens, J., & Vanthienen, J. (2003). Benchmarking state-of-the-art classification algorithms for credit scoring. Journal of the Operational Research Society, 54(6), 627–635.

Berry, M.,&Linoff, G. (2000). Mastering data mining: The art and science of customer relationship management. New York: John Wiley & Sons, Inc. Chou, M. (2006). Cash and credit card crisis in Taiwan. Business Weekly, 24–27.

Desai, V. S., Crook, J. N., & Overstreet, G. A. A. (1996). Comparison of neural networks and linear scoring models in the credit unión environment. European Journal of Operational Research, 95(1), 24–37.

Han, J., & Kamber, M. (2001). Data mining: Concepts and techniques. San Fransisco: Morgan Kaufmann.

Hand, D. J., & Henley, W. E. (1997). Statistical classification methods in consumer credit scoring: A review. Journal of the Royal Statistical Society, Series A – Statistics in Society, 160(3), 523–541. Hand, D. J., Mannila, H., & Smyth, P. (2001). Data mining: Practical machine learning tools and techniques. Cambridge: MIT Press.

Jagielska, I., & Jaworski, J. (1996). Neural network for predicting the performance of credit card accounts. Computational Economics, 9(1), 77–82.

Jain, A., Duin, P., & Mao, J. (2000). Statistical pattern recognition: A review. IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(1), 4–37.

Koh, H. C., & Chan, K. L. G. (2002). Data mining and customer relationship marketing in the banking industry. Singapore Management Review, 24(2), 1–27.

Lee, T. S., Chiu, C. C., Lu, C. J., & Chen, I. F. (2002). Credit scoring using the hybrid neural discriminant technique. Expert Systems with Applications, 23(3), 245–254.

Lee, Y. S., Yen, S. J., Lin, C. H., Tseng, Y. N., Ma, L. Y. (2004). A data mining approach to constructing probability of default scoring model. In Proceedings of 10th conference on information management and implementation (pp. 1799–1813).

Nelson, B., Runger, G., & Si, J. (2003). An error rate comparison of classification methods with continuous explanatory variables. IIE Transactions, 35, 557–566.

Paolo, G. (2001). Bayesian data mining, with application to benchmarking and credit scoring. Applied Stochastic Models in Business and Society, 17, 69–81.

management: A survey. Operations Research, 42(4), 589–613.