Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
Minerıa de datos Conocimiento
Introduccion a la Minerıa de Datos
Pedro Larranaga, Inaki Inza
Departamento de Ciencias de la Computacion e Inteligencia ArtificialUniversidad del Paıs Vasco
Donostia-San Sebastian, 3 de Marzo de 2006
Minerıa de datos Conocimiento
Indice
1 Minerıa de datos
2 Proceso de extraccion de conocimiento
Minerıa de datos Conocimiento
Indice
1 Minerıa de datos
2 Proceso de extraccion de conocimiento
Minerıa de datos Conocimiento
Algunas definiciones
Data mining. Mineria de datos como el proceso de extraerconocimiento util y comprensible, previamentedesconocido, desde grandes cantidades de datosalmacenados en distintos formatos (Witten y Frank, 2000)Knowledge discovery in databases. Descubrimiento deconocimiento en bases como proceso no trivial deidentificar patrones validos, novedosos, potencialmenteutiles, y en ultima instancia, comprensibles a partir de losdatos (Fayyad y col. 1996)
Minerıa de datos Conocimiento
Tipos de modelos
De datos a conocimiento a traves de modeloscomputacionalesModelos descriptivos: identifican patrones que explican oresumen los datos
Reglas de asociacion: expresan patrones decomportamiento en los datosClustering: agrupacion de casos homogeneos
Modelos predictivos: estiman valores de variables deinteres (a predecir) a partir de valores de otras variables(predictoras)
Regresion: Variable a predecir continuaClasificacion supervisada: Variable a predecir discreta(nominal u ordinal)
Minerıa de datos Conocimiento
Tipos de datos
Bases de datos relacionales
Coleccion de relaciones (tablas). Tabla como conjunto de atributos(variables, columnas, campos) conteniendo tuplas (casos, filas, registros)Presentacion tabular: atributo-valor (vista minable)
Bases de datos espaciales: datos geograficos, imagenes medicas, redes detransporte o trafico, ....
Bases de datos temporales: distintos instantes o intervalos temporales
Bases de datos documentales: objetos son documentos de texto, variablesdesde palabras hasta resumenes
Bases de datos multimedia: imagenes, audio, video
La World Wide Web: repositorio de informacion mas grande y diverso en laactualidad
Minerıa del contenido: encontrar patrones en las paginas webMinerıa de la estructura: estudia los hipervınculos y URLsMinerıa del uso: analisis de la navegacion
Minerıa de datos Conocimiento
Relacion con otras disciplinasEstadıstica. ”Madre”de la minerıa de datosAprendizaje automatico. El ordenador aprende a partir deejemplosReconocimiento de patrones. Clustering y clasificacionsupervisadaSistemas para la toma de decision. Herramientas ysistemas que asisten al directivoVisualizacion de datos. Descubrir, intuir o entenderBases de datos. Almacenes de datos. Acceso eficiente alos datosRecuperacion de la informacion. Datos textuales.Bibliotecas digitales. Busqueda por InternetComputacion paralela y distribuida. Procesamientoparalelo, distribuido o computacion en grid
Minerıa de datos Conocimiento
Minerıa de datos versus estadıstica
Estadıstica (Analisis de datos)
Encorsetamiento: premisas, teoremas, independencia demuestras, modelos a veces crıpticosScore: verosimilitud de los datos dado el modeloBusqueda: modelizacion basada en el test de la razon deverosimilitud (hacia adelante, hacia atras, paso a paso)No funcionan bien en: bases de datos de gran tamano yalta dimensionalidad o con datos textuales, multimedia,variables nominales con gran numero de valores distintos,no se integran bien en sistemas de informacion
Minerıa de datos
Mayor libertad en la construccion de modelos.Interpretabilidad y comprensionScore: a veces mas directoBusqueda: metaheurısticos
Minerıa de datos Conocimiento
Aplicaciones
FinancierasDeteccion de uso fraudulento de tarjetas de creditoPrediccion del gasto en tarjeta de credito por gruposAnalisis de riesgos en concesion de creditosIdentificacion de reglas de mercado a partir de datoshistoricosReconocimiento de clientes ”infieles”
Minerıa de datos Conocimiento
Aplicaciones
ComercioAnalisis de la cesta de la compraEvaluacion de campanas publicitariasSegmentacion de clientesEstimacion de stocks, de costes, de ventas
Minerıa de datos Conocimiento
Aplicaciones
SegurosDeterminacion de clientes potencialmente carosPrediccion de que tipo de clientes contratan nuevas polizasIdentificacion de patrones de comportamiento paraclientes con riesgoIdentificacion de comportamiento fraudulento
Minerıa de datos Conocimiento
Aplicaciones
EducacionSeleccion o captacion de estudiantesDeteccion de abandonos o fracasosEstimacion del tiempo de estancia en la institucion
Minerıa de datos Conocimiento
Aplicaciones
MedicinaDiagnostico de enfermedadesDeteccion de pacientes con riesgo de sufrir una patologıaconcretaGestion hospitalaria y asistencial. Predicciones temporalesde los centros sanitarios para el mejor uso de recursosTratamiento de imagenes medicas
Minerıa de datos Conocimiento
Aplicaciones
BioinformaticaBusqueda de genes (regiones codificantes del genoma)Prediccion de la estructura secundaria de las proteinasBusqueda de biomarcadores a partir de datos demicroarrays o de datos de espectrometrıa de masas
Minerıa de datos Conocimiento
Aplicaciones
Otras areasTelecomunicaciones: deteccion del fraudeCorreo electronico y agendas personales: clasificacion ydistribucion automatica de correo, deteccion de correospamHacienda: deteccion de fraude fiscalWeb: analisis del comportamienrto de los usuarios,analisis de los log de un servidor webDeportes: deteccion riesgo de lesiones a partir de datosmedicos
Minerıa de datos Conocimiento
Indice
1 Minerıa de datos
2 Proceso de extraccion de conocimiento
Minerıa de datos Conocimiento
Knowledge Discovery from Databases (KDD)
Fases del proceso iterativo e interactivo1 Integracion y recopilacion de datos2 Seleccion, limpieza y transformacion3 Minerıa de datos4 Evaluacion e interpretacion5 Difusion y uso
Minerıa de datos Conocimiento
Knowledge Discovery from Databases (KDD)
Figura: Proceso de extraccion de conocimiento
Minerıa de datos Conocimiento
Knowledge Discovery from Databases (KDD)
1. Integracion y recopilacion de datos
Procesamiento transaccional en lınea (On-Line TransactionProcessing, OLTP): suficiente para necesidades diarias(facturacion, control de inventario, ...)
Decisiones estrategicas basadas en el analisis, la planificacion yla prediccion: datos en varios departamentos
Cada fuente de datos distintos formatos de registro, diferentesgrados de agregacion, diferentes claves primarias, ....
Integracion de multiples bases de datos: almacenes de datos(data warehousing)
Almacen de datos aconsejable cuando el volumen deinformacion es grande. No estrictamente necesario (archivos detexto, hojas de calculo, ...)
Minerıa de datos Conocimiento
Knowledge Discovery from Databases (KDD)
2. Seleccion, limpieza y transformacion
Calidad del conocimiento descubierto depende (ademas delalgoritmo de minerıa) de la calidad de los datos analizados
Presencia de datos que no se ajustan al comportamientogeneral de los datos (outliers)
Presencia de datos perdidos (missing values)
Seleccion de variables relevantes (feature subset selection)
Seleccion de casos aleatoria en bases de datos de tamanoingente. Muestreo aleatorio simple, por conglomerados,estratificado, polietapico
Construccion automatica de nuevas variables que faciliten elproceso de minerıa de datos
Discretizacion de variables continuas
Minerıa de datos Conocimiento
Knowledge Discovery from Databases (KDD)
3. Minerıa de datosModelos descriptivos
Reglas de asociacionClustering: particional, probabilıstico, jerarquico, conceptual
Modelos predictivos:
Regresion: regresion lineal, regression tree, model tree,additive regressionClasificacion supervisada: clasificadores Bayesianos,regresion logıstica, redes neuronales, arboles declasificacion, induccion de reglas, K-NN, combinacion declasificadores
Minerıa de datos Conocimiento
Knowledge Discovery from Databases (KDD)
4. Evaluacion e interpretacionTecnicas de evaluacion: validacion simple (training + test),validacion cruzada con k -rodajas, bootstrappingReglas de asociacion: cobertura (soporte), confianzaClustering: variabilidad intra y entreRegresion: error cuadratico medioClasificacion supervisada: porcentaje de bien clasificados,matriz de confusion, analisis ROCModelos precisos, comprensibles (inteligibles) einteresantes (utiles y novedosos)
Minerıa de datos Conocimiento
Knowledge Discovery from Databases (KDD)
5. Difusion y usoDifusion: necesario distribuir, comunicar a los posiblesusuarios, integrarlo en el know-how de la organizacionMedir la evolucion del modelo a lo largo del tiempo(patrones tipo pueden cambiar)Modelo debe cada cierto tiempo de ser:
ReevaluadoReentrenadoReconstruido
Minerıa de datos Conocimiento
Introduccion a la Minerıa de Datos
Pedro Larranaga, Inaki Inza
Departamento de Ciencias de la Computacion e Inteligencia ArtificialUniversidad del Paıs Vasco
Donostia-San Sebastian, 3 de Marzo de 2006