21
MINIG TEXT AND AUDIOVISUAL DATA SISTEMAS INFORMÁTICOS Y COMPUTACIÓN REALIZACIÓN: Irina Anabel Veintimilla Toro, [email protected] Ana Karolis Paz Alberca, [email protected] Jonathan Gandin Calero Armijos, [email protected]

Minig text and audiovisual data

Embed Size (px)

Citation preview

Page 1: Minig text and audiovisual data

MINIG TEXT AND AUDIOVISUAL DATA

SISTEMAS INFORMÁTICOS Y COMPUTACIÓN

REALIZACIÓN:Irina Anabel Veintimilla Toro, [email protected] Ana Karolis Paz Alberca, [email protected] Jonathan Gandin Calero Armijos, [email protected]

Page 2: Minig text and audiovisual data

INTRODUCCIÓNLa información esta representada en lenguaje

natural.La búsqueda de información depende del

contexto de la misma para extraer el conocimiento de los distintos repositorios.

Para la extracción de información nos valemos de la minería de texto.

La minería de texto es el descubrimiento de patrones y nuevos conocimientos en un conjunto de textos.

Page 3: Minig text and audiovisual data

La ciencia encargada del tratamiento de la información mediante la minería de texto (text mining) es la lingüística computacional.

La lingüística computacional trata de la aplicación de los métodos computacionales en el estudio del lenguaje natural, investiga métodos computacionales para la manipulación de sistemas complejos.

El objetivo primordial es transformar la información en lenguaje natural a una representación formal del conocimiento, como por ejemplo una red semántica.

Page 4: Minig text and audiovisual data

Tradicionalmente la solución para resolver éste tipo de problemas, es mediante un procesador lingüístico que consta de los módulos:

El módulo morfológico, se encarga de reconocer las palabras. Y convierte las cadenas de letras a una entrada de un diccionario, y ubica las marcas de tiempo, género y número.  

El módulo sintáctico reconoce oraciones, convierte las cadenas de palabras marcadas a una estructura gráfica, en donde se hacen explicitas algunas relaciones entre las palabras de la oración.

El módulo semántico reconoce la estructura completa del texto y lo convierte a una “red semántica”.  

Page 5: Minig text and audiovisual data

La lingüística computacional también se encargada del procesamiento automático de textos, que considera diversidad de tareas y dentro de éstas la minería de texto, que es el objeto a tratar en ésta investigación.

La minería de datos incluye tecnología de base de datos, aprendizaje de máquinas, estadísticas, reconocimiento de patrones, inteligencia artificial, visualización de datos.

Page 6: Minig text and audiovisual data

MINERÍA DE DATOSMinería de datos, se refiere a la extracción de

conocimientos de grandes cantidades de datos que son parte de repositorios de información.

Conocida también como Knowledge Discovery from Data, o KDD.

La minería de datos envuelve una integración de técnicas como tecnologías de BD y warehouses, estadísticas, aprendizaje de máquinas, reconocimiento de patrones, análisis espacial y temporal de datos.

Page 7: Minig text and audiovisual data

Descubrimiento de conocimiento consiste:

Limpieza de datos.Integración de datos.Selección de datos.Transformación de datos.Minerías de datosEvaluación de patrones.Presentación del conocimiento.

Page 8: Minig text and audiovisual data

Tipo de datos donde realizar minería de datos

La minería de datos se aplica a cualquier repositorio de datos, estos repositorios incluyen BD relacionales, data warehouses, BD transaccionales, sistemas avanzados de BD, archivos planos, data streams, y el WWW.

Los sistemas avanzados de bases de datos incluyen BD de objetos relacionados y especificas, BD orientadas a aplicaciones, BD espaciales, BD textuales.

Los desafíos y técnicas de minería pueden diferir para cada uno de los sistemas repositorios.

Page 9: Minig text and audiovisual data

MINERÍA DE TEXTOLa minería de texto, se basa en documentos de

texto no estructurados, los cuales son la base para el descubrimiento de nueva información. Para realizar minería de texto se debe realizar las siguientes actividades:

Agrupamiento de documentos. Identificación de categorías. Categorización.Clasificación.Asociaciones.

Page 10: Minig text and audiovisual data

La minería de texto realiza el descubrimiento de conocimientos que no existían explícitamente en ningún texto de la colección, pero que surgen de relacionar el contenido de varios de ellos. Consiste de dos etapas: Primera etapa, los textos se transforman tipo de representación estructurada o semi-estructurada; la segunda etapa las representaciones intermedias se analizan para descubrir en ellas algunos patrones interesantes o nuevos conocimientos.

Page 11: Minig text and audiovisual data

Pre procesamientoEn ésta etapa de procesamiento las técnicas

utilizadas intentan transformar a una representación semiestructurada o estructurada los documentos de datos textuales en crudo.

Las representaciones intermedias de los textos deben ser sencillas y completas.

Existen representaciones que son utilizadas en ésta etapa de la minería de texto , que son de dos tipos:

A nivel documento y a nivel de concepto. A nivel concepto.

Page 12: Minig text and audiovisual data

APLICACIONES

Las prácticas de minería de datos se utilizan en diversas industrias y funciones de negocios:

Empresas de telecomunicaciones. La industria del comercio. La industria de la medicina.Bancos e Instituciones Financieras.

Page 13: Minig text and audiovisual data

REDES NEURONALES EN LA MINERIA DE DATOS Las Redes Neuronales (Neural Networks) son

utilizadas para la predicción, la minería de datos (data mining), el reconocimiento de patrones y los sistemas de control adaptativo. Constituyen una parte muy importante en el estudio y desarrollo de la inteligencia artificial (AI) y el de la vida artificial (a-life).

Las Redes Neuronales pueden ser combinadas con otras herramientas  como la lógica difusa (lógica fuzzy), los algoritmos genéticos, los sistemas expertos, las estadísticas, las transformadas de Fourier, etc.

Page 14: Minig text and audiovisual data

TÉCNICAS BASADAS EN REDES NEURONALES ARTIFICIALESSu ventaja principal es que, cuando están bien

ajustadas, obtienen precisiones muy altas. Además son muy expresivas y permiten capturar modelos no lineales.

Entre sus inconvenientes se suelen nombrar su sensibilidad a valores anómalos (aunque son robustos al ruido no extremo y a los atributos no significativos), necesitan muchos ejemplos para el aprendizaje y son relativamente lentas y fundamentalmente, su incomprensibilidad.

Son técnicas muy eficientes que permiten trabajar con datos con alta dimensionalidad y precisión.

Page 15: Minig text and audiovisual data

APLICACIONES DE LAS REDES NEURONALES EN LA MINERÍA DE DATOS

Minería de Datos con Redes Neuronales Artificiales: Aplicación en Vacunas – Tuberculosis.La Minería de Datos se apoya en la aplicación de métodos matemáticos de análisis, y específicamente del uso redes neuronales artificiales.Esta revolución de la Tecnología de la Información coincide con la revolución que paralelamente está teniendo lugar en la Biotecnología, debido a un mundo de avances tecnológicos que han permitido la obtención y acumulación automática de inmensas cantidades de información biológica.Del encuentro de estas dos revoluciones nace la Bioinformática como una multidisciplina estratégica que pone al servicio de la Biotecnología los recursos de la nuevas Tecnologías de la Información.

Page 16: Minig text and audiovisual data

Aplicación de redes neuronales artificiales para determinar la distribución Espacial de la humedad del suelo en una pequeña cuenca de drenaje.

Este estudio trata de demostrar que es posible realizar una predicción razonable de la distribución espacial de la humedad edáfica superficial, estudiar sus patrones espaciales y contrastar la importancia de cada variable a partir de un número limitado de mediciones mediante el uso de redes neuronales artificiales multicapa de tipo feedforward con aprendizaje mediante mecanismos de retro propagación del error utilizando principalmente variables derivadas de un modelo digital de elevaciones (MDE) y de fotografía aérea.

Page 17: Minig text and audiovisual data

CONCLUSIONES

La minería de datos (DM, Data Mining) nos ayuda a preparar, y explorar los datos para sacar la información oculta en ellos.

Está fuertemente ligado con la supervisión de procesos industriales ya que resulta muy útil para aprovechar los datos almacenados en las bases de datos.

Al momento de utilizar técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación.

Page 18: Minig text and audiovisual data

Las redes neuronales artificiales han sido claramente aceptadas en la minería de datos como nuevos sistemas eficaces para el tratamiento de la información en muchas disciplinas. Pues esto ha dado como resultado sus diferentes aplicaciones en áreas de Ciencia e Ingeniería, Medicina y Salud, Transporte y Comunicaciones, Finanzas, Negocios, etc.

Las redes neuronales artificiales se hacen muy evidentes en la minería de datos, específicamente las basadas en el modelo Kohonen, ya que pueden ser aplicadas como una herramienta de análisis.

Page 19: Minig text and audiovisual data

RECOMENDACIONES Hacer uso de aplicaciones que permitan mejorar el

proceso de formación académica de los estudiantes.Fomentar el desarrollo de proyectos de descubrimiento

de Conocimiento en BD en la Universidad.Las redes neuronales no constituyen una área nueva de

conocimiento, pero actualmente no se le está prestando la suficiente atención es por esto que se recomendaría que se tome en cuenta las ventajas que presentan sobre otras técnicas en la minería de datos para resolver los diferentes problemas.

Una recomendación importante de las redes neuronales es que con el estudio de ellas, después su empleo es relativamente fácil y adaptable a diferentes series.

Page 20: Minig text and audiovisual data

APORTE PERSONAL En el desarrollo de la presente temática que hemos escogido nos hemos

podido dar cuenta ya que debido a la abundancia de información de texto, la recuperación de información ha encontrado algunas aplicaciones. Por lo cual existen algunos sistemas de recuperación de formación, como sistemas de catálogos de bibliotecas en línea, sistemas de gestión de documentos y los desarrollados más recientemente motores de búsqueda Web.

Es de gran importancia la minería de Datos ya que es una de las ramas de la lingüística computacional que trata de obtener información y conocimiento a partir de conjuntos de datos que en principio no tienen un orden o no están dispuestos en origen para transmitir esa información.

Estas redes poseen dos tipos de aprendizaje tales como aprendizaje supervisado y no supervisado. Como en toda aplicación existen ventajas y desventajas al utilizar este método, algunas de la ventajas son: aprendizaje adaptativo: auto organización: tolerancia a fallos: operación en tiempo real.

Una de las desventajas es que las redes neuronales padecen de falta de hardware, debido a que su habilidad radica en procesar información en paralelo.

Page 21: Minig text and audiovisual data

BIBLIOGRAFÍA Y REFERENCIAS Montes Manuel -y- Gómez.- Minería de texto: Un nuevo reto computacional. Carmen Gálvez, PhD.- TEXT-MINING: THE NEW GENERATION OF SCIENTIFIC

LITERATURE ANALYSIS IN MOLECULAR BIOLOGY AND GENOMICS Machine Learning: An Artificial Intelligence Approach Vol I-IV [Michalski and

Teccuci, 1994]. M. Montes-y-Gómez y A. Gelbukh.- Un método de agrupamiento de grafos

conceptuales para minería de texto*. Hernandez josé, Ramírez Ma Jose, Ferri cesar.- Introducción a la minería de datos. Redes Neuronales (Neurales). (Neural Networks), disponible en

http://www.answermath.com/redes_neuronales_o_neurales.htm Aplicación de la minería de datos al estudio de las alteraciones respiratorias

durante el sueño, Carlos Zamarrón Sanz, Vanesa García Paz, Uxío Calvo Álvarez, Fernanda Pichel Guerrero, José Ramón Rodríguez, Pdf disponible en http://www.sogapar.org/pneuma/pneuma6/pneuma-n-6-5c.pdf

Minería de datos con redes neuronales artificiales: aplicación en Vacunas – tuberculosis, M.v. Guzmán, h. Carrillo , e. Villaseñor , e. Valencia, r. Calero, L. E. Morán y a. Acosta,Pdf disponible en: http://www.dynamics.unam.edu/DinamicaNoLineal/Articulos/MineriaRedesNVacunas.pdf

Aplicación de redes neuronales artificiales para determinar la distribución Espacial de la humedad del suelo en una pequeña cuenca de drenaje. Estudios Preliminares, M. Maneta y S. Schnabel, Pdf disponible en: http://www.zonanosaturada.com/publics/V6/p295-304.pdf