Upload
destiny-britt
View
77
Download
2
Embed Size (px)
DESCRIPTION
Minería de texto. Análisis Documental. Información. - PowerPoint PPT Presentation
Citation preview
Minería de texto
Análisis Documental
Información
La producción y crecimiento del volumen de información digital, en los últimos años ha sido de forma exponencial, de tal suerte que en la actualidad es necesario contar con equipos de cómputo de alto rendimiento con capacidad de almacenamiento, desde varios gigabytes hasta varios terabytes.
Problema
El crecimiento en la producción de la información digital y los diferentes formatos que se utilizan para su almacenamiento, hacen difícil el acceso a la información, dado que los contenidos no se encuentran indizados y organizados.
Análisis documental
Indización
La indización consiste en dos puntos, el primero es identificar los términos dentro de un documento y segundo en determinar la importancia del término dentro del documento a través de su frecuencia de ocurrencia.
Minería de texto
Es el área más reciente de investigación del procesamiento automático de la información. Su objetivo es descubrir tendencias, desviaciones y asociaciones, de la colección de textos en formato digital.
Minería de texto
La minería de texto es el proceso encargado del descubrimiento de conocimientos que no existían explícitamente en ningún texto de la colección, pero que surgen de relacionar el contenido de varios de ellos. (Swanson, 1991, p. 280-289)
Minería de texto
El descubrimiento de información significativa y esencial de los documentos en grandes corpus textuales electrónicos, estructurados y no estructurados.
Minería de texto
Clasificar y organizar documentos según su contenido; es decir, preseleccionar automáticamente grupos de documentos con un tema específico.
Categorías
Categorías
Minería de texto
El procesamiento de texto
Los textos son representados en estructuras que permitan su análisis automático
01 D end_punctuation :,=;/.01 N compress '[]|01 N to_blank !"()-{}<>;:.?/\@*%=^_`~01 N comma01 N del_subfield_code 01 N char_conv FILING-KEY-1001 N del_lead_space01 N to_lower01 N pack_spaces01 F char_conv FILING-KEY-01
FILING-KEY-01 ##### # line_utf2line_utf unicode_to_filing_01FILING-KEY-02 ##### # line_utf2line_utf unicode_to_filing_02FILING-KEY-10 ##### # line_utf2line_utf naco_diacriticsFILING-KEY-11 ##### # line_utf2line_utf unicode_to_filing_11
Extracción de palabras
Análisis
Consiste en realizar una cuantificación de las características (es decir, de los términos) de los documentos.
Modelo vectorial
Una de las técnicas utilizadas en la minería de texto es el Modelo de Espacio Vectorial, en donde cada documento es modelado como un vector de dimensión n y es representado de la siguiente manera:
,
),...,(2,1 itiiitttD
Frecuencia de las palabras
a) Se calcula la frecuencia de las palabras en el documento, donde K representa el término en el documento I
IKFREQ
Frecuencia total
b) Se calcula la frecuencia total del término K en todos los documentos
N
IIKK FREQTOTALFRECQ
1
Frecuencia de palabras
Análisis 2 0 2 2 1.5 0.176 0.352 0 0.352
documental 2 1 23 1 0 0 0 0
información 1 0 01 3 0.477 0.477 0 0
textual 1 0 0 1 3 0.477 0.477 0 0
Lenguajes 1 2 0 2 1.5 0.176 0.176 0.352 0
documentales 1 0 01 3 0.477 0.477 0 0
herramienta 1 0 01 3 0.477 0.477 0 0
libres 0 1 0 1 3 0.477 0 0.477 0
controlados 0 1 0 1 3 0.477 0 0.477 0
proceso 0 1 0 1 3 0.477 0 0.477 0
indización 0 1 0 1 3 0.477 0 0.477 0
procesamiento 0 1 01 3 0.477 0 0.477 0
automático 0 1 0 1 3 0.477 0 0.477 0
texto 0 1 0 1 3 0.477 0 0.477 0
orígenes 0 0 1 1 3 0.477 0 0 0.477
padre 0 0 1 1 3 0.477 0 0 0.477
indización
Palabras no significativas Altas frecuencias
Palabras no significativas Bajas frecuencias
Palabras significativas
Ley de Zipf
• Texto en lenguaje natural.
• Se cuentan las palabras y se ordenan de mayor a menor frecuencia de aparición, F
• El número de orden de cada palabra es su rango, R
• Análisis de la frecuencia de las palabras
F=K/R FxR=K
La frecuencia , F, de aparición de una palabra en un texto
es inversamente proporcional a su rango, R. Frecuencia por el rango igual a constante (k)
“Ley del mínimo esfuerzo”
Frecuencias de Stopword
Posición Frecuencia Palabras1 18205668 de2 10821113 la3 7190346 y4 6946343 en5 6769416 el6 6459010 que7 5030018 a8 4505566 los9 3675272 se10 3225267 del
Ley de Zipf
Frecuencias de Stopword
Ley de Zipf
Semejanza de documentos
Matriz de documentos
a) Si se realiza el cálculo de similitud entre renglones se pude determinar la semejanza entre documentos.
tTTT 21
ntnn
t
t
ddd
ddd
ddd
Dn
D
D
21
22221
11211
2
1
Matriz de documentos
b) Si se realiza el cálculo de similitud entre columnas se pueden obtener las relaciones entre términos.
tTTT 21
ntnn
t
t
ddd
ddd
ddd
Dn
D
D
21
22221
11211
2
1
Archivos digitales en texto
Total de títulos procesados 1868 (Año 2005)
Total de archivos 22721
Tiempo de proceso 60 minutos
Total de palabras 162723663
Stopwords 117323884 (72.90%)
Palabras útiles 45399779 (27.90%)
Palabras/Diccionario