Minería de texto

Minería de texto

Análisis Documental

Información

La producción y crecimiento del volumen de información digital, en los últimos años ha sido de forma exponencial, de tal suerte que en la actualidad es necesario contar con equipos de cómputo de alto rendimiento con capacidad de almacenamiento, desde varios gigabytes hasta varios terabytes.

Problema

El crecimiento en la producción de la información digital y los diferentes formatos que se utilizan para su almacenamiento, hacen difícil el acceso a la información, dado que los contenidos no se encuentran indizados y organizados.

Análisis documental

Indización

La indización consiste en dos puntos, el primero es identificar los términos dentro de un documento y segundo en determinar la importancia del término dentro del documento a través de su frecuencia de ocurrencia.

Minería de texto

Es el área más reciente de investigación del procesamiento automático de la información. Su objetivo es descubrir tendencias, desviaciones y asociaciones, de la colección de textos en formato digital.

Minería de texto

La minería de texto es el proceso encargado del descubrimiento de conocimientos que no existían explícitamente en ningún texto de la colección, pero que surgen de relacionar el contenido de varios de ellos. (Swanson, 1991, p. 280-289)

Minería de texto

El descubrimiento de información significativa y esencial de los documentos en grandes corpus textuales electrónicos, estructurados y no estructurados.

Minería de texto

Clasificar y organizar documentos según su contenido; es decir, preseleccionar automáticamente grupos de documentos con un tema específico.

Categorías

Categorías

Minería de texto

El procesamiento de texto

Los textos son representados en estructuras que permitan su análisis automático

01 D end_punctuation :,=;/.01 N compress '[]|01 N to_blank !"()-{}<>;:.?/\@*%=^_`~01 N comma01 N del_subfield_code 01 N char_conv FILING-KEY-1001 N del_lead_space01 N to_lower01 N pack_spaces01 F char_conv FILING-KEY-01

FILING-KEY-01 ##### # line_utf2line_utf unicode_to_filing_01FILING-KEY-02 ##### # line_utf2line_utf unicode_to_filing_02FILING-KEY-10 ##### # line_utf2line_utf naco_diacriticsFILING-KEY-11 ##### # line_utf2line_utf unicode_to_filing_11

Extracción de palabras

Análisis

Consiste en realizar una cuantificación de las características (es decir, de los términos) de los documentos.

Modelo vectorial

Una de las técnicas utilizadas en la minería de texto es el Modelo de Espacio Vectorial, en donde cada documento es modelado como un vector de dimensión n y es representado de la siguiente manera:

,

),...,(2,1 itiiitttD

Frecuencia de las palabras

a) Se calcula la frecuencia de las palabras en el documento, donde K representa el término en el documento I

IKFREQ

Frecuencia total

b) Se calcula la frecuencia total del término K en todos los documentos

N

IIKK FREQTOTALFRECQ

1

Frecuencia de palabras

Análisis 2 0 2 2 1.5 0.176 0.352 0 0.352

documental 2 1 23 1 0 0 0 0

información 1 0 01 3 0.477 0.477 0 0

textual 1 0 0 1 3 0.477 0.477 0 0

Lenguajes 1 2 0 2 1.5 0.176 0.176 0.352 0

documentales 1 0 01 3 0.477 0.477 0 0

herramienta 1 0 01 3 0.477 0.477 0 0

libres 0 1 0 1 3 0.477 0 0.477 0

controlados 0 1 0 1 3 0.477 0 0.477 0

proceso 0 1 0 1 3 0.477 0 0.477 0

indización 0 1 0 1 3 0.477 0 0.477 0

procesamiento 0 1 01 3 0.477 0 0.477 0

automático 0 1 0 1 3 0.477 0 0.477 0

texto 0 1 0 1 3 0.477 0 0.477 0

orígenes 0 0 1 1 3 0.477 0 0 0.477

padre 0 0 1 1 3 0.477 0 0 0.477

indización

Palabras no significativas Altas frecuencias

Palabras no significativas Bajas frecuencias

Palabras significativas

Ley de Zipf

• Texto en lenguaje natural.

• Se cuentan las palabras y se ordenan de mayor a menor frecuencia de aparición, F

• El número de orden de cada palabra es su rango, R

• Análisis de la frecuencia de las palabras

F=K/R FxR=K

La frecuencia , F, de aparición de una palabra en un texto

es inversamente proporcional a su rango, R. Frecuencia por el rango igual a constante (k)

“Ley del mínimo esfuerzo”

Frecuencias de Stopword

Posición Frecuencia Palabras1 18205668 de2 10821113 la3 7190346 y4 6946343 en5 6769416 el6 6459010 que7 5030018 a8 4505566 los9 3675272 se10 3225267 del

Ley de Zipf

Frecuencias de Stopword

Ley de Zipf

Semejanza de documentos

Matriz de documentos

a) Si se realiza el cálculo de similitud entre renglones se pude determinar la semejanza entre documentos.

tTTT 21

ntnn

t

t

ddd

ddd

ddd

Dn

D

D

21

22221

11211

2

1

Matriz de documentos

b) Si se realiza el cálculo de similitud entre columnas se pueden obtener las relaciones entre términos.

tTTT 21

ntnn

t

t

ddd

ddd

ddd

Dn

D

D

21

22221

11211

2

1

Archivos digitales en texto

Total de títulos procesados 1868 (Año 2005)

Total de archivos 22721

Tiempo de proceso 60 minutos

Total de palabras 162723663

Stopwords 117323884 (72.90%)

Palabras útiles 45399779 (27.90%)

Palabras/Diccionario

Documents

Minería de texto