53
Simbiosis de las Técnicas Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo [email protected] Dpto. Sistemas Inform ´ aticos y Programaci ´ on Universidad Complutense de Madrid Simbiosis de las T ´ ecnicas Evolutivas y el Procesamiento Estad´ ıstico del Lenguaje Natural – p.1/37

Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Simbiosisde lasTécnicasEvolutivasy el Procesamiento

Estadísticodel LenguajeNaturalLourdes Araujo

[email protected]

Dpto. Sistemas Informaticos y Programacion

Universidad Complutense de Madrid

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.1/37

Page 2: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Esquema General de Aplicación de TécnicasEvolutivas al Procesamiento del LenguajeNatural (PLN)

Aplicación al Etiquetado Léxico de textos.

Aplicación al Análisis Sintáctico.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.2/37

Page 3: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Moti vación

PLN incluye una gran cantidad de procesoscomplejos:

etiquetado léxico,análisis sintáctico,determinación de los antecedentes depronombres y cláusulas de relativo, etc.

Muchos de estos procesos pueden versecomo una búsqueda de la estructuracorrecta.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.3/37

Page 4: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Los métodos estadísticos han conseguidoavances importantes en muchos de estosproblemas.

Estos métodos permiten considerar elproblema lingüístico a tratar como unaoptimización.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.4/37

Page 5: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Alg. Evolutivosy técnicasestadísticas

Las medidas estadísticas usadas en losenfoques estadísticos a PLN proporcionanuna función de evaluación natural.

Los textos de entrenamiento permiten elajuste automático de los parámetros delalgoritmo evolutivo.

Los algoritmos evolutivos aportan su robusteza la búsqueda y optimización involucrados enlos problemas de PLN.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.5/37

Page 6: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

EsquemadeAplicación

Individuos: dependientes del problema.

Función de Adaptación: modelosestadísticas.

Operados genéticos: dependientes delproblema.

Parámetros del algoritmo: ajustadosmediante corpus de entrenamiento.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.6/37

Page 7: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

DosAplicaciones

Etiquetado Léxico

Análisis Sintáctico

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.7/37

Page 8: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Etiquetado Léxico

� Muchas palabras son ambiguas (pertenecena distintas categorías léxicas):

Rice: NOMBREflies: NOMBRE, VERBOlike: PREP, VERBOsand: NOMBRE

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.8/37

Page 9: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Etiquetado Léxico Evolutivo

� La asignación depende del contexto de lapalabra: etiquetas de las palabrascircundantes.

� La evaluación de los individuos se basa enlos datos extraídos de un corpus etiquetadomanualmente.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.9/37

Page 10: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Etiquetado Léxico Evolutivo

� La tabla de entrenamiento se construye apartir del corpus de entrenamiento.

� Registra los distintos contextos para cadaetiqueta y sus frecuencias.

� Los cromosomas se evalúan en función de latabla de entrenamiento: maximización de laprobabilidad total del etiquetado.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.9/37

Page 11: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Etiquetado Léxico Evolutivo

� Ajuste automático de parámetros:

Texto de entren.

Tabla de entren. Genetico

AlgoritmoPrueba

Texto de

TextoEtiquet.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.9/37

Page 12: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Representaciónde los Indi viduos

� Los cromosomas son una secuencia deetiquetas de cada palabra de la sentencia.

Poblaci on Inicial

� Selección aleatoria, proporcional a lafrecuencia, en un diccionario de una de lasetiquetas válidas de cada palabra.

� A las palabras ausentes se les asigna laetiqueta que aparece más frecuentemente enel contexto correspondiente.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.10/37

Page 13: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Aptitud de los Indi viduos

� Probabilidad total de la secuencia deetiquetas de la sentencia.�: número de palabras de la sentencia��� palabra en la posición

�(gen �� ).� �� �

aptitud del gen �� .

� �� ��

��� �� �� �

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.11/37

Page 14: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Aptitud de los Indi viduos

Se consideran los contextos:

� �� � � � � � � � ��� �� � � � � � � � � � � � ��� ��

� : etiqueta asignada a ��� .: conjunto de etiquetas posibles de ��� .

LC: Parte izq. del contexto (longitud

"! #)RC: Parte derecha (longitud

%$ #)

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.11/37

Page 15: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Aptitud de los Indi viduos

Evaluación de cada gen:

� �� � � '& � � & ( (�) � * �

& ( (� : número de apariciones del contexto enla tabla.

) � * � : suma

+ , � de apariciones decontextos:

� �� � � � � � � � � � � � , � � � � � � � � � �� � �

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.11/37

Page 16: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Aptitud de los Indi viduos

Si no hay entradas en la tabla para esecontexto se reduce su tamaño.

Si incluso el contexto más corto no apareceen la tabla:

� �� � � '& � en cualquier contexto

-.0/ 1 ,en cualquier contexto

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.11/37

Page 17: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

OperadoresGenéticos:Cruce

� Se seleccionan dos individuos conprobabilidad proporcional a su aptitud.

� Se elige aleatoriamente un punto de cruce.

� La primera parte de un padre se combina conla segunda del otro produciendo dos hijos.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.12/37

Page 18: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

OperadoresGenéticos:Mutación

� Se aplica a los genes de los individuosprocedentes del cruce, con probabilidad 2.

� La etiqueta del punto de mutación sereemplaza por otra de las etiquetas válidasde esa palabra.

� La nueva etiqueta se selecciona conprobabilidad proporcional a su frecuencia.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.13/37

Page 19: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

ResultadosExperimentales

� Tabla de entrenamiento obtenida a partir delcorpus de Brown:- Tamaño apropiado del conjunto de

etiquetas.

� Estudio de factores influyentes en la precisióndel etiquetado:- Tamaño y forma de los contextos.- Tamaño del corpus de entrenamiento.- Parámetros Evolutivos.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.14/37

Page 20: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Influencia de losContextos

1−0 2−0 3−0 1−1 2−1 2−2Tipo de contexto

380

82

84

86

88

90

92

94

96

98

100E

tique

tado

cor

rect

o (%

)

4Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.15/37

Page 21: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Influencia de losContextos

� Mejor rendimiento para contextos pequeñoscomo 1-1.

� Contextos mayores producen entradas pocosignificativas en la tabla de entrenamiento.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.15/37

Page 22: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Tamañodel texto deentrenamiento

05

2e+056 4e+056 6e+056 8e+056 1e+066

Tamaño del corpus

793

93.5

94

94.5

95

95.5E

tique

tado

cor

rect

o (%

)

4Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.16/37

Page 23: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Tamañodel texto deentrenamiento

� El incremento de la precisión con el tamañodel corpus alcanza saturación (alrededor de200,000 palabras).

� Resultados comparables a los obtenidos conotros enfoques probabilísticos.

� Los algoritmos evolutivos son más robustos.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.16/37

Page 24: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Parámetrosdel Algoritmo

05

20 40 60 80 100

5

Numero de iteraciones

93.5

93.7

93.9

94.1

94.3

94.5

94.7

94.9

95.1

95.3

95.5E

tique

tado

cor

rect

o (%

)

4

PS=56, %X=50, %M=5PS=36, %X=50, %M=5PS=16, %X=50, %M=5PS=56, %X=60, %M=5

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.17/37

Page 25: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Parámetrosdel Algoritmo

� Pequeñas poblaciones son suficiente:algoritmo eficiente.

� Los porcentajes de cruce y mutación debenestar en correspondencia con el tamaño de lapoblación.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.17/37

Page 26: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Conclusiones

� La programación evolutiva es suficientementerobusta para tratar el etiquetado léxico.

� Los experimentos indican la importancia de lalongitud de los contextos.

� Los resultados muestran la importancia deltamaño de los textos de entrenamiento.

� Sin embargo, hay un límite en la mejoraobtenida.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.18/37

Page 27: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Estudio deetiquetadoserróneos

- Los resultados mejoran con la longitud de lasentencia.

- Palabras que requieren una etiqueta pocofrecuente o que aparece en un contexto rarotienden a etiquetarse erróneamente.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.19/37

Page 28: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Estudio deetiquetadoserróneos

- El incremento del tamaño del texto deentrenamiento mejora los resultados depalabras que requieren una de sus etiquetasmás comunes y que aparecen en contextosfrecuentes.

- El etiquetado de palabras que requieren unaetiqueta poco frecuente puede empeorar conel tamaño del corpus.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.19/37

Page 29: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Análisis gramatical

� La búsqueda del significado de una sentenciarequiere extraer su estructura gramatical:análisis sintáctico.

� Ambigüedad gramatical:

Rice flies like

sandRice flies

like

sand

N N

NP VP

S

V NP

NN

NP

S

VP

V PP

P NP

N

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.20/37

Page 30: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Análisis gramatical

� El análisis es un proceso de búsqueda de lasestructuras correctas.

� Las gramáticas probabilísticas permitenestablecer preferencias entre estasestructuras: optimización �

programación evolutiva.

� El problema es aún muy complejo �

Paralelización

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.20/37

Page 31: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Gramáticasprobabilísticas

� Asignan una probabilidad a cada regla de lagramática.

� La probabilidades de las reglas de unamisma categoría sintáctica suman uno.

� La probabilidad de un análisis es el productode las probabilidades de las reglas usadas ensu construcción.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.21/37

Page 32: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Análisis Evolutivo: Indi viduos

� Los cromosomas son posibles análisis parala sentencia y gramáticas dadas.

� El conjunto de categorías léxicas de cadapalabra de la sentencia de entrada se buscanen un diccionario (lexicón)

� Un cromosoma contiene una lista de genesque son análisis de secuencias de palabrasde la sentencia.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.22/37

Page 33: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Análisis Evolutivo: Indi viduos

Cada gen contiene:

- Secuencia de palabras que le correspondeanalizar.

- Regla gramatical usada.

- Si el lado derecho de la regla tiene símbolosno terminales, lista de referencias a los genesque realizan los análisis de esos símbolos.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.22/37

Page 34: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Estructura dedatos

(n. of genes): 4 "the man sings a song"

(n. gen) (regla) (descomposición):

(primera pal., n pal, gen):

(1)

8:9 ;<>= ?<

NP:(1, 2, 2)

VP:(3, 3, 3)

(2)

;< 9 @�A B= ;�CD E Det:

F GA

Noun: HI E

(3)

? < 9 ?AJ K= ;<

Verb: L M EN L

NP:(4, 2, 4)

(4)

;< 9 @�A B= ;�CD E Det: I

Noun: L C EN

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.23/37

Page 35: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Cromosomasejemplo

S

NP VP

Adj NP Verb NP

Det NP

Noun

NounNoun

NP

NP

Det

S

VP

Verb NP

NP AP

AdjNoun

The

man

sings

a song

The

man

sings

a

song

Cromosoma 1 Cromosoma 2

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.24/37

Page 36: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Población Inicial

Generación aleatoria con condiciones:

- El conjunto de palabras de la sentencia sedivide aleatoriamente, dejando al menos unverbo en la segunda parte (VP principal).

- Las palabras asignadas al se analizaneligiendo aleatoriamente una regla . Laspalabras del se analizan con una regla

elegida aleatoriamente.

- Se da preferencia a las reglas capaces deanalizar el número correcto de palabras delgen.

- El proceso continúa para las reglas consímbolos no terminales en su lado derecho.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.25/37

Page 37: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Función deevaluación

� �O ) ) � �QPR SUTV PR SUTV �XW V R Y W V R Y

� Z[ \^] � mide la capacidad del cromosoma paraanalizar la sentencia objetivo.

� _ � [ ` mide la probabilidad de las reglasempleadas en el análisis.

_ � [ ` ��

��� �acb d e � �� �

dondeacb d e � �� �

es la probabilidad de la regladel gen �� . Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.26/37

Page 38: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Función deevaluación

Z[ \^] � se basa en el número relativo de genescoherentes. Un gen es coherente si

a) corresponde a una regla cuyo lado derechosólo tiene terminales, y estos secorresponden con la categorías de laspalabras que analizan.

b) si corresponde a una regla con no-terminalesy cada uno de ellos se analiza por un gencoherente.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.26/37

Page 39: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Operadoresgenéticos:Cruce

El cruce intercambia los subárboles máspequeños de dos padres que contienen unapalabra seleccionada aleatoriamente y cumplen:

� Los subárboles (genes) intercambiadoscorresponden a la misma categoría sintáctica(NP, VP, etc).

� Los intercambios no produceninconsistencias en las secuencia de palabrasde la sentencia.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.27/37

Page 40: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Cruce de loscromosomasejemplo

S

NP

Adj NP

Noun

NP

Det NP

Noun

VP

Verb

Noun

NPDet

NP

S

Verb

VP

NP

NP

AP

Adja

a

man

singsThe

song

The

man

sings

songNoun

Hijo 1 Hijo 2

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.28/37

Page 41: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

OperadoresGenéticos:Mutación

Genera un nuevo análisis para un genseleccionado aleatoriamente.Mutación en el cromosoma 1

Noun

NP

NP

Det

S

VP

Verb

Det

NP

NP

Noun

sings

a

song

man

The

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.29/37

Page 42: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Modelo Paralelo de Islas

Componentes del sistema:

Analizadores Cooperativos (AC)

Selector principal (SP)

Política de Migración:ACACSP AC AC

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.30/37

Page 43: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Modelo Paralelo de Islas

� Modelo Asíncrono

� Política de convergencia: Un analizadorcooperativo que alcanza convergencia envíasu mejor individuo al selector principal.

� Selección de los individuos a migrar: elegidosaleatoriamente con probabilidad proporcionala la aptitud.

� Selección de los individuos a reemplazar porlos ‘inmigrantes’: aleatoriamente con igualprobabilidad.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.30/37

Page 44: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

ResultadosExperimentales

Implementado en C++ con PVM sobre unSGI-Cray ORIGIN 2000.Sentencias usadas en los experimentos:1 Jack(noun) regretted(verb) that(wh) he(pro) ate(verb)

the(det) whole(adj) thing(noun)2 The(det) man(noun) who(wh) gave(verb) Bill(noun)

the(det) money(noun) drives(verb) a(det) big(adj)car(noun)

3 The(det) man(noun) who(wh) lives(verb) in(prep)the(det) red(adj) house(noun) saw(verb) the(det)thieves(noun) in(prep) the(det) bank(noun)

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.31/37

Page 45: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Ejecuciónsecuencial

100 300 500 700 900Tamano de Poblacion

0

100

200

300

400

500

Gen

erac

ione

s

Sentencia 1Sentencia 2Sentencia 3

Porcentaje de cruce: 50%, de mutación: 20%.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.32/37

Page 46: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Ejecuciónparalela

Sec. Paralela

Sent 2 P. 4 P. 6 P. 8 P. 10 P.

sent1 16.55 10.48 3.08 3.09 2.09 2.09

sent2 50.03 19.12 15.02 10.64 3.48 3.49

sent3 52.70 25.40 22.71 19.34 14.93 14.79

Tiempo en segundos. Población de 200. %C = 50%. %M =

20%. Población emigrante de 40. Intervalo de 15 generaciones

entre migraciones.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.33/37

Page 47: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Ejecuciónparalela

� La ejecución paralela consigue una mejoraimportante incluso con solo 2 procesadores.

� Se alcanza saturación para cierto número deprocesadores.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.33/37

Page 48: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Tamañosde la poblaciónemigrante

2 4 6 8Numero de Analizadores

0.7

0.8

0.9

1A

ptitu

d

%E = 30%E = 40%E = 50

Sentencia 2. 50 individuos por proc. %C = 40%. %M =20%. Intervalo entre migraciones de 10 generaciones.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.34/37

Page 49: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Inter valosdemigración

2 4 6 8Numero de Analizadores

0.4

0.5

0.6

0.7

0.8

0.9

1A

ptitu

d

I = 5I = 10I = 15I = 20

Sentencia 2. Población de 50 individuos porprocesador, %C = 40%, %M = 20%, poblaciónemigrante del 50%.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.35/37

Page 50: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Comparacióndepolíticasdemigración

Round-Robin: cada analizador envía lapoblación emigrante al siguiente en unasecuencia anular.

Todos-a-todos (All-to-all): Cada analizarenvía la población emigrante a todos losdemás.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.36/37

Page 51: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Comparacióndepolíticasdemigración

2 4 6 8Numero de Analizadores

0.8

0.85

0.9

0.95

1A

ptitu

d

%E = 30, I = 5 (RR)%E = 30, I = 5 (AA)%E = 50, I = 15 (RR)%E = 50, I = 15 (AA)

Round-robin (RR) and all-to-all (AA). 50 individuos por

procesador. Limite de 100 generaciones. %C = 40%. %M =

20%. E representa el porcentanje de intercambio. I el intervalo

de migración.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.36/37

Page 52: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Comparacióndepolíticasdemigración

� Los resultados de ambas políticas sonsimilares, aunque la round-robin esligeramente mejor.

� Se adopta esta política, que obteniendoresultados similares reduce lascomunicaciones.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.36/37

Page 53: Simbiosis de las Técnicas Evolutivas y el Procesamiento ...neo.lcc.uma.es/pdf-charlas/EA-LN.pdf · Evolutivas y el Procesamiento Estadístico del Lenguaje Natural Lourdes Araujo

Conclusiones

La programación evolutiva es válida paratratar el problema del análisis sintáctico.

El problema tiene suficiente granularidad paraser paralelizado en forma de modelo de islas.

Los intercambios de población con unapolítica round-robin son tan efectivos comocon una política todos-a-todos.

Simbiosis de las Tecnicas Evolutivas y el Procesamiento Estadıstico del Lenguaje Natural – p.37/37