24
PLN-PMT Conditional Random Fields Sergi Fernandez AI Master. UPC 06

PLN-PMT Conditional Random Fields

  • Upload
    azia

  • View
    79

  • Download
    0

Embed Size (px)

DESCRIPTION

PLN-PMT Conditional Random Fields. Sergi Fernandez AI Master. UPC 06. Conditional Random Fields. Introducción. Relational Learning Dependencias entre entidades Atributos que ayudan para la clasificación Ejemplo. Clasificación de documentos Web Contenido - PowerPoint PPT Presentation

Citation preview

Page 1: PLN-PMT  Conditional Random Fields

PLN-PMT Conditional Random Fields

Sergi Fernandez

AI Master. UPC 06

Page 2: PLN-PMT  Conditional Random Fields

Conditional Random Fields. Introducción

• Relational Learning

– Dependencias entre entidades– Atributos que ayudan para la clasificación

• Ejemplo. Clasificación de documentos Web– Contenido – Relaciones con otros documentos (links)

Page 3: PLN-PMT  Conditional Random Fields

Conditional Random Fields. Introducción. Modelos Gráficos

• Uso de modelos gráficos para explotar la estructura de dependencias entre entidades

• Son una familia de distribuciones de probabilidad que factorizan de acuerdo a un grafo subyacente

• Representa una distribución sobre un gran numero de variables aleatorias a través del producto de funciones locales que dependen de un subconjunto reducido de variables

Page 4: PLN-PMT  Conditional Random Fields

Conditional Random Fields. Introducción. Modelos Gráficos

• Modelo gráfico dirigido (Bayesian Network)

– Basado en un grafo dirigifo

– Representa una familia de

distribuciones

Vv

vvpyxp ))(|(),(

),( EVG

Page 5: PLN-PMT  Conditional Random Fields

Conditional Random Fields. Introducción. Modelos Gráficos

• Modelo gráfico no dirigido (Factor Graph)

– Basado en un grafo bipartito

– Factoriza siguiendo la formula

),,( EFVG

),(1

),( yaxaZ

yxpA

A

Page 6: PLN-PMT  Conditional Random Fields

Conditional Random Fields. Introducción. Modelos Gráficos

),(1

),( yaxaZ

yxpA

A

Factor de normalización

Funciones locales

Page 7: PLN-PMT  Conditional Random Fields

Conditional Random Fields. Introducción. Classificación

• Predecir una clase Y dado un vector de atributos X=x1..xk– Si asumimos que dada la etiqueta de la clase los

atributos son independientes podemos usar classificador naive Bayes.

Vv

vvpyxp ))(|(),(

Page 8: PLN-PMT  Conditional Random Fields

Conditional Random Fields. Introducción. Classificación

• Classificador de maxima entropia o regresión logística. Distribucion condicional

Page 9: PLN-PMT  Conditional Random Fields

Conditional Random Fields. Introducción.Modelos de Secuencia

• Problema: Name Entity Recognition – Solución

• Clasificar cada palabra independientemente, asumiendo que dado un input, las etiquetas de las entidades son independientes

• Si estudiamos los datos vemos que existen dependencias entre entidades!! New York = LOC, pero NY Times, NY Journal, NYPD,... son ORGs

Page 10: PLN-PMT  Conditional Random Fields

Conditional Random Fields. Introducción.Modelos de Sequencia

• Relajamos la presunción de independencia colocando las salidas en una cadena – Observaciones X = x1..xT– Estados Y=y1..yT

• HMM hace dos asunciones de independencia– Un estado solo depende de su antecesor– Cada observacion xt depende de el estado actual yt

Page 11: PLN-PMT  Conditional Random Fields

Conditional Random Fields. Introducción.Modelos de Sequencia

• Podemos especificar un HMM usando tres distribuciones de probabilidad:

• p( y1 ), distribución sobre estados iniciales• p( yt | yt-1), distribución de las transiciones• p( xt | yt ), distribución de las observaciones

• La probabilidad de una secuencia y de estados y una secuencia x de observaciones factoriza como:

Page 12: PLN-PMT  Conditional Random Fields

Conditional Random Fields. Introducción.Modelos Generativos vs. Discriminativos• Modelos generativos:

– Modelo gráfico dirigido donde los outputs siempre preceden a los inputs topológicamente.

– Aprenden un modelo de la probabilidad de la union p(x,y)de los inputs x y de la etiqueta y

– Obtienen las predicciones usando Bayes para calcular p(y|x) y escogen la y mas probable.

• Modelos discriminativos:– Modelan la probabilidad p(y|x) directamente o aprenden un

mapping directo de inputs a etiqueta de la classe• Razon por la que usar modelos discriminativos:

– “Se debe resolver un problema [de clasificación] directamente, y nunca resolver un problema mas general como paso intermedio [por ejemplcomo modelar p(x|y)]”

Page 13: PLN-PMT  Conditional Random Fields

Conditional Random Fields. De HMM a CRF

Page 14: PLN-PMT  Conditional Random Fields

Conditional Random Fields. De HMM a CRF

Aplicando Bayes

Page 15: PLN-PMT  Conditional Random Fields

Conditional Random Fields. • Lafferty et al. Definen la probabilidad de una sequencia

de etiquetas y dada una secuencia de observaciones x como un producto normalizado de funciones potenciales, cada una con la forma:

• Para definir feature functions, creamos funciones que expresan alguna caracteristica de la información

• Transition feature function

Page 16: PLN-PMT  Conditional Random Fields

Conditional Random Fields. Estimación de parametros

• La estimacion de parametros consiste en encontrar un vector que maximice la conditional log likelihood del conjunto de training

Page 17: PLN-PMT  Conditional Random Fields

Conditional Random Fields. Estimación de parametros

– Iterative methods• Iterative scaling• Gradient decent• Gradient tree boosting

– Newton’s method– Quasi-Newton methods

• BFGS• Limited memory BFGS

– Conjugate gradient

Page 18: PLN-PMT  Conditional Random Fields

Conditional Random Fields. Aplicaciones. POS tagging Lafferty, McCallum, Pereira 2002

Page 19: PLN-PMT  Conditional Random Fields

Conditional Random Fields. Aplicaciones. POS tagging

Add a small set of orthographic features: whether a spelling begins with a number or upper case letter, whether it contains a hyphen, and if it contains one of the following suffixes: -ing, -ogy, -ed, -s, -ly, -ion, -tion, -ity, -iesoov = out-of-vocabulary (not observed in the training set)

Page 20: PLN-PMT  Conditional Random Fields

Conditional Random Fields. Aplicaciones. Shallow Parsing

• Sha and Pereira 2003

Page 21: PLN-PMT  Conditional Random Fields

Conditional Random Fields. Aplicaciones. Semantic Role Labeling

• Roth and Yith 05• Descubrir la estructura de los argumentos del

verbo• Los argumentos no son superpuestos ->

sequence labeling problem

Page 22: PLN-PMT  Conditional Random Fields

Conditional Random Fields. Aplicaciones. Semantic Role Labeling

• Data: Secuencias de chunks, con un POS tag y una palabra, correspondientes al nucleo del chunk

• Features:– State f: Word, pos, chunk type, verb’s pos, verb’s

lemma, verb’s voice (activa pasiva),position, chunk path, verb class, named entity,...

– Transition: word, pos, chunk type (+2,-2), edge (current and previous label ), start, end

Page 23: PLN-PMT  Conditional Random Fields

Conditional Random Fields. Aplicaciones. Semantic Role Labeling

Page 24: PLN-PMT  Conditional Random Fields

Referencias• Integer Linear Programming Inference for Conditional

Random Fields. Dan Roth, Wen-tau Yih. ICML’05

• Shallow Parsing with conditional Randomn Fields. Sha, Pereira. 2003

• Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. Lafferty, McCallum, Pereira. 2002

• Conditional Random Fields: An Introduction. Wallach 2004

• An Introduction to Conditional Random Fields for Relational Learning. Sutton, McCallum

• On Discriminative vs. Generative classifiers: A comparison of logistic regression and naive Bayes. 2001