40
INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dell’acquisizione lessicale

INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

Embed Size (px)

Citation preview

Page 1: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER

Rappresentazioni vettoriali del significato

Teorie computazionali dell’acquisizione lessicale

Page 2: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

METODI COMPUTAZIONALI PER LA SCOPERTA DI SIGNIFICATI

La prossima frontiera nell’uso degli strumenti informatici per la lessicografia e’ il loro uso per produrre definizioni scoprire accezioni Annotare corpora automaticamente con il

significato delle parole

Page 3: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

ACQUISIZIONE LESSICALE

I modelli informatici di acquisizione lessicale si basano su due idee: Che il significato delle parole e’ un

vettore multidimensionale Che il significato delle parole viene dato

dal contesto in cui appaiono

Page 4: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

CONCETTI COME ‘CLUSTER’

CHICKEN

GOOSE

ORIOLEROBIN

OSTRICH

Page 5: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

LESSICOGRAFIA: SIGNIFICATI COME CONTESTI

“Thy shall know a word by the company it keeps” (Firth)

Page 6: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

SIGNIFICATI COME CONTESTI

The breezes are soft, the waves lap gently and the fronds of the PALM trees sway lazily.

Cycads, the most popular of which is the Sago PALM, are doll-sized versions of California's famous long-necked PALMS, with stubby trunks and fern-like fronds.

whack, whack, whack his hand made vigorous spanking gestures on his left PALM.

The PALMs of his hands are sweaty

Page 7: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

RAPPRESENTAZIONI VETTORIALI DEL SIGNIFICATO

CANE

GATTO

SGOMBRO

pelliccia

acquatico

animato

Page 8: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

Airplane

Day

CLUSTERING DI CONCETTI

CarVan

Month

Year

JoyLove

Fear

Page 9: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

COSTRUZIONE DI VETTORI LESSICALI A PARTIRE DA CONTESTI

Per costruire il vettore C(w) per la parola w,

1. Scandire ogni testo del corpus

2. Ogni volta che si incontra w, incrementare tutte le celle di C(w) che corrispondono a parole che si trovano in prossimita’ di w, entro una finestra di dimensioni prestabilite

Page 10: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

COSTRUZIONE DI VETTORI DI PAROLE DA CONTESTI

Dato il corpus:1. John ate a banana.

2. John ate an apple.

3. John drove a lorry.

john ate drove banana apple lorry

john 0 2 1 1 1 1

ate 2 0 0 1 1 0

drove 1 0 0 0 0 1

banana 1 1 0 0 0 0

apple 1 1 0 0 0 0

lorry 1 0 1 0 0 0

Page 11: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

ESEMPIO DI INFORMAZIONI CHE SI POSSONO ESTRARRE DA CONTESTI

Speaker-generated features:

Matching Features Collected Using Our Text Patterns – (with

frequency)

red (20) red (5), colour (5), color (1)

fruit (18) fruit (5)

sweet (13) sweetness (8)

has seeds (12) seeds (6), seed (2)

grows (10) growth (1), ripening (10)

small (6) size (19)

taste (6) taste (6), flavor (6), flavour (2)

food (5) nutrition (1)

from garden (5) cultivation (7), harvest (6), harvester (2)

juice (5) juice (10), juices (3)

dessert (3) sweetness (8)

eat (3) nutrition (1)

Page 12: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

VARIAZIONI

I metodi proposti nella letteratura differiscono per quel che riguarda Le dimensioni della finestra Se gli elementi del vettore sono ‘pesati’ o

meno Se ogni parola viene considerata come

dimensione Se viene applicata riduzione di

dimensionalita’

Page 13: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

VARIANTE: USO DI MODIFICATORI

…. The Soviet cosmonaut …. The American astronaut …. The red American car …. The old red truck … the spacewalking cosmonaut … the full Moon …

cosmonaut astronaut moon car truck

Soviet 1 0 0 1 1

American 0 1 0 1 1

spacewalking 1 1 0 0 0

red 0 0 0 1 1

full 0 0 1 0 0

old 0 0 0 1 1

Page 14: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

MISURE GEOMETRICHE DI SOMIGLIANZA

Euclidean distance:

Cosine:

Manhattan Metric:

n

i ii yxd1

n

i i

n

i i

n

i ii

yx

yx

1

2

1

2

1)cos(

n

i ii yxd1

2

Page 15: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

PLAUSIBILITA’ COGNITIVA DI QUESTI MODELLI

I modelli basati sugli spazi vettoriali sono stati utilizzati per predirre il comportamento in tasks che includono Identificazione di sinonimi (Landauer & Dumais

1997) Categorizzazione (Burgess & Lund 1997) Semantic priming (Lowe 2000, Vigliocco et al

2004) Errori nella sostituzione di parole (Vigliocco et al

2004)

Page 16: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

IDENTIFICAZIONE DI SINONIMI: IL TASK TOEFL

Page 17: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

IDENTIFICAZIONE DI SINONIMI: IL TASK TOEFL

Page 18: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

UMANI E MACCHINE AL TOEFL

Page 19: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

MODELLI PIU’ COMPLESSI

I modelli proposti piu’ di recente vanno oltre i modelli appena visti nel senso di Cercare di utilizzare una versione piu’

complessa di ‘contesto’ che tiene conto della struttura sintattica degli enunciati

Cercare di estrarre da testi relazioni SEMANTICHE ed utilizzare quelle per la caratterizzazione delle parole

Page 20: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

MODELLI VETTORIALI BASATI SULLA SINTASSI

attacked fox dog

<subj,fox> <det,the> <det,the>

<obj,dog> <mod,red> <mod,lazy>

attacked

fox dog

the red the lazy

subj obj

det detmod mod

E.g., Grefenstette, 1994; Lin, 1998; Curran and Moens, 2002

Page 21: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

VETTORI SINTATTICI

GREFENSTETTE, LIN, LAPATA & PADO: LE RELAZIONI GRAMMATICALI FUNZIONANO MEGLIO DELLE PAROLE PER CARATTERIZZARE I CONCETTI

Page 22: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

SEXTANT (Grefenstette, 1992, 1994)

It was concluded that the carcinoembryonic antigens represent cellular constituents which are repressed during the course of differentiation the normal digestive system epithelium and reappear in the corresponding malignant cells by a process of derepressive dedifferentiation

antigen carcinoembryonic-ADJantigen repress-DOBJantigen represent-SUBJconstituent cellular-ADJconstituent represent-DOBJcourse repress-IOBJ……..

Page 23: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

SEXTANT: MISURA DI SOMIGLIANZA

dog pet-DOBJdog eat-SUBJ dog shaggy-ADJdog brown-ADJdog leash-NN

cat pet-DOBJcat pet-DOBJ cat hairy-ADJcat leash-NN

CATDOG

B andA by possessed attributes Unique

B andA by shared Attributes

Count

CountJaccard:

6

2

ADJ}-shaggyDOBJ,-petNN,-leashADJ,-hairySUBJ,-eatADJ,-{brown

DOBJ}-pet NN,-{leash

Count

Count

Page 24: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

MODELLI VETTORIALI BASATI SULLA SEMANTICA

Questi modelli cercano di identificare nel testo relazioni semantiche e di usarle per caratterizzare i significati dei concetti

Page 25: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

HEARST 1992, 1998: USING PATTERNS TO EXTRACT ISA LINKS

Intuition: certain constructions typically used to express certain types of semantic relations

E.g., for ISA: The seabass IS A fish Swimming, running AND OTHER

activities Vehicles such as cars, trucks and bikes

Page 26: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

TEXT PATTERNS FOR HYPONYMY EXTRACTION

HEARST 1998: NP {, NP}* {,} or other NPbruises …… broken bones, and other INJURIESHYPONYM (bruise, injury)

EVALUATION: 55.46% precision wrt WordNet

Page 27: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

Cimiano and Wenderoth 2005

Extract from text the information about concepts specified by Pustejovsky’s Generative Lexicon theory

Evaluation: human judgments

Page 28: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

PUSTEJOVSKY’S GENERATIVE LEXICON

Pustejovsky (1991, 1995): lexical entries have a QUALIA STRUCTURE consisting of four ‘roles’ FORMAL role: what type of object it is (shape,

color, ….) CONSTITUTIVE role: what it consists of (parts,

stuff, etc.) E.g., for books, chapters, index, paper ….

TELIC role: what is the purpose of the object (e.g., for books, READING)

AGENTIVE role: how the object was created (e.g., for books, WRITING)

Page 29: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

EXAMPLE: QS FOR “KNIFE”

Page 30: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

CIMIANO AND WENDEROTH’S APPROACH

Page 31: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

PATTERNS FOR THE CONSTITUTIVE ROLE

Page 32: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

GOOD EXAMPLES

Page 33: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

PROBLEMS

Page 34: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

PATTERNS FOR THE FORMAL ROLE

Page 35: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

PATTERNS FOR THE AGENTIVE ROLE

Page 36: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

PATTERNS FOR THE TELIC ROLE

Page 37: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

SCOPERTA DI ACCEZIONI

The breezes are soft, the waves lap gently and the fronds of the PALM trees sway lazily.

Cycads, the most popular of which is the Sago PALM, are doll-sized versions of California's famous long-necked PALMS, with stubby trunks and fern-like fronds.

whack, whack, whack his hand made vigorous spanking gestures on his left PALM.

The PALMs of his hands are sweaty

<breeze, frond,gently,lap,lazy,soft, sway, tree,wave>

<California,cycad,doll-sized,famous,frond,popular,Sago,…>

Page 38: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

DISAMBIGUAZIONE DEI SIGNIFICATI

Sense 1: horse, Equus caballus -- (solid-hoofed herbivorous quadruped domesticated since prehistoric times) Sense 2: horse -- (a padded gymnastic apparatus on legs) Sense 3: cavalry, horse cavalry, horse -- (troops trained to fight on horseback: "500 horse led the attack") Sense 4: sawhorse, horse, sawbuck, buck -- (a framework for holding wood that is being sawed) Sense 5: knight, horse -- (a chessman in the shape of a horse's head; can move two squares horizontally and one vertically (or vice versa)) Sense 6: heroin, diacetyl morphine, H, horse, junk, scag, shit, smack -- (a morphine derivative)

Corton has been involved in the design, manufacture and installation of horse stalls and horse-related equipment like external doors, shutters and accessories.

Page 39: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

DISAMBIGUAZIONE DEI SIGNIFICATI

<contextfile concordance="brown"><context filename="br-h15" paras="yes">…..<wf cmd="ignore" pos="IN">in</wf> <wf cmd="done" pos="NN" lemma="fig" wnsn="1" lexsn="1:10:00::">fig.</wf>   <wf cmd="done" pos="NN" lemma="6" wnsn="1“ lexsn="1:23:00::">6</wf>   <punc>)</punc>   <wf cmd="done" pos="VBP" ot="notag">are</wf>   <wf cmd="done" pos="VB" lemma="slip" wnsn="3" lexsn="2:38:00::">slipped</wf>   <wf cmd="ignore" pos="IN">into</wf>   <wf cmd="done" pos="NN" lemma="place" wnsn="9" lexsn="1:15:05::">place</wf>   <wf cmd="ignore" pos="IN">across</wf>   <wf cmd="ignore" pos="DT">the</wf>   <wf cmd="done" pos="NN" lemma="roof" wnsn="1" lexsn="1:06:00::">roof</wf>   <wf cmd="done" pos="NN" lemma="beam" wnsn="2" lexsn="1:06:00::">beams</wf>   <punc>,</punc>

Page 40: INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

ANNUNCI DI FINE CORSO

Appelli sessione estiva: 9 Giugno 2 Luglio

TIROCINI PRESSO IL CENTRO MENTE / CERVELLO DISPONIBILI!! clic.cimec.unitn.it Chiedere a me o Marco Baroni