80
Semantica Maria Teresa PAZIENZA a.a. 2009-10

Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Embed Size (px)

Citation preview

Page 1: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Semantica

Maria Teresa PAZIENZAa.a. 2009-10

Page 2: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Programma

Breve introduzione all’NLP Linguaggi Naturali e Linguaggi Formali Complessità

Morfologia Teoria: Morfologia del Linguaggio Naturale Strumenti: Automi e Trasduttori Analisi Morfologica: con automi e trasduttori

Part of Speech Tagging Teoria: Le classi morfologiche Strumenti a Analisi: modelli a regole e statistici

Sintassi Teoria: Sintassi del Linguaggio Naturale Strumenti: CFG Analisi Sintattica: parsing top-down, bottom-up, Early

Semantica Introduzione Distributional Lexical Semantics Sentence Semantics Info

Page 3: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

NLP - Analisi semantica

Capire il significato di una frase è un’operazione necessaria per andare al di là della frase stessa, per inserire il suo significato all’interno di un contesto condiviso nella comunicazione, per ragionare e per poter rispondere a domande relative al dominio di conoscenza coinvolto dalla frase (o domanda) stessa.

Alcune attività che richiedono una analisi semantica:• Porre domande / rispondere• Leggere un menù e decidere cosa ordinare• Leggere un manuale d’uso e capire cosa fa un

software• …..

Ragionare su un task espresso linguisticamente

Page 4: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

NLP - Analisi semantica

Capire il significato di una frase

Ragionare su un task espresso linguisticamente richiede l’attivazione di processi cognitivi che accedano a qualche tipo di rappresentazione che colleghi gli elementi linguistici, coinvolti nel processo di comprensione, a componenti cognitive (quindi non linguistiche) necessarie alla loro realizzazione.

Page 5: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

NLP - Analisi semantica

L’analisi semantica è fondamentale in questa fase a supporto del ragionamento e si basa sulla rappresentazione formale del significato della frase.

Per capire il significato di una frase non è necessario aver realizzato “completamente” le fasi di analisi morfologica e sintattica della frase stessa; si può utilizzare anche la rappresentazione della conoscenza di dominio

Page 6: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

NLP - Analisi semantica

Capire il significato di una frase e ragionare su

Necessario un approccio sistematico e formale per collegare la rappresentazione del significato della frase con tutti i fatti e gli eventi del mondo che esistono (ovvero sono rappresentati nella base di conoscenza relativa)

Un sistema potrà allora fare inferenza, ovvero:• ragionare a partire dalla frase • fare deduzioni valide rispetto sia alla rappresentazione

formale del significato della frase in ingresso sia alla conoscenza di base del sistema stesso.

Page 7: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

NLP - Analisi semantica

La comprensione del significato di una espressione linguistica richiede conoscenza linguistica e non-linguistica (conoscenza del mondo e/ del dominio): tale significato è espresso da strutture formali (rappresentazione del significato della frase che supporta, facilitando l’analisi semantica)

La sintassi e la semantica di queste rappresentazioni saranno fornite da appositi linguaggi per la rappresentazione del significato.

Espressione linguistica -> analisi semantica

-> comprensione del significato -> supporto al ragionamento

Page 8: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Rappresentazione del significato

La rappresentazione del significato può avvenire in linguaggi formali diversi (FOPC calcolo dei predicati, reti semantiche, diagrammi delle dipendenze concettuali, frames, etc),

che usano strutture di simboli per esprimere il significato della frase specifica (così come di un generico evento dello stesso tipo)

Page 9: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Rappresentazione del significato

Per capire il significato letterale di una frase (es. una domanda)

• Identificare rappresentazioni legate al significato convenzionale delle parole senza considerare il contesto

• Usare una rappresentazione per determinare la relazione tra il significato della frase ed il mondo a noi noto (BdC), quindi determinare il valore di verità della rappresentazione

• Effettuare il matching tra la rappresentazione del significato in input e la base di conoscenza (verificabilità)

• Gestire la vaghezza di una frase che rende difficile determinare cosa fare a fronte di una frase in input (es. “io mangio cibi italiani”). Vaghezza non è ambiguità!

Page 10: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Rappresentazione del significato

Capire il significato di una frase (es. una domanda) significa usare una rappresentazione formale per determinare la relazione esistente tra il significato della frase ed il mondo in cui tale frase ha senso.

Implementare un algoritmo di verifica: matching tra la rappresentazione della specifica frase in ingresso e le rappresentazioni esistenti nella base di conoscenza di riferimento, che costituiscono la conoscenza del mondo

Page 11: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Rappresentazione del significato

A causa della ricchezza espressiva del linguaggio naturale, si possono avere più espressioni linguistiche (frasi diverse) che esprimono lo stesso fatto; di conseguenza si avranno rappresentazioni formali diverse .

I Giapponesi amano la moda italianaLa moda italiana è amata dai GiapponesiI Giapponesi impazziscono per la moda italianaSi dice che i Giapponesi amino la moda italianaE’ a tutti noto che i Giapponesi amino la moda

italiana…..

Page 12: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Rappresentazione del significato

Non sempre tutte le rappresentazioni formali coesistono: in tal caso non tutte trovano il matching nella base di conoscenza (mondo di riferimento), si va incontro a situazioni di indeterminatezza e vaghezza dell’interpretazione del significato.

Una soluzione a tale problema: assegnare a tutte le rappresentazioni lo stesso significato.

Forma canonica: stessa rappresentazione associata ad espressioni linguistiche con uguale significato

Page 13: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Rappresentazione del significato

Non sempre si può rispondere ad una domanda, ad una richiesta di informazione con un approccio basato sul pattern matching; in molti casi si deve ricorrere a fasi di concettualizzazione (un metalivello rispetto a quello linguistico) che sono possibili se il linguaggio di rappresentazione del significato supporta l’uso di variabili.

Gli stranieri amano la moda italianaDomanda: I Giapponesi amano la moda italiana?

Page 14: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Significato e linguaggio

Riconoscere le relazioni che esistono tra i concetti (associati a diverse parole) e le componenti frasali di ciascuna espressione linguistica

I verbi (predicati) assumono un ruolo rilevante imponendo vincoli sulla struttura grammaticale e sulla posizione di altri elementi (argomenti) che devono accompagnarli nella struttura sintattica di una frase

Identificare il significato completo di una frase come risultato della composizione del significato dei singoli elementi linguistici in ingresso (i costituenti del parser sintattico).

Page 15: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Significato e linguaggio

I Giapponesi amano la moda italianaNP V NP

• Il predicato ha due argomenti di tipo nominale NP• Il primo argomento precede il verbo ed assume il

ruolo di soggetto (colui che compie l’azione espressa dal verbo)

• Il secondo argomento segue il verbo ed assume il ruolo di oggetto (che subisce l’azione espressa dal verbo)

Page 16: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Significato e linguaggio

Regolarità nei comportamenti degli elementi associati ai verbi (classi di verbi) possono assumere un significato particolare ed indicare un ruolo semantico specifico

Le strutture verbali di sottocategorizzazione evidenziano il legame tra le strutture superficiali (sintattiche) ed il ruolo semantico che esse assumono nella rappresentazione del significato di una frase

Page 17: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Significato e linguaggio

I verbi (classi di) possono imporre delle restrizioni sulla tipologia degli argomenti retti (frasi nominali, frasi preposizionali, …);

es. gli elementi delle frasi nominali presenti nella struttura sintattica possono assumere valore solo in alcune categorie concettuali (selectional restriction)

L’ho visto guidare una automobile. Lui sarà sicuramente un uomo perché solo gli umani possono

guidare un’automobile.

Page 18: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Significato e linguaggio

In una frase non sono solo i verbi a reggere le strutture argomentali predicative: le preposizioni possono essere considerate dei predicati con 2 argomenti:

il primo argomento è l’entità che la preposizione pone in (una qualche) relazione con il secondo argomento

Giovanni comprò un’automobile di prestigio

Page 19: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Significato e linguaggio

Ulteriori strutture possono esprimere legami predicativi tra argomenti:

Preparare la presentazione-ppt per la lezione di 2 ore di Intelligenza Artificiale di domani

L’azione non è esplicitata esclusivamente dal verbo (preparare), ma anche dal sostantivo che esso regge (nominalizzazione)

Il predicato (presentare) è associato al termine (presentazione-ppt) e regge 4 argomenti

Page 20: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Significato e linguaggio

I linguaggi per la rappresentazione del significato devono poter specificare la semantica delle strutture predicative argomentali (predicate-argument structures).

Le strutture argomentali asseriscono che relazioni specifiche hanno luogo tra i diversi concetti sottostanti i costituenti (parole e frasi) che compongono una frase.

Grazie a queste strutture argomentali si realizza un significato unico (unificante) tra le varie componenti della frase.

Page 21: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Predicate-argument structure sintesi

Predicati• soprattutto verbi, frasi verbali, frasi

preposizionali, frasi (V, VP, PP, S)• talvolta nomi e frasi nominali (N, NP)

Argomenti• soprattutto nomi, strutture nominali, frasi

nominali, frasi preposizionali (N, NP, PP)• anche altre forme in relazione al contesto

Page 22: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Calcolo dei predicati FOPC richiami

Fornisce solide basi computazionali per supportare le operazioni di matching, per fare inferenza, e non pone molti vincoli su come rappresentare le entità coinvolte.

Il mondo è composto da oggetti, proprietà di oggetti e relazioni tra oggetti.

Grazie alla nozione di termine si possono rappresentare oggetti di varia tipologia (funzioni, costanti, variabili) cui possono essere associati i nomi degli elementi del dominio in esame.

Le funzioni possono anche essere considerate come predicati ad un unico argomento. Le variabili permettono di fare delle affermazioni sia relativamente ad entità non note, sia relativamente a classi di entità.

I quantificatori (esistenziale ed universale) associati alle variabili permettono di assegnare significato ad una generica entità o ad una classe

Page 23: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Calcolo dei predicati FOPC richiami

I predicati permettono di asserire, tramite un nome, la relazione esistente tra un numero predefinito di elementi di uno specifico dominio.

I Giapponesi amano la moda italianaAmare(Giapponesi,ModaItaliana)

Rappresentazioni di frasi complesse possono essere realizzate introducendo dei connettivi logici.

I Giapponesi amano la moda italiana e fotografano monumenti

Amare(Giapponesi,ModaItaliana) Λ Fotografare(Giapponesi,Monumenti)

Page 24: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Calcolo dei predicati FOPC richiami

Le entità espresse grazie al calcolo dei predicati assumono un significato in base alla corrispondenza con il mondo che si sta modellando; ciascuna formula logica può assumere un valore (vero, falso).

Una formula logica è vera • se è presente nella base di conoscenza, o • se può essere dedotta da altre formule della base di

conoscenza.

L’interpretazione delle formule avviene in relazione alle tavole di verità dei connettivi logici

Page 25: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Analisi semanticaGli approcci computazionali all’analisi semantica si

riferisconoal processo in base a cui le diverse rappresentazioni del significato di una frasevengono composte per poi essere poste in corrispondenza dei vari elementi linguistici.

Necessità di usare sorgenti di conoscenza diversificate a supporto della rappresentazione del significato; tra esse:

1. i significati delle parole2. i significati associati alle strutture sintattiche3. la conoscenza della struttura del discorso4. conoscenza del contesto5. conoscenza (almeno) di base del dominio

Page 26: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Analisi semantica guidata dalla sintassi1.Le frasi sono composte da parole ciascuna delle

quali assume un significato (principio di composizionalità).

2.Le parole si organizzano tra loro secondo regole specifiche e relazionano tra loro per formare una frase con un determinato significato.

Io vedo ciò che mangioIo mangio ciò che vedo

3.Il significato di una frase non è basato esclusivamente sulle parole che la compongono, ma deve tener conto dell’ordine con cui compaiono, dei raggruppamenti esistenti, e delle interrelazioni.

Nell’analisi semantica basata sulla sintassi, la composizionalità dei significati terrà quindi conto delle diverse componenti sintattiche e delle relazioni esistenti.

Page 27: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Analisi semantica guidata dalla sintassi

L’analizzatore semantico elaborerà il risultato dell’analisi sintattica nelle diverse (ambigue) risultanze con un (probabile) incremento dell’ambiguità.

Le ambiguità residue potranno essere risolte grazie sia alla conoscenza di dominio che di contesto le quali permetteranno di selezionare la rappresentazione (più) corretta.

Page 28: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Esempio

AyCaramba serves meat

Viene descritto l’ ”evento” del servire che richiede l’esistenza di qualcuno che serva e di qualcosa che venga servito.

),()^,()^( MeateServedAyCarambaeServereServinge

Page 29: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Analisi composizionale

Page 30: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Augmented Rules

Ciò può essere realizzato by attaching semantic formation rules alle regole sintattiche della CFG.

Esempi di augmented rules

dove ciascun α è un costituente sintattico della regola. Ovvero:

La semantica che viene associata ad A può essere calcolata da qualche funzione applicata alla semantica delle parti di A.

)}.,....({... 11 semsemfA nn

Page 31: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Augmented Rules

Gli attachment sono costituiti da istruzioni che specificano come calcolare il significato della frase A.sem dai significati dei suoi costituenti, ovvero

dall’attivazione della funzione f su qualche sottoinsieme degli attachment semantici dei costituenti di A.

Page 32: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Analisi composizionale

Page 33: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Example AyCaramba serves meat

Easy parts…NP -> PropNounNP -> MassNounPropNoun -> AyCarambaMassNoun -> meat

These attachments consist of assigning constants and copying semantics from children up to parents.

(processo di propagazione della semantica)

• Attachments{PropNoun.sem

}{MassNoun.se

m}{AyCaramba}{Meat}

Page 34: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Esempio AyCaramba serves meat

Page 35: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Esempio AyCaramba serves meat

VP domina sia serves che meat.

E’ necessario “incorporare” il significato della NP nel significato del verbo e assegnare la “rappresentazione risultante” alla VP.sem

Ciò consiste nel sostituire la variabile y con il termine logico meat come secondo argomento del ruolo Served dell’evento Serves

),()^,()^,(, yeServedAyCarambaeServerServingeyIsae

Page 36: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Esempio AyCaramba serves meat

Possiamo ora combinare composizionalmente quanto fatto per i vari costituenti sintattici

E’ necessario “incorporare” il significato sia della NP che della VP nel significato della frase e assegnare la “rappresentazione risultante” alla S

Ciò consiste nel sostituire la variabile x con il termine logico AyCaramba come secondo argomento del ruolo Server dell’evento Serves

),()^,()^,(,, yeServedxeServerServingeyIsaxe

Page 37: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Esempionotazione lambda estensione FOPC

• S -> NP VP• VP -> Verb NP• Verb -> serves

• {VP.sem(NP.sem)}• {Verb.sem(NP.sem

)}

),()^,()^( yeServedxeServereServingeyx

Ciò consiste nel prendere la semantica di un figlio ed applicarla come una funzione alla

semantica dell’altro figlio

Page 38: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Composizionalità forte

La semantica del tutto (la frase) è stata derivata solamente dalla semantica delle singole componenti/parti

(i.e. noi ignoriamo cosa ci sia nelle altre parti dell’albero).

Page 39: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Esempio complesso

• Dov’è la complessità?

• Quale ruolo assume Harry?

Page 40: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Esempio complesso

La VP per told è VP -> V NP Vpto

Quale dovrebbe essere il suo attachment semantico?

– Associare la funzione semantica collegata a Vpto con la semantica della NP; ciò fa emergere Harry come l’attore (goer) dell’azione dell’andare.

– Associare la semantica di V alla semantica della NP; ciò fa emergere Harry come l’oggetto (tellee) dell’azione del dire

Quindi il risultato delle associazioni ci fornisce il giusto valore delle cose dette.

V.Sem(NP.Sem, Vpto.Sem(NP.Sem))

Page 41: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Esempio (a)

Consideriamo gli attachment per VP

VP -> Verb NP NP (gave Mary a book)VP -> Verb NP PP (gave a book to Mary)

Assumiamo che le rappresentazioni del significato di entrambe siano le stesse.

1-Associando una valenza forte al lessico, i VP attachments sono:VP.Sem(NP.Sem, NP.Sem)VP.Sem(NP.Sem, PP.Sem)

Page 42: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Esempio (b)

Invece2-Associando una valenza forte alla sintassi

noi potremmo avere qualcosa del genere

• VP -> V NP NP V.sem ^ Recip(NP1.sem) ^ Object(NP2.sem)• VP -> V NP PP

V.Sem ^ Recip(PP.Sem) ^ Object(NP1.sem)

Ovvero il verbo contribuisce da solo al predicato, la grammatica “conosce” i ruoli.

Page 43: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Se si integra l’analisi semantica nel parser mentre è in funzione …

+ Si possono usare i constraint semantici per eliminare interpretazioni sintattiche senza senso

- Si assegna una rappresentazione del significato ai costituenti che non prendono parte nella maniera corretta alla analisi sintattica

Integrazione

Page 44: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Frasi con quantificazioni

Consideriamo la frase ingleseA restaurant serves meat.

• assumiamo che A restaurant possa essere rappresentato come

• con la notazione lambda si ha

)RestaurantxIsax ,(

)),(,()( MeatServed(e,))RestaurantxxIsaeServereeServing

Page 45: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Termini complessi

Permettere al sistema composizionale di utilizzare rappresentazioni (come oggetti con le parti) del tipo:

Complex-Term → <Quantifier var body> )Restaurant,(xIsax

Page 46: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Conversione

Termini complessi vengono racchiusi (embedded) all’interno di predicati.

Quindi vengono fatti emergere opportunamente per ridistribuire le componenti della rappresentazione

P(<quantifier, var, body>)diventa

Quantifier var body connective P(var)

Page 47: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Esempio

),()Restaurant(

))Restaurant,(,(

xeServerx, Isax

xIsaxeServer

Page 48: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Quantificatori e connetivi logici

Se si è in presenza del quantificatore

esistenziale, allora il connettivo è ^ (and)

Se si è in presenza del quantificatore

universale, allora il connettivo è ->

(implicazione)

Page 49: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

(più) Termini complessi

La tecnica della conversione sposta i quantificatori fuori e prima dell’inizio della forma logica …

Ciò causa ambiguità se c’è più di un termine complesso all’interno della stessa frase.

Page 50: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Ambiguità dei quantificatori

Consideriamo la fraseEvery restaurant has a menu

che può avere più di un significato :ogni ristorante ha un menù

– oppureesiste qualche (mega) menù e tutti i

ristoranti hanno quel menù

Page 51: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Ambiguità dei quantificatori

Consideriamo la fraseEvery restaurant has a menu

)),(,(

))Re,(,(

),(

MenuyyIsaeHad

staurantxIsaxeHaver

HavingeeIsa

Page 52: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Ambiguità dello scopo del quantificatore

),(),(),()(,

)(

MenuyIsayeHadxeHavereyHavinge

xtxRestauran

),(),()(

),(),(

yeHadxeHavereeHaving

RestaurantxxIsaMenuyyIsa

Page 53: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Ambiguità

Questo problema è simile al problema dell’ attachment delle frasi preposizionali (prepositional phrase attachment )

Il numero delle possibili interpretazioni cresce esponenzialmente con il numero di termini complessi presenti nella frase

In assenza di soluzioni generali, ciò che possiamo fare è utilizzare metodi “deboli” (weak methods) per preferire una interpretazione ad un’altra

Page 54: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Non-composizionalità

Nel linguaggio corrente esistono molti casi in cui non ha senso applicare il principio della composizionalità, il significato (mal definito) del termine non può essere derivato dal significato delle sue componenti/parti

– Idiomi, giochi di parole, espressioni ironiche o sarcastiche, metafore, richieste indirette, …

Page 55: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Non-composizionalità

Occhio di bue, prendere al volo l’offerta, di palo in frasca, due piccioni con una fava, cadere dalle nuvole, la grande guerra, etc…

In molte di queste… costruzioni il significato dell’espressione come unico evento è a seconda dei casi– totalmente scorrelato dal significato delle

singole parti – correlato in qualche modo oscuro e molto vago

Page 56: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Esempio

La punta dell’iceberg (inizio di qualcosa enorme di cui non si prevedono le dimensioni)

Di questa frase possiamo dire varie cose; trattasi di1. Una frase specifica con un significato particolare 2. Una frase flessibile sintatticamente e

lessicalmente con un significato particolare3. Una frase flessibile sintatticamente e

lessicalmente con un significato parzialmente composizionale

4. …

Page 57: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Esempio

Si consideri la frase: Enron is the tip of the iceberg.

NP -> “the tip of the iceberg”Non va proprio bene… per esempio…– the tip of Mrs. Ford’s iceberg– the tip of a 1000-page iceberg– the merest tip of the iceberg

• E cosa dire di– That’s just the iceberg’s tip.

Page 58: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Esempio

NP -> “the tip of the iceberg”

Ciò che sembra che ci serva è una regola grammaticale specificamente scritta per gestire il fenomeno, qualcosa del tipo

NP ->una NP iniziale con tip come sua head seguita da

una successiva PP con of come sua head e che abbia iceberg come head della sua NP

e che permetta modificatori del tipo merest, Mrs. Ford, e 1000-page per modificare le forme semantiche rilevanti

Page 59: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Analisi semantica robusta

Le grammatiche tradizionali generalmente non riflettono i contenuti semantici in maniera diretta ed esplicita; le strutture sintattiche prodotte spesso non sono utili per effettuare l’analisi semantica utilizzando il principio della composizionalità; infatti:

– elementi con un ruolo semantico chiave sono spesso distribuiti all’interno dell’albero sintattico rendendo molto complessa la composizionalità

– gli alberi sintattici contengono molti costituenti sintattici che non hanno alcun ruolo nell’elaborazione semantica

– la generalità informativa di molti costituenti sintattici produce attchment semantici che possono creare rappresentazioni semantiche prive o quasi di significato

Page 60: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Analisi semantica robusta

Per risolvere questo problema si può agire in modi diversi per migliorare l’efficienza delle operazioni:

• estendendo il ruolo delle grammatiche (con l’introduzione delle espressioni lambda e dei termini complessi,)

• riscrivendo la grammatica per riflettere la semantica

Page 61: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Esempio-distribuzione di elementi con significato all’interno dell’albero-molti nodi non rilevanti per il significato della frase

Page 62: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Esempio -costituenti sintattici ad un giusto livello di generalità per la sintassi, ma troppo vaghi semanticamente

Si consideri la regola per il termine complesso (some) Italian food

Nominal->Adj Nominal{λx Nominal.sem(x)^AM(x,Adj.sem)}

l’applicazione di un tale attachment produce questa rappresentazione:

x Isa(x,Food)AM(x,Italian)

che non sta ad indicare l’interpretazione sottintesa

cibo preparato in un modo particolare e speciale

Page 63: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Grammatiche semantiche

Le grammatiche semantiche (sviluppate per l’analisi del dialogo in sistemi di Q/A con un vocabolario ristretto e complessità grammaticale limitata) vanno nella direzione di supportare l’analisi composizionale; (regole CFG con un set di terminali).

Le regole (scritte per soddisfare le necessità della semantica piuttosto che della sintassi) ed i costituenti della grammatica corrispondono esattamente alle entità ed alle relazioni del dominio analizzato

Il termine grammatica semantica si riferisce alla motivazione delle regole della grammatica

+ si generano esattamente le regole semantiche che servono

- è necessario sviluppare una nuova grammatica per ciascun

nuovo dominio

Page 64: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Grammatiche semantiche Esempio

Si consideri una possibile regola per rispondere ad una richiesta di informazione del tipo

Request → I want to go to eat FoodType TimeExpr{ some attachment }

Per Italian food potremmo usare la regola

FoodType -> Nationality FoodType

che stabilisce che il tipo di cibo deve essere collegato alla caratteristica nazionale

Page 65: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Grammatiche semantiche

– Regole difficilmente riusabili in contesti diversi

– Possibile overgenerazione; per esempio il termine

Canadian restaurant

non viene usato nella stessa accezione di Italian food, bensì nel senso di ristorante in Canada

La motivazione del significato è al di là delle parole, è nel dominio culturale dei cibi

Page 66: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Estrazione di informazione da testi IE

Nei sistemi per l’estrazione di informazione da testi siamo interessati a riconoscere solo informazioni specifiche: si richiede un approccio diverso

Tali sistemi devono gestire

– Frasi reali (e quindi arbitrariamente lunghe e complesse)

– Una semantica superficiale • Liste piatte di coppie attributo-valore • XML/SGML

Page 67: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Esempi

Analisi di articoli di quotidiani, notizie di agenzia per l’identificazione di uno specifico insieme di eventi di interesse

Analisi di siti web alla ricerca di prodotti, prezzi, etc

Questi testi hanno caratteristiche peculiari:

Frasi lunghe, sintassi complessa (e talvolta incorretta) autori diversi, …

Page 68: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Sistemi di IE

I sistemi di IE sono in genere basati su una cascata di automi per riconoscere fenomeni specifici e tralasciare parti non rilevanti del testo anlizzato

Vengono riconosciuti elementi di sintassi/semantica isolati dal contesto e quindi usati in una fase successiva di processing fino ad ottenere il risultato finale

Il risultato finale dell’elaborazione è un insieme di relazioni e valori che vengono successivamnete memorizzati in una base di dati

Page 69: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Esempio (MUC)

Bridgestone Sports Co. said Friday it has set up a joint venture in Taiwan with a local concern and a Japanese trading house to produce golf clubs to be shipped to Japan.The joint venture, Bridgestone Sports Taiwan Co., capitalized at 20 million new Taiwan dollars, will start production in January 1990 with production of 20,000 iron and “metal wood” clubs a month.

Page 70: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Esempio

Bridgestone Sports Co. said Friday it has set up a joint venture in Taiwan with a local concern and a Japanese trading house to produce golf clubs to be shipped to Japan.The joint venture, Bridgestone Sports Taiwan Co., capitalized at 20 million new Taiwan dollars, will start production in January 1990 with production of 20,000 iron and “metal wood” clubs a month.

Page 71: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Esempio

Bridgestone Sports Co. said Friday it has set up a joint venture in Taiwan with a local concern and a Japanese trading house to produce golf clubs to be shipped to Japan.The joint venture, Bridgestone Sports Taiwan Co., capitalized at 20 million new Taiwan dollars, will start production in January 1990 with production of 20,000 iron and “metal wood” clubs a month.

Page 72: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Esempio

Bridgestone Sports Co. said Friday it has set up a joint venture in Taiwan with a local concern and a Japanese trading house to produce golf clubs to be shipped to Japan.The joint venture, Bridgestone Sports Taiwan Co., capitalized at 20 million new Taiwan dollars, will start production in January 1990 with production of 20,000 iron and “metal wood” clubs a month.

Page 73: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

FASTUS Output (Hobbs 1997)

Page 74: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Cascata di processi

Page 75: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Punti rilevanti

Il riconoscimento delle named entities di un testo permette di riconoscere nomi di persone, organizzazioni, luoghi, etc.

Le named entities vengono riconosciute in modo robusto con metodi riutilizzabili in applicazioni diverse

Page 76: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Punti rilevanti

E tutte le altre componenti del testo?Possono essere ignorate!

– Non servono per le successive fasi di processing e quindi non è necessario elaborarle

Page 77: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Punti rilevanti

L’approccio metodologico dei sistemi di IE funziona in quanto ci si pone in un contesto applicativo limitato

– Si ricerca solo un insieme limitato di item che può quindi apparire in un insieme limitato di regole

Page 78: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Esempio reale

The White House said President Bush has approved duty-free treatment for imports of certain types of watches that aren’t produced in significant quantities in the U.S., the Virgin Islands and other U.S. possessions.

WSJ Markup Example

Page 79: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Argomenti trattati in questa lezione

Capire il significato di una frase per fare inferenza

Rappresentazione del significato (metodologie)An. Sem. guidata dalla sintassiPredicate-argument structureAugmented rulesComposizionalitàTermini complessi e gestione dei quantificatoriAnalisi semantica robustaGrammatiche semantiche

Page 80: Semantica Maria Teresa PAZIENZA a.a. 2009-10. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria:

Elaborazione del linguaggio naturale

Le presentazioni sugli argomenti di elaborazione del linguaggio naturale fanno in alcuni passi riferimento ad alcune presentazioni dei colleghi prof. Fabio Massimo Zanzotto e dottor Marco Pennacchiotti, del dottor Patrick Pantel (ISI-USC), oltre che ad alcune parti del libro: Speech and Language Processing, Prentice Hall, 2000, autori D.Jurafsky, J. H. Martin.