Upload
tonia-gualtieri
View
223
Download
3
Embed Size (px)
Citation preview
Elaborare il linguaggio naturale
Cristina Bosco([email protected])
Corso di Informatica applicata alla comunicazione multimediale
Facoltà di Lingue 23/2/2010
2 Problemi nell’elaborare il
linguaggio• Problema 1:Il linguaggio contiene molte ambiguità
che rendono difficile elaborarlo • Problema 2:Il linguaggio è usato sovente in forma
“non corretta”
Problema 1
Cosa succede se una frase (o sua componente) è ambigua? si costruiscono più strutture alternative e le si gestisce in parallelo, fino alla soluzione dell’ambiguità
MA NON BASTA (quand’anche possibile in un sistema reale) occorre avere CRITERI efficienti per ORDINARE le alternative e scegliere la migliore
Problema 2• Esempio:in inglese il soggetto precede il
verbo, ma i parlanti comprendono una frase anche se il suo soggetto si trova dopo il verbo
QUINDI LA VIOLAZIONE delle REGOLE non impedisce la COMUNICAZIONE
Elaborare il linguaggio
• Raffinare le tecniche di elaborazione • Applicare il trattamento a testi
“ristretti” (ad es. come genere)• Sviluppare risorse linguistiche di
grandi dimensioni e facilmente riutilizzabili ed accessibili per ottenere basi statistiche
Approccio corpus-based
• Utilizzato dai linguisti dalla fine dell’800 e tutt’ora molto diffuso
• Consiste nell’apprendere dal linguaggio le regole ed irregolarità del linguaggio
Approccio corpus-based
Esempio: nel parsing, di fronte all’ambiguità e
quindi generazione di più strutture, per una singola frase, si ricavano dai dati linguistici i CRITERI per scegliere la migliore delle strutture generate
Approccio corpus-based
In pratica:si prende un campione di linguaggio, cioè un
insieme di frasi = CORPUSsi cercano nel corpus le strutture linguistiche
e le loro probabilità = BASE di CONOSCENZA
se si incontra una struttura ambigua si cerca nella base di conoscenza l’informazione utile per costruire la rappresentazione più probabile della struttura
Un progetto reale: TUT
•Obiettivo: sviluppare una risorsa
linguistica, una banca di alberi sintattici per l’italiano
Fasi di sviluppo del progetto
•Selezione dei testi da annotare
•Definizione dello schema di annotazione
•Applicazione dello schema al corpus di testi (validità e consistenza)
Selezione di testi in TUT
• 45% testi da giornali quotidiani e riviste
• 45% testi dal codice civile• 10% testi da un corpus
multilingue della CE
ES: corpora balancing
TEXTS fromPRAGUE newspapers, scientific and
economic journals
NEGRA newspaper Frankfurter Rundschau
PENN IBM manuals, nursing notes, newspapers (Wall Street Journal), telephone conversations
Definizione dello schema di
annotazione•Scelta del formalismo
•Scelta delle informazioni e strutture da rappresentare
Struttura sintattica: scelta tra 2 aspetti
• L’organizzazione delle unitá della frase (sintagmi e constituent structure)
• La funzione degli elementi della frase (relazioni grammaticali e relational structure)
Relational structure
•Le parole della frase svolgono funzioni diverse
•Le funzioni sono espresse in termini di relazioni grammaticali
Giorgio
ama
Maria
SUBJ OBJ
Relational structure
Constituent structure
Le parole della frase sono organizzate in unità (costituenti) che a loro volta sono oggetto di una organizzazione (constituent structure) in unità più grandi
ES: constituents
Giorgio ama Maria
Nome-pr Nome-pr Verbo
VP
S
NP NP
Constituent structure
(S(NP ( NOME Giorgio))(VP (VERBO ama)
(NP (NOME Maria))
)
)
Constituent structure
Le relazioni tra le parole non sono tutte uguali:
“Maria leggeva un libro in biblioteca”
ES: Penn annotation
( S
( NP - SBJ (PRP I) )
( ADVP - TMP ( RB never) )
( VP (VBD had)
( NP (JJ many) (NNS clients) )
( NP - ADV (DT a) ( NN day) ))
))
NP
VP
NP
ADVP
NP
S
SBJ
TMP
PRP
RB
VBD
NNSDT
NNDTADV
ES: NEGRA annotation
S
VP
HD SB NG
MO HD OA
OC
ADV VVPP VAFIN NE NE ADV
Costituenti e relazioni
•La struttura relazionale include le informazioni relative all’
organizzazione della frase in unità
•La struttura a costituenti non include le informazioni relative alla funzione delle parole
•La struttura relazionale è più compatta
•Sia le relazioni che i costituenti sono realizzati in modo diverso nelle diverse lingue
•La struttura relazionale include la struttura argomentale
Costituenti e relazioni
La struttura argomentale
•relazioni grammaticali
•ruoli semantici
•uguali o distinti?
Le relazioni grammaticali
•Identificabili da varie proprietà
•Diverse nelle varie lingue
ES: annotation processes
MORPHO SYNT SEMPRAGUE semi-
automatic
semi-automatic
semi-automatic
NEGRA automatic interactive(probabilistic)
PENN automatic automatic (skeletal)
Processo di sviluppo del TUT
•Part Of Speech tagging automatico
•Correzione manuale del tagging
•Parsing interattivo
•Verifica e revisione
6.4. TUT application and future
• Study of the Italian word order• Extraction of grammar• Conversion in other treebank formats• …
ES: word order in Italian
(in 1200 sentences)
6.2.2 TUT relation components
• Morpho-syntactic: morpho-syntactic features such as Verb, Noun …
• Functional-syntactic: syntactic relations such as Subject, Object
• Semantic: semantic relations such as Location, Time, Cause
ES: morpho-syntactic component
La nazione sogna ricchezza
I sogni di ricchezza della nazione
Velocemente / in modo veloce
VERB-SUBJ
NOUN-OBJ NOUN-SUBJ
VERB-OBJ VERB
NOUN
ADV-role ADV-role
ES: morpho-syntactic component
in TUT
Empirical evidence for the morpho-syntactic component in TUT
• Given 944 different Verbs = 4169 occurrences
• 30% of these Verbs (and associated predicative structure) are present in the nominal morpho-syntactic variant too
ES: functional-syntactic component
Egli non è stato visto da nessuno
Egli non è stato visto da ieri
ARG
MOD
ES: functional-syntactic component
in TUT
ES: semantic component
Da qui è partito l’assalto
Succedeva dall’altra parte del mondo
I miliardi stanziati dal 1991
Era impazzito dal dolore
Trarrà beneficio dalla bonifica
LOC+FROM
LOC+IN
TIME
REASONCAUSE
SOURCE
ES: semantic component in TUT
Empirical evidence for the semantic component in TUT
• Given 600 prepositional phrases introduced by the Preposition DA and playing the functional-syntactic role RMOD
• They assume 7 different semantic values:
LOC+FROM, LOC+IN, LOC+METAPH, TIME, THEME, REASONCAUSE, SOURCE
ES: Annotation in TUT1 In (IN PREP MONO) [7;PREP-RMOD-TIME]
2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-ARG]
3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF-ARG]
4 Sudja (|Sudja| NOUN PROPER) [7;VERB-SUBJ]
5 la (IL ART DEF F SING) [4;APPOSITION]
6 zingara (ZINGARO NOUN COMMON F SING) [5;DET+DEF-ARG]
7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-VERB]
8 il (IL ART DEF F SING) [7;VERB-OBJ]
9 fallimento (FALLIMENTO NOUN COMMON M SING FALLIRE INTRANS) [8;DET+DEF-ARG]
END
For further information:
http://www.di.unito.it/~tutreeb
http://www.di.unito.it/~bosco)