37
Strumenti linguistici per le applicazioni imprenditoriali Dizionari Elettronici e Grammatiche Locali

Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

Strumenti linguistici per le applicazioni imprenditoriali Dizionari Elettronici e Grammatiche Locali

Page 2: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

Dizionari Elettronici

◉Dizionari Elettronici

◉Grammatiche Locali

Page 3: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

Dizionari Elettronici

Page 4: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

Dizionari Elettronici

Page 5: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

Risorse Lessicali per l’NLP Perché siano utilizzabili per il trattamento

automatico del linguaggio non è sufficiente che siano digitalmente accessibili,

devono contenere machine-readable data

Page 6: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

Risorse Lessicali per l’NLP

Completezza Target umano Le informazioni estraibili dalla conoscenza enciclopedica possono essere omesse

Target macchina Il computer non può avere margine d’errore: nulla può essere lasciato al caso. Le informazioni devono essere esaustive

Esplicitazione Target umano Parte dell’informazione può essere implicita, date le capacità umane di intuizione, adattamento e deduzione

Target macchina Possono essere processate solamente le istruzioni e i simboli completamente esplicitati

Codifica Target umano Le informazioni consistono in raw data, in testi non strutturati

Target macchina Le informazioni formite al computer devono essere accurate, coerenti e completamente codificate

Page 7: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

◉ WordNet è un database lessicale per la lingua inglese

◉ Raggruppa nomi, verbi, aggettivi e avverbi in gruppi di sinonimi cognitivi, I synsets.

◉ I synsets sono interconnessi mediante relazioni concettuali, semantiche e lessicali

◉ È disponibile in rete per la navigazione (umana)

◉ È scaricabile e interrogabile per applicazioni di NLP

Approfondisci: George A. Miller (1995). WordNet: A Lexical Database for English. Communications of the ACM Vol. 38, No. 11: 39-41.

Christiane Fellbaum (1998, ed.) WordNet: An Electronic Lexical Database. Cambridge, MA: MIT Press.

https://wordnet.princeton.edu/

Risorse Lessicali per l’NLP

Page 8: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

Risorse Lessicali per l’NLP

Human readable

Machine readable

Page 9: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

Risorse Lessicali per l’NLP

Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000 entrate e permette di riconoscere 1.099.179 parole semplici e composte monorematiche.

Le categorie in base alle quali le entrate sono classificate sono le seguenti: • 69.356 nomi

• 34.045 aggettivi

• 15.574 avverbi

• 9.689 verbi

• 143 congiunzioni

• 479 esclamazioni

• 4 interiezioni

• 63 preposizioni

• 5 determinanti

• 234 prefissi

Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione

Page 10: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

Risorse Lessicali per l’NLP

Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000 entrate e permette di riconoscere 1.099.179 parole semplici e composte monorematiche.

Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione

Page 11: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

Risorse Lessicali per l’NLP

Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000 entrate e permette di riconoscere 1.099.179 parole semplici e composte monorematiche.

Quelli che seguono sono alcuni dei tag semantici che il dizionario prevede:

◉ Nomi concreti (+Conc): 21.941 entrate

◉ Nomi concreti collettivi (+ConcColl): 197 entrate

◉ Nomi umani (+Um): 12.571 entrate

◉ Nomi umani collettivi (+UmColl): 228 entrate

◉ Nomi di animali (+Anl): 2.036 entrate

◉ Nomi di animali collettivi (+AnlColl): 23 entrate

Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione

Page 12: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

Risorse Lessicali per l’NLP

Cdic_it è il dizionario elettronico dei nomi composti, contiene più di 127.000 entrate e riconosce 260.944 nomi composti (classi NPN, NA, AN, NN). Alla maggior parte dei nomi è associato il campo semantico di appartenenza.

◉ Informatica 54.000 polirematiche

◉ Medicina 46.000 polirematiche

◉ Gurisprudenza 21.000 polirematiche

◉ Ingegneria 19.000 polirematiche

◉ Archeologia 11.000 polirematiche

Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione

Page 13: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

Risorse Lessicali per l’NLP

Altri dizionari elettronici a disposizione per l’italiano sono i seguenti:

◉ Acronimi: 157 entrate

◉ Alterati: 185 entrate

◉ Contrazioni: 36 entrate

◉ Elisioni: 55 entrate

◉ ElisioniContrazioni : 12 entrate

◉ NomiPropri: 3.327 entrate, consente anche l'annotazione delle forme in -ISMO, -ISTA, -IANO, -ESCO in associazione con la grammatica morfologica NomiPropri#ismo.nom

◉ Toponimi: 1.113 entrate, in molti casi associate ad informazioni di natura geografica

◉ Tronche: 53 entrate, da applicare assieme alla grammatica troncamento.nom

Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione

Page 14: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

Risorse Lessicali per l’NLP

adsl,Asymmetric Digital Subscriber Line,N+FLX=N601+Acr

bene,AVV+HIDDENINO+HIDDENONE+HIDDENUCCIO

agli,<a,PREP><gli,il,DET+m+p>

qualcos',qualcosa,PRON

nell',<in,PREP><lo,il,DET+m+s>

Serena,N+f+s+Npr+Um

Salerno,N+NPR+TOPONIMO+Città+REGIONE="Campania"

signor,signore,N+m+s

◉ Acronimi: 157 entrate

◉ Alterati: 185 entrate

◉ Contrazioni: 36 entrate

◉ Elisioni: 55 entrate

◉ ElisioniContrazioni : 12 entrate

◉ NomiPropri: 3.327 entrate (consente anche l'annotazione delle forme in -ISMO, -ISTA, -IANO, -ESCO)

◉ Toponimi: 1.113 entrate, in molti casi associate ad informazioni di natura geografica

◉ Tronche: 53 entrate, da applicare assieme alla grammatica troncamento.nom

Altri dizionari elettronici a disposizione per l’italiano sono i seguenti:

Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione

Page 15: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

Risorse Grammaticali per l’NLP Perché siano utilizzabili per il trattamento

automatico del linguaggio non è sufficiente che siano digitalmente accessibili,

devono contenere machine-readable data

Page 16: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

Le grammatiche locali sono algoritmi che, attraverso istruzioni sintattiche, morfologiche e lessicali, sono utilizzate per formalizzare fenomeni linguistici e per processare automaticamente i testi.

Con l’espressione Locali sottolineiamo che, oltre ogni generalizzazione, queste grammatiche possono essere usate nella descrizione e nell’analisi di fenomeni linguistici limitati

Risorse Grammaticali per l’NLP

Page 17: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

Un Automa a Stati Finiti è il modello astratto di una macchina

È in grado di riconoscere se una stringa appartiene o meno a un certo linguaggio

Risorse Grammaticali per l’NLP

Page 18: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

Un Automa a Stati Finiti consiste in una serie di nodi o stati (Si) connessi tra loro mediante transizioni (tj).

Si legge solo da sinistra a destra, dallo stato iniziale (S0) allo stato finale (S3)

Risorse Grammaticali per l’NLP

Page 19: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

Un Automa a Stati Finiti può essere deterministico oppure no

Risorse Grammaticali per l’NLP

Automa a Stati Finiti deterministico

Automa a Stati Finiti non deterministico

Page 20: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

Un Automa a Stati Finiti diventa un Trasduttore se traduce i simboli di input (Sii) in simboli di output (Sio)

Risorse Grammaticali per l’NLP

Page 21: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

◉ Un Automa a Stati Finiti diventa un Recursive Transition Network (RTN) se contiene grafi incassati (embedded graphs, S3).

◉ È un Enhanced Recursive Transition Network (ERTN quando include variabili (V) e restrizioni (constraints, C)

Risorse Grammaticali per l’NLP

Page 22: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

Cos’è un grafo incassato?

◉ È un grafo contenuto all’interno di un nodo di un altro grafo

Risorse Grammaticali per l’NLP

Grafo Incassato

Page 23: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

◉ Le variabili ( ) e le restrizioni ( ) possono essere utilizzate all’interno e all’esterno dei grafi incassati ( ) e dei loop ( )

◉ Più occorrenze della stessa variabile possono essere utilizzate lungo il percorso della grammatica locale, assumendo anche diversi valori.

Risorse Grammaticali per l’NLP

Page 24: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

Cos’è una variabile?

◉ È un insieme di dati modificabili (in opposizione alla costante)

◉ È associata a un insieme di valori predefiniti (tipo)

Risorse Grammaticali per l’NLP

Page 25: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

Cos’è una variabile?

◉ È un insieme di dati modificabili (in opposizione alla costante)

◉ È associata a un insieme di valori predefiniti (tipo)

Risorse Grammaticali per l’NLP

Page 26: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

Cos’è una variabile?

I.e. Riconscimento delle ripetizioni

Risorse Grammaticali per l’NLP

Dati modificabili: • efficient • grammar Tipo di dati: • <L> = lettera • <WF>= parola • <P>= simbolo di interpunzione • ecc…

Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.

Page 27: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

Cos’è una restrizione? ◉ È un’istruzione che controlla il campo d’applicazione di una grammatica locale troppo produttiva

◉ Si relaziona alla Variabile (V) se delimita un insieme di definizione più piccolo di quello tipizzato da V

Risorse Grammaticali per l’NLP

Page 28: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

Cos’è una restrizione?

Risorse Grammaticali per l’NLP

Campo d’applicazione: • american-ize

• *size

Tipo di dati: <L> + loop = sequenza di lettere

<L> + loop + <$Pref=:A> =

sequenza di lettere

corrispondente ad un aggettivo

Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.

Page 29: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

◉ Esempi di Recursive Transition Network (RTN)

Risorse Grammaticali per l’NLP

Page 30: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

◉ Esempi di Recursive Transition Network (RTN)

Risorse Grammaticali per l’NLP

Page 31: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

Grafo Incassato

◉ Esempi di Recursive Transition Network (RTN)

Risorse Grammaticali per l’NLP

Page 32: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

◉ Esempi di Enhanced Recursive Transition Network (ERTN)

Risorse Grammaticali per l’NLP

Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.

Page 33: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

◉ Esempi di ERTN e analisi semantica del testo

Risorse Grammaticali per l’NLP

Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.

Page 34: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

◉ Esempi di ERTN e analisi semantica del testo

Risorse Grammaticali per l’NLP

“One woman aged 25 had fever symptom”

Agent (Sex(F), Age(25), Symptom(fever))

<AGENT Sex=F Age=25 Symptom=fever>One woman aged 25 had fever symptom<\AGENT>

Frase:

Descrizione:

Annotazione XML:

Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.

Page 35: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

◉ Esempi di ERTN e analisi semantica del testo

Risorse Grammaticali per l’NLP

Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.

Page 36: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

◉ Esempi di ERTN e analisi semantica del testo

Risorse Grammaticali per l’NLP

Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.

Page 37: Strumenti linguistici per le applicazioni imprenditoriali...Risorse Lessicali per l’NLP Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000

◉ Esempi di ERTN e analisi semantica del testo

Risorse Grammaticali per l’NLP

“John sees Mary ”

PRED=see (John,Mary)

Frase:

Descrizione PROLOG-like :

Annotazione XML: <PRED F=see ARG1=John ARG2=Mary>John sees Mary<\PRED>

Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.