14
Tecnologia semantica made in Italy NLP per i problemi di business del mondo reale Pisa, 12/10/2013 Nico Lavarini

Tecnologia semantica made in Italy NLP per i problemi di business del mondo reale Pisa, 12/10/2013 Nico Lavarini

Embed Size (px)

Citation preview

Page 1: Tecnologia semantica made in Italy NLP per i problemi di business del mondo reale Pisa, 12/10/2013 Nico Lavarini

Tecnologia semantica made in Italy

NLP per i problemi di business del mondo reale

Pisa, 12/10/2013

Nico Lavarini

Page 2: Tecnologia semantica made in Italy NLP per i problemi di business del mondo reale Pisa, 12/10/2013 Nico Lavarini

2

NLP e Tecnologia Semantica

Baseline

• Keyword-based / bag-of-words

• Primitivo, generale, veloce

Avanzato

• Shallow linguistic / LSI / statistica avanzata

• Approccio sintetico con analisi su grandi volumi

• Machine Learning per apprendimento conoscenza

Page 3: Tecnologia semantica made in Italy NLP per i problemi di business del mondo reale Pisa, 12/10/2013 Nico Lavarini

3

NLP e Tecnologia Semantica

Perché la tecnologia semantica per NLP?

• Analisi approfondita testi

• Approccio analitico a fenomeni linguistici

Page 4: Tecnologia semantica made in Italy NLP per i problemi di business del mondo reale Pisa, 12/10/2013 Nico Lavarini

4

Siri (Apple 2011)

Combinazione STT / NLP

Virtual assistant, capisce e gestisce

• Elementi locali (telefono, rubrica, appuntamenti, messaggi)

• Conoscenza generica esterna (ricerca, meteo)

• Numerosi tipi di query: “meteo”, “invia sms a”, informazioni varie, ricerca

Risultato mainstream: cosa mai vista

Page 5: Tecnologia semantica made in Italy NLP per i problemi di business del mondo reale Pisa, 12/10/2013 Nico Lavarini

5

Genio (Virgilio 1999)

Genio rispondeva alle domande via web

• flusso: analisi linguistica, identificazione elementi, ricerca template e restituzione risposta

• Uso generico NLP su web in italiano 13 anni fa

Page 6: Tecnologia semantica made in Italy NLP per i problemi di business del mondo reale Pisa, 12/10/2013 Nico Lavarini

6

Genio (Virgilio 1999)

Esempi di query: “che tempo fa a Roma” “voglio info sul circuito di Hockenheim”

• no mobile/locale ma web su tanti domini

• comprensione NL qualunque

Creazione base di conoscenza strutturata usata come repository per le richieste. • Aree coperte: sport, mappe, treni,voli, traffico, meteo, hotel,

turismo, nozioni enciclopediche, celebrità, eventi, lavoro, tv, musica, ecc.

Page 7: Tecnologia semantica made in Italy NLP per i problemi di business del mondo reale Pisa, 12/10/2013 Nico Lavarini

7

Chi può farlo

Non basta (non serve) forza bruta e risorse

• Il problema globale è troppo complesso e ampio

Cosa serve?

• Altra strategia

• Capacità, Competenze

• Scelta del compromesso valore aggiunto fattibilità

Perché in Italia?

• Intelligenza, visione di insieme, capacità di sintesi

Page 8: Tecnologia semantica made in Italy NLP per i problemi di business del mondo reale Pisa, 12/10/2013 Nico Lavarini

8

Machine Learning

Machine Learning oggi molto comune

• Risorse + $ + hardware + tanti dati danno risultati

• TTM veloce, buona qualità in poco tempo ma risultati difficilmente affinabili, molte tecniche sono black-box

Page 9: Tecnologia semantica made in Italy NLP per i problemi di business del mondo reale Pisa, 12/10/2013 Nico Lavarini

9

L’approccio analitico

Controllo e sfruttamento fenomeni linguistici porta a comprensione

Più faticoso e richiede molte competenze specifiche Compromesso fra analisi puntuale di tutto e fattibilità Migliore nonostante la complessità Permette precisione e qualità più alte (a piacere in certi casi)

Page 10: Tecnologia semantica made in Italy NLP per i problemi di business del mondo reale Pisa, 12/10/2013 Nico Lavarini

10

NLP e qualità

La perfezione non è raggiungibile

• Anche gli umani interpretano male i testi (e i comandi a voce)

• Mutual agreement fra esperti medio ~80% su analisi sintattica/semantica

• Grande varietà fenomeni linguistici del mondo reale Long Tail

• Coreferenze lunghe, negazioni (multiple), ironia/sarcasmo, conoscenza implicita (world knowledge), pragmatica, ecc.

Page 11: Tecnologia semantica made in Italy NLP per i problemi di business del mondo reale Pisa, 12/10/2013 Nico Lavarini

11

NLP e qualità

C'è ancora tanta strada da fare

• Mantenere qualità analisi con scarsa qualità dei documenti (social web)

• Approcci formali al linguaggio (Generative/Transformational grammars) non funzionano in assoluto

• Gestione Long Tail dei fenomeni linguistici

Page 12: Tecnologia semantica made in Italy NLP per i problemi di business del mondo reale Pisa, 12/10/2013 Nico Lavarini

12

Il futuro

Sfida:

• combinare gli approcci esistenti prendendo il meglio

• analisi approfondita usando come base la conoscenza proveniente da sintesi di grandi volumi di testi

• Tecnologie Big Data possono aiutare a gestire in maniera efficiente i volumi

Fondamentale il passaggio da informazione a conoscenza

• Strumenti black box danno informazione difficilmente usabile, serve significato

Page 13: Tecnologia semantica made in Italy NLP per i problemi di business del mondo reale Pisa, 12/10/2013 Nico Lavarini

13

Il futuro

Scenari futuri con qualità migliore:

• Efficiente integrazione NLP nel ciclo TTS/STT per assistenti vocali

• NLP open-domain efficiente (QA, sentiment analysis) su informazioni non strutturate

• Semantic network automatiche da dati web (conoscenza, non informazione)

• Analisi social media (linguaggi non-standard, scarsa qualità, diverse lingue, conoscenza e cultura implicite)

Page 14: Tecnologia semantica made in Italy NLP per i problemi di business del mondo reale Pisa, 12/10/2013 Nico Lavarini

GrazieNico Lavarini

Chief [email protected]

+39 059 894069

Expert Systemwww.expertsystem.net

Contacts