2
InformationInformation OverloadOverload
Migliaia di documenti vengono prodotti ogniMigliaia di documenti vengono prodotti ognigiornogiorno: :
80%80% testuali testuali
20%20% numerici numerici
IntroIntroText MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
[email protected]@synthema.it
3
Information OverloadInformation Overload
HTML, XML, PDF, Word, TXT, … HTML, XML, PDF, Word, TXT, …
Inglese, Francese, Tedesco, Inglese, Francese, Tedesco, Italiano, Arabo, Cinese, Russo… Italiano, Arabo, Cinese, Russo…
Internet/Intranet, DB, ...Internet/Intranet, DB, ...
IntroIntroText MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
[email protected]@synthema.it
4
IntroIntroText MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
Information OverloadInformation Overload
Brevetti, Pubblicazioni scientificheBrevetti, Pubblicazioni scientifiche
StampaStampaTelefonateTelefonate
Percezione e Conoscenza della Percezione e Conoscenza della realtà che ci circondarealtà che ci circonda
WEBWEBE-mailE-mail
[email protected]@synthema.it
5
Che cosa è il Text MiningChe cosa è il Text Mining
Insieme di tecniche linguistico-matematiche perInsieme di tecniche linguistico-matematiche per Analizzare fonti testualiAnalizzare fonti testuali Strutturare e classificare automaticamente il Strutturare e classificare automaticamente il contenutocontenuto Trovare l’informazione nascostaTrovare l’informazione nascosta
Supporto nel Supporto nel Processo DecisionaleProcesso Decisionale
IntroIntroText MiningText Mining
STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
[email protected]@synthema.it
6
IntroIntroText MiningText Mining
STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
Che cosa non è il Text MiningChe cosa non è il Text Mining
Non è analisi puntuale di un testo, ma Non è analisi puntuale di un testo, ma analisi quantitativa e qualitativa di un analisi quantitativa e qualitativa di un insieme esteso di testi.insieme esteso di testi.
Non è una metodologia di archiviazione Non è una metodologia di archiviazione di testi in argomenti predefiniti, noti a di testi in argomenti predefiniti, noti a priori. Non è routing dell’informazione.priori. Non è routing dell’informazione.
[email protected]@synthema.it
7
Informazione Informazione come Supporto nel come Supporto nel
Processo DecisionaleProcesso DecisionaleText Mining perText Mining per OttenereOttenere unauna visione di insieme degli argomentivisione di insieme degli argomenti Accedere all’informazione su base tematicaAccedere all’informazione su base tematica Trovare l’informazione nascostaTrovare l’informazione nascosta
Trovare l’informazione d’interesse
IntroIntroText MiningText Mining
STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
[email protected]@synthema.it
8
IntroIntro Text MiningText MiningSTALKER/OMLSTALKER/OML
Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
Come gestire migliaia di Come gestire migliaia di documenti?documenti?
Banche dati
Internet
Database
[email protected]@synthema.it
9
IntroIntro Text MiningText MiningSTALKER/OMLSTALKER/OML
Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
Come gestire migliaia di Come gestire migliaia di documenti? Innovazione onlinedocumenti? Innovazione online
Banche dati
Banca dati
SEARCHBOX+TWIDEXPERTSEARCHBOX+TWIDEXPERT(Analisi linguistica, statistica)(Analisi linguistica, statistica)
SEARCHBOX+TWIDEXPERTSEARCHBOX+TWIDEXPERT(Analisi linguistica, statistica)(Analisi linguistica, statistica)
Modelli Dizionari Grammatiche
Back-endBack-end
Clustering engineClustering engineClustering engineClustering engine
Search engineSearch engineSearch engineSearch engine
Front-endFront-end
Ufficio2Ufficio2
Ufficio1Ufficio1
Intranet
STALKER/OML serverSTALKER/OML server
InternetUfficio3Ufficio3
[email protected]@synthema.it
10
IntroIntro Text MiningText MiningSTALKER/OMLSTALKER/OML
Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
Architettura (STALKER)Architettura (STALKER)
[email protected]@synthema.it
Banche dati
Banca dati
CrawlerCrawlerCrawlerCrawler
Modelli Dizionari Grammatiche
Clustering engineClustering engineClustering engineClustering engine
Search engineSearch engineSearch engineSearch engine
Stalker serverStalker serverInternet
Lexical Lexical pluginplugin
Lexical Lexical pluginplugin
TWID TWID pluginpluginTWID TWID pluginplugin
TWIDExpertTWIDExpertTWIDExpertTWIDExpert
Reverse Reverse indexesindexes
Reverse Reverse indexesindexes
SearchBoSearchBoxx
TWIDExpertTWIDExpert
11
Il processo produttivoIl processo produttivo
Scelta e preparazione dei datiScelta e preparazione dei dati
Analisi dei dati e storageAnalisi dei dati e storage
Ricerca e Analisi dei risultatiRicerca e Analisi dei risultati
Monitoraggio, consultazione e Monitoraggio, consultazione e
approfondimento approfondimento
Back-endBack-end
Front-endFront-end
IntroIntro Text MiningText MiningSTALKER/STALKER/
OMLOML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
[email protected]@synthema.it
12
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
Scelta:Scelta: Preparazione:Preparazione:
Scelta e Preparazione dati Scelta e Preparazione dati (BackEnd)(BackEnd)
[email protected]@synthema.it
13
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
Preparazione dei Dati Preparazione dei Dati (BackEnd)(BackEnd)
(brevetti, pubblicazioni, e-mail, …)(brevetti, pubblicazioni, e-mail, …)
Distinguere “Distinguere “ciò che è dettociò che è detto” da ” da ““come viene dettocome viene detto””
trovare convergenze nel significatotrovare convergenze nel significato
cogliere l’informazione da classificarecogliere l’informazione da classificare
Analisi Lessicale perAnalisi Lessicale per
[email protected]@synthema.it
14
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
Analisi Morfo-sintattica e/o Analisi Morfo-sintattica e/o TerminologicaTerminologica
Analisi SemanticaAnalisi Semantica
rimuovere Ambiguità rimuovere Ambiguità
raggruppare Varianti Graficheraggruppare Varianti Grafiche
trovare Sinonimitrovare Sinonimi
Identicazione Identicazione automatica automatica
dei descrittori dei descrittori per ciascun per ciascun documentodocumento
Preparazione dei Dati Preparazione dei Dati (BackEnd)(BackEnd)
(Analisi lessicale)(Analisi lessicale)
Analisi LogicaAnalisi Logica
espandere Acronimiespandere Acronimi
estrarre Espressioniestrarre Espressioni ComposteComposte
[email protected]@synthema.it
15
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
Analisi Grammaticale riduce le ambiguitàAnalisi Grammaticale riduce le ambiguitàAnalisi Grammaticale riduce le ambiguitàAnalisi Grammaticale riduce le ambiguità
DETTIDETTI DETTODETTO: nome, masc. plur: nome, masc. plur.
DETTAREDETTARE: verbo, ind. pres. 2a pers. sing.: verbo, ind. pres. 2a pers. sing.
DAREDARE: : verbo, ind. pass. rem. 1a pers. sing.verbo, ind. pass. rem. 1a pers. sing.
DIREDIRE: verbo, part. pass. masc. plur.: verbo, part. pass. masc. plur.
TRATTOTRATTO TRATTO, TRATTARETRATTO, TRATTARE
LemmaLemmaLemmaLemma invio, inviati, invia invio, inviati, invia inviare inviare [[verbverb]] capi stazione capi stazione capo stazione capo stazione [[nounnoun]]
Preparazione dei Dati Preparazione dei Dati (BackEnd)(BackEnd)
(Analisi lessicale - Morfo-sintattica)(Analisi lessicale - Morfo-sintattica)
[email protected]@synthema.it
16
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
Preparazione dei Dati Preparazione dei Dati (BackEnd)(BackEnd)
(Analisi lessicale - Morfo-sintattica)(Analisi lessicale - Morfo-sintattica)
[email protected]@synthema.it
17
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
raggruppare Varianti Graficheraggruppare Varianti Grafiche
trovare Sinonimitrovare Sinonimi ( $, dollaro, biglietto verde, … ) ( $, dollaro, biglietto verde, … )
( ANP ( ANP Autorità Nazionale Autorità Nazionale Palestinese )Palestinese )
( visto, veduto )( visto, veduto )
( carta di credito, ( carta di credito, Ministro degli Esteri ) Ministro degli Esteri )
trovare convergenza nel significatotrovare convergenza nel significato
Preparazione dei Dati Preparazione dei Dati (BackEnd)(BackEnd)
(Analisi lessicale - Semantica)(Analisi lessicale - Semantica)
estrarre Espressioniestrarre Espressioni ComposteComposte
espandere Acronimiespandere Acronimi
[email protected]@synthema.it
18
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
Preparazione dei Dati Preparazione dei Dati (BackEnd)(BackEnd)
[email protected]@synthema.it
non solo lemmi, non solo lemmi, ma soprattutto terminologiema soprattutto terminologie
Multi-lingual
Dictionaries
Multilingual Teminology
matcher
Lemmatizer/
Teminology detector
Mono-lingual
Dictionaries,
Grammars
Identificazione della Identificazione della lingualingua
Parsing, lemmatizzazioneParsing, lemmatizzazione
Estrazione terminologicaEstrazione terminologica
Allineamento multilinguaAllineamento multilingua
Indicizzazione terminologicaIndicizzazione terminologica
Ricerca e clustering
Indexer
Documents DB
19
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
Trovare l’informazione rilevanteTrovare l’informazione rilevante
[email protected]@synthema.it
Analisi Morfologica + pattern matchingAnalisi Morfologica + pattern matching((n+base(n)n+base(n) credit card, fuel cellcredit card, fuel cell, … ), … )
( ( base(n)+prep+n+prep+nbase(n)+prep+n+prep+n arma di distruzione di massaarma di distruzione di massa, ... ), ... )
Analisi StatisticaAnalisi Statistica• Soglia di FrequenzaSoglia di Frequenza• Soglia di SignificativitàSoglia di Significatività
((n > n > 11, , 11 = f(SW-MW,nTot,…) ) = f(SW-MW,nTot,…) )
( ( log(log(((11/n) * /n) * (nTot/nDoc) * f(POS)*...) > (nTot/nDoc) * f(POS)*...) > 22 ) )
Preparazione dei Dati Preparazione dei Dati (BackEnd)(BackEnd)
(Analisi lessicale - Morfo-statistica)(Analisi lessicale - Morfo-statistica)
20
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
[email protected]@synthema.it
paraffina paraffina [[NOUNNOUN]]
guantoguanto[[NOUNNOUN]]
guanto di paraffina guanto di paraffina [[NOUNNOUN]]
rilevare rilevare [[VERBVERB]]
tracciatraccia[[NOUNNOUN]]
polvere da sparopolvere da sparo[[NOUNNOUN]]
polverepolvere[[NOUNNOUN]]
non solo lemmi, ma terminologienon solo lemmi, ma terminologie
Preparazione dei Dati Preparazione dei Dati (BackEnd)(BackEnd)
21
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
Analisi StatisticaAnalisi Statistica
[email protected]@synthema.it
Documents DB
Lemmatizer/
Teminology detector
Mono-lingual
Dictionaries,
Grammars
Multi-lingual
Dictionaries
Indexer
Multilingual Teminology
matcher
Identificazione della lingua
Parsing, lemmatizzazione
Estrazione terminologica
Allineamento multilingua
Indicizzazione terminologica
Ricerca e clusteringRicerca e clustering
22
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
[email protected]@synthema.it
Analisi StatisticaAnalisi Statistica
23
Concatenazione fra Concatenazione fra classi correlateclassi correlate
Concatenazione fra Concatenazione fra classi correlateclassi correlate
Raggruppamento in Raggruppamento in classi affini per contenutoclassi affini per contenuto
Raggruppamento in Raggruppamento in classi affini per contenutoclassi affini per contenuto
Ricerca e Classificazione Ricerca e Classificazione
IntroIntro Text MiningText MiningSTALKER/STALKER/
OMLOML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
Ricerca per chiavi Ricerca per chiavi ed accesso puntualeed accesso puntualeRicerca per chiavi Ricerca per chiavi
ed accesso puntualeed accesso puntuale
[email protected]@synthema.it
24
Analisi dei risultatiAnalisi dei risultati
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati AnalisiAnalisi risultatirisultati
MappeMappe Liste ordinateListe ordinate
[email protected]@synthema.it
25
Consultare documenti per temaConsultare documenti per temaConsultare documenti per temaConsultare documenti per tema
Trovare relazioni nascosteTrovare relazioni nascosteTrovare relazioni nascosteTrovare relazioni nascoste
Scoperta di risultati Scoperta di risultati inaspettatiinaspettati
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati AnalisiAnalisi risultatirisultati
[email protected]@synthema.it
26
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati NewNew
I nuovi sviluppi: motore di I nuovi sviluppi: motore di ricerca in linguaggio naturale ricerca in linguaggio naturale
multilinguamultilingua
[email protected]@synthema.it
27
I nuovi sviluppi: document I nuovi sviluppi: document analyseranalyser
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati NewNew
[email protected]@synthema.it
28
Indirizzi utiliIndirizzi utili
[email protected]@synthema.it
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati InfoInfo
http://www.synthema.it/textmininghttp://www.synthema.it/textmining
http:// www.spi-rit.nethttp:// www.spi-rit.net
Trovare l’informazioneTrovare l’informazione
[email protected]@synthema.it