Relazione Conclusiva della sotto-area Estrazione di ...pages.di.unipi.it/turini/MURST/RelArea1.pdf · Estrazione di Informazione e Conoscenza a cura di Paola Velardi Dipartimento

Relazione Conclusiva della sotto-area

Estrazione di Informazione e Conoscenza

a cura di Paola VelardiDipartimento di Scienze dell'InformazioneUniversità di Roma "La Sapienza"

1.1 Obiettivi della Sotto_area

Uno degli aspetti importanti del progetto e` lo studio e la realizzazione di sistemi ad agenti per ilreperimento della informazione in tutti i suoi vari aspetti: estrazione e classificazione di conoscenzada testi e informazione non strutturata in genere, data mining, ovvero astrazione di associazioni dadati strutturati o semi-strutturati, learning, ovvero sintesi di leggi e schemi generali da esempi.L'attivita` di questa area e` stata finalizzata alla progettazione e alla realizzazione di agentiestrattori di conoscenza da fonti non strutturate e da fonti strutturate. Per le fonti non strutturateuno dei filoni piu` importanti e` quello del progetto di agenti per il filtraggio e la classificazione ditesti estratti dalla rete, basato su tecniche di elaborazione del linguaggio naturale.

1.2 Temi di ricerca affrontati nel secondo anno di progetto

Conformemente agli obiettivi, ogni unità o gruppo di unità ha approfondito aspetti specifici deltema in esame. Durante il secondo anno di progetto, le varie unità hanno approfondito especializzato modelli e paradigmi di estrazione da dati strutturati e non, definiti nel primo anno diprogetto, ed hanno inoltre prodotto vari prototipi e dimostrativi, in alcuni casi frutto di cooperazionefra più unità.Sul tema Data Mining e Knowledge Discovery su dati strutturati hanno lavorato diverse unità.L'unità di Bari ha studiato metodi di apprendimento automatico incrementale da esempi,incrementandoli con strategie di ragionamento multiple.Ha inoltre definto un metodo per lapresentazione, in funzione dell'utente e del contesto, dei risultati di un processo di KnowledgeDiscovery. Una sotto-unità di Torino ha affrontato il problema della scalabilità delle tecniche diapprendimento automatico su dati strutturati. Una sotto-unità di Pisa si è orientata sulla definizionedi ambienti di modellazione e sviluppo di processi di Knowledge Discovery.Sul tema dell' estrazione di informazioni da immagini hanno lavorato le unità di Ferrara e Firenze.Ferrara ha svolto un'analisi comparativa fra varie tecniche di apprendimento automatico eprobabilistico finalizzati ad un problema di identificazione di difetti in immagini di pezzi industriali.Firenze ha approfondito lo studio di modelli di apprendimento empirico basato su grafici,applicando i metodi sviluppati, fra l'altro, alla classificazione (in termini di layout) di documenti.Il problema della classificazione del contenuto di documenti testuali è stato oggetto di analisi daparte di varie unità. A Pisa, una sotto-unità si è occupata di analisi di documenti su WEB,classificazione di documenti, question answering. Roma "La Sapienza" ha studiato l'uso distrategie multiple (basate su apprendimento automatico e apprendimento probabilistico) permigliorare le prestazioni di sistemi di estrazione di contenuti, Roma "Tor Vergata" ha studiatomodelli di classificazione del testo basati su tecnologie linguistiche (parsing, estrazione diterminologia e nomi propri).Di parsing si sono occupati una sotto-unità di Pisa ed una sotto-unità di Torino. Torino si èconcentrata sullo sviluppo di un treebank per la costruzione di parser robusti.Nel seguito, ciascuna unità o sotto-unità (nel caso di gruppi più numerosi) riassume brevemente irisultati conseguiti e descrive i dimostrativi realizzati.

2. Contributo dell'Unità Bari

Ricercatori afferenti all'Unità

(gruppo di Apprendimento Automatico):Floriana Esposito, Antonella Lanza, Donato Malerba, Giovanni Semeraro(gruppo di Interfacce Intelligenti)Fiorella de Rosis, Sebastiano Pizzutilo

Assegnisti:

Berardina De Carolis, Nicola Fanizzi, Francesca Lisi

Borsisti:

Gloria De Salve, Stefano Ferilli

2.1. Descrizione del Contributo dell'Unità

Obiettivo 1)Studio e messa a punto di metodi di apprendimento automatico per estrarre conoscenza da basi didati strutturate, semi strutturate e multimediali (testi e immagini), approfondendo i modelli diapprendimento utili nello scoprire conoscenza a partire da dati grezzi e nel simulare i processi diragionamento, raffinamento e revisione della conoscenza appresa.La ricerca, tesa alla realizzazione di sistemi di integrazione dell'informazione attraverso la scopertadi sorgenti di conoscenza, la estrazione e la presentazione coerente delle informazioni provenientida basi di dati tradizionali, multimediali e basi di conoscenza, ha inteso sia approfondire le tecnicheper estrarre automaticamente conoscenza da basi di dati strutturate e semi-strutturate, in forma ditesti e/o immagini (documenti di varia natura, carte topografiche, mappe etc.), sia sviluppare imetodi di apprendimento utili nel modellare i processi di ragionamento e di inferenza per mantenerecoerente la conoscenza appresa. L'applicazione di elezione è la realizzazione di un sistema diintegrazione dell'informazione da WEB con l'intento di arrivare a sviluppare un sistema che possacapire le informazioni di cui dispone e ragionarci su e, nel contempo, sia costruito e mantenuto inmodo distribuito e decentrato.Descrizione della ricerca eseguita e dei risultati ottenuti:Nel corso del progetto, il gruppo di Apprendimento Automatico della unità di Bari si è occupato:

1. di approfondire gli aspetti di metodo e dunque di sviluppare nuovi modelli di apprendimentoautomatico, operanti su descrizioni riconducibili a linguaggi logici del primo ordine, perchéritenuti più potenti ai fini della estrazione dell'informazione da testi non strutturati,

2. di valutare la applicabilità e testare la efficacia di noti modelli computazionali diapprendimento per estrarre informazione da documenti semi-strutturati, come pagine WEB.

In particolare, per quanto riguarda il primo aspetto si è sviluppata una nuova versione del sistema diapprendimento incrementale da esempi INTHELEX. Il lavoro svolto, sia teorico che pratico, è statofinalizzato all’ulteriore integrazione, in un sistema di apprendimento induttivo incrementale chelavora su rappresentazioni simboliche del primo ordine, di strategie di ragionamento multiple. Unapposito framework è stato concepito e adattato alle caratteristiche di incrementalità del sistema perfar coesistere e cooperare, insieme alla Programmazione Logica Induttiva e Abduttiva, operatori diAstrazione semantica. Mentre l’abduzione supportava gli operatori induttivi nel completamentodelle nuove osservazioni che si rendono via via disponibili, l’astrazione consente di passare dallinguaggio delle osservazioni ad uno più potente che, eliminando dettagli inutili ai fini

dell’apprendimento, migliora l’apprendibilità dei concetti stessi. Sul fronte teorico, il modello digeneralizzazione di theta-sussunzione sotto Object Identity, usato per limitare lo spazio di ricercadelle generalizzazioni induttive senza perdita di potenza espressiva, è stato esteso per poter trattareanche simboli funzionali; inoltre, un nuovo e più potente modello di generalizzazione (quello diImplicazione sotto Object Identity) è stato derivato, dandone opportune definizioni e studiandone leproprietà teoriche (fra cui la decidibilità) e la possibilità di avere operatori di raffinamento “ideali”(localmente finiti, appropriati e completi). Ulteriori miglioramenti sono stati apportati al sistema permigliorarne sia l’usabilità che l’efficienza, fattori irrinunciabili per un’applicazione fruttuosa diquesti strumenti a problemi reali e complessi quali sono quelli che ci si è prefissi di affrontare.

L’approfondimento di metodi di apprendimento automatico operanti su descrizioni logiche delprimo ordine ha anche portato allo sviluppo di un nuovo sistema di apprendimento automatico daesempi in grado di indurre teorie logiche ricorsive nell’ambito del framework induttivo normaledella programmazione logica induttiva. In questo framework l’induzione di teorie ricorsive è uncompito complesso per via della non monotonicità della proprietà di consistenza: l’aggiunta di unaclausola localmente consistente ad una teoria consistente può rendere questa globalmenteinconsistente. È stato condotto uno studio teorico che ha portato a delineare delle soluzionicomputazionali ai principali problemi. In particolare è stata definita una strategia di ricercaseparate-and-parallel-conquer per interfogliare l’apprendimento delle clausole di definizionimutuamente ricorsive di predicati. Lo spazio di ricerca esplorato da questa strategia è stato ordinatoin base a un nuovo ordine di generalità, chiamato implicazione generalizzata, che non sia troppoforte o troppo debole per la classe di teorie logiche ricorsive apprese. Il ripristino della proprietà diconsistenza allorquando l’aggiunta di una clausola localmente consistente rende la teoria logicaappresa globalmente inconsistente si basa su una trasformazione della teoria, detta stratificazione,che aumenta il numero di strati in una teoria logica. Le soluzioni studiate hanno portatoall’implementazione di un nuovo sistema di apprendimento automatico, denominato ATRE in gradodi apprendere regole di classificazione esprimibili mediante una teoria logica caratterizzata dadipendenze fra i predicati multipli appresi e dalla presenza di definizioni ricorsive. I primi risultatisperimentali ottenuti nell’ambito del progetto hanno mostrato la capacità di ATRE di indurre teorielogiche con tali caratteristiche. Come lavoro futuro occorrerà migliorare l’efficienzacomputazionale del sistema.

Per quanto attiene al secondo problema, ovvero alla possibilità di applicare efficacemente modellidi apprendimento automatico all’estrazione automatica di informazione da documenti semi-strutturati, entrambi i sistemi sono stati applicati alla elaborazione automatica di documenti informato digitale sfruttando l'informazione di layout presente nei documenti cartacei e rilevataattraverso una opportuna fase di preprocessing. Entrambi i sistemi di apprendimento logicoinduttivo INTHELEX e ATRE sono stati efficacemente applicati ai task di classificazione edocument image understanding, e i risultati sono riportati negli articoli scientifici i riferimenti deiquali sono di seguito riportati. Allo scopo di passare dal dominio dei documenti cartacei acquisiti informa digitale a quello dei documenti elettronici già disponibili in formato HTML, XML, etc., e conl'obiettivo ulteriore di verificare l'applicabilità di questi sistemi al text understanding o almeno allacategorizzazione di testi, si è messo a punto un linguaggio di descrizione che consente di esprimerela struttura delle pagine Web, come pure delle frasi di testo in esse contenute. In particolare,l’individuazione di una struttura in queste ultime è stata ottenuta per mezzo di un parser, quale fasedi preelaborazione necessaria per l’estrazione di informazioni. Sperimentazioni preliminari con ilsistema INTHELEX hanno dimostrato la applicabilità dei modelli computazionali di apprendimentologico-induttivo alla comprensione semantica di testi. Ulteriori e più approfondite sperimentazionisono pianificate per verificare la scalabilità di queste tecniche a problemi reali, caratterizzati daun’alta complessità.

Sfruttando tecniche di apprendimento più tradizionali, si è sviluppato il sistema di classificazione dipagine Web, denominato WEBCLASS. Esso integra diverse note tecniche di apprendimento

automatico, operanti su descrizioni del tipo coppie attributo valore, ai fini della classificazione dipagine Web, sulla base degli interessi dell'utente. Il sistema, realizzato interamente in Java, integradiverse tecniche di apprendimento automatico, operanti su descrizioni del tipo coppie attributovalore, ai fini della classificazione di pagine Web, sulla base degli interessi dell'utente. L'interazionedell'utente o del gruppo di utenti con WEBCLASS avviene in due passi: inizialmente l'utente naviganel Web e colleziona riferimenti a pagine significative delle classi di interesse (pagine diaddestramento), in seguito il sistema assiste l'utente nella navigazione classificando autonomamentele pagine Web, sulla base di quanto ha imparato in fase di addestramento. WEBCLASS utilizza duemodelli di apprendimento alternativi, basati su alberi di decisione e distanza dai prototipi di classe.Questi prevedono ambedue la costruzione di classificatori (alberi di decisione o prototipi) durante lafase di addestramento (training del sistema). E' stata organizzata una sperimentazione consistentenell'addestrare il sistema al riconoscimento di quattro classi di pagine Web: Astronomy, Jazz, Autoe Moto. Per definire il set di 192 pagine di addestramento da fornire al sistema è stata consideratal'ontologia di classificazione resa disponibile dal motore di ricerca Yahoo. Particolarmenteincoraggianti, relativamente alla sperimentazione effettuata, sono apparsi i risultati, sicuramentegrazie alla tecnica di selezione preliminare degli attributi più significativi basata sulla combinazionedi tre statistiche: Term Frequency, Page Frequency e Category Frequency.

Obiettivo 2)Sviluppare metodi per presentare la conoscenza estratta in modo coerente e adattato all'utente,mediante l'applicazione di tecniche per la generazione di documenti multimediali o in linguaggionaturaleDescrizione della ricerca eseguita e dei risultati ottenuti:Nel corso del progetto, il gruppo di Interfacce Intelligenti della unità di Bari si è occupato diproporre un metodo per la generazione di presentazioni, adattate all’utente e al contesto, deirisultati di un processo di Knowledge Discovery che utilizzasse metodi di Data Miningeventualmente differenti.

La presentazione dei risultati va al di la’ della semplice visualizzazione grafica: sfruttando laconoscenza contenuta nel modello di mining utilizzato, mira a spiegare le relazioni fra i dati, letendenze ed i pattern tipici di determinate situazioni. In particolare sono stati perseguiti i seguentiobiettivi:

(i) individuazione dei parametri rilevanti per l’adattività e definizione delle strategie dipresentazione adattiva,

(ii) applicazione di metodi di generazione multimediale che aumentino la “comprensibilità” deirisultati prodotti dal DM prescindendo dal metodo con cui questi sono stati estratti,

(iii) utilizzo della semantica implicita del modello del risultato prodotto come guida allagenerazione,

(iv) integrazione dei risultati di più processi di DM aventi lo stesso obiettivo.

Si è deciso di utilizzare standard che favoriscano la distribuzione ed il riuso delle risorse, sia perquanto riguarda la conoscenza sul dominio applicativo che per i passi intermedi del processo digenerazione (il piano del discorso). Il risultato è stato rappresentato utilizzando un set di linguaggidi annotazione (uno per ogni tipo di modello/risultato prodotto) basato su XML proposto comestandard dal DataMining Group (http://www.dmg.org Predictive Model Markup Language PMML1.0). Per la rappresentazione dei passi intermedi del processo di generazione è stato sviluppato unlinguaggio di annotazione ad hoc.

2. 2 Sviluppi futuri

§ Definizione della migliore strategia di cooperazione di induzione, abduzione ed astrazione inINTHELEX

§ Mining su dati spaziali per scoperta di conoscenza in sistemi informativi geografici§ Mining su dati testuali tramite l’uso congiunto di parser e sistemi di apprendimento relazionali

2.3. Pubblicazioni (1999-2000)

Riviste e raccolte

F. Esposito, G. Semeraro, N. Fanizzi & S. Ferilli. Multistrategy Theory Revision: Induction and Abduction in INTHELEX.Machine Learning Journal, 38(1/2):133-156, Kluwer Academic Publisher, Boston,

January/February 2000.

F. Esposito, D. Malerba, & F.A. Lisi Machine Learning for Intelligent Processing of Printed DocumentsJournal of Intelligent Information Systems, Kluwer Academic Publishers, 14(2/3), 175-198, 2000.

M.F. Costabile, F. Esposito, G. Semeraro & N. Fanizzi. An Adaptive Visual Environment for Digital Libraries.International Journal on Digital Libraries, 2: 124-143, Springer-Verlag, Berlin, 1999 .

F. Esposito, N. Fanizzi, S. Ferilli & G. Semeraro. Refining Logic Theories under OI-implication.S. Ohsuga and Z. W. Ras (Eds.), Foundations of Intelligent Systems, Lecture Notes in Artificial

Intelligence 1932, 109-118, Springer:Berlin, 2000.

F. Esposito, D. Malerba, F.A. Lisi Induction of recursive theories in the Normal ILP Setting: issues and solutionsJ. Cussens and A. Frisch (Eds.), Inductive Logic Programming, ILP2000, Lecture Notes in

Artificial Intelligence 1866, 93-111, Springer Verlag, 2000.

F. Esposito, D. Malerba, L.Di Pace, P. Leo A Machine Learning approach to Web MiningE. Lamma and P. Mello (Eds.), AI*IA 99: Advances in Artificial Intelligence, Lecture Notes in

Artificial Intelligence 1792, 190-201, Springer:Berlin, 2000.

F. Esposito, D. Malerba, V. Tamma, H.-H. Bock Classical resemblance measures.Chapter 8.1 in H.-H. Bock and E. Diday (Eds.), Analysis of Symbolic Data. Exploratory methods

for extracting statistical information from complex data, Series: Studies in Classification,Data Analysis, and Knowledge Organization, vol. 15, Springer-Verlag:Berlin, 139-152, 2000.

F. Esposito, D. Malerba, V. Tamma Dissimilarity Measures for Symbolic Objects.Chapter 8.3 in H.-H. Bock and E. Diday (Eds.), Analysis of Symbolic Data. Exploratory methods

for extracting statistical information from complex data, Series: Studies in Classification,Data Analysis, and Knowledge Organization, vol. 15, Springer-Verlag:Berlin, 165-185. 2000.

F. Esposito, D. Malerba, F.A. Lisi Matching Symbolic Objects.Chapter 8.4 in H.-H. Bock and E. Diday (Eds.), Analysis of Symbolic Data. Exploratory methods

for extracting statistical information from complex data, Series: Studies in Classification,Data Analysis, and Knowledge Organization, vol. 15, Springer-Verlag:Berlin, 186-197. 2000.

G. Semeraro, F. Esposito, N. Fanizzi & S. Ferilli. Interaction Profiling in Digital Libraries through Learning Tools.J. Borbinha and T. Baker (Eds.), Research and Advanced Technology for Digital Libraries, Lecture

Notes in Computer Science 1923, 229-238, Springer:Berlin, 2000.

F. Esposito, G. Semeraro, N. Fanizzi & S. Ferilli. Conceptual Change in Learning Naive Physics: The Computational Model as a Theory Revision

Process.E. Lamma and P. Mello (Eds.), AI*IA 99: Advances in Artificial Intelligence, Lecture Notes in

Artificial Intelligence 1792, 214-225, Springer:Berlin, 2000.

E. Lamma, P. Mello, F. Riguzzi, F. Esposito, S. Ferilli & G. Semeraro. Cooperation of Abduction and Induction in Logic Programming.P. Flach and A. Kakas (Eds.), Abductive and Inductive Reasoning: Essays on their Relation and

Integration, Part IV: The Integration of Abduction and Induction - A Logic ProgrammingPerspective, Chapter 15, Kluwer Academic Publishers, 2000.

F. Esposito, S. Caggese, D. Malerba & G. Semeraro. Discretization of Continuous-Valued Data in Symbolic Classification Learning.M. Vichi and O. Opitz (Eds.), Classification and Data Analysis: Theory and Application, Springer-

Verlag, 1999.

O. Altamura, F. Esposito, F. A. Lisi, & D. Malerba Symbolic Learning Techniques in Paper Document Processing.P. Perner and M. Petrou (Eds.), Machine Learning and Data Mining in Pattern Recognition,

Lecture Notes in Artificial Intelligence, 1715, 159-173, Springer: Berlin, 1999.

E. Bertino, B. Black, A. Brasher, B. Catania, D. Deavin, F. Esposito, J. McNaught, A. Persidis, F.Rinaldi, G. Semeraro & G.P. Zarri.

CONCERTO, An Environment for the 'Intelligent' Indexing, Querying and Retrieval of DigitalDocuments.

Z. W. Ras and A. Skowron (Eds.), Foundations of Intelligent Systems, Lecture Notes in ArtificialIntelligence 1609, 226-234, Springer:Berlin, 1999.

F. Esposito, D. Malerba, & F.A. Lisi. Machine Learning for Intelligent Document Processing: The WISDOM System.Z.W. Ras ad A. Skowron (Eds.), Foundations of Intelligent Systems, Lecture Notes in Artificial

Intelligence, 1609, 103-113, Springer:Berlin, 1999.

G. Semeraro, M. F. Costabile, F. Esposito, N. Fanizzi & S. Ferilli. A Learning Server for Inducing User Classification Rules in a Digital Library Service.Z. W. Ras and A. Skowron (Eds.), Foundations of Intelligent Systems, Lecture Notes in Artificial

Intelligence 1609, 208-216, Springer:Berlin, 1999.

G. Karakoulas & G. Semeraro. Report on the ACAI-99 Workshop W04 on "Machine Learning for Intelligent Information

Access".V. Karkaletsis (Ed.), Lecture Notes in Artificial Intelligence, Springer:Berlin, 2000 (to appear).

Atti di conferenze e workshop internazionali

O. Altamura, F. Esposito, & D. Malerba WISDOM++: An Interactive and Adaptive Document Analysis System.Proceedings of the International Conference on Document Analysis and Recognition, 159-173,

IEEE Computer Society Press, 1999.

F. Esposito, N. Fanizzi, S. Ferilli & G. Semeraro. Ideal Theory Refinement under Object Identity.P. Langley (Ed.), Proceedings of the Seventeenth International Conference on Machine Learning,

263-270, Morgan Kaufmann, San Francisco, California, 2000.

J. McNaught, W.J. Black, F. Rinaldi, E. Bertino, A. Brasher, D. Deavin, B. Catania, D. Silvestri, B.Armani, P. Leo, A. Persidis, G. Semeraro, F. Esposito, V. Candela, G.P. Zarri & L. Gilardoni.

Integrated Document and Knowledge Management for the Knowledge-based Enterprise.J. Domingue (Ed.), Proceedings of the Third International Conference on The Practical Application

of Management, 89-108, The Practical Application Company Ltd, Manchester, UnitedKingdom, 2000.

E. Bertino, B. Black, A. Brasher, V. Candela, B. Catania, D. Deavin, F. Esposito, J. McNaught, A.Persidis, F. Rinaldi, G. Semeraro & G.P. Zarri.

CONCERTO, CONCEptual indexing, querying and ReTrieval Of digital documents.Proceedings of the International Conference on Multimedia Computing and Systems, 1106-1109,

IEEE Computer Society Press, Los Alamitos, California, 1999.

F. Esposito, N. Fanizzi, S. Ferilli & G. Semeraro. Supporting Document Acquisition and Organization in a Digital Library Service through ML

Techniques.Machine Learning and Applications, Proceedings of the ACAI-99 Workshop on Machine Learning

for Intelligent Information Access, 15-21, Chania, Crete, Greece, July 5-16, 1999.

G. Semeraro, M.F. Costabile, F. Esposito, N. Fanizzi & S. Ferilli. Machine Learning Techniques for Adaptive User Interfaces in a Corporate Digital Library

Service.Machine Learning and Applications, Proceedings of the ACAI-99 Workshop on Machine Learning

in User Modeling, 21-29, Chania, Crete, Greece, July 5-16, 1999.

F. Esposito, D. Malerba, L. Di Pace, & P. Leo. A Learning Intermediary for Automated Classification of Web Pages.Proceedings of the ICML'99 Workshop on Machine Learning in Text Data Analysis, 37-46, Bled,

Slovenia.

F. Esposito Inductively learning from numeric and symbolic data: a multistrategy view (invited paper)

P. Brito, J. Costa, D. Malerba (Eds.), Proceedings of the ECML 2000/MLnet Workshop on Dealingwith structured data in Machine Learning and Statistics, 2-17, Barcelona, Spain, May 30,2000.

V.A.M. Tamma, P.R.S. Visser, D. Malerba & D.M. Jones Computer Assisted Ontology clustering for Knowledge sharing.G. Potamias, V. Moustakis, M. van Someren (Eds.), Proceedings of the ECML2000/MLnet

Workshop on Machine Learning in the New Information Age, 75-83, Barcelona, Spain, May 30- June 2, 2000.

F. Abbattista, F. Esposito, N. Fanizzi, S. Ferilli & G. Semeraro. Suggy: An Automatic Query Refinement.G. Potamias, V. Moustakis, M. van Someren (Eds.), Proceedings of the ECML2000/MLnet

Workshop on Machine Learning in the New Information Age, 1-7, Barcelona, Spain, May 30 -June 2, 2000.

F. Esposito, N. Fanizzi, S. Ferilli & G. Semeraro. Abduction and Abstraction in Inductive Learning.R.S. Michalski and P.B. Brazdil (Eds.), Proceedings of the Fifth International Workshop on

Multistrategy Learning (MSL 2000), 181-185, Guimaraes, Portugal, June 5-7, 2000.

F. Esposito, D. Malerba & F.A. Lisi Understanding multipage printed documents: a multiple concepts learning approachProceedings of ECAI 2000 Workshop on Machine Learning in Computer Vision, 31-38, Berlin ,

Germany, August 22, 2000.

F. Esposito, S. Ferilli, N. Fanizzi & G. Semeraro. Learning from Parsed Sentences with INTHELEX.Proceedings of the Fourth Conference on Computational Natural Language Learning (CoNLL-

2000) and of the Second Learning Language in Logic Workshop (LLL-2000), 194-198, OmniPress, Lisbon, Portugal, September 13-14, 2000.

F. Abbattista, F. Esposito, N. Fanizzi, S. Ferilli, F. Lioce & G. Semeraro. Learning Interaction Models in a Digital Library Service.Proceedings of the Fourth IAPR International Workshop on Document Analysis Systems (DAS-

2000), Rio de Janeiro, Brazil, December 10-13, 2000 (to appear).

Atti conferenze nazionali

U. Thiel, A. Stein, G. Semeraro, F. Abbattista, L. De Candia, N. Fanizzi, V. Candela, P. Lops & A.Valente.

COGITO – E-Commerce with Guiding Agents based on Personalized Interaction Tools.Atti del Workshop su Apprendimento Automatico e Data Mining: metodologie, strumenti e

applicazioni del Sesto Convegno della Associazione Italiana per l'Intelligenza Artificiale(AI*IA 2000), Milano, Settembre 12-13, 2000

U. Thiel, A. Stein, G. Semeraro, F. Abbattista, L. De Candia, N. Fanizzi, V. Candela, P. Lops, A.Valente.

COGITO – E-Commerce with Guiding Agents based on Personalized Interaction Tools.Proceedings of the AICA Annual Conference, Taormina, Italy, September 27-30, 2000.

M. F. Costabile, F. Esposito, N. Fanizzi, S. Ferilli & G. Semeraro. Secure Transactions in the Management of a Corporate Digital Library.Proceedings of the AICA Annual Conference, 252-265, Taormina, Italy, September 27-30, 2000.

F. Abbattista, G. Semeraro & F. Zambetta SAMIR: Scenographic Agents Mimic Intelligent Reasoning.Atti del Workshop su Agenti intelligenti e Internet: teorie, strumenti e applicazioni del Sesto

Convegno della Associazione Italiana per l'Intelligenza Artificiale (AI*IA 2000), Milano,Settembre 13, 2000.

M. F. Costabile, F. Esposito & G. Semeraro. CDL: Il Progetto di Corporate Digital Library.Giornata Italiana sul tema "Biblioteche Digitali: sistemi e tecnologie", organizzazione a cura di

Stefania Biagioni, Istituto di Elaborazione della Informazione, CNR, Roma, Italy, 24 Marzo2000.

M. F. Costabile, F. Esposito, D. Malerba, G. Semeraro, N. Fanizzi & S. Ferilli Tecniche di Intelligenza Artificiale per la Comunicazione Visuale: i Progetti del LACAM.Giornata Italiana su Human-Computer Interaction, HCITALY99, Roma, Italia, Febbraio 9, 1999.

M. F. Costabile, F. Esposito, G. Semeraro, V. Candela, N. Fanizzi & S. Ferilli. Corporate Intelligent Digital Libraries.Atti del Sesto Congresso della Associazione Italiana per l'Intelligenza Artificiale (AI*IA99), a cura

di E. Lamma and P. Mello, 507-510, Pitagora Editrice, Bologna, Italy, September 14-17, 1999.

F. Esposito, G. Semeraro, N. Fanizzi & S. Ferilli. Cambiamento Concettuale nell'Apprendimento della Fisica Naive: Il Modello Computazionale

come Processo di Revisione di Teorie.Atti del Sesto Congresso della Associazione Italiana per l'Intelligenza Artificiale (AI*IA99), a cura

di E. Lamma and P. Mello, 133-144, Pitagora Editrice, Bologna, Italy, September 14-17, 1999.

G. Semeraro, M. F. Costabile, V. Candela, N. Fanizzi & S. Ferilli Creating Corporate Intelligent Digital Libraries.Atti del Workshop W1 su Intelligenza Artificiale per i Beni Culturali del Sesto Congresso della

Associazione Italiana per l'Intelligenza Artificiale (AI*IA99), a cura di L. Bordoni, 8-17,Bologna, Settembre 14, 1999.

G. Semeraro, M. F. Costabile, F. Esposito, V. Candela, N. Fanizzi & S. Ferilli. Corporate Digital Library: A Prototype of Middleware Services.Proceedings of the AICA Annual Conference, 252-265, Abano Terme, Italy, September 27-October

2, 1999.

G. Semeraro, M.F. Costabile, V. Candela, N. Fanizzi & P. Lops. Artificial Intelligence Techniques in Corporate Digital Libraries.AI*IA Notizie, 1999.

Inoltre, i seguenti lavori sono reperibili sul sito Web del gruppo Interfacce Intelligenti del DIB diBari:http://aos2.uniba.it:8080/IntInt.html

B. De Carolis, F. de Rosis, C. Andreoli, V. Cavallo & M.L. De Cicco. The dynamic generation of hypertext presentations of medical guidelines.The New Review of Hypermedia and Multimedia, 1999.

B. De Carolis, C. Pelachaud & I. Poggi. Verbal and nonverbal discourse planning.Workshop on “Achieving Human-Like Behaviour in Interactive Animated Agents. Agents 2000.

F. de Rosis, B. de Carolis & S. Pizzutilo. Automated generation of Agents’ behaviour from formal models of interaction.AVI2000.

G. De Salve, B. De Carolis, F. de Rosis, C. Andreoli, M.L. De Cicco & V. Cavallo. Image Descriptions from Annotated Knowledge Sources. Impacts in NLG: NLG Between Technology and Applications, Germany 2000.

B. De Carolis & S. Pizzutilo. User, Situation and Device-Sensitive Presentation of Information.ECAI 2000 Workshop on Artificial Intelligence in Mobile Systems.

2.4 Descrizione dei Prototipi

2.4.1Nome del prototipo

1. Learning server2. Un Generatore di commenti in Linguaggio Naturale a risultati espressi come alberi di decisione.3. Un Generatore di commenti, in forma ipertestuale, alla descrizione di un risultato di estrazione

di conoscenza da un set di immagini (ad es. immagini radiologiche relative a patologie diinteresse epidemiologico);

4. Un Generatore di Presentazioni sotto forma di Agenti Animati;5. Un Generatore di Messaggi adattati al tool con cui l’Utente riceve il messaggio (telefonino,

palmare o PC).

2.4.2. Descrizione delle funzionalità del Learning Server.Il prototipo è una suite di sistemi di apprendimento automatico disponibili per supportarel’acquisizione di conoscenza da parte di un information agent che intende estrarre informazione dadati disponibili su data base e/o su web. La varietà e complessità dei dati disponibili sia su basi didati e sia su Web ha imposto l’integrazione nel learning server di diversi sistemi di apprendimentoautomatico, alcuni in grado di operare su dati numerico/simbolici rappresentati in una tabellarelazionale e altri capaci di operare su rappresentazioni logiche del primo ordine o su dati multi-relazionali. I sistemi disponibili attualmente nel learning server sono OC1, ITI, INTHELEX eATRE. I primi due sono sistemi proprietari in grado di indurre alberi di decisione. In particolareOC1 è caratteristico per la capacità di costruire delle partizioni “oblique” dello spazio dellecaratteristiche, combinando linearmente diversi attributi numerici. OC1 è quindi indicato per quelleapplicazioni in cui i dati a disposizione sono prevalentemente numerici. OC1 opera in manierabatch, cioè è costretto a ricostruire l’intero albero di decisione ogni volta che l’insieme dei dati diapprendimento viene arricchito di nuovi esempi. Al contrario, il sistema ITI può operare in manieraincrementale, revisionando l’albero di decisione ogni qualvolta un nuovo esempio si rende

disponibile. Questo sistema è caratterizzato da inefficienze nell’uso della risorsa spazio di memoriaallorquando gli esempi di apprendimento presentano molti attributi numerici distinti.

I sistemi INTHELEX e ATRE sono stati completamente sviluppati dall’unità di Bari e operano sudati rappresentati mediante formule del primo ordine. In particolare

• INTHELEX (INcremental THEory Learner from EXamples) è un sistema di apprendimentoinduttivo incrementale che integra, a livello prototipale, diverse strategie di ragionamento:induzione, abduzione ed astrazione. La limitazione dello spazio di ricerca delle generalizzazioniinduttive è ottenuta attraverso l’adozione di un modello di generalizzazione (theta-sussunzionesotto Object Identity) che consente la definizione di operatori di raffinamento ideali (localmentefiniti, appropriati e completi), senza perdita di potenza espressiva. Nel nostro frameworkl’abduzione supporta gli operatori induttivi nel completamento delle nuove osservazioni che sirendono via via disponibili, mentre l’astrazione consente di ridurre la complessità delledescrizioni e del relativo trattamento attraverso uno shift del linguaggio di rappresentazione. Lacaratteristica di INTHELEX rispetto ad altri sistemi simili è la possibilità di apprendereincrementalmente, anche partendo da una teoria vuota, e di non aver bisogno di forte interazionecon l’utente o di modelli di conoscenza profonda. Altre caratteristiche di INTHELEX sono lapossibilità di apprendere contemporaneamente più concetti, eventualmente correlati tra lorosecondo relazioni espresse in un grafo delle dipendenze, e l’adozione di una strategia dimemorizzazione totale degli esempi trattati in precedenza ai fini del mantenimento costante dicoerenza e completezza della teoria rispetto ad essi.

• ATRE (Apprendimento di Teorie Ricorsive da Esempi) è un sistema di apprendimento induttivoin grado di apprendere teorie logiche ricorsive secondo una modalità operativa batch. Le teorielogiche sono insiemi di clausole definite che soddisfano vincoli di linkedness e range-restrictedness. Il sistema ATRE è multi-concettuale nel senso che esso è in grado di apprenderecontemporaneamente diversi concetti, scoprendone autonomamente eventuali dipendenze edesprimendole come dipendenze fra le relative clausole. Proprietà originali di ATRE sono unasua rappresentazione object-centered delle osservazioni di apprendimento, che ne aumental’efficienza computazionale, una strategia di ricerca parallela nell’apprendimento dei variconcetti, in grado di garantire la scoperta automatica di dipendenze fra concetti, un modello digeneralizzazione, denominato implicazione generalizzata, adatto a garantire completezza econsistenza di teorie logiche ricorsive, e una strategia di ripristino della consistenza basato sullacreazione di diversi layer in una teoria logica.

Il learning server è stato utilizzato già in numerose applicazioni. In particolare il sistemaINTHELEX è stato utilizzato per apprendere incrementalmente i modelli di classificazione ecomprensione di documenti utilizzati dalla digital library IDL, mentre i sistemi ITI e ATRE sonostati utilizzati dal sistema WISDOM++ per apprendere i modelli di classificazione di blocchi, diclassificazione e comprensione di documenti stampati. Il sistema OC1, infine, è stato utilizzato daWebClass, un agente intermediario per la classificazione di pagine Web.

2.4.3 Piattaforma hardware

PC

2.4.4 Sviluppi futuri

Lo sviluppo del Learning Server dovrebbe proseguire in direzione di una maggiorestandardizzazione dell’Input/Output secondo il formato XML. Il DMG (Data Mining Group), unconsorzio di industrie e accademici, ha già definito uno standard basato su XML per l’interscambiodi modelli predittivi per rappresentazioni attributo-valore. Per la condivisione di dati e modellipredittivi del primo ordine sarà necessario attendere che tale standard venga definito dal consorzio.

3. Contributo dell'Unità di Ferrara

Ricercatori afferenti all'Unità:Cesare Stefanelli (responsabile), Anna Ciampolini, Evelina Lamma, Paola Mello, Fabrizio Riguzzi,Rita Cucchiara, Massimo Piccardi, Michela Milano, Marco Gavanelli, Paolo Torroni, FilippoFocacci.


Tematica: Estrazione di ConoscenzaNel corso del secondo anno sono state compiute sperimentazioni di tecniche di estrazione diconoscenza in due domini particolari: la visione artificiale e la microbiologia.

Nel campo della visione artificiale, il problema considerato consiste nell’individuare la presenza didifetti in immagini di pezzi industriali metallici. I difetti hanno una forma rettilinea chiara susfondo scuro. Sono state perciò scelte alcune primitive visuali che evidenziano la presenza di formerettilinee di elevata luminosità. Tali primitive, applicate a una immagine, forniscono un insieme diattributi numerici che la descrivono e che consentono di utilizzare tecniche di estrazione diconoscenza per la generazione di un classificatore di tali immagini.

A tal fine sono state confrontate varie tecniche di apprendimento automatico (apprendimento dialberi di decisione e di regole, reti neurale con backpropagation) e di analisi statistica (nearestneighbour, discriminanti lineari, logistici e quadratici). Tra le varie tecniche, quella che ha fornitouna migliore accuratezza è stata l’apprendimento di alberi di decisione e regole utilizzando ilsistema c4.5 con la quale è stata ottenuta una accuratezza del 93.3%.

Nel campo della microbiologia, si sono applicate tecniche di clustering al fine di analizzare lecaratteristiche della popolazione di batteri di una certa specie isolati in un ospedale in un certoperiodo di tempo. Su ogni batterio isolato vengono testati una serie di antibiotici. Il risultato diciascun test può essere Sensibile, Intermedio o Resistente (S, I o R). Ogni batterio viene quindidescritto dal vettore dei risultati. Al fine di tenere sotto controllo l’evolversi delle resistenze agliantibiotici dei batteri di una certa specie, è stato applicato il clustering all’insieme dei vettori deirisultati in modo da identificare sottogruppi di batteri aventi una simile risposta agli antibiotici.

3.2. Sviluppi futuri

In futuro verrà estesa l’analisi a problemi cosiddetti di “data mining” ovvero a problemi diapprendimento da grandi moli di dati. In tal caso le tecniche di apprendimento automatico devonoessere modificate al fine di poter essere applicate in maniera efficace. Tipicamente, tali dati sonomemorizzati su memoria di massa in un database relazionale. L’unità di Ferrara ha scelto dioccuparsi in particolare di tecniche di apprendimento del primo ordine in quanto può essere stabilitauna corrispondenza uno a uno tra le relazioni di un database e i predicati di un linguaggio logico.Al fine di applicare tali tecniche esse dovranno essere opportunamente estese al fine di poterutilizzare in maniera efficiente i dati residenti su un database relazionale.

3. 3 Pubblicazioni (1999-2000)

E. Lamma, P. Mello, F. Riguzzi, F. Esposito, S. Ferelli, G. Semeraro, "Cooperation of Abductionand Induction in Logic Programming", in P. Flach, A. Kakas (eds.) Abductive and InductiveReasoning: Essays on their Relation and Integration, 2000.

E. Lamma, F. Riguzzi, L. M. Pereira, "Strategies in Combined Learning via Logic Programs",Machine Learning, Vol. 38, Numero 1 e 2, gennaio/febbraio 2000.

E. Lamma, L. M. Pereira,and F. Riguzzi, “Logic Aided Lamarckian Evolution”, Proceedings of theFifth International Workshop on Multistrategy Learning (MSL2000), Guimaraes, Portogallo,giugno 2000.

R. Cucchiara, P. Mello, M. Piccardi and F. Riguzzi, “An application of machine learning andstatistics to defect detection”, ECAI2000 Workshop on Machine Learning in Computer Vision”,Floriana Esposito, Donato Malerba (Eds), ECAI Workshop Notes, Berlin, Germany, 22 agosto,2000

E. Lamma, M. Manservigi, P. Mello, R. Serra, S. Storari, F. Riguzzi, “A System for MonotoringNosocomial Infections”, ECAI2000 Workshop on Intelligent Data Analysis in Medicine andPharmacology, (IDAMAP-2000), Nada Lavra_, Silvia Miksch, Branko Kav_ek (Eds), ECAIWorkshop Notes, Berlin, Germany, agosto 20-25, 2000

E. Lamma, M. Manservigi, P. Mello, R. Serra, S. Storari, F. Riguzzi, “A System for MonotoringNosocomial Infections”, First International Symposium on Medical Data Analysis, R. W. Brause,Ernst Hanisch (Eds.), Franckfurt, Germany, settembre 2000, LNCS 1933, Springer Verlag.

R. Cucchiara, P. Mello, M. Piccardi and F. Riguzzi, “An application of machine learning andstatistics to defect detection”, Intelligent Data Analysis, Volume 5(1), 2000.

4. Contributo dell' Università di Firenze

Dipartimento di Sistemi e InformaticaVia S. Marta, 350139 Firenze

Ricercatori afferenti all'Unità:Giovanni SodaPaolo FrasconiFrancesca CesariniSimone MarinaiFabrizio Costa


L’ambiente di studio dell’Unita’ di Firenze riguarda l’apprendimento empirico basato sumodelli grafici con particolare riferimento ad algoritmi ed architetture per doministrutturati. L’idea di apprendere da domini strutturati e’ relativamente nuova erecentemente sono stati proposti diversi modelli computazionali. Sono stati studiati varimodelli in tale ambito con applicazioni alla classificazione ed al riconoscimento didocumenti cartacei, al linguaggio naturale, alla predizione di strutture secondarie delleproteine.

Reti neurali per la classificazione di documentiFacendo seguito ad una attivita’ svolta in ambito ESPRIT, cui l’unita’ di Firenze e’impegnata, è stata messa a punto una tecnica di segmentazione dei documenti basata suuna struttura ad albero X-Y al fine di predisporre il sistema all’individuazione diinformazioni di interesse prese dal documento [1] Questa attivita’ puo’ essere vista comepropedeutica per il problema della classificazione di documenti che e' stato perseguito conl'applicazione delle reti neurali ricorsive in quanto puo’ servire per il preprocessing deidocumenti da trattare. Durante il secondo anno di attivita', infatti, e' stato messo a punto unclassificatore di documenti basato su una modello grafico derivato dagli HMM (HiddenMarkov Model). La prima particolarita' del modello e' l'avere in input un documentorappresetato con albero X-Y. Questo, sebbene renda possibile la rappresentazione diimportanti proprieta' strutturali del documento, sarebbe in contrasto con le modalita' diimpiego degli HHM che usualmente accettano in input sequenze. Il modello propostopercio' estende il modello classico al caso in cui il dato e' strutturato [2].E’ stato anche proposto un criterio basato su una rappresentazione della conoscenza a duelivelli per la modellazione di particolar documenti riconducibili a moduli come le usualifatture commerciali. Questo modello puo' esere impiegato per il trattamento preliminare adun processo di estrazione di informazioni da documenti. La metodologia puo’ essereapplicate tutte le volte che i documenti siano suddivisibili in classi. L’intuizione e’ chedocumenti appartenenti alla stessa classe condivadono similarita’ nella struttura del layout.Sfruttando queste similarita’e’ possibile costruire un modello di documento riferita allaclasse per cui e’ possibile usare questo modello per estrarre l’informazione dal documento.Se il modello di classe non puo’ essere applicato viene usato un secondo livello diconoscenza[3].

E' stato infine studiato un classificatore modulare, basato su modelli connessionistici, per lalettura di caratteri all'interno di documenti. Il modello proposto si basa sulla serialecombinazione di classificatori neurali di cui il primo passo e' effettuato da un MLP, mentreil secondo da un apposita batteria di autoassociatori neurali addestrati sul singolo carattere[4].Reti neurali ricorsive applicate al riconoscimento di linguaggio naturaleE' stato sviluppato un algoritmo che puo’ esserre usato per la costruzione di parserincrementali. L’ipotesi dell’incrementalita’ e’ mutuata dalla psicolinguistica in cui si cercadi realzzare il riconoscimento delle frasi allo stesso modo di come opera l’operatore umanoche procede da sinistra verso destra e costruisce il significato della frase in modoincrementale, senza cioe’ operare con backtracking. L'idea che sottende questa ricerca e'quella di modellare il riconoscimento come un problema di ricerca in uno spazio di stati,cosi', la costruzione (incrementale) dell'albero, viene fatto aggiungendo di volta in volta unsottoalbero all'albero sotto costruzione. L'algoritmo da noi proposto realizza un predittorecapace di associare ad un costruendo albero il sottoalbero corretto collegato alla parola sottoconsiderazione. L'approccio proposto si basa sull'impiego di un modello neurale ricorsivo,opportunamente addestrato con frasi gia' correttamente etichettate prese dal dominio delPenn Tree Bank, che realizza una euristica capace di guidare il processo di riconoscimento.L'algoritmo si e’ mostrato particolarmente valido sia rispetto ad una scelta puramenterandomica sia rispetto ad una scelta effettuata con euristiche di tipo psicolinguistico. E’ dinotevole interesse il fatto che i risultati ottenuti fanno solo riferimento agli aspetti sintatticidelle frasi sotto considerazione. Questo studio e' ancora sotto sviluppo, risultati preliminarisono mostrati in [5] [6]. Questa ricerca e' stata condotta congiuntamente con l'Unita' diRicerca di Torino.

Reti neurali ricorrenti per la predizione di strutture secondarie di proteineIl problema studiato riguarda la predizione della struttura secondaria di una proteina apartire da una sequenza di aminoacidi data in ingresso. E' noto come la sequenza in ingressopossa esre considerata come una stringa su un alfabeto di quattro caratteri, l'obiettivo e'quello di costruire una rappresentazione della sequenza che approssimi il piu' possibile ladescrizione tridimensionale della proteina. Questo problema puo' essere visto come unaspeciale forma di inferenza grammaticale. Recentemente il problema e' stato affrontato conpredittori connessionistici. Gli approcci proposti fanno tutti riferimento a finestre didimensione fissata che si muovono sulla sequenza di ingresso, per cui il predittore neurale e'forzato ad operare "localmente" sulla stringa. Lo studio da noi affrontato ha riguardatol'introduzione di una famiglia di architetture neurali, basati su un'estensione delle retineurali ricorrenti, con l'idea di operare sulla stringa in ingresso in una direzione da sinistraverso destra e da destra verso sinistra. Questa bidirezionalita' consente al predittore neuraledi tener conto, oltre alle informazioni della finestra sotto considerazione, anche didipendenze che si trovino o all'inizio della sequenza di ingresso o alla fine e quindi dioperare in modo piu' informato sulla predizione [7], [8].


[1] Cesarini F., M. Gori, S. Marinai, G. Soda (1999): "Structured DocumentSegmentation and Representation by Modified X-Y Tree", ICDAR99 IEEE Press,pp. 563-566.

[2] Diligenti, M., P, Frasconi, M. Gori (2001) "Image Document Categorization usingHidden Tree-Markov Models and Structured Representations'', To appear in

Proceedings of the International Conference on Advances on Pattern Recognition,2001.

[3] Cesarini F.,E. Francesconi, M. Gori, G. Soda (2000): "Using Physical and LogicalConstraints for Invoice Understanding", Pattern Analysis & Applications, vol. 3 pp.182-195.

[4] E. Francesconi, M. Gori,S. Marinai, G. Soda (2000):" A serial Combination ofconnectionist-based classifier for OCR", IJDAR, to appear.

[5] Costa F., P. Frasconi, V. Lombardo, G. Soda (2000): " Learning IncrementalSyntactic Structures with Recursive Neural Networks", KES 2000, IEEE Press,Brighton, pp. 458-461.

[6] F. Costa, P. Frasconi, V. Lombardo, G. Soda (2000): " Towards incremental parsingof natural language using recursive neural networks". Applied Intelligence,submitted

[7] Baldi P., S. Brunak, P. Frasconi, G. Pollastri, G. Soda(1999): "Exploiting the Pastand the Future in Protein Secondary Structure Prediction". Bioinformatics, Vol. 15,No. 11., pp. 937-946.

[8] S. Brunak, P. Baldi, P. Frasconi, G. Pollastri and G. Soda, (2000) "BidirectionalDynamics for Protein Secondary Structure Prediction", In Sequence Learning:Paradigms, Algorithms, and Applications (R. Sun and C.L. Giles eds.), Springer-Verlag, pp. 99--120.

5. Contributo dell' Università di Pisa

L’Unità di Pisa è organizzata in tre sottounità operanti nel settore degli agenti per estrazione diinformazione e conoscenza. Per ciascuna sottounità vengono riportati gli sviluppi effettuati e leschede dei prototipi messi a punto.

5.1 Descrizione del Contributo dell'Unità

Sotto-Unità 1

Ricercatori afferenti alla sottounità 1:

Giuseppe Attardi, Maria Simi, Alessandro Tommasi, Cristian Burrini, Antonio Cisternino

L’unità si è occupata di tecniche di Web Mining, orientate principalmente all’analisi di documentiWeb e l’estrazione di conoscenze per lo svolgimento di compiti quali: ricerca di documenti,classificazione di documenti, Question Answering.

Le tecniche e gli strumenti sviluppati comprendono:

1. tecniche di estrazione di “commentari”, utilizzati nella tecnica di categorizzazione percontesto di pagine Web

2. tecniche di apprendimento di profili concettuali, utilizzati per la costruzione dei profili dellecategorie che costituiscono un catalogo, nel quale i documenti vengono classificati

3. tecniche di Question Answering, utilizzate per estrarre da una collezione di testi le frasi checontengono le risposte a specifiche domande di un utente.

Gli strumenti sviluppati o messi a punto nell’ambito del progetto comprendono:

1. Part of Speech Tagger, per italiano, francese, inglese, tedesco2. Sentence Splitter statistico3. Named Entity Tagger4. Estrattore di frasi nominali5. Semantic Tagger6. Spider parametrico di pagine Web7. estrattore di commentari e classificatore Theseus8. algoritmo di apprendimento di profili concettuali e prototipo CLAS9. sistema di Question Answering PISAB

Categorizzazione per contestoLa tecnica di categorizzazione per contesto consiste nell’estrarre dalle pagine Web i cosiddetti"commentari", che rappresentano il contesto circostante un link a un documento. Un commentario èformato dal testo nell’ancora del link, il testo intorno al link, e il testo dei tag HTML nei quali il linkè annidato. Con questa tecnica è stato realizzato il classificatore Theseus [Attardi 99].

Gli esperimenti fatti hanno portato a concludere che la classificazione con questa tecnica è piùefficace (raggiungendo un valore di F1 microavergae superiore al 80%), rispetto alla tradizionaletecnica di classificazione per contenuto (F1 microaverage inferiore al 25%).

L’estrattore di contesti di Theseus utilizza tecniche di analisi linguistica (POS tagger, chunker).

Apprendimento di profili concettualiIn [Tommasi 99] viene presentata una tecnica per apprendere profili concettuali di categorie, utili aifini della classificazione dei commentari.

Question answeringL’obiettivo delle tecniche di Question Answering è di andare oltre le capacità degli attuali sistemi diInformation Retrieval, che sono efficaci nell’individuare i documenti rilevanti un certo argomento,per riuscire a fornire direttamente all’utente le risposte ad un quesito.

Per raggiungere questo obiettivo, si sono combinate tecniche di Information Retrieval e diInformation Extraction. Le conoscenze contenute nei documenti da interrogare sono estratte sottoforma di concetti e di relazioni tra loro. Queste conoscenze vengono archiviate sotto forma di frasicon opportuni tag, in una base di conoscenze costituta da un sistema di IR, indicizzate sulla base deiconcetti. I concetti sono espressi sotto forma di coppie [entità, categoria semantica]. Le entitàvengono estratte dai testi tramite una serie di elaborazioni che comprendono un Sentence Splitter,un POS Tagger, un Thesaurus (WordNet). Le entità vengono poi classificate all’interno diun’opportuna ontologia da un Semantic Tagger.

In fase di interrogazione, si estraggono dalla domanda i concetti e si estraggono dalla base diconoscenze i documenti più pertinenti. Questi vengono suddivisi in paragrafi e di ognuno vienestimata la pertinenza con la domanda. La pertinenza tiene conto di aspetti semantici della domanda,quali il tipo della domanda, il focus ed il tipo della risposta richiesta.

Con il prototipo PISAB, l’unità ha partecipato alle valutazioni dei sistemi di Question Answeringdella conferenza TREC-9, ottenendo risultati positivi.

5. 2. Sviluppi futuri

Come sviluppi del sistema di Question Answering si prevede di raffinare la capacità di individuarerelazioni tra concetti presenti nei documenti Web, es. relazioni di sussunzione, causa e temporali.Aggiungendo al sistema capacità deduttive su queste relazioni, sarà possibile rispondere anche ainterrogazioni non triviali, che richiedono di utilizzo di relazioni e conoscenze estratte da piùdocumenti.

Le tecniche sviluppate nel progetto possono essere utilizzate nel settore dei personal assistants. Lacapacità di apprendere relazioni e concetti è necessaria per migliorare strumenti di assistenzapersonale, in modo che si possano adattare al vocabolario ed alle esigenze dell'utente. Un’applicazione possibile è un assistente personale per la categorizzazione di bookmarks, della posta odi altre collezioni personali di documenti Web.

5. 3. Pubblicazioni (1999-2000)

G. Attardi, A. Gullì, F. Sebastiani, Theseus: Categorization by context, 8th Word Wide WebConference, Toronto, Canada, 1999.

G. Attardi, A. Gullì, F. Sebastiani, Automatic Web Page Categorization by Link and ContextAnalysis, European Symposium on Telematics, Hypermedia and Artificial Intelligence,Varese, 1999.

G. Attardi, G. Zorzetti. Impementing an Interactive Discussion Forum, Workshop on Community-based Interactive Systems, Siena, 1999.

G. Attardi, M. Simi, F. Tanganelli, A. Tommasi. Learning conceptual descriptions of categories,Rapporto Tecnico, Dipartimento di Informatica, TR-99-21, November 30, 1999.

L. Galavotti, F. Sebastiani, M. Simi. Experiments on the use of feature selection and negativeevidence in automated text categorization, Proceedings of ECDL-00, 4th European

Conference on Research and Advanced Technology for Digital Libraries, J. Borbinha and T.Baker (eds), 59–68, Lecture Notes for Computer Science, 1923, Springer Verlag, Heidelberg,DE, 2000.

L. Galavotti, F. Sebastiani, M. Simi. Feature selection and negative evidence in automated textcategorization, Proceedings of the ACM KDD-00 Workshop on Text Mining, Boston, US,2000.

G. Attardi, C. Burrini, The PISAB Question Answering System, Trec-9, 2000.

5..4 Descrizione del Prototipo

5.4 .1 Nome del prototipo

Theseus

5.4 .2 Descrizione delle funzionalità

Theseus è uno strumento per la classificazione di pagine Web che utilizza la nostra tecnica originaledi categorizzazione per contesto. La tecnica analizza la struttura ipertestuale delle pagine in formatoHTML e ricava per ciascun link (tag <A>) presente nella pagina una serie di contesti, ciascunocostitutito dal testo di un elemento HTML che racchiude il link. Questa lista di testi costituisce un“commentario” per il documento riferito dal link.

Il sistema Theseus è composto di:• Un analizzatore di struttura HTML, che costruisce un albero dei contesti di una pagina

HTML, a partire da un albero di parsing prodotto da un parser scritto in Perl.• Uno spider parametrico scritto in Java™ che raccoglie le pagine dal Web e costruisce un

database di URL e commentari..• Un categorizzatore in Java™, che sfrutta un POS tagger (TreeTagger) per svolgere un’analisi

lessicale delle frasi presenti nei commentari, estraendo i tag lessicali ed effettuare ilmorphing dei termini.. Dai commentari si estraggono le frasi nominali, le quali vengonoconfrontate con i profili di ciascuna categoria per scegliere quella più affine in cui inserire ildocumento.

• Un generatore di pagine HTML, che compongono il catalogo per soggetti costruito,visualizzabile e navigabile via Web.

Theseus è in grado di operare autonomamente, a partire da:

• Un elenco di categorie gerarchiche, con relativi profili• Un elenco iniziale di siti da visitare, con specifica delle parti da filtrare.

Theseus è stato utilizzato per costruire cataloghi analizzando diversi siti del Web italiano.

5.4 .3 Piattaforma hardware

Il prototipo è stato realizzato su macchine Unix, in particolare Sun Solaris e Linux.

La maggior parte del codice è scritto in Java, con parti in C (POS tagger) e Perl (parsing HTML).

5.4 .4 Sviluppi futuri

Per la costruzione dei profili delle categorie si prevede di utilizzare CLAS, lo strumento diapprendimento di concetti.

La tecnica di analisi dei contesti è stata adottata con successo in motori di ricerca commerciali, oltreche per classificare pagine HTML, per ricercare documenti non testuali, in particolare audio (MP3),immagini (GIF, JPEG, …) e video (RealAudio, WMI).


CLAS: Concept Learning Algorithm Schema


Il prototipo implementa uno schema di estrazione di concetti da documenti preclassificati secondouna tassonomia ad albero. L’apprendimento avviene a partire da una serie di esempi, di cui vienefornita la classificazione corretta e la rappresentazione.

Il programma costruisce un profilo per ogni categoria osservata, cioè una lista delle caratteristichedistintive di quella categoria rispetto alle altre. Una caratteristica viene considerata distintiva seaccomuna gli esempi di una stessa categoria, mentre separa gli esempi di altre categorie.

I moduli relativi al formato dell’input e alla tecnica di generalizzazione e specializzazione sonocustomizzabili, in modo da adattare lo schema a esigenze diverse. Già realizzati sono i moduli perl'applicazione a documenti testuali di breve lunghezza. Tra questi, ve ne sono che prevedano unafase di preprocessing mediante un Part of Speech Tagger, al fine di ridurre i termini a lemmi,eliminare termini superflui (preposizioni, congiunzioni, avverbi …), ed eventualmente individuaredi sintagmi nominali.

La generalizzazione tra testi così elaborati viene realizzata da questi moduli mediante operazionisintattiche dipendenti dalla rappresentazione scelta.

L'applicazione dell'algoritmo a documenti testuali preclassificati fa emergere, all'interno dei profili,le caratteristiche rilevanti al significato della categoria rispetto alle altre. La rappresentazione di talicaratteristiche dipende dalla scelta del modulo per l'applicazione dell'algoritmo; esperimenticondotti con l'uso di sintagmi nominali o liste di sintagmi nominali hanno fornito risultatiincoraggianti.

Il prototipo permette la costruzione di profili per tassonomie organizzate ad albero e che prevedanol'appartenenza di un esempio a più categorie.

L'algoritmo garantisce, quando viene applicato ad un ambiente on-line, che i profili si adattino alcontesto temporale degli esempi osservati, seguendo l’evoluzione naturale del significato dellecategorie.


Il prototipo è stato realizzato su macchine Linux i386.

Il linguaggio di programmazione adottato è Java.


Il sistema basa la sua efficacia sulla definizione opportuna delle operazioni di generalizzazione e dispecializzazione. È previsto che maggior cura nell'analisi del testo e integrazione di strumentilinguistici più avanzati, come tesauri, migliorino grandemente le prestazioni.

La attuale tecnica di generalizzazione è inadatta all'applicazione a testi più lunghi di poche righe.Per ovviare a questo è necessario prendere in considerazione aspetti statistici dei testi esaminati.

Il sistema sarà sviluppato per diventare uno strumento di supporto alla comprensione di testi,integrabile ad esempio in strumenti di question answering o di assistenza all'utente. Queste

applicazioni richiedono capacità di apprendimento di concetti relativi a domini non prefissati, chepossono essere fornite dal meccanismo di apprendimento adattivo di CLAS.


PISAB Question Answering System


PISAB è un prototipo di sistema di Question Answering basato su una combinazione di tecniche diInformation Retrieval e di Information Extraction. Nel nostro approccio la conoscenza vienemodellata attraverso insiemi di concetti e loro relazioni. In particolare PISAB è costituito da unmotore di ricerca su concetti estratti dai documenti mediante tecniche di IE.

Durante la fase di apprendimento i documenti sono indicizzati in base a concetti estratti da essi. Infase di interrogazione tale indice viene sfruttato per restringere la ricerca della risposta ai solidocumenti più pertinenti per ciascuna domanda. Da essi vengono isolati i paragrafi (o sentenze) cheformano i documenti e di ognuno stimata la pertinenza con la domanda. Per fare questo vengonoestratte dalla domanda informazioni semantiche, inserite in opportuni semantic slot, quali:

• Tipo della domanda: who/where/which/when, …• Verbo principale• Descrizione del concetto da trovare (Focus)• Classe semantica della risposta (Answer Type)• Concetti riconosciuti nella domanda (Context)

La pertinenza è misurata con un punteggio assegnato ad ogni paragrafo in base al numero di “hitconcettuali” (semantic hit). Si ha un “semantic hit” quando nel paragrafo è presente l’inflessione diun concetto della domanda oppure un concetto con classe semantica uguale all’Answer Type o alFocus. Gli slot hanno pesi differenti e quindi contribuiscono in maniera differente al punteggio delparagrafo (es. un hit nel focus è più importante di un hit nel contesto). Per rendere il sistema piùrobusto si assegnano dei punti ad un paragrafo anche in base alla cosine distance fra query eparagrafo. Dai paragrafi più ricchi di informazione vengono infine estratte le finestre di testo conmaggior punteggio che rappresentano le candidate answer da presentare all’utente.

Il sistema di analisi del testo, che ha il compito di individuare ed estrarre i concetti, è composto dadue moduli principali: l’Entity Tagger e il Semantic Tagger.

L’Entity Tagger opera principalmente a livello sintattico. Esso individua le entità del discorsosfruttando sia caratteristiche lessicali dei termini come il part of speech, il maiuscolo,l’appartenenza a lessici di nomi propri, sia regole sintattiche e di contesto. Il Semantic Taggerassocia ad ogni espressione individuata dall’Entity Tagger una categoria semantica, espressa intermini di un’opportuna ontologia. Ad esempio, dall’analisi di tre frasi che contengono il termine“Washington”, si ottiene:

[Washington/LOCATION ] is in [North America/LOCATION].

[George Washington/PERSON] didn’t like [apples/FOOD].

[Washington/ORGANIZATION] threated [Iraq/ORGANIZATION] to start [the war/ACT].I tre sensi del termine “Washington” vengono distinti e classificati rispettivamente come città,persona, metonimia per il governo degli USA. Per effettuare la classificazione il semantic tagger sibasa su di un dizionario semantico e sul contesto in cui i termini occorrono. Da queste informazioni

si costruisce un concetto, cioè una coppia [entità / classe] formata dall’entità del discorso e dalla suaclassificazione semantica: es. [Washington / Persona].

Con il prototipo PISAB, l’unità ha partecipato alle valutazioni dei sistemi di Question Answeringdella conferenza TREC-9, ottenendo risultati incoraggianti.


Il sistema è stato implementato quasi totalmente in Java ad eccezione di alcune librerie C, quindipresenta un elevato grado di portabilità. Attualmente è stato testato su:

• Linux i386• Sun Solaris


Attualmente è in corso un’opera di re-ingegnerizzazione che ha lo scopo di consolidare e rendereautonomi alcuni degli strumenti sviluppati per questo progetto come l’Entity Tagger, il SemanticTagger ed il Sentence Splitter. Successivamente ci concentreremo sull’estrazione, sempre attraversotecniche di Information Retrieval ed apprendimento automatico, di relazioni fra le entità presenti neidocumenti. Si prevede pertanto di sviluppare ed integrare nel sistema nuovi moduli, specifici per larisoluzione dei riferimenti fra entità.

Sotto-unità 2

Ricercatori afferenti alla sotto-unità 2Vincenzo Ambriola, Vincenzo Gervasi

5.5. Descrizione del Contributo

L'unita' ha operato nel settore delle tecniche di analisi di testi tramite regole di parsing basate suldominio.Sono stati sviluppati algoritmi di parsing basati su regole di riscrittura fuzzy e su sistemi di scoringadattivi, con particolare riguardo all'uso di tecniche euristiche per ridurre il grado di ambiguita' deirisultati. Sono stati inoltre studiati metodi per l'estrazione automatica di regole di analisi da corporadi testi non annotati in domini ristretti.Gli strumenti ottenuti sono stati utilizzati per l'analisi di documenti di requisiti per sistemi softwaree per l'estrazione di informazioni da bollettini finanziari.

5.6 Sviluppi futuri

L'unita' si propone di approfondire il tema della sintesi automatica di regole di analisi e delle classisemantiche associate (clustering di termini specifici del dominio) tramite l'uso di tecniche di datamining su basi di dati testuali. E' altresi' in corso una ricerca sull'applicazione delle tecniche diparsing sviluppate nell'ambito del presente progetto all'analisi della struttura retorica-argomentativadi testi letterari.

5.7. Elenco pubblicazioni

V. Ambriola and V. Gervasi.Experiences with domain-based parsing of natural language requirements.In G. Fliedl and H. C. Mayr, editors, Proc. of the 4th International Conference on Applications of

Natural Language to Information Systems, number 129 in OCG Schriftenreihe (Lecture Notes),pages 145-148, June 1999.

V. Ambriola and V. Gervasi.Supporting multiple views on requirements.In Proc. of the 6th Maghrebian Conference on Computer Sciences, November 2000.

V. Gervasi.Environment Support for Requirements Writing and Analysis.PhD thesis, University of Pisa, February 2000.

V. Gervasi and B. Nuseibeh.Lightweight validation of natural language requirements. In Proc. of the 4th InternationalConference on Requirements Engineering, pages 140-148, June 2000.

V. Gervasi and D. Rosaci.School on information extraction, 2nd edition. AI*IA Notizie, 12(4):65-66, December 1999. (in Italian).

5.8 Descrizione del Prototipo

5.8.1 Nome del Prototipo:

The CICO domain-based parser

5.8.2 Descrizione del Prototipo

Cico e' un analizzatore per linguaggio naturale basato sull'annotazione semantica di termini eframmenti di frase. Tale annotazione identifica concetti tipici del dominio applicativo considerato(per esempio, nomi di ditte o espressioni che identificano prodotti finanziari). Un insiemedi regoledi analisi (che costituiscono un sistema di riscrittura), con condizioni sulle annotazioni, vieneapplicato agli enunciati in linguaggio naturale. Agli alberi di analisi cosi' ottenuti e' associato unvalore di probabilita' ottenuto tramite regole fuzzy. Inoltre, ogni applicazione di regole puo'opzionalmente causare l'esecuzione di azioni, che tipicamente comprendono la registrazione diframmenti di conoscenza estratti dal testo in formato piu' facilmente analizzabile.

5.8.3 Piattaforma hw

UNIX/Linux; CICO e' comunque scritto in ANSI C standard e dunque facilmente portabile supiattaforme diverse.


Nell'ambito del progetto, CICO e' stato collegato a un analizzatore morfologico; si prevede diaumentare ulteriormente le capacita' di analisi morfosintattica dello strumento, integrando ovepossibile sistemi gia' esistenti, e di migliorare le sue capacita' di disambiguazione attraverso l'uso diuna rete semantica generalista come Wordnet.

Sotto-Unità 3Ricercatori afferenti alla sottounità Unità:

Franco Turini, Dino Pedreschi, Antonio Brogi, Salvatore Ruggieri, Alessandra Raffaetà, MircoNanni, Andrea Bracciali

Contrattisti:

Piero Alcamo, Francesco Domenichini

5.9 Descrizione del contributo dell’Unità

L’attività di ricerca dell’unità è stata orientata alla definizione di ambienti di modellazione esviluppo di processi per il knowledge discovery. In particolare, sono stati seguiti due approcci.

Ad un livello generale, è stato progettato e sviluppato l’ambiente KDDML per il supporto diprocessi di knowledge discovery. L’ambiente è stato sviluppato in Java per la sua portabilità ed èbasato su XML come linguaggio uniforme di rappresentazione della conoscenza estratta e comelinguaggio di interrogazione. In KDDML, tipologie differenti di conoscenza estratta possono esserecombinate al fine di descrivere e risolvere problemi complessi di estrazione della conoscenza.L’ambiente è aperto e versatile: l’adozione di XML permette l’interoperabilità tra sistemi per ilpreprocessing, basi di dati, algoritmi di mining, sistemi (quali il linguaggio Prolog) per lamanipolazione della conoscenza al metalivello.

Ad un livello specializzato su particolari applicazioni, è stato progettato e sviluppato MINEFAST,un ambiente verticale per il datawarehousing di accessi a web/proxy servers e per la definizione distrategie di web/proxy caching intelligente. Le strategie intelligenti di caching utilizzano modellidegli accessi passati al fine di predirre pattern frequenti di accessi futuri. Al contrario, le strategieclassiche di caching (es., LRU) hanno la limitazione di essere fisse e di non adattarsi al flusso dirichieste su uno specifico intervallo temporale o tipologia di utenti. L’ambiente è stato sviluppatoutilizzando SQL Server 2000 ed alcuni programmi di simulazione, ed è perfettamente in grado dimodellare l’intero processo di acquisizione dei file di log, preprocessing, datawarehousing,estrazione dei pattern di accesso e simulazione delle strategie intelligenti. Le strategie intelligentisviluppate utilizzano modelli nella forma di regole di associazione (ovvero, accessi a risorsecorrelate) e di alberi di decisione (classificazione utilizzata per predirre la vicinanza di richiestefuture). I risultati sperimentali mostrano che la strategia basata su alberi esibisce una performance(in termini di percentuale di risorse trovate in cache) notevolmente superiore alla LRU o ad altrestrategie classiche.

Nel contesto dello sviluppo di MINEFAST è stata utilizzata una versione efficiente dell’algoritmoC4.5 di costruzione di alberi di decisione. Tale versione, denominata EC4.5, è stata sviluppatasempre nel contesto delle attività dell’unità.

5.10 Sviluppi Futuri

La versatilità e l’espressività del sistema KDDML verranno testate su casi studio. In particolare,l’applicazione del caching intelligente è sicuramente un caso studio sufficientemente realistico ecomplesso.

Il sistema MINEFAST sarà ampliato in diverse direzioni:• Generalità e robustezza: il sistema dovrà essere in grado di processare diversi formati di file

di log,• Integrazione di strategie intelligenti: le due strategie finora sviluppate e testate

separatamente verranno integrate,• Nuove strategie intelligenti: verranno investigate sia varianti delle strategie studiate che

strategie basate su altre tecniche di data mining (es., clustering),• Integrazione su sistemi reali: il sistema verrà integrato in SQUID, un proxy server di

pubblico dominio.

5.11 Pubblicazioni (1999-2000)

F. Giannotti, G. Manco, M. Nanni, D. Pedreschi. Non-deterministic, non-monotonic logicdatabases. To appear in IEEE Trans. On Knowledge and Data Engineering, 2000.

S. Ruggieri. Efficient C4.5. Technical Report TR-00-01. Dipartimento di Informatica, Università diPisa. To appear in IEEE Trans. On Knowledge and Data Engineering, 2000.

P. Alcamo, F. Domenichini, F. Turini. An XML based environment in support of the overall KDDprocess. In proceedings of Intl Conf. On Flexible Query Answering (FQAS), Series on Advancesin Soft Computing, Springer-Verlag, 2000.

F. Giannotti, G. Manco. Declarative knowledge extraction with iterative user-defined aggregates.In proceedings of Intl Conf. On Flexible Query Answering (FQAS), Series on Advances in SoftComputing, Springer-Verlag, 2000.

F. Bonchi, F. Giannotti, G. Manco, M. Nanni, D. Pedreschi, C. Renso, S. Ruggieri. Web log datawarehousing and mining for intelligent web caching. Submitted to Special Issue on WarehouseDesign for Structured and Semistructured Data of the Elsevier Journal on Data and KnowledgeEngineering, 2000.

F. Bonchi, F. Giannotti, G. Manco, M. Nanni, D. Pedreschi, C. Renso, S. Ruggieri. Adaptive webcaching using decision trees. Submitted to SIAM International Conference on Data Mining, 2000.

5.12. Descrizione dei Prototipi

5.12.1 Nome del prototipo

KDDML

5.12.2 Breve descrizione

L’ambiente supporta la costruzione di un’applicazione di Knowledge Discovery in Databasesconsentendo la definizione dell’applicazione come una query che coinvolge chiamate ad algoritmidi data mining, utilizzo di basi di conoscenza codificate in Prolog, visualizzazione dei risultati. Lamodalità di interazione è mediante browser. Il sistema è codificato in Java ed usa vari strumenti

standard per la gestione e visualizzazione dei dati XML.

5.123 Piattaforma hw

PC Windows


Sostituzione dei DTD con XML schema e conseguente riprogettazione e reimplementazione deglistrumenti per la manipolazione dei dati XML.


MINEFAST

5.12.6 Descrizione delle funzionalità

Minefast è un prototipo per la memorizzazione di file di log e per la simulazione di strategieintelligenti di proxy/web caching. In particolare il sistema si compone dei seguenti moduli:

• preprocessing di file di log testo (data cleaning, data transformation, hashing, coding) nelformato Common Log Format,

• database SQL Server 2000 per la memorizzazione dei dati di log,

• procedure di caricamento dei dati preprocessati nei database,

• programmi di simulazione delle strategie classiche di caching (LRU, LFU, SLRU, FIFO,LRU-MIN),

• programmi di simulazione di strategie off-line di caching (ORCL),

• programmi di induzione patterns di accesso (regole di associazione, alberi di decisione),

• programmi di simulazione di strategie intelligenti.

L’intero ambiente è incentrato nel contesto di SQL Server 2000, il quale fornisce una infrastrutturauniforme. I vari programmi sono realizzati in PERL (preprocessing), C (hashing, simulatori) , SQLe Java Script (preprocessing).


Il prototipo è stato realizzato e testato (su dati di web servers) su sistemi Windows 2000 utilizzandoMicrosoft SQL Server 2000 Beta 2.

5.12.8Sviluppi futuri

Il prototipo implementa due strategie intelligenti, una basata su pattern definiti da regole diassociazione e l’altra su pattern definiti da alberi di induzione. Entrambe le strategie “correggono” ipesi assegnati dalla LRU. Sviluppi futuri includono:

• strategie che combinano le regole con gli alberi,

• definizione di strategie che “correggono” i pesi di altre strategie classiche oltre alla LRU,

• simulazione su dati di proxy e su dati sintetici,

• raffinamento delle attività di pre-processing,

• ottimizzazione del prototipo.


EC4.5


Il C4.5 è un algoritmo di induzione di alberi di decisione sviluppato da R. Quinlan e largamenteutilizzato nella letteratura sul knowledge discovery sia per l’uso in applicazioni che come base perconfrontare nuovi algoritmi di induzione. Il prototipo EC4.5 è una modifica di C4.5 al fine disuperarne le limitazioni di efficienza, in particolare per quanto riguarda il calcolo del guadagnoinformativo di attributi continui.

Sulla base di una valutazione analitica delle prestazioni di C4.5, EC4.5 utilizza una struttura dati diindicizzazione ed adotta tre diversi algoritmi di calcolo del guadagno informativo:

• l’algoritmo di C4.5, ma con una ricerca binaria invece che lineare,• l’algoritmo di C4.5, ma con un metodo di ordinamento basato su counting sort invece che

quicksort,• l’algoritmo di RainForest, un sistema specializzato per operare su dati residenti su disco.

EC4.5 risulta sperimentalmente 3-5 volte più efficiente di C4.5, senza sostanzialmente richiederememoria aggiuntiva.


Il prototipo è stato realizzato e testato su sistemi Unix/Linux utilizzando il linguaggio C.


Il prototipo consiste in una modifica del codice originale di C4.5, il quale è non-ANSI C. Anche alfine di estenderne le funzionalità (ad es., utilizzando diverse misure di splitting dei nodi), si prevededi riscrivere interamente il sistema in C++.

6. Contributo dell' Università di Roma "La Sapienza"

Ricercatori afferenti all'Unità:Alessandro Cucchiarelli (*), Franco Malvestuto, Marina Moscarini, Paola Velardi(*) afferente all'Università di Ancona

Contrattisti:Paolo Fabriani , Enrico Faggioli, Daniele Di Minica, Fabio Pardi, Paolo Zirilli


Area 1: Estrazione di contenuti da testi

La localizzazione e la classificazione di contenuti (e-localization ed e-content) disponibili in rete informa testuale è uno dei temi centrali sui quali si confrontano web companies e istituti di ricerca. Inun recente convegno organizzato dal gruppo di interesse sui linguaggi naturali della associazioneAI*IA è emerso come molte web companies che si occupano di produzione e classificazione dicontenuti usino strumenti di reperimento di contenuti in gran parte costruiti manualmente, e basatiin minima parte sul metodi di trattamento automatico del linguaggio.

Nell'ambito dell'estrazione di contenuti, la nostra unità si è occupata dei seguenti temi:- definizione e sperimentazione di metodologie di apprendimento automatico per l'estrazione di

patterns linguistici rilevanti- studio di modelli teorici di apprendibilità computazionale e verifica di metodi di classificazione

linguistica basati sui contesti.

In termini generali, possiamo descrivere il problema della classificazione linguistica nel seguentemodo:Supponiamo di dover assegnare una classe Ci∈C ad un elemento testuale T.T può essere una singola parola, una stringa complessa (ad esempio un nome proprio o un terminetecnico), o addirittura un intero documento.C è un insieme di classi, eventualmente strutturate gerarchicamente. Le classi possono essere di tipomorfologico (ad esempio nome o verbo), sintattico (ad esempio gruppo nominale, o gruppopreposizionale) semantico (ad esempio persona, o artefatto) o tematico (ad esempio cinema, omedicina).La maggior parte dei sistemi di classificazione automatica si basa sull'apprendimento (probabilistico

o rule-based) di contesti "tipici" che caratterizzano elementi Tk appartenenti ad una classe Ci. Una

classe Ci viene descritta mediante un modello contestuale h(Ci) (un esempio tipico è il modello"bag of words" 1), mentre l'insieme di apprendimento è costituito da vettori di caratteritiche, o

feature vectors, che rappresentano contesti tipici di elementi Tk di Ci.

1 Nel modello "bag of words" Ci é rappresentata dalle m parole più caratterizzanti (ad esempio customer nel contesto diun'occorrenza della parola bank (Tk) nel senso di building (Ci)). Modelli più sofisticati associano alle parole etichettemorfologiche, sintattiche o semantiche.

Nell'ambito del problema sopra descritto, abbiamo individuato due linee di ricerca:1. La prima linea ha l'obiettivo di studiare l'efficacia di un utilizzo combinato di diverse strategie

di apprendimento contestuale. L'utilizzo di tecniche multiple, in cascata o con metodi di"priority voting" sembra infatti una strategia efficace per aumentare l'affidabilità di metodi cheaffidano ad algoritmi (e non ad esperti umani) la creazione di un modello di decisione atto aclassificare elementi testuali Tk. In questo ambito, abbiamo applicato al caso dellaclassificazione semantica di nomi propri un metodo basato sull'apprendimento di contestimediante alberi di decisione, e mediante apprendimento probabilistico. I risultati sono statipresentati, fra l'altro, alla 23a conferenza SIGIR (2000) e sulla rivista Computational Linguistics(2001).

2. La seconda linea ha l'obiettivo di chiarire alcuni aspetti teorici che riguardano l'apprendibilità

concettuale e la validazione di modelli contestuali h(Ci ) di classificazione di elementi Tk. Imodelli contestuali proposti in letteratura sono più o meno complessi (dal semplice bag ofwords all'uso di etichette morfologiche, sintattiche o semantiche) ma anche il modellocontestuale più semplice - ad esempio le k parole più frequentemente co-occorrenti - deve essere

appreso all'interno di uno spazio delle ipotesi di dimensioni molto grandi (Vk nell'esempioprecedente, dove V è la dimensione del vocabolario). Ha dunque una rilevanza pratica, data ladifficoltà di etichettare manualmente migliaia di esempi per l'apprendimento, poter risponderealle seguenti domande:

• Quale è la dimensione m del set di apprendimento che occorre sottoporre al sistema se sidesidera apprendere, con una certa confidenza δ, un modello il cui errore sia < ε?• Come varia m nel caso che gli esempi siano rumorosi, cioè etichettati automaticamentesulla base di un qualche algoritmo soggetto ad errori?• E ancora: per verificare la correttezza di un modello contestuale, quale deve essere ladimensione del test set, e come deve essere scelto?

Questi temi, noti in letteratura come il problema del PAC learning e dell'hypotheis verification,sono stati affrontati (per ora in termini teorici e parzialmente sperimentali) nel secondo anno delprogetto, con alcuni interessanti risultati, riportati ad esempio in una comunicazione presentata allaconferenza ECAI 2000.

Area 2: Progetto e gestione di databases probabilistici

Progettazione:È stato affrontato il problema della progettazione di una base di dati statistici nei due scenari: ilprimo non prevede alcuna conoscenza a priori sulla semantica delle variabili di dominio, ed ilsecondo assume come dato un insieme di “ipotesi statistiche” che sono state avanzate da un pool diesperti del dominio di applicazione. Nel primo caso è stato elaborato un algoritmo che estrae da unadistribuzione di probabilità empirica un insieme di relazioni di “independenza condizionata” ecostruisce da queste una "rete markoviana”. Nel secondo caso, è stato elaborato un algoritmo chetalora riesce a sintetizzare uno schema di basi dati che riassume tutte le ipotesi statistiche date e sitraduce in una rete markoviana.

Gestione:Assegnato lo schema di una base di dati, si sono forniti algoritmi efficienti sotto il profilo dellacomplessità computazionale per effettuare interrogazioni ed aggiornamenti.Gli algoritmi per il design ed il management sono contenuti nei due seguenti lavori che sono incorso di pubblicazione:

F.M. Malvestuto, Processing queries in probabilistic databases

F.M. Malvestuto, A hypergraph-theoretic analysis of collapsibility and decomposability forextended log-linear modelsQuesti algoritmi utilizzano intensivamente il concetto di “ipergrafo” ed alcune sue proprietàtopologiche, che sono state studiate in:

F.M. Malvestuto e M. Moscarini, Decomposition of a hypergraph by partial-edge separators,Theoretical Computer Science 237: 1-2 (2000), 57-59.


Nell'area 1, nell'ultima parte del progetto sono stati realizzate e manualmente etichettate due basi didati contestuali, da utilizzare per la verifica sperimentale dei modelli teorici di apprendibilità everifica di ipotesi, nell'ambito del problema della classificazione semantica di termini (dunque, ilcaso specifico è quello in cui T è una parola, C è un insieme di classi semantiche coarse grainedscelte fra le top-level-categories di WordNet, h(Ci) è un modello contestuale di Ci).

Un primo database consiste in 3000 vettori di caratteristiche fk i cui attributi sono ±3 parole intorno

alla parola wk da classificare, etichettate morfologicamente e sintatticamente. Ad ogni parola wk,

dato il contesto fk, è stata assegnata l'appropriata classe semantica.Un secondo database ha richiesto la realizzazione di una interfaccia per facilitare l'etichettaturamanuale di circa 20.000 collocazioni sintattiche estratte automaticamente dal sistemaARIOSTO_ENGL. Di ogni collocazione (ad esempio: G_N_p_N(description,of,character) ) vienedecisa la correttezza sintattica e la classificazione (coarse grained) dei due termini co-occorrenti.


Riviste Internazionali

Cucchiarelli A., Velardi P "Semantic Tagging of Unknown Proper Nouns " Int. Journal of NaturalLanguage Engineering, numero speciale su "Semantic Tagging", 1999

Cucchiarelli A., Velardi P. "Unsupervised named Enity Recognition Using Syntactic and SemanticContextual Evidence" Computational Linguistics , March 2001

F.M. Malvestuto e M. Moscarini, Decomposition of a hypergraph by partial-edge separators,Theoretical Computer Science 237: 1-2 (2000), 57-59.

Atti di Convegni Internazionali

Cucchiarelli, P. Velardi "Adaptability of Linguistic Resources to New Domains:an experiment with Proper Noun Dictionaries" Proc. of VEXTAL99, Venice, November 1999

Cucchiarelli, P. Velardi "A Statistical Technique for Bootstrapping Available Resources for ProperNouns Classification", Proc. of IEEE -ICCS99 , Washington, November 1-3, 1999

Cucchiarelli A., Faggioli E., Velardi P. " Will Very Large Corpora Play For SemanticDisambiguation The Role That Massive Computing Power Is Playing For Other AI-HardProblems?" 2nd. Conf. on Language Resources and Evaluation (LREC), Athens, May 2000

Cucchiarelli A., Karkaletsis V. Paliouras G. Spyropolous C. Velardi P. "Automatic adaptation ofProper Noun Dictionaries through cooperation of machine learning and probabilistic methods" 23rd

annual SIGIR, Athens, June 2000

Missikov M. , Velardi P. "Mining Texts to Acquire a Tourism Knowledge Base for SemanticInteroperability", IC-AI'2000: June 26-29, 2000, Monte Carlo Resort, Las Vegas, Nevada, USA

Paola Velardi, Alessandro Cucchiarelli "A Theoretical Analysis of Context-based LearningAlgorithms for Word Sense Disambiguation" 14th European Conference on ArtificialIntelligence, ECAI-2000, Berlin August 2000

Atti di Workshop Internazionali

Velardi P., Cucchiarelli A. " Dependency of context-based Word Sense Disambiguation fromrepresentation and domain complexity" ANLP-2000 Workshop on Syntactic and SemanticComplexity in Natural Language Processing Systems, Seattle, April 30, 2000

Paola Velardi, Alessandro Cucchiarelli "Computational Learnability of Word SenseDisambiguation Cues" ECAI-workshop on Machine learning methods for Information Extraction,Berlin August 2000

6.4 Descrizione dei Prototipi

6.4.1 Nome del prototipo 1

ARIOSTO_ENGL (+CHAOS)


Sistema per l'analisi morfologica, morfosintattica e sintattica di corpora di testi in lingua inglese. Ilsistema è stato realizzato in cooperazione con l'università di Tor Vergata, che, fra l'altro, ha resopossibile l'integrazione di ARIOSTO con il parser CHAOS realizzato presso la loro unità.ARIOSTO è un processore linguistico orientato all'analisi di corpora di grandi dimensioni. E' dotatodei seguenti moduli: tokenizzatore, analizzatore morfologico, analizzatore morfosintattico (peranalisi di date, espressioni numeriche, verbi composti, ed altri fenomeni regolari), POS tagger,analizzatore di nomi propri, chunker, parser sintattico superficiale.


SUN+ Solaris, facilmente portabile in ambiente Linux.


Si prevede l'estensione con l'aggiunta di un modulo per l'identificazione di terminologia di dominio.

6.4.5Nome del prototipo 2

AMoCS


Il sistema riceve in ingresso un database di co-occorrenze sintattiche di termini error prone (comegenerate automaticamente dal sistema ARIOSTO), un inventario di classi semantiche ed unatassonomia (nell'attuale implementazione sono state utilizzate 12 categorie di alto livello diWordNet e l'intera tassonomia WordNet). Genera un modello contestuale probabilistico perciascuna classe semantica. Il modello contestuale è rappresentato da un insieme di co-occorrenzesintattiche semplici o generalizzate, "tipiche" di parole appartenenti ad una certa classe concettuale,ed è utilizzato per la disambiguazione semantica.Ad esempio, una co-occorrenza appresa per la classe person è:G_N_P_N(4cd7,about,person)Dove 4cd7 è il synset WordNet: communication --- something that is communicated between peopleand groupsIl contesto è stato creato sulla base di 9 esempi, che hanno prodotto la generalizzazione 4cd7. Gliesempi sono visualizzati in Figura 1, che mostra una schermata prodotta dall'interfaccia Easy_Tag(descritta nel seguito).

Figura 1. Una generalizzazione prodotta da AmoCS, visualizzata tramite l'interfacciaEASY_Tag


Il programma è scritto in C++ ed è stato sviluppato in ambiente Linux/Unix.


Il sistema è in fase di sperimentazione estesa. Si intende perfezionare il modello probabilisticoutilizzato per associare un fattore di confidenza ai patterns sintattici appresi. Il modello verràutilizzato per verificare sperimentalmente il modello di apprendimento in presenza di rumorestudiato nel secondo anno di progetto.

6.4.9 Nome del prototipo 3

EASY-Tag


Interfaccia per facilitare l'etichettatura manuale di learning e test set per l'apprendimento di modellidi disambiguazione semantica context-based

L'interfaccia grafica facilita la classificazione manuale di co-occorrenze sintattiche, al fine digenerare test set di dimensioni sufficenti a produrre stime di errore affidabili (le dimensioni del testset sono stimate utilizzando i metodi formali di hypotheis verification descritti in letteratura)La figura 2 mostra una schermata di EASY_Tag.

Figura 2. La schermata principale del sistema Easy_Tag per la generazione manuale di testset


Il programma è costituito da moduli scritti in C++, usa l'interfaccia grafica Qt ed il softwareWordnet, ed è stato sviluppato in ambiente Linux/Unix.

7. Contributo dell' Università di Roma "Tor Vergata"

Dipartimento di Informatica, Sistemi e Produzione

Ricercatori afferenti all'Unità:Roberto Basili, Alessandro Moschitti, Maria Teresa Pazienza, Michele Vindigni, Fabio MassimoZanzotto

7.1Descrizione del Contributo dell'Unità

Titolo specifico della Unità di ricerca: Acquisizione di conoscenza linguistica perl’estrazione di informazione da testi.

In relazione alla seconda fase di attività (mirante ad arricchire il sistema di proprie capacità digeneralizzazione per la trattazione di basi documentali di grandi dimensioni) l'unita' di Roma TorVergata ha analizzato la possibilità di modellizzare concetti di similitudine o attinenza tra leesigenze dell'utente e le rappresentazioni generate automaticamente per i documenti. Le descrizionicosì ottenute potrebbero essere utilizzate per derivare automaticamente, mediante algoritmi induttivibasati su esempi, strutture privilegiate della ricerca e raggruppamenti tematici.In particolare l’attività è stata incentrata sullo studio di modelli di classificazione del testo basati sutecnologie linguistiche. Tale compito applicativo assume un particolare rilievo negli scenari diknowledge management (KM) dove la conoscenza viene usualmente prodotta e scambiata in formetestuali. La eterogeneità delle fonti e la loro specializzazione richiede forme specifiche ditrattamento nell'ambito di KM. La classificazione in questo senso e' propedeutica alle fasi deltrattamento intelligente, con lo scopo di indirizzare efficientemente l'agente verso laspecializzazione in un dominio specifico ed attivare forme più profonde di induzione a fronte di unamaggiore plausibilità del dominio applicativo correlato al testo. I risultati ottenuti sono relativi alruolo che la conoscenza linguistica può svolgere in tali task. Essi sono stati dimostrati superiori anumerosi metodi presentati in letteratura in una serie di sperimentazioni su più collezioni di test econfermano il modello proposto come un promettente strumento di supporto al KM.

Tra le importanti ricadute delle attività di ricerca svolte nell’ambito di questo progetto si voglionoricordare le due più recenti (novembre 2000).

1) Il responsabile dell’unità è stato invitato dall’Università di Sheffield (UK) a tenere unseminario relativo a “Terminology extraction from corpus processing in a framework of IE”.

2) ha organizzato la giornata di lavoro”Le tecnologie del linguaggio nel mondo web” incollaborazione con l’IRST-itc ed il gruppo di lavoro su elaborazione del linguaggio naturaledell’AI*IA (Associazione Italiana per l’Intelligenza Artificiale) cui hanno partecipato circa100 esponenti del mondo accademico ed industriale.

In tali ambiti, tra l’altro, sono stati presentati anche alcuni risultati della nostra attività sia di ricercache di sviluppo di risorse (parzialmente finanziata da questo progetto).

I risultati scientifici di tutta l’attività di ricerca e sviluppo sono stati oggetto di lavori e presentazioniin ambito internazionale (vedasi elenco riportato in fondo a questo documento).

7.2 Sviluppi futuri

Le attività di ricerca future dell’unità correlabili a questo progetto sono concentrate sui seguentiaspetti:• generazione di interfacce per l'utilizzo amichevole del sistema• estensione del modello di elaborazione per il trattamento semantico dell’ informazione

• assegnazione dei sensi dei nomi utilizzati nel profilo• estrazioni di eventi dal testo

• estensione del modello di classificazione utilizzato in L-Train ed L-Infer• estensione dell'insieme di features ad includere l'assegnazione dei sensi• la combinazione di evidenze diverse (sintassi, semantica dei nomi ed eventi)

7.3. Pubblicazioni (1999-2000)• BASILI R., MOSCHITTI A., PAZIENZA M.T. "Modeling Terminological Information in Text

Classification", in Proceedings of the TALN 2000 "Le Traitment Automatique des LanguesNaturelles", École Polytechnique Férale de Lausanne, Lausanne, Suisse, 16-18 octobre 2000.

• BASILI R., M.T. PAZIENZA, M. VINDIGNI, F. M. ZANZOTTO. "Tuning lexicons to newoperational scenarios" in Proceedings of the Second International Conference on LanguageResources and EvaluationConference, (LREC 2000), Athens, Greece, 31 May - 2 June 2000.

• R.BASILI, L. MAZZUCCHELLI, M.T. PAZIENZA. An Adaptive and Distributed Frameworkfor Advanced IR. in Proceeding of 6th RIAO Conference (RIAO 2000), Content-BasedMultimedia Information Access, Collège de France, Paris (Francia), Apr. 12-14, 2000.

• R.BASILI, A. MOSCHITTI, M.T. PAZIENZA. Language Sensitive Text Classification. inProceeding of 6th RIAO Conference (RIAO 2000), Content-Based Multimedia InformationAccess, Collège de France, Paris (Francia), Apr. 12-14, 2000.

• R.BASILI, A. MOSCHITTI, M.T. PAZIENZA. Robust inference method for profile-based textClassification. in Proceeding of JADT 2000, 5th International Conference on StatisticalAnalysis of Textual Data, Lausanne (Svizzera), March 9-11, 2000.

• R. BASILI, PAZIENZA M.T. and ZANZOTTO F.M., Customizable Modular LexicalizedParsing, in Proceedings of the 6th International Workshop on Parsing Technology, Trento(Italy), Feb. 2000.

• R.BASILI, A. MOSCHITTI, M.T. PAZIENZA. A text Classifier based on LinguisticProcessing. in Proceeding of IJCAI 99 Workshop, Machine Learning for Information Filtering,Stockolm (Svezia), August 1999, (see"http://www-ai.informatik.uni-dortmund.de/EVENTS/IJCAI99-MLIF/papers.html").



L-Index

7.4.2 Descrizione delle funzionalitàLa applicazione del dimostratore e' sostanzialmente legata ai compiti di Intelligent Retrieval,Indexing e Management di informazione testuale. Ciò include capacita' di raggruppamentoconcettuale di documenti al fine della gestione della Conoscenza (Knowledge Management)Il dimostratore di L-Index sfruttando le capacita' di elaborazione testuale e di estrazione diconoscenza dai testi, garantisce la classificazione automatica dei documenti e la enfatizzazione (inuna visualizzazione per l'utente finale) di un insieme di informazioni rilevanti (ad es. nomi propricomplessi del testo, frasi rilevanti, …)L-Index si configura come un'architettura modulare i cui componenti principali sono:

• un sottosistema dedicato per il processamento linguistico, quindi il Processore Linguistico (L-Proc).

• un sottosistema dedicato alla classificazione, cioe' L-Class. L-Class e' basato a sua volta su duesottosistemi• L-Train dedicato all'apprendimento di un modello quantitativo delle diverse classi, e che

genera la conoscenza di base di un classificatore lineare (i.e. i profili quantitativi dellesingole classi)

• L-Infer, che applica la conoscenza derivata alle nuove istanze di documento in ingresso• un sottosistema dedicato alla valutazione del comportamento di L-Infer su un test set di

documenti già classificati (L-Test)

La elaborazione del testo in L-Proc procede secondo una architettura complessa che segue letendenze attuali della ricerca nell'ambito della Information Extraction (Basili and Pazienza, 1997;Pazienza, 1999). La modularità della architettura ne garantisce il riutilizzo in sistemi applicatividedicati a finalità diverse, e ne facilita la manutenzione e l'aggiornamento in fasi di processamentodiverse (ad es. la analisi sintattica che può richiedere informazioni lessicali diverse a seconda didomini che cambiano dinamicamente, o l'insieme dei sensi delle parole che alimentano ladisambiguazione del senso e che si basano su basi di conoscenza non statiche).

Il modello di classificazione adottato per la progettazione di L-Class e' descritto in (Basili et al.,1999; Basili et al.,2000) e si configura come un classificatore lineare. Le originali caratteristiche diL-Class sono relative all'utilizzo delle conoscenze linguistiche sul testo estratte da L-Proc (i.e.determinazione dei nomi propri e della categoria sintattica delle restanti parole nel testo, cioè nomiaggettivi e verbi) e di una particolare tecnica di inferenza denominata RDS in (Basili et al.,1999).

Infine il sottosistema L-Test e' una piattaforma di supporto alla sperimentazione di modelli diclassificazione che consente la selezione della percentuale necessaria del test set (con la separazionetra porzione di Test e di Training), l'apprendimento dalla porzione di Training e la misurazionedella prestazione ottenuta sulla porzione di test. Questa consente la veloce prototipizzazione didiversi classificatori e la loro messa a punto (ad es., scelta dei parametri ottimali di apprendimentoed inferenza).

7.4.3 Piattaforma hardwareSun UltraSparc Station con sistema operativo Solaris.Classificazione disponibile anche in ambiente Win32 bit.

8. Contributo dell' Università di Torino

Area di Estrazione della Conoscenza da Testi

Ricercatori afferenti all'Unità:Cristina Bosco, Leonardo Lesmo, Vincenzo Lombardo

Contrattisti:

Daniela Vassallo, Davide Zulian


Questo documento descrive i risultati raggiunti dall'unità nell'ambito della costruzione di untreebank, che serva come corpus annotato per l’estrazione di informazioni utili per il parsingrobusto.

L'obiettivo della costruzione di un parser robusto per l’analisi di testi in italiano si è scontrato nelcorso del progetto con l’assenza di risorse linguistiche utili dal punto di vista dell’analisi sintatticain ambito reale. Partendo dalla sottocategorizzazione come una sorgente importante per ladisambiguazione, si è osservato che l’italiano manca attualmente di una risorsa linguistica annotatasintatticamente, da cui estrarre le informazioni di sottocategorizzazione.

Quindi l’unità si è dedicata alla costruzione di un corpus di frasi annotato sintatticamente(treebank). Dopo aver definito un formalismo per la rappresentazione delle informazioni sintattiche(tra cui quelle di sottocategorizzazione), basato sulle dipendenze [1] e aver costruito uno strumentodi supporto (parser interattivo) per l’annotazione semiautomatica delle informazioni (vedi rapportoprecedente – ottobre 1999), l’unità si è concentrata sulla definizione delle categorie sintattiche esulle relazioni grammaticali per una grammatica estesa a partire da un corpus limitato a 50 frasi.Quindi, abbiamo avviato l’applicazione del formalismo a un corpus di 800 frasi, estratto da fontivarie in lingua italiana: quotidiani soprattutto, quindi romanzi contemporanei e notizie di agenzia(televideo).I risultati raggiunti nel trattamento dei fenomeni linguistici per l’italiano e l’assegnazioneautomatica di relazioni grammaticali sono descritti nei due allegati, corrispondenti a [2] e [3]rispettivamente.E’ stata inoltre sviluppata una linea di ricerca con l’Unità di Firenze per lo sviluppo di un algoritmodi parsing informato da una rete neurale [4].


Una volta raggiunto un corpus di 1000 frasi, verranno effettuate le prime estrazioni di informazionidi sottocategorizzazione. Il parser interattivo costituirà la base per lo sviluppo del parser robusto,che utilizzerà le informazioni di sottocategorizzazione e verrà informato dalla rete neurale sulledecisioni in caso di ambiguità.


[1] Vincenzo Lombardo, Leonardo Lesmo, A formal theory of dependency syntax with non lexicalunits, accettato per la pubblicazione, Journal de Traitment Automatique des Langues, Klincksiek,Paris.

[2] Cristina Bosco, Vincenzo Lombardo, Daniela Vassallo, Leonardo Lesmo, Building aTreebank for Italian: a Data-driven Annotation Schema, Atti della II InternationalConference on Language Resources and Evaluation (LREC-2000), Atene, 2000.

[3] Leonardo Lesmo, Vincenzo Lombardo, Automatic Assignment of GrammaticalRelations, Atti della II International Conference on Language Resources and Evaluation(LREC-2000), Atene, 2000.

[4] Fabrizio Costa, Paolo Frasconi, Vincenzo Lombardo, Giovanni Soda, Towardsincremental parsing of natural language using recursive neural networks, in corso direvisione, Applied Intelligence.

8.4 Descrizione del Prototipo I

8.4.1 Nome del prototipo 1TUT-parser: Turin University Treebank parser.Il manuale dettagliato è allegato al rapporto di fine 1999.


Parser interattivo per la costruzione di alberi sintattici basati sul formalismo a dipendenze. Contienemolte strategie di parsing (top-down, bottom-up, incrementale) in caso di ambiguità, applica delleeuristiche che permettono di ordinare in modo preferenziale le richieste all’utente.


Scritto in C++, con un’interfaccia grafica in daVinci per la visualizzazione degli alberi costruiti.Gira sotto Unix.


E’ in corso lo sviluppo di un parser robusto che sfrutta lo scheletro del TUT-parser.

8.4.6 Nome del prototipo2

AGRA: Automatic Grammatical Relation Assigner.


Software per l’assegnazione automatica di relazioni grammaticali. Prende in input un alberosintattico a dipendenze non etichettato e restituisce un albero etichettato con le relazionigrammaticali.


Scritto in Lisp. Gira su tutte le piattaforme che supportano il linguaggio Lisp.

8.4.9 Sviluppi futuriIntegrazione on-line di AGRA e TUT-parser, per contribuire alla disambiguazione sintattica.

Gruppo di Apprendimento Automatico e data Mining -

Ricercatori afferenti all'Unità:Marco Botta, Filippo Neri, Lorenza Saitta

8.5 Descrizione del Contributo dell'Unità

Nella prima fase del progetto è stata definita la tipologia dei problemi da affrontare, identificandolicon il data mining su basi di dati relazionali. Un'analisi dei requisiti specifici richiesti da questaproblematica ha messo in luce che la scalabilità delle tecniche di apprendimento automatico su datistrutturati incontra seri ostacoli relativi alla complessità computazionale.

Nella seconda fase del progetto, il problema della complessità è stato studiato in dettaglio, e sonoemerse indicazioni su possibili metodi per alleviarlo. Questi metodi sono inoltre stati sperimentatisu alcune basi di dati relazionali messe a disposizione dal gruppo di Apprendimento Automaticodell'Università del Piemonte Orientale, relative a dati di log di transazioni su rete, perl'individuazione di eventuali attacchi illegali, e a dati di possibili frodi nelle telecomunicazioni. Perla sperimentazione si è usata la versione di Gnet (un sistema di apprendimento relazionale basato sualgoritmi genetici) modificata nella prima fase, in cui si era sostituito il modulo di matching conuno nuovo, che sfrutta un algoritmo Monte Carlo per la ricerca stocastica. I risultatidell'applicazione di Gnet ai dati disponibili saranno oggetto del dimostratore previsto. Si è inoltreeffettuata una vasta sperimentazione con problemi artificiali generati in modo miratoall'individuazione dei limiti dei sistemi di apprendimento relazionale.

L'analisi della complessità relativa alla scalabilità degli algoritmi di apprendimento da datistrutturati ha rivelato, nella prima fase del progetto, la presenza di una transizione di fase nellaprobabilità di esistenza di una soluzione, relativamente al matching tra ipotesi ed esempi, conassociato un picco di complessità. Si è esplorata la possibilità di usare tecniche di astrazione, chesono state proposte e applicate a una base di dati geografica, in cooperazione con l'InstitutGéographique National di Parigi. I risultati hanno dato luogo a pubblicazioni e a presentazioni acongressi.

I risultati della ricerca sono stati sfruttati in due applicazioni:• Data mining su basi di dati relazionali fornite dallo CSELT.• Applicazioni di tecniche di apprendimento automatico alla scoperta di regole per il

cambiamento automatico di scala in carte geografiche. I dati sono stati forniti dall'InstitutGéographique National di Parigi.


Un passo ulteriore per estendere l'applicabilità dell'apprendimento relazionale anche a quelle regionidello spazio dei problemi che si sono dimostrate più difficili, si è iniziata una sperimentazionesull'impiego di tecniche di boosting e di combinazione di classificatori. Questa scelta sarà affiancataall'ulteriore studio della possibilità di utilizzare l'astrazione.

8.7 Pubblicazioni (1999-2000)

Giordana A., Botta M., e Saitta L. (1999). "An Experimental Study of Phase Transitions inMatching". In Proc. of the 16th Int. Joint Conf. on Artificial Intelligence (Stokholm, Sweden),pp. 1198-1203.

Giordana A. and Saitta L. (1999)." On-Line Estimation of Matching Complexity in First OrderLogic". Lecture Notes in Artificial Intelligence, 1237, 76-84.

Botta M., Giordana A., Saitta L., and Sebag M. (1999). "Relational learning: Hard problems andphase transitions". In Proc. of the 6th Congress of the Italian Association for ArtificialIntelligence (Bologna, Italy), pp. 99-111.

Moustière S., Zucker J-D., and Saitta L. (1999). In Proc. ACM/GIS Conference (Kansas City, MS),pp. 162-164.

Neri F. (1999). "Computer Aided Tracing of Children's Physics Learning: a Teacher OrientedView". Proceedings of International Joint Conference on Artificial Intelligence (IJCAI'99),AAAI Press, pp. 370-377.

Giordana A. and Saitta L. (2000). "Phase transitions in learning relations". Machine Learning,Botta M. and Piola R. (2000). «Refining Numerical Constants in Structured First Order Logic

Theories». Machine Learning.Neri F. (2000). "Multi Level Knowledge in Modeling Qualitative Physics Learning". Machine

Learning.Zucker J-D., and Saitta L. (2000). "Perception-Based Abstraction for Concept Representation". In

Proc. AAAI Workshop on Research Trends in Machine Learning (Houston, TX).Saitta L. and Zucker J-D. (2000). "Abstraction and Phase Transitions". In Proc. of the Int.

Workshop on Approximation, Reformulation, and Abstraction (Houston, TX).

- Gruppo di Apprendimento Automatico e data Mining -



Proto-Miner


Insieme di algoritmi per i seguenti task di Data Mining: Classificazione, Regressione, Clustering,Caratterizzazione simbolica, Regole di associazione, Individuazione di episodi nelle serie temporali.I metodi di cui fa uso sono: Alberi di decisione e regressione, Regole di classificazione, RetiNeurali, Algoritmi genetici, Ricerca stocastica.


Macchine Unix e PC con Windows


Integrazione degli algoritmi di apprendimento con un'attività di pre-processamento dei dati,eventualmente direttamente sulla base di dati originale.