Upload
perlita-pesce
View
219
Download
1
Embed Size (px)
Citation preview
Introduzione
Estrazione di Informazioni dal Web
Prof. Paola Velardi
Argomento del corso• Metodi per estrarre informazioni di interesse da archivi
documentali– Come viene espresso l’interesse: mediante una richiesta (query) la cui
complessità varia:• Parole-chiave (web information retrieval)• Un testo in LN (qual’ è la città più grande della Florida?)• Una richiesta vocale..• Un’immagine o documento (query by example)
– Dove si cerca : memorizzati su un computer, o distribuiti su una rete locale, o nell’intero web.
– Cosa si cerca: Documenti: txt, pdf, html, video, immagini, musica..– Cosa si estrae: i documenti (probabilmente) di interesse, una risposta
in LN, una lista di fatti rilevanti
Information Retrieval
Query by example
Query
risposte
Question Answering
Information Extraction foodscience.com-Job2
JobTitle: Ice Cream Guru
Employer: foodscience.com
JobCategory: Travel/Hospitality
JobFunction: Food Services
JobLocation: Upper Midwest
ContactPhone: 800-488-2611
DateExtracted: January 8, 2001
Source: www.foodscience.com/jobs_midwest.html
OtherCompanyJobs: foodscience.com-Job1
Criteri di classificazione dei sistemi di estrazione di
informazioniIn base a:
• Query: keyword, frase, categoria di interesse, domanda..
• Spazio di ricerca: un archivio, un insieme di archivi distribuiti, il web
• Oggetto della ricerca: testi, immagini, multimedia..• Risposta: una lista di documenti, una risposta in
linguaggio naturale, un database di “fatti” rilevanti
Syllabus del corso• Information Retrieval (IR)
– Ricerca: archivio locale– Query: lista di keywords– Oggetto: testi– Risposta: elenco ordinato di testi
• Web Information retrieval– Ricerca: web– Come IR
• Information Extraction– Ricerca: web o archivio locale– Query: fatti di interesse (es.
“offerte di lavoro in informatica”)– Oggetto: testi o media– Risposta: un database
• Question Answering– Ricerca: web o archivio locale– Query: domanda in linguaggio
naturale– Oggetto:testi– Risposta: risposta in LN
• Multimedia Retrieval– Ricerca: web o archivio locale– Query: voce, immagine, suono..– Oggetto: filmati, immagini,
musica, registrazioni vocali– Risposta: elenco ordinato di
oggetti multimediali
Prerequisiti
• Strutture dati, algoritmi• Algebra (vettori, matrici)• Probabilità • ..se avete seguito Apprendimento
Automatico è un po’ meglio.. Ma non essenziale
Materiale• http://twiki.di.uniroma1.it/twiki/view/Estrinfo
/WebHome– Lucidi– Articoli e approfondimenti– Siti di interesse
• Modern Information Retrieval www.amazon.com/Modern-Information-Retrieval-Ricardo-Baeza-Yates/dp/020139829X
• Un libro on-line: http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html
ESAME• Un esercizio su Lucene (open-source text search engine
in Java) a metà corso • Un progetto a fine corso (quest’anno si utilizzerà la
piattaforma open-source di IE “GATE”), applicazioni (opzioni):– Analizzare opinioni su social networks– Estrarre informazioni da databases con trame di film
• Una prova scritta a fine corso• Chi non fa l’esame a fine corso deve fare un orale su
appuntamento (ma progetto e prova Lucene sono obbligatori)