11
Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi

Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi

Embed Size (px)

Citation preview

Page 1: Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi

Introduzione

Estrazione di Informazioni dal Web

Prof. Paola Velardi

Page 2: Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi

Argomento del corso• Metodi per estrarre informazioni di interesse da archivi

documentali– Come viene espresso l’interesse: mediante una richiesta (query) la cui

complessità varia:• Parole-chiave (web information retrieval)• Un testo in LN (qual’ è la città più grande della Florida?)• Una richiesta vocale..• Un’immagine o documento (query by example)

– Dove si cerca : memorizzati su un computer, o distribuiti su una rete locale, o nell’intero web.

– Cosa si cerca: Documenti: txt, pdf, html, video, immagini, musica..– Cosa si estrae: i documenti (probabilmente) di interesse, una risposta

in LN, una lista di fatti rilevanti

Page 3: Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi

Information Retrieval

Page 4: Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi

Query by example

Query

risposte

Page 5: Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi

Question Answering

Page 6: Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi

Information Extraction foodscience.com-Job2

JobTitle: Ice Cream Guru

Employer: foodscience.com

JobCategory: Travel/Hospitality

JobFunction: Food Services

JobLocation: Upper Midwest

ContactPhone: 800-488-2611

DateExtracted: January 8, 2001

Source: www.foodscience.com/jobs_midwest.html

OtherCompanyJobs: foodscience.com-Job1

Page 7: Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi

Criteri di classificazione dei sistemi di estrazione di

informazioniIn base a:

• Query: keyword, frase, categoria di interesse, domanda..

• Spazio di ricerca: un archivio, un insieme di archivi distribuiti, il web

• Oggetto della ricerca: testi, immagini, multimedia..• Risposta: una lista di documenti, una risposta in

linguaggio naturale, un database di “fatti” rilevanti

Page 8: Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi

Syllabus del corso• Information Retrieval (IR)

– Ricerca: archivio locale– Query: lista di keywords– Oggetto: testi– Risposta: elenco ordinato di testi

• Web Information retrieval– Ricerca: web– Come IR

• Information Extraction– Ricerca: web o archivio locale– Query: fatti di interesse (es.

“offerte di lavoro in informatica”)– Oggetto: testi o media– Risposta: un database

• Question Answering– Ricerca: web o archivio locale– Query: domanda in linguaggio

naturale– Oggetto:testi– Risposta: risposta in LN

• Multimedia Retrieval– Ricerca: web o archivio locale– Query: voce, immagine, suono..– Oggetto: filmati, immagini,

musica, registrazioni vocali– Risposta: elenco ordinato di

oggetti multimediali

Page 9: Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi

Prerequisiti

• Strutture dati, algoritmi• Algebra (vettori, matrici)• Probabilità • ..se avete seguito Apprendimento

Automatico è un po’ meglio.. Ma non essenziale

Page 10: Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi

Materiale• http://twiki.di.uniroma1.it/twiki/view/Estrinfo

/WebHome– Lucidi– Articoli e approfondimenti– Siti di interesse

• Modern Information Retrieval www.amazon.com/Modern-Information-Retrieval-Ricardo-Baeza-Yates/dp/020139829X

• Un libro on-line: http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html

Page 11: Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi

ESAME• Un esercizio su Lucene (open-source text search engine

in Java) a metà corso • Un progetto a fine corso (quest’anno si utilizzerà la

piattaforma open-source di IE “GATE”), applicazioni (opzioni):– Analizzare opinioni su social networks– Estrarre informazioni da databases con trame di film

• Una prova scritta a fine corso• Chi non fa l’esame a fine corso deve fare un orale su

appuntamento (ma progetto e prova Lucene sono obbligatori)