Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)

1

Corso di

Web Mining & Retrieval

Introduzione all’Information Retrieval

(a.a. 2008-2009)

Roberto Basili

2

Outline

• Accesso e Ricerca delle informazioni distribuite

• Il processo di base dell’IR

– Rilevanza

• Applicazioni dell’IR:

– Classification

– Inf. Filtering & Routing

– Text Clustering

– Inf. Extraction, Question Answering

• Web search

3

Parte II: Information Retrieval

Introduzione

4

Informazione Automatizzata

DATI TESTI IMMAGINI SUONI MULTIMEDIALI

Sw libraries

Basi di DatiBasi di

Conoscenza

Lettere Grafici

Immagini

Video

Video

Clips

Campioni Chioschi

Elettronici

Pubblicazioni

Multimediali

Internet

Portals

Web pages

Videotex

Interne

Esterne

Pub

bliche

Thesaura,

Ontologie

Blogs

Personal

Spaces

5

Applicazioni

DATI TESTI IMMAGINI SUONI MULTIMEDIALI

Mid

wa

re P

rofe

ssiona

li Gestio

nali Te

cniche

Decisionali

OperativeControllo

Robotica

Misure

Commutazione

Gestione

Documentazione

Sistemi

di Supporto Individuale

Sound Editing

Hard Disk Recording

Telerilevamento

Controllo

Ambientale

Sistemi di

Pagamento Elettronico

Posta Elettronica Commercio Elettronico

BibliotecheDigitali

E-Government

CRM

KM

6

Reperimento della Informazione

• Se la memorizzazione (mediante dispositivi di

memoria di massa) e’ massiva (testi, immagini,

suoni, …) si pone il problema di ricercare tale

informazione

• Il livello di astrazione consentito dai Sistemi

Operativi (File System) e’ solo un primo livello:

– e’ insufficiente in molti casi (ad es. anagrafica)

– non e’ ottimale (riguardo alla velocità della ricerca)

7

Reperimento della Informazione

• Ricercare in generale significa

– definire i propri bisogni informativi

– memorizzare i risultati

– raffinare la propria selezione

• ridefinire i requisiti informativi

• “navigare” attraverso i dati trovati

• elaborare, cioè combinare i dati di diverse ricerche

8

Reperimento della Informazione (IR):

Strumenti

• determinano (a priori) una strutturazione

dell’informazione da ricercare che

– rifletta il linguaggio di interrogazione

– rifletta la natura (cioe’ il contenuto) dei dati da

ricercare (vd. JPEG, BMP, WAV!!)

– faciliti le operazioni interne di ricerca

• forniscono un linguaggio per la definizione dei

bisogni informativi, detto linguaggio di

interrogazione (Query language)

9

Tipico processo di IR

• Dati:

– Una collezione di documenti in linguaggio

naturale.

– Una interrogazione utente (in genere una

stringa di testo)

• Trovare:

– Un elenco ordinato di documenti rilevanti per

la interrogazione (l’ordinamento e’

decrescente)

10

Sistema di IR

IR

System

Query

Documenti

Docs

ordinati

1. Doc1

2. Doc2

3. Doc3

.

.

11

Rilevanza (Attinenza)

• La attinenza di un documento ad una

interrogazione (query) e’ soggettiva e dipende

da:

– appartenenza ad un campo semantico (soggetto)

– puntualità (essere recente ed al momento giusto)

– autorità (provenienza sicura)

– vicinanza agli obbiettivi dell’utente ed al suo

utilizzo dell’informazione

12

Relevance

da Stefano Mizzaro, "Relevance: The Whole History“ in Journal of the

American Society of Information Science, volume 48, (9), 810-832, 1997,

URL ="citeseer.ist.psu.edu/mizzaro96relevance.html"

13

Keyword (Parole chiave)

• Una keyword e’ costituita di una o piu’ parole

– rugby, Scozia, Italia

– 6 Nazioni, Istituto di Fisica Matematica

• Costituiscono la nozione piu’ semplice di

attinenza, i.e.

– Occorrenza letterale nel testo

• Unico compromesso:

– Le parole definite come keyword debbono apparire

frequentemente nel documento, indipendentemente

del loro ordine (bag of words).

14

Limitazioni delle keywords

• (Silenzio) non vengono trovati documenti che

includano (solo) termini sinonimi

– “imposta” vs. “tassa”, “basket” vs. “pallacanestro”

– “Stati Uniti” vs. “USA”

• (Rumore) vengono ritrovati documenti che

includono termini ambigui

– “imposta” (finestra vs. tassa)

– “Apple” (company vs. frutta)

– “operare” (in mercato vs. chirurgia)

– “Jaguar” (macchina vs. software)

Ambiguità

Variabilità

15

… oltre le keywords

• Le tecniche keyword-based e soprattutto …

• … estensioni e sviluppi recenti più espressivi

• Cenni alle implementazione di sistemi IR

• Modelli e metodi piuttosto che sistemistica

• Apprendimento automatico per il sostegno allo sviluppo su larga scala

• Legami con altre discipline: AI, SW e SE

16

IR intelligente

• Rendere sensibile il sistema al significato delle

parole

– Es. imposta/tassa, imposta/finestra

• Considerare l’ordinamento delle parole della

interrogazione

– Es. computer science vs. science and computers

• Considerare l’utente sulla base di un “feedback”

esplicito o implicito

• Considerare informazioni sulla sorgente (ad es.

autorità/affidabilità delle fonti)

17

Architettura di un sistema di IR

OPERAZIONI sul testo

Testo

ORDINAMENTODocs

Ordinati

OPERAZIONI

sulla Query

RICERCA

Documenti

Trovati

Query

Database

Testi

Database

Manager

User

Feedback

User

Need

INDICIZZAZIONE

INDICI

Inverted

file

INTERFACCIA Utente

18

Sistemi di IR: Componenti

• Operazioni sui Testi

– Selezione degli indici.

– Rimozione delle Stopword

– Stemming/Lemmatizzazione

19

Operazioni sui Testi.

20

Sistemi di IR: Componenti (2)

• INDICIZZAZIONE

– Costruisce l’indice inverso:

parole riferimenti ai documenti

• RICERCA: trova i documenti che includono

un elemento della interrogazione (usando

l’indice inverso)

• ORDINAMENTO dei documenti trovati

secondo i valori di attinenza.

21

Sistemi di IR: Componenti (3)

• Interfacce utente: gestiscono le interazioni

– Inserimento interrogazione e visualizzazione dei documenti.

– Relevance feedback.

– Visualizzazione dei risultati.

• Operazioni sulla Query: trasformano la query per migliorare le prestazioni:

– Espansione (Query expansion), per es. mediante un thesaurus.

– Trasformazione (pesatura) mediante relevance feedback.

24

IR: Ulteriori task

• Categorizzazione Automatica di Documenti

• Information filtering (spam filtering)

• Information routing

• Document clustering

• Recommending information or products

• Information extraction and Summarisation

• Question answering

• Opinion Mining

25

IR: Storia

• 1960-70’s:

– Esplorazione iniziale per piccole collezioni

(abstract scientifici, leggi e documenti

commerciali).

– Sviluppo del modello booleano di base e del

Vector-Space Model

– Salton et al. @ Cornell University

26

IR: Storia (2)

• 1980’s:

– Database documentali di enormi dimensioni

– Alcuni gestiti da imprese:

• Lexis-Nexis

• MEDLINE

27

IR: Storia

• 1990’s:

– Ricerca di documenti attraverso Internet (FTP)

• Archie

• WAIS

– Ricerca nel World Wide Web

• Lycos

• Yahoo

• Altavista

28

IR: Storia

• 1990’s continued:

– Competizioni

• NIST TREC

– Sistemi di raccomandazione

• Amazon

• NetPerceptions (collaborative filering)

– Categorizzazione automatica di documenti e &

document clustering

29

Storia Recente

• 2000’s

– Link analysis

• Google

– Information Extraction

• MUC conferences (80’s-90’s)

• Portali (WonderPort, Radiocor)

• Content Management (NetOWL, TREVI, NAMIC)

– Question Answering

• TREC Q/A track

30

IR : Storia recente

• 2000’s:

– Multimedia IR

• Immagini

• Video

• Audio e music

– Cross-Language IR

• DARPA Tides

– Sommarizzazione di Documenti

31

IR: Contiguita’ Disciplinare

• Database Management

• Library and Information Science

• Artificial Intelligence

• Natural Language Processing

• Machine Learning

32

Database Management

• Focus su dati strutturati memorizzati in tabelle

relazionali non in testo libero.

• Focus su elaborazione efficiente di interrogazioni

in linguaggi formali non ambigui (SQL).

• Semantica chiara di dati ed interrogazioni.

• DB distribuiti: interoperabilità

• Trend verso dati semi-strutturati (XML) cioe’

verso problemi simili a quelli di IR/AI.

33

Library and Information Science

• Focus sugli aspetti di utilizzabilità dell’IR (interazione uomo-macchina, interfacce e visualizzazione).

• Centralità della conoscenza umana (categorizzazione e accessibilità)

• Focus su bibliometria (e.g. citation analysis)

• Trend relativo alle digital librariesavvicina a CS e IR.

34

Artificial Intelligence

• Focus sulla rappresentazione, gestione ed uso della conoscenza e sul ragionamento.

• Formalismi per rappresentare conoscenze ed interrogazioni :

– Logica dei predicati del primo ordine

– Reti bayesiane

• Semantic Web: ontologie e acceso all’informazione intelligente (interoperabilita’ semantica).

35

Natural Language Processing

• Focus sul trattamento automatico della

lingua (analisi sintattica, semantica e

pragmatica nei testi e nel dialogo).

• Sintassi (cioè struttura sintagmatica dei

testi) e semantica come strumenti di

approssimazione del significato di un testo

36

NLP: verso l’IR

• Word Sense Disambiguation

• Information Extraction

• Question Answering.

• NL Learning vs. Learning for IR

37

Machine Learning

• Focus sullo sviluppo di sistemi software che migliorano le proprie prestazioni tramite l’esperienza.

• Classificazione Automatica mediante apprendimento supervisionato da esempi (supervised learning).

• Metodi automatici di clustering di documenti in classi significative (unsupervised learning for KM).

38

Machine Learning:

direzioni verso l’IR

• Categorizzazione dei Testi

– Classificazione Automatica Gerarchica (es. Yahoo).

– Filtering/Routing/Reccomendation Adattivi

– Automated spam filtering.

• Clustering dei Testi

– Clustering dei risultatio di IR queries.

– Sviluppo automatico di gerarchie di classi (Yahoo).

• Appprendimento Automatico per l’Information Extraction

• Text Mining

• Analisi dei dati del Web 2.0 (Social Web Mining)

Text Clustering: Vivisimo

39

WSD

40

TOPICS

41

Sommario

• Perche’ l’IR è importante

• Cos’e’ l’IR

– Breve storia

• Come funziona un sistema generico di IR

• Cosa significa IR “intelligente”

• Quali sono le relazioni di questa tecnologia

con altre aree della CS

Documents

Corso di Web Mining & Retrieval - uniroma2.it · lingua (analisi sintattica, semantica e pragmatica nei testi e nel dialogo). •Sintassi (cioè struttura sintagmatica dei testi)