Upload
alfredo-de-simone
View
218
Download
0
Embed Size (px)
Citation preview
Tecniche per l’esecuzione Tecniche per l’esecuzione efficiente di efficiente di
interrogazioni sul interrogazioni sul contenuto in collezioni contenuto in collezioni
MPEG-7MPEG-7
Università degli Studi di Modena e Reggio EmiliaUniversità degli Studi di Modena e Reggio Emilia
Facoltà di Ingegneria – Sede di ModenaFacoltà di Ingegneria – Sede di ModenaCorso di Laurea Specialistica in Ingegneria Informatica - Corso di Laurea Specialistica in Ingegneria Informatica - NODNOD
Relatore:Relatore:
Prof. Paolo TiberioProf. Paolo Tiberio
Correlatori:Correlatori:
Dott. Federica MandreoliDott. Federica Mandreoli
Ing. Riccardo MartogliaIng. Riccardo Martoglia
Anno accademico 2004-2005Anno accademico 2004-2005
Alessandro TonelliAlessandro Tonelli
Ambito di Ambito di ricerca:ricerca:
Progetto europeo DELOS (A Network of Progetto europeo DELOS (A Network of Excellence on Digital Libraries)Excellence on Digital Libraries)
Sviluppo di tecnologie su digital librariesSviluppo di tecnologie su digital libraries
ObiettivoObiettivo
Ambito di indagine Ambito di indagine della tesi:della tesi:
Sviluppo di tecniche che permettano di interrogare Sviluppo di tecniche che permettano di interrogare dati video utilizzando misure di similaritàdati video utilizzando misure di similarità
Interrogazioni sul contenuto in collezioni MPEG-7Interrogazioni sul contenuto in collezioni MPEG-7
ObiettivoObiettivo
Problematiche affrontateProblematiche affrontate
Analisi stato dell’arteAnalisi stato dell’arte
Ricerche di similaritàRicerche di similarità
Modifiche al sistema XSiterModifiche al sistema XSiter
MPEG-7MPEG-7
MPEG-7 è uno standard ISO/IEC formalmente MPEG-7 è uno standard ISO/IEC formalmente chiamato “Multimedia Content Description chiamato “Multimedia Content Description Interface”, che fornisce un insieme di specifiche Interface”, che fornisce un insieme di specifiche e strumenti per la descrizione, attraverso e strumenti per la descrizione, attraverso metadatimetadati, di contenuti di tipo multimediale., di contenuti di tipo multimediale.
Esso descrive le informazioni multimediali Esso descrive le informazioni multimediali attraverso una rappresentazione testuale attraverso una rappresentazione testuale ((XMLXML) che facilita l’identificazione, il ) che facilita l’identificazione, il filtraggio, la ricerca, il reperimento e la filtraggio, la ricerca, il reperimento e la gestione dei dati multimediali, siano essi file gestione dei dati multimediali, siano essi file audio, filmati o immagini.audio, filmati o immagini.
MMDBMSMMDBMS
Un MultiMedia DataBase Management Un MultiMedia DataBase Management System fornisce un ambiente adatto per System fornisce un ambiente adatto per utilizzare e gestire dati multimediali.utilizzare e gestire dati multimediali.
Deve:• fornire mezzi per l’indicizzazione ed il
recupero efficiente delle informazioni• supportare modelli concettuali dei dati
multimediali• gestire l’ottimizzazione delle query e il
processing delle stesse.
Soluzioni database XMLSoluzioni database XML
nativenative estensioniestensioni
eXcelon XIS
GoXML DB
Infonyte-DB
TEXTML
Tamino
X-Hive/DB
Xindice
eXist
Lore
Natix
TIMBER
IBM DB2 XML Extender
Microsoft SQLXML
Oracle XML DB
ozone/XML
Monet XML
Shimura et al.
XML Cartridge
Oracle XML DB/Structured Mapping
Commercial
Opensource
Nativedatabasesolutions Unstructured storage Structured storage Mapping
Database extensions
dbXML
ResearchPDOM
Querying di dati MPEG-7Querying di dati MPEG-7
feature-feature-based based
queryingquerying
semantic semantic queryingquerying
si riferisce alle tecniche che si riferisce alle tecniche che si concentrano sulle si concentrano sulle caratteristiche audiovisive di caratteristiche audiovisive di basso livello (colore, forma, basso livello (colore, forma, ecc.) ecc.)
si riferisce all’interrogazione si riferisce all’interrogazione basata su semantiche di livello basata su semantiche di livello più alto che sono più vicine alle più alto che sono più vicine alle interpretazioni dell’utente ed interpretazioni dell’utente ed ai contesti d’uso.ai contesti d’uso.
--
--
Processing di Processing di query…query…
Problematiche affrontateProblematiche affrontate
Analisi stato dell’arteAnalisi stato dell’arte
Ricerche di similaritàRicerche di similarità
Modifiche al sistema XSiterModifiche al sistema XSiter
Ricerca di similaritàRicerca di similarità
estrarre da ciascun oggetto N caratteristiche numeriche e mappare gli oggetti in punti di uno spazio vettoriale N-dimensionale
usare una distanza opportuna su tale spazio e cercare oggetti “vicini” usando un indice multi-dimensionale (“spaziale”) (bassa distanza = alta similarità)
Definizione della “similarità” tra due oggetti qualsiasi
Supporto per interrogazioni che richiedono oggetti “simili”
riguarda l’efficacia
riguarda efficacia ed efficienza
Alberi metriciAlberi metrici
Gli alberi metrici considerano soltanto le Gli alberi metrici considerano soltanto le distanze relativedistanze relative degli oggetti (piuttosto che degli oggetti (piuttosto che le loro posizioni assolute in uno spazio le loro posizioni assolute in uno spazio multidimensionale) per organizzare e multidimensionale) per organizzare e partizionare lo spazio di ricerca e partizionare lo spazio di ricerca e richiedono solo che la richiedono solo che la funzionefunzione usata per usata per misurare la distanza (dissimilarità) fra gli misurare la distanza (dissimilarità) fra gli oggetti sia una oggetti sia una metricametrica di modo che si possa di modo che si possa applicare la proprietà della applicare la proprietà della disuguaglianza disuguaglianza triangolaretriangolare e possa essere usata restringere e possa essere usata restringere lo spazio di ricerca.lo spazio di ricerca.
M-treeM-tree Rappresenta un albero bilanciato e dinamicoRappresenta un albero bilanciato e dinamico Memorizza tutti gli oggetti nelle foglie dell’alberoMemorizza tutti gli oggetti nelle foglie dell’albero I suoi nodi interni contengono i cosiddetti routing I suoi nodi interni contengono i cosiddetti routing
objectobject
Or (valore del) routing object
ptr(T(Or)) puntatore alla radice of T(Or)
r(Or) covering radius of Or
d(Or, P(Or))distanza di Or dai suoi
genitori
Oj (valore del) DB object
oid(Oj) identificatore dell'oggetto
d(Oj, P(Oj))distanza di Oj dai suoi
genitori
routing object Orouting object Or r
DB object ODB object Oj j
range queryrange query (tutti i punti aventi una distanza (tutti i punti aventi una distanza dalla query minore di una soglia)dalla query minore di una soglia)
kk nearest neighbor query nearest neighbor query (i (i kk punti più vicini alla punti più vicini alla query)query)
Interrogazioni di Interrogazioni di similaritàsimilarità
r(N)
ONQ
O
d(Q,ON)
d(O,Qd(O,Q) ) ≤ ≤
A
D
C
B
ddminmin(Q,N) minima(Q,N) minima
Problematiche affrontateProblematiche affrontate
Analisi stato dell’arteAnalisi stato dell’arte
Ricerche di similaritàRicerche di similarità
Modifiche al sistema XSiterModifiche al sistema XSiter
Architettura di XSiterArchitettura di XSiter
Core System
GUI
Query Importer
Doc Importer Internal Doc Representation
Query Engine
Internal Query Representation
Result Visualizer
Datastore
Query Language
Query Specifier
Doc.xml
Offline Process
Query Engine
Doc Filter
Range Filter
Query Processor
For Each Document
Scan Range
Results
Query Value Constraints
Document Qualifying Nodes
InputDocuments
InputQuery
FilteredDocuments
Set
Doc Signature
Doc Content BasedIndexes
“...”
Query Engine di XSiterQuery Engine di XSiter
ContentIndex
InvertedIndex
SimilarityIndex
Modifiche alla struttura Modifiche alla struttura degli indicidegli indici
query query esatteesatte
query query approssimateapprossimate
ContentIndexes
InterrogazioniInterrogazioni
Setting considerato: Setting considerato:
Digital library multimediale contenente Digital library multimediale contenente video di video di Formula 1 e i loro Formula 1 e i loro metadatimetadati MPEG-7MPEG-7
““Recupera tutti i video clip annotati Recupera tutti i video clip annotati come come camera carscamera cars””
““Recupera tutti i video clip Recupera tutti i video clip riguardanti riguardanti FerrariFerrari camera carscamera cars””
Exact value matchExact value matchSimilarity matchSimilarity match
Data treeData tree
videovideo
image1image1
scalable scalable colorcolor
dominadominant colornt color
image2image2
colorecolore formaforma
scalablscalable colore color
colorecolore
dominandominant colort color
Twig queryTwig query
videovideo
Interrogazione di Interrogazione di similaritàsimilarità
““Recupera tutti i video clip relativi a Recupera tutti i video clip relativi a camera cars camera cars con auto di colore con auto di colore
rossorosso””
Conclusioni:Conclusioni:Col lavoro di tesi si è avuta la possibilità di studiare concetti Col lavoro di tesi si è avuta la possibilità di studiare concetti legati ai sistemi database multimediali e alla sottomissione legati ai sistemi database multimediali e alla sottomissione ed elaborazione di interrogazioni sugli stessi con ed elaborazione di interrogazioni sugli stessi con particolare attenzione alla ricerca di similarità. Si è quindi particolare attenzione alla ricerca di similarità. Si è quindi proceduto ad estendere un software di notevoli dimensioni proceduto ad estendere un software di notevoli dimensioni (XSiter) con funzionalità di similarità attraverso una (XSiter) con funzionalità di similarità attraverso una minuziosa opera di reingegnerizzazione approfondendo tra minuziosa opera di reingegnerizzazione approfondendo tra l’altro il linguaggio di programmazione Java, la libreria XXL l’altro il linguaggio di programmazione Java, la libreria XXL e gli standard XML e MPEG-7 e gli standard XML e MPEG-7
Sviluppi futuri:Sviluppi futuri:•Miglioramento strategie di inserimento e Miglioramento strategie di inserimento e politiche di splitpolitiche di split•Utilizzo di altre funzioni di distanza Utilizzo di altre funzioni di distanza approssimataapprossimata•Risoluzione di interrogazioni più complesseRisoluzione di interrogazioni più complesse•Estensioni nel sottosistema GUI di XSiterEstensioni nel sottosistema GUI di XSiter•Ulteriori prove sperimentaliUlteriori prove sperimentali