View
285
Download
0
Category
Preview:
DESCRIPTION
Enormes volumes de dados têm sido coletados por uma variedade de dispositivos e sistemas de informação, tais como redes de sensores e a Web social. Muitos desses dados (como por exemplo, documentos, dados multimídia e séries temporais) são categorizados como complexos, pois sua representação não se restringe a campos numéricos ou strings curtas. Esta palestra faz uma breve descrição das pesquisas sendo realizadas pelo grupo de bancos de dados da UFSC, em cooperação com outras instituições nacionais e estrangeiras, na área de gerência e análise de grandes volumes de dados complexos, comênfase em dados semi-estruturados, imagens
Citation preview
05/11/2012
1
1
PD&E em Bancos de Dados Complexos
no GBD-UFSC
Carina F. Dorneles
Renato Fileto
Ronaldo S. Mello
Vânia Bogorny
GBD/UFSC
� Objetivo: Pesquisa e desenvolvimento de soluções paraproblemas de gerenciamento de dados
� Ênfase: Dados complexos e não-convencionais (documentos, XML, Web, espaciais, temporais, multimídia, redes, …)
� Corpo Docente
Ronaldo S. MelloDr., UFRGS, 2002Pos-doc, University of Utah, 2010
BDs Web, cloud DBs, NO-SQL, dados semi-estruturados
Renato FiletoDr., UNICAMP, 2003Pos-doc, USP 2011-2012
Recup. informação, semântica, contextos, DWs espaço-temporais
Carina F. DornelesDra., UFRGS, 2006
BDs Web, dataspaces, dados semi-estruturados, similaridade
Vania BogornyDra., UFRGS, 2006Pos-doc, Hasselt Univ., 2007Pos-doc, UFRGS, 2008
Trajetórias de objetos móveis, BDs espaço-temporais
Prof. Renato Fileto
Profa. Vania Bogorny
fileto@inf.ufsc.br
2012 / 2
Case study: dermatology
• Individual: woman• Body part: tight• Age: 28 years old• History: tuning booth use• Change: darkening color
• Biopsy result: Early Melanoma
• Body part: cheek• Change: darkening color
• Diagnose: Early Melanoma
Analytical procedures vary with the equipment used to gather the image, body part, age of the patient, history, etc.
A particular focus: human faces Complex data retrieval
R = { < a1 , … , ad , s1 , … , sn > }
Where:
• ai ∈∈∈∈ Di is a set of values from the domain Di (1 ≤ i ≤ d )
used to identify and describe the tuple
• sj ∈∈∈∈ Sj is a complex data object, with associated
metadata and extracted features, from a collection S
(1 ≤ j ≤ n , 1 ≤ n < N = |S|)
Associated conventional
data
Complex Objects
05/11/2012
2
Consultas por similaridade e metadados
SELECT id, Name, Age, PicFROM SocialWebTabWHERE 20 <= Age < 30 AND Pic NEAR ( SELECT PicFROM SocialWebTabWHERE name = “Pelé” ) STOP AFTER 10;
SELECT E.diagnosis, E.ImgFROM Exam E INNER JOIN Patient P ON E.idP = P.idPWHERE P.Age < 30 and Exam.bodyPart = “tight” AND E.Img NEAR 'D:\Images\sk_11424_0.jpg'BY Texture RANGE 0.0265;
Fragmentos de dados Bases de dados e ferramentas
CoPhIR – 110 milhões de imagens e metadados do FLICKR
MIRFLICKR – milhares de imagens anotadas do FLICKR
CLEF – imagens médicas e da Wikipedia anotadas
Base de Telemedicina de Santa Catarina – fragmentos
SISAP – bases de dados e biblioteca de índices métricos
SIREN – sistema que suporta consultas por similaridade
FMI-SIR – biblioteca suportando consultas por similaridade via índices métricos no Oracle
Oracle Intermedia – extensões do Oracle para tratamento de dados multimídia
Cooperações
LAPIX/UFSC, LabTelemed/UFSC
ICMC/USP – São Carlos – SP
IC/UNICAMP – Campinas – SP
UEL – Londrina – PR
ISTI/CNR – Pisa – Itália
DW Celesc
05/11/2012
3
Análise de informação (drill-down)
Maio / 2010
Temporal analysis
Análise de informação (Trace)
Junho / 2010Abril / 2010
Spatial temporal DBs andsemantic tractories
Feature Type: Hotel
Goal Types: DayStaying, RiverScenery, HistoricScenery,EuropeanCuisine
Feature Type: Cafe
Goal Types: ItalianCuisine, RiverScenery,LiveMusic
Feature Type: Restaurant
Goal Types: TuscanCuisine, HistoricScenery
Extending SMoT for nested sites
05/11/2012
4
Performance comparison
Stops found
Running time with nested regions
Running time without nested regions
Bases de dados e ferramentas
Milan – trajetórias GPS de veículos privados
Tuscany Mobility – trajetórias GSM de pessoas
Rio – trajetórias GPS de veículos
Florianópolis – colhendo trajetórias via GPS
Weka – com extensões para tratar trajetórias
Ferramentas para DWs
Ferramentas para BDs geográficos
Ferramentas para gerência de ontologias e anotações
Cooperações
ISTI/CNR – Pisa – Itália
Un. Ca’ Foscari – Veneza - Itália
UPRC – Atenas - Grécia
Univ. New Brunswick – Fredericton – Canada
UFPE – Recife – PE
UFCE – Fortaleza – CE
PUC-Rio – Rio de Janeiro – RJ
Embrapa, Epagri, Celesc, Defesa Civil
Prof. Ronaldo S. Mello
Profa. Carina F. Dornelles
ronaldo@inf.ufsc.br
2012 / 2
Tópicos Gerais de Pesquisa
● Dados na Web● Atividades
– Extração, integração e consulta por similaridade a dados relevantes em fontes de dados na Web
– Principais fontes de dados● Web forms (“Deep web” ou BDs escondidos), Web tables, Docs XML
● BDs nas Nuvens (BDs No-SQL)● Atividades
– Integração, consulta por similaridade, mapeamento relacional-NoSQL
● Ferramentas para gerência de dados de propósitogeral
Dados na Web - TCCs
● Web Forms (Deep Web)
➔ Interface gráfica para um sistema de busca por similaridade paraWeb forms (WF-Sim - já implementado)
➔ Definição de consultas (filtros) e exibição ranqueada do resultado
➔ Incorporação do WF-Sim ao DeepPeep
➔ Tornar o WF-Sim um módulo do DeepPeep
➔ DeepPeep: máquina de busca para Web forms mais popular
● Web Tables
➔ Descoberta (usando similaridade) e catalogação de equivalências(mapeamentos) entre tabelas heterogêneas no mesmo domínio
➔ Integração de tabelas heterogêneas (em tabelas globais)
➔ Decomposição de consultas sobre tabelas globais
➔ Integração de resultados de consultas sobre cada Web table
05/11/2012
5
BDs nas Nuvens - TCCs
● Integração de BDs No-SQL➔ Descoberta (usando similaridade) de BDs No-SQL
equivalentes
➔ Com o mesmo modelo de dados ou com modelosdiferentes (chave-valor, multi-coluna, documento, ...)
➔ Integração de BDs No-SQL equivalentes
➔ Consulta integrada a BDs No-SQL heterogêneos
● Mapeamento de BDs relacionais ↔ BDs No-SQL➔ Descoberta de equivalências
➔ Definição/catalogação de mapeamentos
Ferramentas de Propósito Geral- TCCs
● Ferramentas de apoio ao ensino de BD
➔ Exemplos:
➔ Simuladores de SGBDs relacionais
➔ otimização de consultas, recovery, scheduler, ...
➔ Interfaces gráficas para aprendizado de linguagensde acesso a BDs relacionais
➔ SQL, álgebra relacional, ...
➔ Normalização
➔ Engenharia reversa de BDs relacionais
Perguntas?
Recommended