View
62
Download
5
Category
Preview:
DESCRIPTION
Minerando Dados Multimídia. Ernesto Trajano de Lima Klebson dos Santos Silva. Situações do dia-a-dia. Imagine que seu álbum de família está armazenado digitalmente. Como achar todas as fotos onde você aparece??? - PowerPoint PPT Presentation
Citation preview
Minerando Dados Multimídia
Ernesto Trajano de Lima
Klebson dos Santos Silva
Situações do dia-a-dia
Imagine que seu álbum de família está armazenado digitalmente. Como achar todas as fotos onde você aparece???
Como recuperar imagens, vídeos, textos e/ou áudios sobre acidentes com ônibus espaciais para mostrar no jornal da noite???
Todos já passaram por situações onde lembram da melodia de uma música, mas não conseguem lembrar o nome. Como recuperá-la apenas cantarolando parte da melodia???
Roteiro
Definição Motivação Estado da Arte Minerando Imagem e Vídeo Minerando Sons
Definição
Sub-área da mineração de dados que trata da extração de conhecimento implícito, relações entre dados multimídia, ou outros padrões não explicitamente armazenados no banco de dados multimídia.
Multimídia = imagens, vídeos, sons, textos,web, etc.
Motivação
Grande quantidade de dados multimídia disponível;– Especialmente na web
Popularidade de banco de dados objeto-relacional
A necessidade crescente de banco de dados multimídia
Estado da Arte
É uma área incipiente;– Muita pesquisa, poucos resultados substanciais
Desperta o interesse de grande empresas– HP
• http://crl.research.compaq.com/vision/multimedia/default.htm
– IBM• http://www.almaden.ibm.com/
– ScanSoft (http://www.scansoft.com)• Software utilizado pelo sistema penitenciário dos EUA para
detectar atividades ilegais nas conversas telefônicas dos prisioneiros
Minerando Imagem e Vídeo
Abordagens
Busca por similaridade:– Divide-se em duas famílias principais
• Baseada na descrição– Palavras-chaves, legendas, tamanho, hora de
criação, etc.
• Baseada no conteúdo– Histograma de cores, texturas, forma, objetos,
transformações de wavelets
Abordagens
Busca baseada em conteúdo oferece dois tipos de consultas:– Baseadas em amostra– Baseadas em especificação das características
As consultas são feitas através das assinaturas das imagens– Histograma de cores– Composição de características– Wavelet– Wavelets com granularidade baseada em região
Áreas de aplicação
Diagnóstico médico Previsão do tempo Engenho de busca para imagens
Abordagens
Análise de dados multimídia– Exemplo: construção de cubos OLAP para
analisar imagens, vídeos e sons em função de suas características (dimensões)
Classificação e Predição
Ferramentas e aplicações
Query By Image Content (IBM)
Ferramenta de busca feita pela IBM Disponível nos componentes DB2 Image
Extenders Permite consultas em banco de imagens
baseadas no conteúdo visual– Porcentagens de cores, layout de cores, texturas
A consulta pode conter textos (palavras-chaves) para melhorar performance
Usada em alguns sites da Internet
MultiMediaMiner
Sistema protótipo de mineração multimídia– Permite construção de cubos de dados multimídia
Resultado da união da experiência adquirida com dois sistemas:– DBMiner sistema analítico de mineração de
dados (http://db.cs.sfu.ca/DBMiner)– C-BIRD sistema para recuperação de imagens
baseada em conteúdo (http://jupiter.cs.sfu.ca/cbird)
MultiMediaMiner
Image Excavator
C-BIRDPre-Processor
C-BIRDSearch Engine
M-MinerUser Interface
M-MMinerDiscoveryModules
C-BIRD DatabasesMultimedia Data Cube
Image and Videorepository
MultiMediaMiner
Observações:– Vídeos são segmentados na detecção de
mudança de cena• Cada segmento é represento por um ou mais
frames, que serão tratados como imagens
– A imagem original não é salva no banco de dados
MultiMediaMiner
Para cada imagem coletada são armazenados:– Informações descritivas
• Nome do arquivo, URL, tipo (gif, jpeg, mpeg), páginas que referenciam a imagem, palavras-chaves, thumbnail
– Descritor de características• Conjunto de vetores para cada característica visual
(histograma de cores, cor mais freqüente)
– Descritor de layout• Vetor sobre layout de cores
MultiMediaMiner
Módulo de mineração inclui os seguinte sub-módulos:– MM-Characterizer fornece um conjunto
de características em diferentes níveis de abstrações
• Provê diversos níveis de visões dos dados através de roll-up e drill-down
MultiMediaMiner
MultiMediaMiner
MM-Associator Encontra regras de associação a partir de um conjunto de imagens– Usa o algoritmo apriori– X Y [suporte%, confiança%]– Exemplo: “Se uma imagem é grande e
relacionada com o céu, ela é azul com probabilidade de 68%”
MultiMediaMiner
MultiMediaMiner
MM-Classifier– classifica dados
multimídia baseados em algumas classes pré-definidas
– Essa classificação representada como uma árvore de decisão pode ser usada para predição
MultiMediaMiner
Palavras-chaves também são utilizadas para classificar facilitar a manipulação de grande conjunto de dados
São derivadas de informações tais como:
• Nome do arquivo• Campo ALT da tag IMG• Título e cabeçalho da página html• Textos antes e depois da imagem
MultiMediaMiner
MultiMediaMiner
Minerando Sons
Mineração de Sons
Cenário 1: auditoria Cenário 2: Napster Duas possibilidades:
– Mineração da fala (speech mining): televisão/rádio, monitoramento de conversas ao telefone, etc.
– Mineração de músicas (musical mining): recuperação de músicas baseando-se na busca por conteúdo
A Indústria da Música
3.459.000 de unidades (singles, LPs, fitas, CDs)
US$ 38.506.000 de faturamento Crescimento de 2,6% ao ano desde 1991 600.000 empregos diretos (apenas na
Europa, sem contar academia).
Fonte: IFPI. Recording Industry in Numbers. IFPI: Londres,
2000.
Mineração e Música
Duas representações:– Simbólica: texto, MIDI, etc– Áudio: sinal contínuo
Dificuldade
Melodia não é apenas uma concatenação de notas– Relações entre diferentes níveis de
abstração: alturas, intervalos, contorno melódico
– Relações com outras dimensões: tempo, posição métrica
subjetividade: música alegre, triste, etc
Arquitetura Geral
Mineração e Análise
Musicologia comparativa: análise, classificação e visualização a partir da observação estatística de uma grande massa de dados. – Exemplo: http://www.jyu.fi/musica/essen
Entrada do Sistema
Representação simbólica da música (melodia) Dados: 6.252 canções folclóricas alemãs e 2.226
canções folclóricas chinesas Vantagens:
– Evita a fase de limpeza e preparação dos dados– Possui meta-dados (palavras-chave): gênero, região
geográfica, tipo de ritmo, tonalidade e uma descrição em linguagem natural do conteúdo.
Extração de características
Análise estatística– Distribuição das alturas,
intervalos e durações.– Distribuição das
transições de alturas, intervalos e durações.
Resultado: conjunto de vetores (várias dimensões)
Construção dos SOMs
Diminuir dimensionalidade
Cada vetor é a entrada de uma rede neural
Construção do Super SOM
Ferramentas
Ferramenta 1: Visualização dos Resultados– Canções com características similares
estão próximas
Ferramenta 1
Ferramentas (cont.)
Ferramenta 2: Visualização dos resultados estatísticos
Ferramenta 3: Agrupamento – Permite a análise de características
estilísticas
Trabalhos Futuros
Levar em conta outros parâmetros: – contorno melódico, saliência do evento de
acordo com a posição métrica, etc.
Usar arquivos áudio
Biblioteca Digital da Nova Zelândia
http://www.nzdl.org/cgibin/music/musiclibrary
MELody inDEX (MELDEX): recuperar melodias de um banco de dados
Entradas: notação simbólica ou áudio
(cantado em um microfone).
Visão Geral
Áudio => preprocessamento: – Amostra do sinal– Transcrição: aplicação de filtros para
estimar a freqüência fundamental– Inícios e fins: canta-se com “da” ou “ta”
Busca de strings– Programação dinâmica para fazer
aproximação de strings
Conclusões
Vem despertando interesses diversos Área com publicações recentes e
ferramentas incipientes Poucas referências unificadoras
– http://link.springer.de/link/service/series/0558/tocs/t2558.htm
Tem real aplicação no mundo
Recommended