29
Reconhecimento de Palavras Isoladas Utilizando Fluxo ´ Optico e Redes Neurais Artificiais atrav´ es de Informa¸c˜ oes Visuais Thiago V. D. Ferraz 1 Dr. Gustavo F. Rodrigues 2 1,2 Departamento das Engenharias de Telecomunica¸c˜oes e Mecatrˆonica Universidade Federal de S˜ ao Jo˜ ao del-Rei XXXIII Simp´ osio Brasileiro de Telecomunica¸c˜ oes Juiz de Fora - MG Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 1 / 29

Reconhecimento de Palavras Isoladas Utilizando Fluxó Optico e Redes Neurais Artificiais através de Informações Visuais

Embed Size (px)

Citation preview

Reconhecimento de Palavras Isoladas Utilizando FluxoOptico e Redes Neurais Artificiais atraves de

Informacoes Visuais

Thiago V. D. Ferraz1 Dr. Gustavo F. Rodrigues2

1,2Departamento das Engenharias de Telecomunicacoes e MecatronicaUniversidade Federal de Sao Joao del-Rei

XXXIII Simposio Brasileiro de TelecomunicacoesJuiz de Fora - MG

Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 1 / 29

Roteiro

1 Introducao

2 Objetivos

3 Toolbox de Visao Computacional

4 Fluxo Optico

5 Analise de Componentes Principais

6 Metodologia

7 Resultados

8 Consideracoes Finais

Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 2 / 29

Introducao

Sistemas de reconhecimento de fala que utilizam somente informacoesacusticas possuem limitacoes em seu desempenho, como: falta derobustez devido ao ruıdo.

MotivacaoDiversos estudos tem demonstrado que a combinacao de informacoesvisuais em sistemas reconhecedores de fala pode melhorar significativa-mente sua robustez.Surge o Reconhecimento de fala audiovisual (AVSR, Audio Visual SpeechRecognition).

Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 3 / 29

Introducao

A partir do AVSR, surge uma nova abordagem de estudos que se mostrapromissor.

Reconhecedor de fala que utiliza caracterısticas de natureza nao acustica.

(VSR, Visual Speech Recognition).

Principal vantagem: imune as pertubacoes no canal acustico.

Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 4 / 29

Objetivos

Implementacao de um sistema VSR utilizando como plataforma de de-senvolvimento o MATLAB (Matrix Laboratory).

Combinacao de duas tecnicas extratoras caracterısticas visuais.

Fluxo Optico (Optical Flow).

Analise de Componentes Principais (PCA, Principal Component Analy-sis).

Obter reconhecimento dos dıgitos de 0 a 9, atraves do classificador dedados, Redes Neurais Artificiais (ANNs, Artificial Neural Networks).

Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 5 / 29

Sistema Proposto

DadosVisuais dos

Dıgitos(Vıdeo)

Deteccao Labial Fluxo Optico PCARedes Neurais

Artificiais

Taxa deAcertos

Figura: Proposta do Sistema de Reconhecimento

Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 6 / 29

Toolbox de Visao Computacional

Sistema de ferramentas de Visao Computacional do MATLAB.

Fornece algoritmos, funcoes e aplicativos para simulacao de projetos devisao computacional e processamento de vıdeo.

Deteccao de objetos.

Extracao de caracterısticas.

Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 7 / 29

Fluxo Optico - Horn-Schunck

Vantagenssuavizacao do fluxo;precisao no calculo das derivadas temporais, utilizando mais de doisframes.

Desvantagemmetodo iterativo: lento.

Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 8 / 29

Fluxo Optico - Lucas-Kanade

Vantagenscalculo rapido e facil;precisao no calculo das derivadas temporais.

Desvantagemerros nos limites da imagem.

Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 9 / 29

Analise de Componentes Principais

PCA (Principal Component Analysis).

E uma formulacao matematica usada na reducao da dimensao de dados.

Permite encontrar padroes nos dados podendo comprimi-los sem muitaperda de informacao.

Utilizado em:

compressao de imagens;representacao dos dados;

Reduz o custo computacional em certos processamentos, como o re-conhecimento de padroes.

Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 10 / 29

Metodologia

Capturado Vıdeo

SegmentacaoTemporal

Banco de Dados Deteccao da ROI

Fluxo Optico LimiarizacaoNormalizacao dos

Frames

PCAClassificacao -

RNA

Resultadosdo Reco-

nhecimento

Figura: Metodologia

Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 11 / 29

Captura das Imagens

Camera de 14 Megapixels;

formato MOV;

Modo de gravacao na resolucao 640x480 pixels

30 frames/segundos

Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 12 / 29

Segmentacao Temporal

Software de edicao de vıdeo, Sony Vegas.

Identificacao do inıcio e fim de cada palavra.

Conversao para o formato MPEG-4, resolucao 240x320 pixels.

MPEG-4 possui alta taxa de compressao e elevada qualidade.

Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 13 / 29

Banco de Dados

200 amostras de fala dos dıgitos de 0 a 9;

20 gravacoes para cada dıgito.

Figura: Estrutura do Banco de Dados

Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 14 / 29

Deteccao da Regiao de Interesse - ROI

Deteccao das informacoes linguısticas relevantes;Utiliza a funcao CascadeObjectDetector ;Recebe como parametro a string “Mouth”;

Figura: Deteccao da Boca

O Banco de Dados e atualizado com os novos vıdeos;Cada palavra e composta por um vıdeo de 10 frames (Apos a seg-mentacao temporal).

Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 15 / 29

Calculo do Fluxo Optico

Foram utilizadas as duas tecnicas, Horn-Schunck e Lucas-Kanade;

O Banco de Dados foi atualizado com as matrizes resultantes do fluxooptico;

Os valores possuem a forma u + jv ;

Foi considerado o modulo quadratico desses valores;

Todas as matrizes foram normalizadas, neste caso, todas possuem adimensao 37x61 pixels.

Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 16 / 29

Calculo do Fluxo Optico

Comparacao entre HS e LK

Exemplo do fluxo optico entre dois frames do dıgito “Seis”.

Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 17 / 29

Fluxo Optico - Horn-Schunck

Figura: Fluxo Optico com Horn-Schunck

Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 18 / 29

Fluxo Optico - Lucas-Kanade

Figura: Fluxo Optico com Lucas-Kanade

Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 19 / 29

Calculo do Fluxo Optico - Limiarizacao

As informacoes mais importantes do fluxo estao na regiao que contornaos labios, sendo essa a que possui maior magnitude de deslocamento;

Em algumas regioes existem deslocamentos que possuem magnitudeda ordem de 10−3 a 10−8;

Um funcao de limiar foi aplicada no Banco de Dados, eliminando todosos valores inferiores a 10−3.

Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 20 / 29

Extracao das Componentes Principais - PCA

Obtencao das matrizes com as componentes principais;

Figura: Composicao da matriz de componentes principais para uma palavra.

Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 21 / 29

Extracao das Componentes Principais - PCA

Uma palavra sera composta por 10 frames;Esses frames possuem as informacoes mais importantes da extracao.

Figura: Percentual das componentes principais extraıdas da primeira coluna decada frame do dıgito “Nove”.

Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 22 / 29

Extracao das Componentes Principais - PCA

As matrizes referente a cada dıgito foram transformadas em vetoreslinha para entao serem classificadas na Rede Neural.

Figura: Banco de Dados atualizado apos aplicacao do PCA.

Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 23 / 29

Classificacao e Reconhecimento

Rede Neural Perceptron Multi-Camadas com algoritmo backpropaga-tion e aprendizagem supervisionada;

funcao feedforwardnet do MATLAB;

uso de 10 e 20 neuronios por camadas ocultas;

funcao de treinamento: trainlm, um dos mais rapidos algoritmos back-propagation e altamente recomendada em redes supervisionadas, em-bora exija maior custo computacional;

Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 24 / 29

Classificacao e Reconhecimento

Construcao dos vetores de entrada da Rede;Cada palavra e um vetor 1x370.

Figura: Estrutura dos vetores inseridos na Rede.Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 25 / 29

Resultados

As simulacoes foram realizadas utilizando 75% dos dados para treina-mento e 25% para testes.

Utilizou-se o parametro trainlm, uma vez que com este, obteve-se osmelhores resultados;

Durante o treinamento dos dados foram realizadas 20 iteracoes paracada configuracao da rede;

Por exemplo: para a configuracao apresentada, o treinamento da redefoi realizado 20 vezes usando a funcao trainlm;

Isso foi necessario para ajustar os pesos, pois os mesmos, sao inici-alizados aleatoriamente e a rede pode convergir para mınimos locaisdiferentes.

Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 26 / 29

Resultados

Tabela: Taxa de Acertos na saıda da Rede (Testes) - (em %)

Horn-Schunck (HS) Lucas-Kanade (LK)10 neuronios 20 neuronios 10 neuronios 20 neuronios

zero 80,0 68,0 81,0 77,0

um 91,0 92,0 92,0 94,0

dois 58,0 60,0 68,0 60,0

tres 60,0 57,0 55,0 44,0

quatro 82,0 83,0 86,0 85,0

cinco 90,0 90,0 92,0 87,0

seis 59,0 57,0 55,0 54,0

sete 80,0 78,0 78,0 78,0

oito 85,0 91,0 89,0 83,0

nove 85,0 82,0 92,0 86,0

Geral 77,0 76,0 79,0 75,0

Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 27 / 29

Consideracoes Finais

Foi desenvolvido um sistema de reconhecimento de fala atraves dorastreamento dos movimentos dos labios a partir de um vıdeo utilizandoa analise de fluxo optico;

Os resultados obtidos demonstraram experimentalmente um sistemacapaz de funcionar em ambientes ruidosos;

Nao houve discrepancias nos resultados, comparando as tecnicas defluxo optico;

Para trabalhos futuros, e interessante verificar:

a utilizacao de outros metodos de extracao de caracterısticas mais efi-cazes do que as apresentadas;a utilizacao de outro classificador de padroes, como: Modelos Ocultosde Markov;a utilizacao de outra plataforma de desenvolvimento com bibliotecasmais completas, como o OpenCV.

Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 28 / 29

Obrigado!

Thiago Ferraz, Gustavo Fernandes (UFSJ) SBrT 2015 03 de Setembro de 2015 29 / 29