Técnicas Visuais de Localização e Mapeamento Simultâneos sem Extração de ... · 2017-10-20 · Seção de Informação e Referência Catalogação da Publicação na Fonte

UNIVERSIDADE DO RIO GRANDE DO NORTEFEDERAL

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE

CENTRO DE TECNOLOGIA

PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA

Técnicas Visuais de Localização e Mapeamento

Simultâneos sem Extração de Primitivas

Geométricas da Imagem.

Vitor Meneghetti Ugulino de Araújo

Orientador: Prof. Dr. Adelardo Adelino Dantas de Medeiros

Dissertação de Mestradoapresentada ao

Programa de Pós-Graduação em Engenharia

Elétrica e de Computação da UFRN ( área de

concentração: Engenharia de Computação)

como parte dos requisitos para obtenção do

título de Mestre em Ciências.

Natal-RN, julho de 2011

Seção de Informação e Referência

Catalogação da Publicação na Fonte. UFRN / Biblioteca Central Zila Mamede

Araújo, Vitor Meneghetti Ugulino de.

Técnicas visuais de localização e mapeamento simultâneos sem extração de

primitivas geométricas da imagem. / Vitor Meneghetti Ugulino de Araújo. –

Natal, RN, 2011.

58f.;il.

Orientador: Adelardo Adelino Dantas de Medeiros.

Dissertação (Mestrado) – Universidade Federal do Rio Grandedo Norte. Cen-

tro de Tecnologia. Programa de Pós-Graduação em EngenhariaElétrica.

1. Registro direto de imagens – Dissertação. 2. Slam visual. –Dissertação.

3. Estimação de movimento. – Dissertação. 4. Struct From Motion. I. Medeiros,

Adelardo Adelino Dantas de. II. Universidade Federal do Rio Grande do Norte.

III. Título.

RN/UF/BCZM CDU (084.12)

Técnica Visual de Localização e Mapeamento

Simultâneos sem Extração de Primitivas

Geométricas da Imagem.

Programa de Pós-Graduação em Engenharia

Elétrica e de Computação da UFRN

Vitor Meneghetti Ugulino de Araújo

Dissertação de Mestrado aprovada em 29 de julho de 2011 pela banca examinadora com-

posta pelos seguintes membros:

Prof. Dr. Adelardo Adelino Dantas de Medeiros (orientador). . . . DCA/UFRN

Prof. Dr. Pablo Javier Alsina . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . DCA/UFRN

Prof. Dr. André Macedo Santana . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . DIE/UFPI

Aos meu pais, Leonardo e Marlene,

por todo apoio que recebi deles em

toda minha vida, aos meus irmãos,

Fábio e Viviane, por serem os

exemplos que venho seguindo e à

minha namorada, Talita, pela

paciência durante essa jornada.

Agradecimentos

Primeiramente à Deus, por ter me dado forças e me guiado nos momentos mais difíceis.

À minha família pelo apoio durante esta jornada e por sempre me acolher quando precisei.

À minha namorada pela paciência, apoio e companherismo.

Ao meu orientador, professor Adelardo Adelino Dantas de Medeiros, sou grato pela ori-

entação.

À todos professores do DCA que são exemplos de professores, a profissão mais honrada

que existe.

À todos meus amigos do Laboratório de Robótica, pois me sinto honrado por essas ami-

zades.

Aos meus colegas de república Marcos, Marcio e Marcílio que foram minha família aqui

em Natal.

Aos demais colegas de pós-graduação, pelas críticas e sugestões.

Resumo

No SLAM (Simultaneous Localization and Mapping), um robô posicionado em umalocalização desconhecida de um ambiente qualquer deve ser capaz de construir uma pers-pectiva deste ambiente (um mapa) e se localizar no mesmo simultaneamente, utilizandoapenas informações captadas pelos sensores do robô e muitasvezes sinais de controleconhecidos.

Recentemente, impulsionados pelo avanço computacional, trabalhos nessa área pro-puseram usar câmera de vídeo como sensor e surgiu assim o SLAMVisual. Este possuivárias abordagens e a grande maioria delas funcionam, basicamente, extraindo caracte-rísticas do ambiente, calculando as devidas correspondências e através destas, e de filtrosestatísticos, estimam os parâmetros necessários.

Neste trabalho é apresentado um sistema de SLAM Visual Monocular que utiliza re-gistro direto de imagem para calcular o erro de reprojeção entre imagens e métodos deotimização que minimizam esse erro e assim obter os parâmetros relativos à pose do robôe o mapa do ambiente diretamente dos pixels das imagens. Dessa forma as etapas deextração e correspondência de características são dispensadas, possibilitando que nossosistema funcione bem em ambientes onde as abordagens tradicionais teriam dificuldades.Além disso, ao se abordar o problema do SLAM da forma propostanesse trabalho evita-se um problema muito comum nas abordagens tradicionais, conhecido como acumulo doerro.

Preocupando-se com o elevado custo computacional desta abordagem foram testadosvários tipos de métodos de otimização afim de achar um bom equilíbrio entre boas estima-tivas e tempo de processamento. Os resultados apresentadosneste trabalho comprovam ofuncionamento desse sistema em diferentes ambientes.

Palavras-chave: SLAM Visual,Registro Direto de Imagem ,Struct From Motion,Esti-mação de movimento .

Abstract

In Simultaneous Localization and Mapping (SLAM - Simultaneous Localization andMapping), a robot placed in an unknown location in any environment must be able to cre-ate a perspective of this environment (a map) and is situatedin the same simultaneously,using only information captured by the robot’s sensors and control signals known.

Recently, driven by the advance of computing power, work in this area have proposedto use video camera as a sensor and it came so Visual SLAM. Thishas several approa-ches and the vast majority of them work basically extractingfeatures of the environment,calculating the necessary correspondence and through these estimate the required para-meters.

This work presented a monocular visual SLAM system that usesdirect image regis-tration to calculate the image reprojection error and optimization methods that minimizethis error and thus obtain the parameters for the robot pose and map of the environmentdirectly from the pixels of the images. Thus the steps of extracting and matching featuresare not needed, enabling our system works well in environments where traditional appro-aches have difficulty. Moreover, when addressing the problem of SLAM as proposed inthis work we avoid a very common problem in traditional approaches, known as errorpropagation.

Worrying about the high computational cost of this approachhave been tested severaltypes of optimization methods in order to find a good balance between good estimatesand processing time. The results presented in this work showthe success of this systemin different environments.

Palavras-chave: SLAM Visual,Image registration ,Struct From Motion

Sumário

Sumário i

Lista de Figuras iii

Lista de Tabelas v

1 Introdução 11.1 Visão Geral do problema . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Motivação e Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . .31.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.3.1 Objetivo geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.3.2 Objetivos específicos . . . . . . . . . . . . . . . . . . . . . . . . 5

1.4 Organização do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2 Fundamentação Teórica 62.1 Localização e Mapeamento Simultâneo (SLAM) . . . . . . . . . .. . . 62.2 SLAM Visual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.3 Registro de Imagem e SFM . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.3.1 Registro de Imagem . . . . . . . . . . . . . . . . . . . . . . . . 82.3.2 Estrutura a partir do Movimento (Struct from motion - SFM) . . . 12

2.4 Conclusão do Capítulo . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3 SLAM Visual e Trabalhos Relacionados 183.1 Abordagens do SLAM Visual . . . . . . . . . . . . . . . . . . . . . . . . 18

3.1.1 SLAM Visual Baseado na Extração e Correspondência de Carac-terísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.1.2 SLAM Visual Sem Extração e Correspondência de Características 203.2 Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.2.1 SLAM Visual com Registro Direto de Imagem . . . . . . . . . . 223.2.2 SLAM Visual com Estrutura a Partir do Movimento (SFM) .. . . 24


4 Sistema Proposto 264.1 Visão Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.2 Abordagem Proposta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

i

4.2.1 Calculando o Erro de Reprojeção . . . . . . . . . . . . . . . . . 294.2.2 Solução Encontrada . . . . . . . . . . . . . . . . . . . . . . . . 33


5 Resultados 345.1 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345.2 Primeiro experimento (ambiente interno) . . . . . . . . . . . .. . . . . . 36

5.2.1 Câmera não calibrada . . . . . . . . . . . . . . . . . . . . . . . . 375.2.2 Câmera calibrada . . . . . . . . . . . . . . . . . . . . . . . . . . 38

5.3 Segundo experimento (ambiente externo) . . . . . . . . . . . . .. . . . 415.3.1 Câmera não calibrada . . . . . . . . . . . . . . . . . . . . . . . . 425.3.2 Câmera calibrada . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5.4 Terceiro experimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455.5 Conclusão do capítulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

6 Conclusões e perspectivas 476.1 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476.2 Perspectivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

Lista de Figuras

1.1 Sensores mais utilizados no SLAM . . . . . . . . . . . . . . . . . . . .. 31.2 Seleção de regiões da imagem no trabalho de Silveira . . . .. . . . . . . 4

2.1 Sistemas de visão mais utilizados no SLAM . . . . . . . . . . . . .. . . 72.2 Exemplo de um alinhamento usando extração e correspondência de ca-

racterísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.3 Exemplo de alinhamento baseado em intensidade: (a)conjunto de ima-

gens de 3 cenas diferentes. (b) classificação quanto a similaridade deintensidades (c)resultado do alinhamento . . . . . . . . . . . . . .. . . . 13

2.4 Projeção no plano da câmera de um ponto X no espaço, R e T representamas transformações entre as coordenadas do mundo XYZ e as da câmeraXcYcZc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.5 Geometria epipolar de 2 pontos de vista: Dado a projeção ˜x em uma ima-gem de um ponto X no espaço, a projeçãox′ na outra imagem está restritaa linha epipolarI ′, ondeC representa a origem do sistema de coordenadada câmera ee representa o ponto epipolar. . . . . . . . . . . . . . . . . . 16

2.6 Esquematização do método sequencial, ondeEi j representa a matriz es-sencial entre os pontos de vista i e j. . . . . . . . . . . . . . . . . . . . .16

3.1 Exemplo de extração e correspondências entre características . . . . . . . 193.2 Extração de características utilizando linhas no chão .. . . . . . . . . . . 203.3 Formação das imagens após um deslocamento da câmera . . . .. . . . . 203.4 Esquematização da comparação entre regiões reais e suposta . . . . . . . 213.5 Regiões planares selecionadas para processamento . . . . .. . . . . . . 23

4.1 Ambiente de fácil extração e correspondência de características, ondeos pontos verdes e vermelhos representam as características extraídas daimagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.2 Ambiente de difícil extração e correspondência de características . . . . . 274.3 Exemplo de um alinhamento equivocado . . . . . . . . . . . . . . . .. . 284.4 Transformações (T1,T2 e T3) que causam oclusão de pixels. . . . . . . . 284.5 Parametrização do plano . . . . . . . . . . . . . . . . . . . . . . . . . . 294.6 Representação de um grande erro de alinhamento . . . . . . . . .. . . . 324.7 Representação de um ótimo alinhamento com erro quase zero. . . . . . . 32

5.1 Alguns frames das sequências de imagens utilizada nos testes . . . . . . . 34

iii

5.2 Sistema de referência da câmera . . . . . . . . . . . . . . . . . . . . .. 355.3 Primeiro ambiente interno, onde as regiões em vermelho são os planos

utilizados no processo de estimação . . . . . . . . . . . . . . . . . . . .365.4 Segundo ambiente interno, onde as regiões em vermelho são os planos

utilizados no processo de estimação . . . . . . . . . . . . . . . . . . . .365.5 Resultados obtidos com Algoritmo genéticos . . . . . . . . . . .. . . . 375.6 Resultados obtidos com poliedros flexíveis . . . . . . . . . . . .. . . . . 375.7 Resultados obtidos com Levenberg-Marquadt . . . . . . . . . . .. . . . 375.8 Resultados obtidos com Algoritmo Genético . . . . . . . . . . . .. . . . 395.9 Resultados obtidos com Poliedro Flexível . . . . . . . . . . . . .. . . . 395.10 Resultados obtidos com Levenberg-Marquadt . . . . . . . . . .. . . . . 395.11 Primeiro ambiente externo, onde as regiões em vermelhosão os planos

utilizados no processo de estimação . . . . . . . . . . . . . . . . . . . .415.12 Segundo ambiente externo, onde as regiões em vermelho são os planos

utilizados no processo de estimação . . . . . . . . . . . . . . . . . . . .415.13 Resultados obtidos com Algoritmo genéticos . . . . . . . . . .. . . . . 425.14 Resultados obtidos com poliedros flexíveis . . . . . . . . . . .. . . . . . 425.15 Resultados obtidos com Levenberg-Marquadt . . . . . . . . . .. . . . . 425.16 Resultados obtidos com Algoritmo Genético . . . . . . . . . . .. . . . . 435.17 Resultados obtidos com Poliedro Flexível . . . . . . . . . . . .. . . . . 435.18 Resultados obtidos com Levenberg-Marquadt . . . . . . . . . .. . . . . 435.19 Resultados obtidos com diferentes números de regiões . .. . . . . . . . 455.20 Resultados obtidos com diferentes números de regiões nomesmo gráfico . 46

6.1 Motivo pelo qual não há acumulo do erro . . . . . . . . . . . . . . . .. 48

Lista de Tabelas

5.1 Valores médios do número de iterações, tempo em milisegundos e da fun-ção minimizada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

5.2 Valores dos parâmetros dos planos em radianos do experimento 1.1. . . . 385.3 Valores dos parâmetros dos planos em radianosdo experimento 1.2. . . . . 405.4 Valores dos parâmetros dos planos em radianos do experimento 2.1. . . . 445.5 Valores dos parâmetros dos planos em radianos do experimento 2.2. . . . 445.6 Tempo médio (em milissegundos) de convergência do algoritmo em cada

situação. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

v

Capítulo 1

Introdução

O objetivo desse capítulo é fornecer uma visão geral e introdutória do problema, mos-trando de forma superficial como surgiu a necessidade de se usar sistemas robóticos nocotidiano e como essas necessidades moldaram a robótica forçando os profissionais e pes-quisadores da área a criarem soluções arrojadas e práticas para tornar real o uso de siste-mas robóticos autônomos na realização de tarefas para o homem. Na sequencia falaremossobre a motivação e justificativa do presente trabalho e por fim como está organizado omesmo.

1.1 Visão Geral do problema

A busca por sistemas robóticos autônomos que possam auxiliar o homem nas tarefase desafios do cotidiano sempre recebeu uma grande atenção dasengenharias e ciênciasmodernas e proporcionou a criação de novas áreas de pesquisas. Inicialmente houve umgrande esforço no desenvolvimento da robótica na área industrial, com a utilização derobôs manipuladores. Posteriormente as pesquisas em robótica se concentraram na cons-trução de robôs móveis, introduzindo capacidades de mobilidade e autonomia para reagiradequadamente ao ambiente, o que abriu um vasto campo de novas aplicações e, con-sequentemente, grandes desafios. Um destes desafios, que surgiu no final da década de80, foi se um robô posicionado numa localização desconhecida de um ambiente qualquerseria capaz de criar uma perspectiva desse ambiente (um mapa) e ao mesmo tempo selocalizar no mesmo.

Quando as duas etapas de mapeamento e localização são realizadas simultaneamentetemos o problema conhecido na robótica como SLAM (Simultaneous Localization andMapping). A gênese do problema ocorreu em São Francisco no IEEE Robotics and Au-tomation Conference de 1986, em um momento onde os métodos probabilísticos apenasestavam começando a ser introduzidos nas áreas da robótica ena inteligência artificial[Durrant-Whyte e Bailey 2006]. Alguns pesquisadores como Peter Cheeseman, Jim Cro-wley, Hugh Durrant-Whyte, Raja Chatila, Oliver Faugeras e Randal Smith foram pionei-ros com publicações como Smith et al. (1987) , Durrant-Whyte (1988) entre outras.

O SLAM tem sido um campo pesquisa importante nas últimas décadas e consisteno uso de sensores e informações relativas aos sinais de controle enviados ao robô para

CAPÍTULO 1. INTRODUÇÃO 2

determinar a sua localização dentro de um mapa estimado simultaneamente, de forma ite-rativa. Inicialmente foram utilizados sensores de alcance, como scanners lasers e sonares,e filtros estatísticos, como o filtro de Kalman [Kalman 1960],para tratar as incertezasinerentes ao sistema robótico e nas medidas retornadas pelos sensores. Esses sistemasde SLAM que utilizam sensores de alcance e métodos precisos de correção e tratamentodas incertezas, atualmente conseguem estimar mapas de boa qualidade do ambiente ea localização aceitável do robô, como pode ser constatado emtrabalhos como [Clark eDissanayake 1999], [Guivant e Nebot 2002], [Wang 2004], entre outros. Porém, essessensores são caros, muitas vezes pesados e de difícil integração com os sistemas robóti-cos. Então, em meados da década de 90 surgiu a ideia conhecidacomo SLAM Visual,que propõe usar câmeras de vídeo como principal sensor do robô.

SLAM visual é, basicamente, o SLAM onde se usam câmeras ao invés de sensores dealcance baseado em algumas vantagens como o fato de ser um sensor mais barato e leve ede fornecer uma fonte mais rica de informações, que abre possibilidades para representa-ções mais avançadas do mundo [Kootstra e Lambert 2009]. Nessa linha de pesquisa pode-mos observar um grande número de trabalhos em duas abordagens. Na abordagem maistradicional existe uma etapa inicial de extração de características da imagem. Primitivasgeométricas (pontos, retas, etc) salientes na imagem são selecionadas e a correspondênciaentre essas características nas sucessivas imagens é utilizada como entrada do processode estimação da pose da câmera e do mapa. Já na outra abordagemnão há extração decaracterísticas. A pose da câmera e o mapa são obtidos diretamente da observação daintensidade dos pixels nas sucessivas imagens.

Dentro dessas duas abordagens podemos observar a combinação de vários métodosde visão computacional para realizar o SLAM, dos quais destacam-se o registro direto deimagem e estrutura a partir do movimento ou SFM. Em ambas é preciso tratar as incer-tezas inerentes aos sistemas robóticos e aos dispositivos sensoriais e geralmente usam-setécnicas de filtragem estatística, como filtro de kalman ou filtro de partículas. Recente-mente surgiram trabalhos que utilizam métodos de otimização, como no trabalho de Da-vison et al. (2010), onde é feita uma comparação entre técnicas de filtragem e otimizaçãono SLAM Visual com estrutura a partir do movimento.

Na abordagem de SLAM visual sem extração de característicasou primitivas geomé-tricas que utiliza, diretamente, as intensidades das imagens para estimar os parâmetros ne-cessários, existem algumas restrições importantes: devido ao poder computacional atual,a utilização da imagem toda (todos os pixels) torna o processo muito custoso do ponto devista de processamento e tempo, além do mais, é difícil parametrizar matematicamenteas inúmeras formas geométricas que aparecem numa imagem do mundo real e existeminúmeras possibilidades que levam à oclusão de parte da imagem. Por esses motivos sãoselecionadas apenas algumas regiões dessa imagem para simplificar a parametrização domundo, diminuir o tempo de processamento do algoritmo e evitar a oclusão de pixels. Em[Davison et al. 2004] foi observado que essas restrições sãoevitadas ao se utilizar regiõesda imagem que representam planos no mundo real e que a seleçãodessas regiões é umatarefa considerada simples.

Então podemos dizer que o problema é desenvolver uma técnicade SLAM Visualque explore, de forma eficiente, as informações contidas nasimagens e retorne uma boa


estimativa da localização do robô e do mapa do ambiente. Neste trabalho, com a finalidadede resolver esse problema, foi implementado o SLAM Visual utilizando-se de técnicas deregistro direto de imagem (sem extração de características) e de métodos eficientes deotimização para, através da minimização do erro de reprojeção entre as imagens, estimaros parâmetros relativos ao mapa do ambiente e à pose do robô.

1.2 Motivação e Justificativa

Para navegar de forma autônoma em um ambiente desconhecido,um robô móvel deveser capaz de ter uma boa percepção do mundo ao seu redor (um mapa) e se localizar nomesmo. Isso não é uma tarefa simples, visto que a percepção doambiente é uma tarefacomplexa que pode ser abordada de várias maneiras, mas sempre deve haver um equilíbrioentre tempo de processamento e boas estimativas, entre confiabilidade de sensores e seuscustos ou dimensões. Segundo CHEN et al. (2007), há uma forte tendência em utilizarapenas informações visuais para fazer SLAM, principalmente motivada pelos benefíciosno uso de câmeras de vídeo como sensores, como:

• Usar câmera nos proporciona uma fonte de informação extremamente rica sobre oambiente.

• Sistemas de visão são, na maioria das vezes, baratos.• Câmeras são leves e de dimensões aceitáveis.• São facilmente integradas ao hardware do robô• Consomem pouca energia

A figura 1.1 retirada de [Santana 2010] mostra alguns sensores que podem ser utili-zado no SLAM.

Figura 1.1: Sensores mais utilizados no SLAM

Uma das recentes abordagens de SLAM Visual faz uso da técnicade registro diretodireto de imagem, que é o caso de [Silveira et al. 2009]. Técnica esta que pode ser definidacomo o processo de sobreposição de duas ou mais imagens da mesma cena tomadas emmomentos diferentes ou a partir de diferentes pontos de vista, utilizando, diretamente, aintensidade dos pixels [Barbara e Jan 2003].

Tratar o SLAM Visual como um problema de registro direto de imagem pode ser vistoentão como um alinhamento não linear de imagens cujos parâmetros, que representam odeslocamento da câmera entre as imagens e o mapa do ambiente,são calculados através


de um método de otimização que minimiza o erro ocorrido nessealinhamento. Essa abor-dagem possui muitas vantagens, das quais se destacam: maiorprecisão nas estimativas,devido à utilização de mais informações contidas na imagem eao pouco acúmulo de erro,visto que a cada nova imagem de referência o erro acumulado nas estimativas anteriores édesconsiderado. Porém possui algumas desvantagens como a restrição de ter que utilizarregiões planares que possuam textura não homogênea e que sejam, preferencialmente, pe-quenas, como pode ser visto na imagem 1.2 retirada do trabalho de Silveira et al. (2008),onde essas regiões, em vermelho, representam planos no mundo e a correspondência en-tre essas regiões em sucessivas imagens é utilizada no processo de estimação da pose dorobô e mapa do ambiente.

Figura 1.2: Seleção de regiões da imagem no trabalho de Silveira

Então a motivação para desenvolver esse trabalho é encontrar uma solução eficientee precisa para a localização e o mapeamento simultâneos sem anecessidade de extraircaracterísticas da imagem utilizando apenas câmera de vídeo e o método de visão com-putacional conhecido como registro direto de imagem, com a finalidade de proporcionarmaior autonomia na navegação dos robôs. Chegaremos a esse objetivo baseando-se nostrabalhos existentes e abordando de forma desacoplada a maneira como é calculado o errode alinhamento ou reprojeção entre as imagens e o método de otimização. Assim é pos-sível testar vários métodos e achar o que melhor se adequem à minimização do erro dereprojeção.

A justificativa está no fato de que o uso de câmera digital comoprincipal sensor dorobô possui muitas vantagens quando comparado com outros sensores utilizados. Tam-bém no fato de que as soluções que usam registro direto de imagem sem correspondênciade características no SLAM visual são poucas e estão em processo de amadurecimento,abrindo assim muitas possibilidades de melhorias e inovações, principalmente na maneiracomo é utilizada a informação contida nas imagens, no custo computacional e nas técnicasutilizadas para estimar os parâmetros necessários para o SLAM.

Para testar essas possibilidades foi implementado um sistema desacoplado, onde aformulação matemática que permite usar registro direto de imagem para calcular o errode reprojeção é independente do método de otimização.


1.3 Objetivos

1.3.1 Objetivo geral

O objetivo deste trabalho é, através um estudo detalhado de vários paradigmas de lo-calização e mapeamento simultâneos utilizando informações visuais e técnicas que nãoutilizam extração de primitivas geométricas da imagem, propor uma abordagem que uti-liza registro direto de imagem para fazer SLAM visual de forma eficiente. Também trataro erro de reprojeção com métodos de otimização que melhor se adequem ao problemae assim implementar uma técnica diferente da existente na literatura, onde podemos ex-plorar vários métodos de otimização afim de utilizar melhor as informações contidas nasimagens.

1.3.2 Objetivos específicos

• Estudar detalhadamente as técnicas de SLAM Visual que não extraem primitivasgeométricas da imagem.

• Comparar as abordagens explorando as principais vantagens de desvantagens.• Implementar uma solução de SLAM visual baseada em registro direto de imagem

sem correspondência de características.• Abordar diferentes métodos de otimização para tratar a minimização do erro de

reprojeção nas imagens.• Comparar a técnica implementada com a existente na literatura observando as van-

tagens e desvantagens em ambientes diferentes.

1.4 Organização do trabalho

Este documento é dissertação de mestrado e é composto por quatro capítulos onde estáexposto uma breve explanação sobre o problema do SLAM Visualabordando algumastécnicas de visão computacional, uma visão geral do problema, um estudo sobre o queestá sendo feito no mundo a respeito desse tema e por fim os resultados obtidos. Tudoisso está distribuído da seguinte maneira: No capítulo 1 apresenta-se uma visão geral eintrodutória do problema; No Capítulo 2 encontra-se uma fundamentação teórica, onde éabordado o problema do SLAM Visual e suas vertentes; No Capítulo 3 estão expostos ostrabalhos relacionados, ou seja, o que há sobre SLAM Visual com registro de imagem ecom outras técnicas no mundo acadêmico e para finalizar, no Capítulo 4 são apresentadosa técnica proposta e os resultados obtidos.

Capítulo 2

Fundamentação Teórica

O objetivo deste Capítulo é apresentar um texto introdutóriosobre SLAM (Simultane-ous Localization and Mapping) abordando o SLAM visual e suas aplicações na robóticamóvel. Nas seções desse capítulo encontra-se a idéia básicado SLAM clássico e doSLAM onde o sensor é uma câmera. Depois uma explanação sobre duas das várias técni-cas de visão computacional que podem ser aplicadas para resolver o problema do SLAMvisual, são elas: registro direto de imagem e a estrutura a partir do movimento.

2.1 Localização e Mapeamento Simultâneo (SLAM)

Sistemas robóticos móveis estão cada vez mais sendo utilizados em tarefas complexasdo nosso cotidiano. Um pré-requisito fundamental para um robô móvel é a autonomia, ouseja, a capacidade de navegação em ambientes desconhecidossem ajuda humana. Pararealizar essa tarefa, ele precisa ter uma idéia sobre o ambiente no qual está inserido epara criar essa o robô móvel autônomo precisa de sensores quepossam extrair o máximode informações úteis sobre o ambiente ao seu redor. Segundo Thomas (2008) para umrobô navegar com sucesso de uma posição inicial a uma posiçãodesejada nesse ambientedesconhecido é preciso resolver três problemas:

1. Determinar onde o robô está (localização e mapeamento).2. Determinar onde o robô quer chegar (reconhecimento de meta).3. Determinar como o robô chegará no destino (planejamento de rota).

O foco do nosso trabalho está no primeiro problema, que é a localização e mapeamento.Têm sido apresentadas diversas maneiras de se resolver esseproblema, uma é o uso desensores para construir um mapa do ambiente e simultaneamente determinar a localizaçãodo robô nesse mapa. Essa técnica é denominada, abreviadamente, SLAM (Simultaneouslocalization and mapping) e foi originalmente desenvolvida por Leonard e Durrant-Whyte(1991) com base em trabalhos anteriores de Smith et al. (1987). O SLAM é aplicadoquando não se tem nenhuma informação a priori do mapa ou da pose do robô e se dispõeapenas dos sinais de medida dos sensores e sinais de controleenviados ao robô. Nessecaso é preciso tratar alguns problemas, dos quais se destacam:

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA 7

• Como tratar as incertezas associadas ao movimento dos robôs eaos sensores demedição.

• Como tratar a questão da simultaneidade no mapeamento e localização.• Como obter boas estimativas da pose do robô e do mapa do ambiente.

No início da década 90, abordagens probabilísticas tornaram-se dominantes em solu-ções de SLAM, merecendo destaque o Filtro de Partículas e o Filtro de Kalman, que operaem modo de predição-atualização levando em consideração aspropriedades estatísticas doruído presente no sistema robótico. Um modelo interno dessesistema é usado para atua-lização e um esquema de realimentação (sensores) realiza asmedições [Santana 2010]. Aprincipal razão para a popularidade destas técnicas resideno fato de que o mapeamentorobótico é caracterizado por incertezas e ruídos dos sensores. Logo, algoritmos com baseem probabilidade podem ser usados para modelar explicitamente as diferentes fontes deruído e seus efeitos sobre as medidas [Thrun 2002]. Inicialmente os sensores mais utili-zados eram os scanners lasers ou sonares, onde o primeiro é muito eficiente e dispensarecursos computacionais avançados. Já os sonares são mais baratos, porém suas mediçõesnão são tão boas quanto aos dos lasers.

No final da década de 90 começou-se a buscar alternativas e surgiu a idéia de usar umacâmera de vídeo como sensor, pois esta é mais barata, mais prática e capta muito maisinformações sobre o ambiente que os lasers ou sonares. O SLAMrealizado com esse tipode sensor é conhecido na literatura como SLAM Visual.

2.2 SLAM Visual

O que se quer resolver com o SLAM visual é como fazer SLAM utilizando apenasimagens, capturadas por sistemas de percepção visual, e técnicas de visão computacionalque constroem representações do mundo a partir dos pixels dessas imagens. Os principaistipos de sistemas de percepção visual (ou sistemas de visão)utilizados pelos robôs estãoesquematizados na figura 2.1, retirada do trabalho de Santana (2010).

Figura 2.1: Sistemas de visão mais utilizados no SLAM

O trabalho de Ayache e Sander (1991) foi um dos primeiros ondefoi proposta a uti-lização de câmeras como sensores em robôs móveis, depois surgiram trabalhos como ode Davison e Murray (2002), que realmente usaram visão no problema de SLAM e notrabalho de Davison et al. (2007) surgiu a idéia de SLAM Visual Monocular, ou seja, usarapenas uma câmera para fazer SLAM Visual e com isso tornar o problema de calibração


de câmera mais simples, reduzir o custo computacional e material, tornar o robô mais levee mais compacto (pré-requisito necessário em robôs aéreos). Essas vantagens, em relaçãoao sistema de visão estéreo, fizeram com que muitas pesquisasfossem desenvolvidas paratratar o problema do SLAM Visual Monocular e que essa abordagem fosse escolhida paraser utilizada nesse trabalho.

Usar câmeras como sensor de percepção do ambiente nos retorna uma fonte de infor-mação extremamente rica sobre o mesmo, em comparação com outros sensores [Artiedaet al. 2009], além das diversas vantagens já discutidas no capítulo anterior, porém a formacomo é abordada a estimativa dos parâmetros é mais custosa computacionalmente queas abordagens tradicionais de SLAM, pois utilizam técnicasde visão computacional que,normalmente, usam muito processamento. No presente trabalho foram utilizadas as téc-nicas conhecidas como Registro Direto de Imagem e Estrutura aPartir do Movimento.

2.3 Registro de Imagem e SFM

Dentre as várias técnicas de visão computacional que podem ser utilizadas na estima-ção dos parâmetros necessários na localização e mapeamentosimultâneo, destacam-se oregistro direto de imagem e a estrutura a partir do movimentoou apenas SFM -Structfrom motion. No presente trabalho ambas as técnicas foram utilizadas. Oregistro diretode imagem foi utilizado para calcular o erro de reprojeção entre as imagens e a estruturaa partir do movimento foi utilizada para determinar os pontos no mundo correspondentesaos pixels na imagem, ou seja, para reconstrução 3D da cena.

2.3.1 Registro de Imagem

Registro de imagens é o processo de sobreposição de duas ou mais imagens da mesmacena, tomadas em momentos diferentes, a partir de diferentes pontos de vista, e/ou porsensores diferentes [Barbara e Jan 2003]. Segundo BROWN (1992)o registro de imagempode ser definido como o mapeamento entre duas imagens no espaço no que diz respeitoa intensidade, ou seja, se definimos essas imagens como dois vetores 2D:

I1(x,y) (2.1)

I2(x,y) (2.2)

Então o mapeamento entre as imagens pode ser expresso da seguinte maneira:

I2(x,y) = g(I1( f (x,y))) (2.3)

Onde f é a transformação que mapeia as coordenadas espaciais eg é a transformaçãode intensidade ou radiométrica. Assim o problema do registro de imagem é encontraras transformaçõesf e g ideais para que as imagens sejam combinadas, ou para efeito dedeterminação dos parâmetros da transformação ou para efeito de correspondência paraexpor as diferenças de interesses entre as imagens [BROWN 1992].


Registro de imagens é um passo crucial em todas as tarefas de análise de imagem emque a informação final é obtida a partir da combinação de várias fontes de dados, comona fusão de imagens, detecção de mudanças na cena, restauração de imagens em várioscanais, entre outras (visão computacional em geral). Suas aplicações podem ser divididasem quatro grupos principais de acordo com o modo de aquisiçãoda imagem:

• Pontos de vista (viewpoint) diferentes:As imagens da mesma cena são adquiridasde diferentes pontos de vista. O objetivo é obter uma maior visualização 2D ou umarepresentação 3D da imagem digitalizada da cena.

• Épocas diferentes:As imagens da mesma cena são adquiridas em épocas diferen-tes e, possivelmente, sob diferentes condições. O objetivoé encontrar e avaliar asmudanças na cena que aparecem entre as aquisições das imagens consecutivas.

• Sensores diferentes:As imagens da mesma cena adquiridas por diferentes senso-res. O objetivo é integrar as informações obtidas a partir defontes diferentes paraganhar uma representação de cena mais complexa e detalhada.

• Registro através de um modelo:Imagens de uma cena e um modelo da mesmasão registradas. O modelo pode ser uma representação da cenano computador. Oobjetivo é localizar a imagem adquirida na cena ou modelo e/ou para compará-las.

Nem todo método de registro de imagem é direto, existem dois métodos principais:os baseados em características e os baseados em intensidades (diretos).

Métodos Baseados em Características

Segundo Barbara e Jan (2003) os métodos de registro de imagem baseados em carac-terísticas funcionam, basicamente, em quatro etapas:

1. Detecção de características:Objetos distintos e salientes (fronteira fechada deregiões, bordas, contornos, cruzamentos de linhas, curvas, etc) são manualmenteou automaticamente detectados. Para posterior processamento, estas característicaspodem ser representadas pelos seus pontos representativos(centros de gravidade,finais de linha, pontos distintos), que são chamados na literatura de pontos de con-trole.

2. Correspondência de características:Nesta etapa a correspondência entre carac-terísticas detectadas na imagem sensorial e os detectados na imagem de referência éestabelecida. Vários descritores de características e medidas de similaridade juntocom as relações espaciais entre as características são utilizados para esse fim.

3. Estimação do modelo de transformação:Os tipos e os parâmetros das funçõesde mapeamento que alinham as imagens adquiridas com imagensde referência sãoestimados. Os parâmetros das funções de mapeamento são calculados por meio dacorrespondência de características estabelecida.

4. Reamostragem e transformação:A imagem sensorial é transformada por meiodas funções de mapeamento. Os valores das imagens em coordenadas não inteiras,são calculadas pela técnica de interpolação adequada.


A implementação de cada etapa de registro tem seus problemastípicos. Em Primeirolugar é preciso decidir que tipo de características é apropriado para uma determinadatarefa. Elas devem ser objetos distintos, frequentes, espalhados nas imagens e devem serfacilmente detectáveis. Os conjuntos de características detectadas nas imagens devemconter elementos suficientes em comum, mesmo nas situações em que as imagens nãocubram exatamente a mesma cena, quando há oclusão ou mudanças inesperadas. Osmétodos de detecção deverão ter boa precisão na localizaçãodas características e nãodevem ser sensíveis à degradações nas imagens. Em um caso ideal, o algoritmo deve sercapaz de detectar as mesmas características em todas as projeções da cena, independenteda deformação de uma projeção em particular.

Na etapa de correspondência de características o objetivo éencontrar a correspon-dência de pares delas usando suas relações espaciais ou seusdescritores. Os métodosbaseados nas relações espaciais entre as características são normalmente aplicados se ascaracterísticas detectadas são ambíguas ou quando suas vizinhanças são localmente dis-torcidas. Na outra alternativa, as correspondências entrecaracterísticas podem ser estima-das utilizando os descritores que são, preferencialmente,invariáveis a deformações espe-radas. Características com descritores mais similares são consideradas correspondentes.O descritor mais simples usa a função da intensidade da imagem, limitada à vizinhançaimediata da característica.

Problemas causados por uma detecção de características incorreta ou por degradaçõesde imagem podem surgir: características diferentes podem ser consideradas correspon-dentes devido às condições diferentes da imagem e/ou devidoàs diferentes sensibilidadesespectrais dos sensores. A escolha dos descritores de características e as medidas desimilaridade têm que considerar estes fatores. Os descritores devem ser insensíveis às de-gradações assumidas e ao mesmo tempo devem ser suficientemente discriminantes parapoderem distinguir entre as diferentes características bem como, suficientemente, estáveispara não serem influenciados por pequenas variações ou ruídos na imagem.

O tipo de função de mapeamento deve ser escolhido de acordo com as informações co-nhecidas a priori sobre o processo de aquisição e expectativa de degradações da imagem.Se não há informação a priori disponível, o modelo deverá serflexível e geral o suficientepara lidar com todas as degradações eventuais que possam aparecer. A precisão do mé-todo de detecção de características, a confiabilidade da estimativa de correspondência eos erros de aproximação aceitáveis precisam ser considerados também.

Na figura 2.2 retirada de Barbara e Jan (2003) podemos ver um exemplo de regis-tro de imagem baseado em características, onde é feito o alinhamento das característicacorrespondentes, representadas pelos pontos em vermelhosna imagem. Os pontos azuisrepresentam características que não possuem correspondências na outra imagem.

Métodos diretos ou baseados em intensidades

Nos métodos diretos não existem as duas primeiras etapas do método baseado em ca-racterística, detecção e correspondência de características, nesse caso toda a imagem, ouparte dela, pode ser utilizada para estimar os parâmetros dafunção de mapeamento atravésda comparação das intensidades dos pixels, tornando possível uma maior exploração dainformação contida em uma imagem ao contrário do método baseado em características


Figura 2.2: Exemplo de um alinhamento usando extração e correspondência de caracte-rísticas

que explora apenas alguns pixels da mesma (as primitivas geométricas extraídas). O fatode não precisar das duas primeiras etapas evita alguns problemas inerentes aos métodos dedetecção e correspondência de características, como detecção incorreta de características,escolha equivocada dos descritores (forma única e invariante de descrever uma caracte-rística), correspondências falsas, entre outros. Porém aparecem outros problemas como aseleção da parte da imagem que será utilizada para processamento, o cálculo do erro dereprojeção, entre outros.

Essa técnica funciona bem em imagens onde não se encontram características salien-tes. Janelas de tamanho pré-definido ou, até mesmo, a imagem inteira são utilizadas parafazer as comparações entre as imagens. As limitações dos métodos baseados na área seoriginam em sua idéia básica. Em primeiro lugar, a janela retangular, que é mais frequen-temente utilizada, se adéqua ao registro de imagens que localmente diferem apenas poruma translação. Se as imagens são deformadas por transformações mais complexas, estetipo de janela não é capaz de cobrir as mesmas partes da cena naimagem de referência ede sensoriamento. Então de alguma forma, essa janela deve ser dinâmica, mudando suaforma de acordo com as transformações esperadas.

Métodos clássicos baseados na intensidade, como os que usamcorrelação cruzada,exploram diretamente a intensidades da imagem, sem qualquer análise estrutural, con-sequentemente, eles são sensíveis a mudanças de intensidade introduzidas por ruídos,variação de iluminação e/ou quando se usam diferentes tiposde sensores.

Existem 3 métodos clássicos baseados em intensidades que merecem atenção: os queusam correlação, otimização e método de Fourier.

• Métodos que usam correlação:A medida de similaridade é calculada para paresde janelas da imagem de referência e sensorial e seu máximo é procurado. Os paresde janelas no qual o máximo é alcançado são definidos como os correspondentes.


• Métodos de Fourier: Melhores do que os métodos que usam correlação. Elesexploram a representação de Fourier das imagens no domínio da frequência (cor-relação de fase). São aplicados caso seja necessária uma aceleração da velocidadecomputacional, ou se as imagens foram obtidas sob condiçõesvariáveis, ou se elassão corrompidas por ruído dependente da frequência.

• Métodos de Otimização: Encontrar o mínimo da medida de dissimilaridade ouo máximo da medida de similaridade entre imagens é um problema de otimizaçãomultidimensional, onde o número de dimensões corresponde aos graus de liberdadeda transformação geométrica esperada. O único método que produz uma soluçãoglobal extrema é uma pesquisa exaustiva sobre a imagem inteira. Embora sejacomputacionalmente custoso, muitas vezes é utilizado se apenas translações devemser estimadas. Nos casos em que se esperam transformações com mais graus deliberdade ou medidas de similaridade mais complexas, são necessários algoritmosde otimização mais sofisticados. Os métodos de otimização mais utilizados são:minimização Gauss-Newton, métodos de descida do gradiente, Levenberg-Marquardt,entre outros. As aplicações do método de minimização numérica de Gauss-Newtonpara minimizar a soma do quadrado da diferença está descritoem Barnea e Silver-man (1972) e do método de Levenberg-Marquardt é descrito em Sharma e Pavel(1997).

Deve-se notar uma coisa com relação a esses métodos de otimização. Às vezes, juntoda medida de dissimilaridade, a fórmula a ser minimizada contém também o termo depenalidade, estes dois termos juntos formam a função de custo associada ao registro,e o objetivo dos métodos de otimização é minimizar isso. E similar aos métodos queusam correlação cruzada é o algoritmo de detecção de similaridade seqüencial [Barneae Silverman 1972], onde é utilizado um método de pesquisa seqüencial. O algoritmoacumula a soma das diferenças absolutas dos valores de intensidade da imagem e aplicaum critério de corte. Se o valor acumulado exceder o limite indicado, o par de janelas decandidatos é rejeitado e o próximo par é testado. Esse métodoé muito utilizado devido asua fácil implementação em hardware, o que o torna útil para aplicações em tempo real.Porém, funciona bem quando ocorrem apenas translações entre as imagens.

Então, observamos que em contraste com os métodos baseados em intensidades, osmétodos baseados em características não trabalham diretamente com valores de intensi-dade da imagem. As características representam um nível mais elevado de informações.Esta propriedade faz com que os métodos baseados em características sejam mais ade-quados quando as imagens possuem objetos bastante distintos e facilmente detectáveis[Barbara e Jan 2003].

Já os métodos baseados em intensidade são recomendados quando as imagens nãosão tão ricas em detalhes, o que torna difícil a extração de características. Na figura 2.3encontra-se um exemplo de registro direto de imagem.

2.3.2 Estrutura a partir do Movimento (Struct from motion - SFM)

O principal objetivo da visão computacional é a reconstrução da geometria 3D da cenae do movimento de câmera a partir de um conjunto de imagens estáticas da cena [Thrun


Figura 2.3: Exemplo de alinhamento baseado em intensidade:(a)conjunto de imagens de3 cenas diferentes. (b) classificação quanto a similaridadede intensidades (c)resultado doalinhamento

et al. 2000]. É nesse contexto que se aplica o método conhecido como estrutura a partirdo movimento ou apenas SFM (Struct from motion) que aborda a seguinte questão: Comoobter informações sobre a geometria 3D da cena a partir de imagens 2D da mesma ?

Esta tarefa é um desafio porque o processo de formação da imagem não é inversível,ou seja, de sua posição projetada em um plano da imagem, um ponto da cena só podeser recuperado com ambiguidade de parâmetros, correspondente à sua distância à câmera[Wiley 2009]. Uma possibilidade é a de explorar o conhecimento prévio sobre a cena(paralelismo e restrições de coplanaridade) para reduzir onúmero de graus de liberdade eassim as ambiguidades. Outra possibilidade é utilizar pontos correspondentes em múlti-plas imagens para estimar, por triangulação, os pontos 3D correspondentes.

Um pré-requisito importante é a determinação da calibraçãoe pose da câmera, quepode ser expressa pela matriz de projeção, mas antes é importante explicar como funcionaa relação entre um ponto 3D no espaço e um ponto 2D na imagem (plano da câmera). Afigura 2.4 esquematiza essa relação.

Projeção na imagem de um ponto 3D no mundo

De acordo com o modelo de projeção pinhole, a relação entre umponto 3D e seuponto correspondente da imagem 2D tem três componentes:


Figura 2.4: Projeção no plano da câmera de um ponto X no espaço, R e T representam astransformações entre as coordenadas do mundo XYZ e as da câmeraXcYcZc

Primeiro componente: Relacionar coordenadas de um ponto no mundo com as res-pectivas coordenadas na câmera através de uma transformação homogênea (parâmetrosextrínsecos).

Xc

Yc

Zc

1

=

(

R T0 1

)

XYZ1

Segundo componente:Transformação 3D para 2D que relaciona pontos 3D emcoordenadas da câmera com pontos 2D em coordenadas do plano da imagem. Usandosemelhança de triângulos, obtemos a seguinte relação:

x= f .(Xc/Zc)y= f .(Yc/Zc)

Onde f é a distância focal. Como alterar o valor def é o mesmo que mudar a escalada imagem, podemos definirf = 1.

Pode-se notar que o fator de escala some e a coordenada Z vira onovo fator de escala,isso porque a coordenada x só depende da direção do ponto de 3Dem relação à câmera,e não quão longe ele está.

Terceiro componente:Transformação 2D para 2D que relaciona pontos em coorde-nadas da imagem ( ˜x= [x y1]) em coordenadas de pixels ˜u= [u v1]:


u∼ Kx Onde, K =

αu S u0

0 αv v0

0 0 1

K é conhecida como matriz de calibração de câmera, onde seus parâmetros repre-sentam:αu e αv são fatores de escala conhecidos como distância focal,S representa ainclinação da malha óptica eu0 e v0 são as coordenadas da origem do sistema. Estes sãoos parâmetros intrínsecos da câmera.

Finalmente, é conveniente combinar todas essas equações emuma única equação li-near, onde P é uma matriz projetiva que relaciona um ponto em coordenada de pixel e seucorresponde no mundo.

u∼ Px

P∼ K[RT]

Geometria Epipolar

Geometria Epipolar trata a seguinte questão: como um ponto no mundo aparece emduas imagens obtidas através de dois pontos de vista diferentes?

É possível resolver essa questão através da matriz essencial, que relaciona pontos daimagem que são correspondente em dois pontos de vista como mostra a equação 2.4, ondex é a projeção do ponto 3D (do mundo) no plano do primeiro ponto de vista, ˜x′ é a projeçãodo mesmo ponto no segundo ponto de vista e[E] é a matriz essencial. Essa equaçãotambém é conhecida como restrição epipolar. A figura 2.5 mostra, geometricamente, essarestrição.

xT [E]x′ = 0 (2.4)

O trabalho de Longuet-Higgins (1981) mostrou como uma matriz essencial relativa aum par de pontos de vista calibrados pode ser estimada a partir de oito ou mais pontoscorrespondentes. Já no trabalho de Wiley (2009) encontra-se como essa matriz pode serdecomposta para nos fornecer a orientação da câmera e a posição relativa dos pontoscorrespondentes.

A Geometria Epipolar nos fornece também a matriz fundamental que relaciona pontosda imagem, em coordenadas de pixels, que são correspondentes em dois pontos de vista.Ela pode ser estimada linearmente se forem dados oito ou maispontos correspondentese é uma matriz de rank dois. Decompondo a matriz fundamental,também, podemosrecuperar a orientação da câmera e as coordenadas dos pontoscorrespondentes.

SFM a partir de vários pontos de vista

Visto que as matrizes essencial e fundamental contêm as restrições geométricas rela-cionadas a pares de pontos de vista, vamos voltar nossa atenção para resolver o problemada estrutura a partir do movimento para um número arbitráriode pontos de vista.

Dos vários métodos propostos para resolverem esse problema, o método sequencial(figura 2.6) é o mais popular, funciona através da incorporação de sucessivos pontos de


Figura 2.5: Geometria epipolar de 2 pontos de vista: Dado a projeção ˜x em uma imagemde um ponto X no espaço, a projeçãox′ na outra imagem está restrita a linha epipolarI ′,ondeC representa a origem do sistema de coordenada da câmera ee representa o pontoepipolar.

vista. Neste método, a inicialização adequada é normalmente obtida pela decomposiçãoda matriz fundamental que relaciona os dois primeiros pontos de vista da seqüência eentão são feitas reconstruções parciais a partir de pontos 3D que aparecem em pares depontos de vistas explorando a geometria epipolar que relaciona cada ponto de vista comseu antecessor.

Figura 2.6: Esquematização do método sequencial, ondeEi j representa a matriz essencialentre os pontos de vista i e j.

Uma desvantagem é que um grande número de pontos correspondentes deve ser de-finido em cada ponto de vista, e eles, normalmente, devem ser visíveis em três ou maispontos de vista, isto significa que um tratamento, substancial, da sobreposição é neces-sário. Para longas sequências de pontos de vista (por exemplo, ao longo de uma rua dacidade), este requisito pode ser proibitivo.


Para finalizar o processo de estimação da pose da câmera e da estrutura da cena énecessário refinar as estimativas da matriz de projeção e dospontos 3D usando otimizaçãonão-linear iterativa para minimizar uma função de custo adequada. Isso é conhecido comobundle adjustment, e funciona minimizando uma função de custo que está relacionada auma soma ponderada dos erros de reprojeção ao quadrado. Normalmente iteração Gauss-Newton ou o método de Levenberg-Marquardt são os métodos de otimização utilizadosdevido à rápida convergência.

Existem duas classes de algoritmos que tratam o problema do SFM a partir de vá-rios pontos de vista e a escolha entre essas classes de algoritmos depende fortemente daaplicação. São elas: Os algoritmos comNarrow-Baselinee os comWide-Baseline.

O primeiro representa uma classe de algoritmos que parte do pressuposto de que amudança na posição e na orientação da câmera é pequena, assima vizinhança local dospontos de interesse é quase semelhante em dois pontos de vista próximos e podem sercaracterizados por um conjunto de valores das intensidadesdos pixels da amostra de umajanela retangular centrada no ponto de interesse. Os valores das intensidades dos pixelssão comparados por correlação cruzada normalizada ou pela soma da diferença de qua-drados. Uma desvantagem desse método é na computação da profundidade que é muitosensível a ruídos na medida das coordenadas da imagem em pontos de vista muito próxi-mos.

A outra classe de algoritmos, conhecida comoWide-baseline, é adequada quando adistância entre pontos de vista (baseline) é larga, nesse caso, superfícies nas duas imagenspodem apresentar alterações substanciais de escala, diferentes graus de encurtamento,diferentes padrões de oclusão e grandes disparidades nas suas localidades. Essa classe dealgoritmos deve ser invariante para diferentes transformações da imagem.

2.4 Conclusão do Capítulo

No presente capítulo foi apresentado o problema da localização e mapeamento simul-tâneo (SLAM) na robótica móvel, onde se discutiram as abordagens desse problema, dasquais se destaca o SLAM Visual. Também foram apresentadas duas técnicas de visãocomputacional cujo conceitos foram amplamente utilizadosno trabalho proposto. O re-gistro direto de imagem foi utilizado no cálculo do erro de reprojeção e a estrutura a partirdo movimento foi usada para reconstrução 3D dos pontos da imagem. No próximo ca-pítulo vamos falar sobre as abordagens do SLAM visual, explicando o motivo pelo qualessa abordagem está sendo muito pesquisada na área da robótica móvel e expor o estadoda arte sobre esse tema.

Capítulo 3

SLAM Visual e Trabalhos Relacionados

Neste capítulo encontram-se uma explicação sobre as abordagens de SLAM Visual eum estado da arte no que diz respeito às técnicas que serão, diretamente, utilizadas. Sãoelas: SLAM visual com estrutura a partir do movimento e com registro direto de ima-gem, ambas sem correspondência de características. O objetivo principal deste capítuloé explicar o funcionamento dessas duas técnicas e mostrar o que está sendo pesquisadono mundo em relação a elas. Vamos primeiramente categorizarSLAM visual em duasabordagens: baseada em característica e sem extração de características, sendo que a úl-tima foi utilizada nesse trabalho. Por fim apresenta-se o estado da arte sobre a abordagemutilizada.

3.1 Abordagens do SLAM Visual

O SLAM Visual é um problema complexo devido à escolha corretadas técnicas demapeamento e de localização para cada situação.

Podemos categorizar essas técnicas em duas abordagens: na que extrai característi-cas (marcos ou primitivas geométricas) das imagens e usa a correspondência entre elascomo entrada do sistema, corrigindo as incertezas com filtros estatísticos e na outra abor-dagem, conhecido como método direto, que utiliza as imagenscomo um todo ou apenaspartes delas calculando a correspondência entre estas através da comparação entre suasintensidades e trata as incertezas com métodos de otimização.

3.1.1 SLAM Visual Baseado na Extração e Correspondência de Ca-racterísticas

Na abordagem baseada em características, segundo Silveiraet al. (2009), temos basi-camente três etapas: Inicialmente, um conjunto adequado deprimitivas geométricas (e.g.,pontos, retas) é extraído e em seguida associado nas imagens. É importante salientarque esta associação de dados, raramente, é perfeita e por isso as falsas correspondências(i.e., outliers) devem ser rejeitadas, posteriormente, utilizando-se técnicas robustas (e.g.,RANSAC).

CAPÍTULO 3. SLAM VISUAL E TRABALHOS RELACIONADOS 19

O objetivo é encontrar um conjunto coerente de primitivas emcorrespondência nasimagens que permitirá a estimação dos parâmetros desejadosatravés de um processoapropriado de filtragem, ou seja, baseando-se na diferença entre os descritores das carac-terísticas extraídas, calculam-se os parâmetros que melhor retornarem um mapeamentodessas características nas imagens. Esses parâmetros representam o deslocamento da câ-mera. A figura 3.1 (imagem retirada do trabalho [Santos 2010]) mostra um conjunto decaracterística extraídas de duas imagens sucessivas e suascorrespondências.

Figura 3.1: Exemplo de extração e correspondências entre características

O primeiro trabalho de grande relevância que propôs o uso de uma sistema de visãomonocular para o SLAM visual com extração de características, em tempo real, foi o deDavison et al. (2007). Um grande problema de se usar um sistema monocular diz respeitoà profundidade da cena, e o trabalho de Clemente et al. (2007) utiliza inversão de pro-fundidade e mapas hierárquicos nos seus testes para contornar esse problema. Lemairee Lacroix (2007) propuseram usar linhas como marcos em ambientes indoors e as van-tagens disso. Klippenstein e Zhang (2007) comparam diversas técnicas e algoritmos deextração e correspondência de características e concluem que a combinação da técnicade detecçãoHarris com o descritorSIFT funciona muito bem. Outro problema é o loop-close que é tratado em trabalhos como o de Angeli et al. (2008), Gee et al. (2008) e Civeraet al. (2008). O trabalho de Santana (2007) é bem adequado para ambientes planos comlinhas presentes no chão, de modo a permitir que o robô navegue no ambiente fundindoinformações de odometria e de visão monocular. Nesse últimoas características extraídassão as linhas do chão como pode ser visto na figura 3.2.


Figura 3.2: Extração de características utilizando linhasno chão

3.1.2 SLAM Visual Sem Extração e Correspondência de Caracterís-ticas

Nessa abordagem a pose do robô e o mapa do ambiente são estimados, diretamente,a partir da intensidade dos pixels das sucessivas imagens, evitando assim as etapas de ex-tração e correspondência de características e muitos problemas associados a essas etapas.Ao invés de se usar as correspondências das característicasnas diferentes imagens paraobter os parâmetros necessários, usam-se métodos de otimização para minimizar umafunção de custo associada ao mapeamento entre as imagens, ouestimadores estatísticos,como máxima verossimilhança, para comparar as mesmas e poder estimar uma funçãoque melhor descreve o deslocamento sofrido pela câmera entre a captura destas imagens.A figura 3.3 esquematiza o que ocorre quando uma câmera captura imagens da mesmacena de pontos de vistas diferentes.

Figura 3.3: Formação das imagens após um deslocamento da câmera

Nos problemas de SLAM visual sem extração de características uma boa solução éusar métodos de otimização local de rápida convergência para minimizar uma função decusto associada ao erro de alinhamento entre as imagens baseando-se nas intensidadesdas mesmas, em outras palavras, se a geração de uma imagem artificial (ou parte de uma


imagem) através de uma câmera que sofreu uma, suposta, transformação geométrica sealinhar perfeitamente com a imagem real (ou parte dela) obtida após um deslocamentoreal da mesma, então aquela suposta transformação representa o deslocamento real. Afigura 3.4 esquematiza o que foi dito, onde a região com contorno verde é uma imagemsuposta criada a partir de parâmetros supostos e será comparada com a região correspon-dente na imagem real.

Figura 3.4: Esquematização da comparação entre regiões reais e suposta

Então cabe ao método de otimização achar os parâmetros ideais de uma transforma-ção geométrica ideal da posição da câmera que minimize um erro de alinhamento entre asimagens. No trabalho de Malis (2004) encontram-se comparações entre o uso de váriosmétodos de otimização de segunda ordem em visão computacional, no trabalho de Sil-veira et al. (2009) usa-se um método de otimização não linearlocal devido a restrição detempo real do sistemas robóticos. Nesse caso a função de custo é desenvolvida em sériede Taylor, permitindo assim, tratar o problema como um problema de mínimos quadradoslinear, dado que a solução é uma aproximação. Iterações são conduzidas até a conver-gência dos parâmetros necessários que gerem o menor erro de projeção e assim estimar atransformação das imagens.

3.2 Trabalhos Relacionados

Nesta seção encontra-se um relato sobre os trabalhos existentes na literatura cujo focoé o SLAM Visual onde não há extração de características. Elesforam separados em duascategorias: Os que usam registro direto de imagem e os que usam estrutura a partir domovimento baseada em intensidades.

Na literatura não há muitos trabalhos nessa área, visto que além de serem recentes,as soluções exigem um poder de processamento que ainda não é muito acessível, po-rém dentro de pouco tempo estará disponível em qualquer computador, baseando-se navelocidade em que ocorrem avanços tecnológicos na área da micro-eletrônica.


3.2.1 SLAM Visual com Registro Direto de Imagem

A técnica de mapeamento e localização simultâneos utilizando recursos visuais temvárias vertentes, cada uma com vantagens e desvantagens. O uso do registro direto deimagem no SLAM visual surgiu com a proposta de explorar o máximo de informaçãopossível das imagens captadas e evitar o acumulo de erros queocorrem a cada iteraçãonas abordagens tradicionais. Os métodos que utilizam (diretamente) a intensidade daimagem para estimar parâmetros que minimizem erros de re-projeção são conhecidoscomo métodos diretos.

A utilização de métodos diretos em visão computacional começou a ser discutidana década de 90 com trabalhos pioneiros como o de Hanna (1991)e Szeliski e Kang(1995). No final da década Irani e Anandan (1999) publicaram um dos primeiros trabalhosconsistentes sobre esse tema, até então aplicado apenas a visão computacional, pois aaplicação na robótica era proibitiva devido à complexidadecomputacional dessa classede métodos. Porém, nos últimos anos, o aumento do poder computacional e a evoluçãode alguns algoritmos possibilitaram alguns trabalhos comoo de Jin et al. (2003), ainda nocampo de visão computacional, que trata o problema do estrutura a partir do movimentode forma direta e simultânea, mas requer movimentos relativos lentos da câmera.

O primeiro trabalho que propôs usar métodos direto na robótica para fazer SLAM foio de Silveira et al. (2007), onde foi proposto usar registro direto de imagem no SLAM.Para eles, o SLAM Visual podia ser visto como um problema de alinhamento não linearde imagens, onde os pixels nas imagens de referência seriam comparados e alinhados comos das imagens captadas, através de um modelo foto-geométrico de transformação paraalinhar imagens e foi utilizada uma técnica de otimização eficiente para minimizar errosde alinhamento, na qual altas taxas e grandes domínios de convergências foram obtidosbaseando-se no trabalho de Malis (2004), sendo que no trabalho de Silveira os jacobia-nos são relativos aos parâmetros de movimento, da estruturada cena e das mudanças nailuminação.

Nos anos seguintes, trabalhos como [Silveira et al. 2008] e [Silveira et al. 2009] con-solidaram essa idéia e concluíram que a exploração de mais informações, junto com algu-mas restrições estruturais e o não acumulo de erro a cada iteração aumentam a precisão ea robustez intrínseca do algoritmo com respeito às medidas aberrantes.

Para reduzir o custo computacional foram selecionadas apenas algumas regiões daimagem para processamento, como pode ser visto na figura 3.5.Estas foram automatica-mente selecionadas baseando-se em um índice que reflete fortes gradientes em diferentesdireções na imagem (texturas diferentes). Outro critério utilizado baseia-se na quantidadede extremos locais dentro de cada região.

No trabalho de Silveira et al. (2009) a quantidade de regiõesa serem exploradas de-pende somente dos recursos computacionais disponíveis e como estamos falando de umfluxo contínuo de vídeo, essas regiões selecionadas podem sair do campo visual ou entãoserem rejeitadas do processo de estimação. Assim o sistema deve ser capaz de inserir au-tomaticamente novas regiões sempre que recursos computacionais estiverem disponíveis.No trabalho de Malis et al. (2008) a inicialização de novas regiões segue a seqüencia natu-ral de especialização, onde regiões com objetos que se deslocam de forma independente ecom medidas aberrantes, que não satisfazem aos modelos adotados, devem ser detectadas


Figura 3.5: Regiões planares selecionadas para processamento

e rejeitadas no processo de estimação automaticamente. Para isso foram utilizadas duasmétricas para avaliar se as regiões selecionadas devem ser excluídas: uma fotométrica eoutra geométrica. O índice fotométrico é definido, diretamente, a partir da função custo daotimização que é uma soma ao quadrado das diferenças entre asintensidades das regiões:equação 3.1.

ε2j (x

o) =1

card(R∗j )

∑d2i j (x

o) (3.1)

Onde j representa a j-ésima região,R∗ representa uma região da imagem com dimen-são w x w ,di j representa o conjunto de diferenças de intensidade de cada pixel, para todasas regiões,j = 1,2, ...,n, consideradas ecard(.) indica a cardinalidade do conjunto. O ín-dice geométrico indica o grau de deformação (redução ou alongamento) entre os ladosde cada região em duas imagens consecutivas. Grandes deformações devem ser descar-tada do processo de otimização. Um ponto importante a se notar é que enquanto o índicefotométrico é avaliado depois de obtermos a solução ótima, oíndice geométrico pode oser durante as iterações. Isso pode prevenir que medidas aberrantes perturbem a soluçãofinal.

Como Utilizar o Registro Direto de Imagem no SLAM Visual

Para explicar como estimar o mapa do ambiente e a pose do robô no SLAM visualusando registro direto de imagem, vamos usar as seguintes notações: Sejaζ∗ a imagem


capturada de uma cena e sejaζ outra imagem capturada após uma rotaçãoR ∈ SO(3) euma translaçãot ∈R3 da câmera e esse deslocamento é expresso por uma matriz de trans-formação homogêneaT ∈ SE(3). Seja tambémP= [u,v,1]T ∈P2 o vetor homogêneo decoordenadas de um pixel e queζ(P)≥ 0 represente o seu valor de intensidade.

O problema de registro direto pode ser visto como a busca da matriz T ∈ SE(3) quetransforma todos os pixels da região da imagem correnteζ tal que suas intensidades cor-respondem da melhor forma possível àquelas na imagem de referênciaζ∗. Por sua vezum procedimento não linear de otimização local deve ser aplicado para resolver esse pro-blema tendo em vista que métodos globais não respeitam as restrições de tempo real dossistemas robóticos e a intensidadeζ(P) é não linear emP. Em [Silveira et al. 2009] foiproposto usar a técnica clássica para resolver esse problema que consiste em desenvolvera função custo em série de Taylor, permitindo escrevê-lo como um problema de míni-mos quadrados linear. Dado que essa solução corresponde apenas à uma aproximação,iterações são conduzidas até a convergência dos parâmetros.

Até então o problema abordado foi o de localização, e no trabalho de Benhimanee Malis (2006) é apresentado uma solução eficiente para esse problema. Porém quandofalamos de SLAM Visual o que buscamos, além da localização, éque o mapa do ambientetambém seja estimado de forma simultânea. Então a solução dalocalização tem que serentendida para incluir o modelo métricond ∈ R3 como variável de otimização e assimestimar a pose da câmera e o mapa do ambiente de forma simultânea.

3.2.2 SLAM Visual com Estrutura a Partir do Movimento (SFM)

O principal objetivo da técnica conhecida como estrutura a partir do movimento é re-construir a geometria 3D do ambiente a partir de imagens captadas deste ambiente quepossuem duas dimensões. Basicamente, se o SFM for elaborado de tal forma que a re-construção da cena e a estimação da pose da câmera ocorra de forma simultânea, temos oSLAM visual [Davison et al. 2010]. Assim, a grande maioria dos trabalhos nessa linha sepreocupa com essa questão e também com a exigência de realizar essa tarefa em temporeal. Podemos classificar as várias abordagens dessa técnica em dois grandes grupos: asque usam extração e correspondência de características e asque não usam.

Desde o início da década de 90 encontram-se trabalhos que usam extração e corres-pondência de características. São eles: os trabalhos de Tomasi e Kanade (1992), Poelmane Kanade (1997) e Morris e Kanade. (1998). Alguns que usam modelos conhecidos dacena como Huttenlocher e Ullman (1990) ou que usam câmeras com parâmetros conhe-cidos, como o trabalho de Faugeras (1993) entre outros.

Podemos citar também os trabalhos de Davison (2003), Moltonet al. (2004) e Davi-son et al. (2007) que abordam o SFM monocular. Konolige e Agrawal (2008) fizeram umtrabalho que foge um pouco da linha discutida, mas que pode ser citado. Eles implemen-taram o que chamaram de FrameSLAM e tratam o problema de loopsfechados longos.Basicamente usam uma técnica para guardar alguns frames importantes e os usam parafazer comparações e detectar caminhos que já foram percorridos. Então está claro quena literatura existe um vasto número de trabalhos que buscaram solucionar o problemaatravés da extração e correspondência de característica, cada um com suas vantagens e


desvantagens. Porém quando falamos da técnica de estruturaa partir do movimento semextração e correspondência de características, esse número cai drasticamente.

O trabalho pioneiro foi o de Thrun et al. (2000) que usa máximaverossimilhançae algoritmos conhecido como Expectation-Maximization para comparar medidas. Temostambém o trabalho de Jin et al. (2003) que usa, o que ele chamoude: métodos semi-diretosque utilizam apenas a intensidade dos pixels de regiões da imagem e o trabalho de Davisonet al. (2004), que usa estrutura a partir do movimento em tempo real e considera a imagemcomo um conjunto de planos locais usando métodos diretos para estimar o modelo detransformação desses planos. Essa técnica é sensível às mudanças de iluminação, nãoconsidera o forte acoplamento entre o movimento da câmera e aestrutura da cena que sãoestimados separadamente. Podemos falar também do trabalhode Murray e Klein (2008)que implementou o que eles chamaram de SLAM visual baseado emkeyframes, ondetratam os movimentos rápidos da câmera e conseguem fazer o tracking usando técnicasdiretas, mas deixam bem claro que a técnica é para tracking e não para mapeamento.Davison et al. (2010) fazem um estudo detalhado sobre as técnicas recentes de SLAMvisual com estrutura a partir do movimento e comparam o uso defiltros estatísticos como uso de métodos de otimização para tratar as incertezas.

O SLAM Visual com SFM sem correspondência de características pode ser visto, namaior parte dos trabalhos, como um problema de máxima verossimilhança, onde intensi-dades de pixels são comparados e através de uma otimização procura-se achar os parâme-tros necessários para estimar a pose da câmera e o mapa do ambiente. A vantagem dessaabordagem é evitar os erros de detecção, correspondência e descritores de características,além de tornar o SLAM robusto em situações onde não é possívela extração das mesmas,ou seja, imagens onde não se encontram características salientes. A desvantagem dessatécnica é o pré-requisito de funcionar em tempo real, pois a quantidade de dados a seremprocessados é grande.


Nesse capítulo foram apresentadas as duas abordagens principais de SLAM Visual:a baseada em características e a que não usa características, das quais destacamos asvantagens e desvantagens de cada uma.

Também neste capítulo encontra-se um relato sobre os trabalhos existentes na lite-ratura cujo foco é o SLAM Visual onde não há extração de características. Eles foramseparados em duas categorias: Os que usam registro direto deimagem e os que usamestrutura a partir do movimento baseada em intensidades. Foi visto que a abordagemescolhida nesse trabalho é muito recente e poussui poucos trabalhos relacionados.

Capítulo 4

Sistema Proposto

Nesse capítulo será apresentado o sistema proposto, onde começaremos com umavisão geral do problema no qual será aplicado o sistema, depois veremos como foi for-mulada a solução para resolver o problema proposto dando ênfase na maneira como foicalculado o erro de reprojeção usado para estimar os parâmetros necessários. O objetivodesse capítulo é apresentar a base teórica do sistema proposto.

4.1 Visão Geral

Dentro das abordagens de SLAM Visual encontram-se várias técnicas que propõemestimar os parâmetros relativos ao mapa e à localização do robô de forma eficiente. Agrande maioria delas usa extração e correspondência de características das imagens efuncionam bem apenas quando o robô está inserido em um ambiente onde é possívela extração, descrição (classificação) e correspondências de primitivas geométricas dasimagens. Na figura 4.1 retirada de [Aires 2009] está um exemplo desse tipo de ambiente.

Figura 4.1: Ambiente de fácil extração e correspondência decaracterísticas, onde os pon-tos verdes e vermelhos representam as características extraídas da imagem

CAPÍTULO 4. SISTEMA PROPOSTO 27

Para evitar essa restrição esse trabalho propôs uma abordagem de SLAM Visual ondeos parâmetros são estimados sem a extração de primitivas geométricas da imagem, atra-vés, apenas, das comparações entre intensidades das imagens capturadas pelo robô por umum sistema de visão monocular. O sistema deve ser capaz de retornar boas estimativasmesmo quando o robô está inserido em um ambiente onde não há características salientes,como na figura 4.2. A única restrição é que esse ambiente possua regiões planares comtexturas não homogêneas.

O sistema foi implementado de tal forma que os métodos de otimização utilizadosficaram desacoplados ao sistema, possibilitando que váriosdestes fossem utilizados etestados afim de chegar em um bom equilíbrio computacional.

Figura 4.2: Ambiente de difícil extração e correspondênciade características

4.2 Abordagem Proposta

Para obter as estimativas sobre o mapa do ambiente e a localização do robô sem uti-lizar a correspondência de primitivas geométricas extraídas da imagem foi utilizada atécnica de registro direto de imagem para calcular os erros de reprojeção entre as ima-gens, que são utilizados para estimar os parâmetros relativos à pose do robô e ao mapa.Essa estimativa baseia-se na minimização desse erro, ou seja, os parâmetros que melhoralinharem as imagens (referência e as sucessivas) representam a mudança que ocorreu napose da câmera entre elas e também o mapa do ambiente. Na figura4.3 podemos ver umexemplo da aplicação de parâmetros que não representam o deslocamento que ocorreu e,consequentemente , o erro de alinhamento retornado foi muito alto.

Para minimizar o erro de reprojeção foram testadas três categorias de métodos de oti-mização: Levenberg - Marquadt, algoritmo genético e poliedros flexíveis. O primeiro,que é baseado na descida do gradiente e pode ser visto mais detalhadamente em [Kanzowet al. 2002], consiste em um aperfeiçoamento do método de Gauss-Newton que, por suavez, é uma variante do método de Newton, geralmente aplicadonos problemas de mí-nimos quadrados não lineares e tem como objetivo encontrar omelhor ajuste para um


Figura 4.3: Exemplo de um alinhamento equivocado

conjunto de dados. Algoritmo genético é uma técnica de buscae otimização, altamenteparalela, inspirada no princípio Darwiniano de seleção natural e reprodução genética[Pacheco 1999]. Poliedros flexíveis é um método multidimensional e que não utiliza ogradiente da função, apesar de se basear na mesma idéia e progredir na direção do mí-nimo [YONEYAMA et al. 1997].

A entrada do nosso sistema é formada apenas por imagens, então temos que extrairtoda informação necessária dos pixels delas, mas devido ao custo computacional nãopodemos utilizar a imagem toda, ao invés disso, utilizamos apenas partes dela.

O primeiro passo é selecionar regiões não homogêneas na imagem de referência, querepresentem planos no mundo devido à simplificação que ocorre na parametrização domesmo e também para evitar oclusão de pixels, pois regiões com características geomé-tricas mais complexas estão sujeitas a oclusão de pixels após sofrer certas transformaçõesgeométricas, enquanto que um plano está sujeito a oclusão depixels apenas no caso derotações muito agudas que transforme o plano em uma reta (figura 4.4). Essas rotaçõesfogem, totalmente, às restrições físicas do problema.

Figura 4.4: Transformações (T1,T2 e T3) que causam oclusão de pixels

Após a seleção de regiões na imagem de referência temos que mapeá-las nas imagenssucessivas de tal forma que uma função de custo associada ao erro de reprojeção dessemapeamento seja minimizada através de um método de otimização. O objetivo é encontrar


os parâmetros ótimos que alinhem duas imagens e retorne o menor erro de alinhamentopossível. Esses parâmetros representam o deslocamento do robô e o mapa do ambiente. Afunção de custo a ser minimizada possui até oito parâmetros,dos quais seis representam apose do robô e dois representam o mapa do ambiente formado porplanos parametrizadospor dois ângulos e a distância do plano à origem (figura 4.5), porém a distância serveapenas como fator de escala e não entra como parâmetro da função. Isso porque todosos parâmetros do deslocamento estão ligados à distância (estimada) do plano, causandoassim ambiguidades. Em outras palavras: estimar que a distância do plano seja de 10metros e que o robô deslocou-se 1 metro na direção desse planogera o mesmo resultadoque estimar uma distância de 100 metros e um deslocamento de 10 metros. Isso tambémocorre em outros deslocamentos e a explicação matemática está na próxima seção quandoexplico como calcular a interseção com o plano estimado.

Figura 4.5: Parametrização do plano

4.2.1 Calculando o Erro de Reprojeção

A função custo, ou erro, associada ao erro de reprojeção é calculada em três etapas:sejaδr uma região selecionada na imagem de referência eδs a região correspondentena imagem sucessiva capturada depois de um deslocamento, que pode ser representadocomo uma transformação homogêneaT(ρi), ondeρi representa o conjunto de parâmetrostestados na iteraçãoi e sejaF(ρi) a função custo a ser minimizada.

Primeira etapa

SejaVn um vértice deδr calcular em que coordenada na regiãoδs está o vértice cor-respondente aVn e testar se o mesmo saiu dos limites da imagem sucessiva. Essecálculopossui seis componentes:

O primeiro componenteé uma transformação 2D para 2D, onde a inversa da matrizde parâmetros intrínsecos é aplicada emV1, que está em coordenadas de pixel[u v 1]t ,para obter[Ximg1 Yimg1 1]t que está em coordenadas da imagem.


Ximg

Yimg

1

=(

K−1)

uv1

OndeK−1 é a inversa da matriz de parâmetros intrínsecos.O segundo componenteé uma transformação 2D para 3D, onde calcula-se quais as

coordenadas 3D deV1 em relação à câmera. Nesse componente existe um problema,pois um ponto em uma imagem 2D representa uma infinidade de pontos no mundo (umareta). No entanto se considerarmos que o mundo é formado por planos, a interseção entrereta que passa pela posição da câmera e pelo ponto[Ximg1 Yimg1 1]t com um plano nomundo resolve essa ambiguidade. Essa interseção, descritana equação abaixo, nos daráas coordenadas[Xc1 Yc1 Zc1]

t que é representação deV1 em coordenadas 3D da câmera.

PXcam−ρ.cos(α).sin(β)PYcam+ρ.sin(α)

PZcam−ρ.cos(α).cos(β)

=

−Ximg1 sin(α).sin(β) 1−cos2(α).(1−cos(β))−Yimg1 cos(α) sin(α).cos(α).sin(β).(1−cos(β))−Zimg1 sin(α).cos(β) −sin(β)

λr

λ1

λ2

Ondeα, β eρ são os parâmetros do plano,λr , λ1 eλ2 são números reais e fazem partedas equações paramétricas da reta e do plano respectivamente. Após resolver este sistemade equações lineares obteremos os valores deλ1 e λ2 e basta substituí-los na equaçõesparamétricas abaixo para obter[Xc1 Yc1 Zc1]

t .

Xc1 = ρ.cos(α).sin(β)+λ1.sin(α)sin(β)+λ2.(1−cos2(α).(1−cos(β)))

Yc1 =−ρ.sin(α)+λ1∗cos(α)+λ2.sin(α).cos(α).sin(β).(1−cos(β))

Zc1 = ρ.cos(α).cos(β)+λ1.sin(α).cos(β)−λ2.sin(β)

Nessa etapa encontra-se a explicação matemática para uma restrição importante dosistema. A variávelρ, que representa a distância do plano à origem, aparece multiplicandotodas as equações que retornarão as coordenadas do deslocamento da câmera no espaço epor esse motivo essa variável não entra como parâmetro a ser estimado pelo sistema, poisela é considerada um fator de escala.

O terceiro componenteé uma transformação 3D para 3D, onde aplicamos uma trans-formação homogênea que representa os parâmetros extrínsecos da câmera para obter[X Y Z]t que é a coordenada no mundo deV1.

XYZ1

=

(

R T0 1

)

Xc1

Yc1

Zc1

1


O quarto componenteé outra transformação homogênea com os parâmetrosρi querepresentam o deslocamentoDt que ocorreu na câmera entre a captura das duas imagens.Partindo de[X Y Z]t , obtemos[Xc2 Yc2 Zc2]

t que é representação deV1 em coordenadas3D da câmera depois de um certo deslocamento.

Xc2

Yc2

Zc2

1

=

(

Rρi Tρi

0 1

)

XYZ1

O quinto componenteé uma transformação 3D para 2D, onde, através do modelopinhole, obtemos[Ximg2 Yimg2 1]t .

Ximg2 = f .(Xc2/Zc2)Yimg2 = f .(Yc2/Zc2)

Onde f é a distância focal.O sexto componenteé uma transformação 2D para 2D, onde é aplicada a matriz de

parâmetros intrínsecos para obter as coordenadas de pixel[u′

v′

1]t na imagem sucessiva.

u′

v′

1

=(

K)

Ximg2

Yimg2

1

Após esses seis componentes temos as coordenadas emδs em que será mapeadoV1

após o deslocamentoDt da câmera com parâmetrosρi . Então é feito o mesmo para osvértices restantes para conhecer os limites deδs, e checar se a mesma saiu dos limitesda imagem, caso isso ocorra, o conjunto de parâmetrosρi deve ser descartado e novosparâmetrosρi+1 serão testados.

Segunda etapa

Aplicar a etapa anterior nos pixels restantes deδr para preencherδs. Temos quepercorrer os pixels deδr , calcular em que coordenada deδs serão mapeados após o des-locamento da câmera e copiá-los naquela coordenada. As figuras 4.6 e 4.7 mostram oresultado dessa etapa, onde a região em vermelho representaδr na img1 eδs na img2.

Terceira etapa

Calcular o erro de alinhamento. Este representado pela soma ao quadrado da dife-rença média entre as intensidades dos pixels que devem ser copiados da regiãoδr paraas coordenadas calculadas emδs e as intensidades dos pixels nas coordenadas calculadasem δs, ou seja, após percorrer os pixels deδr e calcular em que coordenada deδs serão


mapeados devemos comparar as suas intensidades com as intensidades dos pixels naquelacoordenada emδs e depois copiá-los naquela coordenada, caso os parâmetros testados re-presentem com perfeição esse deslocamento o erro será nulo,pois os pixels na imagemsucessiva são os mesmos da imagem de referência vistos de outro ponto de vista.

Figura 4.6: Representação de um grande erro de alinhamento

Figura 4.7: Representação de um ótimo alinhamento com erro quase zero

Ao final dessas três etapas temos um valor correspondente ao erro de alinhamentoentre as imagens e o conjunto de parâmetros que retornar o menor erro representará odeslocamento do robô que gerou a imagem sucessiva e também a estimativa do mapa doambiente, mas é importante frisar que nem sempre é preciso estimar todos os oito parâme-tros. No passo inicial, quando obtemos as primeiras duas imagens é preciso estimar todosos parâmetros, nos demais passos, até que ocorra uma oclusãoda região selecionada, épreciso estimar apenas os seis parâmetros relativos à pose da câmera. Existem tambémaqueles momentos onde é preciso selecionar uma nova região,devido à oclusão, nessepasso são estimados apenas dois parâmetros relativos à novaregião (plano).


4.2.2 Solução Encontrada

Então para realizar o SLAM Visual sem extração nem correspondência de característi-cas foi desenvolvido um sistema desacoplado que pode ser descrito no seguinte algoritmo:

1. Selecionar regiões da imagem que representem planos no mundo: As regiõesforam selecionadas na mão, visto que não foi possível implementar um método deseleção automática que não utilize extração e correspondência de características.

2. Calcular a projeção de cada pixel dessa região no espaço 3D:Nessa etapa foramutilizados conceitos da projeção pinhole.

3. Estimar como esses pontos 3D apareceriam na imagem capturadaapós umdeslocamento qualquer da câmera:Para isto foram utilizados conceitos da téc-nica conhecida como Estrutura a Partir do Movimento.

4. Compara essa informação com a imagem gerada após o deslocamento realda câmera e retornar um valor relativo ao erro de reprojeção:Foi utilizada aidéia do Registro Direto de Imagem, onde se utiliza diretamente as intensidades dospixels das imagens.

5. Através de um método de otimização minimizar esse erro:Como o sistemafoi implementado de uma forma desacoplada foi possível testar vários métodos deotimização diferentes.


A grande maioria das técnicas de SLAM Visual funciona bem em ambientes onde épossível a extração de características das imagens, isso porque elas usam a correspondên-cia entre elas para estimar a localização do robô e o mapa do ambiente. Nesse capítulo foiapresentada uma abordagem que propõe obter bons resultadosmesmo quando o ambientenão é propício para extração de características. A única restrição é que esse ambientedeve conter regiões planares com textura não homogênea, pois o registro direto de ima-gem compara as intensidades dos pixels das regiões que devemser alinhadas e caso essaregião seja homogênea o registro não poderá retornar erros de reprojeção confiáveis. Tam-bém nesse capítulo vimos como foi calculado o erro de reprojeção, que até então não tinhasido abordado dessa maneira em nenhum trabalho de SLAM Visual presente na literatura.

Capítulo 5

Resultados

O objetivo desse capítulo é comprovar, através da exposiçãodos resultados obtidos, osucesso do sistema implementado em diversos ambientes e mostrar que, pelo fato do sis-tema ser desacoplado, foi possível testar vários métodos deotimização. Por fim encontra-se uma conclusão geral do trabalho e uma perspectiva de futuro para o mesmo.

5.1 Resultados

Foram realizados, basicamente, quatro tipos de testes, o primeiro com imagens sinté-ticas, outros com sequências capturadas em ambientes internos e depois com sequênciasde ambientes externos (na figura 5.1 podem ser vistos alguns frames dessas sequências).Por fim foi realizado um teste para analisar o quanto de precisão se perde reduzindo-se onúmero de regiões na imagem.

Figura 5.1: Alguns frames das sequências de imagens utilizada nos testes

Em cada situação aplicamos três métodos de otimização (Levenberg-Marquadt, Algo-ritmo Genético e Poliedro Flexíveis) no sistema proposto e analisamos onde cada um seadéqua melhor, levando em conta a precisão e o tempo de processamento. Os parâmetrosutilizados nos algoritmos de otimização foram: No algoritmo genético foi utilizada umapopulação de 50 indivíduos com uma taxa de mutação de 15% , de sobrevivência de 5% eum critério de parada foi de 100 gerações ou uma diferença de 0.9 entre o valor do melhore pior indivíduo; no poliedro flexível as taxas de reflexão, expansão, redução e contraçãoforam de 1 , 1.5 , 0.5 e 0.5 respectivamente e o critério de parada foi quando a distância

CAPÍTULO 5. RESULTADOS 35

entre o melhor e pior vértice for menor que 0.1; no método de Levenberg-Marquadt foifixado o critério de parada de quando a diferença entre o valorda função em uma iteraçãoe o valor na iteração passada for menor que 0.5.

Em testes preliminares com imagens sintéticas monocromáticas, onde foram utiliza-das as coordenadas dos pixels, ao invés das intensidades, para obter o valor do erro dereprojeção, foram testados, inúmeras vezes, os algoritmos: Levenberg - Marquadt, al-goritmo genético e poliedros flexíveis, com objetivo de obter as médias do tempo e donúmero de iterações que cada um leva para atingir o mínimo (tabela 5.1).

Tabela 5.1: Valores médios do número de iterações, tempo em milisegundos e da funçãominimizada.

Métodos Iterações Tempo Valor da função

PoliedrosF. 126,591 16,481 1,234A.Geneticos 90,712 689,931 0,291LevenbergM. 44,806 6,072 3,112

A partir desse teste preliminar constatou-se que a utilização de algoritmos genéticosnos fornece bons resultados, provavelmente, devido ao fatode ser robusto aos mínimoslocais, porém seu tempo de processamento é muito alto. Os métodos do poliedro flexívele Levenberg-Marquadt se mostraram eficientes do ponto de vista computacional, mas nãoapresentaram resultados precisos devido ao fato de que estes estão mais suscetíveis aosmínimos locais. A seguir foram realizados testes com imagens reais de ambientes inter-nos e externos e em ambos os testes é feita uma comparação entre o movimento estimadoe o movimento conhecido da câmera. Também foi considerado o sistema de referênciada câmera como na figura 5.2 e para agilizar o processo de estimação, as imagens fo-ram tratadas em tons de cinza, visto que dessa forma é possível extrair toda informaçãonecessária.

Figura 5.2: Sistema de referência da câmera


5.2 Primeiro experimento (ambiente interno)

Nesse experimento os testes foram realizados em dois ambientes internos, onde seencontram, com mais facilidade, planos com texturas não homogêneas. No primeiroambiente (figura 5.3) foi utilizada uma câmera não calibradae no segundo (figura 5.4)conhecia-se os parâmetros intrínsecos da câmera.

Figura 5.3: Primeiro ambiente interno, onde as regiões em vermelho são os planos utili-zados no processo de estimação

Figura 5.4: Segundo ambiente interno, onde as regiões em vermelho são os planos utili-zados no processo de estimação


5.2.1 Câmera não calibrada

Nas figuras 5.5, 5.6 e 5.7 encontram-se os gráficos do deslocamento do robô no espaçoe as variações do ângulo de guinada em radianos. Não houve variações significativas nosângulo de rolagem (em torno do eixo z), arfagem (em torno do eixo x) e no deslocamentoem y, visto que o piso do ambiente é plano.

Figura 5.5: Resultados obtidos com Algoritmogenéticos

Figura 5.6: Resultados obtidos com poliedrosflexíveis

Figura 5.7: Resultados obtidos com Levenberg-Marquadt

É importante frisar que o fato da câmera não ser calibrada, nos retorna medidas dedeslocamento em unidades de pixels. A calibração da câmera apenas converterá essas


unidades para centímetros.O mapa (tabela 5.2) é formado pelos planos selecionados na imagem e de acordo

como eles foram parametrizados nesse trabalho. Entãoα é o ângulo entre a normal doplano e o eixo z da câmera,β é o ângulo entre a projeção da normal no plano xz e o eixoz da câmera eρ é a menor distância entre o plano e a câmera, mas esse último não entracomo parâmetro estimado, ele é pré-definido baseando-se em informação a priori.

Um detalhe importante é que esse mapa foi estimado apenas umavez no primeiropasso do algoritmo. Isso porque os planos selecionados aparecem em todos os frames dasequência de vídeo. Assim foi em todos os experimentos.

Tabela 5.2: Valores dos parâmetros dos planos em radianos doexperimento 1.1.

Métodos α βPoliedrosF.plano1 0.0121 0.0103PoliedrosF.plano2 −0.0214 0.0117PoliedrosF.plano3 0.0116 0.0111

A.Geneticosplano1 −0.0001 0.0002A.Geneticosplano2 0.0004 0.0005A.Geneticosplano3 0.0009 −0.0003

LevenbergM.plano1 0.0173 −0.0012LevenbergM.plano2 0.1167 0.0982LevenbergM.plano3 0.0021 0.0221

Valoresperadodoplano1 0.0000 0.0000Valoresperadodoplano2 0.0000 0.0000Valoresperadodoplano3 0.0000 0.0000

O valor correspondente à distância entre a câmera e o plano nesse experimento foipré-definida como de 100 unidades de pixels, lembrando que por restrições matemáticasessa distância não entra como parâmetro à ser estimado e deveser definido baseado eminformação a priori.

5.2.2 Câmera calibrada

Neste experimento realizado em outro ambiente externo foi utilizada uma câmera comparâmetro intrínsecos conhecidos. Os resultados estão aprentados nas figuras 5.8, 5.9 e5.10, onde encontram-se os gráficos do deslocamento do robô no espaço e as variaçõesdo ângulo de guinada. Os parâmetros estimados do mapa encontram-se na tabela 5.3.

A câmera é calibrada, então as unidades no gráfico do deslocamento estão em centí-metros e as variações do ângulo de guinada estão em radianos.


Figura 5.8: Resultados obtidos com Algoritmo Genético

Figura 5.9: Resultados obtidos com Poliedro Flexível



Tabela 5.3: Valores dos parâmetros dos planos em radianosdoexperimento 1.2.

Métodos α βPoliedrosF.plano1 −0.0051 0.0126PoliedrosF.plano2 0.0017 −0.0017PoliedrosF.plano3 0.0016 0.0121PoliedrosF.plano4 0.0011 −0.0211

A.Geneticosplano1 −0.0004 0.0012A.Geneticosplano2 −0.0003 −0.0015A.Geneticosplano3 0.0007 0.0013A.Geneticosplano4 0.0009 0.0017

LevenbergM.plano1 0.0165 0.0112LevenbergM.plano2 0.0268 −0.0982LevenbergM.plano3 −0.0026 −0.0471LevenbergM.plano4 0.0023 0.0289

Valoresperadodoplano1 0.0000 0.0000Valoresperadodoplano2 0.0000 0.0000Valoresperadodoplano3 0.0000 0.0000Valoresperadodoplano4 0.0000 0.0000


5.3 Segundo experimento (ambiente externo)

Figura 5.11: Primeiro ambiente externo, onde as regiões em vermelho são os planos uti-lizados no processo de estimação

Figura 5.12: Segundo ambiente externo, onde as regiões em vermelho são os planos utili-zados no processo de estimação

Nesse experimento os testes forma realizados em dois ambientes externos, o que tornaa seleção de planos com texturas não homogêneas uma tarefa mais complexa e o fato determos mudanças na iluminação atrapalha na estimação dos parâmetros. No primeiroambiente (figura 5.11) foi utilizada uma câmera não calibrada e no segundo (figura 5.12)conhecia-se os parâmetros intrínsecos da câmera e assim como no primeiro experimento,os ângulo de rolagem (em torno do eixo z), arfagem (em torno doeixo x) variaram deforma não significativa, porém o piso do ambiente apresentava alguns desníveis o queocasionou algumas variações na altura da câmera (eixo y).


5.3.1 Câmera não calibrada

Nas figuras 5.13, 5.14 e 5.15 encontram-se os gráficos do deslocamento do robô noespaço e as variações do ângulo de guinada em radianos. Na tabela 5.4 encontra-se osparâmetros estimados do mapa.

Figura 5.13: Resultados obtidos com Al-goritmo genéticos

Figura 5.14: Resultados obtidos com po-liedros flexíveis



5.3.2 Câmera calibrada

Nas figuras 5.16, 5.17 e 5.18 encontram-se os gráficos do deslocamento do robô noespaço e as variações do ângulo de guinada em radianos. Na tabela 5.5 encontra-se osparâmetros estimados do mapa.

Figura 5.16: Resultados obtidos com Algoritmo Genético

Figura 5.17: Resultados obtidos com Poliedro Flexível




Métodos α βPoliedrosF.plano1 0.0091 0.5126PoliedrosF.plano2 0.0116 −0.0127PoliedrosF.plano3 −0.0012 0.0421

A.Geneticosplano1 0.0012 0.6212A.Geneticosplano2 −0.0009 −0.0035A.Geneticosplano3 0.0007 0.0053

LevenbergM.plano1 −0.0231 0.4912LevenbergM.plano2 0.0218 −0.0522LevenbergM.plano3 0.0126 0.0311

Valoresperadodoplano1 0.0000 0.6000Valoresperadodoplano2 0.0000 0.0000Valoresperadodoplano3 0.0000 0.0000


Métodos α βPoliedrosF.plano1 0.0121 0.7221PoliedrosF.plano2 0.0017 −0.2417PoliedrosF.plano3 0.0113 −0.2821PoliedrosF.plano4 0.0051 −0.4211

A.Geneticosplano1 0.0114 0.8052A.Geneticosplano2 0.0021 −0.2011A.Geneticosplano3 0.0012 −0.3014A.Geneticosplano4 0.0032 −0.3987

LevenbergM.plano1 0.0215 0.6912LevenbergM.plano2 0.0128 −0.2982LevenbergM.plano3 0.0072 −0.2471LevenbergM.plano4 0.0031 −0.3789

Valoresperadodoplano1 0.0000 0.8000Valoresperadodoplano2 0.0000 −0.2000Valoresperadodoplano3 0.0000 −0.3000Valoresperadodoplano4 0.0000 −0.4000


5.4 Terceiro experimento

Neste experimento foram utilizados os dados do ambiente externo com câmera ca-librada (5.3.2) e foram realizados testes com números diferentes de regiões. O métodode otimização utilizado foi o Algoritmo genético com uma população de 50 indivíduoscom uma taxa de mutação de 15% , de sobrevivência de 5% e um critério de parada foide 100 gerações ou uma diferença de 0.9 entre o valor do melhore pior indivíduo; Oobjetivo foi analisar como a precisão na estimativa de parâmetros é prejudicada com umnúmero reduzido de regiões. O resultado encontram-se nas figura 5.19 5.20. Na tabela 5.6encontra-se um comparativo do tempo (em milissegundos) de convergência do algoritmoem cada teste com números diferentes de regiões.

Figura 5.19: Resultados obtidos com diferentes números de regiões

Tabela 5.6: Tempo médio (em milissegundos) de convergênciado algoritmo em cadasituação.

N. de regiões tempo médio de convergência

1Regiao 231.12Regioes 489.63Regioes 1052.34Regioes 2592.1


Figura 5.20: Resultados obtidos com diferentes números de regiões no mesmo gráfico

5.5 Conclusão do capítulo

Neste capítulo foi apresentado o resultado de vários testesrealizados com o sistemaproposto, onde se tentou abordar várias possíveis situações em que o sistema seria capazde ser aplicado. O sistema foi testado em quatro ambientes, sendo dois internos e doisexternos.

Deu-se ênfase na busca por um bom equilíbrio entre boas estimativas e algoritmosde otimização eficientes. Por esse motivo em cada ambiente foram testadas três possí-veis combinações do sistema proposto, são elas; com Algoritmo Genético, com Poliedrosflexíveis e com Levenberg-Marquadt.

No próximo capítulo encontra-se a conclusão do trabalho e perspectivas de trabalhosfuturos.

Capítulo 6

Conclusões e perspectivas

6.1 Conclusão

Nas últimas duas décadas o problema conhecido como SLAM (localização e mapea-mento simultâneos) foi alvo de intensa pesquisa e podemos encontrar diversos trabalhoscom diferentes soluções para esse problema. Recentemente, impulsionados pelo avançocomputacional, trabalhos nessa área propuseram usar câmera de vídeo como sensor esurgiu assim o SLAM Visual. Este possui várias abordagens e agrande maioria delasfuncionam basicamente extraindo características do ambiente, calculando as devidas cor-respondências e através destas e de filtros estatísticos estimam os parâmetros necessários.

Neste trabalho foi apresentado um sistema de SLAM Visual Monocular que utilizaregistro direto de imagem e métodos de otimização, de forma desacoplada, para estimar osparâmetros relativos à pose do robô e ao mapa do ambiente e dessa forma dispensa as fasesde extração e correspondências de características, o que abre a possibilidade do sistemafuncionar bem em ambientes nos quais as abordagens tradicionais teriam dificuldades. Ofato de se usar registro direto nos permite explorar mais informações da imagem ao invésde reduzi-la a alguns pixels, como fazem os métodos clássicos, porém isto requer muitoprocessamento. Por esse motivo as regiões da imagem escolhidas para processamento nãopodem ser muito grande e nem precisam como foi visto nos testes do capítulo 5.

Outra vantagem obtida ao se abordar o problema do SLAM da forma proposta nessetrabalho é o fato de minimizar um problema muito comum nas abordagens tradicionais,conhecido como acumulo ou propagação do erro. No nosso caso,esse problema nãoocorre porque, dado uma imagem de referência, todo cálculo do deslocamento é feitocomparando as várias imagens sucessivas com a imagem de referência(figura 6.1), atéque as regiões da mesma não apareçam mais nas imagens sucessivas.

Nos sistemas robóticos há uma exigência de que os algoritmosfuncionem em temporeal, por isso é importante alcançar um equilíbrio entre custo computacional e algoritmosrobustos. Afim de procurar o melhor equilíbrio, o presente trabalho testou vários métodosde otimização, dos quais podemos tirar as seguintes conclusões:

• O uso de algoritmos genéticos retornam bons resultados devido a robustez à míni-mos locais, porém o tempo de processamento é muito alto o que nos obriga a usaruma população reduzida e isso pode ocasionar uma perda de precisão.

CAPÍTULO 6. CONCLUSÕES E PERSPECTIVAS 48

Figura 6.1: Motivo pelo qual não há acumulo do erro

• Usar poliedros flexíveis nos retorna resultados medianos emum tempo de proces-samento bem menor, porém esse método é, razoavelmente, suscetível à mínimoslocais.

• O método de Levenberg-Marquadt é o que exige menos poder computacional, po-rém os resultados não foram tão bons.

Apesar de retornar bons resultados, o sistema proposto possui algumas restrições quedevem ser eliminadas em trabalhos futuros, como:

• O problema da escalabilidade, onde a distância entre os planos e a câmera servemcomo escala e não podem entrar na otimização.

• As imagens devem possuir regiões que representam planos no mundo e essas devempossuir textura.

• O Método de otimização utilizado merece um estudo profundo para encontrar umequilíbrio entre rapidez de convergência e bons resultados.

6.2 Perspectivas

O sistema proposto retornou bons resultados, porém, após alguns ajustes e pesquisasmais detalhadas o sistema pode se tornar mais eficiente e completo. Para conseguir isso épreciso:

CAPÍTULO 6. CONCLUSÕES E PERSPECTIVAS 49

• Estudar mais detalhadamente o método de Levenberg - Marquadt para tentar acharum ajuste de parâmetros que melhore os resultados.

• Testar exaustivamente algoritmos genéticos para chegar emuma população mínimaque pode ser usada para obter bons resultados em tempo real, visto que o tempo deprocessamento está diretamente ligado ao número de indivíduos.

• Testar estratégias de combinação dos métodos testados parachegar à solução doproblema de forma mais eficiente.

• Implementar, se necessário, um método de otimização próprio para o sistema.• Melhorar a questão, em aberto, da seleção das regiões da imagem, que deve ser

automatizada, se possível, por técnicas que não usam extração de características,apesar de que todas as técnicas de extração de planos da imagem usam extração decaracterísticas.

• Na etapa do algoritmo, onde tem que se estimar o plano e a localização do robôem relação ao plano estimado, o parâmetro relativo à distância dos planos ao robôestá sendo definido a priori e não entra na otimização, visto que ele está ligado aosoutros parâmetros e pode ocasionar ambiguidades e isso deveser estudado afim deachar uma solução para que esse parâmetro seja estimado comoos outros.

Referências Bibliográficas

Aires, Kelson Rômulo Teixeira (2009),Segmentação de Planos Baseada em HomografiaAfim, Fluxo Óptico e Reconstrução Métrica, Universidade Federal do Rio Grandedo Norte.

Angeli, A., D. Filliat, S. Doncieux e J. Meyer (2008), ‘Fast and incremental method forloop-closure detection using bags of visual words’,IEEE Transaction on Robotics,Vol. 24, No. 5, pp. 1027-1037.

Artieda, Jorge, José M. Sebastian, Pascual Campoy, Juan F. Correa, Iván F. Mondragón,Carol Martínez e Miguel Olivares (2009), ‘Visual 3-d slam from uavs’, J. Intell.Robotics Syst.55, 299–321.http://portal.acm.org/citation.cfm?id=1569372.1569375

Ayache, Nicholas e Peter T. Sander (1991),Artificial Vision for Mobile Robots: StereoVision and Multisensory Perception, MIT Press, Cambridge, MA, USA.

Barbara, Zitova e Flusser Jan (2003), ‘Image registration methods: a survey’,Image andVision Computing21.

Barnea, D.I. e H.F. Silverman (1972), ‘A class of algorithms for fast digital image regis-tration’, IEEE Transactions on Computing.

Benhimane, S. e E. Malis (2006), ‘Integration of euclidean constraints in template basedvisual tracking of piecewise-planar scenes’,Proc. of the IEEE/RSJ IROS.

BROWN, LISA GOTTESFELD (1992), ‘A survey of image registration techniques’,ACM Computing Surveys24.

CHEN, ZHENHE, JAGATH SAMARABANDU e RANGA RODRIGO (2007), ‘Recentadvances in simultaneous localization and map-building using computer vision’,Ad-vanced Robotics21.

Civera, J., A. J. Davison e J. M. Montiel (2008), ‘Inverse depth parametrization for mo-nocular SLAM’, IEEE Transaction on Robotics, Vol. 24, No. 5, pp. 932-945.

Clark, S. e G. Dissanayake (1999), ‘Simultaneous localisation and map building usingmillimetre wave radar to extract natural features’,IEEE International Conferenceon Robotics and Automation.

50

REFERÊNCIAS BIBLIOGRÁFICAS 51

Clemente, L., A. Davison, I. Reid, J. Neira e J. Tardos (2007), ‘Mapping large loops witha single hand-held camera’,Proceedings of Robotics: Science and Systems.

Davison, A. J., N. D. Molton e I. D. Reid (2004), ‘Locally planar patch features for real-time structure from motion’,Proc. of the BMVC.

Davison, Andrew J. (2003), ‘Real-time simultaneous localisation and mapping with asingle camera’,International Conference on Computer Vision (ICCV).

Davison, Andrew J. e David W. Murray (2002), ‘Simultaneous localization and map-building using active vision’,IEEE TRANSACTIONS ON PATTERN ANALYSISAND MACHINE INTELLIGENCE24(7).

Davison, Andrew J., Hauke Strasdat e J. M. M. Montiel (2010),‘Real-time monocularslam: Why filter?’,ICRA 2010.

Davison, Andrew J., Ian D. Reid, Nicholas D. Molton e Olivier Stasse (2007), ‘Monos-lam: Real-time single camera slam’,IEEE TRANSACTIONS ON PATTERN ANALY-SIS AND MACHINE INTELLIGENCE29(6).

Durrant-Whyte, H. (1988), ‘Uncertain geometry in robotics’, IEEE TRANSACTIONS ONROBOTICS4(1).

Durrant-Whyte, H. e T. Bailey (2006), ‘Simultaneous localization and mapping: Part i’,IEEE Transactions on Robotics and Automation, pp. 99-108.

Faugeras, O. (1993), ‘Three-dimensional computer vision:A geometric viewpoint’,TheMIT press, Cambridge, MA.

Gee, A., D. Chekhlov, A. Calway e W. Cuevas (2008), ‘Discoveringhigher level structurein visual SLAM’, IEEE Transaction on Robotics, Vol. 24, No. 5, pp. 980-990.

Guivant, J. e E. Nebot (2002), ‘Simultaneous localization and map building: Test case foroutdoor applications’,IEEE Int. Conference on Robotics and Automation.

Hanna, K.J. (1991), ‘Direct multi-resolution estimation of egomotion and structure frommotion’, Workshop on Visual Motion.

Huttenlocher, D. e S. Ullman (1990), ‘Recognizing solid objects by alignment with animage’,International Journal of Computer Vision.

Irani, M. e P. Anandan (1999), ‘About direct methods’,in Proc. Workshop Vis. Algo-rithms: Theory Pract., Corfu, Greece.

Jin, H., P Favaro e S. Soatto (2003), ‘A semi-direct approachto structure from motion’,The Visual Computer 6.

Kalman, R. E. (1960), ‘A new approach to linear filtering and predictive problems’,Tran-sactions ASME, Journal of basic engineering.


Kanzow, Christian, Nobuo Yamashita e Masao Fukushima (2002), ‘levenberg-marquardtmethods for constrained nonlinear equations with strong local convergence proper-ties’, Institute of Applied Mathematics and Statistics University of Wurzburg.

Klippenstein, J. e H. Zhang (2007), ‘Quantitative evaluation of feature extractors for vi-sual SLAM’, onference on Computer and Robot Vision.

Konolige, Kurt e Motilal Agrawal (2008), ‘Frameslam from bundle adjustment to realtimevisual mapping’,IEEE Transactions on Robotics24(5).

Kootstra, Gert e R. B. Schomaker Lambert (2009), ‘Using symmetrical regions of interestto improve visual slam’,IEEE/RSJ International Conference on Intelligent Robotsand Systems.

Lemaire, T. e S. Lacroix (2007), ‘Monocular-vision based slam using line segments’,IEEE International Conference on Robotics and Automation, pp.2791-2796.

Leonard, J. J. e H. Durrant-Whyte (1991), ‘Mobile robot localization by tracking geome-tric beacons’,IEEE Transactions on Robotics and Automation1(3), 376–382.

Longuet-Higgins, H. C. (1981), ‘A computer algorithm for reconstructing a scene fromtwo projections’,Nature293.

Malis, E. (2004), ‘Improving vision-based control using efficient second-order minimiza-tion techniques’,Proc. of the IEEE ICRA.

Malis, E., G. Silveira, e P. Rives (2008), ‘The efficient e-3d visual servoing’,InternationalJournal of Optomechatronics.

Malis, Ezio (2004), ‘Improving vision-based control usingefficient second-order minimi-zation techniques’,Proc. of the IEEE ICRA.

Molton, Nicholas, Andrew Davison e Ian Reid (2004), ‘Locallyplanar patch features forreal-time structure from motion’,British Machine Vision Conference.

Morris, D. e T. Kanade. (1998), ‘A unified factorization algorithm for points, line seg-ments and planes with uncertainty models’,International Conference on ComputerVision (ICCV).

Murray, D. e G. Klein (2008), ‘Improving the agility of keyframe based slam’,In Proce-edings of the European Conference on Computer Vision.

Pacheco, Marco Aurélio Cavalcanti (1999), ‘Algoritmos geneticos: Principios e aplica-coes’,ICA - Universidade Catolica do Rio de Janeiro.

Poelman, C. e T. Kanade (1997), ‘A paraperspective factorization method for shape andmotion recovery’,IEEE Transiction on Pattern Analysis and Machine Intelligence.


Santana, André Macêdo (2007),Localização e Planejamento de Caminhos para um RobôHumanóide e um Robô Escravo com Rodas, Universidade Federal do Rio Grande doNorte.

Santana, André Macêdo (2010),Localização e Mapeamento Simultâneos de AmbientesPlanos Usando Visão Monocular e Representação Híbrida do Ambiente, Universi-dade Federal do Rio Grande do Norte.

Santos, Guilherme Leal (2010),Localização de Robôs Móveis Autônomos UtilizandoFusão Sensorial de Odometria e Visão Monocular, Universidade Federal do RioGrande do Norte.

Sharma, R.K. e M. Pavel (1997), ‘Multisensor image registration’, Proceedings of theSociety for Information Display XXVIII.

Silveira, Geraldo, Ezio Malis e Patrick Rives (2007), ‘An efficient direct method for im-proving visual slam’,IEEE International Conference on Robotics and Automation.

Silveira, Geraldo, Ezio Malis e Patrick Rives (2008), ‘An efficient direct approach tovisual slam’,IEEE TRANSACTIONS ON ROBOTICS24(5).

Silveira, Geraldo, Ezio Malis e Rives Patrick (2009), ‘Registro direto de imagens paraslam visual’,Simpósio Brasileiro de Automação Inteligente.

Smith, R., M. Self e P. Cheeseman (1987), ‘On the representation of spatial uncertainty’,Int J Robot Res5.

Szeliski e Kang (1995), ‘Direct methods for visual scene reconstruction.’,IEEE Workshopon Representation of Visual Scenes.

Thomas, Stephen J. (2008), Real-time stereo visual slam, Dissertação de mestrado, De-partment of Engineering and Physical Sciences Heriot-WattUniversity.

Thrun, S. (2002), ‘Robotic mapping: A survey’,Academic Publish, Carnegie MellonUniversity - Pittsburgh.

Thrun, Sebastian, Frank Dellaert, Steven M. Seitz e Charles E. Thorpe (2000), ‘Structurefrom motion without correspondence’,Computer Vision and Pattern RecognitionProceedings. IEEE Conference on.

Tomasi, C. e T. Kanade (1992), ‘Shape and motion from image streams under ortho-graphy: a factorization method’,International Journal of Computer Vision.

Wang, C. (2004), Simultaneous Localization, Mapping and Moving Object Tracking, Tesede doutorado, Carnegie Mellon University - Pittsburgh.

Wiley, John (2009),Practical Image Processing and Computer Vision, D.P. Robertsonand R. Cipolla, capítulo 13.


YONEYAMA, Takashi, Cairo L. e NASCIMENTO Jr. (1997), ‘Inteligência artificial emautomação e controle’,São Paulo.

Documents

Técnicas Visuais de Localização e Mapeamento Simultâneos sem Extração de ... · 2017-10-20 · Seção de Informação e Referência Catalogação da Publicação na Fonte