114
JULIE DUBÉ Analyse de la reconstruction 3D par stéréo multivue dans l’optique des défis de l’appariement Mémoire présenté à la Faculté des études supérieures de l’Université Laval dans le cadre du programme de maîtrise en génie électrique pour l’obtention du grade de maître ès sciences (M. Sc.) FACULTÉ DES SCIENCES ET DE GÉNIE UNIVERSITÉ LAVAL QUÉBEC 2009 c Julie Dubé, 2009

Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

JULIE DUBÉ

Analyse de la reconstruction 3D par stéréo multivuedans l’optique des défis de l’appariement

Mémoire présentéà la Faculté des études supérieures de l’Université Laval

dans le cadre du programme de maîtrise en génie électriquepour l’obtention du grade de maître ès sciences (M. Sc.)

FACULTÉ DES SCIENCES ET DE GÉNIEUNIVERSITÉ LAVAL

QUÉBEC

2009

c©Julie Dubé, 2009

Page 2: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Résumé

Le sujet de la reconstruction 3D par stéréo multivue a été tant étudié, tellement deméthodes ont été développées qu’il n’est pas toujours facile de s’y retrouver. Qu’est-cequi fait qu’un algorithme est plus efficace qu’un autre ? Pour répondre à cette question,il faut être en mesure de reconnaître les caractéristiques fondamentalement intéressantesd’un algorithme. Dans le but d’acquérir ce savoir, nous allons décortiquer les différentesétapes de la reconstruction d’un objet, en partant par la base de la stéréo : l’apparie-ment. Trouver des positions dans différentes images qui correspondent au même pointde la surface comprend plusieurs défis : la visibilité (quel point est vu dans quelleimage ?), l’ambiguïté (quel ensemble de pixels correspond à un point de la surface ?), lavariation d’apparence angulaire (la couleur d’un point de la surface peut changer selonle point de vue) et la discrétisation de l’apparence (une image est un échantillonnagede l’apparence d’une partie de la surface). Apparier implique de pouvoir évaluer que lavariation de couleur angulaire d’un point est cohérente avec le modèle de réflectancede l’objet. Pour évaluer la photo-cohérence, un critère de comparaison, des contraintessur la surface et une façon d’emmagasiner les données sont nécessaires. Compte tenudes problèmes d’appariement, la photo-cohérence n’est pas suffisante pour trouver lasurface. Pour trouver les meilleurs appariements, les algorithmes de reconstruction in-tègrent donc les façons d’évaluer la photo-cohérence aux autres hypothèses sur la surface(ex : lisse, cohérente aux silhouettes).

Page 3: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Avant-propos

Avant toute chose, je tiens à remercier tous ceux qui ont contribué à faire de monpassage à la maîtrise une expérience enrichissante. Le professeur Patrick Hébert m’afait découvrir le domaine de la vision 3D et ses possibilités, ce pourquoi je lui suisreconnaissante. Son efficacité et sa disponibilité ont été grandement appréciées. Macollaboration avec Philippe Lambert a stimulé l’intérêt pour mes recherches. Cela m’aamenée à mieux comprendre le sujet et à découvrir et considérer de nouvelles idées.Je suis redevable envers le CRSNG pour m’avoir supportée financièrement durant mestravaux. Le LVSN, avec son équipement, ses séminaires et son système GLS (pourl’énergie qu’il apporte), a été un environnement propice à l’avancement de mon projet.D’ailleurs, j’aimerais exprimer ma gratitude à tous ceux qui ont contribué à rendrel’ambiance du laboratoire agréable. Finalement, merci à Arthur et Patrick Lacasse pourleur indéfectible présence.

Page 4: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Table des matières

Résumé ii

Avant-propos iii

Table des matières iv

Liste des tableaux vi

Table des figures vii

1 Introduction 1

2 L’appariement, un point à la fois 72.1 Principes de l’appariement . . . . . . . . . . . . . . . . . . . . . . . . . 72.2 Défis de l’appariement . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.2.1 Changements d’apparence . . . . . . . . . . . . . . . . . . . . . 102.2.2 Visibilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.2.3 Discrétisation spatiale de l’apparence . . . . . . . . . . . . . . . 122.2.4 Ambiguïtés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.2.5 Pistes de solutions . . . . . . . . . . . . . . . . . . . . . . . . . 16

3 Critères de comparaison 193.1 Critères basés sur un pixel . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.1.1 Deux caméras . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.1.2 Plus de deux caméras . . . . . . . . . . . . . . . . . . . . . . . . 21

3.2 Critères calculés sur des fenêtres . . . . . . . . . . . . . . . . . . . . . . 263.2.1 Fenêtres de comparaison . . . . . . . . . . . . . . . . . . . . . . 263.2.2 Types des critères utilisant des fenêtres de comparaison . . . . . 293.2.3 Comparaison d’images transformées . . . . . . . . . . . . . . . . 37

3.3 Sommaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

4 Contraintes et représentations de données 414.1 Contraintes sur la surface . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.1.1 Surface englobante . . . . . . . . . . . . . . . . . . . . . . . . . 42

Page 5: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Table des matières v

4.1.2 Informations locales éparses . . . . . . . . . . . . . . . . . . . . 444.1.3 Surface intermédiaire . . . . . . . . . . . . . . . . . . . . . . . . 45

4.2 Représentations de données . . . . . . . . . . . . . . . . . . . . . . . . 464.2.1 Cartes de profondeurs . . . . . . . . . . . . . . . . . . . . . . . 474.2.2 Champ de distance . . . . . . . . . . . . . . . . . . . . . . . . . 494.2.3 Champ d’occupation . . . . . . . . . . . . . . . . . . . . . . . . 514.2.4 Nuage de points . . . . . . . . . . . . . . . . . . . . . . . . . . . 524.2.5 Maillage de la surface . . . . . . . . . . . . . . . . . . . . . . . . 524.2.6 Tessellation volumétrique . . . . . . . . . . . . . . . . . . . . . . 534.2.7 Champ de surfels . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.3 Sommaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

5 Reconstruction globale de la surface : familles d’algorithmes 585.1 Approche 1 : Reconstruction utilisant des zones de recherche . . . . . . 59

5.1.1 Algorithmes basés sur un volume . . . . . . . . . . . . . . . . . 605.1.2 Algorithmes basés images . . . . . . . . . . . . . . . . . . . . . 625.1.3 Optimisation à partir de cartes de profondeurs . . . . . . . . . . 65

5.2 Approche 2 : Création d’une surface grossissante . . . . . . . . . . . . . 705.3 Approche 3 : Évolution d’une surface . . . . . . . . . . . . . . . . . . . 73

5.3.1 Minimisation de l’erreur de reprojection . . . . . . . . . . . . . 745.3.2 Minimisation de l’erreur de dissimilarité . . . . . . . . . . . . . 75

5.4 Sommaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

6 Résultats d’implantation de méthodes 796.1 Middlebury . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

6.1.1 Analyse des résultats de Middlebury . . . . . . . . . . . . . . . 836.2 Méthode de reconstruction implantée . . . . . . . . . . . . . . . . . . . 86

7 Conclusion 94

Annexe 97

Bibliographie 101

Page 6: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Liste des tableaux

4.1 Hypothèses selon le type de contrainte . . . . . . . . . . . . . . . . . . 554.2 Caractéristiques des représentations de données . . . . . . . . . . . . . 56

6.1 Comparaison des résultats de Middlebury . . . . . . . . . . . . . . . . . 856.2 Précision du Temple et du Dino . . . . . . . . . . . . . . . . . . . . . . 906.3 Complétude du Temple et du Dino . . . . . . . . . . . . . . . . . . . . 93

7.1 Table de symboles (première partie) . . . . . . . . . . . . . . . . . . . . 977.2 Table de symboles (deuxième partie) . . . . . . . . . . . . . . . . . . . 98

Page 7: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Table des figures

1.1 Acquisition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Appariement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.3 Repli de spectre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.1 Fonction plénoptique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.2 Visibilité par rapport à une caméra . . . . . . . . . . . . . . . . . . . . 92.3 Appariement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.4 Variation d’apparence . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.5 Types de réflexions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.6 Visibilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.7 Visibilité de points sur la surface ou pas . . . . . . . . . . . . . . . . . 132.8 Discrétisation spatiale de l’apparence . . . . . . . . . . . . . . . . . . . 142.9 Précision de la triangulation vs angle entre caméras . . . . . . . . . . . 152.10 Ambiguïtés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.11 Surface peu texturée : choix de caméras de comparaison . . . . . . . . . 172.12 Triangulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.1 BT : critère invariant à la discrétisation . . . . . . . . . . . . . . . . . . 223.2 Critère d’entropie : schéma des histogrammes . . . . . . . . . . . . . . 243.3 Schéma des caméras comparées pour la fréquence . . . . . . . . . . . . 253.4 Roulis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.5 Fenêtres fixes par rapport à l’homographie . . . . . . . . . . . . . . . . 283.6 Information mutuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313.7 Courbes de comparaison pour une région texturée . . . . . . . . . . . . 333.8 Courbes de comparaison pour une région occultée dans une des caméras 353.9 Courbes de comparaison pour une région très peu texturée . . . . . . . 363.10 Transformation : Gradient . . . . . . . . . . . . . . . . . . . . . . . . . 383.11 Transformation : Rang . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

4.1 Parties d’un algorithme de reconstruction . . . . . . . . . . . . . . . . . 424.2 Enveloppe visuelle à partir des silhouettes . . . . . . . . . . . . . . . . 434.3 Surface intermédiaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464.4 Carte de profondeurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

Page 8: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Table des figures viii

4.5 Carte de profondeurs : hiérarchie des représentations de données . . . . 494.6 Champ de distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504.7 Champ de visibilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514.8 Nuage de points . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.9 Maillage de surface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 544.10 Champ de surfels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554.11 Schéma : lien entre les contraintes de surface et les critères de comparaison 57

5.1 Déformation de l’enveloppe visuelle . . . . . . . . . . . . . . . . . . . . 615.2 Reconstruction par intervalle de recherche . . . . . . . . . . . . . . . . 625.3 Choix des caméras de comparaison pour un intervalle . . . . . . . . . . 645.4 Incohérences entre les cartes de profondeurs . . . . . . . . . . . . . . . 675.5 Maillage d’une carte de profondeurs . . . . . . . . . . . . . . . . . . . . 675.6 Champ de densité de points . . . . . . . . . . . . . . . . . . . . . . . . 695.7 Contraintes amenées par la connaissance d’une surfel . . . . . . . . . . 715.8 Évolution d’une surface . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

6.1 Images du Temple et du Dino . . . . . . . . . . . . . . . . . . . . . . . 806.2 Position des caméras Middlebury . . . . . . . . . . . . . . . . . . . . . 816.3 Middlebury : précision et complétude . . . . . . . . . . . . . . . . . . . 836.4 Images de résultats de Middlebury . . . . . . . . . . . . . . . . . . . . 846.5 Caractéristiques des courbes de photo-cohérence . . . . . . . . . . . . . 886.6 Reconstructions Fréquence . . . . . . . . . . . . . . . . . . . . . . . . . 916.7 Reconstructions CCN . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

7.1 Coupe de graphe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

Page 9: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 1

Introduction

À tout moment, souvent inconsciemment, notre cerveau déduit la forme des objetsqui nous entourent. Il connaît précisément la distance à un objet, ce qui nous permet dele prendre sans hésitation. Pour faire cela, il utilise l’information fournie par nos yeux.Par contre, lorsqu’immobile et avec un oeil fermé, il y a beaucoup plus d’ambiguïté quantà la position de l’objet. C’est que, pour bien percevoir les distances, il est nécessairede voir le même objet à partir d’au moins deux positions différentes. Cela permet demettre en correspondance ce qui est présent dans les deux vues et d’estimer la distancepar triangulation. Cette paire stéréo, chez l’humain, ce sont ses deux yeux (ouverts).

Afin de reproduire artificiellement la capacité de percevoir la profondeur, la pairestéréo pourrait être remplacée par des caméras alors que l’ordinateur traiterait l’infor-mation. En théorie, un bon algorithme devrait être capable de remplacer le système devision de l’humain. En pratique, évidemment, rien n’est aussi simple, à tel point quec’est un champ de recherche en soi. L’apparence de l’objet dont la forme est cherchéeest capturée dans un ensemble d’images (Figure 1.1), plus de deux dans le cas de lastéréo multivue. Les caméras ont été calibrées, c’est-à-dire que la position, l’orientationainsi que les paramètres intrinsèques de chaque caméra sont connus. C’est d’ailleursaussi le cas pour nos yeux, car ils sont toujours à la même distance l’un de l’autre. Deplus, la direction d’observation et le focus (notre cristallin) sont connus du cerveau.

Ce domaine de recherche, la reconstruction 3D par stéréo multivue (car plus de deuxcaméras sont utilisées), est un sujet qui intéresse les chercheurs depuis longtemps. Il aété largement étudié, mais est encore d’actualité parce que le problème de trouver laforme d’un objet à partir de son apparence n’est toujours pas résolu. L’utilisation denouvelles méthodes d’optimisation (la coupe de graphes [1], l’optimisation convexe [2]),l’implantation des algorithmes de reconstruction sur des systèmes efficaces (GPU [3, 4])

Page 10: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 1. Introduction 2

(a)

(b)

(c)

(d) (e)

Fig. 1.1 – L’apparence d’un objet est capturée à partir d’un ensemble de caméras situéesautour de celui-ci (a). La position et l’orientation des caméras sont connues. Les figures(b-e) sont quelques images capturées de l’objet à partir des caméras qui l’entourent.

Page 11: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 1. Introduction 3

Fig. 1.2 – Appariement de zones (verte, bleue et rouge) du temple dans différentesimages. La forme des zones change avec le point de vue.

et l’avènement de bancs d’essai standardisés (Middlebury [5]) contribuent à la vigueuret à l’évolution rapide de ce domaine de recherche en vision numérique. La publicationd’un état de l’art était devenue nécessaire. Cela s’est produit en 2002, pour la stéréoà deux vues [6], puis en 2006, pour la stéréo multivue [5]. Tout comme ces articles,ce mémoire a pour objectif de classifier les méthodes de reconstruction 3D à partir decaméras calibrées. Par contre, il ira plus loin dans l’explication, les comparaisons entreles méthodes et l’analyse de celles-ci. Le tout sera fait dans l’optique de la résolutiondes problèmes d’appariement.

L’appariement est au coeur de toute méthode de reconstruction, il est donc essentielde bien comprendre son fonctionnement et ses limitations. Cela consiste en l’associa-tion de zones situées dans différentes images, mais correspondant à la même région del’objet (Figure 1.2). Cette mise en correspondance permet de trouver la position de larégion en trois dimensions. Le bémol est que plusieurs difficultés sont associées à cettetechnique : les ambiguïtés, les changements d’apparence, la visibilité et la discrétisationde l’apparence.

L’appariement suppose que les régions à apparier contiennent une caractéristiquecommune permettant de les associer. Malheureusement, cette caractéristique est ra-rement unique dans une image, d’où les ambiguïtés. Par exemple, il se peut que deszones uniformes ou des motifs répétitifs compliquent le choix d’une région pour l’ap-pariement. Ces ambiguïtés sont présentes sur les colonnes du temple de la figure 1.2avec l’alternance de bandes sombres et de bandes claires. C’est aussi une situation queplusieurs ont sûrement déjà vécu en regardant un paysage recouvert d’un amas de neigefraîche. Tout est blanc, n’importe quelle région pourrait s’associer à n’importe quelleautre. Mais cela pourrait être pire, l’apparence de l’objet pourrait changer en fonctionde l’angle selon lequel il est observé.

Page 12: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 1. Introduction 4

Fig. 1.3 – Repli de spectre spatial. La coupure entre l’arrière-plan (noir) et le templen’est pas nette. Il y a un dégradé de couleur ainsi qu’un effet d’escalier.

Certains objets, tels les miroirs, ont une apparence drastiquement différentes lors-qu’observés d’un point de vue ou d’un autre. L’appariement pour un cas si extrême estsi difficile qu’il est pour l’instant irrésolu. Un objet qui réfléchit les rayons incidents defaçon identique dans toutes les directions présente une surface dite lambertienne. Cecas idéal pour la stéréo n’est malheureusement pas représentatif de la réalité. Au mieux,de légères variations de l’intensité lumineuse sont perceptibles d’une image à l’autre.Parfois, un reflet spéculaire sera présent dans quelques images d’une même région. Cesimages présenteront une même région avec une intensité lumineuse plus élevée que cellesn’ayant pas ce reflet. Ce type de reflet est très présent sur les images du singe (Figure1.1). L’oreille droite du singe en (d) est beaucoup plus lumineuse que dans l’image (b),même si les sources lumineuses n’ont pas changé d’une image à l’autre. De même, labouche en (c) est significativement plus sombre qu’en (e). Le niveau de difficulté del’appariement varie donc aussi avec le type de surface de l’objet.

La visibilité est une autre limitation majeure de la plupart des méthodes de re-construction. Une image contient l’apparence de seulement une section de la surfacede l’objet et seules les caméras voyant cette même section peuvent l’apparier. Dans lafigure 1.1, il est inutile de chercher l’oreille gauche de la tête de singe dans l’image (b),elle n’y est pas, tout comme le front dans (e). Puisque cette information de visibilitéest difficile à obtenir, il se peut que l’algorithme de reconstruction tente d’apparierl’oreille gauche de l’image (d) avec celle de l’image (b), ce qui mènera à un mauvaisappariement, donc à la création d’une mauvaise zone en 3D.

Le dernier problème est sans aucun doute celui qui est le plus facile à gérer. Ils’agit de la discrétisation de l’apparence. Une caméra saisit les couleurs d’une partie del’objet dans une direction, dans une grille régulière de capteurs. Il ne s’agit donc pasd’une représentation continue de l’apparence. Les conséquences sont les suivantes : les

Page 13: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 1. Introduction 5

discontinuités de texture (Figure 1.3) créent du repli spectral (aliasing en anglais), cequi crée un dégradé de couleurs là où il y a un changement brusque de couleur. Le replispectral varie d’une image à l’autre, car l’échantillonnage spatial à la surface de l’objetchange. De plus, une même région est représentée par plus de pixels dans une imageque dans une autre (Figure 1.2), donc certaines images présentent un échantillonnagespatial de l’apparence plus dense que d’autres. Il est bon de noter que la couleur est aussiéchantillonnée, car elle reste représentée par des valeurs discrètes dans les images. Parcontre, cela n’est pas une grande limitation car cet échantillonnage ne change pas d’uneimage à l’autre et sa précision est généralement adéquate pour des fins d’appariement.

Il est clair que ces problèmes vont varier grandement selon le type d’objet à recons-truire. Sa forme, son type de surface, ses couleurs influenceront beaucoup les résultats,mais aussi les conditions d’acquisition des images.

Sachant le type de problèmes pouvant survenir, on pourrait modifier la méthoded’acquisition de l’apparence de l’objet. Le nombre d’images prises ainsi que leurs po-sitions vont influencer la précision et la complétude de la forme. L’éclairage permetd’éviter certains reflets spéculaires ou de créer des ombres (création de textures surl’objet). Évidemment, une mauvaise calibration des caméras va détériorer les résultats.Par contre, une bonne acquisition d’images n’est pas suffisante pour obtenir une bonnesurface, l’apparence sera toujours discrétisée spatialement et la visibilité de chacun despoints de la surface restera inconnue.

Les algorithmes de reconstruction influencent beaucoup la qualité des résultats, etce, pour un même jeu de données. Les multiples surfaces créées à partir des mêmesdonnées du banc d’essai de Middlebury [5] en sont un bon exemple. Les différences pro-viennent des techniques utilisées par chacun des algorithmes pour traiter les problèmesd’appariement. Les critères de comparaison et les façons de faire évoluer la surfacejusqu’à la surface finale vont influencer grandement les résultats. C’est pourquoi cemémoire fera l’étude des méthodes existantes afin de comprendre leurs forces et leursfaiblesses.

Afin d’éviter ambiguïtés et incompréhensions, la notation utilisée dans ce mémoireest basée sur l’article de Labatut [3]. La surface à reconstruire est nommée S et Si estla section de S vue par la caméra i. Les N images disponibles sont notées Ii : Ωi ∈

R2 → R

c, avec i ∈ 1, ..., N et c dépend du type d’image, couleur (c = 3) ou tons degris (c = 1). Un référentiel est associé à chacune des caméras, dont le plan x − y estparallèle au plan image et le sens de z est vers l’objet. Les informations suivantes sontconnues pour chaque caméra i :

– Ki, la matrice des paramètres intrinsèques ;

Page 14: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 1. Introduction 6

– Ri, la matrice de rotation permettant de passer du référentiel monde au référentielde la caméra i ;

– et Ti, la position de l’origine monde par rapport au référentiel de la caméra i.La relation reliant la projection de perspective Pi : P

3 → P2, d’un point X de

l’espace à la position xi sur l’image i (Pi(X) = xi) et la profondeur di(X) du point X,le tout par rapport à la caméra i, est

Ki[RiX + Ti] = di(X)

x(1)i

x(2)i

1

(1.1)

Comme on peut voir, di(X) est la composante en z dans le référentiel local de la camérai, de Ki[RiX + Ti]. De plus, théoriquement, plusieurs points X peuvent être projetés àla même position xi. Seule di(X) changerait. Par contre, physiquement, le seul rayonqui frappe l’image à la position xi provient de l’unique point X ∈ Si tel que Pi(X) = xi.La raison pour cela est que l’objet est supposé opaque, les points à l’intérieur de l’objetne peuvent donc pas être vus. Si la surface S est connue, il est possible d’associerun point de la surface à une position dans l’image. Cette relation est représentée parP−1

i,S : Pi(S) → Si. L’ensemble des notations utilisées dans ce mémoire est regroupé dansles tableaux 7.1 et 7.2 situés dans l’annexe.

La structure du mémoire est comme suit : le second chapitre expliquera plus enprofondeur l’appariement, son rôle dans la reconstruction 3D et les difficultés qui y sontassociées. Le troisième chapitre présentera les critères de comparaison. Au quatrièmechapitre, les contraintes de surface et les représentations de données seront abordées.Dans le cinquième chapitre, nous entrerons dans les détails avec de différents algorithmesde reconstruction ainsi que les méthodes d’optimisation associées. Le sixième chapitreprésentera des résultats d’implantation de différents d’algorithmes de reconstruction.

Page 15: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 2

L’appariement, un point à la fois

La base de toute méthode de reconstruction 3D par stéréoscopie est l’appariement.Il faut trouver quelles parties d’images représentent la même section d’un objet. Lechapitre suivant expliquera le fonctionnement, les difficultés et les limitations de cettetechnique.

2.1 Principes de l’appariement

La stéréo multivue par caméras calibrées regroupe l’ensemble des méthodes quidéduisent la forme d’un objet à partir de son apparence, laquelle est capturée par descaméras. Afin de bien comprendre le phénomène, nous nous attarderons sur le processusde formation des images [7]. Pour cela, on suppose que l’objet est toujours au focus etqu’il n’y a pas de distorsion radiale ou, dit autrement, que la caméra est de type sténopé.

Un objet doit être éclairé pour être (visuellement) perçu. Les sources lumineusesproduisent des photons qui voyagent dans différentes directions. Lorsqu’ils atteignentl’objet, ils sont réfléchis, mais ils sont aussi réfractés, diffusés, absorbés, diffractés. Celadépend du type de surface et de la forme de l’objet. Chaque photon sortant de l’objetpeut ensuite être capturé par une caméra. Chaque capteur associé à un pixel intègrel’ensemble des photons qu’il reçoit.

Puisque la position, le nombre, le type de sources lumineuses et le type de surfacesont inconnus, il n’est pas intéressant de considérer le processus de formation des imagesà partir des sources lumineuses. À la place, il est pertinent de ne considérer que la

Page 16: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 2. L’appariement, un point à la fois 8

(a) (b)

vv

X

Fig. 2.1 – La fonction plénoptique relie les rayons réfléchis d’une surface aux images.Cela est dû au fait que L(λ,X, v) = L(λ,X + αv, v), ce qui est représenté par lessegments de droite en pointillées. (a) X /∈ S : L(λ,X, v) varie rapidement par rapportà v pour un point qui n’est pas sur la surface. (b) X ∈ S : Pour le type d’objet étudié,L(λ,X, v) ne devrait pas varier beaucoup par rapport à v, pour un point de la surface.

relation entre les photons sortant de la surface et ceux capturés par les caméras, cequi dépend de la forme de l’objet. Le lien entre les deux est la fonction plénoptiqueL(λ,X, v) (Figure 2.1 (a), [8, 9]), ici considérée constante en temps. Cette dernièremesure le nombre de photons de longueur d’onde λ passant par un point X dans ladirection v. Si aucun obstacle n’occulte un rayon qui voyage dans le vide, il resteraconstant le long d’une même droite, donc L(λ,X, v) = L(λ,X+αv, v), pour différentesvaleurs de α ∈ ℜ. Par conséquent, il suffit de connaître la fonction plénoptique sur lasurface d’un volume englobant l’objet (ce qui est appelé un champ de lumière pour unesurface donnée) afin de connaître son apparence dans la scène. Ainsi, il est possible desavoir la couleur de chaque point de l’objet, quel que soit l’angle d’observation.

Les images échantillonnent les longueurs d’ondes rouges, vertes et bleues de la fonc-tion plénoptique pour un ensemble de paires X − v, lesquels dépendent des paramètresde chacune des caméras. Ce qui fait des images une représentation incomplète de l’ap-parence, mais possiblement suffisante pour trouver la forme de l’objet.

En regardant de plus près, on se rend compte que chaque image Ii ne contientl’apparence que d’une partie de la surface Si ⊂ S (Figure 2.2 (a)) et selon une seuleorientation. Si peut être définie à partir de Pi et S de la façon suivante

Si = X ∈ S : Pi(X) ∈ Ωi et di(X) ≤ di(Y ), ∀Y ∈ S t.q. Pi(X) = Pi(Y ). (2.1)

Autrement dit, X est vu par la caméra i à condition qu’il soit le point de la surface sur

Page 17: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 2. L’appariement, un point à la fois 9

(a) (b)

Ii

IiSi

Fig. 2.2 – (a) Si (en rouge) : l’ensemble de points vu par la caméra i qui appartiennentà la surface (b) Pi projette à la fois la zone rouge et les zones vertes sur le même pixel.Par contre, ce pixel ne contient l’apparence que de la zone vue (rouge).

la droite reliant le centre de la caméra i à Pi(X) qui soit le plus près de la caméra i(Figure 2.2 (b)). En effet, tous les points le long d’une même droite de rétroprojectionpeuvent être projetés à la même position de l’image.

Cela signifie que Pi permet de savoir sur quelle droite se situe le point X qui a étéprojeté à la position xi de l’image i, mais pas la position de X. Par conséquent, Pi etIi seuls sont insuffisants pour trouver Si. En fait, cela n’a rien de surprenant, Pi n’estpas bijective (elle ne s’inverse donc pas).

Afin de sortir de l’impasse, il est nécessaire d’introduire au moins une autre imageIj du même objet. Si l’on trouve deux zones, Γi, dans Ii et Γj, dans Ij, qui soient laprojection d’une même région Γ ⊂ Si ∩ Sj (Figure 2.3), alors le tour est joué. En effet,si on connait xi = Pi(X) et xj = Pj(X), la solution se trouve à l’intersection de cesdeux droites. C’est le principe de la triangulation (Figure 2.12). Deux positions, xi etxj, sont bien appariées si le point X correspondant est un point de la surface.

Afin de déterminer si un point X est sur la surface ou pas, il faut évaluer la photo-cohérence (photo-consistency en anglais) de celui-ci. Si X ∈ S, alors la variation deL(λ,X, v) par rapport à v devrait être cohérente avec un modèle de réflectance.

2.2 Défis de l’appariement

Trouver la surface suppose d’être capable d’évaluer la photo-cohérence de pointset de départager ceux qui sont sur la surface de ceux qui ne le sont pas. Plusieurs

Page 18: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 2. L’appariement, un point à la fois 10

Γi

Ii

Γj

Ij

Γ

Fig. 2.3 – Appariement : trouver deux zones d’images différentes représentant la mêmerégion de l’objet. Le plus souvent, les zones à apparier n’ont pas la même forme.

défis restent à surmonter avant d’y arriver. Pour bien évaluer la photo-cohérence, ilfaut surmonter les problèmes de visibilité, de variation angulaire et de discrétisationde l’apparence. Ensuite, il faut résoudre le problème d’ambiguïté afin de distinguer lespoints qui sont sur la surface de ceux qui ne le sont pas. Évidemment, si la photo-cohérence est mal évaluée, l’ambiguïté augmente.

2.2.1 Changements d’apparence

Le problème avec l’évaluation de la photo-cohérence d’un point X, c’est que lemodèle de réflectance de l’objet est inconnu. Même s’il l’était, il faudrait aussi connaîtrele type d’éclairage afin de bien évaluer la photo-cohérence. Par exemple, dans l’exemplesuivant (Figure 2.4 ), la couleur d’un même point change selon le point de vue. Si l’onse fie aux ombres, la couleur est plus claire dans la direction de l’éclairage, ce qui nouspermet de savoir que la surface est rétro-réfléchissante. Malheureusement, pour faire ceraisonnement, nous avons utilisé la forme de l’objet, ce qui n’est pas possible lors de lareconstruction.

L’appariement ne peut être utilisé pour reconstruire la forme d’un objet que si laréflexion contient une partie prévisible. Typiquement, il s’agit de la partie de réflexion

Page 19: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 2. L’appariement, un point à la fois 11

Fig. 2.4 – Variation de la couleur selon le point de vue du point situé à la croix rouge.Ici, la surface est rétro-réfléchissante.

qui est diffuse (Figure 2.5). Cela explique pourquoi plusieurs algorithmes de recons-truction supposent que l’objet est lambertien. C’est qu’en réalité, même si la lumièren’est pas parfaitement réfléchie de façon diffuse, seule la partie lambertienne servira àl’appariement.

Ces variations d’apparence peuvent aussi provenir du capteur de la caméra. Le tempsd’exposition et le bruit peuvent altérer les images et causer un changement d’apparenceangulaire artificiel.

2.2.2 Visibilité

Seules les caméras voyant un même point peuvent fournir des informations perti-nentes sur la photo-cohérence de ce point. C’est pourquoi il est important de définir lanotion de visibilité d’un point X ∈ S :

VisS(X) = Ii : X ∈ Si. (2.2)

VisS(X) permet de trouver les couleurs Ik(Pi(X)) : Ik ∈ VisS(X) des rayons quine sont pas occultés avant d’être capturés par la caméra, de façon à évaluer correctementla fonction plénoptique, L(λ,X, v), d’un point de la surface. Il est facile de savoir si unpoint est projeté à l’intérieur de l’image (Pi(X) ∈ Ωi), par contre, il est très difficilede savoir si un point est occulté ou pas, car cela dépend de la forme de l’objet qui estcherché. De plus, le nombre de caméras voyant un même point peut varier pour toutpoint de la surface (Figure 2.6). Il est donc plus facile d’apparier certains points qued’autres.

Page 20: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 2. L’appariement, un point à la fois 12

(a) (b)

A′

B′

A

B

Fig. 2.5 – (a) La réflexion est parfaitement spéculaire. Chaque rayon incident (A etB) à un même point (d’angle différent) est réfléchi dans une direction différente (A’et B’ respectivement). La stéréo ne permet pas de reconstruire de telles surfaces, carl’apparence de ces dernières est imprévisible si l’apparence de la scène réfléchie, lanormale et la distance de l’objet à la scène ne sont pas connues. (b) La réflexion estdiffuse. Le rayon incident est réfléchi dans un grand nombre de directions. Cela facilitegrandement l’appariement.

L’équation 2.2 ne s’applique que pour les points faisant partie de la surface. Pourl’appariement, qu’un point X de l’espace soit à l’extérieur (donc possiblement visible)ou à l’intérieur (donc pas visible) de l’objet ne change rien, car dans les deux cas, X estprojeté sur des positions correspondant à des points (P−1

k,S(Pk(X)) 6= X) différents del’objet, peu importe le choix des caméras (appelées les caméras de comparaison) servantà trouver le meilleur appariement pour le point X (Figure 2.7). Par contre, un point dela surface n’est projeté sur des positions correspondant à lui-même (P−1

k,S(Pk(X)) = X)que pour les images appartenant à VisS(X) (Figure 2.7 (c)). C’est pourquoi la visibilité,pour l’appariement, n’a de sens que pour les points sur la surface.

2.2.3 Discrétisation spatiale de l’apparence

Comme il a été vu plus tôt, les images ne sont pas une représentation continue del’apparence. Les images sont de résolution finie, donc la quantité de détails pouvant êtreextraite de cette surface est bornée. Le niveau de détail d’une image pour une régiondonnée de l’objet a de fortes chances de ne pas être le même que pour une autre image.

Afin que l’appariement soit possible, chaque zone de l’objet doit être vue plusieurs

Page 21: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 2. L’appariement, un point à la fois 13

Fig. 2.6 – La visibilité du point A et du point B dépend de la forme de l’objet. VisS(A) =

1, 2 alors que VisS(B) = 4, 5, 6.

(a) (b) (c)

Fig. 2.7 – Lorsqu’un point (rouge) n’est pas sur la surface, il sera projeté à des positionscorrespondant à des points (P−1

k,S(Pk(X))) différents de l’objet (bleu), peu importe lavisibilité. (a) Cas où le point est à l’intérieur de l’objet, donc pas visible. (b) Cas où lepoint est à l’extérieur de l’objet, il est visible pour deux des trois caméras. (c) Cas oùle point est sur la surface. Il est projeté à des positions correspondant au même point(P−1

k,S(Pk(X)) = X) seulement pour les deux caméras où il est visible.

Page 22: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 2. L’appariement, un point à la fois 14

Fig. 2.8 – Discrétisation spatiale de l’apparence. Pour un même nombre de pixels, lacaméra bleue a un échantillonnage spatial moins dense de l’apparence que la camérarouge pour la section de la concavité considérée.

fois pour que sa forme puisse être trouvée. Par contre, la fréquence d’échantillonnage del’apparence varie pour chaque image ainsi que spatialement dans chaque image (Figure2.8). Plus l’angle entre la normale à la surface et l’orientation de la caméra s’approchede π/2, moins il y a de détails. Si les deux directions s’alignent, l’échantillonnage seramaximal. Par conséquent, comparer deux pixels signifie comparer la moyenne de deuxpetites surfaces de l’objet de grandeurs et de formes différentes.

Souvent, la différence d’échantillonnage augmente avec l’angle entre les caméras (etla surface) qui ont servi à l’appariement. Par contre, plus l’angle entre les caméras estpetit, plus la précision du point 3D correspondant sera petite (Figure 2.9). Étonnam-ment, la précision en profondeur de l’appariement ne dépend que des paramètres desimages, et non pas de la surface. Par contre, lorsqu’une surface est bien texturée, ilpeut être difficile d’apparier des positions provenant de caméras qui forment un grandangle entre elles. Les caméras rasantes ont un moins bon échantillonnage spatial del’apparence, ce qui résulte en des images plus floues. Les détails perdus ne pourrontêtre appariés. Dans le pire des cas, les images contiendront tant de repli spectral, lequelest propre à chaque image, que l’appariement ne sera pas possible.

2.2.4 Ambiguïtés

Bien qu’un pixel ait plus de 16 millions (2563) de possibilités de couleurs, il estfréquent que, dans une même image, plusieurs pixels aient la même couleur. Cela peutdonc se produire dans la zone de recherche pour l’appariement de deux pixels (Figure2.10). Comment trouver le seul de ces pixels qui soit la projection du point cherché ?

Page 23: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 2. L’appariement, un point à la fois 15

Iref

xref

S

Ii

Ij

Fig. 2.9 – La précision de l’appariement de deux positions dépend de l’angle entre lesdeux caméras et ce, indifféremment de la qualité de l’échantillonnage de l’apparence. Laprécision en profondeur de l’appariement de xref avec une position de Ii sera moindresi xref est apparié avec une position de Ij. La rétroprojection des pixels de Ij (lignesbleues) croisent la rétroprojection de xref à des intervalles beaucoup plus rapprochésque la rétroprojection des pixels de Ii (lignes rouges).

Fig. 2.10 – Ambiguïtés. Pour un pixel de l’image de gauche, plusieurs pixels de l’imagede droite sont des candidats possibles pour l’appariement, bien qu’un seul des pixels del’image de droite ne représente le point cherché.

Page 24: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 2. L’appariement, un point à la fois 16

Si, pour certains objets, les ambiguïtés peuvent être bien gérées, pour d’autres,c’est une vraie limitation à la méthode de reconstruction 3D par stéréo multivue. Sansvariation de l’apparence, il n’est pas possible de faire de l’appariement. Il faut donc se fiersoit aux silhouettes, soit à des informations a priori sur la forme, car de multiples formespermettraient de générer le même ensemble d’images. Cette façon de faire sera présentéedans le chapitre 5. Il est à noter que les méthodes de reconstruction utilisant un laserou un projecteur de lumière structurée ont l’avantage de pouvoir créer artificiellementune texture sur l’objet, ce qui aide grandement dans les zones uniformes.

2.2.5 Pistes de solutions

Malgré la diversité des problèmes liés à l’appariement, toutes les méthodes permet-tant de diminuer leur impact dépendent du choix :

– des caméras de comparaison,– de la forme et la taille de la région à apparier,– de la façon d’évaluer la photo-cohérence,– et de la zone à l’intérieur de laquelle la surface est cherchée.

Les trois premiers items permettent d’améliorer l’évaluation de la photo-cohérence, alorsque le dernier permet de faciliter le choix du point le plus photo-cohérent.

Une bonne estimation de la visibilité permet évidemment d’éviter l’utilisation decaméras ne voyant pas le point cherché, mais les avantages ne s’arrêtent pas là. L’utili-sation d’un plus grand nombre de caméras amène un meilleur échantillonnage angulairedu lumisphère (fonction plénoptique pour un point de l’objet et où v pointe vers l’exté-rieur de l’objet), ce qui permet de mieux évaluer sa photo-cohérence en extrayant plusfacilement la partie de réflexion diffuse. De plus, comme il a été vu dans la section 2.2.3,la précision en profondeur de l’appariement se trouve augmentée lorsque l’appariementutilise des caméras formant un grand angle entre elles (ce qui est très hasardeux sansune estimation globale de la forme de l’objet).

Si aucune information globale n’est assez fiable pour pouvoir en déduire la visibilité,il est possible de prendre seulement des caméras voisines lors de l’appariement. PuisqueSi ∩ Sj risque d’être plus grand lorsque Ii et Ij sont voisines qu’éloignées, cela réduitles chances d’utiliser une caméra occultée. De plus, la discrétisation de l’apparence decaméras voisines est habituellement assez semblable, ce qui facilite la comparaison. Si lavariation de l’apparence angulaire est relativement lente, la différence de couleur d’unmême point vu par des caméras voisines sera moindre que par des caméras éloignées enangle, ce qui aide grandement l’appariement.

Page 25: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 2. L’appariement, un point à la fois 17

(a) (b)

CY

CX

XY

Z

Fig. 2.11 – (a) Soit deux points X (rouge) et Y (bleu) situés à la même distanced’un point de la surface Z (jaune). L’ensemble de caméras de comparaison utiliséespour évaluer la photo-cohérence du point X est CX (pointillés rouges) et CY (pointillésbleus) pour Y . Les caméras de CY sont beaucoup plus rasantes que celles de CX parrapport à la surface. Alors, la variance de P−1

k,S(Pk(Y )) : k ∈ SY (section bleue surla surface) est plus grande que la variance de P−1

k,S(Pk(X)) k ∈ SX (section rougesur la surface). (b) Un même angle solide intersectera une plus grande section d’unesurface s’il est plus rasant, ce qui explique le phénomène en (a). Ce phénomène est aussiobservable dans la figure 2.9.

Il est souvent proposé d’utiliser les caméras qui ont une orientation semblable àcelle de la normale à la surface [10, 11, 2, 12] pour l’appariement. Cela permet d’avoirle meilleur échantillonnage spatial possible. Par contre, dans certaines situations, lescaméras contenant le plus d’informations sont celles rasantes (Figure 2.11). La raisonest la suivante : plus les caméras sont rasantes, plus la variance de P−1

k,S(Pk(X)) estélevée pour un point X /∈ S. Si l’on suppose que l’apparence varie très lentement danscette zone de la surface, cela augmente de beaucoup les chances que la variance deIk(Pk(X)) soit également plus élevée que si la variance P−1

k,S(Pk(X)) était petite(cas où toutes les caméras sont assez perpendiculaires). Si seul le point X sur la surfacea une variance de Ik(Pk(X)) faible, il sera facile à distinguer des points qui ne sont passur la surface. En contrepartie, si la surface est bien texturée, l’utilisation de camérasrasantes peut nuire, car elles contiendront du repli spectral.

Connaître localement la surface (ex : sa position et sa normale en un point), permetd’évaluer simultanément la photo-cohérence d’une petite région de la surface. Cela ré-duit les ambiguïtés en utilisant un critère de comparaison basé sur les fenêtres et permetd’extraire plus facilement la réflexion diffuse en utilisant un critère de comparaison in-variant à des transformations affines. Cela suppose que la surface est localement planeet que le modèle de réflexion ne change pas à l’intérieur de la région considérée. Fi-

Page 26: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 2. L’appariement, un point à la fois 18

(a) (b)

Iixi

X

Ijxj

Fig. 2.12 – (a) Les rayons de rétroprojection de xi (en bleu) et xj (en rouge) se croisenten X. La position cherchée, xj, est trouvée sur la droite de recherche en bleu dans Ij.(b) Appariement : trouver le pixel de l’image de droite correspondant à celui de gauche.

nalement, la normale informe sur l’échantillonnage de cette région pour les différentescaméras.

Il se peut que les méthodes énoncées plus haut ne suffisent pas à bien évaluer laphoto-cohérence. Afin d’éliminer certains reflets spéculaires et des caméras occultées,il est possible de filtrer les mauvaises caméras ou d’en diminuer l’impact. Éliminer lescaméras qui nuisent à la photo-cohérence augmente par contre l’ambiguïté.

La géométrie épipolaire et une estimation de la forme de l’objet permettent derestreindre la recherche pour l’appariement, ce qui évite plusieurs ambiguïtés. À partird’une seule position, xi, il est possible de savoir sur quelle droite se situe le point Xtel que Pi(X) = xi et X ∈ Si. La projection de cette droite sur l’image Ij permet deréduire la zone de recherche de xj (qui est égal à Pj(X)), le long de cette droite dans Ij(Figure 2.12 (b)). Si X ∈ Sj et que xj est trouvé, il en découle que X est à l’intersectiondes droites de rétroprojection de xi et xj. Par contre, si X /∈ Sj, aucun appariement nepourra être fait avec Ij.

On sait maintenant que pour trouver un point de la surface, il faut chercher l’appa-riement de positions dans les images, qui correspondent au point 3D dont la variationangulaire de couleur est la plus cohérente avec le modèle de réflectance de l’objet consi-déré. L’évaluation de la photo-cohérence se fait à l’aide de critères de comparaison, cequi sera traité au chapitre suivant.

Page 27: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 3

Critères de comparaison

Les critères de comparaison ont pour but d’évaluer la photo-cohérence de lumi-sphères (fonction plénoptique en un point) de le but de déterminer trouver sont quisont sur un objet. La position et les caméras utilisées pour générer chaque lumisphèresont choisies préalablement. Les mesures de photo-cohérence se distinguent par leur ca-pacité variable de résoudre les différents problèmes d’appariement. Certains critères sontinvariants à des types de transformations, ce qui aide l’appariement pour des surfacesnon lambertiennes. Ils ont aussi avantage à être robustes à une mauvaise estimation dela visibilité, à réduire les ambiguïtés, à s’adapter à la discrétisation de l’apparence ainsiqu’à être sensibles aux légères variations spatiales d’apparence pour les situations où lasurface serait peu texturée.

Les critères de comparaison sont appliqués sur les images, car ces dernières sont lesmesures de l’apparence. Ils peuvent être utilisés par l’un ou l’autre des algorithmes dereconstruction avec peu de modifications. Deux grandes catégories de critères existent.Elles se distinguent par ce qu’elles comparent : un pixel ou un ensemble de pixels (unefenêtre de comparaison) par image.

Ce chapitre présentera une classification des différents critères de comparaison, cequi permettra d’analyser leur fonctionnement, de même que leurs forces et faiblessespar rapport à la résolution du problème d’appariement.

Page 28: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 3. Critères de comparaison 20

3.1 Critères basés sur un pixel

3.1.1 Deux caméras

Lorsque seules deux caméras sont comparées, les critères basés sur un pixel utilisentsoit la différence absolue (DA) comme critère, soit la différence au carré (DC). Bref, ilsconsistent en la soustraction de la valeur des deux pixels. Afin d’évaluer la similaritéd’apparence d’un point X projeté dans deux images Ii et Ij, il faut d’abord trouver lacouleur de Ii(xi) et Ij(xj), où xi = Pi(X) et xj = Pj(X), soit en arrondissant au pixelle plus près, soit en appliquant une interpolation bilinéaire à partir des pixels voisins.Ensuite, il suffit de calculer |Ii(xi) − Ij(xj)| pour DA et

(

Ii(xi) − Ij(xj))2

pour DC.

Évidemment, la robustesse à la visibilité ne peut être considérée dans le cas de seule-ment deux caméras, car si une image ne voit pas un point, il est impossible de trouversa position par appariement. Au mieux, aucune position xj ne sera jugée convenablepour être appariée avec xi. Étant donné que les couleurs sont directement comparées,ce critère ne sera pas efficace si une des caméras a un gain différent, par exemple. Parcontre cette mesure est sensible aux légères variations spatiales d’apparence.

Discrétisation de l’apparence La façon classique de trouver la position xj quicorrespond au meilleur appariement avec xi est de comparer Ii(xi), avec Ij(xj) pourtous les xj espacés d’un pixel. Dans la figure 3.1, cela correspond à évaluer le critèrepour tous les points noirs sur la courbe. Ensuite, pour trouver le xj ayant la photo-cohérence maximale, une interpolation linéaire des valeurs du critère est faite (Équation3.1). Ce calcul ne donne de bons résultats que si la couleur varie assez lentement d’unpixel à l’autre, car même si la position cherchée est entre deux pixels, ces derniersretourneront une bonne valeur pour le critère. Par contre, il se peut que l’interpolationdu critère retourne une mauvaise valeur, alors que la couleur interpolée (Équation 3.2)retournerait une bonne valeur pour le critère.

Interpolation du critère : αM(

Ii(xi), Ij(xj))

+ (1 − α)M(

Ii(xi), Ij(xj + ∆x))

(3.1)

Interpolation des couleurs : M(

Ii(xi), αIj(xj) + (1 − α)Ij(xj + ∆x))

(3.2)

où α ∈ [0, 1] et M représente une mesure de photo-cohérence. Cela se produit lorsquel’apparence varie rapidement, auquel cas deux pixels voisins auraient des couleurs trèsdifférentes. C’est dans cette optique que la mesure de Birchfield et Tomasi [13] est inté-ressante. Elle permet d’estimer la photo-cohérence maximale pour l’intervalle de valeurs

Page 29: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 3. Critères de comparaison 21

que représente chaque pixel, en tenant compte de la variation de couleur entre pixelsvoisins. Bref, cette mesure estime une interpolation bilinéaire (linéaire si les images sontrectifiées) des couleurs avant d’utiliser le critère, qui, dans ce cas-ci, est une différenceabsolue. Voici la façon dont la mesure est calculée à partir de deux caméras rectifiées :

d(xG,xD, IG, ID) = max0, IG(xG) − Imax, Imin − IG(xG) (3.3)

Imin = minI−D , I+D , ID(xD) Imax = maxI−D , I

+D , ID(xD) (3.4)

I+D ≡

1

2

(

ID(xD) + ID(xD + 1))

I−D ≡1

2

(

ID(xD) + ID(xD − 1))

. (3.5)

La première chose à remarquer est que cette méthode ne retourne pas la position xj

optimale précisément, mais seulement au pixel près. Plus de calculs sont nécessaires pourplus de précision. Mais la recherche ne se fera qu’à l’intérieur d’un pixel. La deuxièmeremarque est qu’il est possible de généraliser cette comparaison d’un point par rapport àun intervalle par la comparaison de deux intervalles. Ce dernier cas se produit lorsque larecherche du meilleur appariement ne se fait pas le long d’une droite de rétroprojectiond’un pixel appartenant à l’une ou l’autre des images comparées. Cette généralisationpeut être nécessaire pour l’utilisation du BT avec plus de deux caméras.

3.1.2 Plus de deux caméras

L’utilisation de plusieurs caméras [14, 15] permet de réduire l’ambiguïté quant aupoint X à choisir, car la photo-cohérence est évaluée à partir de plusieurs caméras(pas juste deux). L’ajout de nouvelles caméras permet aussi de mieux évaluer la photo-cohérence d’une surface non lambertienne. Si le critère de comparaison est suffisammentrobuste, l’utilisation de quelques caméras occultées n’aboutira pas nécessairement à unmauvais appariement.

Variance Le premier critère qui vient à l’esprit est la variance [16] :

Variance :1

N

N∑

i=1

(

Ii(Pi(X)) − I(X))2

(3.6)

I(X) =1

N

N∑

i=1

Ii(Pi(X)) (3.7)

où N est le nombre de caméras. Elle évalue la moyenne des variations de couleurs parrapport à une valeur de référence : la moyenne. La variance ne reste faible que si toutes

Page 30: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 3. Critères de comparaison 22

xD + 1xD

xD − 1

I+D

I−D

IG(xG)

Fig. 3.1 – BT : critère invariant à la discrétisation. Les valeurs échantillonnées par lacaméra droite sont les points noirs. La valeur, IG(xG), cherchée pour l’appariement avecun pixel d’une autre caméra est en bleue. La position de l’image de droite associée àcette valeur est située entre deux pixels (xD−1 et xD) ayant des valeurs très différentes.La région en rouge (l’intervalle de I−D à I+

D) représente l’intervalle de valeurs pouvantêtre associé au pixel xD. Cet intervalle comprend IG(xG), donc la photo-cohérence estmaximale pour le pixel xD.

Page 31: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 3. Critères de comparaison 23

les couleurs sont regroupées. Si une seule couleur est très différente (à cause d’un refletspéculaire ou d’une caméra occultée), la variance va rapidement augmenter (la photo-cohérence calculée diminue). Ce qui en fait un critère peu robuste aux occultations.

Médiane Le critère de la médiane ressemble à celui de la variance en ce sens qu’ilcompare les couleurs à une couleur de référence. Au lieu d’être la moyenne de couleurs, ils’agit de la médiane. Ainsi, la valeur idéale ne se fait pas influencer par quelques couleursaberrantes lorsque celles-ci sont minoritaires. Afin d’être plus robuste aux occultationset aux forts reflets spéculaires (les deux étant traités de la même manière), seule lamédiane des variations est retenue. Par conséquent, si plus de la moitié des variationssont légères, le critère de médiane restera faible (ce qui signifie une photo-cohérenceélevée pour ce critère).

Médiane : médiane

|Ii(Pi(X)) − IM(X)| : 1 ≤ i ≤ N

(3.8)

IM(X) = médianeIi(Pi(X)) : 1 ≤ i ≤ N (3.9)

La variable B est le nombre de classes de l’histogramme bi et IMAX est la borne su-périeure des couleurs possibles. Une évolution de ce critère de comparaison peut mêmeservir pour les surfaces non-labertiennes [17].

Entropie L’entropie ne cherche pas de valeur idéale. Elle cherche plutôt à minimiserle nombre de petits groupes de couleurs possibles (Figure 3.2), quelle que soit la positionrelative de ces groupes.

Entropie : −B

k=1

p(bk) log p(bk) (3.10)

p(bk) =1

N#i|Ii(Pi(X)) ∈ bk (3.11)

bk =[(k − 1)

BIMAX ;

k

BIMAX

[

(3.12)

pour k ∈ 1, 2, ..., B où # est le nombre d’éléments dans l’ensemble, B le nombrede classes de l’histogramme bi et IMAX la borne supérieure des couleurs possibles. Lagrosseur des classes est un paramètre de ce critère, lequel doit être ajusté en fonc-tion du niveau de variation de couleurs dans l’image. Une façon d’éviter les classesde l’histogramme est d’utiliser les fenêtres de Parzen [18]. Par contre, cela alourditconsidérablement les calculs.

Page 32: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 3. Critères de comparaison 24

(a) (b)

Fig. 3.2 – Critère d’entropie. Les couleurs sont regroupées dans des histogrammescontenant 32 classes pour R,G et B et pour un ensemble de sept caméras. Dans (a), lepoint considéré est sur la surface donc les valeurs sont regroupées. Le point n’est pas surla surface dans (b) donc les valeurs sont plus étendues. Certaines couleurs sont malgrétout regroupées, car l’objet choisi (Figure 1.2) n’a pas de grosses variations spatialesd’apparence.

Critère de fréquence Le critère de fréquence [19] est plus récent donc moins connu.Il se calcule de la façon suivante :

Fréquence :∑

Ii,Ij∈N

|Ii(Pi(X)) − Ij(Pj(X))|

θi,j,X

(3.13)

où N symbolise l’ensemble de paires de caméras directement voisines (Figure 3.3) etθi,j,X est l’angle que forment les centres de projection des caméras i et j avec le pointX.

La position des caméras comparées (Figure 3.3) est donc au coeur de ce critère,comparativement aux critères vus plus haut, car il évalue la variation de couleur, maisseulement entre caméras voisines. Une surface qui n’est pas lambertienne change decouleur angulairement, mais pas n’importe comment (à moins que la surface soit mi-roir). La fréquence suppose que l’apparence d’un point sur une surface varie angulaire-ment assez lentement. Il n’est donc pas impossible que deux caméras éloignées voientun même point avec une apparence assez différente, du moment qu’il n’y ait pas debrusque changement d’apparence pour les caméras intermédiaires. L’intérêt du critèrede fréquence ne vient donc pas nécessairement de la façon de comparer les couleurs(différence absolue), mais plutôt de quelles caméras seront comparées.

Sensibilité aux légères variations d’apparence spatiale Pour positionner cor-rectement un point provenant d’une surface ayant peu de variation spatiale de couleurs,

Page 33: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 3. Critères de comparaison 25

Fig. 3.3 – Structure des caméras comparées lors du calcul du critère de fréquence. Lespoints noirs représentent les caméras et chaque lien unissant deux caméras symboliseune comparaison de couleur entre les deux.

il faut un critère qui soit sensible à ces variations. Le fait que les critères de variance,fréquence et médiane soient basés sur la différence de couleurs les rend sensibles auxlégères variations d’apparence. Pour l’entropie, c’est plus compliqué. Cela dépend duniveau de variation et du nombre de classes pour l’histogramme. Si le nombre de classesest trop restreint, il ne sera pas possible de différencier entre deux points qui ont unevariation angulaire de couleur légèrement différente. Par contre, si trop de classes sontutilisées, il ne sera pas non plus possible de différencier entre une moyenne et une grandevariation angulaire de la couleur. Le cas extrême est lorsqu’il y a une classe pour chaquecouleur. Il y a aussi le problème des frontières de classes. Deux points avec une mêmedistribution de couleurs pourraient avoir deux valeurs d’entropie différentes selon laposition des couleurs dans chaque classe. S’ils sont regroupés à l’intérieur d’une mêmeclasse, l’entropie sera moindre que s’ils sont à la frontière de deux classes.

Robustesse aux variations d’apparence angulaire Aucun des critères présentésci-haut n’est invariant à une transformation telle une augmentation du gain ou unetransformation affine. La médiane et l’entropie vont traiter les reflets spéculaires dela même façon que les occultations. Par contre, si la variation d’apparence est lentemais touche une gamme étendue de couleurs, seule la fréquence est appropriée. Celas’explique par le fait qu’aucune caméra éloignée n’est comparée (Figure 3.3).

Page 34: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 3. Critères de comparaison 26

Robustesse aux occultations Si X est le point cherché et que X ∈ Si et X /∈ Sj (lacaméra j est occultée), alors il y a de fortes chances que Ii

(

Pi(X)) 6= Ij(Pj(X))

. Celapeut faire complètement dégénérer des critères (ex : fréquence, variance), alors que pourd’autres, cela ne fera que baisser la confiance au point choisi (ex : entropie, médiane).Cette sensibilité aux occultations a été évaluée dans l’article de Vaish [14], sauf pour lafréquence. Il en ressort que l’entropie est la plus robuste, suivie par la médiane, laquelleest efficace jusqu’à ce que plus de la moitié des caméras soit occultée. La variance esten dernier, elle se dégrade dès la première caméra occultée. La robustesse de l’entropievient du fait qu’une apparence drastiquement différente n’a pas plus d’impact que si unseul point, avec une apparence légèrement différente, débordait sur une classe voisine.Pour la médiane, seule la meilleure moitié des couleurs (celles les plus proches de lacouleur médiane) compte. La variance est peu robuste, car les différences de couleurssont intensifiées. La fréquence a le même problème que la variance en plus du suivant :chaque caméra est comparée à toutes ces voisines, donc si une caméra est occultée,plusieurs comparaisons seront mauvaises.

3.2 Critères calculés sur des fenêtres

Les critères calculés sur des fenêtres ont l’avantage de pouvoir comparer la texturelocale de régions. Cela réduit le problème d’ambiguïté sans compromettre la visibilité,car le nombre de textures possibles est très grand pour une même grandeur de fenêtre.Les fenêtres de comparaison supposent que la région à comparer est localement plane.Cela signifie que s’il y a une discontinuité de profondeur ou d’orientation de la sur-face à l’intérieur d’une même fenêtre, seule une section de la fenêtre ne pourra êtrecorrectement appariée.

3.2.1 Fenêtres de comparaison

Plusieurs types de fenêtres de comparaison peuvent être utilisés. Leurs formes etdimensions dépendent de la connaissance de la forme locale de l’objet considéré, car onsait (Figure 2.3) que la projection d’une même région de l’objet dans différentes imagescréera des formes différentes.

Fenêtres fixes Si la normale à la surface (ou une approximation de celle-ci) n’estpas disponible en un point X, des fenêtres régulières (des zones de dimensions iden-

Page 35: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 3. Critères de comparaison 27

Ii

Fi

F(n)i

Ij

Fj

F(n)j

Fig. 3.4 – Comparaison de deux fenêtres (en bleu) provenant d’images (en noir) ayantune rotation différente autour de l’axe z local. Les fenêtres en pointillées représententles fenêtres génériques sans tenir compte du roulis. Les points rouges Fi(n) et Fj(n)

représentent des positions correspondantes dans les fenêtres Fi et Fj.

tiques dans chacune des images) sont utilisées dans chacune des images servant à lacomparaison. Par contre, les images comparées ont parfois (souvent) des orientationsdifférentes. Celle qui nous intéresse, c’est la rotation propre (roulis ou roll en anglais)de l’image. Si elle varie d’une image à l’autre, les fenêtres comparées ne seront pas cohé-rentes, comme pour les fenêtres en pointillées dans l’image (Figure 3.4). Pour rectifierles images comparées, il faut d’abord trouver la rotation propre de chacune des images,

ψi = arctanR

(2,1)i

R(1,1)i

, laquelle peut être obtenue à partir des matrices de rotation

Ri =

R(1,1)i R

(1,2)i R

(1,3)i

R(2,1)i R

(2,2)i R

(2,3)i

R(3,1)i R

(3,2)i R

(3,3)i

. (3.14)

La dimension des fenêtres de comparaison peut être définie à partir d’une fenêtregénérique Fg, toujours centrée en zéro. Celle-ci pourrait être, par exemple, [−5, 5] ×

[−5, 5]. La fenêtre de comparaison pour l’image i, Fi, peut être vue comme un vecteurde positions formant la fenêtre. Fi est centrée sur la position d’intérêt, xi = Pi(X) etpeut être calculée de la manière suivante :

F(n)i =

[

cos(ψi) − sin(ψi)

sin(ψi) cos(ψi)

]

F (n)g + xi n ∈ [1, |Fg|]. (3.15)

Cette transformation rétablit la cohérence entre les fenêtres à comparer (fenêtres conti-nues dans la figure 3.4). Malheureusement, une même région de la surface a des di-mensions différentes selon l’image dans laquelle elle est projetée. Des fenêtres fixes decaméras rectifiées ne peuvent représenter la même région de l’objet que si cette dernièreest plane et parallèle aux plans images.

Puisque des fenêtres régulières utilisées pour la comparaison ne représentent pasparfaitement la même région de l’objet (Figure 3.5 (a)), les pixels correspondants

Page 36: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 3. Critères de comparaison 28

(a) (b)

FjIj

Fi

Ii

N

S

S

Fig. 3.5 – (a) Fenêtres fixes. Il n’est pas possible d’apparier parfaitement chacunedes positions provenant de fenêtres de comparaison fixes. Seuls les rayons associés auxcentres des fenêtres se croisent au même endroit. Les autres rayons associés (provenantde positions qui devraient s’apparier) ne se croisent pas au même endroit. La surface esten noir et les rayons des trois caméras sont en rouge, bleu et vert. L’unique plan, pourchaque paire de caméras, qui aurait permis d’apparier parfaitement chaque positiondes fenêtres comparées, est représenté par une ligne pointillée. Il est trouvé à partirdu croisement des rayons correspondants. (b) Homographie : L’homographie associedes fenêtres (traits noirs foncés) de tailles différentes en fonction (entre autres) de lanormale à la surface.

(F (n)i , F

(n)j , F

(n)k ) des différentes fenêtres ne représentent pas toujours le même point

de la surface, particulièrement lorsque les pixels sont éloignés du pixel central. Étantdonné que l’objectif est de positionner précisément le point associé aux pixels centraux,lors du calcul du critère de comparaison, il est judicieux de donner plus de poids auxpixels centraux qu’aux autres [3, 20] lors de la comparaison des deux fenêtres.

Homographie [21, 22] Si la position d’un point X de la surface est connue ainsique sa normale N, en supposant que la surface est localement plane autour de X, il estpossible d’appliquer une homographie entre les positions d’une fenêtre Fi dans l’imageIi et une autre, Fj, dans Ij. Ainsi, si X et N sont bien estimés, tous les pixels desfenêtres seront parfaitement appariés. L’homographie H telle que F (n)

j = HF(n)i est

H = Kj(dRj − TjNT )(dRi − TiN

T )−1K−1i (3.16)

où le plan Y ∈ R3 : NTY = d est décrit en fonction du référentiel global. Par

conséquent, d = NTX. Les homographies mettent en correspondance des fenêtres de

Page 37: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 3. Critères de comparaison 29

tailles et dimensions différentes (Figure 3.5 (b)), mais dont les positions sont reliées parune bijection. Même si les correspondances sont meilleures en utilisant l’homographie,l’hypothèse que la surface soit localement plane peut se révéler fausse pour certainsendroits de la surface. Il est intéressant, bien que moins nécessaire qu’avec les fenêtresfixes, de donner plus de poids aux pixels centraux lors de la mesure de la similitude del’apparence. Notons que l’homographie tient compte du roulis.

L’homographie peut être calculée à partir d’une surface intermédiaire (Section 4.1)ou peut être optimisée à partir des valeurs d’un critère de comparaison basé sur desfenêtres (Lucas-Kanade [21], gradient conjugué [22]).

3.2.2 Types des critères utilisant des fenêtres de comparaison

Dans cette section, les critères sont appliqués sur des fenêtres Fk, lesquelles peuventêtre autant fixes que le résultat d’une homographie. Par contre, il est important qu’ilexiste une bijection entre deux fenêtres Fi et Fj à comparer.

Évolution de méthodes basées sur un pixel Les méthodes vues dans la section3.1, sur les critères basés sur un seul pixel, s’appliquent évidemment ici aussi. Il suffitde prendre la moyenne (possiblement pondérée) sur chacun des pixels des fenêtres decomparaison. Cela donne des critères tels la somme des différences absolues (SDA) oula somme des différences au carré (SDC). Le critère de fréquence se déduit de la mêmemanière.

IM (MI) : Information mutuelle En fait, seule l’entropie évolue de façon pluscomplexe en devenant le critère d’information mutuelle (IM) [18, 23, 24]. Contrairementà l’entropie, l’IM s’applique seulement pour des paires d’images. Il utilise la probabilitéjointe, p(bmi , b

nj ), qu’une position xi de l’image i soit associée à une valeur à l’intérieur de

l’intervalle bmi et que la coordonnée associée xj, soit telle que Ij(xj) ∈ bnj (Figure 3.6).L’information mutuelle peut être obtenue de différentes façons selon qu’elle est calculéedans le domaine continu (fenêtres de Parzen) ou discret (classes d’histogramme). S’il ya Bi classes de valeurs pour l’image Ii et Bj pour Ij, le critère est calculé de la façon

Page 38: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 3. Critères de comparaison 30

suivante,

IM(Fi, Fj) =

Bi∑

m=1

Bj∑

n=1

p(bmi , bnj ) log

( p(bmi , bnj )

p(bmi )p(bnj )

)

(3.17)

avec p(bmi , bnj ) =

1

K#k|Ii(x

(k)i ) ∈ bmi et Ij(x

(k)j ) ∈ bnj (3.18)

p(bmi ) =1

K#k|Ii(x

(k)i ) ∈ bmi (3.19)

p(bnj ) =1

K#k|Ij(x

(k)j ) ∈ bnj (3.20)

où bmi et bnj sont des intervalles de valeurs pour les images i et j respectivement et Kest le nombre de positions dans les fenêtres Fi et Fj.

bmi =[(m− 1)

Bi

IMAXi ;

m

Bi

IMAXi

[

m ∈ 1, ..., Bi (3.21)

bnj =[(n− 1)

Bj

IMAXj ;

n

Bj

IMAXj

[

n ∈ 1, ..., Bj (3.22)

L’information mutuelle est maximale, pour une fenêtre Fi donnée, lorsqu’il existe unerelation de un à un entre les couleurs de pixels correspondants, quelle que soit cetterelation. Cela lui permet de représenter des relations radiométriques complexes. Parexemple, ce critère n’aura aucun problème à apparier deux images dont l’intensité lu-mineuse aurait été inversée. Il a été comparé avantageusement par Egnal [23] par rapportà la CCN.

CCN (NCC) : Corrélation croisée normalisée Grâce à l’utilisation de fenêtres,

un critère basé sur le produit scalaire de deux vecteurs normalisés(

<a,b>

‖a‖‖b‖

)

a pu être créé.Ce critère, la corrélation croisée normalisée dont la moyenne a été soustraite, est celuile plus fréquemment utilisé. La raison de sa popularité est son absence de paramètre àdéterminer, son peu de sensibilité aux légères variations de couleur, sa relative robustesseaux occultations et son invariance aux transformations affines (f(x) = ax + b) descouleurs associées aux pixels. Il se calcule comme suit,

CCN(ci, cj) =

∑K

k=1(c(k)i − vi)(c

(k)j − vj)

∑K

k=1(c(k)i − vi)2

∑K

k=1(c(k)j − vj)2

(3.23)

vi =1

K

K∑

k=1

c(k)i vj =

1

K

K∑

k=1

c(k)j (3.24)

où K est le nombre de pixels dans un fenêtre. Les vecteurs ci = Ii(Fi) et cj = Ij(Fj)

sont les couleurs des fenêtres Fi dans Ii et Fj dans Ij respectivement, représentées sous

Page 39: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 3. Critères de comparaison 31

(a) (b)

(c)

Fig. 3.6 – L’information mutuelle peut se calculer à partir de l’histogramme joint (c) deIi(Fi) et Ij(Fj) et des histogrammes de couleurs de chacune des images, Ii(Fi) pour (a)et Ij(Fj) pour (b). Ici Fi et Fj représentent la même région de l’objet, par conséquent,l’histogramme joint en (c) a des valeurs non-nulles pour un nombre restreint de cases.

Page 40: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 3. Critères de comparaison 32

forme de vecteurs. Étant donné qu’une couleur RGB appartient à [0, 255]3, la CCN secalcule pour chaque canal de couleur.

Les valeurs de la CCN sont bornées par -1 et 1, peu importe la grandeur de la fenêtre,ce qui permet de limiter l’impact d’un mauvais choix de caméras pour l’appariement. Laphoto-cohérence de n paires de caméras ne sera modifiée que d’au plus 2/n. Par rapportà un critère comme la fréquence dont les valeurs ne sont pas bornées supérieurement etdont on cherche le minimum, c’est un gros avantage.

Par contre, comme la CCN dégénère dans les zones qui sont trop constantes, deuxfenêtres semblables, mais dont l’apparence ne varie pas spatialement, on obtiendraune faible valeur de photo-cohérence avec ce critère, au même titre que deux fenêtresd’apparence très différentes.

Afin de contrer cette situation, il existe une version modifiée de la CCN (CCNM)qui est moins sensible aux régions presque constantes (var(ci) ≈ 0 ou var(cj) ≈ 0).

CCN(ci, cj) =cov(ci, cj)

var(ci)var(cj)(3.25)

CCNM(ci, cj) =2cov(ci, cj)

var(ci) + var(cj)(3.26)

Autrement, la CCNM donne des résultats semblables à la CCN.

Choix des paires de caméras comparées Tout comme l’IM, la CCN ne peutcomparer les fenêtres que par paires. Afin d’évaluer la photo-cohérence d’un ensemblede fenêtres, il faut d’abord choisir l’ensemble de paires de fenêtres à comparer, appliquerle critère sur chacune de ces paires et ensuite fusionner les résultats. Chaque ensemblede paires de fenêtres évalue la photo-cohérence différemment. Il est possible de comparerchaque fenêtre par rapport à une fenêtre de référence, de comparer toutes les fenêtresentre elles ou de ne comparer que les fenêtres voisines.

Comparaison visuelle des critères : CCN, IM et fréquence

Afin de mieux comprendre les caractéristiques de la CCN, de l’IM et de la fréquence,le comportement de chacun des critères est présenté dans différents contextes pour unintervalle de recherche qui comprend un point de la surface. Pour l’information mutuelle(IM) et la corrélation croisée normalisée (CCN), le maximum correspond à la meilleurephoto-cohérence, alors que pour la fréquence, c’est le minimum. Tout d’abord, le cas

Page 41: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 3. Critères de comparaison 33

CCN IM

Région cherchée Fréquence

zref zref

zref

Fig. 3.7 – Courbes de comparaison pour les critères de la CCN, l’IM et la fréquencepour une région texturée (bas gauche). Le signal de la CCN varie beaucoup à l’intérieurde l’intervalle, l’IM est plus lisse près du point recherché et la fréquence a une grandezone minimale près du minimum global. On peut donc croire que l’IM et la fréquencesont plus appropriées pour les méthodes itératives (section 5.3), car Les courbes tendentvers le minimum global.

idéal est présenté, une surface bien texturée où la visibilité a été bien estimée (Figure3.7). Ensuite, le cas où une des caméras ne voit pas le point recherché (la caméraest occultée) sera analysé (Figure 3.8). Pour finir, la situation où la surface est trèspeu texturée sera détaillée (Figure 3.9). Les images proviennent du banc d’essai deMiddlebury [5] (voir Chapitre 6). Chaque courbe correspond à la comparaison entredeux images. La ligne pointillée noire est la moyenne de ces courbes. Pour le critère defréquence, chaque courbe correspond à la dérivée de la couleur par rapport à l’angleentre deux images. La somme de ces courbes correspond au critère de fréquence (le faitqu’elle soit moyennée ne change rien à la position du minimum). Le point recherché sesitue près de la profondeur 0.01 pour les figures 3.7, 3.8 et 3.9.

Il est intéressant d’observer la variation des courbes à l’intérieur de l’intervalle pourle cas texturé (Figure 3.7). La CCN est sans aucun doute celle qui varie le plus. Sansmettre plusieurs courbes ensemble, il serait très ardu de choisir un maximum. Il suffitde regarder la courbe rose pour comprendre cela. Le fait de moyenner les courbes fait

Page 42: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 3. Critères de comparaison 34

ressortir le maximum, car c’est l’endroit où toutes les courbes s’entendent sur la photo-cohérence. Lorsque le maximum est trouvé grossièrement, il est relativement facile dele trouver précisément, car il est assez pointu. L’IM varie moins que la CCN, ce qui faitque chaque courbe prise séparément pourrait être utilisée pour trouver le maximum. Parcontre, la moyenne permet de donner de la confiance au point choisi. Pour la fréquence,c’est très différent. Les courbes varient peu dans un grand intervalle. Pour une mêmecourbe, il y a beaucoup d’endroits où pourrait être le point de la surface. C’est pourquoiil est essentiel d’utiliser plusieurs courbes, cela permet de déterminer où le point n’estpas. Si l’on songeait à utiliser une méthode itérative pour retrouver la surface (Section5.3), il serait bon de prendre un critère avec une zone de convergence assez grande.

Les courbes de la figure 3.8 permettent de comparer la sensibilité des critères decomparaison aux occultations. La CCN a l’avantage d’avoir des valeurs bornées, ce quifait que la mauvaise courbe (en rose),celle qui contient une caméra qui ne voit pas lepoint cherché, n’empêche pas la localisation du meilleur point. Bien que l’IM ne soitpas aussi bornée que la CCN, dans le cas texturé, cela n’empêchera pas l’IM de détec-ter le meilleur point. Pour la fréquence, par contre, une seule caméra occultée détruitcomplètement l’analyse de la photo-cohérence. La mauvaise courbe (cyan) compare larégion cherchée à une région très différente, ce qui résulte en une dérivée très grandepar rapport aux autres courbes. Dans sa forme actuelle, la fréquence n’est donc pasappropriée pour les situations où la visibilité ne peut pas être estimée avec confiance.Il serait nécessaire de la normaliser afin de réduire l’impact d’une grande dérivée etaccentuer celle d’une faible dérivée.

La dernière situation d’intérêt est le cas où la surface est très peu texturée, mais lavisibilité est bien estimée. Cette région provient du Dino de Middlebury [5] alors que lesdeux premières provenaient du Temple. Le critère le plus approprié est définitivementla fréquence. Cette dernière réagit bien aux faibles variations d’apparence, car elle estcapable d’en tenir compte. Cela n’est pas possible avec l’IM, car le principe des classesd’histogramme ne permet pas de faire une différence entre des points dans des classesconnexes ou pas, ou bien parmi différentes configurations de couleurs à l’intérieur d’unemême classe. Le problème de la CCN ne provient pas des faibles variations d’apparenceà l’intérieur de la courbe, mais bien de la trop faible variance à l’intérieur même de larégion (ce qui est aussi un problème pour l’IM). Ce critère ne permet pas de différencierune mauvaise corrélation d’une corrélation dans une zone presque constante.

Page 43: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 3. Critères de comparaison 35

CCN IM

Fréquence

Région cherchée

zref zref

zref

zref zref

zref

Zoom des courbes

Tou

tes

les

cam

éras

Cam

éras

pas

occu

ltée

s

Texture accentuée

Fig. 3.8 – Courbes de comparaison pour une région occultée dans une des caméras.La courbe qui comprend la caméra occultée est la rose pour la CCN et l’IM et lacyan pour la fréquence. Le maximum de la CCN et celui de l’IM sont sensiblement aumême endroit, malgré une courbe qui contient une caméra occultée. Par contre, pour lafréquence, la courbe cyan détruit complètement le minimum. Les courbes de fréquenceà droite mettent en évidence les légères variations près du minimum. Les courbes dubas représentent la fréquence si l’on enlève la caméra occultée (auquel cas, le minimumest bien trouvé).

Page 44: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 3. Critères de comparaison 36

CCN IM

Région cherchée Fréquence

zref zref

zref

zref

Texture accentuée

Fig. 3.9 – Courbes de comparaison pour une région peu texturée (bas gauche). La CCNne réussit pas à trouver la bonne région puisqu’elle est très sensible aux régions dont lavariance spatiale est faible. L’IM n’est pas appropriée pour de telles situations non plus,car elle gère mal de légères variations d’apparence à cause de son concept de classes.Seul le minimum de la fréquence trouve la position de la surface, bien que le minimumglobal ne soit pas très distinct.

Page 45: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 3. Critères de comparaison 37

3.2.3 Comparaison d’images transformées

Il est possible de transformer Ii et Ij avant de les comparer afin d’éliminer certainesinformations qui peuvent varier, telles le gain, ou encore pour faire ressortir certainesstructures dans l’image qui sont plus facilement appariables. Plusieurs transformationsexistent. Déjà, avec le critère de la CCN, la moyenne et la variance ont été éliminéesdes fenêtres. Il aurait été possible de faire de même pour un SDA aussi, mais destransformations plus puissantes et plus complexes existent [25, 26]. Elles sont toutesbasées sur une relation entre la valeur d’un pixel et la valeur de pixels voisins. Cela faitressortir des propriétés intéressantes des images, mais est aussi relié aux problèmes de ladiscrétisation de l’apparence. Moins la relation est locale dans l’image, plus le problèmede discrétisation croît en importance lors de l’appariement d’images transformées.

CG : Corrélation de gradients Une façon de rendre une comparaison invarianteà une transformation affine, tout en étant robuste au bruit (plus que CCN), est decomparer chacune des images après les avoir transformées en champs de vecteurs [27].Ceci est fait en prenant le gradient de chaque image (Figure 3.10). Pour apparier detelles images, il faut être capable de comparer deux vecteurs. La similarité entre deuxvecteurs peut être définie de la façon suivante : s(g1, g2) = 1

2

(

‖g1‖ + ‖g2‖)

− ‖g1 − g2‖.Maintenant, si deux fenêtres de vecteurs G1 et G2 sont comparées, il suffit de sommer lacomparaison de tous les vecteurs. Afin de borner la valeur maximale de cette corrélationde gradients (GC) à 1, la mesure de similarité est transformée de la façon suivante pourdes fenêtres centrées en I1(i1, j1) et I2(i2, j2) :

CG(i1, j1, i2, j2) = 1 − 2

∑n

i=−n

∑m

j=−m ‖G(i,j)1 −G

(i,j)2 ‖

∑n

i=−n

∑m

j=−m ‖G(i,j)1 ‖ + ‖G(i,j)

2 ‖(3.27)

où la transformation de l’image est son gradient

G(i,j)k =

[

∂Ik(ik+i,jk+j)∂x

∂Ik(ik+i,jk+j)∂y

]

. (3.28)

Pour une même direction de vecteurs, le score est plus élevé pour des vecteurs plusgrands, car les petits vecteurs sont moins fiables.

Rang Contrairement au gradient, la transformation de rang (Rank Transform [28,29]), n’est pas une transformation paramétrique. Elle n’utilise ni moyenne, ni dérivée. Lafonction ri(xi), contient la position relative de Ii(xi) par rapport à la couleur des pixelsvoisins, Ii(Fi). Plus précisément, ri(xi) contient le nombre de pixels voisins ayant une

Page 46: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 3. Critères de comparaison 38

(a)

(b)

Fig. 3.10 – Gradient de l’image. (a) Direction des vecteurs pour une partie de l’image.(b) Intensités des vecteurs pour l’ensemble de l’image.

couleur moindre que le pixel d’intérêt. Par conséquent, les valeurs de ri sont bornées. Unautre fait intéressant est que ri varie beaucoup dans l’image, ce qui est important pourl’appariement étant donné que les zones de couleur (presque) constantes sont à éviter. Lebémol est que sur les zones de l’image qui sont presque constantes, la transformation parle rang va créer ce qui ressemble étrangement à du bruit. Cette transformation est maladaptée aux légères variations d’apparence qui peuvent être facilement influencées parun faible bruit dans le capteur ou la discrétisation de l’apparence. De plus, une valeurri(Pi(X)) dépend d’une fenêtre Fi d’au moins 5×5 qui ne correspond pas exactement à lamême région que Fj de rj(Pj(X)), à cause de la forme de l’objet et de la discrétisationdifférente de l’apparence dans chacune des caméras. Cette transformation est doncmoins appropriée pour la comparaison de caméras éloignées. De plus, la valeur du pixelcentral pour chaque transformation est très importante.

Par contre, le rang est une transformation qui rend l’appariement invariant auxtransformations affines et est moins sensible aux grands changements d’intensité dansune même fenêtre Fi. La première raison est qu’il n’est pas nécessaire de soustraire lamoyenne aux valeurs de la fenêtre et deuxièmement, chaque pixel voisin est considéré defaçon binaire, plus petit ou pas plus petit que Ii(xi), peu importe qu’elle soit beaucoupplus petite ou à peine.

Page 47: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 3. Critères de comparaison 39

(a) (b)

Fig. 3.11 – Transformation de rang. La couleur de chaque pixel a été remplacée par laposition relative de sa couleur par rapport à la couleur des pixels voisins. (a) Le Templeest un objet relativement texturé. (b) Le Dino contient des zones constantes ou presqueconstantes sur plusieurs parties, dont le dos. La transformation de rang les a remplacéespar du bruit.

3.3 Sommaire

Les critères de comparaison sont des mesures de photo-cohérence de petites sur-faces. Cela permet d’évaluer la cohérence d’un ensemble d’appariements en fonctiondes propriétés de réflectance de l’objet. Comme il a été vu au cours de ce chapitre,la robustesse des critères aux différents problèmes d’appariement varie d’un critère àl’autre. Voici un résumé des caractéristiques qui ont un impact sur la robustesse descritères de comparaison en fonction des défis de l’appariement :

visibilité :– critères à valeurs bornées (robustesse des critères aux occultations),– décomposition de la photo-cohérence en paires de caméras,

variation d’apparence angulaire :– choix des paires de caméras comparées (caméras voisines de préférence),– invariance des critères à certaines transformations,

ambiguïtés :– utilisation de fenêtres de comparaison (comparaison de la texture),

discrétisation de l’apparence :– homographie,

Page 48: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 3. Critères de comparaison 40

– pondération des fenêtres de comparaison.

Lorsque peu de caméras sont disponibles, il est préférable d’utiliser des critères calculésà partir de fenêtres de comparaison. L’appariement de la texture diminue les ambiguïtésalors que les changements d’apparence angulaire peuvent être traités avec des critèresinvariants à certaines transformations. Par contre, si le critère est calculé à partir d’ungrand nombre de caméras, il est préférable d’utiliser un critère basé sur un pixel. Celapermet de reconstruire des détails fins de la surface, car la partie de surface appariée estplus petite. Le grand nombre de caméras réduit les ambiguïtés et permet de déterminerplus facilement si la variation d’apparence angulaire est photo-cohérente.

Malheureusement, choisir un critère de comparaison n’est pas suffisant pour trou-ver une surface, encore faut-il savoir où l’utiliser (dans quelle région de l’espace) etcomment (avec quelles caméras de comparaison, selon quelle normale). Autrement, en

chaque point de l’espace, il y aurait∑N

k=2

(

Nk

)

valeurs de photo-cohérence possibles (en

supposant un critère basé sur un point). Il est donc nécessaire de trouver une façonde restreindre au minimum la zone de recherche ainsi que l’ensemble de caméras decomparaison possible.

Page 49: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 4

Contraintes et représentations de

données

La reconstruction 3D par stéréo multivue utilise l’appariement de positions dansdifférentes images pour trouver la forme de ce qui est vu. Pour trouver quelles positionsapparier, il faut être en mesure d’évaluer la photo-cohérence de points de l’espace, cequi se fait à l’aide de critères de comparaison. Reste à savoir où évaluer la photo-cohérence, à partir de quelles caméras et selon quelle normale. Contraindre les surfacesadmissibles permet de mieux estimer ces paramètres. L’ensemble des surfaces possiblespeut être restreint au début de l’algorithme (ex : respecter les silhouettes segmentéesdans les images) ou dépendre des mesures de photo-cohérence déjà acquises. Pour queces mesures puissent être utilisées pour contraindre les surfaces admissibles, il fautqu’elles soient traitées par un algorithme de reconstruction, lequel emmagasinera etstructurera l’information dans une ou plusieurs représentations de données (Figure 4.1).

Le type d’information (photo-cohérence, éléments de surface, surface) emmagasi-née et la façon dont elle est structurée modifient ses utilisations potentielles. Pourcontraindre l’ensemble des surfaces admissibles à partir des mesures de photo-cohérence,il est plus pratique d’avoir une surface complète sans bruit (surtout pour la visibilité), cequi signifie que les données doivent être préalablement traitées. Par exemple, si la surfacecherchée est supposée lisse, il faut que la représentation de données permette d’accéderaisément au voisinage d’un point. De plus, compte tenu de la quantité d’informationacquise et des problèmes d’appariement, il se peut qu’il reste certaines ambiguïtés. Il estdonc également avantageux que la représentation de données puisse aisément accumulerde nouvelles informations et représenter différentes possibilités de surfaces.

Page 50: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 4. Contraintes et représentations de données 42

Fig. 4.1 – Transmission des informations entre les parties d’un algorithme de recons-truction. Les informations emmagasinées dans la représentation de données ne serventpas toujours à contraindre la surface pour l’évaluation de la photo-cohérence.

4.1 Contraintes sur la surface

Un critère de comparaison évalue la photo-cohérence d’un point de l’espace à partird’un ensemble de caméras. Par conséquent, il faut déterminer au minimum une régionoù évaluer la photo-cohérence, ainsi qu’un ensemble de caméras pour chacun des pointsde cette région. Ces paramètres peuvent être trouvés à partir d’un estimé de la surfacecherchée.

La surface peut être contrainte de se situer à l’intérieur d’un volume donné. Sice dernier est trouvé sans utiliser l’appariement, une confiance élevée est associée àcette contrainte. Les contraintes provenant de l’appariement (points d’intérêt, surfaceintermédiaire) ont une confiance moindre, car elles ont une plus forte probabilité decontenir des erreurs. Il est donc important de porter attention à ce que les erreursd’appariement ne se propagent pas. Ces contraintes sont tout de même utilisées, carelles fournissent souvent une meilleure estimation de la visibilité, de la position et del’orientation de régions de la surface.

4.1.1 Surface englobante (Bounding box)

Avant de commencer l’appariement, il est intéressant de borner la zone de recherchede l’objet. Cela peut se faire en déterminant un volume V à l’intérieur duquel se trouvel’objet. Certains algorithmes se contentent d’un volume borné par une boîte rectangu-laire, obtenue par essais et erreurs. Par contre, si l’on sait que l’objet est complètementinclus dans toutes les images (Pk(S) ⊂ Ωk,∀k ∈ [1, N ]), la recherche d’un volume englo-bant peut être automatisée si les caméras sont calibrées. Il suffit de prendre l’intersection

Page 51: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 4. Contraintes et représentations de données 43

Fig. 4.2 – L’enveloppe visuelle est obtenue à partir de l’intersection des cônes géné-ralisés, lesquels sont construits à partir de la silhouette de l’objet dans chacune desimages2.

des cônes généralisés créés par les images. Un tel volume ne sera pas d’une grande aidepour trouver la visibilité des points, mais il restreint le volume de recherche et permetde filtrer certains mauvais appariements.

Enveloppe visuelle (Visual hull)

L’enveloppe visuelle [30] correspond à la surface qui englobe le plus petit volumecontenant l’objet qui peut être extrait d’images provenant de caméras calibrées sansfaire d’appariement de pixels. De plus, cette surface contient des points de la surfacecherchée. Pour ces raisons, elle est souvent la surface de départ des algorithmes dereconstruction. Elle sert évidemment à borner la zone de recherche, mais elle est aussiutile au calcul de la visibilité.

Cette surface est calculée à partir de la segmentation de l’objet (ou des objets) danschacune des images. Chaque segmentation définit une région (ou des régions) de l’espaceoù l’objet n’est pas. Par conséquent, l’intersection de toutes les régions où l’objet est,résulte en une zone assez restreinte à l’intérieur de laquelle se trouve l’objet (Figure4.2). La frontière de ce volume constitue l’enveloppe visuelle.

La façon dont l’enveloppe visuelle est construite la rend particulièrement sensibleaux mauvaises segmentations. Cela a deux impacts. Tout d’abord, il peut être trèsdifficile d’extraire l’objet d’une image capturée dans un environnement naturel. Étant

2En ligne au http ://en.wikipedia.org/wiki/Visual_hull le 3 octobre 2008

Page 52: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 4. Contraintes et représentations de données 44

donné que la qualité de la segmentation est très importante pour la construction del’enveloppe visuelle, les objets reconstruits à partir de ce volume englobant sont le plussouvent capturés dans des environnements contrôlés. C’est une limitation importante.

Deux types d’erreurs peuvent se produire lors de la segmentation d’une image. Soitune zone de l’arrière-plan est considérée comme faisant partie de l’objet, soit une partiede l’objet est prise pour l’arrière-plan. Le premier type d’erreur n’a pratiquement pas deconséquence, car la zone qui aurait dû être enlevée le sera probablement par une autrecaméra. Par contre, le deuxième type d’erreur est dramatique puisqu’il s’additionne etest au mieux très difficilement corrigeable. Lorsqu’une région est retranchée du volumeenglobant à cause d’une segmentation, elle l’est définitivement, même si la segmentationétait mauvaise. La qualité de l’enveloppe visuelle calculée peut donc facilement décroîtreavec le nombre d’images segmentées utilisées. Cette situation n’a des chances d’êtrecorrigée a posteriori que s’il y a une différence entre les projections de l’enveloppevisuelle sur les images et les silhouettes correspondantes [31].

L’information contenue dans la silhouette provient de la frontière de l’objet. Plus lafrontière est connue à différents endroits de l’objet, meilleure sera l’enveloppe visuelle(à condition qu’il n’y ait pas d’erreurs de segmentation). Le concept de l’enveloppevisuelle pour approximer la forme d’un objet ne peut donc pas être étendu à une scène.

La visibilité calculée à partir de l’enveloppe visuelle a plusieurs caractéristiquesintéressantes [32]. Tout d’abord, un point de la surface situé sur l’enveloppe visuelle estvu par toutes les caméras qui verraient ce point si la surface était l’enveloppe visuelle(VisEV (X) ⊂ VisS(X), X ∈ S ∩ EV ). C’est un constat très intéressant, puisqu’uneproportion non négligeable de points sont situés sur l’enveloppe visuelle, ou à une trèscourte distance de celle-ci. Par contre, la visibilité des points à l’intérieur de l’enveloppevisuelle n’est pas connue.

4.1.2 Informations locales éparses

Lors de l’appariement, seules des régions locales sont trouvées et parfois, que despoints. Étant donné que ces données sont bruitées, il serait difficile de les utiliser direc-tement, car les erreurs présentes risqueraient de se propager. Les informations localessont donc rarement utilisables sans être fusionnées à une surface globale. Les pointsd’intérêt [22, 33] sont l’exception qui confirme la règle.

Les points d’intérêt sont des positions dans les images qui ont des caractéristiquesdistinctives. Comme le niveau de texture est important en ces positions, cela réduit

Page 53: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 4. Contraintes et représentations de données 45

l’ambiguïté, donc facilite l’appariement. Puisque la confiance pour les points d’intérêtde la surface est grande, ils peuvent être utilisés pour déterminer les paramètres à trans-mettre au critère de comparaison. La visibilité est estimée en chaque point d’intérêt àpartir des images ayant détecté ce point d’intérêt. La visibilité n’est donc pas estiméeprécisément. La zone de recherche est plus facile à trouver. Si la surface est raison-nablement lisse, les points voisins de la surface devraient être à proximité des pointsd’intérêt trouvés de la surface. La normale à la surface n’est pas directement fournieavec les points d’intérêt. Par contre, la qualité de la texture locale en ces points facilitela recherche des paramètres de l’homographie reliant le voisinage du point d’intérêt surla surface et les caméras ayant servi à l’appariement.

Pour trouver de tels points d’intérêt, il faut un détecteur. Plusieurs existent et il yen a de nombreux qui ne sont qu’une version modifiée d’un détecteur de base. Ceuxutiles pour l’appariement sont les détecteurs de coins ou de blobs, car ce sont des régionspouvant être positionnées assez précisément (contrairement aux droites) et contenantdes textures. Un bon détecteur doit être en mesure de repérer un même point d’unobjet (ou scène) même s’il est observé dans des conditions différentes (point de vue,différences photométriques) [34]. Une comparaison des détecteurs d’importance (Harris,DoH, LoG) se trouve dans l’article de Mikolajczyk [35].

Pour faciliter encore plus l’appariement, certains détecteurs sont associés à un des-cripteur (SIFT [36], SURF [37]). Pour que le descripteur soit valable, il doit être dis-tinctif et invariant à plusieurs transformations : échelle, rotation, point de vue. Bref,il doit pouvoir différencier facilement deux points de l’objet tout en étant robuste aubruit ainsi qu’aux transformations géométriques et photométriques.

La stéréo multivue utilise des images qui peuvent être assez éloignées les unes desautres. Afin que les points d’intérêt soient détectés avec précision, il est importantd’utiliser des critères adaptés à de telles situations [38, 39].

4.1.3 Surface intermédiaire

Chaque appariement apporte plus d’informations sur la surface cherchée. Si ces in-formations sont intégrées lors du processus de reconstruction, une surface intermédiairepeut être créée et utilisée pour trouver les prochains appariements. Cette surface sanstrou, du moins dans la partie qui est visible par au moins une des caméras, permet unemeilleure estimation de la visibilité (Figure 4.3) que tous les autres volumes ou sur-faces présentés dans ce chapitre. De plus, si la surface intermédiaire englobe la surfacecherchée, la visibilité sera toujours bonne (VisSt(X) ⊂ VisS(X)) [32]. Le fait d’avoir

Page 54: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 4. Contraintes et représentations de données 46

Fig. 4.3 – Contraintes amenées par une surface intermédiaire (bleue) par rapport à unesurface englobante (rouge). La surface cherchée est en noir. Le choix des caméras decomparaison (traits discontinus) et la normale (flèches vertes) sont mieux estimés. Deplus, l’intervalle de recherche est diminué (droite pointillée).

une meilleure estimation de la visibilité permet de prendre un peu plus de caméras, cequi élimine certaines ambiguïtés tout en facilitant l’évaluation de surfaces non lamber-tiennes. Si la surface intermédiaire est suffisamment proche de la surface cherchée, lanormale transmise au critère de comparaison permettra d’éviter plusieurs problèmes dediscrétisation de l’apparence.

Pour pouvoir utiliser une surface intermédiaire, il faut que les données soient em-magasinées dans une structure qui permette l’intégration de nouvelles informations etdont il sera facile d’extraire un maillage de la surface. Cela suppose qu’un traitement,prenant en compte le voisinage, sera appliqué aux données afin que la surface reste rai-sonnablement lisse. Comme il sera vu au chapitre 5, les algorithmes de reconstructionutilisent souvent plusieurs représentations de données afin de tirer profit des avantagesde chacun.

4.2 Représentations de données

Chaque algorithme de reconstruction cherche certains types d’informations : despoints associés à une caméra, des petits plans, une surface, lesquels doivent être struc-

Page 55: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 4. Contraintes et représentations de données 47

turés dans une représentation de données appropriée. Chaque représentation de don-nées a la capacité d’emmagasiner certaines informations et avec une précision qui dé-pend de la quantité de mémoire allouée. Par contre, les représentations de données quicontiennent le plus d’information ne sont pas nécessairement celles qui sont les plus pra-tiques. Certaines représentations permettent de déformer facilement une surface, selondes contraintes, afin de la faire évoluer vers la surface cherchée. D’autres représentationsont le pouvoir de fusionner de nouvelles informations, mais pas de façon cohérente, etplusieurs peuvent facilement accéder à des régions voisines de l’espace ou de la surface.Afin de s’adapter à la méthode qui optimisera tous les paramètres choisis (forme, photo-cohérence), il est possible de transformer la représentation de données. Par contre, cettetransformation ne peut être effectuée directement que si la nouvelle représentation dedonnées contient au plus autant d’information que la précédente (et du même type).Pour passer d’une représentation de données à une autre qui contient plus d’informa-tion, il est nécessaire d’utiliser une méthode d’optimisation, laquelle compensera enintégrant certaines hypothèses sur la surface.

4.2.1 Cartes de profondeurs

Les cartes de profondeurs Di : Ωi → ℜ+ sont des fonctions qui ont le même domaineque les images, mais qui retournent la profondeur du point de la surface associée àla position d’un pixel (Di(xi) = di(P

−1i,S (xi))). Pour faire le lien entre une carte de

profondeurs et des points de l’espace, il faut connaître la matrice Pi. Représenter lasurface d’une telle façon peut sembler peu pratique : chaque carte de profondeurs nereprésente qu’une partie de la surface, une même région est présente dans plusieursimages (possiblement de façon incohérente) et les cartes de profondeurs ne peuvent pasêtre utilisées de la même manière qu’une représentation volumétrique. Pourtant, ellessont très bien adaptées à la stéréo multivue.

Afin d’utiliser l’appariement, il est essentiel qu’un même point soit vu dans au moinsdeux images différentes. Par contre, calculer plus d’une fois la position d’un même pointpeut sembler inutilement redondant. En réalité, la plupart des algorithmes en tirentprofit en changeant l’ensemble des caméras servant à l’appariement (les caméras decomparaison) pour chaque carte de profondeurs, ce qui varie l’estimation de visibilité.Par conséquent, si sept images voient un même point, il se peut que sa position soit trou-vée dans seulement quatre d’entre elles. C’est la façon typique de rendre les approchesutilisant les cartes de profondeurs moins sensibles à l’estimation de la visibilité.

Les images sont une mesure discrète de l’apparence de l’objet, ce qui signifie que laquantité de détails pouvant en être extraite est bornée. Le chapitre 2 nous dit que les

Page 56: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 4. Contraintes et représentations de données 48

Fig. 4.4 – Carte de profondeurs.

images contiennent toute l’information pour déterminer ce niveau de détail maximal.Par conséquent, utiliser les cartes de profondeurs pour représenter la surface revient àtrouver la position de la surface à la meilleure résolution spatiale possible. Les cartesde profondeurs s’adaptent naturellement à l’échantillonnage de la surface, lequel dif-fère pour chacune des images, contrairement aux méthodes volumétriques. De plus, laprécision de la reconstruction ne dépend pas de la résolution du volume contenant lasurface. Par contre, les données contenues dans un ensemble de cartes de profondeurssont redondantes, ce qui est en fait une représentation coûteuse en terme de mémoire.

Contrairement aux nuages de points, les cartes de profondeurs permettent de calculerle voisinage (points à l’intérieur d’une sphère de rayon prédéterminé) directement, maisseulement dans les images. Pour trouver les voisins d’un point X, il suffit de le projeterdans toutes les images, et de comparer dk(X) à la profondeur des voisins de Pk(X), ∀k,ce qui est O(N) au lieu de O(NP ) si le voisinage dans les images n’était pas exploité,où N est le nombre de caméras et P le nombre de pixels dans chaque caméra. Cettenotion de voisinage est peu contraignante, ce qui fait que les cartes de profondeurs sonttrès bien adaptées aux changements de topologie.

Plusieurs représentations de données peuvent découler des cartes de profondeurs(Figure 4.5). Certaines sont équivalentes, c’est-à-dire qu’il est possible de passer del’une à l’autre sans perte d’information, alors que d’autres transformations diminuentla quantité d’information, la transformation ne peut donc se faire que dans une direc-tion. Chaque carte de profondeurs peut être transformée en un maillage d’une partiede la surface [12]. Pour arriver à ce résultat, il suffit de trianguler la position des pixelset d’exprimer la profondeur d’un pixel par le point 3D qui lui est associé. Il est possiblede créer un champ de distance et un champ d’occupation à partir de ces surfaces in-complètes. Si l’on ne tient pas compte du voisinage, les cartes de profondeurs peuventêtre transformées en un nuage de points duquel on peut extraire un champ de densité

Page 57: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 4. Contraintes et représentations de données 49

Fig. 4.5 – Hiérarchie des représentations de données de la famille des cartes de pro-fondeurs. Les flèches représentent les transformations de représentations de données.Lorsque la flèche est à sens unique, il y a perte d’information lors de la transformation.

de points [40].

4.2.2 Champ de distance

Un champ de distance [41, 42, 3] qui représente une surface est un champ dont lavaleur en chaque point est la distance minimale entre ce point et la surface. Un champde distance signé aura des valeurs positives à l’extérieur de la surface et négatives àl’intérieur. Les passages par zéro constituent la surface. Le voisinage d’un point del’espace peut être trouvé en temps constant. Cet avantage est beaucoup utilisé parla méthode d’ensembles de niveaux, la méthode d’optimisation reliée au champ dedistance. Celle-ci fait bouger une surface selon des forces prédéfinies. Contrairementaux maillages, la surface finale ne dépend pas de la forme de la surface de départ, saufen ce qui concerne la convergence.

Ce qui différencie les champs de distance des autres représentations de données, c’estla facilité avec laquelle il est possible de trouver si un point est situé à l’intérieur ou àl’extérieur de l’objet : il suffit de vérifier le signe. Les cartes de profondeurs permettentde savoir si un point est à l’extérieur (bien que les mauvais points puissent rendre la

Page 58: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 4. Contraintes et représentations de données 50

50

−500

(a) (b) (c)

Fig. 4.6 – Champ de distance : champ qui emmagasine la distance signée de chaquepoint par rapport à la surface. Les trois images (a, b et c) correspondent au champ dedistance pour une coupe du volume. (a) La surface correspond à l’isosurface 0. (b et c)Évolution spatiale du champ de distance ainsi que plusieurs isocontours (b).

tâche plus difficile), par contre l’intérieur est moins direct à trouver. Avec un maillage,il faut vérifier le nombre de fois qu’une droite passant par le point croise la surface etdans quelles directions.

Le champ de distance est probablement la représentation de données la mieux adap-tée aux changements de topologies. Le passage d’une topologie à une autre se fait delui-même et ne peut être distingué qu’en vérifiant explicitement le passage par zéro.Cette qualité peut même devenir un défaut, par exemple lorsque l’objet à reconstruireest connexe (il n’y a pas plusieurs objets séparés) et que cette information est connue.Il est difficile de s’assurer que l’objet reconstruit restera connexe. Les changements detopologies inadéquats sont parfois le résultat d’erreurs d’approximations numériques.

Puisque le champ scalaire est discret, il n’a pas la capacité de représenter parfai-tement toutes surfaces. Plus particulièrement, les objets avec des parties très fines ouavec de fortes discontinuités sont mal représentés par le champ scalaire et peuvent sedégrader facilement lors de l’évolution du champ. Puisque les méthodes d’ensembles deniveaux sont bien connues, plusieurs méthodes permettant de palier à ces problèmesont été développées [41].

Page 59: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 4. Contraintes et représentations de données 51

1−p(

visi

bilit

é)

Fig. 4.7 – Champ de visibilité. La surface se situe à la barre rouge, où la visibilité està 50%.

4.2.3 Champ d’occupation

Un champ d’occupation contient la probabilité qu’une région de l’espace soit occu-pée. En stéréo multivue, la notion d’occupation est très liée à celle de volume visible.Si un point est à l’extérieur de l’objet, alors il est visible et il ne l’est pas s’il est àl’intérieur. Le champ d’occupation associé à la visibilité ressemble donc à la courbe dela figure 4.7 pour une droite ne traversant la surface qu’une fois. Étant donné que cechamp est une probabilité, son domaine est [0, 1]. Il est emmagasiné dans un volumeavec une discrétisation régulière ou arborescente comme l’octree [43].

Distinguer l’intérieur de l’extérieur peut se faire à partir de cartes de profondeurs.Le volume visible par une caméra est nommé Vi, alors que le volume visible par aumoins une caméra est Vvis.

Vi = X ∈ V : ∀Y ∈ S et Pi(Y ) = Pi(X), di(X) ≤ di(Y ) (4.1)

Vvis = X ∈ V : ∃i tel que X ∈ Vi (4.2)

où i ∈ 1, 2, ..., N. Ainsi, si l’objet est vu en entier, Vvis représente l’extérieur de l’objet,alors que V \Vvis représente l’intérieur.

Les problèmes associés à la création d’un champ d’occupation [44] sont du mêmetype que ceux reliés à la création de l’enveloppe visuelle. Il existe un type d’erreur, dansce cas-ci sur la position de la surface, qui n’est pas corrigeable. Si le champ d’occupationest créé à partir d’une carte de profondeurs qui contient une mauvaise profondeur, telque le point calculé est à l’intérieur de l’objet au lieu d’être sur la surface, le champd’occupation indiquera qu’une région de l’objet n’est pas occupée alors qu’elle l’est enréalité. La raison derrière cela est qu’il suffit qu’une seule profondeur suggère qu’unesection du volume soit visible pour qu’elle le devienne.

Afin de tenir compte du problème des points résultant d’un mauvais appariementet du bruit gaussien (imprécision de position) des données, il est pertinent de définir

Page 60: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 4. Contraintes et représentations de données 52

un modèle adéquat de visibilité. Bien qu’il ne résolve pas tous les problèmes, le mo-dèle gaussien contaminé par une distribution uniforme est intéressant [44]. En effet, laprobabilité qu’un point x de l’intervalle de a à b soit occupé est

p(x occupé) =

∫ x

a

αN(d, σ2) + (1 − α)U(a, b)dy (4.3)

où d est la profondeur prévue par la carte de profondeur, N(d, σ2) est une courbenormale centrée en d et d’écart-type σ, U(a, b) est une distribution uniforme du point aau point b. Ces deux fonctions varient en y. Le facteur α ∈ [0, 1] dépend de la confianceen la profondeur d choisie. Avec de légères modifications de ce type du calcul de lavisibilité, le champ d’occupation peut devenir fort utile. Par exemple, lorsqu’utiliséavec certaines méthodes d’optimisation telles les coupes de graphe, ce terme permet deremplacer le terme de gonflement artificiel (balooning term [10]).

4.2.4 Nuage de points

Le nuage de points (Figure 4.8) est une représentation de données qui est générale-ment liée aux cartes de profondeurs. Chaque profondeur est transformée en sa position3D, ce qui génère un nuage de points, mais sans utiliser l’information de connexité.Si les cartes de profondeurs représentent assez bien la surface, la majorité des pointsseront sur la surface. Afin de reconstruire l’objet, il faut trouver la surface qui passeprès du plus grand nombre de points possible, tout en étant raisonnablement lisse. Afinde trouver cette surface, il est de nouveau nécessaire de transformer les données pourmesurer la densité de points.

La transformation la plus directe est le champ de densité de points. Il s’agit d’unvolume (au lieu d’un ensemble) qui emmagasine le nombre de points qui sont à l’intérieurd’un certain voisinage. De tels volumes peuvent être optimisés à l’aide de contours actifs[40, 45, 46] ou de coupes de graphe [47, 1, 48]. Il est aussi possible de transformer lenuage de points en tessellation (voir plus bas).

4.2.5 Maillage de la surface

Un maillage est une discrétisation spatiale d’un milieu continu (la surface). C’estla façon la plus usuelle de représenter une surface, particulièrement lors du rendu. Laquantité de mémoire exigée par rapport à la précision est très bonne. Par contre, le faireévoluer peut être compliqué. Cela demande souvent de fusionner des triangles rendus

Page 61: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 4. Contraintes et représentations de données 53

Fig. 4.8 – Coupe d’un nuage de points

trop petits, ou séparer d’autres qui sont trop grands. Un changement de topologiedoit être traité explicitement en fusionnant des triangles qui ne sont pas reliés [49]. Laméthode d’optimisation utilisée est le plus souvent les contours actifs, lesquels sont trèsdépendants de la forme de départ, autant pour la convergence que pour la facilité àévoluer.

4.2.6 Tessellation volumétrique

La tessellation est au volume ce que le maillage est à la surface. Il s’agit donc d’unereprésentation avec noeuds et arêtes qui divise le volume en une partition de petitsvolumes. Les maillages et les tessellations partagent donc les mêmes avantages (ex :haut niveau de précision par rapport à la mémoire exigée). Par contre, ils ne sontpas utilisés dans les mêmes contextes. Alors que le maillage représente une surface, latessellation permet de représenter un champ avec des niveaux de précision variables.Typiquement, la résolution est plus grande près de la surface (là où la photo-cohérenceest élevée). Cette représentation de données peut emmagasiner aussi bien la densité depoints [47, 33] (provenant de cartes de profondeurs) que des mesures de photo-cohérence[11, 50]. Extraire une surface de ces tessellations se fait habituellement par une méthodede coupe de graphe. Pour cela, il suffit de prendre le dual de la tessellation. Le dual setrouve en remplaçant chaque petit volume par un noeud et en reliant les petits volumesvoisins (devenus des noeuds) par une arête.

Une tessellation permet de représenter de façon compacte plusieurs possibilités desurface. Il est facile d’augmenter la résolution d’une tessellation lorsque le besoin s’en

Page 62: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 4. Contraintes et représentations de données 54

Fig. 4.9 – Maillage d’une enveloppe visuelle.

fait sentir. Bien qu’il soit assez facile de trouver le voisinage d’un noeud, trouver lenoeud le plus près d’un point ne se fait pas en temps constant (par rapport à la taillede la tessellation).

4.2.7 Champ de surfels

Les surfels [51, 22] sont des éléments de surface. Ils contiennent donc une positionet une orientation. Typiquement, un certain rayon est associé à ces derniers afin deconnaître la grandeur de la région représentée. Si l’on suppose que la surface cherchéeest localement plane, il est possible de la représenter complètement, quelle que soitsa topologie, avec un ensemble dense de surfels. L’évolution d’une telle surface peutêtre compliquée à cause de la notion de voisinage (Figure 4.10). Il pourrait s’agir del’ensemble des surfels à l’intérieur d’un certain périmètre. Le problème, c’est que ladensité des surfels peut être variable, car leur rayon peut aussi l’être. Les points voisinspourraient aussi être cherchés par rapport à une distance qui dépend de la normale dusurfel. Dans tous les cas, la recherche est fastidieuse.

Page 63: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 4. Contraintes et représentations de données 55

(b)

(c)

(a)

Fig. 4.10 – Champ de surfels et son voisinage. Le voisinage d’un surfel peut êtreproportionnel à sa taille et orienté en fonction de sa normale. En (a), ce voisinagecomprend effectivement les surfels voisins. En (b), ce voisinage (qui est beaucoup plusgrand à cause de la taille du surfel) comprend un surfel qui n’est pas voisin. Réduire lataille du voisinage comme en (c) ne résout pas le problème, car les voisins ne sont plusinclus.

4.3 Sommaire

Les critères de comparaison évaluent la photo-cohérence, mais encore faut-il savoiroù l’évaluer, à partir de quelles images et selon quelle orientation. Afin de réduire lenombre de possibilités, il faut contraindre le problème. Cela se fait en réduisant lessurfaces admissibles. La façon de contraindre la surface dépend de la confiance enversles hypothèses du tableau 4.1.

Contrainte HypothèsesEnveloppe visuelle Connaissance de l’arrière-planPoints d’intérêt Absence d’ambiguïtéSurface intermédiaire Hypothèses d’appariement + Surface opaque et lisse

Tab. 4.1 – Hypothèses supposées vraies selon le type de contrainte utilisée.

Il est souvent supposé que l’arrière-plan soit connu, l’enveloppe visuelle est doncfréquemment utilisée pour contraindre la surface. Les points d’intérêt et la surfaceintermédiaire utilisent l’appariement pour contraindre la surface. Comme il a été vu auchapitre 2, les erreurs d’appariement sont difficiles à éviter. Par conséquent, la confianceenvers ces contraintes est moins grande. Elles sont malgré tout très utiles, car ellesfournissent beaucoup d’informations (Figure 4.11). Un meilleur choix de caméras decomparaison évite les problèmes de visibilité, possiblement d’ambiguïté et de variationangulaire de l’apparence. Une petite zone de recherche évite plusieurs ambiguïtés et lanormale à la surface aide à gérer la discrétisation de l’apparence.

Page 64: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 4. Contraintes et représentations de données 56

Avant d’utiliser une contrainte, il est intéressant d’évaluer le niveau de confianceenvers la contrainte et la quantité d’information fournie par celle-ci.

Pour bien utiliser les informations provenant de la photo-cohérence, il faut d’abordêtre en mesure de les emmagasiner dans une représentation de données qui permetteà l’algorithme de reconstruction de les traiter aisément. La représentation de donnéesidéale pour la reconstruction 3D devrait pouvoir facilement

– accumuler de nouvelles informations (le problème ne peut pas être traité d’un seulcoup),

– contenir plusieurs possibilités de surfaces (des ambiguïtés sont présentes),– appliquer facilement les hypothèses sur la surface (les ambiguïtés sont résolues

par les hypothèses) et– être transformée en maillage (pour extraire des contraintes).

Malheureusement, aucune représentation de données ne possède toutes ces qualités(Tableau 4.2). Soit il est facile d’accumuler l’information et de représenter plusieurspossibilités de surface (ex : cartes de profondeurs, tessellation, champ de surfels, champd’occupation, nuage de points), soit une surface peut être directement extraite de lareprésentation de données (ex : maillage, champ de distance). Dans le premier cas,les informations peuvent difficilement être utilisées comme contraintes sans qu’une mé-thode d’optimisation choisisse une surface parmi celles possibles. Dans le second cas, lescontraintes peuvent être directement extraites de la représentation de données. Commeil sera vu au chapitre suivant, un algorithme de reconstruction peut utiliser plusieursreprésentations de données, dans le but de profiter des avantages de chacun.

CaractéristiquesReprésentation de données (1) (2) (3) (4) (5)Carte de profondeurs Faible Oui Non Oui MoyenChamp de distance Faible Non Oui Non FacileChamp d’occupation Faible Non Non Oui FacileNuage de points Élevée Oui Non Oui DifficileMaillage Élevée Non Oui Non FacileTessellation Élevée Oui Non Oui FacileChamp de surfels Élevée Possible Non Oui Difficle

Tab. 4.2 – Caractéristiques de représentations de données : (1) Précision versus quantitéde mémoire. (2) Représente l’ambiguïté. (3) Peut représenter une surface complète. (4)Accumule facilement de nouvelles informations. (5) Trouve le voisinage.

Page 65: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 4. Contraintes et représentations de données 57

(3)

(3,1)

(1,2,3)

(1,2,3)

Fig. 4.11 – Information fournie par les contraintes de surface aux critères de compa-raison : (1) choix des caméras de comparaison. (2) normale à la surface. (3) zone derecherche.

Page 66: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 5

Reconstruction globale de la surface :

familles d’algorithmes

Le chapitre 2 a montré qu’il faut utiliser l’appariement, ainsi que bien gérer sesproblèmes, pour trouver localement des régions de la surface. Cela implique d’évalueradéquatement la photo-cohérence. Les différentes possibilités ont été discutées aux cha-pitres 3 et 4. Il est maintenant temps de mettre toutes ces informations ensemble ettraiter le problème de reconstruction globalement.

Les algorithmes existants peuvent être classifiés en trois grandes catégories : soit lasurface est cherchée à l’intérieur de zones de recherche, soit elle est trouvée en faisantcroître les sections de surface déjà reconstruites, soit une surface est modifiée jusqu’à cequ’elle converge vers la surface cherchée. Ces catégories d’algorithmes de reconstructionse distinguent par la manière dont la photo-cohérence est calculée ainsi que par lafaçon d’utiliser cette dernière information pour déterminer si un point est sur la surfaceou pas. La première de ces deux caractéristiques comprend le choix des caméras decomparaison, lequel influence tous les problèmes d’appariement, comme il a été vu auchapitre 2. Par contre, l’évaluation de la photo-cohérence seule ne suffit pas à trouverles points qui sont sur la surface, d’où l’importance de la deuxième caractéristique. Qu’ils’agisse des calculs de photo-cohérence ou de l’extraction de la surface à partir de cesdernières, tous les algorithmes de reconstruction utilisent des hypothèses concernant lasurface à reconstruire.

L’utilisation d’un certain nombre de connaissances a priori aide à trouver la surfacecherchée. En fait, les algorithmes de reconstruction se servent de plusieurs hypothèsespour simplifier le problème de la stéréo multivue. Tel qu’indiqué à la section 2.2.1,le modèle de réflectance de l’objet n’est pas supposé quelconque. L’objet est considéré

Page 67: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 5. Reconstruction globale de la surface : familles d’algorithmes 59

opaque et la proportion de lumière réfléchie de façon diffuse est habituellement supposéeimportante. Des hypothèses sur la forme de l’objet sont aussi utilisées. Elles servent àrestreindre l’ensemble de surfaces admissibles. Par exemple, la surface est bornée parun volume englobant, elle est souvent supposée continue et parfois fermée. De plus,selon la représentation de données (certaines ne permettent pas de changements detopologies), il peut être nécessaire de connaître le nombre d’objets connexes présentsdans les images. Toutes les méthodes qui extraient la silhouette des images supposentun modèle de l’arrière-plan. La surface reconstruite peut être contrainte de respecter lessilhouettes, ce qui correspond à l’hypothèse que le modèle de l’arrière-plan est adéquat.

L’utilisation des hypothèses sur la surface se fait à plusieurs niveaux. Les critèresde comparaison dépendent du modèle de réflectance. La méthode d’optimisation et lefiltrage de mauvais appariements tiennent compte des connaissances sur la forme. Laméthode d’optimisation peut aussi être influencée par les silhouettes ainsi que le nombred’objets cherchés.

Les méthodes d’optimisation sont ce qui permet d’intégrer les connaissances a prioride la surface dans l’algorithme. Elles dépendent fortement du type d’information trouvéepar l’algorithme ainsi que de la façon dont l’information est structurée.

5.1 Approche 1 : Reconstruction utilisant des zones

de recherche

La première grande famille de méthodes de reconstruction comprend les algorithmesqui utilisent la procédure suivante pour trouver la surface cherchée. D’abord, un en-semble de valeurs de photo-cohérence est calculé à l’intérieur d’une zone de recherche(qui peut être un volume ou un intervalle). Aucune surface intermédiaire n’est utiliséepour choisir les caméras de comparaison nécessaires aux calculs de photo-cohérence, àmoins d’utiliser une méthode multi-résolution [52]. Ensuite, la surface est extraite desvaleurs de photo-cohérence par une méthode d’optimisation qui dépend de la représen-tation de données utilisée.

La dimension de la zone de recherche est un paramètre à déterminer. Une grandezone peut faire exploser les temps de calcul. À l’inverse une petite zone risque d’excluredes sections de la surface cherchée.

Les algorithmes de cette famille se divisent en deux catégories, selon qu’ils soient

Page 68: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 5. Reconstruction globale de la surface : familles d’algorithmes 60

basés sur un volume ou qu’ils soient reliés aux cartes de profondeurs.

5.1.1 Algorithmes basés sur un volume

Les méthodes qui sont basées sur un volume [52, 10, 11, 33, 50, 53] se divisent àleur tour en deux classes : celles qui représentent la surface cherchée comme une défor-mation de l’enveloppe visuelle et celles qui remplissent un champ avec des informationspermettant de retrouver la surface.

Déformation de l’enveloppe visuelle

Les algorithmes de cette classe utilisent l’enveloppe visuelle pour estimer la visibilitéet comme approximation de la surface, ce qui suppose que la véritable surface n’est pastrès loin de l’enveloppe visuelle.

Pour les surfaces en relief [52] (relief surface en anglais), la surface S correspondà des déplacements de l’enveloppe visuelle par rapport aux normales de cette dernière(Figure 5.1 (a)), ce qui contraint la surface à avoir la même topologie que l’enveloppevisuelle. Chaque déplacement dépend des valeurs de photo-cohérence. De plus, un termede lissage pénalise les différences de déplacements entre points voisins sur l’enveloppe vi-suelle. La surface peut être trouvée en traitant ce problème comme un champ de Markov(MRF [48]) dont seules les cliques à un ou deux noeuds sont considérées. Par conséquent,les coupes de graphes (voir Annexe) seraient adaptées pour ce genre d’optimisation. Leprincipal problème des surfaces en relief provient des concavités : les normales de l’en-veloppe risquent de se croiser et les points voisins sur l’enveloppe visuelle ne serontplus du tout voisins sur S. De plus, la visibilité estimée ne sera pas adéquate. Afin quede telles situations ne se produisent pas, une approche multi-résolution est utilisée, etle déplacement maximal est borné de façon à ce que les normales ne se croisent pas.L’approche multi-résolution permet aussi d’avoir un meilleur estimé de la visibilité etde diminuer les temps de calculs.

La photo-cohérence peut être emmagasinée dans une bande autour de l’objet au-trement qu’avec les surfaces en relief (Figure 5.1 (b)). Il est possible d’emmagasinerles données dans un graphe [10], lequel sera séparé en deux régions (l’intérieur et l’ex-térieur) par un algorithme de coupe de graphe. Afin d’éviter le biais naturel de cetteméthode pour les surfaces d’aire minimale, la surface finale peut être forcée de res-pecter les silhouettes [11]. Une façon de faire cela est de trouver les segments (rims)

Page 69: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 5. Reconstruction globale de la surface : familles d’algorithmes 61

(a) (b)

Fig. 5.1 – Surface (en orange) représentée par une déformation de l’enveloppe visuelle(en bleu pâle) selon deux représentations de données. (a) Déformation par surface enrelief. (b) Déformation par graphe. La surface est contrainte de respecter la silhouettepour ce dernier cas.

les plus photo-cohérents sur l’enveloppe visuelle qui projettent à la frontière d’une sil-houette (objet segmenté dans une image). Seules les régions entre ces segments ontbesoin d’être creusées. Les différentes façons de creuser l’enveloppe visuelle peuventêtre représentées par des graphes. Le poids de chacune des arêtes est associé à unevaleur de photo-cohérence. Une méthode d’optimisation de coupe de graphe permet detrouver la concavité raisonnablement lisse qui est la plus photo-cohérente.

Volume de recherche

Au lieu de limiter la recherche de la surface à une bande entourant l’enveloppevisuelle, il est possible de considérer tout un volume englobant la surface.

La photo-cohérence peut être emmagasinée aux faces d’une tessellation du volume[33, 50]. La position où évaluer la photo-cohérence ainsi que l’orientation dépendentde la tessellation, laquelle est raffinée en fonction des valeurs calculées. Comme aucunesurface intermédiaire n’est disponible pour fournir un estimé de la visibilité, d’autrestechniques doivent être utilisées. Par exemple, les valeurs de photo-cohérence peuventêtre décomposées en paires de caméras. Seules les paires de caméras les plus photo-cohérentes sont utilisées pour mesurer la photo-cohérence de chaque plan [50]. Utiliserun grand nombre de points d’intérêt photo-cohérents appariés permet aussi d’estimer lavisibilité [33]. Ces façons de chercher une surface à l’intérieur d’un volume sont adaptéesaux situations où la visibilité est compliquée et où la surface a une topologie différentede celle de l’enveloppe visuelle.

Page 70: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 5. Reconstruction globale de la surface : familles d’algorithmes 62

(a)

(b)xi

(c)(d)

(e)

X

(a)

(b)

xi

(c)

(d)

(e)

Fig. 5.2 – Reconstruction par intervalle de recherche. L’intervalle de recherche (envert) est situé sur la droite de rétroprojection du point xi de l’image de référence. Lessegments (a-e) correspondent à la projection de l’intervalle de recherche sur les camérasde comparaison. Ces segments sont de longueurs différentes. La comparaison de ceux-cià l’aide d’un critère de comparaison permet de trouver le point X de l’intervalle qui està la surface de l’objet.

5.1.2 Algorithmes basés images

Chaque algorithme qui est basé sur les images [40, 47, 54, 12, 2, 4] suit la procéduresuivante comme première étape de reconstruction. Pour chaque pixel xi, à l’intérieurde la silhouette de l’objet, et pour chaque image i, dite de référence, la profondeur dupoint X ∈ S, associée à la position du centre d’un pixel xi, doit être trouvée. Le pointX est cherché à l’intérieur d’un intervalle prédéfini de la droite de rétroprojection de xi

(Figure 5.2). Pour ce faire, il faut d’abord déterminer l’ensemble de caméras qui servirapour l’appariement (Section 4.1). Il doit être assez grand, tout en contenant le moinsde caméras ne voyant pas X. De plus, il a avantage à contenir des caméras proches etd’autres éloignées de la caméra de référence. Ensuite, le segment de droite de rechercheest projeté sur l’ensemble d’images servant à l’appariement (Figure 5.2 (a-e)). Le critèrede comparaison préalablement choisi tentera de faire ressortir la position dans chacunedes caméras de comparaison qui correspond au point X ∈ S cherché.

Page 71: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 5. Reconstruction globale de la surface : familles d’algorithmes 63

Caractéristiques L’approche par intervalles de recherche permet de choisir le pointqui a la meilleure photo-cohérence par rapport à la photo-cohérence des autres pointssur l’intervalle de recherche (Figures 3.7, 3.8 et 3.9). Cette décision relative est d’unegrande aide puisque le niveau de photo-cohérence d’un point de la surface peut être trèsdifférent d’une surface à l’autre ou d’une section de la surface à l’autre, selon l’éclairage,le nombre de caméras de comparaison, les propriétés de réflectance et la quantité detexture de la section de l’objet. La recherche de la position d’un point parmi un intervallepermet aussi de combiner plus facilement des informations ayant des niveaux différentsde précision. La précision en profondeur selon une caméra de référence, entre cettedernière et un caméra de comparaison, diffère pour chaque caméra de comparaison(Section 2.2.3, Figure 2.9). De plus, la complexité de l’appariement croît avec l’angleentre ces deux caméras. Toutes ces données peuvent être facilement utilisées lorsque lesvaleurs de photo-cohérence sont exprimées par une somme (possiblement pondérée) decourbes (Figures 3.7, 3.8 et 3.9).

Visibilité Par contre, dans la plupart des cas, la visibilité doit être estimée pour toutun intervalle afin de rendre les valeurs de photo-cohérence comparables [40]. Cela peutcauser un certain nombre de problèmes. Tout d’abord, il y a le cas où l’objet n’estpas vu en entier dans au moins une image (Ωi ∩ Pi(S) 6= Pi(S)). Les caméras pouvantêtre utilisées ne seront pas les mêmes selon la région de l’intervalle de recherche où setrouve le point cherché (Figure 5.3 (a)). Il faut donc choisir entre restreindre la zonede recherche, laquelle ne contiendra possiblement plus le point cherché, ou éliminer descaméras de comparaison qui auraient pu aider l’appariement. L’autre mauvais côté dechoisir les caméras de comparaison pour tout un intervalle est que la probabilité qu’unpoint soit occulté augmente avec sa profondeur (Figure 5.3 (b)). Il existe des algorithmesqui changent leur visibilité le long de l’intervalle de recherche [12]. Pour rendre leursdonnées comparables, il est nécessaire de normaliser les valeurs de photo-cohérences etd’utiliser une mesure de confiance, les deux dépendent du nombre de caméras utilisées.Dans tous les cas, l’utilisation des valeurs de photo-cohérence est complexe et la courberésultante comprend des discontinuités dues à l’ajout et le retrait de caméras dans lecalcul de la photo-cohérence.

Robustesse aux occultations Heureusement, les conséquences d’une mauvaise es-timation de la visibilité sont moins importantes que pour les autres approches. Toutd’abord, le fait de représenter la surface par des cartes de profondeurs permet d’avoirplusieurs estimations de la position d’un même point. Ensuite, puisque c’est le point quia la meilleure photo-cohérence (à l’intérieur d’un intervalle de recherche) qui est choisi,si le critère de comparaison retourne des valeurs suffisamment bornées (comme pour le

Page 72: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 5. Reconstruction globale de la surface : familles d’algorithmes 64

(a) (b)

Fig. 5.3 – Visibilité pour un intervalle. (a) Le choix des caméras de comparaison peutvarier en fonction de l’intervalle de recherche, car les caméras de comparaison doiventêtre les mêmes pour tout l’intervalle choisi. Pour le cas présent, si l’intervalle de re-cherche comprend la zone bleue, la caméra de droite ne pourra être utilisée pour lacomparaison, que le point cherché soit dans l’image ou pas. (b) Le nombre de camérasvoyant un point diminue avec la profondeur de la concavité.

CCN), l’impact d’une mauvaise caméra risque de ne pas trop affecter le choix. Il existedifférentes façons d’évaluer la photo-cohérence de points en fusionnant des courbes decomparaison par rapport à un intervalle de recherche [47, 12]. Leurs objectifs sont dereprésenter la faible fiabilité de caméras éloignées, la confiance des caméras proches ousimplement la robustesse aux mauvaises caméras. Cela peut se faire en donnant un poidsà chacune des paires de caméras, lequel diminue en fonction de l’angle entre les camé-ras comparées. Des fenêtres de Parzen sur les extrema locaux (maximum ou minimum,selon la façon de calculer la photo-cohérence) peuvent aussi être intéressantes.

La façon de fusionner les courbes est souvent dépendante du critère de comparaisonchoisi. Un critère comme la fréquence a avantage à n’accorder de l’importance qu’auxpaires de caméras photo-cohérentes et ce, en chaque point de la courbe. Cela permet delimiter l’impact des caméras occultées. Les courbes peuvent donc être transformées (ex :f(v) = e−σ|v|, où v = M

(

Ii(xi), Ij(xj))

est la mesure de similarité) avant d’être som-mées. La difficulté avec la transformation est de déterminer la décroissance de l’influence(le σ dans l’exemple précédent) d’une valeur provenant d’une paire d’images selon sonniveau de similarité. Pour éliminer certains problèmes de visibilité, il est même possibled’enlever, pour chaque pas de l’intervalle de recherche, la valeur de la paire de camérasayant la moins bonne similarité.

Page 73: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 5. Reconstruction globale de la surface : familles d’algorithmes 65

Afin de diminuer les temps de calcul, lesquels peuvent être importants dû à laredondance des points calculés, il est possible d’utiliser une approche hiérarchique. Laprofondeur est cherchée pour seulement un sous-ensemble des pixels de l’image. Puis,en se basant sur les profondeurs déjà calculées pour restreindre la zone de recherche, laprofondeur est cherchée pour un autre sous-ensemble de pixels, et ainsi de suite [40].

5.1.3 Optimisation à partir de cartes de profondeurs

Étant donné tous les problèmes d’appariement mentionnés au chapitre 2, il se peutqu’un point trouvé (associé à une profondeur) ne fasse pas partie de la surface. Donc,puisqu’un nuage de points bruités n’est pas une surface, une partie d’optimisation suitinévitablement la création des cartes de profondeurs. Afin d’optimiser l’informationcontenue dans ces dernières, les données subissent la plupart du temps une transforma-tion de représentation de données, c’est pourquoi les différentes optimisations possiblessont divisées dans la section qui suit en fonction de la représentation.

Cartes de profondeurs [55, 48, 6, 4, 54]

Il est possible d’optimiser directement les cartes de profondeurs. C’est la représen-tation de données (avec l’ensemble de maillages) qui contient le plus d’information. Lespoints associés à une carte de profondeurs sont au moins vus par cette caméra, ce quidéfinit une zone de l’espace qui exclut l’objet cherché. Il y a une notion de voisinagespatial : deux pixels voisins seront voisins sur la surface aussi, à moins qu’il y ait unediscontinuité de profondeur. Par contre, les cartes de profondeurs ne peuvent pas êtredirectement transformées en un maillage unique de la surface. Par conséquent, l’opti-misation des cartes de profondeurs est plutôt une première optimisation, qui permettrad’améliorer la fusion des cartes de profondeurs, ultérieurement.

Chaque carte de profondeurs peut être optimisée indépendamment des autres. Pourfaire cela, il est possible de se servir de méthodes d’optimisation utilisées par la stéréoà deux vues [6, 48]. L’objectif est d’obtenir une carte de profondeurs dont les profon-deurs varient de façon similaire localement. De façon plus simple, plusieurs méthodesd’optimisation vont minimiser la différence de profondeurs entre pixels voisins, ce quimalheureusement crée un biais vers une surface parallèle au plan image.

Lors de la création des cartes de profondeurs, il se peut qu’il y ait ambiguïté pour laprofondeur à choisir. Dans de telles situations, rien n’empêche de conserver plus d’une

Page 74: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 5. Reconstruction globale de la surface : familles d’algorithmes 66

profondeur pour chaque pixel et de leur associer une valeur de confiance tirée de laphoto-cohérence. La méthode d’optimisation trouvera donc la surface qui maximise laphoto-cohérence tout en étant localement lisse en passant par les points suggérés parla carte de multi-profondeurs [54].

Utiliser plusieurs cartes de profondeurs pour en optimiser une seule permet de filtrerles mauvais points en détectant les incohérences (Figure 5.4). S’il n’y a pas eu d’erreurlors de l’appariement, le point associé à une profondeur doit être vu par la caméra deréférence. Si un point qui devrait être vu occulte ou est occulté par des points provenantd’autres cartes de profondeurs, c’est que l’un ou l’autre de ces points n’appartient pas àla surface (il est le résultat d’un mauvais appariement). Pour détecter les incohérences,il faut projeter les points, provenant de différentes images, sur une même carte de pro-fondeurs de référence. Si tous les points qui sont projetés sur un même pixel s’entendentsur la profondeur de la surface, c’est qu’elle s’y trouve. C’est la situation idéale (Fi-gure 5.4 (c)). Par contre, parfois les points ne sont pas situés à la même position, bienqu’ils puissent être projetés sur un même pixel de l’image de référence. Plusieurs caspeuvent se produire. Si les points sont en arrière de la surface, ce sont probablement despoints vus par d’autres caméras que celle de référence (Figure 5.4 (d)). Par contre, il sepeut que les différentes profondeurs résultent d’erreurs d’appariement. Dans de tellessituations, ces mauvais points risquent de créer des incohérences avec les points sur lasurface (Figure 5.4 (a et b)).

Maillages et champ de distance [12]

Les maillages de la surface provenant des cartes de profondeurs sont assez prochesde l’objectif : une surface triangulée. Par contre, ces maillages contiennent des mauvaispoints, causés par les problèmes d’appariement. La première étape est donc de filtrer leplus de mauvais points possible. Avant de créer le maillage, il est possible de conserverle niveau de photo-cohérence de chacune des profondeurs et d’éliminer les points quiont suffisamment de chance de ne pas faire partie de la surface. Un triangle ayantun côté long est situé à une discontinuité de profondeur. Les discontinuités peuvent seproduire pour les points résultant de mauvais appariements ou encore aux discontinuitésprésentes sur la surface vue. Dans les deux cas, les grands triangles ne représentent pasune partie de la surface. La figure 5.5 est un bon exemple d’une triangulation d’unecarte de profondeurs où les grands triangles ont été enlevés. S’ils avaient été conservés,les triangles relieraient les colonnes ensemble, alors qu’il n’y a pas de surface dans cetterégion.

Ces maillages filtrés doivent maintenant être mis ensemble pour former un seul

Page 75: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 5. Reconstruction globale de la surface : familles d’algorithmes 67

(a) (b)(c)

(d)

IiIj

Fig. 5.4 – Incohérence entre les cartes de profondeurs. Tous les points associés à unecarte de profondeurs qui sont sur la surface sont vus par l’image qui leur est associée.Les incohérences sont présentes pour les groupes de points en (a) et (b). Le point bleuest occulté par le point rouge en (a), alors qu’en (b), le point bleu occulte le point rouge.Le cas idéal est en (c), c’est lorsque plusieurs cartes de profondeurs s’entendent pourdire que la surface est à la même position. En (d), bien qu’il y ait deux profondeursdifférentes pour un même pixel, il n’y a pas incohérence. C’est seulement que le pointrouge est sur une partie de la surface qui n’est pas vue par la caméra de référence(points bleus).

Fig. 5.5 – Une carte de profondeurs ne donne la forme que d’une partie de l’objet.Ici, la carte de profondeurs a été triangulée, en ne conservant que les triangles les pluspetits afin de filtrer les mauvais points et d’enlever les discontinuités.

Page 76: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 5. Reconstruction globale de la surface : familles d’algorithmes 68

maillage de la surface. Directement, ce n’est pas facile. En utilisant une représentationde données intermédiaire, le champ de distance, cela devient beaucoup plus facile [12].Il suffit de fusionner les champs de distance représentant des parties de surface, puisd’extraire le passage par zéro du champ, lequel peut être trouvé à partir d’un algorithmetel le marching cube. Afin de diminuer l’impact d’un mauvais point, il est possibled’utiliser une fonction de distance tronquée [56, 57]. Cette dernière cesse de croître(ou décroître) lorsque la distance est supérieure à un seuil. La surface correspondantle mieux aux cartes de profondeurs peut aussi être extraite de ce champ de distanceen trouvant la surface minimisant la courbure et maximisant la ressemblance avec lesdonnées (cartes de profondeurs), à l’aide d’une méthode itérative. Zach et al. obtiennentd’excellents résultats de cette manière [56].

Volume de densité de points

Si l’on suppose que la plupart des points emmagasinés dans des cartes de profondeurssont situés sur la surface, l’extraction d’une surface à partir de ces points pourrait sefaire en trouvant la surface qui est située là où il y a la plus grande densité de points.La surface cherchée peut être définie comme celle minimisant une fonction d’énergie.Le type d’énergie à minimiser dépend des limitations de la méthode d’optimisationchoisie. Dans ce cas-ci, les contours actifs [40] (snakes) et même les ensembles de niveauxpeuvent minimiser une énergie du type

E(S) = Eρ(S) + Eint(S) + Esil(S). (5.1)

La densité de points est nommée ρ, ensuite la force de cohésion ou la tension de la surfaceest exprimée par Eint(S) alors que Esil(S) force la surface finale à avoir une silhouettesemblable à celle trouvée par la segmentation des images. Eρ(S) est nécessaire pourque la surface passe par l’endroit où il y a le plus de points, Eint(S) force la surface àêtre raisonnablement lisse et Esil(S) permet d’éviter le volume vide comme solution (enplus de faire correspondre les silhouettes). La solution sera trouvée en faisant évoluer lasurface itérativement. Cela implique aussi que la surface de départ est importante afinde converger. Par contre, la force définie par la densité de points peut être facilementétendue afin d’augmenter le rayon de convergence.

Les coupes de graphe (voir Annexe) permettent aussi d’extraire une surface d’unvolume de densité de points. Elles ne permettent pas de résoudre le même type de fonc-tions d’énergie que les méthodes variationnelles, mais elles ont l’avantage de trouver leminimum global de la fonction à minimiser (contrairement aux méthodes variationnellesqui peuvent rester bloquées dans un minimum local).

Page 77: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 5. Reconstruction globale de la surface : familles d’algorithmes 69

Fig. 5.6 – Coupe d’un champ de densité de points. Les couleurs chaudes symbolisentune plus grande densité de points.

Les algorithmes cherchant la coupe minimale de graphe permettent de trouver unesurface lorsque le problème peut se poser de la façon suivante :

E(S) =

∫ ∫

S

ρ(x)dA+

∫ ∫ ∫

Vint

σint(x)dV +

∫ ∫ ∫

Vext

σext(x)dV (5.2)

où Vint et Vext sont le volume à l’intérieur et à l’extérieur de l’objet respectivement etρ(x) est un terme qui dépend de la distance entre les noeuds voisins et de la densité depoints (ou de la photo-cohérence, dans d’autre situations). Le fait de calculer l’intégralesur la surface fait en sorte que s’il y a ambiguïté, la surface minimale est choisie.

Un champ de densité de point ne fournit de l’information qu’à la frontière de l’objet,aucune notion d’intérieur et d’extérieur n’est disponible. En l’absence des termes σint etσext, l’intégrale sur la surface de l’équation 5.2 fait en sorte que la plus petite surface estcelle qui est la plus intéressante, même si ce n’est pas la surface la plus photo-cohérente[44]. Afin que l’ensemble vide ne soit pas la solution trouvée, un terme de gonflementartificiel est ajouté (σext > 0 et σint = 0). Il n’en demeure pas moins que les parties finesde l’objet sont souvent éliminées alors que les concavités sont remplies par le terme degonflement.

Champ d’occupation [2, 44]

Le champ d’occupation, habituellement calculé à partir du champ de visibilité, per-met de définir une mesure d’intérieur et d’extérieur. Trouver la surface la plus cohérente,selon les hypothèses sur l’objet à reconstruire, peut donc se transformer en un problèmede segmentation [2, 44].

Page 78: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 5. Reconstruction globale de la surface : familles d’algorithmes 70

Il est plus facile d’utiliser une méthode de coupe de graphe pour trouver une surfacelorsqu’un champ d’occupation est disponible. Cela permet de définir intelligemment σint

et σext de l’équation 5.2 par la probabilité qu’un point soit à l’intérieur où à l’extérieurde l’objet. Ainsi, aucun terme de gonflement artificiel n’est nécessaire. Les parties fineset les concavités sont donc mieux préservées.

Optimisation convexe Comme il a été mentionné plus haut, il serait hasardeuxd’extraire directement la surface d’un champ d’occupation créé à partir de cartes deprofondeurs : les erreurs d’appariement ne sont pas filtrées complètement. Il est doncimportant d’utiliser une méthode d’optimisation appropriée et la coupe de graphe n’estpas la seule existante.

Utiliser une méthode d’optimisation convexe [2] rend la solution plus stable à ladiscrétisation du volume qu’une méthode de coupe de graphe. L’énergie à minimiser enfonction du champ d’occupation u est :

E(u) =

V

(

ρa−p(x) − ρobj(x))

u(x)dx+ ν

V

ρ(x)|∇uǫ|dx (5.3)

où ρ : V → [0, 1] est la photo-cohérence (0 est le niveau de photo-cohérence maximal etV est un volume englobant l’objet) et ρobj est la probabilité qu’un point soit à l’intérieurde l’objet. La probabilité qu’un point n’appartienne pas à l’objet est ρa−p et peut êtredéduit de ρobj, car ρobj + ρa−p = 1. Le terme ρobj est calculé à partir de la confianceassociée à chaque profondeur calculée.

5.2 Approche 2 : Création d’une surface grossissante

La deuxième catégorie de méthodes de reconstruction regroupe les surfaces gros-sissantes [51, 22]. Ces méthodes sont basées sur la recherche d’un ensemble de petitessurfaces planes (surfels ou patchs en anglais) pouvant représenter la surface. Pour ar-river à cette fin, des surfels seront d’abord cherchés à partir de points d’intérêt sur lasurface, trouvés à partir de l’appariement de points d’intérêt dans les images. En cespoints, il y a un bon niveau de variation spatiale d’apparence (autrement ils n’auraientpas été sélectionnés), ce qui facilite l’appariement. Étant donné qu’ils ont déjà été ap-pariés, seule la normale à la surface est inconnue en ces points. Afin que la surface soitcomplètement représentée par les surfels, les surfels déjà existants servent comme baseà la création de nouveaux surfels dans leur voisinage (Figure 5.7). Pour trouver les pa-ramètres des surfels voisins, il est possible d’utiliser une méthode itérative [21, 22] qui

Page 79: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 5. Reconstruction globale de la surface : familles d’algorithmes 71

(a)(b)

Fig. 5.7 – Connaissant les paramètres du surfel (a), s’il n’y a pas de discontinuité, lesurfel (b) voisin est positionné sur la droite pointillée bleue (si sa position est cherchéele long d’une droite de rétroprojection) et sa normale est comprise entre les directionsen pointillées vertes.

utilise partiellement les paramètres du surfel existant comme paramètres de départ. Lemauvais côté est que si un surfel ne représente pas une partie de la surface S, il risquede propager son erreur aux surfels qui ont été créés à partir de lui. Lorsque les surfels

grossissent, ils créent une surface assez dense pour permettre de calculer la visibilité.

Trouver les paramètres d’un surfel revient à trouver l’homographie, entre le plan (lesurfel) et les images, associée à la meilleure photo-cohérence. Connaître cette relationamène une meilleure estimation de la photo-cohérence (Section 3.2.1), car les fenêtrescomparées représentent la même section de la surface. La façon de trouver cette homo-graphie dépend de la méthode d’optimisation utilisée, laquelle est parfois directementliée au critère de comparaison choisi. Par exemple, dans l’article de Habbecke et Kobbelt[51], l’optimisation du plan est basée sur le critère de SDC. Par contre, dans l’articlede Furukawa et Ponce [22], bien que le critère utilisé soit la CCN, la méthode d’opti-misation pourrait s’adapter à d’autres critères, du moment que la zone de convergencesoit bonne.

Les surfels peuvent changer de taille selon la quantité de texture, ce qui permetde réduire l’ambiguïté dans les zones peu texturées tout en conservant beaucoup dedétails dans les régions qui le sont. La zone de recherche n’a pas à être prédéterminée,la méthode d’optimisation s’en chargera. Il faut néanmoins que les paramètres initiauxde l’homographie soit près de ceux cherchés et que la quantité de texture de la partiede surface soit suffisante. Autrement, il se peut que la méthode itérative cherchant les

Page 80: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 5. Reconstruction globale de la surface : familles d’algorithmes 72

paramètres de l’homographie ne converge pas.

Il faut une bonne structure de données pour gérer les surfels : trouver les surfels

voisins et déterminer que deux surfaces grossissantes se rejoignent n’est pas simple. Parexemple, calculer le voisinage d’un surfel, sachant seulement la position de chacun, estde l’ordre du nombre de données, c’est donc très lourd. Déterminer la visibilité peutaussi être une tâche ardue, du moins avant que la surface soit assez densément rempliede surfels. Un mauvais appariement résultant d’une mauvaise estimation de la visibilitépeut être détectée à partir de la valeur de photo-cohérence [22] ou encore à partir de lavariation des paramètres, particulièrement l’orientation, du surfel créé par rapport auxparamètres initiaux [51].

Optimisation

Une première étape d’optimisation se fait pour les trois inconnues chaque surfel :la profondeur (un inconnue) et l’orientation (deux inconnues) de la surface. Faire unerecherche exhaustive serait donc long. La méthode permettant de trouver le bon planpeut être basée directement sur l’homographie [51] ou optimiser seulement les troisinconnues [22] par une méthode générale comme le gradient conjugué.

Il faut ensuite optimiser les surfels entre eux. Cela peut être fait au cours de leurcréation ou après. Les surfels peuvent être filtrés en fonction des incohérences (Figure5.4) par rapport à la visibilité [51]. La cohérence globale des surfels peut être optimiséeen post-traitement, un peu à la façon d’un nuage de points, mais orienté. Cela peut êtrefait en minimisant une énergie qui contient un terme pour faire évoluer la surface versles données, un autre pour assurer que la surface soit suffisamment lisse et possiblementun terme qui tend la surface à respecter les silhouettes [51].

Il peut aussi être intéressant d’utiliser une méthode directement adaptée aux struc-tures points-normales. Dans l’article de Kazhdan [43], on cherche le champ d’occupationdont le gradient correspond le mieux à l’ensemble points-normales des surfels. Cela per-met à la fois de filtrer les mauvais points tout en trouvant une surface lisse.

Page 81: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 5. Reconstruction globale de la surface : familles d’algorithmes 73

5.3 Approche 3 : Évolution d’une surface

L’approche par surface évolutive regroupe les algorithmes qui utilisent une surfacede départ qui évolue globalement durant la reconstruction. Un des premiers algorithmesqui pourrait venir à l’esprit est le Space Carving [32, 16], lequel détermine pour chaquevoxel (élément de volume) à la frontière du volume s’il est sur la surface de l’objet oupas, selon qu’il est photo-cohérent ou pas. S’il n’est pas photo-cohérent, il est enlevé,ce qui modifie la visibilité et permet d’évaluer d’autres voxels.

Évidemment, cette méthode a ses limites, notamment : comment déterminer defaçon absolue si un voxel est photo-cohérent ou pas ? S’il y a erreur, il n’est pas possiblede revenir en arrière. De plus, la précision de la reconstruction dépend de la taille desvoxels, ce qui demande beaucoup de mémoire. Malgré tous ces inconvénients, le principedu Space Carving est intéressant à cause de la façon dont il gère la visibilité. Si l’onsuppose qu’aucun voxel appartenant à la surface n’ait été enlevé, la visibilité d’un voxelcalculée à partir de la forme courante ne contiendra jamais de caméra ne voyant pas cevoxel [32]. C’est un avantage important par rapport aux deux approches vues plus haut.Afin de bénéficier de cette caractéristique, d’autres algorithmes utilisant cette approcheont vu le jour et tentent de contourner les limitations du Space Carving.

Au lieu d’utiliser directement la valeur de photo-cohérence pour savoir si un pointest sur la surface ou pas, le gradient de la photo-cohérence pourrait être utilisé. Ainsi, ilserait possible de savoir si le fait de creuser la surface augmenterait la photo-cohérenceet dans quelle direction. Le principal défi de cette approche est la convergence d’une telleméthode. En utilisant le gradient de l’image, il est possible de savoir dans quelle directionévoluer pour augmenter la photo-cohérence, mais seulement pour les pixels proches despixels cherchés. Plus loin, le gradient ne contiendra aucune information pertinente,car la zone de convergence est située très près de la surface. Cela s’explique par lefait qu’il y a une corrélation importante entre les pixels voisins, mais cette corrélationdécroît rapidement avec la distance qui les sépare. Une surface qui évolue à l’aide d’uneméthode de gradient de descente peut aussi rester prise dans des minima locaux. Pouréviter cette situation, il est avantageux d’utiliser une approche multi-résolution [3]. Onpeut tout de même se demander si certaines surfaces ne seraient pas problématiques,tels les objets en forme de U. C’est une forme qui a été montrée problématique dans[45], mais dans un contexte autre que la stéréo. Leur façon de résoudre le problème,étendre artificiellement le champ vectoriel, ne s’applique pas directement à la stéréo.La convergence de telles méthodes reste donc à démontrer. Malgré tout, sur des bancsd’essai [5], la convergence ne semble pas être un problème.

Page 82: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 5. Reconstruction globale de la surface : familles d’algorithmes 74

Fig. 5.8 – Évolution d’une surface jusqu’à convergence. Les ensembles de niveaux per-mettent des changements importants de topologies. Image tirée de [58].

Malgré les inquiétudes sur la convergence des méthodes d’évolution de surface pargradient de descente, ces algorithmes sont utilisés, car ils ont d’autres propriétés inté-ressantes. À chaque itération de l’algorithme, une surface intermédiaire est disponible.Comme il a été vu au chapitre 4, cela permet de mieux évaluer la photo-cohérence, carla visibilité et l’orientation locale de la surface sont mieux estimées. De plus, commeavec l’approche par surface grossissante, il n’est pas nécessaire de prédéterminer unezone de recherche, ce qui fait un paramètre de moins à initialiser.

5.3.1 Minimisation de l’erreur de reprojection

Si la surface S et l’apparence qui lui est associée sont connues, alors il est possiblede générer un ensemble d’images idéales

I∗i : I ∈ 1, 2..., N

qui devraient être trèssemblables aux images capturées : Ii = I∗i + ǫ, où ǫ est l’erreur provenant du bruit.L’objectif est de trouver la surface et son apparence qui maximisent la vraisemblanceselon ce qui est connu de l’apparence :

i

xi

L(

Ii(xi)|Ii(xi)∗)

, (5.4)

où L représente la vraisemblance. Si le bruit est gaussien, cela revient à minimiser

i

xi

(Ii(xi) − Ii(xi)∗)2. (5.5)

Ce qui est difficile avec cette approche, c’est d’estimer le modèle de réflectance. Le plussouvent, pour faciliter les calculs, il est considéré lambertien [7], I∗i (Pi(X)) = C(X),où C : S → R

c est la couleur (constante par rapport à l’angle d’observation) au pointX. Étant donné que le modèle lambertien est peu représentatif de la majorité desobjets, une composante corrective (à optimiser, elle aussi) associée aux images peutêtre ajoutée [59]. Celle-ci est supposée lisse par rapport aux images (spatialement etnon pas angulairement comme avec le critère de fréquence). Puisque l’objet n’occupepas toute l’image, il est important d’avoir également un modèle de l’arrière-plan. Ainsi,

Page 83: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 5. Reconstruction globale de la surface : familles d’algorithmes 75

la surface et les silhouettes sont optimisées simultanément, ce qui permet de corriger lespossibles erreurs sur l’enveloppe visuelle [42]. La surface intermédiaire permet d’estimerla visibilité, laquelle est considérée lors de l’évolution de la surface.

Optimisation

La manière de trouver le minimum de l’erreur de reprojection varie en fonction dela représentation de données choisie. Pour l’instant, le gradient de reprojection [7] a étéadapté pour les ensembles de niveaux [42] et les maillages [59]. Celui-ci a l’avantage deplacer précisément les contours d’occultation (frontières sur l’objet qui correspondent àune transition de visibilité pour une caméra), ce qui facilite grandement la reconstruc-tion d’objets peu ou pas texturés. Pour les cartes de profondeurs, seule une estimationd’un MAP (maximum a posteriori) bayésien est trouvée pour reconstruire l’objet [60],lequel a plus de difficultés avec les contours d’occultation. Afin d’obtenir une surface deforme raisonnable, un terme de lissage est utilisé pour l’optimisation. Il est égalementsupposé que les couleurs de l’arrière-plan varient lentement dans chaque image.

5.3.2 Minimisation de l’erreur de dissimilarité

L’idée derrière la minimisation de l’erreur de dissimilarité est de faire évoluer lasurface actuelle St de telle sorte que Ii

(

Pi(Sti ∩ S

tj)

)

≈ Ij(

Pj(Sti ∩ S

tj)

)

pour toute pairede caméras (ou pour un ensemble de paires de caméras qui tient compte du voisinage).L’évolution de la surface se fait en trouvant la dérivée de l’erreur de dissimilarité enfonction du critère de comparaison choisi, ce qui permet de déterminer dans quellesdirections et avec quelles forces il faut bouger la surface. La dérivée de quelques critèresde comparaison a été explicitée [3, 20, 61]. Ces articles expliquent également commentfaire le passage entre le domaine des images et la surface, pour le calcul de dissimilarité,afin de faire évoluer la surface.

La surface qui minimise l’erreur de dissimilarité satisfait à la fonction objectif sui-vante

M =N

i=1

i6=j

MΩi∩Pi(Sj)(Ii, Ij Pj P−1i,S ), (5.6)

si le critère de comparaison M est appliqué sur toutes les paires de caméras. Pourle critère de fréquence, seules les paires de caméras voisines seraient comparées. Pour

Page 84: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 5. Reconstruction globale de la surface : familles d’algorithmes 76

chaque paire de caméras i et j, cette fonction compare la section de la surface qui estvisible dans Ii et Ij.

La surface de départ la plus souvent utilisée pour démarrer l’algorithme de recons-truction est l’enveloppe visuelle ou une très petite surface englobante, car les algorithmesminimisant l’erreur de dissimilarité sont très sensibles à l’initialisation. Plus la surfacede départ est proche de celle cherchée, plus il y a de chance que l’algorithme converge,c’est pourquoi l’enveloppe visuelle est un choix de prédilection.

Optimisation

L’optimisation se fait à chaque itération de la surface. Le passage de St à St+1 estréglé par deux termes : celui qui minimise l’erreur de dissimilarité (M) et celui qui forcela surface à avoir une forme raisonnable et qui dépend habituellement de la courbure (Hdans l’équation 5.7). Le gradient de descente dépend du critère de comparaison choisi.Contrairement aux méthodes de minimisation de l’erreur de reprojection, le gradientde descente ne tient pas compte du changement de visibilité résultant de l’évolution dela surface.

En dérivant la fonction objectif par rapport à un déplacement infinitésimal, il estpossible de trouver dans quelle direction faire évoluer la surface pour minimiser lafonction objectif. Pour la fonction objectif de l’équation 5.6, cela correspond à faireévoluer la surface de la façon suivante :

∂S

∂t=

[

−λH +N

i=1

i6=j

δSj∩Sj∂2MDIjDPj

di

z3i

]

N (5.7)

où δ est le delta de Kronecker, di est le vecteur reliant Pi au point considéré, N est lanormale, D∗ est la matrice jacobienne associée à la fonction ∗ et zi est la profondeurdu point par rapport à la caméra i.

Les méthodes qui cherchent à minimiser l’erreur de dissimilarité utilisent le plussouvent les champs de distance [20, 3] pour faire évoluer la surface. Il est aussi possiblede minimiser le terme d’énergie avec une surface triangulée [49] à l’aide de contoursactifs à condition de pouvoir bien gérer la fusion et la redimension des triangles lors del’évolution de la surface.

Page 85: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 5. Reconstruction globale de la surface : familles d’algorithmes 77

5.4 Sommaire

Les méthodes utilisant des zones de recherche évitent plusieurs ambiguïtés, soit dûau peu de texture de l’objet ou aux variations d’apparence angulaire, en choisissant lepoint le plus photo-cohérent à l’intérieur d’un intervalle. Puisque l’information acquisen’est pas immédiatement utilisable, dû à la représentation de données, l’estimation dela visibilité ne s’améliore pas avec la progression de l’algorithme. C’est pourquoi cesméthodes sont intéressantes lorsqu’utilisées avec une approche multi-résolution ou avecune variation de l’estimation de l’apparence (pour les cartes de profondeurs).

Les algorithmes qui font grossir une surface jusqu’à ce qu’elle soit complète ont uneconfiance élevée envers les éléments de surface trouvés, puisqu’ils l’ont été en faisantvarier à la fois la position et l’orientation des surfels. Par contre, cela suppose que lasurface est localement plane et que la visibilité ait bien été estimée. Cela n’est pas dutout certain, surtout au début de la reconstruction pour la visibilité, lorsque peu desurfels ont été trouvés.

Les méthodes qui font évoluer une surface sont celles qui ont la meilleure estimationde la visibilité, ce qui permet d’utiliser un grand nombre de caméras de comparaison,éliminant ainsi certaines ambiguïtés. De plus, si la surface intermédiaire converge versla surface cherchée, la distorsion des fenêtres comparées a de fortes chances de diminuerà chaque pas de temps. Malheureusement, la convergence de telles méthodes, selon lagéométrie, reste à démontrer.

Ce qu’il faut retenir, c’est que pour les deux dernières approches, les premièresitérations sont les plus difficiles. Pour les surfaces grossissantes, il n’est pas facile decalculer la visibilité ni de filtrer les mauvaises homographies lorsque peu de surfels ontété trouvés. Pour les surfaces évolutives, comme la zone de convergence est proche de lasurface, plusieurs parties de la surface intermédiaire ne bénéficient pas du gradient de laphoto-cohérence. Par contre, plus la surface intermédiaire s’approche de celle cherchée,plus il est facile de mesurer correctement la photo-cohérence et ainsi reconstruire lesdétails de la surface.

Pour les approches par zones de recherche, il n’y a pas une telle courbe de difficulté,à moins d’utiliser une approche multi-résolution, car aucune surface intermédiaire n’estutilisée. Le succès de la reconstruction dépend grandement de l’estimation de la visi-bilité, laquelle peut varier au cours de l’algorithme, mais sans que la confiance en lavisibilité ne s’améliore.

Page 86: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 5. Reconstruction globale de la surface : familles d’algorithmes 78

Par conséquent, si les deux dernières approches réussissent à créer une surface quiest suffisamment près de celle cherchée, elles risquent d’avoir l’avantage sur la premièreapproche. Encore faut-il que la forme de l’objet soit suffisamment compliquée pour quela visibilité cause un réel problème aux méthodes utilisant des zones de recherche.

Page 87: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 6

Résultats d’implantation de méthodes

Jusqu’à maintenant, il a été expliqué pourquoi et comment fonctionnent les mé-thodes de reconstruction 3D par stéréo multivue. Pour compléter l’évaluation de cesméthodes, il faut évaluer leur efficacité sur des ensembles de données. Bien que chaquepublication contient de tels résultats, les objets reconstruits sont souvent différents d’unepublication à l’autre et l’évaluation n’est souvent que qualitative, seul l’aspect visueldes objets reconstruits étant disponible. Par conséquent, les résultats des publicationsne sont pas suffisants pour comparer l’efficacité des algorithmes de reconstruction entreeux.

6.1 Middlebury

Les algorithmes de reconstruction 3D doivent pouvoir être testés sur un même en-semble de données pour pouvoir être comparés. De plus, afin d’évaluer quantitativementles résultats, un modèle de référence de l’objet à reconstruire doit être disponible. Voilàexactement ce que fournit le banc d’essai standardisé de Middlebury [5] (http ://vi-sion.middlebury.edu/mview/).

Middlebury met à disposition des ensembles de données de qualité dans le but d’éva-luer les algorithmes de reconstruction en stéréo multivue (entre autres). Ces donnéessont accessibles à tous.

Deux objets à reconstruire, le Temple et le Dino (Figure 6.1), sont à l’origine de sixensembles de données disponibles. Les deux objets sont en plâtre donc les propriétés de

Page 88: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 6. Résultats d’implantation de méthodes 80

Fig. 6.1 – Ligne du haut : images du Temple. Ligne du bas : images du Dino.

réflectance devraient être semblables (bien qu’inconnues). Le Temple contient beaucoupde détails et raisonnablement de texture, ce qui facilite l’appariement. Par contre, ilcontient des concavités assez importantes. Le Dino n’est pas texturé ; par conséquentl’appariement dépend entièrement de la texture créée par les ombrages. Il contient moinsde grandes concavités que le Temple.

Trois ensembles de données contiennent l’apparence du Temple. L’un d’eux a 312images positionnées sur un hémisphère englobant l’objet et les deux autres ont 47 et16 images distribuées sur un anneau (Figure 6.2). Pour le Dino, il y a 363 imagessur l’hémisphère pour un des ensembles de données, alors que 48 et 16 images sontpositionnées sur un anneau pour les deux ensembles de données restants. Toutes lesimages ont une résolution de 640x480 pixels.

Ces ensembles de données ont été acquis à partir du Stanford Spherical Gantry. Lesimages contenant des ombres créées par l’acquisition ont été enlevées. Par conséquent,

Page 89: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 6. Résultats d’implantation de méthodes 81

Fig. 6.2 – Différentes vues des positions des caméras pour les trois ensembles de don-nées (rouge, bleu et vert) pour le Temple. Seul l’ensemble de 312 images est sur unhémisphère. Les deux autres (47 et 16 images) sont sur un anneau. Ici, le ratio hauteur-largeur des images déforme l’hémisphère.

Page 90: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 6. Résultats d’implantation de méthodes 82

les images ne sont pas uniformément distribuées sur l’hémisphère ou l’anneau. La dis-torsion a été enlevée des images et les caméras ont été calibrées (donc Ri, Ti et Ki

sont fournies avec les images). La précision de la calibration est de l’ordre du pixel.Afin d’avoir une bonne résolution spatiale de l’apparence (les objets remplissent bienles images), l’objet est placé proche de la caméra, ce qui a comme effet que certainesparties de l’objet ne sont pas directement au focus. L’acquisition a été faite dans unenvironnement contrôlé, ce qui permet d’extraire les silhouettes plus facilement.

Afin d’évaluer quantitativement les résultats des algorithmes de reconstruction, ilfaut connaître la forme de l’objet à reconstruire. La géométrie du Temple et du Dino aété capturée par un scanner laser Cyberware Model 15. Les données ont été fusionnéesà l’aide de VRIP [57]. La précision de ces surfaces de référence est de l’ordre du quartde millimètre. Les dimensions du Temple et du Dino sont de l’ordre de dix centimètres.

Pour soumettre une reconstruction dans le but qu’elle soit évaluée, il faut trans-mettre une triangulation de la surface dans un format .ply et joindre les temps decalculs, le type et la vitesse du processeur.

Évaluation quantitative L’évaluation d’une surface reconstruite se fait par rapportà deux éléments : la précision et la complétude (Figure 6.3). La précision évalue ladistance du modèle reconstruit par rapport à celui de référence. Étant donné qu’il estplus facile d’apparier certaines régions de la surface que d’autres, il faut aussi quantifierla proportion de la surface qui a été reconstruite. Il est facile de deviner comment laprécision est calculée. La distance minimale entre chaque noeud de la surface à évaluer etla surface de référence est calculée (Figure 6.3 (b)). Puisque certaines régions de l’objetsont plus facilement appariables que d’autre, il serait insuffisant de ne considérer que laprécision. Une bonne reconstruction doit aussi représenter complètement l’objet (il nedevrait pas y avoir de trous là où l’objet est visible). Par conséquent, chaque noeud dela surface de référence devrait être proche de la surface à évaluer (Figure 6.3 (c)). Lacomplétude (respectivement précision) peut dont être évaluée en fonction de plusieursvaleur de précision (respectivement complétude).

Lorsque l’objet reconstruit est évalué, les résultats sont inclus dans un tableau com-paratif des différentes implantations d’algorithmes. Deux rendus visuels sont aussi inclusavec les résultats. C’est très intéressant puisque cela permet de voir quelles régions del’objet ont causé problème et émettre des hypothèses sur la(les) cause(s).

Page 91: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 6. Résultats d’implantation de méthodes 83

(a) (b) (c)

Fig. 6.3 – Évaluation de la précision et de la complétude. (a) La surface de référenceest en vert alors que la surface évaluée est en bleu. L’une autant que l’autre peut êtreincomplète. (b) Évaluation de la précision : fonction de la distance minimale entreles noeuds de la surface à évaluer et la surface de référence. Les trous de la surfacede référence sont bouchés, mais ces distances (en rouge) ne sont pas considérées. (c)Évaluation de la complétude : fonction de la distance minimale entre les noeuds de lasurface de référence et la surface à évaluer.

6.1.1 Analyse des résultats de Middlebury

Les résultats provenant du banc d’essai de Middlebury ne permettent pas d’assurerla supériorité d’une approche de reconstruction sur les autres. Les meilleurs résultats (enterme de précision et de complétude, Figure 6.3) proviennent aussi bien de l’approchepar zones de recherche [56, 47, 40, 54, 2, 12] que des surfaces grossissantes [22, 51] ouque des surfaces évolutives [20, 49].

Les temps de calculs, pour des méthodes ayant les meilleurs résultats de précision etde complétude, varient de six minutes [56] à plus d’une demi-journée [2] et utilisent leplus souvent autour d’une heure de calcul. Ces différences peuvent provenir de la com-plexité algorithmique, mais aussi de l’implantation. L’utilisation de la carte graphique[56, 20] accélère grandement la rapidité de la reconstruction. Les autres méthodes ontutilisé un processeur à quatre coeurs (sauf pour [49] et [51] où le processeur contenaitrespectivement deux et un coeur). Le code d’implantation n’est pas toujours bien opti-misé : un algorithme implanté à partir d’un langage interprété ne sera pas aussi rapidequ’avec du code compilé.

Les meilleurs résultats de Middlebury (Figure 6.4 et Tableau 6.1) permettent toutde même d’émettre certains constats. D’abord, le choix d’un seuil de photo-cohérencepar Goesele [12] a comme impact de créer un grand nombre de trous dans la surface. Par

Page 92: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 6. Résultats d’implantation de méthodes 84

Furukawa 2 [22] Goesele [12] Hernandez [40] Pons [20] Zach [56]

Fig. 6.4 – Images de résultats de Middlebury. Première ligne : Temple 47 images.Deuxième ligne : Dino 48 images.

contre, là où la surface est reconstruite, le niveau de détail est impressionnant. Il fautdire que la méthode d’optimisation utilisée par Goesele [57] ne filtre pas les mauvaisappariements, c’est pourquoi les points les moins photo-cohérents ont été éliminés.Ensuite, la meilleure reconstruction du Dino provient de Furukawa [22], possiblementà cause de l’adaptation de la taille du surfel à la quantité de texture. Cela permetà cet algorithme de reconstruire correctement la surface là où il y a peu de texture(épaules du Dino) et là où la courbure est plus importante (oreilles du Dino). Par contre,pour les objets avec beaucoup de détails, il semblerait que les méthodes utilisant dessurfels soient légèrement défavorisées (faibles rainures sur le Temple). Cela pourraitêtre dû à la taille minimale des fenêtres de comparaison, laquelle doit être assez grandepour permettre de trouver les paramètres d’une homographie. Finalement, les méthodescherchant des cartes de profondeurs ont eu plus de difficultés avec les surfaces peutexturées du Dino. L’utilisation d’un seuil échoue tout simplement avec ce type d’objet[12].

Malgré les limitations provenant de l’absence de surface intermédiaire utilisée lors ducalcul des mesures de photo-cohérence, les algorithmes utilisant des zones de recherche(Goesele [12], Hernandez [40], Zach [56]) obtiennent de très bons résultats. Cela s’ex-plique en partie par le fait que la visibilité de la surface n’était pas très différente decelle de l’enveloppe visuelle. Il serait pertinent d’évaluer ces mêmes algorithmes sur desobjets ayant une visibilité plus complexe. On peut aussi s’imaginer que les algorithmesont été paramétrés avec soin en fonction de l’ensemble de données.

Page 93: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 6. Résultats d’implantation de méthodes 85

Auteur Objet Précision (mm) Complétude (%) Temps de calcul

Furukawa 2 [22]Temple 0.55 99.1 6 :02 :40Dino 0.33 99.6 9 :04 :00

Goesele [12]Temple 0.46 57.8 34 :00 :00Dino 0.84 0.71 41 :56 :00

Hernandez [40]Temple 0.52 99.5 2 :00 :00Dino 0.45 97.9 2 :06 :00

Pons [20]Temple 0.60 99.5 0 :31 :00Dino 0.55 99.0 0 :13 :00

Zach [56]Temple 0.58 99.0 0 :06 :48Dino 0.67 98.0 0 :06 :48

Tab. 6.1 – Tableau comparatif des algorithmes les plus performants de Middlebury.Résultats pour le Temple 47 images et le Dino 48 images. Les temps de calcul sontentre HH :MM :SS. Précision : 90% des points sont à l’intérieur de la précision indiquée.Complétude : le pourcentage indiqué des points sont à moins de 1.25 mm de la référence.

D’ailleurs, il serait intéressant de connaître l’impact des paramètres sur la qualitédes résultats. Le choix des caméras de comparaison, à lui seul, influence la résolutionde tous les problèmes d’appariement. Le critère de comparaison, la taille des fenêtrescomparées et l’importance relative de la courbure par rapport à la photo-cohérencesont d’autres paramètres qui influencent significativement la qualité des résultats. Tousces paramètres rendent l’évaluation des résultats complexe. Évidemment, une bonneméthode de reconstruction devrait pouvoir s’adapter d’elle-même aux différentes situa-tions.

Par conséquent, pour mieux voir les limitations de chacune des approches, il faudraittester ces algorithmes sur des ensembles de données différents et plus complexes sansmodifier les paramètres. Afin de mieux comprendre les limitations, chaque ensemble dedonnées ne devrait tester qu’une seule caractéristique. Par exemple, un objet aurait unevisibilité complexe alors qu’un autre aurait des propriétés de réflectance moins diffuses.Un autre objet pourrait avoir beaucoup de détails (donc une courbure plus importante)et, à l’inverse, un autre ne pourrait reposer que sporadiquement sur l’appariement pourtrouver la forme de l’objet (les silhouettes seraient alors essentielles).

Cela permettrait de distinguer les véritables forces et faiblesses des différentes ap-proches, les résultats de Middlebury ne permettent pas de tirer de telles informations.Évidemment, il faudrait la collaboration de nombreux chercheurs pour arriver à unetelle évaluation des approches de reconstruction, car l’implantation de chacune de cesméthodes est complexe à cause de nombre de détails importants, propres à chaque

Page 94: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 6. Résultats d’implantation de méthodes 86

méthode.

6.2 Méthode de reconstruction implantée

Approche de reconstruction choisie De toutes les approches de reconstructionprésentées dans le chapitre 5, j’ai choisi la première pour reconstruire le Temple et leDino. Plus précisément, j’ai choisi de reconstruire les surfaces en trouvant des cartesde profondeurs à partir d’intervalles de recherche. La profondeur a été cherchée pour lequart des pixels à l’intérieur des silhouettes, horizontalement et verticalement. Pour cefaire, un intervalle de recherche de longueur égale pour chaque pixel, mais positionnéen fonction de l’enveloppe visuelle, a dû être sélectionné. Compte tenu des erreurspossibles lors de la création des silhouettes, l’enveloppe visuelle n’a pas été utilisée pourle calcul de la visibilité. Les caméras servant pour l’appariement sont les mêmes pourtous les pixels d’une même image, car il s’agit des cinq caméras les plus proches de lacaméra de référence. Cette estimation de la visibilité est approximative, ce qui nuit auxcritères de comparaison peu robustes à une mauvaise estimation de la visibilité. Afinde ne pas pénaliser inutilement de tels critères de comparaison, à chaque profondeurde l’intervalle, la valeur de la paire de caméras la moins photo-cohérente a été éliminéedu calcul de photo-cohérence. Suffisamment de valeurs de paires de caméras doiventêtre conservées pour aider à résoudre les défis d’ambiguïté, de variation angulaire et dediscrétisation de l’apparence, tout en minimisant l’impact d’une mauvaise estimationde la visibilité. Les critères qui ont été testés sont la corrélation croisée normalisée etla fréquence.

Méthode d’optimisation choisie Plusieurs méthodes d’optimisation pour l’inté-gration de cartes de profondeurs auraient pu être utilisées (Section 5.1.3). Celle retenuevient de Hoppe [43], elle trouve une surface fermée à partir d’un ensemble de points-normales. Cet ensemble est transformé en champ vectoriel V nul là où aucune donnéen’est présente. L’idée est de trouver la fonction caractéristique χ (valant un à l’inté-rieur de l’objet et zéro à l’extérieur) adoucie (en la convoluant par une fonction de typegaussienne) dont la dérivée soit la plus semblable au champ vectoriel :

minχ

‖V −∇χ‖. (6.1)

Pour trouver la solution qui minimise l’erreur au carré, il suffit de résoudre le pro-blème de Poisson en dérivant l’équation précédente (Équation 6.1). La surface cherchée

Page 95: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 6. Résultats d’implantation de méthodes 87

correspond donc à une isosurface de la fonction caractéristique χ qui minimise

o∈O

‖ < ∆χ−∇ • V, Fo > ‖2 (6.2)

où Fo : o ∈ O est un ensemble de fonctions de type gaussienne sur lesquelles ∆χ−∇•V

est projeté (<,> est un produit scalaire de fonctions). Les Fo filtrent le champ vectorielet la fonction caractéristique, ce qui permet de borner ∇χ et de trouver une solutionlisse.

Transformation de représentation de données La méthode d’optimisation deHoppe [43] nécessite un ensemble de points-normales. À partir d’une carte de profon-deurs, des points 3D peuvent être directement extraits, mais pas des normales. Pourtrouver ces dernières, les positions des pixels de chaque carte de profondeurs sont tri-angulées, ce qui génère des parties de surface triangulée, desquelles sont extraites lesnormales à la surface. Pour que l’ensemble points-normales soit le moins bruité possible,les triangles ayant des arêtes plus longues que 0.005 mètres on été éliminés (le Templeet le Dino ont des dimensions qui approchent 0.1 mètre)

Intérêts de trouver des cartes de profondeurs

Le fait de chercher des cartes de profondeurs permet de décortiquer presque com-plètement les différentes parties du problème de la reconstruction 3D, ce qui a commeavantage de faciliter l’analyse des problèmes d’appariement.

Visibilité Il faut au minimum deux caméras pour évaluer la photo-cohérence. Lescritères de comparaison comparant des textures peuvent souvent être décomposés enpaires de caméras (IM, CCN, fréquence). Par conséquent, l’évaluation de la photo-cohérence le long d’un intervalle peut être fait pour chaque paire de caméras séparément,ce qui résulte en autant de courbes que de paires de caméras. Si l’une des caméras estoccultée, elle n’agira pas de la même façon que les autres à la profondeur où se situe lasurface (Figure 3.8). L’utilisation d’intervalles de recherche permet donc de voir l’impactde caméras occultées sur le calcul de la photo-cohérence et même de traiter la visibilitéà partir des courbes de photo-cohérence.

Ambiguïté Il est facile de voir l’ambiguïté à partir des courbes de photo-cohérence.Une courbe sans ambiguïté comprend un extremum global dominant et pointu. Lorsqu’il

Page 96: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 6. Résultats d’implantation de méthodes 88

0 0.005 0.01 0.015 0.02 0.025−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

0 0.005 0.01 0.015 0.02 0.025−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

(a) (b)

CC

N

z z

Fig. 6.5 – Caractéristiques des courbes de photo-cohérence pour un intervalle de re-cherche. Le critère est la corrélation croisée normalisée. Ambiguïté : le maximum globalest situé sur un plateau dans (a) alors qu’il est pointu dans (b). Il y a donc plus d’ambi-guïté dans (a) que dans (b). Niveau de photo-cohérence : le maximum global de (a) a unmeilleur niveau de photo-cohérence que (b), même si dans les deux cas, le point trouvéest sur la surface. Discrétisation de l’apparence : Les différentes courbes, représentantchacune une paire de caméras, n’ont pas la même discrétisation, car elles n’ont pas lamême précision en profondeur. Par exemple, la courbe bleue foncée a une plus grandeprécision que celle en rouge. En interpolant ces courbes, il est facile de les fusionner (ex :sommer pour la CCN) pour trouver la photo-cohérence à partir de toutes les camérasde comparaison.

Page 97: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 6. Résultats d’implantation de méthodes 89

y a ambiguïté, soit la courbe contient plusieurs extrema, soit l’extremum global est dansune zone plate (Figure 6.5 (a)).

Discrétisation spatiale de l’apparence L’utilisation de cartes de profondeur per-met d’avoir le meilleur échantillonnage spatial possible de la profondeur de l’objet, carla représentation de données est directement liée à l’échantillonnage de l’apparence.

Variation angulaire de l’apparence L’utilisation de courbes de photo-cohérence,pour trouver la profondeur correspondant à un point de la surface, permet d’évaluerla photo-cohérence de façon relative. Comme le modèle de réflectance n’est pas connu(il est seulement supposé), il est hasardeux de décréter un seuil de photo-cohérenceacceptable. Les courbes de photo-cohérence permettent de simplifier le problème : laprofondeur la plus photo-cohérente de l’intervalle est choisie.

Hypothèses Les hypothèses sur la surface sont un autre aspect de la méthode dereconstruction que j’ai choisie qui peut être analysé séparément, car elles sont utiliséesdans des parties différentes de l’algorithme. Le fait de séparer les hypothèses supposequ’elles ont une hiérarchie, alors qu’il serait plus intéressant de les optimiser toutes àla fois. Par contre, cela facilite l’étude de leurs impacts.

Les silhouettes servent d’abord à différencier un pixel de l’objet d’un pixel del’arrière-plan. Ainsi, seuls les pixels appartenant à une silhouette doivent être associés àune profondeur. Les silhouettes peuvent aussi être utilisées pour restreindre l’intervallede recherche et pour estimer la visibilité (lorsque fusionnées en une enveloppe visuelle),mais il est possible de s’en passer. La cohérence du modèle de réflectance supposépar rapport à ce qui est observé est évaluée par les critères de comparaison. Le meilleurappariement (correspondant à une profondeur) n’est choisi que par rapport aux valeursde photo-cohérence. L’hypothèse de courbure est utilisée en partie lors de l’évaluationde la photo-cohérence de textures (la surface est considérée localement plane), maissurtout lors de l’optimisation des cartes de profondeurs. Le fait de chercher des cartesde profondeurs permet de reconstruire le (ou les) objet(s) présents sans connaître lenombre d’objets a priori. Il suffit de s’assurer que la méthode d’optimisation soitaussi flexible, ce qui est le cas avec la méthode de Hoppe.

Page 98: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 6. Résultats d’implantation de méthodes 90

Mes résultats

J’ai reconstruit le Temple et le Dino avec le critère de fréquence et de corrélationcroisée normalisée. Les figures 6.6 et 6.7 contiennent des images de ces objets recons-truits. La précision et la complétude de ceux-ci sont présentés dans les tableaux 6.2 et6.3.

Certains détails sont mieux reconstruits avec le critère de fréquence qu’avec celuide corrélation croisée normalisée, telles les rainures du Temple. De plus, la fréquence aplus de facilité que la CNN à reconstruire des surfaces peu texturées, comme sur le dosdu Dino. Par contre, là où la visibilité était difficile à estimer (comme dans la concavitédu mur/toit du Temple), la fréquence réussit difficilement ou échoue à reconstruirela surface. Pour résoudre ce problème, il faudrait trouver une façon de normaliser lacourbe de fréquence afin de diminuer l’impact de hautes fréquences. Visuellement, mesrésultats se comparent à ceux de Middlebury pour le même nombre d’images, bien qu’ilsne soient pas parmi les meilleurs.

Temple Dino% Fréquence CCN Fréquence CCN50 0.36 0.32 0.31 0.3175 0.64 0.55 0.57 0.6080 0.73 0.60 0.66 0.7385 0.84 0.71 0.77 0.9590 1.03 0.83 0.98 1.5095 1.60 1.09 1.48 2.9197 2.55 1.31 1.97 4.0798 3.39 1.47 2.62 5.0099 4.64 1.87 5.51 6.84

Tab. 6.2 – Comparaison de la précision (en millimètres) du Temple et du Dino recons-truits pour le critère de fréquence et de corrélation croisée normalisée. La précision a étéévaluée avec la même méthode que dans le tableau 6.1. La flèche indique le pourcentageutilisé dans le tableau 6.1.

Lorsqu’on compare les résultats de précision et de complétude à ceux de Middlebury(http ://vision.middlebury.edu/mview/), on remarque que plusieurs méthodes ont demeilleurs résultats. La méthode d’optimisation choisie [43] est la première cause deproblème. Elle trouve une surface sans trou, ce qui nuit au calcul de la précision. Ilserait plus avantageux d’avoir des trous là où il n’y a que du bruit que d’interpoler dansle bruit, comme cela a été fait sur le Dino (bande du bas) et le toit/mur du Temple avec

Page 99: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 6. Résultats d’implantation de méthodes 91

Fig. 6.6 – Reconstructions utilisant le critère de fréquence. La visibilité a été traitée enéliminant la paire de caméras ayant la moins bonne photo-cohérence.

Page 100: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 6. Résultats d’implantation de méthodes 92

Fig. 6.7 – Reconstructions utilisant le critère de la corrélation croisée normalisée. Lavisibilité a été traitée en éliminant la paire de caméras ayant la moins bonne photo-cohérence.

Page 101: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 6. Résultats d’implantation de méthodes 93

Temple Dinomm Fréquence CCN Fréquence CCN0.25 32.7 36.8 40.8 41.50.50 59.8 65.9 69.5 71.00.75 77.3 92.5 83.7 94.71.00 86.8 91.0 90.5 89.61.25 91.3 95.0 93.7 92.51.50 93.5 97.0 96.0 94.51.75 94.8 98.0 97.3 95.92.00 95.5 98.6 98.3 97.0

Tab. 6.3 – Comparaison de la complétude (en pourcentage) du Temple et du Dinoreconstruits pour le critère de fréquence et de corrélation croisée normalisée. La com-plétude a été évaluée avec la même méthode que dans le tableau 6.1. La flèche indiquele pourcentage utilisé dans le tableau 6.1.

la fréquence. De plus, il est possible que la méthode d’optimisation lisse exagérément lesdonnées, surtout en présence de bruit, ce qui expliquerait le manque de détails. Ensuite,comme l’algorithme de reconstruction avec le critère de fréquence est très similaire àcelui de Hernandez [40], sauf pour l’optimisation, on peut penser que la deuxième caused’imprécision provient des détails d’implantation et du paramétrage.

Page 102: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 7

Conclusion

La reconstruction 3D par stéréo multivue cherche à reconstruire la forme d’un ob-jet observé par un ensemble de caméras. Pour ce faire, elle doit apparier des positionsqui sont la projection, dans différentes caméras, d’un même point de la surface. L’ap-pariement se fait en évaluant la photo-cohérence des points candidats par rapport àun modèle de réflectance (la plupart du temps lambertien). Cela nécessite de choisir :un critère de comparaison, un ensemble de caméras et une région de recherche. Letype d’objet (ce qui comprend sa forme et ses propriétés de réflectance) à reconstruireinfluence le choix du critère de comparaison alors que les contraintes sur la surfacepermettent d’estimer la zone de recherche et un ensemble de caméras de comparaison.Les informations de photo-cohérence sont emmagasinées dans une structure de données.Cette dernière influence la façon dont l’algorithme de reconstruction choisit la surfacela plus cohérente par rapport aux hypothèses sur le modèle de réflectance et la formede l’objet.

Toutes ces étapes sont nécessaires pour contourner les problèmes d’appariement. Lavisibilité, la discrétisation de l’apparence, les ambiguïtés et les variations d’apparenceangulaires peuvent être traitées de différentes façons par un algorithme de reconstruc-tion.

Visibilité :– choix des caméras de comparaison (contraintes sur la surface),– critères de comparaison robustes aux occultations,– décomposition de la mesure de photo-cohérence par paires de caméras.

Variation d’apparence angulaire :– appariement de textures,– critères de comparaison invariants à certaines transformations,– choix de paires de caméras comparées,

Page 103: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 7. Conclusion 95

– choix des caméras de comparaison,– évaluation relative de la photo-cohérence.

Ambiguïtés :– appariement par la texture,– augmentation du nombre de caméras de comparaison,– diminution de l’ensemble des surfaces admissibles (zone de recherche, hypo-

thèses sur la forme).

Discrétisation spatiale de l’apparence :– représentations de données,– contraintes sur la surface (dans le but d’utiliser l’homographie locale),– pondération des fenêtres de comparaison.

Lorsque les défis d’appariement ne sont pas relevés, les mauvais appariements sont filtrésà partir des hypothèses sur la surface (ex : lisse, opaque).

Sachant comment l’appariement fonctionne et les techniques permettant de releverles défis qui lui sont associés, il est beaucoup plus facile de reconnaître les forces etfaiblesses des différents algorithmes de reconstruction. Les différences reposent sur lesfaçons de calculer et d’utiliser les mesures de photo-cohérence. Où et comment calculerla photo-cohérence ?

1. Utiliser les mêmes paramètres (visibilité, orientation) pour tout un intervalle derecherche. La photo-cohérence peut être décomposée pour augmenter la robustesseaux erreurs de visibilité.

2. Utiliser une même visibilité pour trouver une homographie locale.

3. Ne calculer la photo-cohérence que sur une surface. Utiliser les paramètres de lasurface actuelle pour mesurer la photo-cohérence.

Que faire avec les mesures de photo-cohérence ?

1. Optimiser la photo-cohérence et les hypothèses sur la forme (lisse) séparément(ex : trouver un nuage de points puis en extraire une surface avec une méthoded’optimisation de type coutour actif).

2. Optimiser simultanément la photo-cohérence et les autres hypothèses de formepour trouver la surface (ex : remplir un champ avec des mesures de photo-cohérence et extraire la surface par une méthode de coupe de graphe).

L’efficacité d’un algorithme de reconstruction dépend de la façon de répondre à ces deuxquestions. Si la photo-cohérence est évaluée adéquatement, le nombre d’erreurs d’appa-riement diminue de même que l’importance de filtrer les résultats avec des hypothèsessur la forme.

Les travaux futurs ayant pour objectif d’améliorer l’efficacité des algorithmes de

Page 104: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Chapitre 7. Conclusion 96

reconstruction doivent donc s’attarder à améliorer soit la façon de calculer la photo-cohérence, soit la façon d’utiliser la photo-cohérence une fois mesurée. Le défaut desalgorithmes qui utilisent des zones de recherche est que les informations de photo-cohérence sont rarement utilisées (exception [50]) pour restreindre les façons de calculerla photo-cohérence. Il serait donc intéressant de trouver une représentation de donnéesintermédiaire (ainsi qu’une méthode d’optimisation, car les données sont inévitablementbruitées) permettant d’utiliser directement l’information de photo-cohérence, au fur et àmesure qu’elle est mesurée, sans propager l’erreur. Pour les algorithmes qui font évolueritérativement une surface, il serait pertinent d’analyser la convergence de la surfaceselon la façon dont la photo-cohérence est calculée. En particulier, pour les méthodesqui minimisent l’erreur de dissimilarité, le rayon de convergence pourrait être étudié enfonction du critère de comparaison et tout particulièrement celui de la fréquence. Danstous les cas, il n’y a pas de solution magique au problème mal posé de la reconstruction3D par stéréo multivue. Il faut trouver un compromis entre ce qui est calculé et ce quiest acceptable comme surface (les hypothèses).

Page 105: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Annexe

Notation

Images et surfaceN Le nombre de camérasIi L’image i ∈ 1, 2, ..., N

Ωi Le domaine de l’image ixi Une position dans l’image i (xi ∈ Ωi)

X,Y ou Z Points de l’espaceS Surface de l’objet à reconstruireSi Section de S qui est vue par la caméra iΓ Une région de l’objet (Γ ⊂ S)Γi Une région de l’image i (Γi ⊂ Ωi)

Pi(X) Projection de perspective vers la caméra iP−1

i,S (xi) Rétroprojection de xi vers X ∈ S

Ri Matrice de rotation du monde vers la caméra iTi Position du référentiel monde par rapport à la caméra iKi Matrice des paramètres intrinsèques de la caméra i

di(X) Profondeur d’un point par rapport à la caméra iψi Rotation propre de l’image i

Tab. 7.1 – Table de symboles (première partie)

Page 106: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Annexe 98

Fonction plénoptiqueL Fonction plénoptiqueλ Une longueur d’ondev Une direction (en 3D)

Volume et visibilitéV Volume englobantVi Volume visible par la caméra iVV is Volume visible par au moins une caméra

VisS(X) Caméras voyant le point X ∈ S

Critères de comparaisonM Mesure d’un critère de comparaisonB Nombre de groupes lors du calcul de l’entropieN Un voisinageθi,j,X Angle entre les caméras i et j par rapport au point XFi Une fenêtre de comparaison dans l’image iFg Fenêtre générique servant à calculer Fi

ci Ii(Fi)

H Une homographieN Normale en un point de la surfaceBi Nombre de groupes pour la fenêtre Fi dans le critère d’IMGi,j

k Dérivée de l’image k au pixel (i, j)

ri(xi) Rang relatif du pixel xi

OptimisationDi Carte de profondeurs associée à l’image iE(S) Énergie associée à une surface SL VraisemblanceI∗i Image synthétique de l’image iC Couleur en un pointSt Surface au temps t dans une méthode itérative

Tab. 7.2 – Table de symboles (deuxième partie)

Page 107: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Annexe 99

Méthode de coupe de graphe

Une coupe de graphe est une façon de partitionner les noeuds V d’un graphe G(V,E)

(E est l’ensemble des arêtes) dans deux graphes disjoints (GS(S,ES) et GT (T,ET ), telque V = S∪T et ∅ = S∩T ). Cette coupe peut être représentée par l’ensemble des arêtesqui ont dû être enlevées pour réaliser cette séparation. La capacité de la coupe est lasomme du poids des arêtes coupées. Trouver la coupe de G(V,E) de capacité minimaletelle que s, t ∈ V soient séparés après la coupe (s ∈ S et t ∈ T ) est un problème quipeut être résolu efficacement par plusieurs algorithmes.

Cet méthode peut être adapté à la recherche d’une surface en fonction d’un champ[47, 10, 44, 53]. Les noeuds sont des points de l’espace, sauf pour la source (s) et le puits(t) qui sont ajoutés pour les fins de la coupe. Les points sont reliés par des arêtes à leursvoisins ainsi qu’au puits et à la source (Figure 7.1). La coupe minimale sépare l’extérieurde l’intérieur de l’objet, par conséquent, la surface passe par les arêtes coupées.

Comme il a été vu dans la section 5.1.3, les algorithmes de coupe de graphe per-mettent de trouver une surface lorsque le problème peut se poser de la façon suivante :

E(S) =

∫ ∫

S

ρ(x)dA+

∫ ∫ ∫

Vint

σint(x)dV +

∫ ∫ ∫

Vext

σext(x)dV (7.1)

où Vint et Vext sont les volumes à l’intérieur et à l’extérieur de l’objet respectivement etρ(x) est un terme qui dépend de la distance entre les noeuds voisins et possiblement dela photo-cohérence. Le fait de calculer l’intégrale sur la surface fait en sorte que s’il y aambiguïté, la surface minimale est choisie. La figure 7.1 présente deux façons d’utiliserles coupes de graphe pour trouver une surface.

Le poids des arêtes reliant les noeuds voisins dépend de la distance entre ces derniersainsi que de ρ. Le poids des arêtes reliant les noeuds à la source (respectivement puits)dépendent de σint (respectivement σext).

Page 108: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Annexe 100

(a) (b)

source

puits

source

puits

surface

Fig. 7.1 – Coupe de graphe. Le graphe doit être coupé en deux de telle sorte que lepuits soit dans un des graphes et la source dans l’autre. Les arêtes coupées et la surfacecherchée sont en vert (pâle et foncé respectivement). Les noeuds qui restent connectésà la source sont à l’extérieur de l’objet alors que les noeuds restés connectés au puitssont à l’intérieur. Les arêtes connectant les noeuds noirs ont comme poids un termequi dépend de la photo-cohérence et du voisinage. Ils forcent la coupe à passer par lesarêtes où il y a la plus grande photo-cohérence tout en restreignant la surface à êtreraisonnablement lisse. (a) Terme gonflant. Les arêtes en rouge ne sont connectées qu’àdes points qui sont à l’extérieur de l’enveloppe visuelle et ont un poids infini, elles nepeuvent donc pas être coupées. Toutes les arêtes en bleu et vert qui sont connectéesau puits ont un poids identique (σext > 0 et σint = 0 dans l’équation 7.1). Ce poidsempêche la solution nulle d’être intéressante (cas où le puits serait séparé de tous lesautres noeuds) et donne un biais vers les grosses surfaces. (b) Champ d’occupation. Lesarêtes connectant des noeuds à la source ont comme poids (σext(x) = p(x ∈ Vext)) laprobabilité que ces noeuds soient à l’extérieur de l’objet et inversement pour les arêtesconnectées au puits (σint(x) = p(x ∈ Vint)).

Page 109: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Bibliographie

[1] Y. Boykov, O. Veksler et R. Zabih, « Fast approximate energy minimizationvia graph cuts », IEEE Transactions on Pattern Analysis and Machine Intelligence,vol. 23, no. 11, pp. 1222–1239, 2001.

[2] K. Kolev, M. Klodt, T. Brox et D. Cremers, « Propagated photoconsistencyand convexity in variational multiview 3d reconstruction », dans Workshop on

Photometric Analysis for Computer Vision, 2007.

[3] P. Labatut, R. Keriven et J.-P. Pons, « Fast level set multi-view stereo ongraphics hardware », dans Actes de l’International Symposium on 3D Data Pro-

cessing, Visualization, and Transmission, pp. 774–781, IEEE Computer Society,2006.

[4] P. Merrell, A. Akbarzadeh, L. Wang, P. Mordohai et J.-M. Frahm, « Real-time visibility-based fusion of depth maps », Actes de l’International Conference

on Computer Vision, pp. 1–8, 2007.

[5] S. M. Seitz, B. Curless, J. Diebel, D. Scharstein et R. Szeliski, « A compa-rison and evaluation of multi-view stereo reconstruction algorithms », dans Actes de

l’IEEE Conference on Computer Vision and Pattern Recognition, vol. 1, pp. 519–528, IEEE Computer Society, 2006.

[6] D. Scharstein et R. Szeliski, « A taxonomy and evaluation of dense two-framestereo correspondence algorithms », International Journal of Computer Vision,vol. 47, no. 1-3, pp. 7–42, 2002.

[7] G. i Piracés, Contributions à l’approche bayésienne pour la stéréovision multi-

vues. Thèse doctorat, Institut National Polytechnique de Grenoble, 2008.

[8] E. H. Adelson et J. R. Bergen, « The plenoptic function and the elements ofearly vision », Computational Models of Visual Processing, pp. 3–20, 1991.

[9] W.-C. Chen, J.-Y. Bouguet, M. H. Chu et R. Grzeszczuk, « Light field map-ping : efficient representation and hardware rendering of surface light fields », ACM

Transactions on Graphics, vol. 21, no. 3, pp. 447–456, 2002.

Page 110: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Bibliographie 102

[10] G. Vogiatzis, P. H. S. Torr et R. Cipolla, « Multi-view stereo via volumetricgraph-cuts », dans Actes de l’IEEE Conference on Computer Vision and Pattern

Recognition, pp. 391–398, IEEE Computer Society, 2005.

[11] Y. Furukawa et J. Ponce, « Carved visual hulls for high-accuracy image-basedmodeling », dans Actes de l’annual conference on Computer graphics and interac-

tive techniques, p. 146, Association for Computer Machinery, 2005.

[12] M. Goesele, B. Curless et S. M. Seitz, « Multi-view stereo revisited »,dans Actes de l’IEEE Conference on Computer Vision and Pattern Recognition,pp. 2402–2409, IEEE Computer Society, 2006.

[13] S. Birchfield et C. Tomasi, « A pixel dissimilarity measure that is insensitiveto image sampling », IEEE Transactions on Pattern Analysis and Machine Intel-

ligence, vol. 20, no. 4, pp. 401–406, 1998.

[14] V. Vaish, M. Levoy, R. Szeliski, C. L. Zitnick et S. B. Kang, « Reconstructingoccluded surfaces using synthetic apertures : Stereo, focus and robust measures »,dans Actes de l’IEEE Conference on Computer Vision and Pattern Recognition,pp. 2331–2338, IEEE Computer Society, 2006.

[15] R. Szeliski et D. Scharstein, « Sampling the disparity space image », IEEE

Transactions on Pattern Analysis and Machine Intelligence, vol. 26, no. 3, pp. 419–425, 2004.

[16] S. M. Seitz et C. R. Dyer, « Photorealistic scene reconstruction by voxel colo-ring », dans Actes de l’IEEE Conference on Computer Vision and Pattern Recog-

nition, p. 1067, IEEE Computer Society, 1997.

[17] T. Yu, N. Ahuja et W.-C. Chen, « Sdg cut : 3d reconstruction of non-lambertianobjects using graph cuts on surface distance grid », Computer Vision and Pattern

Recognition, IEEE Computer Society Conference on, vol. 2, pp. 2269–2276, 2006.

[18] J. Kim, V. Kolmogorov et R. Zabih, « Visual correspondence using energyminimization and mutual information », dans Actes de l’International Conference

on Computer Vision, p. 1033, IEEE Computer Society, 2003.

[19] P. Lambert, J.-D. Deschênes et P. Hébert, « A sampling criterion for opti-mizing a surface light field », Actes de l’International Conference on 3-D Digital

Imaging and Modeling, pp. 47–54, 2007.

[20] J.-P. Pons, R. Keriven et O. Faugeras, « Modelling dynamic scenes by registe-ring multi-view image sequences », dans Actes de l’IEEE Conference on Computer

Vision and Pattern Recognition, pp. 822–827, IEEE Computer Society, 2005.

[21] M. Habbecke et L. Kobbelt, « Iterative multi-view plane fitting », dans In

Vision, Modeling, and Visualisation, pp. 73–80, 2006.

[22] Y. Furukawa et J. Ponce, « Accurate, dense, and robust multi-view stereopsis »,dans Actes de l’IEEE Conference on Computer Vision and Pattern Recognition,pp. 1–8, IEEE Computer Society, 2007.

Page 111: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Bibliographie 103

[23] G. Egnal, « Mutual information as a stereo correspondence measure », CIS MS-CIS-00-20, Department of Coomputer & Information Science, University of Penn-sylvania, 2000.

[24] C. Fookes, M. Bennamoun et A. Lamanna, « Improved stereo image mat-ching using mutual information and hierarchical prior probabilities », dans Actes

de l’International Conference on Pattern Recognition, vol. 2, pp. 937–940, 2002.

[25] H. Hirschmuller et D. Scharstein, « Evaluation of cost functions for stereomatching », dans Actes de l’IEEE Conference on Computer Vision and Pattern

Recognition, pp. 1–8, IEEE Computer Society, 2007.

[26] K. Konolige, « Non-parametric local transforms for computing visual corres-pondence », dans Actes de l’European Conference on Computer Vision, vol. 2,pp. 151–158, Springer-Verlag, 1994.

[27] A. Crouzil, L. Massip-Pailhes et S. Castan, « A new correlation criterionbased on gradient fields similarity », dans Actes de l’International Conference on

Pattern Recognition, vol. 1, p. 632, IEEE Computer Society, 1996.

[28] R. Zabih et J. Woodfill, « Small vision systems : hardware and implementa-tion », dans Eighth International Symposium on Robotics Research, pp. 203–212,1997.

[29] J. Banks et M. Bennamoun, « Reliability analysis of the rank transform forstereo matching », IEEE Transactions on Systems, Man, and Cybernetics, Part B,vol. 31, no. 6, pp. 870–880, 2001.

[30] A. Laurentini, « The visual hull concept for silhouette-based image understan-ding », IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 16,no. 2, pp. 150–162, 1994.

[31] C. Lenglet, M. Rousson et R. Deriche, « Segmentation of 3d probability den-sity fields by surface evolution : Application to diffusion mri », dans Medical Image

Computing and Computer-Assisted Intervention, pp. 18–25, Springer, 2004.

[32] K. N. Kutulakos K. N. et S. M. Seitz, « A theory of shape by space carving »,International Journal of Computer Vision, vol. 38, pp. 307–314, 1999.

[33] P. Labatut, J.-P. Pons et R. Keriven, « Efficient multi-view reconstruction oflarge-scale scenes using interest points, delaunay triangulation and graph cuts »,dans Actes de l’International Conference on Computer Vision, pp. 1–8, IEEE Com-puter Society, 2007.

[34] K. Mikolajczyk, T. Tuytelaars, C. Schmid, A. Zisserman, J. Matas,F. Schaffalitzky, T. Kadir et L. Van Gool, « A comparison of affine regiondetectors », International Journal of Computer Vision, vol. 65, no. 1-2, pp. 43–72,2005.

Page 112: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Bibliographie 104

[35] K. Mikolajczyk et C. Schmid, « A performance evaluation of local descriptors »,IEEE Transaction on Pattern Analysis and Machine Intelligence, vol. 27, no. 10,pp. 1615–1630, 2005.

[36] D. G. Lowe, « Object recognition from local scale-invariant features », dans Actes

de l’International Conference on Computer Vision, p. 1150, IEEE Computer So-ciety, 1999.

[37] H. Bay, A. Ess, T. Tuytelaars et L. V. Gool, « Speeded-up robust features(surf) », Computer Vision and Image Understanding, vol. 110, no. 3, pp. 346–359,2008.

[38] J. Matas, O. Chum, M. Urban et T. Pajdla, « Robust wide baseline stereofrom maximally stable extremal regions », dans Actes du British Machine Vision

Conference, pp. 384–393, 2002.

[39] J.-N. Ouellet et P. Hébert, « Asn : Image keypoint detection from adaptiveshape neighborhood », dans Actes de l’European Conference on Computer Vision,vol. 1, pp. 454–467, Springer-Verlag, 2008.

[40] C. H. Esteban et F. Schmitt, « Silhouette and stereo fusion for 3d object mo-deling », Computer Vision and Image Understanding, vol. 96, no. 3, pp. 367–392,2004.

[41] S. Osher et R. Fedkiw, Level Set Methods ans Dynamic Implicit Surfaces,chap. 1-10, pp. 1–94. Springer, 2003.

[42] P. Gargallo, E. Prados et P. Sturm, « Minimizing the reprojection error insurface reconstruction from images », dans Actes de l’International Conference on

Computer Vision, pp. 1–8, IEEE Computer Society Press, 2007.

[43] M. Kazhdan, M. Bolitho et H. Hoppe, « Poisson surface reconstruction », dans

Actes de l’Eurographics symposium on Geometry processing, pp. 61–70, Eurogra-phics Association, 2006.

[44] C. Hernandez, G. Vogiatzis et R. Cipolla, « Probabilistic visibility for multi-view stereo », dans Actes de l’IEEE Conference on Computer Vision and Pattern

Recognition, pp. 1–8, IEEE Computer Society, 2007.

[45] C. Xu et J. L. Prince, « Snakes, shapes, and gradient vector flow », IEEE Tran-

sactions on Image Processing, vol. 7, no. 3, pp. 359–369, 1998.

[46] H. P. Ho, Y. Chen, H. Liu et P. Shi, « Level set active contours on unstructuredpoint cloud », dans Actes de l’IEEE Conference on Computer Vision and Pattern

Recognition, pp. 690–697, IEEE Computer Society, 2005.

[47] G. Vogiatzis, C. H. Esteban, P. H. S. Torr et R. Cipolla, « Multiview stereovia volumetric graph-cuts and occlusion robust photo-consistency », IEEE Transac-

tions on Pattern Analysis and Machine Intelligence, vol. 29, no. 12, pp. 2241–2246,2007.

Page 113: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Bibliographie 105

[48] R. Szeliski, R. Zabih, D. Scharstein, O. Veksler, V. Kolmogorov,A. Agarwala, M. F. Tappen et C. Rother, « A comparative study of energyminimization methods for markov random fields », dans Actes de l’European Confe-

rence on Computer Vision, vol. 2, pp. 16–29, Springer-Verlag, 2006.

[49] A. Zaharescu, E. Boyer et R. P. Horaud, « Transformesh : a topology-adaptivemesh-based approach to surface evolution », dans Actes de l’Asian Conference on

Computer Vision, vol. II, pp. 166–175, Springer, 2007.

[50] S. N. Sinha, P. Mordohai et M. Pollefeys, « Multi-view stereo via graphcuts on the dual of an adaptive tetrahedral mesh », dans Actes de l’International

Conference on Computer Vision, pp. 1–8, 2007.

[51] M. Habbecke et L. Kobbelt, « A surface-growing approach to multi-view ste-reo reconstruction », dans Actes de l’IEEE Conference on Computer Vision and

Pattern Recognition, pp. 1–8, IEEE Computer Society, 2007.

[52] G. Vogiatzis, P. H. S. Torr, S. M. Seitz et R. Cipolla, « Reconstructing reliefsurfaces », Image Vision Computing, vol. 26, no. 3, pp. 397–404, 2008.

[53] V. Kolmogorov et R. Zabih, « Multi-camera scene reconstruction via graphcuts », dans Actes de l’European Conference on Computer Vision, pp. 82–96,Springer-Verlag, 2002.

[54] C. H. N. Campbell, G. Vogiatzis et R. Cipolla, « Using multiple hypotheses toimprove depth-maps for multi-view stereo », dans Actes de l’European Conference

on Computer Vision, vol. 1, pp. 766–779, Springer-Verlag, 2008.

[55] V. Kolmogorov, « Convergent tree-reweighted message passing for energy mi-nimization », IEEE Transactions on Pattern Analysis and Machine Intelligence,vol. 28, no. 10, pp. 1568–1583, 2006.

[56] C. Zach, T. Pock et H. Bischof, « A globally optimal algorithm for robust tv-l1range image integration », dans Actes de l’International Conference on Computer

Vision, pp. 1–8, IEEE Computer Society, 2007.

[57] B. Curless et M. Levoy, « A volumetric method for building complex modelsfrom range images », dans Actes de l’annual conference on Computer graphics and

interactive techniques, pp. 303–312, Association for Computer Machinery, 1996.

[58] O. D. Faugeras et R. Keriven, « Complete dense stereovision using level set me-thods », dans Actes de l’European Conference on Computer Vision, vol. 1, pp. 379–393, Springer-Verlag, 1998.

[59] A. Delaunoy, E. Prados, P. Gargallo, J.-P. Pons et P. Sturm, « Minimizingthe multi-view stereo reprojection error for triangular surface meshes », dans Actes

du British Machine Vision Conference, 2008.

[60] P. Gargallo et P. Sturm, « Bayesian 3d modeling from images using multipledepth maps », dans Actes de l’IEEE Conference on Computer Vision and Pattern

Recognition, vol. 2, pp. 885–891, IEEE Computer Society, 2005.

Page 114: Analyse de la reconstruction 3D par stéréo multivue dans l ... · le point de vue) et la discrétisation de l’apparence (une image est un échantillonnage de l’apparence d’une

Bibliographie 106

[61] G. Hermosillo, C. Chefd’Hotel et O. D. Faugeras, « Variational methods formultimodal image matching », International Journal of Computer Vision, vol. 50,no. 3, pp. 329–343, 2002.