POLITECHNIKA WARSZAWSKA - Serwer pracowniczy WEiTIstaff.elka.pw.edu.pl/~gnieradk/Praca2013.pdf · “KonspPreamb” 2013/10/3 page 1 #1 POLITECHNIKA WARSZAWSKA Wydział Elektroniki

“KonspPreamb” 2013/10/3 page 1 #1

POLITECHNIKA WARSZAWSKA

Wydział Elektroniki i TechnikInformacyjnych

ROZPRAWA DOKTORSKA

mgr inż. Grzegorz Nieradka

Dopasowanie obrazów pary stereoskopowejz wykorzystaniem logiki rozmytej

Promotor

prof. dr hab. inż. Bohdan Butkiewicz

Warszawa, 2013


Streszczenie

Metody umożliwiające akwizycję i prezentację obrazów przestrzennych nabra-

ły bardzo dużego znaczenia w dziedzinie przetwarzania obrazów. Poszukiwane są

zarówno nowe rozwiązania, jak i udoskonalane są znane metody. Jedną z metod

umożliwiających akwizycję obrazów trójwymiarowych jest widzenie stereoskopo-

we.

Rozprawa poświęcona jest jednemu z głównych problemów widzenia stereo-

skopowego, jakim jest zagadnienie dopasowania pary obrazów stereoskopowych.

Problem ten jest jednym z najważniejszych problemów przetwarzania obrazów

przestrzennych, którego efektywne rozwiązanie umożliwia zastosowanie technik

widzenia stereoskopowego w praktyce. Pomimo jego bardzo dobrego rozpoznania

i zaproponowania bardzo wielu rozwiązań, pozostaje ciągle problemem nierozwią-

zanym w zadowalającym stopniu.

W pracy opracowane zostały metody służące do dopasowania obrazów pary ste-

reoskopowej z wykorzystaniem elementów teorii zbiorów rozmytych. Wykorzysta-

nie zbiorów rozmytych wpisuje się w trend badawczy polegający na poszukiwaniu

nowych dróg rozwiązania.

Przedstawione metody oraz wyniki badań eksperymentalnych pozwalają stwier-

dzić, że zastosowanie teorii zbiorów rozmytych pozwala na uzyskanie nie gorszych,

a w niektórych przypadkach lepszych wyników, niż uzyskiwane z wykorzystaniem

metod i algorytmów znanych z literatury.

2


Abstract

Methods making possible an acquisition and presentation of spatial images have

become of very high importance in the field of image processing. There are many

scientific workers doing an extensive research for finding new solutions, as well as

improving known methods. One method enabling acquisition of three–dimensional

images is so called stereoscopic vision.

This doctoral thesis pertains to one of stereoscopic vision’s major problems,

which is matching the pair of stereoscopic images. The matching problem is one

of the most important questions because its effective solution enables the use of

stereoscopic vision techniques in practice. Despite the fact that it is a well known

problem, and there are many different propositions on how it could be solved, the

issue still remains unsolved to a satisfactory level for use in the real applications.

In this thesis, novel methods using some elements from the fuzzy set theory

for the matching the pair of stereoscopic images have been developed. Using the

fuzzy set theory is a part of a research trend which consists in finding new ways of

solution.

The presented methods and experimental results should conclude that in some

cases the application of fuzzy set theory allows to accomplish better results than

obtained with the use of methods and algorithms known from the specialist litera-

ture.

3


Spis treści

Wykaz oznaczeń . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

Wykaz akronimów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1. Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.1. Uwagi o terminologii przyjętej w pracy . . . . . . . . . . . . . . . . . . 18

1.1.1. Uwagi o nazewnictwie dotyczącym przetwarzania obrazów . . . 18

1.1.2. Uwagi o nazewnictwie dotyczącym teorii zbiorów rozmytych . . 21

1.2. Teza i cel pracy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

1.3. Główne rezultaty pracy . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

1.4. Układ pracy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2. Zagadnienie widzenia stereoskopowego . . . . . . . . . . . . . . . . . . . . 26

2.1. Maszynowe widzenie stereoskopowe . . . . . . . . . . . . . . . . . . . . 26

2.2. Podstawy geometrii układu stereoskopowego . . . . . . . . . . . . . . . 29

2.2.1. Model kamery perspektywicznej . . . . . . . . . . . . . . . . . 30

2.3. Geometria układu dwóch kamer . . . . . . . . . . . . . . . . . . . . . . 34

2.4. Dysparycja w obrazach pary stereoskopowej . . . . . . . . . . . . . . . 37

2.4.1. Rektyfikacja obrazów pary stereoskopowej . . . . . . . . . . . . 39

2.5. Problemy występujące przy projektowaniu algorytmów dopasowania

pary stereoskopowej . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2.6. Założenia procesu dopasowania par stereoskopowych . . . . . . . . . . . 46

3. Przegląd metod dopasowania obrazów pary stereoskopowej . . . . . . . . . 49

3.1. Próba klasyfikacji metod dopasowania obrazów pary stereoskopowej . . . 49

3.2. Metody globalne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.2.1. Metoda minimalnego rozcięcia grafu . . . . . . . . . . . . . . . 53

3.2.2. Zastosowanie metody minimalnego rozcięcia grafu

w zagadnieniu dopasowania pary stereoskopowej . . . . . . . . . 55

3.2.3. Dopasownie obrazów pary stereoskopowej za pomocą

programowania dynamicznego . . . . . . . . . . . . . . . . . . 58

3.3. Metody dopasowania obszarami . . . . . . . . . . . . . . . . . . . . . . 61

3.3.1. Algorytm metody dopasowania obszarami . . . . . . . . . . . . 62

3.3.2. Miary wykorzystywane w algorytmach dopasowania obszarami . 63

3.3.3. Dopasowanie w dziedzinie transformat . . . . . . . . . . . . . . 70

3.3.4. Transformata rankingowa . . . . . . . . . . . . . . . . . . . . . 75

1


Spis treści

3.3.5. Transformata CENSUS . . . . . . . . . . . . . . . . . . . . . . 76

3.4. Metody dopasowania cech obrazów . . . . . . . . . . . . . . . . . . . . 77

3.4.1. Algorytm Marra-Poggio-Grimsona . . . . . . . . . . . . . . . . 79

3.5. Wykorzystanie obrazów kolorowych w dopasowaniu obrazów . . . . . . 83

3.6. Inne metody dopasowania pary stereoskopowej . . . . . . . . . . . . . . 85

4. Elementy teorii zbiorów rozmytych . . . . . . . . . . . . . . . . . . . . . . . 88

4.1. Podstawy teorii zbiorów rozmytych . . . . . . . . . . . . . . . . . . . . 88

4.1.1. Pojęcie zbioru . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

4.1.2. Zbiór rozmyty i funkcja przynależności . . . . . . . . . . . . . . 90

4.1.3. Przykłady funkcji przynależności . . . . . . . . . . . . . . . . . 91

4.2. Miary rozmytości . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

4.2.1. Całkowita entropia rozmyta . . . . . . . . . . . . . . . . . . . . 97

4.2.2. Indeks rozmytości . . . . . . . . . . . . . . . . . . . . . . . . . 98

4.3. Odległość zbiorów rozmytych . . . . . . . . . . . . . . . . . . . . . . . 100

4.4. Korelacja zbiorów rozmytych . . . . . . . . . . . . . . . . . . . . . . . 102

4.5. Relacje rozmyte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

4.5.1. Rozmyta relacja podobieństwa . . . . . . . . . . . . . . . . . . 103

4.6. Teoria intuicjonistycznych zbiorów rozmytych . . . . . . . . . . . . . . . 105

4.7. Miary podobieństwa intuicjonistycznych zbiorów rozmytych . . . . . . . 107

4.7.1. Odległość intuicjonistycznych zbiorów rozmytych . . . . . . . . 107

4.7.2. Korelacja intuicjonistycznych zbiorów rozmytych . . . . . . . . 108

5. Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania pary

stereoskopowej obrazów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

5.1. Wykorzystanie zbiorów rozmytych w zagadnieniach przetwarzania obrazów111

5.2. Przetwarzanie obrazów z wykorzystaniem fuzzyfikacji obrazu . . . . . . 112

5.2.1. Metody fuzzyfikacji wykorzystywane w przetwarzaniu obrazów . 113

5.3. Zastosowanie zbiorów rozmytych w problemie dopasowania pary

stereoskopowej . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

5.3.1. Zastosowanie zbiorów rozmytych w algorytmach dopasowania

obszarami . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

5.3.2. Teoria zbiorów rozmytych w algorytmach dopasowania cechami 120

5.4. Proponowany algorytm znajdowania funkcji przynależności . . . . . . . 121

5.4.1. Wybór kształtu funkcji przynależności . . . . . . . . . . . . . . 122

5.4.2. Indeks rozmytości określony dla obrazu . . . . . . . . . . . . . 124

5.4.3. Zagadnienie optymalizacyjne . . . . . . . . . . . . . . . . . . . 125

5.4.4. Przykłady wyznaczonych funkcji przynależności . . . . . . . . . 128

2


Spis treści

5.5. Dopasowanie obrazów pary stereoskopowej w dziedzinie zbiorów

rozmytych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

5.6. Przetwarzanie obrazów opisanych w dziedzinie intuicjonistycznych

zbiorów rozmytych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

5.6.1. Określanie indeksu zaufania . . . . . . . . . . . . . . . . . . . . 132

5.6.2. Znajdowanie wartości funkcji nieprzynależności . . . . . . . . . 135

5.6.3. Przykłady wyznaczonych funkcji umożliwiających opis obrazu

w dziedzinie intuicjonistycznych zbiorów rozmytych . . . . . . . 136

5.6.4. Dopasowanie obrazów pary stereoskopowej w dziedzinie

intuicjonistycznych zbiorów rozmytych . . . . . . . . . . . . . . 137

5.7. Detekcja krawędzi w obrazie w oparciu o teorię zbiorów rozmytych . . . 139

5.8. Detekcja krawędzi w oparciu o rozmytą relację podobieństwa . . . . . . 141

5.8.1. Przykłady obrazów krawędziowych otrzymanych w efekcie

działania rozmytego detektora krawędzi . . . . . . . . . . . . . 144

5.8.2. Wykrywanie pikseli charakterystycznych w obrazach

krawędziowych . . . . . . . . . . . . . . . . . . . . . . . . . . 146

5.8.3. Algorytm dopasowania pikseli charakterystycznych w obrazach

krawędziowych . . . . . . . . . . . . . . . . . . . . . . . . . . 148

5.9. Dopasowanie obrazów pary steroskopowej w oparciu o rozmytą

transformatę rankingową . . . . . . . . . . . . . . . . . . . . . . . . . . 150

6. Kryteria i metody oceny działania algorytmów . . . . . . . . . . . . . . . . 155

6.1. Metody oceny i porównania algorytmów . . . . . . . . . . . . . . . . . 155

6.2. Algorytmy dopasowania w obecności zakłóceń obecnych w obrazach . . 162

6.3. Wzorcowe pary stereoskopowe . . . . . . . . . . . . . . . . . . . . . . . 163

6.3.1. Para stereoskopowa „Tsukuba” . . . . . . . . . . . . . . . . . . 164

6.3.2. Para stereoskopowa „Venus” . . . . . . . . . . . . . . . . . . . . 166

6.3.3. Para stereoskopowa „Cones” . . . . . . . . . . . . . . . . . . . 167

6.3.4. Para stereoskopowa „Teddy” . . . . . . . . . . . . . . . . . . . 168

6.4. Charakterystyka zakłóceń szumowych . . . . . . . . . . . . . . . . . . . 170

6.4.1. Podstawowe modele szumu . . . . . . . . . . . . . . . . . . . . 170

6.4.2. Miary szumu zawartego w obrazie . . . . . . . . . . . . . . . . 172

6.4.3. Szum addytywny o rozkładzie normalnym . . . . . . . . . . . . 173

6.4.4. Szum addytywny o rozkładzie jednostajnym . . . . . . . . . . . 175

6.4.5. Szum multiplikatywny . . . . . . . . . . . . . . . . . . . . . . . 176

6.4.6. Szum impulsowy typu „sól i pieprz” . . . . . . . . . . . . . . . 178

6.5. Miary oceny jakości rozwiązań . . . . . . . . . . . . . . . . . . . . . . 180

6.5.1. Ocena efektywności algorytmów dopasowania cechami . . . . . 181

6.5.2. Ocena efektywności algorytmów dopasowania obszarami . . . . 182

3


Spis treści

7. Wyniki badań eksperymentalnych . . . . . . . . . . . . . . . . . . . . . . . 185

7.1. Założenia oceny efektywności działania algorytmów dopasowania pary

stereoskopowej . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

7.2. Podstawowe parametry działania algorytmów dopasowania cechami . . . 187

7.3. Rozmiar okien w algorytmach dopasowania obszarami . . . . . . . . . . 190

7.4. Wyniki działania algorytmów w przypadku obrazów zakłóconych

szumem gaussowskim . . . . . . . . . . . . . . . . . . . . . . . . . . . 202

7.4.1. Wyniki działania algorytmów dopasowania cechami . . . . . . . 202

7.4.2. Wyniki działania algorytmów dopasowania obszarami . . . . . . 204


szumem addytywnym o rozkładzie jednostajnym lub szumem

multiplikatywnym . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207




szumem impulsowym typu „sól i pieprz” . . . . . . . . . . . . . . . . . 211



7.7. Wnioski . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218

8. Zakończenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220

8.1. Komentarz uzyskanych rezultatów . . . . . . . . . . . . . . . . . . . . . 221

8.2. Perspektywy dalszego rozwoju . . . . . . . . . . . . . . . . . . . . . . . 222

Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224

4


Wykaz oznaczeń

d – mapa dysparycji

dopt – optymalna mapa dysparycji

F – macierz fundamentalna

g – histogram obrazu

g – unormowany histogram obrazu

gF – rozmyty histogram obrazu

gF – unormowany histogram rozmyty

H1,H2 – macierz określająca homograficzne przekształcenia obrazu w al-

gorytmie rektyfikacji

Pc – wektor wyznaczający położenie punktu P w układzie współ-

rzędnych kamery

Pw – wektor wyznaczający położenie punktu P w zewnętrznym ukła-

dzie współrzędnych

R – macierz rotacji

t – wektor translacji

α – nośnik liczby rozmytej

βR – parametr rozmytej transformaty rankingowej

χZ – funkcja charakterystyczna

∆Ip – znormalizowany zakres dynamiczny jasności w obrazie

ǫ – przekształcenie określające miarę rozmytości

η – metryka odległości zbiorów rozmytych

ηFH

– odległość Hamminga zbiorów rozmytych

ηFH

– unormowana odległość Hamminga zbiorów rozmytych

ηIFSH

– odległość Hamminga zbiorów IFS

ηIFSH

– unormowana odległość Hamminga zbiorów IFS

ηFE

– odległość euklidesowa zbiorów rozmytych

ηFE – unormowana odległość euklidesowa zbiorów rozmytych

ηIFSE

– odległość euklidesowa zbiorów IFS

ηIFSH

– unormowana odległość euklidesowa zbiorów IFS

5


Wykaz oznaczeń

ζG – odpowiedź rozmytego detektora krawędzi wykorzystującego gaus-

sowską relację rozmytą

ζT – odpowiedź rozmytego detektora krawędzi wykorzystującego trój-

kątną relację rozmytą

γ – indeks rozmytości

γK – kwadratowy indeks rozmytości

γL – liniowy indeks rozmytości

λ – stała o ustalonej wartości

µAF – funkcja przynależności zbioru rozmytego

µAF – funkcja przynależności dopełnienia zbioru rozmytego

µAF – średnia wartość funkcji przynależności zbioru rozmytegoAF

µAIFS – funkcja przynależności intuicjonistycznego zbioru rozmytego

µAIFS – średnia wartość funkcji przynależności zbioru IFS

µΩ – funkcja przynależności relacji rozmytej

µΩG– funkcja przynależności gaussowskiej relacji rozmytej

µΩT– funkcja przynależności trójkątnej relacji podobieństwa

µ – funkcja przynależności trójkątnej liczby rozmytej

νAIFS – funkcja nieprzynależności intuicjonistycznego zbioru rozmyte-

go

νAIFS – średnia wartość funkcji nieprzynależności zbioru IFS

Ω – rozmyta relacja dwuargumentowa

Ωp – rozmyta relacja podobieństwa

Ψ,Ψ1,Ψ2 – płaszczyzna tworzenia obrazu

φre f , φsz – widmo fazowe Fouriera

πAIFS – indeks zaufania IFS

ψ (x) – funkcja macierzysta transformaty falkowej

ψp, ψm – płaszczyna epipolarna

ρAF,BF – współczynnik korelacji zbiorów rozmytych

ρIFS – współczynnik korelacji zbiorów IFS

ρIFSµAIFS ,µBIFS

– współczynnik korelacji funkcji przynależności zbiorów IFS

ρIFSνAIFS ,νBIFS

– współczynnik korelacji funkcji nieprzynależności zbiorów IFS

σAF – wariancja wartości funkcji przynależności zbioru rozmytegoAF

σG – parametr gaussowskiej relacji podobieństwa

σT – parametr trójkątnej rozmytej relacji podobieństwa

6


Wykaz oznaczeń

τ – parametr przesunięcia transformaty falkowej

ξ – funkcja porównania w transformacie CENSUS

AF – zbiór rozmyty

AFC – najbliższy zbiór zwykły do zbioru rozmytego

AIFS – intuicjonistyczny zbiór rozmyty

C (S,T ) – rozcięcie grafu

E – zbiór krawędzi grafu GG – graf skierowany

L – zbiór etykiet

N – zbiór n-krawędzi grafu

P – zbiór niewyróżnionych wierzchołków grafu

P2 – rzutnia – dwuwymiarowa płaszczyzna rzutu

P3 – trójwymiarowa przestrzeń rzutowa

P (X) – zbiór potęgowy przestrzeni X

R – relacja incydencji grafu GS,T – podzbiory wierzchołków grafu

V – zbiór wierzchołków grafu GW – właściwość spełniana przez elementy zbioru

Z – zbiór

A, B – zmienna losowa

aS, bS, cS – parametry S-funkcji

b – linia bazowa w stereoskopowym układzie kamer

d (·, ·) – miara odległości

d – dysparycja

dmax – maksymalna wartość poszukiwanej dysparycji

dmin – minimalna wartość poszukiwanej dysparycji

dp – dysparycja piksela p

dq – miara Minkowskiego

dxy – dysparycja odległościowa

dy – dysparycja wertykalna

E (d) – funkcja kosztu globalnej metody dopasowania

Ed (d) – składowa funkcji kary globalnej metody dopasowania

Es (d) – składowa funkcji kosztu metodach w globalnych

7


Wykaz oznaczeń

e1, e2 – punkt epipolarny

f – ogniskowa kamery

H – miara entropii Shannona

h – połowa długości linii bazowej kamer

H (A) – entropia własna zmiennej losowej A

H (A, B) – entropia łączna zmiennych losowych A i B

H (B) – entropia własna zmiennej losowej B

Hc – całkowita miara entropijna

Ii j – jasność piksela położonego na pozycji (i, j)

Imin – minimalny poziom jasności (szarości) w obrazie

Ip – poziom jasności (szarości) piksela p

Imax – maksymalny poziom jasności (szarości) piksela p

K – składowa funkcji kosztu w metodach globalnych

L (X) – rodzina podzbiorów rozmytych

m1,m2 – rzut punktu M na płaszczyznę obrazową

N (p) – sąsiedztwo piksela p

na – addytywna składowa szumowa

Nh – horyzontalny rozmiar okna

nm – multiplikatywna składowa szumowa

Np – liczba pikseli zawartych w oknie

Nv – wertykalny rozmiar okna

Nw – rozmiar kwadratowego okna

o – punkt główny kamery

O1,O2 – punkt ogniskowy kamery

Oi – początek układu współrzędnych pikselowych obrazu

O1P, O1M – promień optyczny

O2P, O2M – promień optyczny

Oc – punkt ogniskowy (centralny) przekształcenia rzutowego

Ow – punkt początkowy zewnętrznego układu współrzędnych

ox, oy – współrzędne punktu głównego kamery

p – obraz punktu przestrzeni

p – piksel obrazu

P,M – punkt w przestrzeni trójwymiarowej

lp1 , lp2 , lm1 , lm2 – linia epipolarna

8


Wykaz oznaczeń

p1, p2 – rzut punktu P na płaszczyznę obrazową

pi – prawdopodobieństwa zajścia zdarzenia

pi, j – piksel położony na pozycji (i, j)

rs – rozmiar sąsiedztwa

RF – rozmyta transformata rankingowa określona w dziedzinie zbio-

rów rozmytych

RFI

– rozmyta transformata rankingowa określona w dziedzinie jasno-

ści

R – wartość transformaty rankingowej

s – parametr skali transformaty falkowej

s – źródło grafu

S(

µiAF

)

– niepewność określenia przynależności zdarzenia do zbioru roz-

mytego

S – wartość średnia określenia przynależności zdarzeń do zbioru

rozmytego

sx, sy – fizyczne rozmiary piksela

T – zbiór zdarzeń losowych

t – ujście grafu

Tc – wynik działania transformaty CENSUS

TSAD – ustalona wartość progowa

u1, v1 – współrzędne obrazu punktu

u2, v2 – współrzędne obrazu punktu

u, v,w – współrzędne punktu w obrazie wyrażone w układzie współrzęd-

nych kamery

Vp,q – składowa funkcji kosztu w metodach globalnych

W – okno; wyróżniony zbiór pikseli w obrazie

wLoG – rozmiar maski filtru LoG

Wre f – okno referencyjne

Wsz – okno przeszukiwania

xw, yw, zw – współrzędne punktu w przestrzeni wyrażone w zewnętrznym

układzie współrzędnych

xi, yi – oś układu współrzędnych pikselowych

Xre f , Xsz – wynik transformaty Fouriera

|Xre f |, |Xsz | – widmo amplitudowe Fouriera

9


Wykaz oznaczeń

z1, z2, . . ., zn – elementy należące do zbioruZ

R – zbiór liczb rzeczywistych

||C|| – moc zbioru C

Z – zbiór liczb całkowitych

I – obraz

Ire f – obraz referencyjny pary stereoskopowej

Isz – obraz przeszukiwania pary stereoskopowej

ICH – obraz krawędziowych pikseli charakterystycznych

IK – obraz krawędziowy

∇ – operator Laplasjanu

⊙ – operacja algebraiczna np. dodawanie

⊗ – konkatenacja

∝ – proporcjonalność

– liczba rozmyta

X – przestrzeń; ogół rozważanych przedmiotów

10


Wykaz akronimów

AC1C2 – model Meyera przestrzeni kolorów

CC (ang. Cross Correlation) – korelacja wzajemna

CCD (ang. Charge Coupled Device) – monolityczny przetwornik obrazowy ze

sprzężeniem ładunkowym

CIE LAB – model przestrzeni kolorów przyjęty przez Międzynarodową Komisję

Oświetleniową (CIE)

CIE LUV – model przestrzeni kolorów przyjęty przez Międzynarodową Komisję

Oświetleniową CIE

CIE XYZ – model przestrzeni kolorów przyjęty przez Międzynarodową Komisję

Oświetleniową (CIE)

CWT (ang. Continuous Wavelet Transform) – ciągła transformata falkowa

DWT (ang. Discrete Wavelet Transform) – dyskretna transformata falkowa

EEG – elektroencefalografia

EKG – elektrokardiografia

FCM (ang. Fuzzy c-Means) – rozmyty algorym analizy skupień c-średnich

FFT (ang. Fast Fourier Transform) – algorytm obliczania szybkiej transforma-

ty Fouriera

FPGA (ang. Field Programmable Gate Array) – bezpośrednio programowalna

macierz bramek logicznych

H1H2H3 – model Braquelaire’a przestrzeni kolorów

HSL (ang. Hue Saturation Lightness) – model opisu przestrzeni barw, opisy-

wanej przez podanie trzech parametrów: H – częstotliwości fali światła, S –

nasycenia barwy, L – poziomu światła białego

HSV (ang. Hue Saturation Value) – model opisu przestrzeni barw, opisywanej

przez podanie trzech parametrów: H – częstotliwości fali światła, S – nasycenia

barwy, V – moc światła białego

I1I2I3 – model Ohty przestrzeni kolorów

11


Wykaz akronimów

IDWT (ang. Inverse Discrete Wavelet Transform) – odwrotna dyskretna trans-

format falkowa

IFS (ang. Intuitionistic Fuzzy Set) – intuicjonistyczny zbiór rozmyty

LoG (ang. Laplacian of Gaussian) – rodzaj filtru stosowanego w przetwarza-

niu obrazów

LSAD (ang. Locally Scaled Sum of Absolute Differences) – lokalnie skalowana

suma wartości bezwzględnych różnic

LSSD (ang. Locally Scaled Sum of Squared Differences) – lokalnie skalowana

suma kwadratów różnic

MCC (ang. Moravec Cross Correlation) – korelacja wzajemna Moraveca

MI (ang. Mutual Information) – informacja wzajemna

MPG (ang. Marr–Poggio–Grimson) – nazwa algorytmu umożliwiającego ob-

liczenie rzadkiej mapy dysparycji

MRA (ang. Multi resolution Analysis) – analiza wielorozdzielcza

MSE (ang. Mean Squared Error) – błąd średniokwadratowy

NCC (ang. Normalized Cross Correlation) – znormalizowana korelacja wzajem-

na

NMI (ang. Normalized Mutual Information) – znormalizowana informacja wza-

jemna

PSO (ang. Particle Swarm Optimization) – algorytm optymalizacji rojem czą-

stek

RGB (ang. Red Green Blue) – model przestrzeni barw, opisywany przez poda-

nie zawartości trzech kolorów podstawowych: R – czerwonego, G – zielonego,

B – niebieskiego

RMSE (ang. Root Mean Squared Error) – błąd średniokwadratowy

ROC (ang. Receiver Operating Characteristic) – krzywa charakterystyki opera-

cyjnej odbiornika

SAD (ang. Sum of Absolute Differences) – suma wartości bezwzględnych róż-

nic

SAR (ang.Synthetic Aperture Radar) – radar z syntetyczną aperturą

SNR (ang. Signal to Noise Ratio) – stosunek sygnału do szumu

12


Wykaz akronimów

SSD (ang. Sum of Squared Differences) – suma kwadratów różnic

SUSAN (ang. Smallest Univalue Segment Assimilating Nucleus) – najmniejszy

segment w obrazie wykazujący się jednorodnością wartości

TSAD (ang. Truncated Sum of Absolute Differences) – ucięta suma wartości bez-

względnych różnic

USG – ultrasonografia

YC1C2 – model przestrzeni kolorów przyjęty przez firmę Kodak

ZNCC (ang. Zero mean Normalized Cross–Correlation) – centralnie znormali-

zowana korelacja wzajemna

ZSAD (ang. Zero mean Sum of Absolute Differences) – centralnie znormalizo-

wana suma wartości bezwzględnych różnic

ZSSD (ang. Zero mean Sum of Squared Differences) – centralnie znormalizowa-

na suma kwadratów różnic

13


Rozdział 1

Wprowadzenie

System wzrokowy człowieka dostarcza mu ciągły potok informacji o otaczają-

cym go świecie. Widzenie i późniejsze przetwarzanie informacji obrazowej odbywa

się praktycznie w każdej chwili, podczas pracy, odpoczynku, a również nieświa-

domie w czasie snu. Procesy pozyskiwania, przetwarzania i interpretacji obrazów

przez człowieka odbywają się bez wkładania w nie świadomego wysiłku.

Postrzegane obrazy niosą ze sobą bardzo wiele różnorodnych informacji. Pierw-

szą warstwą informacji dostarczanej przez obrazy jest ich ogólne znacznie. Obrazy

mogą być wykorzystywane w celach:

dokumentacyjnych, np. zdjęcia z wakacji lub przyjęć rodzinnych,

medycznych, np. zdjęcia tomografii komputerowej lub przebiegi EKG, EEG,

naukowych, np. zdjęcia z teleskopów astronomicznych lub sond kosmicznych,

strategiczno-obronnych, np. zdjęcia z satelitarne lub radarowe,

estetycznych, np. malarstwo i grafika,

biznesowych, np. wykresy zmian walut lub wykresy giełdowej analizy techni-

cznej.

W każdym widzianym obrazie, oprócz głównej treści znaczeniowej, znajdu-

je się wiele elementów, które człowiek rozpoznaje i klasyfikuje w automatyczny,

zazwyczaj zupełnie nieświadomy sposób. Wśród elementów składających się na

widziany obraz, które człowiek dostrzega i rozpoznaje, można wymienić:

jasność: jasny, ciemny, kontur: linia, kąt,

barwa: biały, czarny, kształt: koło, kwadrat,

obiekt: człowiek, samochód, materiał: metal, drewno,

ruch: spada, wznosi się, ilość: dużo, mało,

treść napisów informacyjnych: apteka, bank, odległość: daleko, blisko,

wrażenie estetyczne: ładne, brzydkie, symbol znaczeniowy:

znak drogowy. lokalizacja w przestrzeni: pod, nad, obok, za,

Ze względu na ilość dostarczanej i pozyskiwanej informacji w procesie widze-

nia przez człowieka sposoby symulacji tego procesu stały się bardzo ważną i sze-

14


1. Wprowadzenie

roką dziedziną badań naukowych. Wraz z rozwojem techniki obliczeniowej oraz

technik akwizycji obrazów następuje coraz szybszy rozwój algorytmów umożli-

wiających komputerową analizę obrazu w celu pozyskania i wykorzystania zawartej

w nich informacji.

Analiza i synteza informacji obrazowej stanowi w chwili obecnej rozległą dzie-

dzinę nauki. Można w niej wyróżnić kilka, zazwyczaj zazębiających się, odrębnych

gałęzi. Wszystkie z nich są silnie związane z szeroko rozumianym przetwarzaniem

obrazów. Do najważniejszych należą:

Widzenie maszynowe lub widzenie komputerowe którego celem jest wykre-

owanie modelu świata rzeczywistego z obrazów. System widzenia maszynowego

jest system odtwarzającym użyteczną informację o scenie z jej dwuwymiarowych

projekcji. Zazwyczaj głównym celem tej gałęzi badań są możliwości uzyskania in-

formacji przestrzennej;

Przetwarzanie obrazów jest zbiorem technik umożliwiających przekształcenie

jednego obrazu w inny zmieniony obraz. Z reguły technik tych nie stosuje się do

wydobycia informacji obrazowej, pozostawiając to jako osobne zadanie dla użyt-

kownika. W obszarze tym można wymienić zagadnienia poprawy jakości obrazu,

np. poprzez jego filtrację, detekcję miejsc charakterystycznych, jak krawędzie czy

narożniki, metody kompresji obrazu pozwalające na efektywne magazynowanie

i przesyłanie obrazów, czy też korekcję zniekształceń;

Rozpoznawanie wzorców stanowią metody zajmujące się klasyfikacją danych

numerycznych i symbolicznych. W przypadku przetwarzania danych obrazowych

najczęściej spotykanym zagadnieniem jest automatyczne rozpoznawanie obiektów

na obrazie. Zagadnienie to często występuje w praktyce w systemach przemysło-

wych, gdzie obiekt należy rozpoznać i zaklasyfikować jako wadliwy lub prawidło-

wy. Z technik umożliwiających rozpoznawanie wzorców korzystają również roz-

wiązania umożliwiające detekcję i śledzenie określonych obiektów;

Grafika komputerowa obejmuje techniki służące do generowania obrazów z pod-

stawowych elementów, takich jak linie, koła lub powierzchnie. Grafika komputero-

wa odgrywa bardzo znaczącą rolę w wizualizacji i kreowaniu rzeczywistości roz-

szerzonej i wirtualnej. W ostatnich latach często zazębia się z technikami widzenia

maszynowego;

Rozumienie obrazów jest zbiorem technik opartych na symbolicznym trak-

15


1. Wprowadzenie

towaniu informacji obrazowej, wykorzystujących zazwyczaj informację uzyskaną

w procesie przetwarzania obrazów.

Jedną z cech budowy ludzkiego systemu wzrokowego jest umiejętność postrze-

gania świata w sposób trójwymiarowy. W obecnej chwili możliwość symulacji tej

umiejętności przez sztuczne systemy wizyjne jest jednym z bardzo intensywnie ba-

danych zagadnień leżących w obszarze szeroko rozumianego cyfrowego przetwa-

rzaniu obrazów. Jedną z metod pozwalających na uzyskanie efektu widzenia trój-

wymiarowego wzorującą się na ludzkim systemie wzrokowym jest widzenie stereo-

skopowe. Technika ta wykorzystuje znajomość budowy ludzkiego układu wzroko-

wego. Gałki oczne zastępowane są kamerami, natomiast rolę mózgu ma spełniać

program komputerowy. Idea ta została zilustrowana na rys. 1.1. W ludzkim układzie

Rys. 1.1. Ludzkie postrzeganie stereoskopowe oraz jego maszynowa imitacja.

wzrokowym następuje fuzja dwóch niezależnie uzyskiwanych obrazów w jeden ob-

raz z zawartą w nim informacją przestrzenną. Nie jest to jedyna cecha ludzkiego

mózgu związana z procesem widzenia, która stała się przedmiotem badań. Wśród

innych cech, które próbuje się imitować w maszynowych systemach wizyjnych,

można wymienić np. interpretację widzianego obrazu oraz wykorzystanie rezulta-

tów tej intepretacji do określonego celu.

16


1. Wprowadzenie

Przedmiotem badań stały się również możliwości ludzkiego mózgu w sferze

podejmowania decyzji, umiejętności posługiwania się informacją oraz wyciągania

wniosków. Powstała gałąź nauki, nazywana sztuczną inteligencją, której celem jest

opracowanie metod umożliwiających symulację podobnych zdolności przez sys-

temy komputerowe. Narzędziami sztucznej inteligencji są algorytmy ewolucyjne,

sieci neuronowe wzorujące się wprost na działaniu ludzkiego mózgu, teoria zbio-

rów przybliżonych (ang. rough sets), teoria zbiorów rozmytych (ang. fuzzy sets)

oraz ogólnie pojęte metody inspirowane przyrodą, jak np. algorytmy mrówkowe

lub algorytmy oparte o inteligencję roju. Popularność zyskują również rowiązania

hybrydowe łączące te narzędzia, jak np. rozmyte sieci neuronowe lub rozmyte algo-

rytmy ewolucyjne. Algorytmy te są stosowane do trudnych zadań obliczeniowych,

jak np. do przetwarzania mowy i wizji, budowy systemów ekspertowych i syste-

mów sterowania, wyszukiwania i przetwarzania informacji w coraz to bardziej bo-

gatych bazach danych oraz uczenia się maszyn.

Do metod sztucznej inteligencji należy wspominana wyżej teoria zbiorów roz-

mytych ze stowarzyszoną z nią logiką rozmytą. Teoria zbiorów rozmytych znalazła

swoją stabilną pozycję w algorytmach analizy danych przy założeniu ich niepełne-

go lub nieprecyzyjnego opisu. Logika rozmyta natomiast miała w zamyśle umożli-

wić budowę maszyn wnioskujących naśladujących proces ludzkiego myślenia. Jed-

nym z obszarów zastosowań logiki rozmytej stała się też dziedzina przetwarzania

obrazów. Metody oparte na teorii zbiorów rozmytych umożliwiły w licznych przy-

padkach opracowanie algorytmów pozwalających na uzyskiwanie lepszych rezul-

tatów w stosunku do rozwiązań klasycznych.

Problematyka prezentowanej pracy łączy elementy dwóch teorii: teorii widze-

nia maszynowego i teorii zbiorów rozmytych. Praca stanowi próbę zastosowania

niektórych elementów teorii zbiorów rozmytych w zagadnieniu maszynowego wi-

dzenia steroskopowego, a ściślej mówiąc, jest poświęcona kluczowemu proble-

mowi maszynowego widzenia stereoskopowego, jakim jest problem dopasowania

obrazów pary stereoskopowej będący odpowiednikiem fuzji obrazów wykonywa-

nych przez mózg ludzki. Problem ten, mimo wielu propozycji, nie doczekał się

jeszcze ostatecznego i w pełni zadowalającego rozwiązania. Z tego względu próba

zastosowania teorii zbiorów rozmytych do jego rozwiązania wydaje się interesują-

ca i w pełni uzasadniona tym bardziej, że zastosowanie teorii zbiorów rozmytych

w innych zagadnieniach przetwarzania obrazów przyniosło pozytywne efekty.

17


1. Wprowadzenie

1.1. Uwagi o terminologii przyjętej w pracy

Napisanie pracy technicznej związanej z tematyką przetwarzania obrazów

i sztucznej inteligencji, w którą wpisuje się teoria zbiorów rozmytych, jest zada-

niem trudnym od strony językowej. W związku z szybkim rozwojem obu dziedzin

do określania pewnych pojęć stosowane są terminy nie występujące w języku for-

malnym, zarówno angielskim jak i polskim. Często w języku polskim funkcjonu-

ją proste spolszczenia angielskich terminów, co również utrudnia redakcję tekstu,

bez uniknięcia nieformalnych terminów obiegowych. Z tego względu terminologia

przyjęta w pracy wymaga krótkiego komentarza.

1.1.1. Uwagi o nazewnictwie dotyczącym przetwarzania obrazów

Rozważając systemy wzrokowe przywołuje się stwierdzenie, że większość zwie-

rząt wyposażona jest w dwie gałki oczne. Wykorzystanie dwóch oczu w procesie

widzenia określa się w języku angielskim terminem binocular vision [1]. W języ-

ku polskim wykorzystanie dwóch oczu w procesie widzenia nazywa się widzeniem

obuocznym [2]. Wszystkie zwierzęta posiadające dwoje oczu posługują się widze-

niem obuocznym. Nawet te, których oczy położone są po różnych stronach gło-

wy (ryby, gady) wykazują pewne zdolności do integracji informacji pochodzących

z obu oczu [3]. Większość zwierząt ma jednak tak zbudowany układ wzrokowy,

że obraz jest widziany równocześnie przez oboje oczu, co wykorzystywane jest do

percepcji głębi.

Analogiczną budowę ma układ wzrokowy człowieka, w którym prawie cały

obraz widziany jest niezależnie przez każde z dwóch oczu. Widzenie obuoczne,

oprócz zdolności postrzegania głębi, pozwala także na uzyskanie lepszych rezulta-

tów w koordynacji ruchowej, a także dostrzeganie i rozróżnianie obiektów. Zdol-

ność percepcji głębi określa się w języku angielskim jako stereoscopic vision [1].

Polskim odpowiednikiem tego terminu jest określenie widzenie stereoskopowe [4].

Określenia te dotyczą widzenia polegającego na postrzeganiu trójwymiarowości

przedmiotów i ich przestrzennego rozmieszczenia. Najczęściej widzenie przestrzen-

ne jest związane z widzeniem obuocznym, choć może wystąpić również przy wi-

dzeniu jednoocznym. Wśród przyczyn umożliwiających dostrzeganie głębi przy

widzeniu jednoocznym można wymienić: perspektywę, cienie, wzajemne zasłania-

nie się obiektów, paralaksę ruchu oraz różnice w ostrości widzenia [3]. W układzie

18


1. Wprowadzenie

wzrokowym widzenia obuocznego wykorzystuje się do postrzegania głębi dwie

cechy. Pierwszą z nich jest fiksacja, czyli ustalenie takiej osi widzenia, która łączy

wybrany punkt przestrzeni z miejscem najlepszej ostrości wzroku na siatkówce.

Drugą bardzo ważną cechą umożliwiającą widzenie przestrzenne jest różnica w po-

łożeniu obiektów tworzonych w niezależnych obrazach obu oczu.

Zjawisko zdolności dostrzegania głębi na podstwawie różnic w położeniu

i kształtach określane jest w języku angielskim wyrażeniem stereopsis lub binocu-

lar stereopsis [3]. Różnice te są efektem rozmieszenia oczu, które w konsekwencji

daje różne kąty promieni optycznych, pod którymi widziana jest scena. W języku

polskim istnieje analogiczne określenie stereopsja [5]. Pojęcie to definiuje widze-

nie przestrzenne, czyli postrzeganie głębi, które wynika z fuzji dwóch obrazów

powstających w nieznacznie różnych punktach siatkówek. Pojęcie stereopsji uży-

wane jest głównie w medycynie, jako jeden z trzech warunków, obok widzenia

obuocznego i fuzji (czyli nakładania się i zlewania w ośrodku korowym mózgu

dwu jednakowych obrazów w jeden), które umożliwiają percepcję głębi.

Niestety żaden z powyższych terminów nie jest używany w literaturze tech-

nicznej. Prawdopodobnie przez analogię do terminów computer vision, machine

vision w literaturze anglojęzycznej stosowany jest termin stereo vision [6]. Ter-

min ten jest dość często stosowany na określenie możliwości uzyskania w układzie

stereoskopowym informacji przestrzennej o widzianej scenie przy wykorzystaniu

dwóch przetworników obrazowych. Termin ten nie występuje w słowniku języka

angielskiego [1].

Analogicznie do angielskiego określenia stereo vision, w języku polskim w od-

niesieniu do sytemu zbudowanego z dwóch przetworników obrazowych umożli-

wiających określenie przestrzenne widzianej sceny zaczęło funkcjonować określe-

nie stereowizja [7, 8]. Słowo to nie jest definiowane ani przez encyklopedię [4],

ani przez słowniki języka polskiego [2], i w chwili obecnej można go uznać za

funkcjonujące nieformalnie.

Ważnym pojęciem w dziedzinie widzenia stereoskopowego jest przesunięcie,

które powstaje w dwóch obrazach tej samej sceny, ale otrzymanych z różnych punk-

tów w przestrzeni. W języku angielskim przyjęte zostało określenie binocular di-

sparity lub po prostu disparity [3], używane w sensie różnicy współrzędnych tych

samych punktów na dwóch obrazach [1]. Najbliższymi znaczeniowo tłumaczeniami

terminu disparity są: rozbieżność lub przesunięcie. Niestety nie udało się jak dotąd

19


1. Wprowadzenie

znaleźć trafnego polskiego odpowiednika i w języku polskim funkcjonuje termin

dysparycja, będący spolszczeniem terminu angielskiego [9, 8].

Na określenie dwóch obrazów przedstawiających tę samą scenę widzianą z róż-

nych kątów widzenia funkcjonuje w języku angielskim termin stereo pair [6]. W ję-

zyku polskim do opisania takich obrazów używany jest termin para stereoskopo-

wa, chociaż w nowym wydaniu encyklopedii PWN zamieszona jest również rów-

nież definicja terminu stereopara [4]. W algorytmach umożliwiających rozwiąza-

nie problemu dopasowania pary stereoskopowej jeden z obrazów tej pary jest przyj-

mowany jako obraz referencyjny, nazywany również obrazem odniesienia (ang. re-

ference image), drugi zaś jako obraz przeszukiwania (ang. matching image; target

image) [10, 11, 12]. Jest przy tym rzeczą arbitralną, który z obrazów tworzących

parę stereoskopową wybierany jest jako obraz referencyjny, a który jako obraz prze-

szukiwania.

Usytuowanie dwóch przetworników obrazowych w sposób analogiczny do ludz-

kiego systemu widzenia doczekało się własnego opisu geometrycznego. Opis ten

funkcjonuje w literaturze angielskiej pod nazwą epipolar geometry. Z geometrią tą

związane jest pojęcie punktów środkowych kamer w przestrzeni, które określane są

w języku angielskim jako epipole, oraz pojęcie linii wyznaczanych przez promienie

optyczne przekształcenie rzutowego, określane jako epipolar line. W języku pol-

skiem najbliższe znaczeniowo byłyby tłumaczenia związane z angielskim słowem

pole, czyli biegun. Niektórzy autorzy próbują stosować taką terminologię, nazy-

wając punkty chrakterystyczne przekształcenia biegunami oraz wspomniane linie

liniami biegunowymi [13]. Geometria układu jest nazywana zazwczaj polskim spo-

lszczeniem geomeria epipolarna. Stosowane są również często spolszczenia: punkt

epipolarny oraz linia epipolarna [9, 8].

W pracy autor zdecydował się używać terminu maszynowe widzenie stereo-

skopowe lub jego formę skróconą widzenie stereoskopowe. Chociaż wydaje się, że

określnie stereowizja będzie wkrótce pełnoprawną nazwą, na razie zostało uznane

jako termin nieformalny. Podobnie, na określenie pary obrazów umożliwiających

określenie głębi w pracy używany jest termin para stereoskopowa, chociaż termin

stereopara jest już zwrotem uznanym za poprawny. Ze względu na popularność

określenia dysparycja, jak również problemy w oddaniu znaczenia tego pojęcia

innym terminem, autor zdecydował się używać w pracy tego właśnie określenia,

mając nadzieję, że z określenia obiegowego stanie się ono wkrótce terminem uzna-

20


1. Wprowadzenie

nym przez językoznawców. Podobnie w przypadku opisu geometrii układu dwóch

kamer będą używane polskie spolszczenia terminów angielskich. Są one już tak

utartymi zwrotami, że wprowadzanie jakichkolwiek innych polskich odpowiedni-

ków wprowadziłoby dodatkową niespójność w stosowanym nazewnictwie.

1.1.2. Uwagi o nazewnictwie dotyczącym teorii zbiorów rozmytych

W obszarze zastosowań teorii zbiorów rozmytych również istnieją rozbieżności

związane z nazewnictwem pojęć i operacji występujących w tej teorii. Podstawową

operacją, jaką wykorzystuje się w aplikacjach zbiorów rozmytych jest zmiana dzie-

dziny opisu umożliwiająca opis zmiennych za pomocą elementów teorii zbiorów

rozmytych. Termin określający tę operację brzmi po angielsku fuzzification, często

również spotykany w formie fuzzyfication. Najbliższym znaczeniowo polskim tłu-

maczeniem jest rozmywanie. Termin ten bywa czasami stosowany [14], ale częściej

przyjmuje się spolszczenie angielskiego terminu, a mianowicie fuzyfikacja [14] lub

fuzzyfikacja [15].

Drugą fundamentalną operacją jest zamiana wielkości rozmytej na wielkość

nierozmytą. Terminem angielskim określającym tę operację jest defuzzification,

często również występujący w literaturze w formie defuzzyfication. Polskim odpo-

wiednikiem jest ostrzenie lub wyostrzanie [16], ale zazwyczaj używane jest polskie

spolszczenie defuzyfikacja [14] lub defuzzyfikacja [15].

Trzecim terminem, który jest kluczowy w teorii zbiorów rozmytych, jest okre-

ślanie wartości poprzez zastosowanie elementów logiki na zbiorach roztmytych.

Angielskim terminem określającym to działanie jest inference. Istnieje również

polskie spolszczenie tego słowa brzmiące inferencja [14], choć autor pracy skła-

niałby się tutaj do używania polskiego tłumaczenia wnioskowanie [17].

W pracy przyjęty został termin fuzzyfikacja, jako już zwyczajowo używany

w większości polskojęzycznych publikacji. W prezentowanych algorytmach nie

będzie wykorzystywany mechanizm wnioskowania, dlatego uniknięto konieczno-

ści stosowania terminów defuzzyfikacja oraz wnioskowanie, które również wydają

się już standardowymi zwrotami w polskiej literaturze dotyczącej zbiorów rozmy-

tych. W miejscach, gdzie mogłyby się pojawić wątpliwości dotyczące stosowanego

nazewnictwa, podane zostały ich angielskie odpowiedniki. Również wtedy, kiedy

stosowane będą akronimy angielskich terminów, pozostawione zostały ich orygi-

21


1. Wprowadzenie

nalne nazwy, z podanym pełnym rozwinięciem. Intencją autora było tu ułatwienie

redakcji tekstu, bez zbędnego definiowania nazw własnych.

1.2. Teza i cel pracy

Zasadniczą tezę pracy można sformułować następująco: W celu efektywnego

rozwiązania problemu dopasowania pary stereoskopowej możliwe jest opracowa-

nie metod i algorytmów przetwarzania obrazów par stereoskopowych opartych

na teorii zbiorów rozmytych. Ich zastosowanie umożliwia uzyskanie nie gorszej,

a w niektórych przypadkach lepszej jakości dopasowania, ocenianej na podsta-

wie odpowiednich miar jakości, w porównaniu z jakością dopasowania osiąganą

za pomocą odpowiadających im metod i algorytmów znanych z literatury i nie

wykorzystujących teorii zbiorów rozmytych.

Powinnością rozprawy doktorskiej jest oczywiście przeprowadzanie dowodu

postawionej tezy. Aby udowodnić tezę rozprawy autor opracował własną koncepcję

i metodykę wykorzystania elementów teorii zbiorów rozmytych, której celem było

efektywne rozwiązanie problemu dopasowania pary stereoskopowej. Składa się na

nią zarówno dobór i sformułowanie metod umożliwiających rozwiązanie problemu

dopasowania z wykorzystaniem zbiorów rozmytych, jak i przeprowadzenie analizy

i oceny uzyskanych rezultatów. Ważnym aspektem pracy jest również przeprowa-

dzenie analizy porównawczej efektywności działania opracowanych algorytmów

z algorytmami znanymi z literatury.

1.3. Główne rezultaty pracy

Do głównych osiągnięć autorskich pracy, stanowiących zarazem element do-

wodu postawionej tezy, należy:

algorytm znajdowania krawędzi w obrazie w oparciu o relację rozmytą [18]

(p. 5.7, str. 139),

algorytm dopasowania cech w oparciu o rozmyty detektor krawędzi [19] (p. 5.8.3,

str. 148),

algorytm znajdowania funkcji przynależności dla pikseli obrazu umożliwiający

jego opis w dziedzinie zbiorów rozmytych [20] (p. 5.4, str. 121),

22


1. Wprowadzenie

algorytm wykorzystujący metodę fuzzyfikacji do dziedziny zbiorów intuicjo-

nistycznych oraz jego zastosowanie w problemie dopasowania pary stereosko-

powej [21] (p. 5.6, str. 131 oraz p. 5.6.4, str. 137),

zastosowanie opracowanej metody fuzyfikacji obrazu do rozwiązanie dopaso-

wania pary obrazów stereoskopowych (p. 5.5, str. 129),

sformułowanie metody umożliwiającej obliczanie rozmytej transformaty ran-

kingowej oraz jej zastosowanie w problemie dopasowania pary stereoskopowej

(p. 5.9, str. 150).

Należy podkreślić, że opracowane metody i algorytmy: wykrywania krawędzi,

wyznaczania funkcji przynależności oraz metoda opisu obrazu w dziedzinie intu-

icjonistycznych zbiorów rozmytych są na tyle ogólne, że mogą być wykorzystane

w praktycznie dowolnym zagadnieniu widzenia maszynowego, nie ograniczając za-

kresu ich zastosowania do problemu rozwiązywanego w pracy. Warto także wspo-

mnieć, że autor podjął również badania mające na celu wykorzystanie teorii zbio-

rów rozmytych w zagadnieniu trójwymiarowej rekonstrukcji obserwowanej sceny,

uzyskując dobre jakościowo rezultaty [22]. Opracowany algorytm rekonstrukcji nie

jest jednak ściśle związany z tezą pracy i z tego względu nie będzie prezentowany.

1.4. Układ pracy

Praca składa się z ośmiu rozdziałów.

Rozdział 1, kończący się w tym miejscu, stanowi ogólne wprowadzenie do

zagadnień rozważanych w dalszych częściach pracy. Przedstawiono w nim uwagi

dotyczące terminów pojawiających się w dalszych częściach pracy, sformułowano

cele i tezę pracy oraz przedstawiono osiągnięcia autora dotyczące tematu pracy.

Rozdział 2 charakteryzuje w ogólny sposób zagadnienie widzenia stereosko-

powego, a w szczególności problem dopasowania pary stereoskopowej. Przedsta-

wiono w nim podstawowe zagadnienia geometryczne związane z akwizycją obra-

zów pary stereoskopowej. Wprowadzono modele geometryczne akwizycji jednego

obrazu, jak również model geometryczny umożliwiający akwizycję i późniejszą

analizę prawidłowej pary stereoskopowej, tj. takiej pary obrazów, która obrazu-

je tę samą scenę z różnych punktów widzenia. W ramach omówienia zagadnień

geometrycznych przedstawiono algorytm rektyfikacji obrazu, jako algorytm wy-

23


1. Wprowadzenie

konywany zwykle we wstępnej fazie analizy pary stereoskopowej i poprzedzają-

cy etap optymalizacji dopasowania. W dalszym ciągu przedyskutowano założenia

i ograniczenia przyjmowane przy konstruowaniu algorytmów dopasowania pary

stereoskopowej. Część z tych założeń i ograniczeń wynika z przyjętego modelu

geometrycznego, inne są uwarunkowane zawartością obrazowanej sceny.

Rodział 3 stanowi przegląd znanych z literatury metod i algorytmów wykorzy-

stywanych do rozwiązania problemu dopasowania pary stereoskopowej. Algorytmy

te podzielono na dwa podstawowe typy, a mianowicie algorytmy globalne, w któ-

rych dopasowywany jest pełny obraz, oraz algorytmy dopasowania cech, w któ-

rych dopasowywane są wyróżnione elementy bądź też cechy obrazu. W literaturze

znanych jest bardzo wiele propozycji konstrukcji zarówno algorytmów dopasowa-

nia globalnego, jak i algorytmów dopasowania cech, różniących się odmiennym

podejściem do rozwiązania problemu dopasowania, różnymi kryteriami optymal-

ności dopasowania i różnymi technikami optymalizacji. Z uwagi na ograniczone

ramy pracy bardziej szczegółowo omówiono jedynie najbardziej reprezentatyw-

ne, a wśród nich algorytm Marra-Poggio-Grimsona, który wybrano jako algorytm

odniesienia w celu porównania efektywności własnych algorytmów zaproponowa-

nych przez autora w pracy i opartych na teorii zbiorów rozmytych. Inne algorytmy

scharakteryzowano jedynie w sposób ogólny.

Rozdział 4 stanowi wprowadzenie do teorii zbiorów rozmytych. Przedstawiono

w nim podstawowe pojęcia i definicje, jak również formalizm matematyczny teorii

zbiorów rozmytych. Ograniczono się jedynie do tych elementów tej teorii, które

są dalej wykorzystywane w pracy. Omówiono również podstawowe pojęcia oraz

niektóre elementy teorii intuicjonistycznych zbiorów rozmytych, także w ujęciu

dostosowanym do potrzeb pracy w zakresie niezbędnym do przedstawienia autor-

skich propozycji algorytmów wykorzystujących ten właśnie formalizm.

Rozdział 5 zawiera głównie opis autorskich algorytmów wykorzystujących

w swoim działaniu elementy teorii zbiorów rozmytych i intuicjonistycznych zbio-

rów rozmytych służące do rozwiązania problemu dopasowania obrazów pary ste-

reoskopowej.

Rodział 6 poświęcono metodom badania efektywności rozwiązań algorytmicz-

nych. Omówiono w nim metody i miary zastosowane do obiektywnej oceny jakości

algorytmów. Przedstawiono przykłady par stereoskopowych obrazów, dla których

24


1. Wprowadzenie

dokonano weryfikacji doświadczalnej jakości algorytmów. Wprowadzono cztery

typowe modele zakłóceń szumowych, dla których przeprowadzone zostały badania

doświadczalne zarówno opracowanych przez autora algorytmów, jak i algorytmów

referencyjnych znanych z literatury.

Rozdział 7 zawiera głównie numeryczną analizę efektywności zaproponowa-

nych przez autora rozwiązań algorytmicznych. Przedstawiono wyniki badań eks-

perymentalnych przeprowadzonych dla par testowych w przypadku zastosowania

algorytmów referenycjnych jak i algorytmów opracowanych przez autora. Zawarto

w nim również porównanie otrzymywanych rozwiązań. Ważnym aspektem przed-

stawionym w tym rozdziale było przebadanie odporności zaproponowanych algo-

rytmów na różnego typu zakłócenia.

Rodział 8 kończy pracę. W rodziale tym podsumowano otrzymane wyniki ba-

dań eksperymentalnych, sformułowano wnioski wynikające z przeprowadzonych

badań, przedstawiono w formie syntetycznej główne rezultaty pracy oraz wskazano

na kierunki możliwych dalszych badań nad zastosowaniem teorii zbiorów rozmy-

tych w problematyce dopasowania pary stereoskopowej obrazów.

25


Rozdział 2

Zagadnienie widzenia stereoskopowego

W rozdziale wprowadzono podstawowe pojęcia i definicje dotyczące zagadnie-

nia maszynowego widzenia stereoskopowego. Przedstawiono także krótkie wpro-

wadzenie do zagadnień związanych z geometrią układu stereoskopowego. Omó-

wiono główne problemy i założenia przyjmowane podczas projektowania systemu

maszynowego widzenia stereoskopowego.

2.1. Maszynowe widzenie stereoskopowe

Widzenie stereoskopowe jest pasywną techniką umożliwiającą akwizycję obra-

zów trójwymiarowych. W technice tej informacja o trzecim wymiarze (odległości)

określana jest na podstawie przesunięcia występującego między dwoma obrazami

przedstawiającymi tę samą scenę, lecz widzianą z różnych punktów przestrzeni.

Ludzki układ widzenia postrzega głębię widzianej sceny w sposób naturalny, bez

dodatkowego świadomego wysiłku wkładanego w ten proces.

W zagadnieniach widzenia maszynowego algorytmy próbujące naśladować dzia-

łanie ludzkiego układu wzrokowego w zakresie postrzegania głębi stały się ważną

i intensywnie rozwijaną gałęzią badań. Analogicznie do dwóch obrazów tworzo-

nych na gałkach ocznych ludzkiego układu wzrokowego, w maszynowym widze-

niu stereoskopowym następuje akwizycja dwóch obrazów, które następnie muszą

zostać przetworzone i zinterpretowane. Na rys. 2.1 przedstawione zostały typowe

etapy przetwarzania, jakie można wyróżnić w komputerowym systemie widzenia

stereoskopowego. Pierwszym krokiem w pełni kompletnego procesu przetwarza-

nia obrazów stereoskopowych jest ich akwizycja. Etap ten związany jest z wyborem

przetworników obrazowych pod kątem ich właściwości optycznych i elektrycznych.

W zależności od zastosowań, dobierane są w nim rozdzielczości przetworników ob-

razowych, ich pasmo działania (widzialne, na podczerwień), czułości oraz wszyst-

kie pozostałe parametry techniczne. Na tym etapie rozważane są również zależno-

ści i uwarunkowania mechaniczne budowanego układu, jak również określana jest

26


2. Zagadnienie widzenia stereoskopowego

Akwizycja obrazówpary stereoskopowej

Rektyfikacja obrazówpary stereoskopowej

Wstępne przetwarzanieobrazów pary

stereoskopowej

Dopasowanieobrazów pary

stereoskopowej

Rekonstrukcjagłębi sceny

Wykorzystanie wyniku

Obrazy parystereoskopowej

Zrektyfikowanapara obrazów

Wyszukane cechy obrazówTransformaty obrazów

Obrazy po filtracji

Mapa dysparycji

Mapa głębi

Parametry kamer orazgeometria i orientacja układu

akwizycji

Rys. 2.1. Główne etapy ogólnego systemu komputerowego realizującego widzeniestereoskopowe

geometria układu (np. odległość przetworników obrazowych, kąt skręcenia umoż-

liwiający widzenie tego samego obszaru).

Drugim krokiem, zaliczanym już do procesów przetwarzania otrzymanych ob-

razów, jest ich rektyfikacja. Etap ten pozwala na zmniejszenie zagadnienia poszu-

kiwania dopasowania z dwóch wymiarów (przesunięcie pionowe i poziome) do

27



jednego, tj. poszukiwania wartości różnicy położenia pomiędzy tymi samymi punk-

tami tylko w kierunku poziomym (por. p. 2.4.1).

Jako etap przetwarzania wstępnego obrazów można rozumieć ogólne algoryt-

my poprawy ich jakości. Może to być: zastosowanie filtracji, korekcja zniekształceń

geometrycznych wnoszonych przez układy optyczne, ekstrakcja cech lub zmiana

przestrzeni barw. W zależności od konkretnej realizacji systemu widzenia, techniki

te mogą umożliwić uzyskiwanie lepszych wyników w czasie działania algorytmu

dopasowywania.

Najbardziej złożonym krokiem całego systemu, któremu poświęcona jest pre-

zentowana praca, jest etap dopasowania obrazów otrzymanej pary. Ze względu na

różnicę w położeniu przestrzennym przetworników obrazowych w obrazach wy-

stępuje przesunięcie we współrzędnych określających położenie poszczególnych

elementów sceny. Celem tego kroku jest znalezienie jak największej liczby praw-

dziwych wartości przesunięć występujących w obrazach. Wartość różnicy poło-

żenia elementu (piksela) p w obrazach jest nazywana dysparycją i oznaczana dp,

natomiast wartości określone dla wszystkich pikseli obrazów są nazywane mapą

dysparycji i oznaczane d. Uzyskanie tej mapy jest efektem przeprowadzenia proce-

su dopasowania obrazów pary stereoskopowej. Otrzymana mapa dysparycji może

zostać dodatkowo poddana pewnemu procesowi przetwarzania końcowego, którym

może być jej filtracja lub interpolacja. Krok ten nie został wyróżniony na rys. 2.1

jako jeden z głównych etapów procesu maszynowego widzenia stereoskopowego,

ale czasami jest wykonywany jako krok pośredni umożliwiający poprawę uzyski-

wanych wyników.

Dysponując mapą dysparycji d oraz znając geometrię układu, dla którego zo-

stała ona wyznaczona, możliwe jest obliczenie metrycznych wartości odległości

w przestrzeni trójwymiarowej widzianej sceny. Wynik wyrażony w jednostkach

metrycznych nazywany jest mapą głębi i określa odległość obrazowanego elemen-

tu sceny od przetwornika obrazowego. Zagadnienie to jest nazywane rekonstrukcją

i jest jednym z podstawowych zadań, jakie stawiane jest przed systemami maszy-

nowego widzenia stereoskopowego.

Końcowym etapem jest wykorzystanie otrzymanych wyników. Jako obszary

zastosowań widzenia stereoskopowego można przytoczyć przykłady: wizualizacji

sceny trójwymiarowej (np. w przemyśle filmowym, grach komputerowych, w ce-

lach digitalizacji zbiorów muzealnych), algorytmów tworzenia rzeczywistości roz-

28



szerzonej (np. wirtualne tablice w e-nauczaniu), aplikacji w medycynie (a szcze-

gólnie telemedycynie) oraz zastosowań w algorymach nawigacji (np. w robotach

mobilnych).

Poniżej przedstawione zostaną podstawowe zagadnienia związane z geometrią

układu stereoskopowego. Umożliwia to bardziej szczegółowe zdefiniowanie pro-

blemu dopasowania obrazów pary stereoskopowej oraz dokonanie przeglądu algo-

rytmów rozwiązujących zagadnienie dopasowania.

2.2. Podstawy geometrii układu stereoskopowego

Rozważanie zagadnień widzenia stereoskopowego, a szczególnie niektórych je-

go elementów, jak metryczna lokalizacja widzianych obiektów w przestrzeni lub

rekonstrukcja obserwowanej sceny, wymaga zastosowania złożonego aparatu geo-

metrii rzutowej. W pracy przedstawione zostaną tylko podstawowe elementy po-

zwalające na wyjaśnienie ograniczeń i założeń, jakie zostały przyjęte na etapie do-

świadczeń eksperymentalnych.

W prezentowanych dalej zagadnieniach autor zdecydował się nie wprowadzać

aparatu współrzędnych jednorodnych pozwalającego na zapisywanie praktycznie

wszystkich zależności w postaci rachunku macierzowego. Zapis w postaci macie-

rzowej umożliwia łatwiejszą implementację w programach komputerowych, ale nie

wnosi nic nowego do ogólnych zasad geometrycznych układu stereoskopowego.

Poszczególne zagadnienia omówiono z wykorzystaniem rachunku geometrii eu-

klidesowej, który jest wystarczający do podstawowego opisu zależności procesu

powstawania i akwizycji obrazów stereoskopowych.

Geometria rzutowa wraz z zapisem macierzowym przy zastosowaniu współ-

rzędnych jednorodnych stała się samodzielną gałęzią badań nad maszynowymi sys-

temami widzenia. Problematyka systemów widzenia stereoskopowego została omó-

wiona w kilku monografiach, które stały się praktycznie pozycjami klasycznymi

tej dziedziny, skupiającymi się jedynie na opisie zagadnień geometrycznych takich

systemów. Obszerne opisy geometrii stosowanej w analizie obrazów stereoskopo-

wych można znaleźć w dedykowanych tym zagadnieniom pozycjach, np. [23, 24]

oraz w rozdziałach książek poświęconych zagadnieniom przetwarzania obrazów

[25, 26, 27] lub w artykułach, gdzie oprócz podstaw geometrii układów widzenia

29



stereoskopowego prezentowane są szczegółowe zagadnienia przekształceń rzuto-

wych [28, 29, 30].

2.2.1. Model kamery perspektywicznej

Elektroniczne urządzenia służące do akwizycji obrazów, podobnie jak ludzkie

oko, wykonują przekształcenie trójwymiarowej przestrzeni rzutowej P3 na dwu-

wymiarową płaszczyznę – rzutnię P2 . Na płaszczyźnie rzutni tworzony jest płaski

dwuwymiarowy obraz widzianej przestrzeni trójwymiarowej.

Modelowanie takiego przekształcenia jest istotnym zagadnieniem przetwarza-

nia obrazów. Jednym z najczęściej stosowanych modeli procesu akwizycji obrazu

jest model kamery perspektywicznej (ang. pin-hole camera) [31, 32], przedstawio-

ny na rys. 2.2. W przypadku, gdy prosty model przekształcenia perspektywicznego

nie jest wystarczający, uzupełniany jest on o parametry opisujące zniekształcenia

geometryczne wnoszone przez układ optyczny kamery [33, 34, 35] lub stosowany

jest model uwzględniający nieliniowości przekształcenia rzutowego [36, 37].

Dla zagadnień prezentowanych w pracy model kamery perspektywicznej jest

wystarczający, dlatego zostanie przedstawiony bardziej szczegółowo.

W modelu liniowej kamery perspektywicznej przedstawionym na rys. 2.2 obraz

każdego punktu trójwymiarowej przestrzeni tworzony jest na płaszczyźnie obrazu

Ψ będącej częścią rzutni P2. Kamera reprezentowana jest przez przez punkt ogni-

skowy Oc (czasami nazywany również środkiem optycznym lub punktem central-

nym projekcji) [38, 39, 40]. Punkt ogniskowy kamery Oc rzutowany prostopadle na

płaszczyznę obrazową Ψ wyznacza na niej punkt główny o (0, 0, f ) . Prosta łącząca

punkt ogniskowy kamery Oc i przechodząca przez punkt główny o wyznaczony na

płaszczyźnie obrazowania Ψ nazywana jest osią optyczną. Natomiast proste łączą-

ce dowolny punkt P przestrzeni z punktem ogniskowym Oc kamery nazywane są

promieniami optycznymi. Obraz tworzony jest na płaszczyźnie Ψ odległej o pewną

wartość f nazywaną ogniskową kamery, która jest jej parametrem.

Z przekształceniem rzutowym przedstawionym na rys. 2.2 związany jest ze-

wnętrzny układ współrzędnych Ow niezależny od położenia i właściwości kamery

oraz układ współrzędnych z nią związany, o początku umieszczonym w punkcie

ogniskowym kamery Oc. Położenie dowolnego punktu przestrzeni P określone jest

przez wektor Pw =[

xw, yw, zw]

w zewnętrznym układzie współrzędnych oraz wek-

tor Pc = [u,w, v] w układzie współrzędnych kamery. Pomiędzy układami współ-

30



R t

Pc

Pw

Układ współrzędnychkamery

Zewnętrzny układwspółrzędnych

Układ współrzędnychobrazu

Punkt sceny

Rzut punktu P

P (x, y, z)

p (u,w, v)

Oś optyc

zna

Promień

optyc

zny

PłaszczyznaobrazowaniaΨ

Punkt główny

f

o (0, 0, f )

Oc

yc

xc

zc

Oi

xi

yi

Owxw

ywzw

Rys. 2.2. Liniowy model kamery perspektywicznej powstawania dwuwymiarowe-go obrazu p punktu P z przestrzeni trójwymiarowej.

rzędnych zewnętrzym Ow oraz kamery Oc istnieje jednoznaczne przekształcenie,

pozwalające na zamianę współrzędnych wyrażonych w obu układach współrzęd-

nych. Wzajemna zależność pomiędzy układami współrzędnymi układu zewnętrz-

nego i kamery jest złożeniem przesunięcia wyrażonego za pomocą wektora trans-

lacji t i macierzy rotacji R . Wektor translacji jest trzyelementowym wektorem

zawierającym przesunięcie układu współrzędnych kamery Oc wzdłuż każdej z osi

zewnętrznego układu współrzędnych Ow , natomiast macierz rotacji R jest macie-

rzą o wymiarach 3 × 3 zawierającą kąty obrotu układu współrzędnych kamery Oc

względem każdej osi zewnętrznego układu współrzędnych Ow.

Korzystając z prostych zależności geometrycznych (podobieństwa trójkątów),

współrzędne obrazu p pewnego wyróżnionego punktu przestrzeni P, wyrażone

w układzie współrzędnych kamery Oc, mogą być opisane wyrażeniem [38, 23]:

u = fxw

z, w = f

yw

z, v = f (2.1)

gdzie xw, yw, zw są współrzędnymi punktu P wyrażonymi w zewnętrznym ukła-

31



dzie współrzędnych Ow, natomiast u,w, v są współrzędnymi obrazu punktu p wy-

rażonymi w układzie współrzędnych kamery Oc. Współrzędne położenia punktu

w układzie kamery mogą zostać wyznaczone również na podstawie znajomości

współrzędnych punktu w zewnętrznym układzie współrzędnych oraz parametrów

geometrycznych układu stereoskopowego. W przypadku, gdy określony został wek-

tor translacji t oraz macierz rotacji R, przejście pomiędzy zewnętrznym układem

współrzędnych Ow i układem współrzędnych kamery Oc odbywa się według zależ-

ności:

Pc = R (Pw − t) (2.2)

gdzie Pc to wektor współrzędnych punktu określający jego położenie w układzie

współrzędnych związanym z kamerą, natomiast Pw to wektor współrzędnych punk-

tu wyrażonych w zewnętrznym układzie współrzędnych Ow. Macierz rotacji R oraz

wektor translacji t nazywane są parametrami zewnętrznymi kamery, natomiast wy-

znaczanie ich wartości związane jest z zagadnieniem kalibracji kamery [41, 42].

Ostatnim etapem powstawania obrazu cyfrowego jest przekształcenie dowolnej

ciągłej funkcji dwóch zmiennych przestrzennych reprezentujących umowną inten-

sywność nośnika obrazu do jej reprezentacji w formie cyfrowej. Umownym no-

śnikiem obrazu może być wybrany zakres promieniowania elektromagnetyczne-

go, wiązka korpuskuł w polu elektrycznym lub magnetycznym albo powierzchnio-

wy rozkład temperatury. W przedstawianej pracy rozważane są obrazy otrzymane

w efekcie przekształcenia widzialnego zakresu widma elektromagnetycznego pa-

dającego na płaszczyznę obrazowania Ψ (rys. 2.3a). Natomiast jako obraz cyfrowy

rozumiana jest reprezentacja dyskretna tej ciągłej funkcji promieniowania elektro-

magnetycznego z zakresu widzialnego padającej na płaszczyznę obrazowania Ψ.

Wartości liczbowe odpowiadające intensywności promieniowania reprezetują ja-

sność powstającego obrazu.

Wynikowy obraz cyfrowy charakteryzowany jest również za pomocą dwóch pa-

rametrów: rozdzielczości przestrzennej obrazu, która określana jest przez wymiar

macierzy wynikowego obrazu cyfrowego (rys. 2.3d) oraz rozdzielczość poziomów

szarości (często nazywanych równoważnie jako poziomy jasności) określoną przez

ich liczbę w wynikowym obrazie cyfrowym (rys. 2.3c). Najmiejszy element ob-

razu cyfrowego otrzymany w wyniku dyskretyzacji nazywany jest pikselem. Licz-

ba pikseli i poziomów jasności może być w ogólnym przypadku dowolna, jednak

względy technologiczne i sposób reprezentacji danych w technice komputerowej

32



powoduje, że wartości te są zazwyczaj wielokrotnościami liczby 2, np. 512 × 512

pikseli i 256 poziomów jasności [35]. W przedstawianej pracy rozważane są obrazy

przedstawiane w skali szarości o 8 bitowej reprezentacji poziomów jasności (a więc

ich liczba jest równa 256) oraz o rozmiarze zależnym od określonej testowej pary

stereoskopowej (por. p. 6.3).

[

ox, oy

] x

y

Obrazowanypunkt sceny

Płaszczyznaobrazowania

Ψ

(a) Ciągła funkcja nośnika obrazu określonana płaszczyźnie obrazowania Ψ

pikselp (i, j)

Obrazowanypunkt sceny

(x,y)

kolumna j

wiersz i

[0,0] j

i

N kolumn

M wierszy

(b) Przestrzenna dyskretyzacja ciągłej funkcji no-śnika obrazu zachodząca w przetworniku ob-

razowym

2k poziomów kwantowania

k-t

ypo

ziom

jasn

o-ci

i-tywiersz

M wierszy

N kolumn

j-takolumna

(c) Dyskretyzja i kwantyzacja amplitudy cią-głej funkcji promieniowania w celu otrzy-

mania wartości liczbowych

i-tywiersz

M wierszy

N kolumnj-ta kolumna

[0, 0]

(d) Płaska reprezentacja otrzymanego obra-zu cyfrowego w formie macierzy liczb(nazywanej macierzą wartości jasności).Różnym wartościom liczbowym odpo-

wiadają różne odcienie szarości.

Rys. 2.3. Zobrazowanie tworzenia cyfrowej reprezentacji obrazu przez dyskretyza-cję i kwantyzację ciągłej funkcji nośnika obrazu

Z obrazem cyfrowym zazwyczaj związany jest układ współrzędnych pikselo-

wych, którego początek znajduje się „w lewym górnym rogu”, natomiast wartości

zmieniają się w „dół” i w „prawo”. Położenie danego piksela określa się przez po-

danie numeru wiersza i kolumny, w której się on znajduje. Początek tego układu

współrzędnych jest oznaczony na rys.2.2 przez Oi , a osie przez xi i yi.

33



Przeliczenie współrzędnych położenia punktu należącego od obrazu z układu

współrzędnych związanym z kamerą Oc na układ współrzędnych pikselowych Oi

przy założeniu, że osie obu układów współrzędnych mają zgodne zwroty, odbywa

się zgodnie z zależnościami:

xi = u/sx + ox i u = (xi − ox) sx

yi = v/sy + oy i v = (yi − oY ) sy

(2.3)

gdzie u, v to współrzędne punktu wyrażone w układzie współrzędnych związanych

z kamerą Oc, xi, yi są współrzędnymi punktu wyrażonymi w układzie współrzęd-

nych pikselowych Oi, ox i oy są współrzędnymi punktu głównego o przekształcenia

(wyrażone w numerach pikseli przyjmują wartości ox = N /2 i oy = M/2, jeżeli

punkt główny znajduje się w środku obrazu wynikowego o rozmiarze M × N),

zaś parametry sx oraz sy opisują fizyczne rozmiary uzyskanego piksela wyrażo-

ny w jednostkach metrycznych, zazwyczaj milimetrach. W przypadku stosowania

przetworników CCD (ang. Charge Coupled Device) wartości te określają rozmiary

pojedynczego elementu światłoczułego rejestrującego padające na niego światło.

Dwa rozmiary wynikają z faktu, że w rzeczywistych przetwornikach CCD elemen-

ty światłoczułe mogą przyjmować kształt kwadratu (wtedy sx = sy) lub prostokąta

(wtedy sx , sy) [43].

W ogólnym przypadku wartości współrzędnych otrzymywane przez zastosowa-

nie wzorów (2.3) są wartościami ułamkowymi. Jednak w praktycznych realizacjach

stosuje się zaokrąglanie otrzymanych wartości do liczb całkowitych.

Czasami wprowadzane są dodatkowe parametry, jak np. skośność, która może

wystąpić, gdy w czasie produkcji kamery przetwornik optyczny nie został umiesz-

czony dokładnie prostopadle do płaszczyzny tworzenia obrazu lub sam przetwornik

nie jest dokładnie prostokątny [44]. Wszystkie parametry opisujące zmianę układu

współrzędnych z układu kamery do współrzędnych pikselowych zbierane są w for-

mie macierzy i nazywane parametrami wewnętrznymi kamery [42].

2.3. Geometria układu dwóch kamer

Akwizycja pary stereoskopowej wymaga zastosowania dwóch kamer oraz zna-

jomości ich relatywnego położenia względem siebie. Model układu złożonego

z dwóch kamer perspektywicznych, wraz ze związanymi z nim zależnościami geo-

34



metrycznymi, definiuje tzw. geometrię epipolarną, której model został przedsta-

wiony na rys. 2.4. Model ten jest bardzo dobrze znany i praktycznie zawsze stoso-

wany podczas analizy obrazów pary stereoskopowej [45, 46, 23, 38, 39].

PM

m1

m2

p1p2

e1 e2

O1 O2

lp2Ψ1

Ψ2

ψpψm

lp1

lm1

lm2

Rys. 2.4. Geometria epipolarna układu dwóch kamer perspektywicznych

W układzie dwóch kamer ważnym elementem jest linia łącząca punkty ogni-

skowe kamer O1 i O2, która nazywana jest linią bazową (ang. baseline) układu.

Linia ta przecina płaszczyzny tworzenia się obrazów Ψ1 i Ψ2 w punktach e1 i e2,

nazywanych punktami epipolarnymi (ang. epipoles). Dowolny punkt sceny widzia-

ny przez obydwie kamery (P i M na rys. 2.4), wraz z odpowiadającymi im pro-

mieniami optycznymi prowadzącymi do kamer, definiują płaszczyzny epipolarne

(ang. epipolar planes), ψp i ψm. Płaszczyzny te przecinają płaszczyzny obrazowa-

nia, wyznaczając linie epipolarne (ang. epipolar lines), odpowiednio lp1 i lp2 dla

punktu P oraz lm1 i lm2 dla punktu M. Linie epipolarne wyznaczane są również

przez projekcję promienia optycznego związanego z jedną kamerą na płaszczyznę

obrazową związaną z drugą kamerą. Wszystkie linie epipolarne związane z jedną

kamerą przecinają się w odpowiadającym im punkcie epipolarnym.

Niech p1 i m1 będą rzutami pewnych punktów przestrzeni P i M na płaszczyznę

obrazową jednej z kamer, zaś p2 i m2 odpowiadającymi im rzutami na płaszczyznę

drugiej kamery. Promienie optyczne O1P i O1M, które definiują położenie obra-

zów punktów na płaszczyźnie obrazowej Ψ1, widziane są jako linie epipolarne lp2

35



i lm2 na drugiej płaszczyźnie obrazowej Ψ2. Tak więc, punkt p2 odpowiadający

punktowi p1, musi leżeć na linii epipolarnej lp2 określonej przez promień optycz-

ny O1P rzutowany na płaszczyznę obrazową Ψ2. Analogiczna zależność zachodzi

dla obrazów punktu M, dlatego punkt m2 odpowiadający punktowi m1 musi leżeć

na linii epipolarnej lm2 wyznaczonej przez promień optyczny O1M rzutowany na

płaszczyznę obrazową Ψ2.

Sytuacja ta jest oczywiście symetryczna i jeżeli pod uwagę zostanie wzięta dru-

ga płaszczyzna obrazowa Ψ1, to punkty p1 i m1 muszą leżeć na odpowiednich li-

niach epipolarnych lp1 i lm1 wyznaczanych przez rzuty rzuty promieni optycznych

O2P i O2M przechodzących przez punkty p2 i m2 na płaszczyźnie obrazowej Ψ2.

Tak więc, miejsce rzutu dowolnego punktu na jedną płaszczyznę nie jest dowolne,

lecz określone przez odpowiadające im linie epipolarne. Właściwość ta jest znana

pod nazwą ograniczenia epiplarnego (ang. epipolar constraint) i jest jedną z fun-

damentalnych właściwości maszynowego widzenia stereoskopowego [23, 47, 26,

48].

Zgodnie z założeniami ograniczenia epipolarnego, punkt p1 na jednym obrazie

posiada odpowiadającą mu linię epipolarną lp2 na drugim obrazie. Natomiast punkt

m1 jednego obrazu posiada odpowiadającą mu linię lm2 na drugim obrazie (por.

rys. 2.4). Punkt p2 drugiego obrazu będący odpowiednikiem punktu p1, musi leżeć

na odpowiadającej mu linii epipolarnej lp2 i taka zależność zachodzi również dla

obrazów punktu M, tzn. punkt m2 będący odpowiednikiem punktu m1 musi leżeć

na odpowiadającej mu linii epipolarnej lm2 . Linia epipolarna jest rzutem w dru-

gim obrazie odpowiedniego promienia optycznego przechodzącego przez punkt

p1 lub m1 i punkt środkowy kamery O1. Stąd istnieje przekształcenie p1 → lp2 ,

m1 → lm2 , przekształcające punkt jednego obrazu w odpowiadającą mu linię epi-

polarną w drugim obrazie. Jest to przekształcenie rzutowe z punktu w linię, które

określane jest przez tzw. macierz fundamentalną F (ang. fundamental matrix) [24].

Macierz fundamentalna zależy tylko od konfiguracji kamer (parametrów wewnętrz-

nych, położenia i orientacji w przestrzeni) i jest niezależna od położenia punktów

obserwowanej sceny. Definiuje ona ograniczenie epipolarne opisujące odpowied-

niość punktów widzianych na dwóch obrazach.

W układzie skalibrowanym, tzn. takim, dla którego wyznaczone zostały macie-

rze przekształcenia rzutowego kamer, ograniczenie epipolarne zapisywane jest za

pomocą tzw. macierzy zasadniczej (ang. essential matrix) [49, 24]. Wyznaczanie

36



wartości numerycznych macierzy zasadniczej i fundamentalnej stanowi złożone

zagadnienie numeryczne i nazywane jest kalibracją układu widzenia [50, 51, 52,

24].

2.4. Dysparycja w obrazach pary stereoskopowej

Pojęcie dysparycji najwygodniej jest przedstawić w stereoskopowym układzie

kanonicznym przedstawionym na rys. 2.5. Układem kanonicznym kamer nazywa-

ne jest takie ich ustawienie, w którym osie optyczne obydwu kamer są równoległe,

płaszczyzny obrazów pokrywają się ze sobą, a linie obrazów tworzonych w obu

kamerach są współliniowe. Układ taki nazywany jest również układem standardo-

wym, układem podstawowym lub układem zrektyfikowanym [38, 39].

P (x, y, z)

p1 (u1, v1) p2 (u2, v2)

O1 O2

u1 u2

X

Z

linia bazowa b

hh

f

Rys. 2.5. Geometria kamer w stereoskopowym układzie kanonicznym

W kanonicznym układzie kamer osie optyczne obu kamer są równoległe i od-

dalone od siebie o odległość b = 2h. W obu kamerach tworzony jest obraz punktu P

o współrzędnych (x, y, z). Punkt ten rzutowany jest jako obraz p1 o współrzędnych

(u1, v1) w jednym z przetworników oraz obraz p2 = (u2, v2) w drugim z prze-

37



tworników obrazowych. Układ współrzędnych pokazany na rys. 2.5 tworzy oś Z

reprezentująca odległość od kamery (z = 0 odpowiada płaszczyźnie tworzenia ob-

razu) oraz oś X reprezentująca odległość horyzontalną (oś Y prostopadła do płasz-

czyzny rysunku nie została zaznaczona). Wartość x = 0 ustalona została w poło-

wie odległości między kamerami. Każda z kamer posiada skojarzony z nią lokalny

układ współrzędnych z początkiem położonym w środku każdego obrazu. Warto-

ści u1, v1, u2, v2 określają położenie rzutów punktu w lokalnych układach współ-

rzędnych obu kamer mierzone na takiej samej wysokości obrazów (dla obrazów

w postaci cyfrowej odpowiada to temu samemu numerowi wiersza w macierzach

wartości obrazów), stąd v1 = v2 = v.

Z uwagi na różne położenia kamer względem obserwowanego punktu, między

wartościami współrzędnych u1 i u2 występuje różnica wartości d = u2−u1. Różnicę

tę nazywamy dysparycją. Z podobieństwa trójkątów [39, 24] pomiędzy poszcze-

gólnymi punktami wynikają następujące zależności:

−u1

f=

h + x

z,

u2

f=

h − x

z(2.4)

Eliminując x z równań (2.4), otrzymujemy wyrażenie określające odległość punktu

P od płaszczyzny tworzenia się jego rzutu:

z =2h f

u2 − u1=

b f

u2 − u1=

b f

d(2.5)

Tak więc znajomość dysparycji d pomiędzy rzutami punktu na dwóch obrazach

pozwala na obliczenie jego odległości od płaszczyzny tworzenia się rzutu, tożsa-

mej z płaszczyzną tworzenia obrazu. Jeżeli d = (u2 − u1) → 0, wtedy z → ∞.

Zerowa dysparycja oznacza, że punkt jest położony w nieskończonej odległości od

obserwujących go kamer, natomiast odległość ta maleje wraz ze wzrostem war-

tości dysparycji d. Pozostałe dwie współrzędne punktu P mogą być wyznaczone

z zależności [38, 39]:

x =b (u2 − u1)

2d, y =

bv

d(2.6)

Powyższy przypadek definiuje dysparycję horyzontalną. W ogólnym przypad-

ku przesunięcie w obrazie może występować również w kierunku pionowym i wte-

dy definiuje się również dysparycję wertykalną. Jest ona określona jako różnica

38



położenia tych samych punktów, względem współrzędnych wertykalnych:

dy = v2 − v1 (2.7)

Najbardziej ogólnym, lecz bardzo rzadko wykorzystywanym w praktyce, jest

pojęcie dysparycji zdefiniowanej jako odległość euklidesowa rzutów punktów wy-

stępujących w dwóch obrazach [53]:

dxy =

√

(u2 − u1)2 + (v2 − v1)2 (2.8)

Ponieważ praktycznie każdy przypadek obliczania wartości dysparycji moż-

na sprowadzić do poszukiwania dysparycji horyzontalnej, w niniejszej pracy pod

pojęciem dysparycji rozumiana jest tylko dysparycja horyzontalna. Rozumiana jest

ona jako różnica współrzędnych horyzontalnych w cyfrowych obrazach pary stereo-

skopowej reprezentowanych przez macierze wartości jasności tych obrazów (por.

rys. 2.3d). Przy takiej reprezentacji obrazów dysparycja horyzontalna jest różni-

cą pomiędzy numerami kolumn macierzy obrazów, w których znajduje się piksel

będący obrazem tego samego punktu sceny.1

2.4.1. Rektyfikacja obrazów pary stereoskopowej

Rektyfikacja pary stereoskopowej, schematycznie przedstawiona na rys. 2.6,

polega na wyznaczeniu takich przekształceń homograficznych, które po zastoso-

waniu do każdego z dwóch obrazów powodują, że odpowiadające sobie linie epi-

polarne stają się współliniowe i równoległe do poziomych krawędzi obrazu. Proces

rektyfikacji odgrywa ważną rolę, ponieważ pozwala na zmniejszenie przestrzeni

poszukiwań dysparycji tylko do jednowymiarowego przeszukiwania na odpowia-

dających sobie liniach obrazów. Ze względu na to, że rektyfikacja umożliwia zna-

czące zmniejszenie kosztu obliczeniowego w czasie dopasowania pary stereosko-

1 W pracy wartość dysparycji wyznaczana jest dla obrazów cyfrowych, więc rozumiana jestjako różnica pomiędzy numerami kolumn, które określają położenie tego samego piksela w dwóchobrazach pary stereoskopowej. Z tego względu, jeżeli wartość tej różnicy wynosi n używane jestskrótowe określenie, że dysparycja wynosi n pikseli.

39



powej, stała się standardowym krokiem przetwarzania wstępnego w algorytmach

dopasowania [54, 55].

Rektyfikacja obrazów pary stereoskopowej jest możliwa praktycznie dla każ-

dego systemu stereoskopowego widzenia maszynowego [56]. Można ją wykonać

zarówno przy założeniu znajomości parametrów geometrycznych systemu, jak i dla

systemu nieskalibrowanego, tzn. dla obrazów par stereoskopowych o nieznanych

parametrach geometrycznych układu akwizycji. Warunkiem wystarczającym do

przeprowadzenia procesu rektyfikacji obrazów jest jedynie spełnienie założenia,

że dwa obrazy tworzą parę stereoskopową.

P

l1

l1

p1

p1

O1 e1

l2

l2

p2

p2

O2e2

Rys. 2.6. Proces rektyfikacji obrazów pary stereoskopowej prowadzący do zrów-noleglenia linii epipolarnych

Proces rektyfikacji pary stereoskopowej składa się zazwyczaj z następujących

kroków [23, 57]:

1. W kroku pierwszym wyznaczany jest zbiór odpowiadających sobie pikseli na

obrazach pary stereoskopowej. Zbiór ten musi zawierać co najmniej trzy odpo-

wiadające sobie piksele, przy czym zwiększenie liczebności zbioru odpowiada-

jących sobie pikseli poprawia dokładność uzyskanych macierzy przekształceń,

jak również ułatwia ich znalezienie.

2. Następnie wyznaczane jest jednoznaczne przekształcenie zbioru pikseli z jed-

nego obrazu do zbioru pikseli pochodzących z drugiego obrazu. Ponieważ od-

powiadające sobie piksele pochodzą z obrazów tworzących parę stereoskopo-

40



wą, przekształcenie umożliwiające przejście z jednego zbioru w drugi musi

spełniać warunki geometrii epipolarnej. Przekształcenie takie opisane jest przez

macierz fundamentalną F zawierającą opis geometrii epipolarnej układu widze-

nia w zewnętrznym układzie współrzędnych [23].

3. Z kolei wyznaczane jest pewne przekształcenie rzutowe H1, które zastosowane

do jednego z obrazów pary powoduje przesunięcie odpowiadającego mu punktu

epipolarnego do nieskończoności.

4. Podobnie wyznaczane jest przekształcenie rzutowe H2, które zastosowane do

drugiego obrazu przesuwa jego punkt epipolarny do nieskończoności. Warun-

kiem koniecznym przy tym jest, aby przekształcenie to wraz z przekształceniem

H1 spełniało ograniczenia określone w punkcie 2, czyli aby było spójne z geo-

metrią epipolarną układu widzenia.

5. W ostatnim kroku macierze przekształceń H1 i H2 są wykorzystane do prze-

kształcenia odpowiadających im obrazów.

Przykład działania powyżej przedstawionego algorytmu rektyfikacji [57], za-

stosowanego do rzeczywistej pary stereoskopowej, dla której nie była znana geo-

metria układu, został przedstawiony na rys. 2.7.

Zastosowanie macierzy przekształceń H1 i H2 jest równoznaczne z resamplin-

giem (ang. resampling) obrazu, zazwyczaj powodującym jego rotację oraz zmianę

kształtu. Efekt zastosowania resamplingu widoczny jest na rys. 2.7 w postaci czar-

nych obszarów na brzegach obrazów. Jest to praktycznie jedyna cecha niekorzystna

zastosowania takiego kroku przetwarzania wstępnego, gdyż przy źle dobranej geo-

metrii może znacząco zmniejszyć liczbę pikseli widocznych równocześnie na obu

obrazach. Sytuacja taka może zachodzić, gdy macierze przekształceń H1 i H2 defi-

niują dużą rotację obrazów, w efekcie czego w obrazach po resamplingu pozostaje

niewielka część wspólna.

2.5. Problemy występujące przy projektowaniu algorytmów

dopasowania pary stereoskopowej

Pomimo prostoty sformułowania, zagadnienie znalezienia jak największej licz-

by odpowiadających sobie pikseli na obrazach pary stereoskopowej jest trudnym

zagadnieniem algorytmicznym. O jego złożoności decyduje wiele czynników po-

chodzących z różnych źródeł. Poniżej przedstawione zostały typowe, najczęściej

41



Rys. 2.7. Przykład pary stereoskopowej przed i po procesie rektyfikacji. Na ob-razach zaznaczony został zbiór odpowiadających sobie punktów „⋆”. Liniąprzerywaną zaznaczono linie epipolarne przed rektyfikacją, natomiast liniami

ciągłymi linie epipolarne po zastosowaniu algorytmu rektyfikacji

spotykane problemy maszynowego widzenia stereoskopowego, jakie można napo-

tkać w czasie projektowania algorytmu dopasowania. Przy każdym z wymienio-

nych problemów podany został krótki komentarz metody za pomocą której próbuje

się go rozwiązać.

Przesłonięcia

Schematyczną ilustrację powstawania przesłonięć pokazano na rys.2.8. Efek-

tem przesłonięcia nazywana jest sytuacja, gdy pewien fragment obrazu widziany

jest tylko przez jedną z kamer, natomiast nie jest widoczny w drugim obrazie pa-

ry. W takiej sytuacji brak jest odpowiadających sobie pikseli pewnego fragmentu

jednego obrazu w drugim obrazie. Uniemożliwia to znalezienie prawidłowego do-

pasowania w tych obszarach [58, 59].

Metody stosowane w celu rozwiązania zagadnienia obszarów przesłoniętych

42



Powierzchnia obiektuP

M

N

p1 m1 n1 p2 n2 m2?

O1 O2

Rys. 2.8. Występowanie zjawiska przesłonięć w zagadnieniu widzenia stereosko-powego. Punkt M widziany jest przez jedną kamerę jako obraz m1, natomiast

brak jest jego rzutu tworzącego obraz punktu m2 w drugiej kamerze

są oparte głównie na nałożeniu ograniczenia na ciągłość mapy dysparycji, tzn.

uwzględnieniu że wartości dysparycji nie mogą zmieniać się gwałtownie [60].

W przypadku poszukiwania wartości dysparycji w obszarach przesłoniętych algo-

rytm osiąga maksymalną wartość dysparycji, co może świadczyć o niemożliwości

znalezienia prawidłowego dopasowania. U podstaw tej metody stoi przypuszczenie,

że w realnej scenie obiekty nie znajdują się bardzo daleko od siebie.

Innym podejściem jest zamiana miejscami obrazu referencyjnego i obrazu prze-

szukiwania, po czym ponownie przeprowadzany jest algorytm dopasowania. War-

tości dysparycji dla zamienionych obrazów powinny róznić się tylko znakiem, a nie

wartością. W przypadku występowania znaczącej różnicy wartości, przyjmuje się,

że są to obszary przesłonięte. Technika ta jest znana jako badanie spójności lewo-

prawo (ang. Left-Right Consistency Checking) [61].

Powtarzający się wzór tekstury

Problem ten występuje w sytuacji, gdy jednemu pikselowi na jednym obrazie

może odpowiadać kilka pikselów z innego obrazu. Występowanie tego typu zakłó-

cenia jest związane z zawartością widzianej sceny i w przeciwieństwie do obszarów

przesłoniętych nie występuje w każdej parze obrazów.

43



Propozycją rozwiązania tego problemu jest zastosowanie transformaty Fouriera

w celu wykrywania w obrazie regionów o powtarzającym się wzorze tekstury [62].

Powtarzający się wzór tekstury powinien dać znaczący wzrost wartości transforma-

ty Fouriera obrazu, co można poddawać detekcji na etapie przetwarzania wstępne-

go, a następnie uwzględnić w kroku dopasowywania.

Region o stałej wartości jasności

Są to obszary, w których występuje zupełny brak tekstury. W efekcie tego war-

tości jasności nie zmieniają się na tyle znacząco, aby dostarczyć wystarczającej

ilości informacji umożliwiającej dopasowanie [59].

Wśród propozycji rozwiązania tego problemu występuje grupa algorytmów

opartych na wstępnej segmentacji obrazu i szukaniu dopasowania między wyzna-

czonymi segmentami [63]. Umożliwia to określenie położenia takich obszarów

i dopasowywanie ich jako cały fragment w sposób analogiczny do pojedynczych

pikseli [64, 65].

Zniekształcenia perspektywiczne

Zniekształcenia te są związane z zawartością obserwowanej sceny. Występują

w przypadku, gdy w scenie znajdują się obiekty zmieniające swój kształt podczas

ich obserwacji z różnych położeń. Problem ten praktycznie nie jest podejmowany

w literaturze. Autorowi nie udało się znaleźć żadnej wzmianki na temat zapobie-

gania zniekształceniom perspektywicznym.

Zniekształcenia radiometryczne

Te z kolei zniekształcenia są związane z parametrami elektrycznymi kamer.

Zależą one od jakości wykonania przetworników obrazowych i stanowią ich cechy

charakterystyczne. Składają się na nie takie parametry wykonania przetwornika ob-

razowego, jak: wzmocnienie, prąd ciemny, obciążenie składową stałą, czułość pro-

gowa układu, czy zakres dynamiczny działania przetwornika. Parametry te mogą

być różne dla dwóch kamer wykorzystanych do budowy systemu widzenia, w efek-

cie czego dwa obrazy cyfrowe tej samej sceny mogą posiadać różne wartości ja-

sności pikseli. Jedynym sposobem uniknięcia tych zniekształceń jest wybór kamer

o dokładnie takich samych parametrach, co często jest niemożliwe ze względu na

sposób produkcji przetworników obrazowych. Innym rozwiązaniem jest kalibracja

44



kamer układu stereoskopowego, i korekcja otrzymanych obrazów względem wy-

znaczonych poprawek.

Zniekształcenia optyczne

Zniekształcenie te wynikają z charakterystyki budowy układu optycznego ka-

mer użytych do akwizycji obrazów. Zalicza się do nich wszystkie zniekształce-

nia wnoszone przez układ optyczny kamery, wśród których najczęściej spotykany-

mi są: zniekształcenia poduszkowe (ang. pincushion distortions), zniekształcenia

baryłkowe (ang. barrel distortions) oraz aberracje chromatyczna (ang. chromatic

aberration) i sferyczna (ang. spherical aberration) [66, 67]. W przypadku znie-

kształceń optycznych również możliwa jest kalibracja układu i uwzględnienie po-

prawek w czasie przetwarzania obrazów pary stereoskopowej.

Obecność powierzchni nielambertowskich

Problem ten związany jest z obserwowanymi obiektami. Powierzchnie nielam-

bertowskie, to powierzchnie nie odbijające światła równomiernie we wszystkich

kierunkach [68, 69]. Powierzchnie takie najczęściej posiadają przedmioty szklane

lub przezroczyste. Równie często występującymi powierzchniami nielambertow-

skimi są lustra lub przedmioty silnie błyszczące. Efekt ten jest często zauważalny

na fotografiach przedstawiających powierzechnie błyszczące. Próbą rozwiązywania

tego problemu jest uwzględnienie w algorytmie założenia o ciągłości mapy dyspa-

rycji [70] i estymacja wartości dysparycji w obszarach, gdzie wartości te znacząco

się różnią.

Zakłócenia szumowe

Zakłócenia szumowe powstają w urządzeniach elektronicznych podczas akwi-

zycji i przetwarzania obrazów do postaci cyfrowej. Ten rodzaj zakłóceń występuje

zawsze w przypadku przetwarzania dowolnych obrazów rzeczywistych i nie jest

możliwy do uniknięcia. W celu zmniejszenia wpływu zakłóceń szumowych stoso-

wane są algorytmy przetwarzania wstępnego. Zazwyczaj stosowane są algorytmy

filtracji umożliwiające usunięcie przynajmniej części zakłóceń szumowych.

Należy podkreślić, że przedstawiona lista na pewno nie wyczerpuje wszystkich

przeszkód, jakie można napotkać w czasie budowy stereoskopowego systemu wi-

zyjnego. Lista ta obejmuje jedynie najbardziej znane problemy. Zapewne można

45



by było wymienić i inne, lecz są one zazwyczaj związane ze specyfiką konkretnej

sceny, czy też konkretnego zastosowania systemu wizyjnego. Z tego względu nie

zostały tutaj wymienione.

2.6. Założenia procesu dopasowania par stereoskopowych

W czasie analizy obrazów pary steroskopowej przyjmowanych jest wiele zało-

żeń dotyczących procesu dopasowania. Założenia te pomagają zmniejszyć złożo-

ność zagadnienia, a czasami stanowią bardzo ważny element algorytmu decydują-

cy o jego działaniu. Do najczęściej przyjmowanych i stosowanych założeń procesu

dopasowania pary stereoskopowej należą:

Ograniczenie epipolarne (ang. epipolar constraint)

Ograniczenie to wynika wprost z geometrii układu widzenia stereoskopowego.

Jest to najczęściej wykorzystywane założenie przyjmowane w czasie realizacji al-

gorytmów dopasowania pary stereoskopwej. Oznacza ono, że odpowiadające sobie

piksele obrazów leżą na odpowiadających sobie liniach epipolarnych. Dodatkowo,

przyjmowane jest z reguły założenie, że obrazy pary stereoskopowej zostały pod-

dane rektyfikacji, czyli wiersze obrazów odpowiadają liniom epipolarnym.

Jednoznaczność odpowiedników (ang. uniqueness constraint)

Przyjęcie tego założenia oznacza, że każdy punkt widziany przez jedną kamerę

ma dokładnie jeden odpowiednik w drugim obrazie. Założenie to nie jest spełnione,

gdy dwa punkty leżą na jednym promieniu optycznym obrazu jednej kamery i rów-

nocześnie obydwa są widoczne przez drugą kamerą. Sytuacja taka może zaistnieć,

gdy w obserwowanej scenie znajdują się np. obiekty przezroczyste.

Założenie jednoznaczności odpowiedników jest fundamentalnym założeniem,

na którym opiera się metoda sprawdzania spójności lewo-prawo. Metoda ta umoż-

liwia wykrycie błędnie dopasowanych pikseli poprzez zamianę miejscami obrazu

przeszukiwań i obrazu referencyjnego i powtórne wykonanie algorytmu dopaso-

wania. Jeżeli nie zostały znalezione wszystkie wartości dysparycji, które zostały

znalezione w pierwszym przebiegu algorytmu, na tej podstawie decyduje się, że

piskele te należą do grupy pikseli przesłoniętych [59].

46



Ograniczenie zmienności wartości dysparycji (ang. smoothness

constraint)

W tym przypadku zakłada się, że w rzeczywistych obrazach dysparycja nie

może zmieniać się gwałtownie o dużą wartość. Jeżeli taka sytuacja występuje, to

prawdopodobnie nie można znaleźć właściwego dopasowania ze względu na obec-

ność zakłóceń lub występowanie przesłonięcia w obrazie.

Ograniczenie to wykorzystywane jest w algorytmach dopasowania obrazów po-

przez wbudowanie pewnych funkcji kary opartych o wartość gradientu zmienno-

ści jasności samego obrazu lub wyznaczonych wcześniej wartości dysparycji. Jeśli

w obrazie niewielkiej zmianie jasności odpowiada duża zmiana wartości dyspary-

cji lub jeśli sama wartość dysparycji zmienia się o większą wartość, niż pewien

założony próg, wówczas wartość ta zostaje odrzucona jako nieprawidłowa [71].

Ograniczenie gradientu wartości dysparycji (ang. limit of disparity

gradient)

Jest to założenie analogiczne do poprzedniego, ale dotyczące ograniczenia prze-

biegu zmienności dysparycji, przy czym zmienność dysparycji jest określona przez

jej pochodną. Wartość dysparycji zostaje uznana za nieprawidłową, jeżeli wartość

pochodnej dysparycji przekracza pewien ustalony próg [72].

Ograniczenie zakresu poszukiwanej dysparycji (ang. disparity limit)

Ograniczenie to oznacza założenie, że poszukiwane wartości dysparycji znaj-

dują się w pewnym przedziale wartości [dmin, dmax] ustalanym przed wykonaniem

algorytmu dopasowania. Ograniczenie to stosowane jest praktycznie zawsze w rze-

czywistych realizacjach algorytmów dopasowania. Problemem pozostaje ustalenie

przedziału zmienności dysparycji, szczególnie w przypadku nieznajomości zawar-

tości analizowanej sceny.

Zachowanie kolejności punktów w obrazach (ang. ordering constraint)

Przykład sceny, dla której założenie to nie jest spełnione, przedstawiono na

rys. 2.9. Zachowanie kolejności punktów w obrazach jest często przyjmowanym

założeniem, zgodnie z którym piksele obrazu widziane przez jedną kamerę są rów-

nież widziane przez drugą kamerę w takiej samej kolejności [73]. Kolejność wi-

47



dzianych punktów obrazów może nie być zachowana, jeżeli w obserwowanej scenie

występują wąskie obiekty, co odpowiada sytuacji przedstawionej na rys. 2.9.

Powierzchnia obiektuP N

M

p1 n1 m1 p2 m2 n2

O1 O2

Rys. 2.9. Zobrazowanie złamania warunku zachowania kolejności punktów na ob-razach. Obrazy tworzone przez punkty przestrzeni N i M w jednej z kamer n1

i m1, tworzone są w odwrotnej kolejności w drugiej kamerze n2 i m2

48


Rozdział 3

Przegląd metod dopasowania obrazów pary

stereoskopowej

W rozdziale dokonano przeglądu literatury dotyczącej najczęściej spotykanych

metod rozwiązywania zagadnienia dopasowania obrazów pary stereoskopowej.

Rozdział rozpoczyna się próbą klasyfikacji znanych rozwiązań. W dalszej części

rozdziału bardziej szczegółowo przedstawiono metody ściśle związane z prezen-

towaną pracą. Szczególną uwagę zwrócono na metody dopasowania obrazów pa-

ry stereoskopowej obszarami oraz metodę Marra-Poggio-Grimsona dopasowania

obrazów pary stereoskopowej cechami, która jest metodą odniesienia do propono-

wanego rozwiązania dopasowania cechami wykorzystującego w swoim działaniu

teorię zbiorów rozmytych. Rozdział zakończono krótkim przeglądem metod umoż-

liwiających rozwiązanie zagadnienia dopasowania obrazów pary stereoskopowej

z wykorzystaniem obrazów kolorowych oraz przedstawieniem innych metod roz-

wiązywania zagadnienia dopasowania pary stereoskopowej rzadziej spotykanych

w literaturze.

3.1. Próba klasyfikacji metod dopasowania obrazów pary

stereoskopowej

Bardzo duża popularność i znaczenie praktyczne zagadnienia dopasowania ob-

razów pary stereoskopowej spowodowały powstanie bardzo dużej liczby algoryt-

mów, za pomocą których próbuje się je rozwiązać. Szeroka gama i różnorodność

znanych metod w znaczący sposób utrudnia ich klasyfikację i spójną prezentację.

Na rys. 3.1 przedstawiono schemat klasyfikacyjny dostępnych metod, z podzia-

łem na grupy. Pierwsza grupa metod, jaka może zostać wyróżniona, to metody

umożliwiające znalezienie dopasowania dla wszystkich pikseli obrazu, realizowa-

ne zazwyczaj przez dopasowywanie wartości jasności pikseli. Odrębną grupą są

metody umożliwiające znalezienie dopasowania tylko dla wyróżnionych fragmen-

tów obrazów, nazywanych cechami obrazu. Metody te wyróżnione są poprzez fakt,

49


3. Przegląd metod dopasowania obrazów pary stereoskopowej

Metody dopasowaniapary stereoskopowej

Dopasowania pikseli Dopasowania cech obrazów

Dopasowanie obszarów(lokalne)

Dopasowanie obrazów(globalne)

Kooperacyjne

Dopasowanie oknami*

*W metodzie tej wykorzystywanesą wszystkie rodzaje miar:odległościowe, korelacyjne,statystyczne, funkcyjne oraz

miary w dziedzinie transformat

Programowanie dynamiczne

Rozcięcie grafów

Relaksacja

Algorytmy genetyczne

Dyfuzja nieliniowa

Krawędzie

Narożniki

Tensory

„Edgels”*

*edgel – „edge” ele-ment opisany przez

krawędź i jej orientację

Rys. 3.1. Ogólna klasyfikacja istniejących metod rozwiązywania problemu dopa-sowania pary stereoskopowej

że przed właściwym procesem dopasowania w obrazach wyszukiwane zostają ich

cechy charakterystyczne. Mogą nimi być krawędzie, narożniki lub obszary o sta-

łej jasności identyfikowane za pomocą algorytmów segmentacji obrazów. Czasami

wykorzystywana jest symboliczna reprezentacja wyszukanych cech.

Wśród metod dopasowywania wartości jasności pikseli można rozróżnić me-

tody lokalne i globalne. Metody globalne polegają na dopasowaniu całego obrazu

równocześnie. Charakteryzują się one wykorzystaniem pewnej funkcji kosztu, któ-

ra podlega optymalizacji. Funkcja kosztu jest określona względem poszukiwanej

mapy dysparycji. Główne różnice między poszczególnymi metodami globalnymi

50



sprowadzają się sposobu formułowania postaci funkcji kosztu oraz sposobu poszu-

kiwania rozwiązania optymalnego.

Wśród metod lokalnych najczęściej wykorzystywaną grupę metod stanowią me-

tody dopasowania obszarami. Charakteryzuje je wykorzystanie numerycznych war-

tości pikseli określających ich jasność lub zawartość składowych barwnych, w celu

wyznaczania poszukiwanej wartości dysparycji. Ponieważ porównywanie wartości

pojedynczych pikseli nie daje dobrych rozwiązań, zazwyczaj do znalezienia prawi-

dłowego dopasowania używa się okien, które obejmują piksel wraz z pewnym jego

sąsiedztwem.

Inną grupą, nie sklasyfikowaną na rys. 3.1, są algorytmy oparte na przekształ-

ceniu obrazu do innej dziedziny za pomocą zastosowania różnego rodzaju transfor-

mat. W dziedzinie transformat stosowana jest zazwyczaj metoda dopasowania ob-

szarami. Wśród popularnych transformat wykorzystywanych do zmiany dziedziny

reprezentacji obrazu można wymienić transformaty: Fouriera, falkową, rankingową

i transformatę CENSUS (por. p. 3.3.3).

W kolejnych punktach pracy przedstawione zostaną bardziej szczegółowo re-

prezentatywne i najczęściej spotykane metody dopasowania obrazów pary stereo-

skopowej.

3.2. Metody globalne

Podstawą globalnych metod dopasowania pary stereoskopowej jest ich formu-

łowanie w postaci zagadnienia optymalizacji pewnej funkcji kosztu. Przy takim

postawieniu zadania możliwe jest użycie ogólnych metod optymalizacyjnych. Ar-

gumentem funkcji kosztu jest poszukiwana mapa dysparycji d, tzn. zbiór warto-

ści dysparycji wszystkich pikseli należących do obrazu referencyjnego określonych

względem odpowiadających im pikselom w obrazie przeszukiwania.

Ogólna postać funkcji kosztu poddawanej optymalizacji (w zależności od przy-

jętej jawnej postaci – maksymalizacji lub minimalizacji) przyjmuje zazwyczaj for-

mę sumy [74, 75, 76]:

E (d) = Ed (d) + Es (d) (3.1)

W wyrażeniu (3.1) poszukiwana mapa dysparycji d stanowi parametr, względem

którego przeprowadzana jest procedura optymalizacji, natomiast E (d) określa mia-

51



rę kosztu, która ma podlegać optymalizacji. W wyniku procedury optymalizacyjnej

otrzymywana jest mapa dysparycji dopt będąca poszukiwanym rozwiązaniem.

Składnik Ed (d) wyrażenia (3.1) jest miarą dopasowania znajdowanych warto-

ści d dysparycji w odniesieniu do analizowanych pikseli p pochodzących z obrazu

referencyjnego, określoną wyrażeniem:

Ed (d) =∑

p∈Ire f

K(

p, dp

)

(3.2)

gdzie p to piksel należący do obrazu referencyjnego Ire f analizowanej pary ste-

reoskopowej, dp to jego poszukiwana wartość dysparycji, natomiast K(p, dp) jest

miarą kosztu dopasowania między wyróżnionym pikselem p pochodzącym z ob-

razu referencyjnego oraz odpowiadającym mu pikselem z obrazu przeszukiwania

o położeniu określonym przez wartość dysparycji dp. Miara ta jest zazwyczaj okre-

ślana na podstawie różnicy w wartościach jasności odpowiadających sobie pikseli

w obu obrazach.

Składnik Es (d) sumy określonej wyrażeniem (3.1) jest związany zazwyczaj

z ograniczeniem narzuconym na gładkość dysparycji w modelu sceny. Jest to pe-

wien rodzaj funkcji kary o wartościach tym większych, w przypadku minimalizacji

funkcji kosztu, im większe są różnice w wartościach dysparycji określonych dla

sąsiadujących ze sobą w obrazie pikseli:

Es (d) =∑

p,q∈N(p)

Vp,q

(

dp, dq

)

(3.3)

gdzie p, q są pikselami obrazu referencyjnego pochodzącymi z ustalonego zbio-

ru N (p) sąsiadujących ze sobą pikseli, dp i dq są wartościami przypisanych im

dysparycji, natomiast Vp,q

(

dp, dq

)

jest wartością kary umożliwiającą zapewnienie

gładkości poszukiwanej mapy dysparycji.

Funkcja kary może być na przykład zdefiniowana wyrażeniem:

Vp,q

(

λ|dp − dq|)

(3.4)

gdzie λ jest arbitralnie ustaloną stałą, decydującą o wartości funkcji kary w przy-

padku zwiększania się wartości bezwzględnej różnicy wartości dysparycji dp i dq

przypisanych do pikseli p i q.

52



Na etapie projektowania globalnego algorytmu dopasowania dobierane są jaw-

ne postacie miary dopasowania K(p, dp) pikseli p pochodzących z obrazów ana-

lizowanej pary stereoskopowej względem wartości dysparycji dp oraz progi dla

których przyjmowany jest warunek naruszenia gładkości mapy dysparycji.

Po zdefiniowaniu jawnej postaci funkcji kosztu należy dobrać metodę jej opty-

malizacji. Dwoma najbardziej znanymi metodami globalnego rozwiązywania pro-

blemu dopasowania są: metoda polegająca na wyznaczeniu minimalnego rozcięcia

odpowiednio skonstruowanego grafu oraz metoda programowania dynamicznego.

Metody te zostaną poniżej krótko scharakteryzowane.

3.2.1. Metoda minimalnego rozcięcia grafu

Przed przedstawieniem zastosowania metody poszukiwania minimalnego roz-

cięcia grafu, umożliwiającej rozwiązanie zagadnienia dopasowania pary stereosko-

powej, omówione zostaną podstawowe pojęcia dotyczące teorii grafów.

Jako etykietowany, skierowany graf G rozumiana jest szóstka uporządkowana

G = (V,E,R, s, t,w), gdzie: V jest zbiorem wierzchołków, E zbiorem krawędzi,

R relacją incydencji określoną na zbiorzeV ×V, s, t ∈ V dwoma wyróżnionymi

wierzchołkami, zwanymi źródłem s i odpowiednio ujściem t, oraz w : E → R

funkcją etykietowania przyporządkowującą każdej krawędzi (p, q) ∈ R pewną wa-

gę w (p, q) ze zbioru liczb rzeczywistych. Zbiór niewyróżnionych wierzchołków

grafu oznaczamy przez P, zatemV = s, t ∪ P.

Funkcja wagi w (p, q) jest pewną miarą kosztu przypisaną krawędzi (p, q) ∈ R,

przy czym koszt krawędzi skierowanej (p, q) może być różny od kosztu krawędzi

(q, p) skierowanej w odwrotnym kierunku. Krawędź nazywana jest m-krawędzią,

jeśli łączy dowolny niewyróżniony wierzchołek p ∈ P z wierzchołkiem wyróżnio-

nym, a więc źródłem s lub ujściem t oraz n-krawędzią, jeśli łączy dwa niewyróż-

nione wierzchołki. Zbiór wszystkich n-krawędzi będzie oznaczany przez N .

Przyjmowane jest założenie, że zbiór krawędzi grafuG zawiera wszystkie n-kra-

wędzie (p, q) ∈ N oraz wszystkie m-krawędzie typu (s, p) (p, t) , p ∈ P. Na rys. 3.2a

przedstawiono, w postaci wielowymiarowej siatki, strukturę grafu stosowanego

z reguły w aplikacjach przetwarzania obrazów i grafice komputerowej.

Każdy podział zbioru V wierzchołków grafu G na dwa rozłączne podzbiory

S oraz T , takie że źródło s znajduje się w zbiorze S, natomiast ujście t w zbiorze

T nazywane jest rozcięciem typu s/t (krótko rozcięciem lub przekrojem) grafu G.

53



sźródło

p q

tujście

(a) Graf G

sźródło

p q

tujście

rozcięcie

(b) Rozcięcie grafu G

Rys. 3.2. Postać grafu wykorzystywana w zagadnieniach przetwarzania obrazu.Grubość krawędzi odzwierciedla ich wagę.

Rozcięcie grafu oznaczane jest symbolem C (S,T ). Przykład rozcięcia pokazano

na rys. 3.2b. Kosztem rozcięcia C = (S,T ) jest suma kosztów (wag) krawędzi

brzegowych (p, q), takich że p ∈ S i q ∈ T . Zagadnienie wyznaczenia minimalnego

rozcięcia grafu G polega na znalezieniu takiego rozcięcia, które ma najmniejszy

koszt spośród wszystkich możliwych rozcięć C = (S,T ) tego grafu [77].

Problem znalezienia minimalnego rozcięcia grafu G może być rozpatrywany

także w kategoriach wyznaczenia maksymalnego przepływu tego grafu ze źródła

s do ujścia t, rozumianego jako największa suma wag krawędzi umożliwiających

podział grafu na dwa rozłączne zbiory S i T . Dowodzi się mianowicie, że maksy-

malny przepływ uzyskuje się jako największą sumę wag tych krawędzi dzielących

graf na dwa rozłączne podzbiory, które odpowiadają krawędziom definiującym mi-

nimalne rozcięcie [78]. Tak więc problemy wyznaczenia minimalnego rozcięcia

i maksymalnego przepływu grafu są równoważne, a suma wartości wag krawędzi

definiujących maksymalny przepływ jest równa kosztowi minimalnego rozcięcia.

Twierdzenie powyższe jest jednym z fundamentalnych rezultatów optymalizacji

kombinatorycznej.

54



3.2.2. Zastosowanie metody minimalnego rozcięcia grafu

w zagadnieniu dopasowania pary stereoskopowej

Zagadnienie dopasowania pary obrazów stereoskopowych należy do klasy pro-

blemów przetwarzania obrazów, które mogą być rozwiązane za pomocą wykorzy-

stania teorii grafów, a w szczególności rozwiązania problemu znalezienia mini-

malnego rozcięcia grafu. W aspekcie wykorzystania teorii grafów, problem dopa-

sowania obrazów pary stereoskopowej przedstawiany jest zazwyczaj w kategoriach

problemu etykietowania wierzchołków grafu. Etykietowanie grafu polega na przy-

pisaniu do wierzchołków grafu, wartości etykiet pochodzących z pewnego okre-

ślonego zbioru etykiet L.

Aby znaleźć rozwiązanie dopasowania obrazów pary stereoskopowej tworzo-

ny jest graf, którego wyróżnionymi wierzchołkami są piksele obrazów tworzących

parę stereoskopową a etykietowane są piksele obrazu referencyjnego. Celem ta-

kiego etykietowania jest przypisanie do każdego piksela obrazu referencyjnego

p (i, j) ∈ Ire f etykiety z pewnego określonego zbioru etykiet L. W problemie do-

pasowania pary stereoskopowej zbiorem dopuszczalnych etykietL, jakie mogą być

przypisane do pikseli obrazu Ire f , jest zbiór poszukiwanych wartości dysparycji

pochodzących z przedziału wartości dopuszczalnych [dmin, dmax].

Problem etykietowania może być z kolei sformułowany z wykorzystaniem za-

gadnienia minimalizacji pewnej funkcji kosztu, której argumentem jest poszukiwa-

ny zbiór etykiet. Celem minimalizacji funkcji kosztu jest znalezienie takiego zbioru

etykiet d =

dp : p ∈ Ire f

, który minimalizuje wyrażenie:

E (d) =∑

p∈Ire f

K(

dp

)

+∑

p,q∈N(p)

V(

dp, dq

)

(3.5)

gdzie K(dp) jest kosztem przypisania etykiety dp do piksela p, N(p) jest zbiorem

pikseli sąsiadujących z pikselem p w ustalonym w danym algorytmie sąsiedztwie

tego piksela, natomiast V (dp, dq) jest kosztem przypisania etykiet dp i dq do pikseli

p i q należących do sąsiedztwa N(p).

Widoczne jest oczywiście podobieństwo pomiędzy wzorem (3.5) i wzorem

(3.1), dlatego metoda ta zaliczana jest do globalnych metod dopasowania pary ste-

reoskopowej. Ponieważ, zgodnie z przyjętym wyżej założeniem, zbiorem etykietL

55



są dopuszczalne wartości dysparycji, znalezienie optymalnego etykietowania grafu

jest równoznaczne z wyznaczeniem poszukiwanej mapy dysparycji d.

Wykorzystanie metody poszukiwania minimalnego rozcięcia grafu w celu obli-

czenia mapy dysparycji zostało zaproponowane w artykułach [79, 80]. Aby rozwią-

zać problem optymalizacji funkcji kosztu konstruowany jest graf którego źródłem s

są piksele obrazu referencyjnego Ire f . Piksele obrazu przeszukiwania Isz stanowią

natomiast ujście t budowanego grafu. Piksele obrazu referencyjnego (źródło s gra-

fu) oraz piksele obrazu przeszukiwania (ujście t grafu) wyznaczające wyróżnione

wierzchołki grafu, łączone są krawędziami z wagami równymi kosztowi przypi-

sanemu do określonych wartości dysparycji. Dodatkowo wierzchołki grafu wyzna-

czane przez wartości dysparycji łączone są dodatkowymi krawędziami, których wa-

gi mogą być modelem dodatkowej funkcji kary obliczanej w czasie optymalizacji

funkcji kosztu.

Obrazowe przedstawienie przestrzenne tak utworzonego grafu pokazane zo-

stało na rys. 3.3b. Graf przestrzenny może być również utworzony przez złożenie

i połączenie krawędziami grafów płaskich utworzonych dla każdego wiersza ob-

razu cyfrowego. Graf płaski jaki powstałby dla jednego wiersza obrazu cyfrowego

wraz z przykładowym rozcięciem przedstawia rys. 3.3a.

t

s

dmax

dmin

di

(a) Rozcięcie jednej z płasz-czyzn grafu trójwymia-

rowego

t

s

(b) Reprezentacja gra-fu trówymiarowe-

go

d

(i, j)

(c) Ilustracja rozcię-cia grafu

Rys. 3.3. Rozcięcie grafu odpowiadające podziałowi przestrzeni w której graf tenjest umieszczony. Graf trójwymiarowy (b) może być zobrazowany jako prze-

strzenne ułożenie grafów dwuwymiarowych (a)

Rozwiązaniem problemu dopasowania (wyznaczenia wartości mapy dyspary-

cji) jest hiperpowierzchnia d = f (i, j) pokazana na rys. 3.3c. Powierzchnia ta de-

finiowana jest przez optymalny zbiór etykietowania f określony względem pikseli

56



obrazu referencyjnego (źródła s grafu). Hiperpowierzchnia wyznaczana przez war-

tości dysparycji (zbiór etykiet określony przez funkcję etykietowania f ) d = f (i, j)

rozdziela źródło s (piksele obrazu referencyjnego Ire f ) i ujście t (piksele obrazu

przeszukiwania Isz), definiując jego rozcięcie oraz wyznaczony zbiór etykiet (zbiór

wyznaczonych wartości dysparycji). Przykład zobrazowania otrzymanej hiperpo-

wierzchni przedstawiony został na rys. 3.3c.

Spotykane w literaturze różnice między rozwiązaniami wykorzystującymi mi-

nimalne rozcięcie grafu w celu rozwiązania problemu dopasowania obrazów pary

stereoskopowej sprowadzają się głównie do wykorzystania różnych metod umożli-

wiających wyznaczenie minimalnego rozcięcia grafu. W proponowanych rozwią-

zaniach przyjmowane są także różne modyfikacje postaci funkcji kosztu.

Jedna z propozycji rozwiązania problemu dopasowania pary stereoskopowej

przedstawiona została przez Ishikawę i Geigera [81]. W proponowanym rozwiąza-

niu wykorzystany został graf o postaci trójwymiarowej, jak na rys. 3.3b. Funkcja

kosztu oparta została o różnice wartości jasności pikseli obrazów referencyjnego

i przeszukiwania. Dodatkowy człon funkcji kosztu zwiększa koszt przy próbie przy-

pisania znacząco różnych wartości dysparycji dla sąsiednich pikseli. Do rozwiąza-

nia znalezienie minimalnego rozcięcia grafu zastosowany został algorytm Gold-

berga – Tarjana znany pod nazwą ang. push relabel.

W propozycji przedstawionej w [82, 83] autor skupił się głównie na badaniach

algorytmu umożliwiającego znalezienie optymalnego rozcięcia grafu względem

poszukiwanego zbioru etykiet. Zaproponowany został ogólny algorytm umożliwia-

jący znalezienie minimalnego rozcięcia grafu, w przypadku gdy etykiety pochodzą

z dowolnie dużego skończonego zbioru. Algorytmy te są algorytmami iteracyjnymi

znanymi w literaturze pod nazwami ang. α-expansion i ang. α-β swap.1 W propo-

nowanym rozwiązaniu funkcja kosztu była oparta na różnicy wartości jasności pik-

seli i zawierała składnik zwiększający koszt w przypadku próby przypisania sąsied-

nim pikselom znacząco różnych wartości dysparycji. Inną cechą przedstawionego

rozwiązania było uwzględnienie w funkcji kosztu dodatkowego składnika, zwięk-

szającego wartość kary, jeżeli w czasie wykonywania algorytmu podejmowana była

próba przypisania wartości dysparycji do piksela przesłoniętego.

W pracach [84, 85, 77] przedstawiona została szczegółowa matematyczna ana-

1 Autorowi nie udało się znaleźć nawet przybliżonych tłumaczeń nazw tych algorytmów na ję-zyk polski.

57



liza postaci funkcji kosztu, jakie mogą być wykorzystane w algorytmach poszuki-

wania minimalnego rozcięcia grafu. Przedstawione rozważania zostały zastosowa-

ne do rozwiązania problemu dopasowania obrazów pary stereoskopowej. W roz-

wiązaniu tego problemu autorzy wprowadzili do funkcji kosztu dodatkowy skład-

nik, zwiększający jej wartość przy próbie przypisania wartości dysparycji do pikseli

przesłoniętych. Funkcja kosztu podlegała minimalizacji, a jako algorytm umożli-

wiający wyznaczenie minimalnego rozcięcia grafu zastosowany został algorytm

α-expansion.

3.2.3. Dopasownie obrazów pary stereoskopowej za pomocą

programowania dynamicznego

Terminem programowanie dynamiczne określa się ogólną metodę projektowa-

nia algorytmów umożliwiających rozwiązanie problemu poprzez jego rozłożenie

na mniejsze podproblemy. W algorytmach opartych o programowanie dynamicz-

ne każdy podproblem rozwiązuje się jednokrotnie, zapamiętując jego wynik do

późniejszego wykorzystania. Pozwala to na uniknięcie wielokrotnych obliczeń te-

go samego prodproblemu, co występuje np. przy zastosowaniu algorytmów typu

„dziel i zwyciężaj”.

Programowanie dynamiczne stosowane jest zazwyczaj do problemów optyma-

lizacyjnych, w których możliwych jest wiele rozwiązań. Z każdym rozwiązaniem

jest związany pewien koszt, a rozwiązanie optymalne to takie, które generuje opty-

malną (minimalną lub maksymalną) wartość kosztu [86].

W przypadku zastosowania programowania dynamicznego w zagadnieniu do-

pasowania obrazów pary stereoskopowej rozwiązanie szukane jest oddzielnie dla

każdego wiersza obrazu. Zakładając, że obraz ma rozmiary M × N pikseli i ozna-

czając prze pi j piksel leżący na przecięciu i-tego wiersza i j-tej kolumny, funkcję

kosztu dla poszczególnych wierszy i = 0, . . . ,M − 1 definiuje się jako:

E (di) =N−1∑

j=0

K(

di j

)

(3.6)

gdzie di jest wektorem dysparycji di j , j = 0, . . . ,N − 1, przypisanych kolejnym

pikselom pi j należącym do i-tego wiersza, zaś K(di j) jest kosztem przypisania

pikselowi pi j wartości dysparycji di j .

58



Dla każdego wiersza o numerze i = 0, . . . ,M − 1 w obrazie referencyjnym

i odpowiadającego mu wiersza w obrazie przeszukiwania tworzona jest macierz

kosztu. Wyznaczenie optymalnej wartości dysparycji dla danego wiersza polega

na znalezieniu ścieżki w tak utworzonej macierzy, która, w zależności od jawnej

postaci miary kosztu E(di) minimalizuje lub maksymalizuje tę miarę. Optymal-

na ścieżka odpowiada poszukiwanemu wektorowi dysparycji di dla i-tego wiersza

obrazu [87].

Na rys.3.4 przedstawiona została wizualna reprezentacja konstruowania macie-

rzy kosztu, określona dla jednego wiersza obrazów pary stereoskopowej.

Ire f

Isz

Macierz kosztu dladla wyróżnionego wiersza

(a) Konstrukcja macierzy kosztu dla wyróżnio-nego wiersza obrazów pary stereoskopowejwykorzystywana w algorytmie dopasowa-

nia obrazów pary stereoskopowej

(b) Przykładowa macierzkosztu dla wyróżnionego

wiersza

Rys. 3.4. Graficzne przedstawienie macierzy kosztów używanych w algorytmie do-pasowania z wykorzystaniem programowania dynamicznego

Całościowe rozwiązanie w postaci mapy dysparycji określonej dla całych obra-

zów otrzymywane jest zazwyczaj przez iteracyjne rozwiązywanie problemu dopa-

sowania dla wierszy macierzy liczb reprezentujących cyfrowe obrazy pary stereo-

skopowej. Szczegółowe sposoby postępowania zarówno w przypadku poszukiwa-

nia rozwiązania dla jednego wiersza obrazu jak i całego obrazu uzależnione są od

implementacji algorytmu.

Jako koszt dopasowania stosowane są miary miary SAD (ang. Sum of Absolute

Differences), SSD (ang. Sum of Squared Differences) lub ZNCC (ang. Zero mean

Normalized Cross–Correlation) [88] (por. p. 3.3.2). W funkcję kosztu wbudowy-

59



wane są dodatkowe ograniczenia, jak np. zakres wartości poszukiwanej dysparycji.

Ograniczenie zakresu wartości poszukiwanej dysparycji zilustrowane zostało na

rys. 3.4b, jako białe kwadraty w przekroju macierzy kosztu. Poszukiwanie opty-

malnej ścieżki w macierzy kosztu odbywa się wzdłuż przekątnej macierzy kosztu,

jednak zakres przeszukiwania ograniczony jest przez maksymalną wartość dopusz-

czalnej dysparycji dmax. W przypadku macierzy kosztu przedstawionej na rys. 3.4b

optymalna ścieżka zawiera się na pomiędzy wartościami umieszczonymi na prze-

kątnej i wartościami położonymi o dmax w prawo komórek od przekątnej macierzy.

Funkcja kosztu zawiera również często składnik odpowiadający za nałożenie

dodatkowych wartości kary w przypadku próby przypisania wartości dysparycji do

pikseli przesłoniętych. Funkcja kary wyrażana jest za pomocą różnicy dysparycji

określonych dla sąsiednich dopasowywanych pikseli lub wariancji wartości obli-

czanej dysparycji [87].

W [88] przedstawiony został algorytm oparty na programowaniu dynamicz-

nym, w którym struktura danych miała formę odpowiednio skonstruowanego drze-

wa. Innym aspektem prezentowanego tam algorytmu jest implementacja równocze-

snej optymalizacji funkcji kosztu zarówno dla wierszy jaki i dla kolumn określonej

macierzy kosztu. Efekt ten został osiągnięty przez zastosowanie technik programo-

wania równoległego.

W [89] zaprezentowany został algorytm dopasowania pary stereoskopowej z wy-

korzystaniem dwukierunkowego programowania dynamicznego (ang. bidirectio-

nal dynamic programming). Na podstawie obliczonej macierzy kosztu opartej o mia-

rę SSD wartość najlepszego dopasowania obliczana jest w dwóch krokach. Po wy-

konaniu pierwszego kroku, jakim jest obliczenie mapy dysparycji za pomocą pro-

gramowania dynamicznego, następuje poszukiwanie najlepszego rozwiązania

w drugim kierunku przeszukiwania. Jest to rozwiązanie analogiczne do zamiany

miejscami obrazu odniesienia i przeszukiwania, co według autorów pozwoliło na

zwiększenie odporności algorytmu w regionach gdzie występują piksele przesło-

nięte.

W [72] programowanie dynamiczne wykorzystane zostało w dopasowaniu ob-

razów w przestrzeni RGB (ang. Red Green Blue), z zastosowaniem miary kosztu

MSE (ang. Mean Squared Error) jako średniej ważonej dla każdego z kanałów.

Autorzy doszli do stwierdzenia, że wykorzystanie obrazów kolorowych pozwala

na uzyskanie lepszych wyników, niż zastosowanie obrazów w skali szarości.

60



3.3. Metody dopasowania obszarami

Metody dopasowania obszarami stanowią najbardziej liczną grupę metod w al-

gorytmach dopasowania obrazów. Nazwa wzięła swoje pochodzenie ze specyfi-

ki działania tych metod, których działanie opiera się na znajdowaniu dopasowa-

nia między fragmentami obrazów. Schematyczne przedstawienie działania meto-

dy dopasowania obrazów pary stereoskopowej obszarami przedstawione zostało

na rys. 3.5.

Region przeszukiwania

j

i

D

S

j∗j′ − dmax j

′ − dmin

Rys. 3.5. Zobrazowanie działania algorytmu dopasowania obszarami. Poszukiwa-nie rozwiązania odbywa się wzdłuż wierszy obrazu, a więc przy założeniu rek-

tyfikacji pary stereoskopowej

W typowym algorytmie w obrazie referencyjnym (lewy obraz na rys. 3.5) usta-

lane jest położenie okna na pozycji o współrzędnych środka okna (i, j). W obra-

zie przeszukiwania (prawy obraz na rys. 3.5) znajduje się okno przeszukiwania

o zmiennym położeniu w ustalonym zakresie dopuszczalnych wartości przesunię-

cia, czyli dysparycji z przedziału [dmin, dmax].

Rysunek 3.5 przedstawia tę sytuację w przypadku obrazów zrektyfikowanych

(tzn. linie epipolarne odpowiadają wierszom obrazów), stąd poszukiwanie odpo-

wiednika odbywa się tylko wzdłuż wiersza określonego przez współrzędną i na

lewym (referencyjnym) obrazie pary stereoskopowej, a poszukiwania jest wartość

współrzędnej j położenia okna w obrazie przeszukiwania. Dla każdego położenia

okna przeszukiwania określana jest pewna miara podobieństwa S (ang. similari-

61



ty) lub rozbieżności D (ang. dissimilarity). W zależności od budowy algorytmu, za

znalezioną wartość dysparycji uważa się współrzędną j∗ położenia okna przeszuki-

wania, dla której wartość przyjętej miary osiągnęła wartość optymalną (minimalną

lub maksymalną).

3.3.1. Algorytm metody dopasowania obszarami

Metoda poszukiwania dopasowań obszarami zapisana w formie algorytmicznej

przyjmuje postać określoną przez algorytm 3.1.

Algorytm 3.1 Ogólny algorytm dopasowania obrazów pary stereoskopowej przydopasowaniu obszarami.

Dane wejściowe: Obrazy tworzące parę stereoskopową Ire f i Isz o rozmiarach M×N pikseli

Dane wejściowe: Przedział dopuszczalnych wartości dysparycji [dmin, dmax]Dane wejściowe: Rozmiary okien referencyjnego i przeszukiwania Nv i Nh

for Dla każdego piksela obrazu referencyjnego do

Ustaw okno przeszukiwania w obrazie referencyjnym Ire f , na pozycji (i, j)for Dla każdej wartości dysparycji z zakresu [dmin, dmax] do

Ustaw okno przeszukiwania w drugim obrazie przeszukiwania Isz na pozy-cji (i, j + d)Oblicz wartość miary dopasowania pomiędzy oknamiif Obliczenia wykonywane są dla pierwszej wartości dysparycji d = dmin

then

Zapamiętaj wartość dysparycji d (i, j), oraz wartość obliczonej miaryS (i, j) lub D (i, j)

else

Porównaj bieżącą wartość miary z wartością otrzymaną dla poprzednie-go położenia okna przeszukiwania

end if

if Jeżeli wartość miary jest lepsza, tzn. większa lub mniejsza then

Zapamiętaj bieżącą wartość dysparycji d (i, j), oraz wartość miary S (i, j)lub D (i, j)

end if

end for

end for

Obliczona mapa wartości d jest wyznaczoną mapą dysparycji

W przypadku działania algorytmu 3.1 pozostaje do ustalenia miara, jaką można

posłużyć się do porównywania podobieństwa między pikselami zawartymi w oknie

62



referencyjnym i oknie przeszukiwania. W następnym punkcie przedstawiony zosta-

nie wybrany zbiór miar używany w procesie dopasowania.

3.3.2. Miary wykorzystywane w algorytmach dopasowania

obszarami

Aby przedstawić najczęściej stosowane miary w algorytmach dopasowania ob-

szarami, przyjęte zostaną oznaczenia podane w tabl. 3.1.

Tabl. 3.1. Oznaczenia stosowane przy opisie miar dopasowania używanych w al-gorytmach dopasowania obszarami

Symbol oznaczenia Wyjaśnienie znaczenia

Nv, Nh, Nw Rozmiary okien przeszukiwania i referencyjnego. W przy-

padku okna prostokątnego Nv określa rozmiar wertykalny,

a Nh rozmiar horyzontalny. W przypadku stosowania okna

kwadratowego rozmiary Nv = Nh są równe i rozmiar okna

kwadratowego jest oznaczany symbolem Nw.

W = W (i, j) Zbiór pikseli obrazu określonych przez okno o środku

umieszczonym na pozycji o współrzędnych (i, j).

Np Liczba pikseli zawartych w oknie. Dla okna prostokątnego

Np = Nv × Nh, dla okna o kształcie kwadratowym Np =

Nw × Nw.

Ire f (i, j) Wartość jasności piksela obrazu referencyjnego Ire f , le-

żącego na pozycji określonej przez współrzędne (i, j).

Isz (i, j) Wartość jasności piksela obrazu przeszukiwania Isz, leżą-

cego na pozycji określonej przez współrzędne (i, j).

Kontynuacja na następnej stronie …

63



Tabl. 3.1 – Kontynuacja z poprzedniej strony

Symbol oznaczenia Wyjaśnienie znaczenia

Ire f (i, j) =

1Np

∑

m,n∈Wre f

Ire f

(

i + m,j + n

)

Średnia wartość jasności pikseli obrazu referencyjnego

Ire f w obszarze określonym przez okno referencyjne Wre f

umieszczone na pozycji o współrzędnych (i, j). Zakłada

się, że wszystkie piksele obrazu zawarte w oknie referen-

cyjnym Wre f umieszczonym na pozycji o współrzędnych

(i, j) należą do obrazu. W innym przypadku wartość ta

powinna być zdefiniowana w inny sposób.

Isz (i, j) =

1Np

∑

m,n∈Wsz

Isz

(

i + m,j + n

)

Średnia wartość jasności pikseli obrazu przeszukiwania

Isz w obszarze określonym przez okno przeszukiwania

Wsz umieszczone na pozycji o współrzędnych (i, j). Zakła-

da się, że wszystkie piksele obrazu zawarte w oknie prze-

szukiwania należą do obrazu. W innym przypadku war-

tość ta powinna być zdefiniowana w inny sposób.

d (i, j) , di j Wartość dysparycji horyzontalnej, czyli przesunięcia od-

powiadających sobie pikseli w obrazach pary stereosko-

powej w kierunku poziomym. Dla takiej wartości prze-

sunięcia okna przeszukiwania, względem położenia okna

referencyjnego przedstawione zostały miary dopasowania.

Miara korelacji wzajemnej

Korelacja wzajemna CC (ang. Cross Correlation) jest ogólną miarą statystycz-

ną podobieństwa dwóch zmiennych. W przypadku określania miary podobieństwa

między grupami pikseli należących do dwóch obrazów korelacja wzajemna jest

zdefiniowana wyrażeniem:

CC =∑

m,n∈WIre f (i + m, j + n) · Isz

(

i + m, j + n + di j

)

(3.7)

Wartości korelacji wzajemnej zawierają się w przedziale [0;+∞].

64



Znormalizowana korelacja wzajemna

W zagadnieniach widzenia stereoskopowego, a w szczególności w algorytmach

dopasowania pary stereoskopowej [58, 90, 91, 92], często stosowana jest znormali-

zowana korelacja wzajemna NCC (ang. Normalized Cross Correlation), określona

wyrażeniem:

NCC =

∑

m,n∈WIre f (i + m, j + n) · Isz

(

i + m, j + n + di j

)

√

∑

m,n∈WI2re f

(i + m, j + n) · ∑

m,n∈WI2sz

(

i + m, j + n + di j

)

(3.8)

Wartości znormalizowanej korelacji wzajemnej zawierają się w przedziale [0; 1].

Centralnie znormalizowana korelacja wzajemna

Kolejną miarą należącą do grupy miar korelacyjnych jest znormalizowana ko-

relacja wzajemna o zerowej wartości średniej ZNCC [93, 94], określona wzorem:

ZNCC =

∑

m,n∈W

[

Ire f (i + m, j + n) − Ire f (i, j)]

·√

∑

m,n∈W

[

Ire f (i + m, j + n) − Ire f (i, j)]2 ·

·[

Isz

(

i + m, j + n + di j

)

− Isz

(

i, j + di j

)

]

·√

[

Isz

(

i + m, j + n + di j

)

− Isz

(

i, j + di j

)

]2(3.9)

Wartości tej miary zawierają się w przedziale [−1; 1].

65



Korelacja Moravca

Czasami stosowana bywa także miara korelacyjna MCC (ang. Moravec Cross

Correlation) zaproponowana przez Moravca, o postaci:

MCC =

2 · ∑

m,n∈W

[

Ire f (i + m, j + n − Ire f

(

i, j + di j

)

]

·

∑

m,n∈W

[

Ire f (i + m, j + n) − Ire f

(

i, j + di j

)

]

+

·[

Isz

(

i + m, j + n + di j

)

− Isz

(

i, j + di j

)

]

+∑

m,n∈W

[

Isz

(

i + m, j + n + di j

)

− Isz

(

i, y + di j

)

] (3.10)

Wartości korelacji MCC zawierają się w przedziale [−1; 1]. Zaletą tej miary jest jej

inwariatność na obciążenie składową stałą.

Drugą grupą miar, bardzo często wykorzystywaną w algorytmach dopasowania

obszarami, są miary charakteryzujące „odległość” między odpowiadającymi sobie

obszarami w dwóch obrazach. Są to miary, których zakres zmienności zawiera się

w przedziale[

0; NpImax

]

lub[

0; NpI2max

]

, gdzie Imax to maksymalna wartość jasno-

ści piksela, natomiast Np oznacza liczbę pikseli sąsiedztwa.

Suma wartości bezwzględnych różnic

Najprostszą, a równocześnie bardzo często stosowaną miarą odległości, jest su-

ma wartości bezwzględnych różnic SAD (ang. Sum of Absolute Differences), okre-

ślona wzorem (3.11), która jest normą w przestrzeni L1:

SAD =∑

m,n∈W

∣

∣

∣

∣

Ire f (i + m, j + n) − Isz

(

i + m, j + n + di j

)

∣

∣

∣

∣

(3.11)

Ze względu na swoją intuicyjna prostotę, jak również łatwość implementacji

w rzeczywistych algorytmach, miara ta jest często stosowaną miarą w algorytmach

dopasowania obrazów [95, 96, 97, 73]. Miara SAD przyjmuje wartości[

0; NpImax

]

,

gdzie Imax to maksymalna wartość jasności piksela, natomiast Np liczba pikseli

sąsiedztwa.

66



Centralnie znormalizowna suma wartości bezwględnych różnic

Znormalizowana suma wartości bezwzględnych różnic ZSAD (ang. Zero mean

Sum of Absolute Differences) jest zmodyfikowaną miarą SAD (3.11). Normaliza-

cja pozwala na uzyskanie lepszych wyników w przypadku, gdy wartości jasności

jednego z obrazów obciążone są składową stałą.

ZSAD =∑

m,n∈W

∣

∣

∣

∣

[

Ire f (i + m, j + n) − Ire f (i, j)]

−

−[

Isz

(

i + m, j + n + di j

)

− Isz

(

i, j + di j

)

]

∣

∣

∣

∣

∣

(3.12)

Zakresem zmienności miary ZSAD jest[

0; NpImax

]

.

Suma kwadratów różnic

Suma kwadratów różnic SSD (ang. Sum of Squared Differences) jest częstą

miarą przyjmowaną w algorytmach dopasowania obrazów pary stereoskopowej [6].

Jest to norma euklidesowa w przestrzeni wektorów jasności obrazów.

SSD =∑

m,n∈W

[


(

i + m, j + n + di j

)]2(3.13)

Miara SSD jest miarą podobieństwa wartości pikseli o zakresie zmienności[

0,NpI2max

]

.

Centralnie znormalizowna suma kwadratów różnic

Jako jedna z miar dopasowania bywa również stosowana znormalizowana cen-

tralnie suma kwadratów różnic [98] ZSSD (ang. Zero mean Sum of Squared Dif-

ferences). Jest ona wyrażona wzorem:

ZSSD =

∑

m,n∈W

[


(

i + m, j + n + di j

)]2

√

∑

m,n∈WI2re f

(i + m, j + n) · ∑

m,n∈WI2sz

(

i + m, j + n + di j

)

(3.14)

Miara ta przyjmuje wartości z przedziału[

0; NpImax

]

.

67



Inne miary dopasowania

Przedstawione powyżej miary nie wyczerpują wszystkich miar jakie mogą zo-

stać zastosowane w algorytmie dopasowania. Są to miary najbardziej popularne,

natomiast jako przykłady innych, rzadziej stosowanych miar, można wymienić:

Lokalnie skalowana suma wartości bezwzględnych różnic

Lokalnie skalowana suma wartości bezwzględnych różnic LSAD (ang. Locally

Scaled Sum of Absolute Differences) jest zdefiniowana wzorem [99]:

LSAD =∑

m,n∈W

∣

∣

∣

∣

∣

∣

∣

∣

∣

Ire f (i + m, j + n) −Ire f (i, j)

Isz

(

i, j + di j

)

· Isz

(

i + m, j + n + di j

)

∣

∣

∣

∣

∣

∣

∣

∣

∣

(3.15)

Lokalnie skalowana suma kwadratów różnic

Lokalnie skalowana suma kwadratów różnic LSSD (ang. Locally Scaled Sum

of Squared Differences) określona jest wyrażeniem [99]:

LSSD =∑

m,n∈W

Ire f (i + m, j + n) −Ire f (i, j)

Isz

(

i, j + di j

)

· Isz

(

i + m, j + n + di j

)

2

(3.16)

Ucięta suma wartości bezwzględnych różnic

Ucięta suma różnic TSAD (ang. Truncated Sum of Absolute Differences) jest

miarą określoną wyrażniem [100]:

TSAD =∑

m,n∈Wmin

[∣

∣

∣

∣


(

i + m, j + n + di j

)

∣

∣

∣

∣

, TSAD

]

(3.17)

gdzie TSAD jest pewną stałą wartością progową.

Informacja wzajemna

Informacja wzajemna MI (ang. Mutual Information) jest teoretyczną miarą po-

dobieństwa informacji niesionej przez dwie zmienne losowe, która również znala-

zła zastosowanie jako miara podobieństwa między grupami pikseli w algorytmach

dopasowania obrazów pary stereoskopowej. Miara informacji wzajemnej jest okre-

68



ślona przez odpowiednie prawdopodobieństwa związane z porównywanymi zmien-

nymi losowymi.

Informacja wzajemna MI między dwoma zmiennymi losowymi A i B jest zde-

finiowana wyrażeniem [101, 102, 103]:

MI (A, B) = H (A) + H (B) − H (A, B) (3.18)

gdzie H (A) i H (B) są entropiami własnymi tych zmiennych losowych wyrażonymi

wzorami:

H (A) = −∑

a

p (a) log2 p (a) ; H (B) = −∑

b

p (b) log2 p (b) (3.19)

p (a) i p (b) są ich rozkładami, natomiast H (A, B) jest entropią łączną określoną

przez łączny rozkład prawdopodobieństwa p (a, b):

H (A, B) = −∑

a

∑

b

p (a, b) log2 p (a, b) (3.20)

Miara informacji wzajemnej MI jest miarą podobieństwa przyjmującą wartości

z zakresu 0 6 MI (A, B) 6 min [H (A) , H (B)]. Wartość minimalna równa zeru

występuje w przypadku, gdy zmienne losowe A i B są niezależne statystycznie, na-

tomiast wartość maksymalna jest przyjmowana w przypadku, gdy A i B są zmien-

nymi losowymi zależnymi funkcyjnie.

Zaproponowana została również wersja znormalizowana miary informacji wza-

jemnej NMI (ang. Normalized Mutual Information) [104]:

NMI (A, B) =H (A) + H (B)

H (A, B)(3.21)

W przypadku zastosowania miary informacji wzajemnej w algorytmie dopaso-

wania obrazów pary stereoskopowej wartości jasności pikseli traktowane są jako

wartości pewnych zmiennych losowych, natomiast ich rozkłady prawdopodobień-

stwa wyznaczane są za pomocą histogramów. W celu określenia łącznego rozkładu

prawdopodobieństwa stosowany jest histogram dwuwymiarowy lub estymator Pa-

rzena [105, 106].

69



3.3.3. Dopasowanie w dziedzinie transformat

Zastosowanie transformat w algorytmach dopasowania obrazów polega na za-

mianie dziedziny opisu obrazu z przestrzeni jasności pikseli na opis określony przez

zastosowaną transformatę, a następnie wykonanie algorytmu dopasowania w dzie-

dzinie transformat.

Praktycznie każda transformata, która może być zastosowana do obrazu cyfro-

wego może zostać wykorzystana w algorytmach dopasowania. Oprócz najbardziej

znanych transformat, takich jak transformata Fouriera, czy transformata falkowa,

stosowane bywają również mniej znane transformaty, takie jak cepstrum [107] lub

curvelet [108]. W następnych punktach przedstawione zostaną algorytmy dopaso-

wania, w których wykorzystano najbardziej znane transformaty.

Dopasowanie z zastosowaniem przekształcenia Fouriera

Ze względu na specyfikę obrazów, które są sygnałami dyskretnymi, w algoryt-

mach przetwarzania obrazów wykorzystujących przekształcenie Fouriera zastoso-

wanie znalazła dyskretna transformata Fouriera. Transformatę tę oblicza się z wy-

korzystaniem algorytmu FFT (ang. Fast Fourier Transform) [109].

Z uwagi na uwarunkowania implementacyjne, podczas obliczania transforma-

ty Fouriera obrazu posługujemy się z reguły oknem kwadratowym o nieparzystym

rozmiarze Nw. Zazwyczaj jest również przyjmowane typowe założenie o rektyfi-

kacji obrazów pary stereoskopowej. W takim przypadku poszukiwana jest wartość

dysparycji horyzontalnej co pozwala na zmniejszenie rozmiaru obliczanej trans-

formaty Fouriera. Wymiar okien przyjmowany jest wówczas jako 1 × Nw. Przy

wyborze takiego okna wartości jasności zawierających się nim pikseli określone są

jako: I (i, j − (Nw − 1) /2 + n) gdzie: n = 0, . . . ,Nw − 1.

W algorytmach wykorzystujących transformatę Fouriera w zagadnieniu dopa-

sowania pary stereoskopowej wartości transformaty wyznaczane są dla fragmen-

tów wierszy obrazów określonych przez położenia okien w obrazie referencyjnym

Ire f i przeszukiwania Isz. W przypadku ustalenia położenia okna referencyjnego

w obrazie referencyjnym Ire f transformata Fouriera fragmentu wiersza obrazu wy-

znaczonego przez to okno wyraża się zależnością:

Xre f (k) =Nw−1∑

n=0

Ire f (i, j − (Nw − 1) /2 + n) e− j2πkn/Nw =∣

∣

∣Xre f

∣

∣

∣ e− jφre f (k) (3.22)

70



dla k = 0, . . . ,Nw−1. Analogiczne wyrażenie jest słuszne dla transformaty Fouriera

Xsz (k) fragmentu obrazu wyznaczonego przez okno przeszukiwania.

Jeżeli w obrazie przeszukiwania istnieje piksel o takiej samej wartości, ale prze-

sunięty o wartość d w stosunku do położenia w obrazie referencyjnym, pomiędzy

transformatami powinna zachodzić zależność:

∣

∣

∣Xre f (k)∣

∣

∣ e− jφre f (k)= |Xsz (k)| e− jφsz(k)e− jφd (k) (3.23)

Jeżeli wartości jasności pikseli w obrazie referencyjnym i obrazie przeszukiwania

są takie same, wtedy ich widma amplitudowe∣

∣

∣Xre f (k)∣

∣

∣ oraz |Xsz (k)| są identyczne.

Natomiast wartość dysparycji d (k) może być obliczona poprzez różnicę wystę-

pującą w widmie fazowym:

d (k) = φd (k)Nw

2πk(3.24)

dla k = 0, . . . ,Nw − 1, gdzie φd (k) = φre f (k) − φsz (k). Ze względu na okresowość

fazy widma, wartości te należą do przedziału [−2π, 2π]. Dlatego w celu znalezie-

nia wartości dysparycji na podstawie wyznaczonego przesunięcia stosowane jest

liniowe przedłużenie przebiegu fazy, np. za pomocą algorytmu regresji liniowej

[109].

W algorytmach dopasowania z wykorzystaniem transformaty Fouriera główny-

mi różnicami są aspekty algorytmiczne. W [110] zaproponowany został algorytm

umożliwiający obliczanie wartość przesunięcia fazowego bezpośrednio z wartości

próbek transformaty. Umożliwia to uniknięcie bezpośredniego obliczania wartości

dwóch faz oraz problemu uciąglania fazy. Inną propozycją przedstawioną w [111]

jest estymacja częstotliwości i fazy z wykorzystaniem banku filtrów Gabora. Po-

zwoliło to na zrównoleglenie obliczeń oraz implementację algorytmu w układzie

FPGA (ang. Field Programmable Gate Array).

Transformata falkowa

Metody zastosowania transformaty falkowej w zagadnieniu dopasowania ob-

razów pary stereoskopowej są analogiczne do przypadku transformaty Fouriera.

Obydwa obrazy pary stereoskopowej przekształcane są do dziedziny transformaty

falkowej, po czym szukane jest rozwiązanie problemu dopasowania obrazów pary

71



stereoskopowej z wykorzystaniem otrzymanych współczynników opisu obrazów

wyrażonych za pomocą transformaty falkowej.

Ogólna definicja ciągłej transformaty falkowej CWT (ang. Continuous Wavelet

Transform) dla jednowymiarowego ciągłego sygnału f (x) ∈ L2 (R), gdzie L2 (R)

jest przestrzenią funkcji całkowalnych z kwadratem określonych na zbiorze liczb

rzeczywistych R, dana jest wzorem [112, 113]:

CWT (s, τ) =∫

f (x)ψ∗s,τ (x) dx (3.25)

gdzie ψ∗s,τ (x) jest pewną ustaloną funkcją określoną przez dwa parametry: parametr

skali s i parametr przesunięcia τ, natomiast ∗ oznacza operator sprzężenia zespolo-

nego.

Transformata odwrotna, umożliwiająca rekonstrukcję sygnału na podstawie otrzy-

manej transformaty według wyrażenia (3.25) określona jest wzorem [112, 113]:

f (x) ="

CWT (s, τ)ψs,τ (x) dτds (3.26)

Transformata falkowa pozwala na reprezentację sygnału za pomocą ustalonej

rodziny funkcji stanowiącej ortogonalną bazę przekształcenia. Baza ta ustalana jest

za pomocą operacji przesuwania i skalowania podstawowej funkcji matki ψ (x),

zwanej również funkcją macierzystą lub prototypową (ang. mother wavelet) [114,

115]. W wyniku tych operacji otrzymywany jest zbiór funkcji:

ψs,τ (x) =1√

sψ

(

x − τs

)

(3.27)

umożliwiający jednoznaczną reprezentację sygnału w dziedzinie transformaty [112,

113] gdzie parametr√

s normalizuje energię falki.

Należy zwrócić uwagę, że w wyrażeniach (3.25), (3.26) i (3.27) nie jest okre-

ślona jawna postać funkcji falkowej. Stanowi to zasadniczą różnicę między trans-

formatą Fouriera, w której określona jest konkretna baza rozkładu. W przypadku

transformaty falkowej funkcję podstawową ψ (x) można dobierać praktycznie do-

wolnie, zakładając że spełnia ona określony zbiór warunków. Przykładem jednej

z często stosowanych funkcji macierzystych, będącej podstawą zbudowania bazy

rozkładu w transformacie falkowej, jest dobrze znana falka Haara [112, 116, 117].

72



W przypadku obliczania dyskretnej transformaty falkowej DWT (ang. Discrete

Wavelet Transform), która jest użyteczna w zastosowaniu do analizy obrazów cy-

frowych, najczęściej próbkowana jest płaszczyzna czas–częstotliwość. W tym przy-

padku transformata falkowa obliczana jest jedynie dla dyskretnych wartości para-

metrów skali s i przesunięcia τ.

W celu wyznaczenia dyskretnej reprezentacji funkcji falkowych modyfikowany

jest wzór (3.27). Popularnym sposobem dyskretyzacji zbioru funkcji falkowych jest

przyjęcie, że są one wyznaczane dla dyskretnych wartości parametrów s i τ:

sm = sm0 , τn = nτ0sm

0 (3.28)

gdzie m i n są wartościami całokowitoliczbowymi, zaś s0 jest liczbą rzeczywistą

większą od 1, ustaloną w celu dyskretyzacji wartości parametru skali s z całkowi-

tym parametrem skali m, natomiast τ0 jest niezerową liczbą rzeczywistą, wykorzy-

staną do dyskretyzacji przesunięcia τ z całkowitym parametrem n. Tak więc dys-

kretna transformata falkowa określona jest dla dyskretnych wartości parametrów

skali s ∈

sm0 ; m ∈ Z

i przesunięć τ ∈

nτ0sm0 ; m, n ∈ Z

.

W efekcie dyskretyzacji wzór (3.27) przybiera postać:

ψm,n (x) = s−m/20 ψ

(

s−m0 x − nτ0

)

(3.29)

Przy dyskretyzacji zbioru funkcji falkowych istnieje dowolność w wyborze war-

tości parametrów s0 i τ0. Jednak najczęściej wybieranymi wartościami w przypad-

ku zastosowań dyskretnej transformaty falkowej są: s0 = 2 i τ0 = 1. Wówczas

zachodzi zależność sm = 2m i τn = n2m. Pozwala to na otrzymanie diadycznego

próbkowania ciągłych wartości parametrów s i τ, co powoduje że parametry prób-

kowania zmieniają się z mnożnikiem równym 2. Pozwala to z kolei na otrzymanie

diadycznej dekompozycji sygnału w dziedzinie transformaty falkowej.

Na podstawie dyskretnego zbioru funkcji falkowych wyznaczane są współczyn-

niki określające dyskretną transformatę falkową DWT funkcji f (x) [112, 116]:

DWT (sm, τn) = s−m/20

∫

f (x)ψ(

s−m0 t − nτ0

)

dx (3.30)

73



Jeżeli parametry funkcji macierzystej s i τ były poddane diadycznej dyskrety-

zacji, współczynnki dyskretnej transformaty falkowej obliczane są według wzoru:

DWT (sm, τn) = 2−m/2∫

f (x)ψ(

2−mx − n)

dx (3.31)

Odwrotna dyskretna transformata falkowa pozwala na rekonstrukcję sygnału

oryginalnego f (x) na podstawie znajomości współczynników jego rozkładu w dzie-

dzinie transformaty. Odwrotna dyskretna transformata falkowa IDWT (ang. Inverse

Discrete Wavelet Transform) określona jest wzorem:

IDWT (x) =∞∑

m=−∞

∞∑

n=−∞DWT (sm, τn)ψm,n (x) (3.32)

W celu dalszego wprowadzenia do zagadnień zastosowania transformaty falko-

wej w algorytmach przetwarzania obrazów należy wprowadzić elementy analizy

wielorozdzielczej MRA (ang. Multi resolution Analysis) oraz przedstawić meto-

dy obliczania transformaty falkowej w przypadku sygnału dwuwymiarowego ja-

kim jest obraz cyfrowy. Zagadnienia te nie będą tutaj omawiane, a szczegółowe

omówienia można znaleźć w obszernej literaturze dotyczącej transformaty falko-

wej, np. [118, 119]. Wystarczy zaznaczyć, że korzystając z technik MRA i definicji

dwuwymiarowej transformaty falkowej możliwe jest uzyskanie reprezentacji obra-

zu cyfrowego w dziedzinie transformaty falkowej za pomocą jej współczynników,

analogicznie do wyznaczenia współczynników transformaty falkowej sygnału jed-

nowymiarowego obliczanych wg. wzoru (3.30). Możliwość ta została wykorzystana

do przedstawienia propozycji algorytmów wykorzystujących transformatę falkową

do rozwiązania problemu dopasowania obrazów pary stereoskopowej.

Wykorzystanie transformaty falkowej w zagadnieniu dopasowania obrazów pa-

ry stereoskopowej sprowadza się zazwyczaj do znalezienia reprezentacji obrazów

w dziedzinie transformaty falkowej oraz znalezienia dopasowań współczynników

otrzymanych transformat. Główne różnice w stosowanych algorytmach sprowadza-

ją się do wykorzystania różnych funkcji falki podstawowej stanowiącej podstawę

obliczenia reprezentacji obrazów w dziedzinie transformaty.

Xiong [120] zaprezentował algorytm umożliwiający dopasowanie w dziedzinie

transformaty falkowej z wykorzystaniem sieci neuronowych ze wsteczną propa-

gacją błędu. Przedstawiony przykład działania algorytmu pokazuje bardzo dobre

74



działanie tej metody. Brak jest jednak analizy porównawczej uzyskiwanych wyni-

ków z wynikami osiąganymi przez zastosowanie innych metod dopasowania obra-

zów pary stereoskopowej.

Innym algorytmem opartym na analizie falkowej obrazu jest metoda zapropo-

nowana w [121]. W artykule tym zaproponowano rozkład obrazu za pomocą falki

Cai-Wanga. Wykorzystując reprezentację obrazów w dziedzinie transformat obli-

czana jest wartość dysparycji na podstawie współczynników transformaty falkowej.

Dysparycja obliczana jest za pomocą miary SSD obliczanej dla współczynników

transformaty falkowej. Autorzy przedstawili działanie proponowanego algorytmu

dla dwóch par stereoskopowych, wyciągając wniosek, że prezentowany algorytm

pozwala na uzyskanie bardzo dobrych rezultatów dopasowania obrazów.

Oprócz podstawowego zastosowania transformaty falkowej, w literaturze moż-

na znaleźć rozwiązania oparte na transformacie wielofalkowej (ang. multiwave-

lets transform). Takie rozwiązanie zostało zaproponowane w [122]. Jako miarę

dopasowania współczynników transformaty falkowej zastosowana została miara

SSD. Przedstawione zostały wyniki dla dwóch przykładowych par stereoskopo-

wych, a w konkluzjach autorzy sformułowali tezę, że transformata wielofalkowa

pozwala na uzyskanie lepszych rezultatów niż transformaty jednofalkowe.

3.3.4. Transformata rankingowa

Jedną z transformat zaproponowaną przez Zabiha i Woodfilla jest transformata

rankingowa (ang. rank transform) [123]. Transformata rankingowa określa liczbę

pikseli w pewnym sąsiedztwie wyróżnionego piksela, dla którego obliczana jest

wartość transformaty, o tej właściwości, że ich wartości jasności są mniejsze od

wartości jasności tego piksela.

Wartość transformaty rankingowej R (p) dla ustalonego piksela p w obrazie jest

definiowana wyrażeniem:

R (p) =∥

∥

∥

∥

p′ ∈ N (p) : Ip′ < Ip

∥

∥

∥

∥

(3.33)

gdzie Ip jest wartością jasności piksela p, natomiast N (p) jest pewnym, zazwyczaj

kwadratowym sąsiedztwem tego piksela o rozmiarze Nw. Symbol ||C|| oznacza moc

zbioru C. Transformata rankingowa R (p) przybiera wartości całkowite z zakresu

75



[

0,N2p − 1

]

, gdzie Np określa liczbę pikseli należących do sąsiedztwa piksela p,

zawierających się w oknie o rozmiarze Nw.

W celu znalezienia dopasowania, w obrazach poddanych transformacie wyko-

nywany jest algorytm dopasowania obszarami z zastosowaniem miary SAD [123,

124]. Zastosowanie transformaty rankingowej zmniejsza wrażliwość algorytmu do-

pasowania na lokalne zmiany wartości jasności występujące w obrazach [124, 125].

3.3.5. Transformata CENSUS

W przypadku transformaty CENSUS zaproponowanej w [123], podobnie jak

w transformacie rankingowej, porównywane są jasności wyróżnionego piksela z war-

tościami jasności jego sąsiadów. Zasadniczą różnicą jest jednak wynik tego porów-

nania, którym w przypadku transformaty CENSUS jest ciąg wartości binarnych.

Jest on konstruowany w oparciu o funkcję porównania ξ.

Jeżeli p jest określonym pikselem w obrazie, Ip jest wartością jego jasności,

natomiast Ip′ jest wartością jasności piksela z pewnego, określonego sąsiedztwa

N (p), to funkcja ξ jest zdefiniowana wzorem:

ξ[

Ip, Ip′]

=

1 jeżeli Ip > Ip′

0 jeżeli Ip 6 Ip′(3.34)

Wyniki porównania są następnie poddawane konkatenacji ⊗ . Kontaktencja

(ang. concatenation), oznaczona symbolem ⊗, jest operacją polegającą na połą-

czeniu kilku różnych elementów w jeden. Ponieważ wyniki uzyskiwane w wyniku

zastosowania funkcji ξ mogą przyjmować jedynie wartości 1 lub 0 dla każdego pik-

sela, ich ustawienie w ciąg i połączenie daje w efekcie ciąg kolejnych zer i jedynek,

który może być interpretowany jako zapis binarny pewnej liczby.

Końcowy wynik transformaty CENSUS jest zdefiniowany wzorem:

TC (p) = ⊗N(p)

ξ[

Ip, Ip′]

(3.35)

Po obliczeniu transformaty CENSUS dalszy etap dopasowania odbywa się przez

zastosowanie algorytmu dopasowania obszarami. Miara dopasowania musi być do-

stosowana do porównywania ciągów wartości binarnych. Najczęściej wykorzysty-

waną w tym celu miarą jest miara odległości Hamminga [123, 125].

76



Jedną z proponowanych modyfikacji transformaty CENSUS jest porównywanie

wartości jasności wyróżnionego piksela z wartością średnią jasności w sąsiedztwie

[126]. Wydłuża to długość wynikowego ciągu binarnego transformaty o jeden, ale

pozwala na zwiększenie rozróżnialności elementów obrazu. Dodatkową modyfika-

cją transformaty CENSUS jest wydłużenie wynikowego ciągu binarnego o warto-

ści gradientów, jakie znajdują się w otoczeniu piksela poddawanemu transformacji

[126]. W wynikowym ciągu binarnym zapisywane są wartości o horyzontalnych

i wertykalnych wartościach gradientów, jakie występują w otoczeniu piksela, co

również pozwala na zwiększenie ilości informacji zawartej w wynikowym ciągu

binarnym.

3.4. Metody dopasowania cech obrazów

Metody dopasowania cech obrazów, nazywane także metodami dopasowania

cechami, polegają na wyznaczaniu tzw. rzadkiej mapy dysparycji (ang. sparse di-

sparity map). Oznacza to, że wartości dysparycji określane są tylko dla pewnego

wyróżnionego podzbioru pikseli w obrazie, a nie dla wszystkich pikseli. Ze wzglę-

du na ograniczony zbiór wartości dysparycji, a z drugiej strony wzrost mocy ob-

liczeniowej urządzeń sprzętowych, jak również gwałtowny rozwój metod umożli-

wiających uzyskanie pełnej mapy dysparycji, metody dopasowania cech obrazów

obecnie tracą obecnie na znaczeniu i popularności. Wykorzystywane są jednak na-

dal w niektórych zastosowaniach praktycznych, jak również w rozwiązaniach wy-

korzystujących niezależnie dwa lub więcej różnych algorytmów. Rezultaty otrzy-

mane przez niezależne wykonanie różnych algorytmów poddawane są fuzji w celu

otrzymania końcowego wyniku, którym jest gęsta mapa dysparycji. Rozwiązania

takie znane są w literaturze pod nazwą algorytmów mieszanych lub hybrydowych

(ang. hybrid algorithm).

Jednym z przykładów metody mieszanej służącej do wyznaczenia gęstej mapy

dysparycji, w którym zastosowano dwa niezależnie działające algorytmy, może być

propozycja przedstawiona w [127]. W metodzie tej wykorzystany został algorytm

detekcji krawędzi oraz algorytm segmentacji. Detekcja krawędzi pozwoliła na zna-

lezienie regionów, gdzie wartość dysparycji zmienia się gwałtownie. Dopasowanie

krawędzi pozwoliło na uzyskanie rzadkiej mapy dysparycji. Natomiast segmentacja

pozwoliła na znalezienie regionów o stałej wartości jasności pikseli, które zostały

77



dopasowane przez niezależny algorytm. W wyniku fuzji wyników otrzymanych

jako rezultat algorytmu dopasowania krawędzi oraz algorytmu dopasowania regio-

nów o stałej jasności otrzymana została gęsta mapa dysparycji

W [128] zaproponowany został algorytm oparty na detekcji odcinków krawę-

dzi. Przyjęte zostało założenie, że zamknięte odcinki krawędzi ograniczają obiekty

o stałej wartości dysparycji. Po dopasowaniu określonych odcinków linii można

poddać dopasowaniu ograniczone nimi obszary, uzyskując gęstą mapę dysparycji.

Wśród algorytmów dopasowania cech charakterystycznych obrazów odrębną

grupę stanowią algorytmy umożliwiające detekcję miejsc szczególnych w obrazie.

Najczęściej wykorzystywane miejsca charakterystyczne, które mogą być łatwo wy-

kryte, to narożniki i krawędzie.

Właściwości detektorów narożników obrazów w kontekście użyteczności w al-

gorytmach dopasowania pary stereoskopowej zostały przedstawione obszernie

w [129]. Badaniom poddane zostały popularne detektory Harrisa i SUSAN (ang.

Smallest Univalue Segment Assimilating Nucleus). Jako miary podobieństwa przy

wyznaczaniu dopasowania zastosowane zostały miary SAD i NCC. Na podstawie

uzyskanych wyników sformułowany został wniosek, że dobre wyniki dopasowania

daje detektor Harrisa wraz z miarą NCC. Należy podkreślić, że w przypadku zasto-

sowania algorytmów detekcji narożników uzyskiwana jest stosunkowo niewielka

liczba wartości dopasowań, ale są to algorytmy użyteczne w czasie automatyzacji

zadania znajdowania grupy dopasowanych pikseli w czasie rektyfikacji obrazów

pary stereoskopowej [130, 131].

Jeśli dopasowaniu podlegają obrazy krawędziowe, również w pierwszym etapie

następuje ich detekcja za pomocą ogólnego algorytmu. W przypadku zastosowania

detektora krawędzi w otrzymanym obrazie krawędziowym znajduje się zwykle za

mało informacji, aby można było przeprowadzić pełny proces dopasowania. Z tego

względu częstym krokiem jest wprowadzenie dodatkowego opisu obrazu wyniko-

wego, na podstawie którego można uzyskać prawidłowe wartości dopasowań.

W [132] zastosowany został algorytm detekcji krawędzi Canny’ego. Następnie

na wyznaczonym obrazie krawędziowym wyszukiwane były odcinki krawędzi, do

których przypisywany był wektor cech zawierający: punkt środkowy segmentu, dłu-

gość segmentu, średnia wartość jasności pikseli w otoczeniu punktu środkowego

oraz kierunek segmentu określony jako kąt nachylenia segmentu względem kierun-

ku horyzontalnego w obrazie. Tak określone wektory cech służyły do dopasowania

78



obrazów. W artykule przestawiona została również możliwość wykorzystania uzy-

skanej mapy dysparycji do rekonstrukcji widzianej sceny.

W [133] przedstawiony został algorytm dopasowania odcinków krawędzi. W ob-

razach krawędziowych otrzymanych w wyniku działania detektora krawędzi De-

riche’a wyszukiwane były odcinki linii prostych, które następnie zostały opisane

przez wektor ośmiu cech charakterystycznych, na który składały się: współrzędne

położenia w pionie i poziomie, orientacja linii, kontrast lewej i prawej połowy seg-

mentu, średnia wartość jasności pikseli w lewej i prawej połowie segmentu oraz

wariancja wartości jasności.

W [134] zaproponowany został algorytm, w którym detekcja krawędzi odbywa

się przy zastosowaniu maski filtru gaussowskiego. W drugim kroku wyszukane

krawędzie są cieniowane oraz przypisywane są im znaki krawędzi dodatniej lub

ujemnej w zależności od kierunku gradientu otrzymanego po zastosowaniu maski

filtru gaussowskiego. Aby dodatkowo zwiększyć odporność algortymu na zakłóce-

nia, dopasowanie krawędzi odbywa się w dziedzinie transformaty falkowej.

Klasycznym już algorytmem umożliwiającym dopasowanie krawędzi w obra-

zie, jest algorytm Marra-Poggio-Grimsona. Algorytm ten został przyjęty jako al-

gorytm referencyjny w eksperymentalnej części pracy, którego efektywność będzie

porównywana z efektywnością algorytmów opracowanych przez autora, i z tego

względu zostanie przedstawiony poniżej w sposób szczegółowy.

3.4.1. Algorytm Marra-Poggio-Grimsona

Algorytm Marra-Poggio-Grimsona określany akronimem MPG (ang. Marr–

Poggio–Grimson) uchodzi za klasyczny algorytm umożliwiający rozwiązanie za-

dania dopasowania cech charakterystycznych obrazów. Algorytm MPG wykorzy-

stuje w swoim działaniu detektor krawędzi oparty o filtr LoG (ang. Laplacian of

Gaussian). Krawędzie otrzymane w wyniku działania detektora podlegają proceso-

wi dopasowania i w efekcie końcowym otrzymywana jest rzadka mapa dysparycji,

której wartości są określone dla tych miejsc obrazu które zawierały krawędzie.

Na algorytm MPG składa się sześć następujących kroków:

1. Filtracja LoG

W pierwszym kroku wykonywany jest dwuwymiarowy splot obrazów z maską

filtru typu LoG, który służy jako operator detektora krawędzi. Rozmiar maski filtru

79



wLoG określa poziom szczegółowości, czyli liczbę pikseli uznawanych za należące

do krawędzi w uzyskanym obrazie wynikowym. Wraz ze zwiększaniem się rozmia-

ru maski filtru zwiększa się liczba pikseli uznawanych za należące do krawędzi,

co oznacza mniejszy poziom szczegółowości otrzymanego obrazu krawędziowe-

go. Filtracja LoG polega na wykonaniu splotu dyskretnego obrazu z maską filtru

otrzymanego na podstawie zależności:

LoG= ∇Gσ (x, y) =

∂2

∂x2Gσ (x, y)+

∂2

∂y2Gσ (x, y) =

x2 + y2 − 2σ2

σ4e− x2+y2

2σ2 (3.36)

gdzie ∇ jest operatorem Laplasjanu ∇ = ∂2

∂x2 +∂2

∂y2 , natomiast Gσ (x, y) jest obrazem

otrzymanym w wyniku splotu obrazu oryginalnego z maską filtru określoną przez

funkcję Gaussa:

Gσ (x, y) =1

√2πσ2

e− x2+y2

2σ2 (3.37)

Funkcja ta w splocie z obrazem wykazuje własności filtru dolnoprzepustowego, po-

zwalającego na usunięcie zakłóceń szumowych. W praktycznych implementacjach

przeprowadza się wstępne obliczenie wartości maski filtru o zadanym rozmiarze

wLoG, po czym obliczany jest splot dyskretny maski z obrazem. W przypadku stoso-

wania maski filtru typu LoG przyjmowana jest zależność pomiędzy szerokością ka-

nału działania filtru wLoG i parametrem σ funkcji Gaussa w postaci: wLoG =√

2σ.

2. Ekstracja przecięcia zer

Na obrazach krawędziowych uzyskanych w wyniku zastosowania filtracji LoG

wykonywane jest przeszukiwanie obrazów wzdłuż wierszy w celu znalezienia ta-

kich miejsc, gdzie dwie sąsiadujące horyzontalnie ze sobą wartości macierzy re-

prezentującej obraz wynikowy po zastosowaniu filtru LoG mają różne znaki. Po-

szukiwane są też miejsca, w których trzy wartości macierzy reprezentującej obraz

wynikowy otrzymany po zastosowaniu filtru LoG położone horyzontalnie obok sie-

bie ułożone są w taki sposób, że środkowa ma wartość zerową, a dwie horyzontalnie

z nią sąsiadujące mają przeciwne znaki. Miejsca takie określane są jako przejście

przez zero (ang. zero crossing).

W przypadku znalezienia takich miejsc zapamiętywane są ich współrzędne oraz

znaki przejść przez zero. Jako znak przejścia przez zero rozumie się horyzontalny

kierunek zmiany znaku wartości komórek macierzy uzyskanej w wyniku zastoso-

wania filtru LoG uzyskanych w obrazie po filtracji, tzn. jeżeli dwie horyzontalnie

80



sąsiadujące wartości macierzy lub trzy wartości macierzy, wśród których środko-

wa jest zerowa, zmieniają się od ujemnych do dodatnich, to znak uznawany jest

za dodatni. Podobnie jest określany znak ujemny przecięcia zera. Jeżeli w macie-

rzy wynikowej otrzymanej w wyniku zastosowania filtru LoG znajdują się dwie

horyzontalnie sąsiadujące wartości lub trzy wartości, wśród których środkowa jest

zerowa, zmieniające się od dodatnich do ujemnych to temu przejściu przez zero

przypisywany jest znak ujemny.

3. Szukanie dopasowań

Dla każdego wiersza w jednym z obrazów ustalonym jako obraz referencyjny

i dla każdego wcześniej znalezionego przejścia przez zero, w obrazie referencyj-

nym ustawiane jest okno referencyjne na pozycji wyznaczonej przez współrzędne

wybranego przejścia przez zero. W drugim obrazie krawędziowym przeszukiwania

umieszczane jest okno przeszukiwania na pozycji określonej przez współrzędne

przejścia przez zero ustalonego w obrazie referencyjnym. Okno przeszukiwania

przesuwane jest horyzontalnie w ustalonym zakresie poszukiwanych wartości dys-

parycji [dmin, dmax]. Dla każdego położenia okna przeszukiwania wykonywane jest

sprawdzenie, czy w oknie tym zawiera się przecięcie zera o takim samym znaku,

jakie znajduje się w oknie referencyjnym.

W przypadku znalezienia dopasowania zapamiętywana jest wartość przesunię-

cia (dysparycji) oraz dodatkowa informacja dotycząca znalezionego dopasowania.

Jeżeli w zakresie poszukiwanej dysparycji znalezione zostało tylko jedno przejście

przez zero o takim samym znaku, jakie ma przejście przez zero w oknie referen-

cyjnym, zapamiętywana jest informacja o dopasowaniu jednoznacznym. W przy-

padku, gdy w zakresie przeszukiwania znalezione zostały dwa lub więcej przejść

przez zero o takim samym znaku jak w oknie referencyjnym, zapamiętywana jest

informacja o wystąpieniu dopasowania wielokrotnego. W przypadku, gdy nie udało

się znaleźć odpowiadającego przejścia przez zero o takim samym znaku, zapamię-

tywana jest informacja o braku dopasowania.

4. Usuwanie niejednoznaczności

W tym kroku otrzymana mapa dysparycji jest sprawdzana pod kątem uzyska-

nych dopasowań wielokrotnych. Dopasowania takie usuwane są poprzez porówna-

nie mapy dysparycji otrzymanej na bieżącym poziomie szczegółowości, określo-

nym przez rozmiar maski filtru LoG równy wLoG, z wartościami dysparycji otrzy-

81



manymi w czasie wykonywania dopasowania na mniejszym poziomie szczegóło-

wości, czyli obrazów krawędziowych, gdzie zastosowana była maska filtru o więk-

szym rozmiarze. Dla każdego znalezionego dopasowania sprawdzane jest, czy ist-

nieje odpowiadające mu dopasowanie uzyskane w poprzednim przebiegu algoryt-

mu oraz dodatkowa informacja o tym, czy było to dopasowanie jednokrotne czy

wielokrotne.

Jeżeli dla określonego przejścia przez zero z informacją o dopasowaniu jedno-

znacznym istnieje jednoznaczne dopasowanie uzyskane dla mniejszego poziomu

szczegółowości, to ta wartość dysparycji uznawana jest za prawidłową. W przypad-

ku, gdy w bieżącym przebiegu znalezione zostało dopasowanie, którego brak jest

w poprzednim przebiegu algorytmu, wartość ta zostaje uznana za nieprawidłową.

W przypadku znalezienia dopasowań wielokrotnych znaleziona wartość dyspary-

cji odrzucana jest jako wartość nieprawidłowa lub w niektórych implementacjach

przyjmowana jest wartość średnia dysparycji wynikająca z wystąpienia dopasowa-

nia wielokrotnego. Krok ten możliwy jest do wykonania jedynie w przypadku, gdy

istnieje mapa dysparycji obliczona na mniejszym poziomie szczegółowości. Nie

jest on więc wykonywany w czasie pierwszego przebiegu algorytmu.

5. Pętla

Po wyznaczeniu mapy dysparycji dla określonego poziomu szczegółowości

algorytm wraca do kroku filtracji obrazów ze zmienionym (mniejszym) rozmia-

rem maski filtru wLoG. Następnie wykonywane jest obliczenie mapy dysparycji dla

określonego poziomu szczegółowości.

6. Końcowe określenie spójności

Ostatnim krokiem, jaki jest wykonywany w algorytmie MPG, jest końcowe

sprawdzenie spójności mapy dysparycji. Krok ten jest wykonywany, gdy wyzna-

czone zostały mapy dla każdego założonego na wstępie poziomu szczegółowości

określonego przez rozmiar maski filtru wLoG. Zaczynając od mapy dysparycji uzy-

skanej dla obrazu poddanego filtracji o najmniejszej masce, sprawdzana jest zgod-

ność otrzymanych wartości dysparycji z uzyskanymi w przypadku zastosowania

filtru o większej masce. Jeżeli w obu mapach występują niezgodności w otrzy-

manych wartościach dysparycji, są one usuwane jako wartości nieprawidłowe. Po

wykonaniu sprawdzenia dla wszystkich poziomów szczegółowości otrzymywany

jest wynik działania algorytmu w postaci końcowej mapy dysparycji.

82



3.5. Wykorzystanie obrazów kolorowych w dopasowaniu

obrazów

Jednym z kierunków badań nad dopasowaniem obrazów stereoskopowych jest

wykorzystanie w tym celu obrazów kolorowych. Najczęściej spotykanym rozwią-

zaniem wykorzystania obrazów kolorowych jest wykonanie algorytmu dopasowa-

nia obszarami oddzielnie w każdym z kanałów obrazu, np. kanałów przestrzeni

RGB, a następnie przeprowadzenie fuzji otrzymanych wyników.

W algorytmie zaproponowanym przez Belliego i innych [135] wykorzystana

została miara korelacyjna niezależnie w każdym z kanałów RGB obrazów, a koń-

cowa wartość dysparycji obliczana jest za pomocą operatora fuzji wykorzystują-

cego w swoim działaniu elementy logiki rozmytej. Wykorzystanie logiki rozmytej

pozwoliło na bardziej elastyczne wyznaczenie wartości dysparycji. Ciekawym spo-

strzeżeniem autorów był fakt, że wartości korelacji obliczane w kanale niebieskim

nie dawały łatwych do wykrycia pików korelacyjnych. Spowodowane to było du-

żą zawartością zakłóceń szumowych zawartych w obrazach kanału niebieskiego,

co z kolei było efektem postaci transmitancji, jaką ma filtr niebieski przetwornika

obrazowego. Ponieważ autorzy artykułu nie chcieli tracić żadnej informacji, która

pozwoliłaby na poprawę uzyskiwanych rezultatów, wartości dysparycji obliczone

na podstawie kanału niebieskiego były również poddawane fuzji. Jednak operator

fuzji preferował wartości dysparycji, dla których wystąpił wyraźny pik korelacyj-

ny niezależnie od kanału, w którym pik ten wystąpił. Autorzy przedstawili wyniki

działania algorytmu dla jednej pary testowej, uzyskując poprawę na poziomie 1%

wzrostu prawidłowych dopasowań w stosunku do obrazów w skali reprezentowa-

nych w skali szarości.

Bardzo wyczerpujące studium wykorzystania obrazów kolorowych w proble-

mie dopasowania pary stereoskopowej zostało przedstawione w [136]. Autorzy wy-

konali badania jakości otrzymywanych rozwiązań przy zastosowanie różnych mo-

deli opisu obrazów kolorowych. Algorytmy dopasowania były wykonywane nieza-

leżnie przy wykorzystaniu ośmiu modeli przestrzeni kolorów: dwóch modeli pod-

stawowych: RGB i CIE XYZ, czterech modeli opartych o reprezentację typu lu-

minancja-chrominancja CIE LUV, CIE LAB, AC1C2 i YC1C2 oraz dwóch modeli

o niezależnych statystycznie składowych I1I2I3 i H1H2H2. Dodatkowym modelem

koloru, dla którego zostały przeprowadzone badania, była skala szarości. Badaniom

83



zostały poddane algorytmy oparte o miarę znormalizowanej korelacji wzajemnej

ZNCC, transformatę CENSUS oraz miarę informacji wzajemnej MI. Testy zostały

przeprowadzone na ogólnie dostępnych obrazach testowych pakietu opracowane-

go przez grupę Middlebury Stereo Vision. Obrazy tworzące pary stereoskopowe

dostępne w tym pakiecie wykorzystane zostały również w tej pracy jako mate-

riał badawczy służący do przeprowadzania części eksperymentalnej pracy. Z tego

względu sam pakiet, jak i dostępne obrazy par stereoskopowych, zostaną bliżej

przedstawione w części przedstawiającej metody opracowania wyników ekspery-

mentalnych otrzymanych w ramach pracy (por. p.6.3).

Interesującym wnioskiem, wyciągniętym przez autorów artykułu [136], jest

stwierdzenie, że w przypadku algorytmów wykorzystujących miarę ZNCC oraz

transformatę CENSUS otrzymane wyniki nie były lepsze w porównaniu do uzy-

skiwanych w przypadku obrazów w skali szarości. Co więcej, część z nich okazała

się gorsza. Stosując algorytm oparty o miarę informacji wzajemnej, również nie

uzyskano znaczącej poprawy wyników w stosunku do obrazów w skali szarości.

Jedyną pozytywną cechą zastosowania obrazów kolorowych, jaką stwierdzili auto-

rzy, jest większa odporność algorytmów na zakłócenia w regionach obrazów, gdzie

występują zniekształcenia radiometryczne, np. ze względu na różnicę oświetlenia.

W [137] autorzy wykonali badania jakości rozwiązań uzyskiwanych w przypad-

ku wykorzystania obrazów kolorowych za pomocą algorytmów globalnych opar-

tych na poszukiwaniu minimalnego rozcięcia grafu i programowaniu dynamicz-

nym. Autorzy wykorzystali dziewięć różnych przestrzeni kolorów, dla których ja-

ko miarę dopasowania zastosowano sumę wartości bezwzględnych różnic jasności

poszczególnych pikseli składowych oraz odległość euklidesowską dla każdej prze-

strzeni kolorów. Na podstawie badań sformułowano wniosek, że zastosowanie obra-

zów kolorowych w tych algorytmach pozwala na uzyskiwanie lepszych wyników,

niż przy obrazach reprezentowanych w skali szarości. Konkluzję badań stanowi-

ło również stwierdzenie, że uzyskiwane rozwiązania zależą do zastosowanej prze-

strzeni kolorów. Najlepsze wyniki zostały osiągnięte przy zastosowaniu przestrzeni

opartej o luminację-chrominancję CIE LUV, AC1C2 oraz YC1C2. Natomiast naj-

częściej spotykana i wykorzystywana przestrzeń kolorów jaką jest RGB dawała

mało znaczącą poprawę jakości wyników w stosunku do algorytmów działających

na obrazach w skali szarości.

W [138] przedstawione zostały wyniki badań jakości uzyskiwanych rozwiązań

84



uzyskiwanych przez zastosowanie algorytmu dopasowania obszarami pod wzglę-

dem zastosowanej miary dopasowania. Badaniu poddanych zostało 15 różnych miar

dopasowania. Głównym celem założonym w artykule [138] było sprawdzenie wraż-

liwości algorytmów na radiometryczne zniekształcenia obrazów, w tym zniekształ-

cenia liniowe i nieliniowe. Duża część artykułu poświęcona została porównaniu

wyników uzyskiwanych przy wykorzystaniu obrazów w skali szarości oraz obra-

zów kolorowych. Uzyskane wyniki były zaskakujące również dla autorów, którzy

stwierdzili, że wykorzystanie obrazów kolorowych nie poprawia znacząco lub po-

prawia bardzo mało rezultaty uzyskiwane przez algorytmy dopasowania z zastoso-

waniem skali szarości. Końcowy wniosek sformułowany przez autorów dotyczący

zastosowania obrazów kolorowych brzmi, że nie dały one praktycznie znaczącej

poprawy uzyskiwanych wyników. Dodatkowo autorzy postawili tezę, że obrazy

kolorowe są bardziej wrażliwe na zakłócenia w stosunku do obrazów reprezen-

towanych w skali szarości. Wnioski te zostały sformułowane przy zastrzeżeniu, że

dotyczą one prezentowanych w artykule wyników i obrazów, natomiast potrzeb-

ne są bardziej szczegółowe badania dotyczące wykorzystania obrazów kolorowych

w algorytmach dopasowania pary stereoskopowej.

W [139] wykorzystane zostały obrazy kolorowe reprezentowane w przestrzeni

HSL (ang. Hue Saturation Lightness). Jako algorytm dopasowania zastosowany

został algorytm optymalizacji globalnej funkcji kosztu. Optymalizacja odbywała

się za pomocą algorytmu symulowanego wyrzażania. Autorzy prezentując wyniki

stwierdzili, że zastosowanie obrazów kolorowych dało znaczącą poprawę uzyski-

wanych wyników. Niestety, nie przedstawiono badań numerycznych potwierdzają-

cych postawioną tezę.

3.6. Inne metody dopasowania pary stereoskopowej

Omówione dotychczas metody dotyczące problemu dopasowania obrazów pary

stereoskopowej oraz algorytmy umożliwiające jego rozwiązanie nie stanowią wy-

czerpującego przeglądu tej problematyki. W literaturze można znaleźć liczne po-

zycje poświęcone zarówno innym aspektom problemu dopasowania, jak i szeroką

gamę innych algorytmów pozwalających na rozwiązanie problemu dopasowania.

Jednym z nie omówionych wyżej zagadnień dotyczącym poszukiwania mapy

dysparycji jest określanie ciągłych wartości dysparycji. Do tego celu stosowane

85



są metody interpolacyjne pozwalające wyznaczyć wartości dysparycji z wykorzy-

staniem dopasowania funkcji w obszarach pomiędzy wyznaczonymi wartościami.

W tym celu zazwyczaj stosowane są standardowe algorytmy interpolacji różniące

się tylko rodzajem i stopniem wykorzystanych wielomianów [140, 141, 142].

W kontekście rozwiązania problemu dopasowania spotykane są inne algorytmy

umożliwiające jego uzyskanie. Wśród nich istnieją propozycje algorytmów opar-

tych na propagacji przekonań (ang. belief propagation). Należą one do grupy al-

gorytmów, w których wykorzystywany jest schemat wnioskowania Bayesa. Algo-

rytmy te zazwyczaj bywają łączone z programowaniem dynamicznym do opisania

funkcji optymalizacji [143, 144, 145].

Wśród metod optymalizacyjnych stosowane są również metody optymalizacji

oparte o algorytmy genetyczne [146, 147, 148, 149]. Algorytmy genetyczne są na-

rzędziami, które pozwalają na znalezienie wartości optymalnej definiowanej wcze-

śniej funkcji kosztu. W celu optymalizacji funkcji kosztu zaproponowano również

wykorzystanie algorytmu mrówkowego [150].

Proponowane są także inne rozwiązania umożliwiające znalezienie dopaso-

wania w punktach charakterystycznych. W [151] przedstawiony został algorytm,

którego cechą charakterystyczną jest zastosowanie detektora łączeń krawędzi typu

„T”. Łączniki tego typu wyszukane na obrazie traktowane są jako punkty charak-

terystyczne, służące następnie do obliczenia dysparycji. Jako miary dopasowania

wykorzystane zostały miary SAD oraz znormalizowana korelacja wzajemna NCC.

Wśród algorytmów wykorzystujących narzędzia sztucznej inteligencji znajdują się

również algorytmy wykorzystujące sztuczne sieci neuronowe [152].

Na zakończenie przeglądu metod dopasowania pary stereoskopowej należy wy-

mienić próby wykorzystania w tym celu teorii zbiorów rozmytych. W doniesieniach

literaturowych można znaleźć rozwiązania dotyczące zastosowania teorii zbiorów

rozmytych i logiki rozmytej zarówno w zagadnieniu dopasowania obszarami, jak

i zagadnieniu dopasowania cech. Są one jednak fragmentaryczne i często nieza-

dowalające, np. dotyczą obszarów o bardzo małej liczbie pikseli, bądź też są bar-

dzo nieefektywne obliczeniowo. Metody wykorzystujące w swoim działaniu zbiory

rozmyte lub logikę rozmytą znane z literatury zostaną przedstawione (por. p. 5.3)

po wprowadzeniu do teorii zbiorów rozmytych.

Brak jest także unifikacji tych metod i całościowego spojrzenia na problem do-

pasowania pary stereoskopowej z wykorzystaniem teorii zbiorów rozmytych. Te

86



właśnie czynniki stanowiły dla autora motywację do podjęcia systematycznych ba-

dań w tym kierunku, przeprowadzenia gruntownej analizy znanych z literatury me-

tod i algorytmów i zaproponowania na tym tle własnych rozwiązań. Rezultaty prze-

prowadzonych badań będą prezentowane w kolejnych rozdziałach niniejszej pracy.

87


Rozdział 4

Elementy teorii zbiorów rozmytych

W rozdziale zaprezentowane zostały niektóre z podstawowych pojęć i definicji

dotyczących teorii zbiorów rozmytych. Przedstawione zostały także pojęcia i defi-

nicje dotyczące innego rodzaju zbiorów rozmytych, a mianowicie intuicjonistycz-

nych zbiorów rozmytych. W obu przypadkach ograniczono się jedynie do zakresu

pojęć wykorzystywanych w pracy. Zostały przedstawione jedynie elementy, które

zostały wykorzystane w czasie projektowania algorytmów umożliwiających roz-

wiązanie zagadnienia dopasowania obrazów pary stereokopowej z zastosowaniem

teorii zbiorów rozmytych i intuicjonistycznych zbiorów rozmytych.

4.1. Podstawy teorii zbiorów rozmytych

Teorię zbiorów rozmytych oraz zbudowaną na jej podstawie teorię logiki roz-

mytej można uznać za jedną z gałęzi metod sztucznej inteligencji, a mówiąc do-

kładniej metod inteligencji obliczeniowej. Za twórcę teorii zbiorów rozmytych i po-

wstałej na jej kanwie teorii logiki rozmytej uznawany jest Lotfi Zadeh, który w

1965 roku opublikował artykuł pod znamiennym tytułem „Fuzzy Sets” (pol. zbiory

rozmyte) [153].

Po pełnym entuzjazmu przyjęciu teorii logiki rozmytej przez świat akademicki

została ona uznana za metodę, która umożliwi rozwiązanie wielu nierozwiązanych

do tej pory problemów. Okres największego rozkwitu teorii i w efekcie tego po-

jawienia się licznych propozycji zastosowań zbiorów rozmytych i logiki rozmytej

przypada na przełom lat 80–90 ubiegłego wieku. W późniejszych latach zaintereso-

wanie problematyką logiki rozmytej malało, aczkolwiek nadal była ona intensyw-

nie rozwijana. W chwili obecnej teoria logiki rozmytej stanowi dojrzałą i dopra-

cowaną koncepcyjnie teorię dostarczającą narzędzi umożliwiających rozwiązanie

niektórych problemów w szybszy i bardziej intuicyjny sposób, niż za pomocą in-

nych metod.

Teoria zbiorów rozmytych i logiki rozmytej znalazła zastosowanie w bardzo

różnorodnych dziedzinach nauki. Jako przykłady można tu przytoczyć: teorię ste-

88


4. Elementy teorii zbiorów rozmytych

rowania [154], eksplorację i przetwarzanie danych [155], systemy ekspertowe [156]

oraz przetwarzanie obrazów [157, 158]. W przedstawianej pracy niektóre elementy

teorii zbiorów rozmytych wykorzystane zostały w celu konstrukcji algorytmów do-

pasowania obrazów pary stereoskopowej. W dalszej części rozdziału przedstawione

zostaną podstawowe pojęcia tej teorii. Należy jednak podkreślić, że przestawione

pojęcia i definicje stanowią zaledwie niewielki ułamek całej teorii. Opisane zostały

jedynie te elementy, które mają ścisły związek z tematyką poruszaną w pracy i są

niezbędne do przedstawienia opracowanych algorytmów dopasowania pary stereo-

skopowej.

4.1.1. Pojęcie zbioru

Pojęcie zbioru jest pojęciem pierwotnym (niedefiniowanym), należącym do fun-

damentalnych pojęć matematyki. W klasycznej matematyce spotykane są trzy me-

tody określania zbioru zawierającego się zwykle w pewnym ustalonym zbiorze na-

zywanym przestrzenią X. Przestrzeń X bywa czasami nazywana również ogółem

rozważanych przedmiotów (ang. universe of discourse) lub zbiorem uniwersalnym

(ang. universal set) [159, 160].

1. Dowolny zbiórZmoże zostać określony przez podanie i wyliczenie wszystkich

jego elementów (metoda listy). Definicja ta jednak ogranicza się jedynie do

zbiorów skończonych.

Formalnie skończony zbiórZ zawierający elementy z1, z2, . . . , zn może zostać

zdefiniowany przez podanie wszystkich jego elementów, co zapisywane jest

wyrażeniem:

Z = z1, z2, . . . , zn

2. Dowolny zbiór Z może być określony przez opisanie właściwości spełnianej

przez elementy w nim zawarte (metoda reguły). Zazwyczaj zbiór określony

z wykorzystaniem metody reguły zapisywany jest w postaci:

Z = z | W (z)

gdzie symbol | oznacza wyrażenie „taki że” orazW (z) oznacza stwierdzenie

w formie „element z spełnia właściwośćW”.

89



Tak więc w zbiorze Z zawierają się tylko takie elementy z dla których stwier-

dzenieW jest prawdziwe. W klasycznej teorii zbiorów wymagane jest aby wa-

runekW był prawdziwy lub nie dla wszystkich elementów z ∈ X.

3. Zbiór Z może być określony przez funkcję nazywaną zazwyczaj funkcją cha-

rakterystyczną. Funkcja ta określa, które elementy z przestrzeni X są zaliczane

jako elementy tego zbioru, a które nie.

Zbiór Z jest definiowany przez funkcję charakterystyczną χZ w następujący

sposób:

χZ =

1 dla każdego z ∈ Z0 dla każdego z < Z

Funkcja charakterystyczna jest funkcją przyporządkowującą elementom z prze-

strzeni X, elementy zbioru dwuelementowego 0, 1:

χZ : X→ 0, 1

Dla każdego elementu z ∈ X, jeżeli χZ (z) = 1, oznacza to że element z należy

do zbioru Z, natomiast gdy χZ = 0 oznacza to, że element z nie należy do

zbioruZ.

4.1.2. Zbiór rozmyty i funkcja przynależności

Podstawą teorii zbiorów rozmytych jest dopuszczenie możliwości niepełnej przy-

należności elementu do zbioru. W klasycznym zbiorze element należy do zbioru

lub znajduje się poza nim. Teoria zbiorów rozmytych pozwala na przyjęcie częścio-

wej przynależności elementu do zbioru. Element równocześnie może częściowo

należeć i nie należeć do zbioru.

Do opisu zbioru rozmytego wykorzystana zostanie funkcja charakterystyczna,

która w przypadku zbioru klasycznego przyjmuje wartości 1 lub 0 dla argumen-

tów będących elementami rozważanego zbioru. Wartości funkcji charakterystycz-

nej pozwalają na rozróżnienie między elementami należącymi do zbioru i do niego

nie należącymi

W teorii zbiorów rozmytych pojęcie przynależności elementu do zbioru rozmy-

tego zostało rozszerzone o wartości pośrednie. Jeżeli jest ustalona pewna przestrzeń

X, to elementy tej przestrzeni mogą należeć do zbioru rozmytego jedynie częścio-

wo. Większe wartości funkcji charakterystycznej oznaczają większy stopień przy-

90



należności do zbioru rozmytego i z tego względu funkcja ta w kontekście teorii

zbiorów rozmytych jest nazywana funkcją przynależności, natomiast zbiór przez

nią określany jest nazywany zbiorem rozmytym.

W ogólnym przypadku wartości funkcji przynależności mogą przyjmować do-

wolne wartości rzeczywiste. Zazwyczaj jednak zakres jej wartości ograniczany jest

do intuicyjnie rozumianego przedziału jednostkowego [0, 1]. W takim przypadku

funkcja przynależności przypisuje każdemu elementowi z przestrzeni X liczbę rze-

czywistą z zakresu [0, 1], określającą stopień przynależności elementu do danego

zbioru. Wartość 0 oznacza, że element nie należy do zbioru, natomiast wartość

równa 1 określa pełną przynależność elementu do zbioru.

Aby określić zbiór rozmyty, należy zatem dla każdego elementu x ∈ X podać

wartość jego funkcji przynależności do zbioru rozmytego. Formalnie zbiór rozmyty

AF określa następująca definicja [161, 17].

Definicja 4.1. Zbiorem rozmytymAF w pewnej przestrzeniX nazywamy uporząd-

kowany zbiór par:

AF =[

x, µAF (x)]

; x ∈ X

(4.1)

przy czym:

µAF : X→ [0, 1]

Funkcja µAF jest nazywana funkcją przynależności zbioru rozmytegoAF, przypi-

sującą każdemu elementowi x pochodzącemu z przestrzeni X stopień jego przyna-

leżności do zbioru rozmytegoAF.

Zwyczajowo w teorii zbiorów rozmytych zakłada się, że funkcja przynależno-

ści przybiera wartości ze zbioru domkniętego [0, 1]. W niektórych zastosowaniach

przyjmuje się jednak czasami, że przeciwdziedziną funkcji przynależności jest do-

wolny zbiór domknięty[

µmin, µmax]

, który można traktować jako przeskalowanie

odcinka [0, 1], dokonane np. z uwagi na wygodę obliczeń numerycznych.

4.1.3. Przykłady funkcji przynależności

Funkcja przynależności jest jednym z najważniejszych pojęć teorii zbiorów roz-

mytych. Definiuje ona jednoznacznie skojarzony z nią zbiór rozmyty, określając za-

równo element zbioru, jak i jego stopień przynależności do pewnego określonego

91



zbioru. Funkcje przynależności mogą przyjmować bardzo różne postacie i mogą

być wyrażone w różny sposób, np. diagramu, tabeli, wektora lub najczęściej wzoru

matematycznego. Funkcja przynależności może być praktycznie dowolnego kształ-

tu, ale istnieją standardowe funkcje często wykorzystywane w różnych zastosowa-

niach zbiorów rozmytych [162, 163].

Poniżej przedstawione zostaną niektóre ze stosowanych funkcji przynależności.

Funkcje te określone zostały dla najczęściej wykorzystywanej w zastosowaniach

obliczeniowych przestrzeni liczb rzeczywistych R.

1. Funkcja singleton rozmyty (rys.4.1a):

µAF (x) =

µ ∈ [0, 1] , jeżeli x = a

0, jeżeli x , a(4.2)

Funkcja singleton rozmyty jest funkcją charakteryzującą jednoelementowy zbiór

rozmyty. Przybiera ona pewną wartość µ ∈ [0, 1] tylko dla jednego elemen-

tu x = a pochodzącego z przestrzeni liczb rzeczywistych R, który należy do

zbioru rozmytego ze stopniem przynależności µ. Dla każdego innego elementu

pochodzącego z R przyjmuje ona wartość równą 0, co oznacza że żaden inny

element nie należy do zbioru rozmytegoAF. Funkcja singleton jest często sto-

sowana do wykonania operacji fuzzyfikacji w rozmytych systemach sterowania,

jak również w technikach przetwarzania obrazów.

x

µAF (x)

µ

a0

14

12

34

1

(a)

x

µAF (x)

a0

14

12

34

1

(b)

Rys. 4.1. Przykładowe funkcje przynależności: singleton (a) oraz gaussowska (b)

92



2. Funkcja gaussowska (rys. 4.1b):

µAF (x) = exp

−(

x − a

b

)2

(4.3)

Parametr a określa położenie funkcji na osi zmiennych x, natomiast b okre-

śla szerokość krzywej gaussowskiej. Jest to jedna z bardzo często spotykanych

funkcji przynależności.

3. Funkcja klasy t (rys. 4.2a), nazywana również trójkątną funkcją przynależno-

ści:

µAF (x) =

0 dla x 6 ax−ab−a

dla a < x 6 bc−xc−b

dla b < x 6 c

0 dla x > c

(4.4)

Parametry a, b i c pozwalają na łatwy dobór kształtu funkcji. Ze względu na pro-

sty zapis i możliwość pełnego określenia kształtu funkcji przez podanie trzech

parametrów, bywa ona często wykorzystywana w systemach sterowania.

4. Funkcja klasy s (rys. 4.2b):

µAF (x) =

0 dla x 6 a

2(

x−ac−a

)2dla a < x 6 b

1 − 2(

x−cc−a

)2dla b < x 6 c

1 dla x > c

(4.5)

W celu zachowania ciągłości funkcji klasy s przyjmuje się, że b = (a + c) /2

lub b = (a + b) /2. W efekcie tej zależności wartość funkcji przynależności

w punkcie x = b jest równa 0.5, a punkt ten jest punktem przegięcia funkcji.

Nazwa funkcji prawdopodobnie pochodzi od kształtu wykresu, który graficz-

nie przypomina literę „s”. Kształt funkcji może być zmieniany poprzez dobór

wartości parametrów a, b i c.

93



x

µAF (x)

a b c0

14

12

34

1

(a)

x

µAF (x)

a b c0

14

12

34

1

(b)

Rys. 4.2. Przykładowe funkcje przynależności typu t (a) oraz typu s (b)

5. Funkcja klasy π (rys. 4.3a):

µAF (x) =

0 dla x 6 c − b

2(

x−c+bb

)2dla c − b < x 6 c − b/2

1 − 2(

x−cb

)2dla c − b/2 < x 6 c + b/2

2(

x−c−bb

)2dla c + b/2 < x < c + b

0 dla x > c + b

(4.6)

Kształtem funkcja przynależności klasy π przypomina funkcję gaussowską.

Trzeba jednak zauważyć, że funkcja klasy π pozwala na większą swobodę w do-

borze swojego kształtu ze względu na swoje trzy parametry a, b i c. Dodat-

kowo funkcja klasy π ma skończony nośnik, tzn. przyjmuje wartości zerowe

dla x > c + b oraz x 6 c − b, podczas gdy funkcja gaussowska określona

wzorem (4.3) ma nośnik nieskończony, tzn. ma niezerową wartość dla każdego

x ∈ R.

6. Funkcje klasy u (rys. 4.3b):

µAF (x) =

1 dla x 6 c − b

1 − 2(

x−c+bb

)2dla c − b < x 6 c − b/2

2(

x−cb

)2dla c − b/2 < x 6 c + b/2

1 − 2(

x−c−bb

)2dla c + b/2 < x < c + b

1 dla x > c + b

(4.7)

94



Funkcja klasy u jest funkcją dualną względem funkcji klasy π.

x

µAF (x)

b

c − b c − b2

c c + b2

c + b0

14

12

34

1

(a)

x

µAF (x)

b

c − b c − b2

c c + b2

c + b0

14

12

34

1

(b)

Rys. 4.3. Przykładowe funkcje przynależności typu π (a) oraz typu u (b)

Przedstawione przykłady funkcji przynależności nie wyczerpują oczywiście całego

wachlarza znanych i wykorzystywanych funkcji przynależności. Nawet w odniesie-

niu do przedstawionych tutaj funkcji można w łatwy sposób tworzyć funkcje zmo-

dyfikowane lub pochodne, będące nowymi funkcjami przynależności. Na przykład,

z funkcji klasy t można otrzymać szereg funkcji trapezowych, a przez ograniczenie

nośnika funkcji gaussowskiej otrzymywana jest funkcja dzwonowa. Nietrudno tak-

że utworzyć funkcję przyjmującą kształt odwrotny do funkcji klasy s, otrzymując

w efekcie funkcję klasy z.

Przedstawione tutaj funkcje stanowią jedynie przykłady typowych funkcji przy-

należności. Wiele innych funkcji przynależności można znaleźć w literaturze po-

dejmującej tematykę zbiorów rozmytych [14, 16, 164].

4.2. Miary rozmytości

Miary rozmytości, adekwatnie do swojej nazwy, charakteryzują stopień rozmy-

cia określonego zbioru. Odgrywają one istotną rolę przy próbach wykorzystania

teorii zbiorów rozmytych do budowy modeli systemów. Podczas dobierania zbio-

rów rozmytych opisujących model ważna staje się odpowiedź na pytanie, który

z dwóch różnych zbiorów rozmytych jest bardziej rozmyty oraz jak można ilościo-

wo określić różnicę pomiędzy zbiorem rozmytym, a zbiorem zwykłym.

95



Ogólnie miarę rozmytości określa się jako pewne przekształcenie ǫ , które każ-

demu zbiorowi będącemu podzbiorem przestrzeni X (inaczej każdemu elementowi

zbioru potęgowego przestrzeni X) przypisuje wartość z przedziału [0,∞) i które

spełnia następujące warunki [165]:

1. ǫ(

AF)

= 0 wtedy i tylko wtedy, gdyAF jest zwykłym podzbiorem przestrze-

ni X, tzn. ∀x ∈ X, µAF (x) = 0 ∨ µAF (x) = 1 (4.8a)

2. ǫ(

AF)

osiąga wartość maksymalną dla najbardziej rozmytego zbioru,

tzn. takiego, którego funkcja przynależności spełnia zależność:

µFA (x) =

12∀x ∈ X (4.8b)

3. ǫ(

AF∗) 6 ǫ(

AF)

, gdzieAF∗ jest mniej rozmytym zbiorem niżAF, tzn.

µAF∗ (x) 6 µAF (x) jeżeli µAF (x) 612∧ µAF∗ (x) > µAF (x) jeżeli

µAF (x) >12

(4.8c)

4. ǫ(

AF)

= ǫ(

AF)

, tzn. dopełnienie AF zbioru AF definiowane jako:

∀x ∈ X, µAF (x) = 1 − µAF (x) jest tak samo rozmyte jak zbiór AF.

(4.8d)

W literaturze dotyczącej teorii zbiorów rozmytych można znaleźć wiele różnych

miar rozmytości wykorzystujących różne własności zbiorów. Istnieją miary okre-

ślające stopień rozmytości zbioru biorąc za podstawę niepewność probabilistycz-

ną i niepewność rozmytą [166], energię informacyjną (ang. information energy)

[167], czy też odległość między zbiorem i jego dopełnieniem [168, 169]. Wśród

miar rozmytości zbiorów istnieje także duża grupa miar opartych na pojęciu entropi

[170] oraz jedna z bardzo popularnych miar oparta na odległości między zbiorami

nazywana indeksem rozmytości.

W pracy wykorzystane zostały dwie spośród znanych miar, mianowicie jedna

z miar entropijnych nazywana całkowitą entropią rozmytą oraz tzw. indeks rozmy-

tości, które z tego względu zostaną przedstawione bardziej szczegółowo. Ponieważ

w rozważanym w tej pracy zagadnieniu dopasowania pary stereoskopowej mamy

do czynienia ze zbiorami skończonymi, definicje miar zostały przytoczone jedynie

w odniesieniu do skończonych zbiorów rozmytych.

96



4.2.1. Całkowita entropia rozmyta

Klasyczna miara entropii Shannona jest miarą informacji. Podobnie, rozmyte

miary entropijne są nazywane rozmytymi miarami informacji. Odpowiednikiem

klasycznej miary Shannona w dziedzinie zbiorów rozmytych jest entropia rozmyta

[170]. W pracy wykorzystana została rozmyta miara entropijna nazywana entropią

całkowitą [171]. Miara ta uwzględnia dwa rodzaje informacji. Pierwsza jest zwią-

zana z losową naturą eksperymentu, druga zaś z niepewnością wprowadzaną przez

opisanie tego eksperymentu za pomocą zbioru rozmytego.

W celu zdefiniowania miary entropii całkowitej przyjmiemy założenie, że ist-

nieje ustalony zbiór T pewnych zdarzeń losowych x1, x2, . . . , xn w pewnym eks-

perymencie. Każdemu ze zdarzeń ze zbioru T może być przypisana wartość praw-

dopodobieństwa pi zajścia tego zdarzenia oraz wartość funkcji przynależności µiAF

do pewnego zbioru rozmytegoAF.

Jak wspomniano wyżej, opisanie tego zbioru zdarzeń T za pomocą zbioru roz-

mytegoAF wprowadza dwa rodzaje niepewności: jeden związany z losową naturą

eksperymentu oraz drugi związany z określeniem przynależności tych zdarzeń do

pewnego zbioru rozmytegoAF. Aby uwzględnić obydwa rodzaje niepewności oraz

wykorzystać zawarte w nich informacje, przyjmuje się, że entropia całkowita zbio-

ru rozmytego AF, który jest określony na podstawie zbioru zdarzeń T , jest sumą

dwóch składników.

Pierwszy składnik entropii całkowitej jest miarą wykorzystującą wiedzę o loso-

wej naturze eksperymentu. Wartość oczekiwana tej miary niepewności określana

jest przez entropię Shannona:

H (p1, p2, . . . , pn) = −n

∑

i=1

pi log (pi) (4.9)

Drugi składnik entropii całkowitej jest miarą niepewności związaną sciśle z roz-

mytością zbioru AF w odniesieniu do zbioru zdarzeń T . Wartość tej miary okre-

ślona dla zdarzenia xi o przypisanej do niego wartości funkcji przynależności µiAF ,

wyrażana jest przez zależność:

S(

µiAF

)

= −µiAF log

(

µiAF

)

−(

1 − µiAF

)

log(

1 − µiAF

)

(4.10)

97



Wartość średnia S niepewności, określona dla całego zbioru zdarzeń, jest zdefinio-

wana wzorem:

S(

µAF , p1, p2, . . . , pn)

=

n∑

i=1

piS(

µiAF

)

(4.11)

Natomiast entropia całkowita zbioru AF określona jest przez sumę niepewności

związanej z losową naturą eksperymentu oraz niepewności związanej z opisaniem

tego zbioru zdarzeń za pomocą zbioru rozmytego:

Hc = H (p1, p2, . . . , pn) + S(

µAF , p1, p2, . . . , pn)

(4.12)

Miara entropijna określona wyrażeniem (4.12) może być interpretowana jako

całkowita średnia informacja o przewidywanym pojawieniu się pewnego zbioru

zdarzeń pochodzących ze zbioru zdarzeń T , które mogą wystąpić w wyniku do-

świadczenia losowego, i podjęciu decyzji o ich stopniu przynależności do rozpa-

trywanego zbioru rozmytegoAF.

Jeżeli H (p1, p2, . . . , pn) = 0, oznacza to że w doświadczeniu nie ma losowości,

a jedyne pewne zdarzenie xi pochodzące ze zbioru T zdarzy się z prawdopodo-

bieństwem równym pi = 1. Pozostaje wówczas tylko niepewność określenia jego

przynależności do zbioru rozmytego:

Hc = S(

µiAF (x)

)

(4.13)

Natomiast jeżeli S(

µAF , p1, p2 . . . , pn)

= 0, to całkowita miara entropijna Hc redu-

kuje się do klasycznej miary entropii Shannona, tzn.:

Hc = H (p1, p2, . . . , pn) (4.14)

4.2.2. Indeks rozmytości

Indeks rozmytości jest jedną z miar, która została skonstruowana w celu zna-

lezienia odpowiedzi na pytanie o stopień rozmytości określonego zbioru rozmy-

tego [165, 172]. Miara ta została wykorzystana w niniejszej pracy dla przypadku

zbiorów o skończonej liczbie elementów i dla takich zbiorów zostanie niżej zdefi-

niowana. Aby miarę tę przedstawić bardziej szczegółowo, rozważmy pewną prze-

strzeń elementów X oraz zbiór potęgowy P (X) tej przestrzeni. Indeks rozmytości

98



Kaufmanna γ zbioru rozmytegoAF ⊆ P (X) jest zdefiniowany wyrażeniem [173]:

γ(

AF)

=2

Nkd(

AF,AFC

)

(4.15)

gdzie d (·, ·) jest pewną miarą odległości określoną w zbiorze P (X), k jest liczbą

dodatnią zależną co do wartości od wybranej miary odległości, N jest liczbą ele-

mentów zbioru rozmytego AF, natomiast AFC jest zbiorem zwykłym, najbliższym

w sensie przynależności elementów przestrzeni do zbioru rozmytegoAF. Funkcja

przynależności zbioruAFC określona jest następująco:

µAFC

(x) =

1 µAF 6 0.5

0 µAF > 0.5(4.16)

Często jako miara odległości d (·, ·) przyjmowana jest odległość Minkowskiego wy-

rażona wzorem:

dq(

AF,AFC

)

=

N∑

i=1

∣

∣

∣

∣

µAF (xi) − µAFC

(xi)∣

∣

∣

∣

q

1q

(4.17)

gdzie q jest rzędem metryki Minkowskiego. Miara Minkowskiego wyrażona wzo-

rem (4.17) jest określona dla wszystkich wartości q > 0, jednak najczęściej wyko-

rzystywane są miary o wartościach q = 1, q = 2 i q = ∞.

Po podstawieniu wzoru (4.17) do (4.15) otrzymujemy ogólne wyrażenie opisu-

jące indeks rozmytości Kaufmanna:

γ(

AF)

=2

N1q

N∑

i=1

|µFA (xi) − µAF

C(xi)|

1q

(4.18)

Przyjmując we wzorze (4.18) wartość q = 1, otrzymujemy miarę Hamminga od-

ległości zbiorów. Indeks rozmytości Kaufmanna nazywany jest wówczas liniowym

indeksem rozmytości. Indeks ten wyrażony jest wzorem:

γL

(

AF)

=2N

N∑

i=1

∣

∣

∣

∣

µAF (xi) − µAFC

(xi)∣

∣

∣

∣

(4.19)

Czasami stosowany jest także kwadratowy indeks rozmytości przy podstawieniu q =

2 we wzorze (4.18). Miara odległości jest w takim przypadku miarą euklidesową,

99



a wyrażenie opisujące kwadratowy indeks rozmytości Kaufmanna ma postać:

γK

(

AF)

=2√

N

√

√

√

N∑

i=1

[

µAF (xi) − µAFC

(xi)]2

(4.20)

4.3. Odległość zbiorów rozmytych

Określanie podobieństwa między różnego rodzaju elementami ze względu na

ich określone wyróżnione cechy odgrywa bardzo dużą rolę zarówno w zagadnie-

niach o charakterze praktycznym, jak i teoretycznym. Istotna rola określenia po-

dobieństwa elementów występuje np. w algorytmach klasteryzacji i klasyfikacji

danych, procesie wnioskowania na podstawie bazy wiedzy lub odkrywania wiedzy

zawartej w danych.

W przypadku próby wykorzystania zbiorów rozmytych w konkretnym zagad-

nieniu również istnieje potrzeba określenia miary podobieństwa między dwoma

zbiorami rozmytymi. Problem ten doczekał się propozycji wielu rozwiązań wy-

korzystujących zależności geometryczne zachodzące pomiędzy graficznymi repre-

zentacjami zbiorów [174], zależności funkcyjne zachodzące pomiędzy funkcjami

przynależności [175], czy też rozwiązań opartych na pewnych operacjach wyko-

nywanych na zbiorach [176]. Jednym z podejść do problemu określenia miary po-

dobieństwa między zbiorami rozmytymi jest określanie odległości między nimi,

analogicznie do znanych klasycznych miar odległości.

Definicja miary odległości między zbiorami rozmytymi powinna spełniać ogól-

ne warunki metryki, tzn. jeżeliAF,BF,CF są pewnymi zbiorami rozmytymi okre-

ślonymi w przestrzeni X, to odległość powinna być funkcją η : L (X) × L (X) →R+∪0, gdzie L (X) jest rodziną wszystkich podzbiorów rozmytych przestrzeni X.

Ogólne warunki metryki, które powinna spełniać definicja miary odległości między

zbiorami rozmytymi wyrażone są przez zależności [177]:

1. η(

AF,BF)

> 0 (4.21a)

2. jeżeli AF = BF, to η(

AF,BF)

= 0 (4.21b)

3. η(

AF,BF)

= η(

BF,AF)

(4.21c)

100



4. η(

AF,CF)

6 η(

AF,BF)

⊙ η(

BF,CF)

(4.21d)

gdzie ⊙ jest pewną operacją algebraiczną, np. dodawaniem. Ostatnia nierówność

(4.21d) jest nazywana nierównością trójkąta.

Najczęściej stosowane są następujące miary odległości między dwoma skoń-

czonymi zbiorami rozmytymi AF,BF ⊆ X = x1, x2, . . . , xn o określonych funk-

cjach przynależności µAF i µBF [177, 178, 179]:

Odległość Hamminga (liniowa), oznaczona przez ηFH

(

AF,BF)

:

ηFH

(

AF,BF)

=

N∑

i=1

∣

∣

∣µAF (xi) − µBF (xi)∣

∣

∣ (4.22)

Względna odległość Hamminga (liniowa unormowana), oznaczana ηFH

(

AF,BF)

:

ηFH

(

AF,BF)

=1N

N∑

i=1

|µAF (xi) − µBF (xi)| (4.23)

Odległość euklidesowa (kwadratowa), oznaczana ηFE

(

AF,BF)

:

ηFE

(

AF,BF)

=

√

√

√

N∑

i=1

[

µAF (xi) − µBF (xi)]2 (4.24)

Względna odległość euklidesowa (unormowana kwadratowa), oznaczana symbo-

lem ηFE

(

AF,BF)

:

ηFH

(

AF,BF)

=

√

√

√

1N

N∑

i=1

[

µAF (xi) − µBF (xi)]2 (4.25)

101



4.4. Korelacja zbiorów rozmytych

Ogólnie korelacja jest pewnym wskaźnikiem statystycznym służącym do okre-

ślania zależności między dwoma zmiennymi losowymi. Większa wartość korelacji

oznacza większą zależność elementów, dla których została ona określona. Cechę tę

próbuje się wykorzystać również w dziedzinie zbiorów rozmytych w celu określe-

nia podobieństwa zbiorów na podstawie ich korelacji. Obliczenie wartości współ-

czynnika korelacji między dwoma zbiorami rozmytymi pozwala na uzyskanie in-

formacji o ich podobieństwie analogicznie do miary korelacji stosowanej w innych

dziedzinach [180].

Współczynnik korelacji ρAF,BF między dwoma zbiorami rozmytymi AF i BF

wyrażony jest następującym wzorem [181]:

ρAF,BF =1

N − 1

∑Ni=1

[

µAF (xi) − µAF] [

µBF (xi) − µBF]

σAF · σBF(4.26)

gdzie µAF oraz µBF oznaczają wartości średnie funkcji przynależności:

µAF =1N

N∑

i=1

µAF (xi) ; µBF =1N

N∑

i=1

µBF (xi) (4.27)

natomiast σAF i σBF są wariancjami funkcji przynależności:

σAF =

√

√

√

1N − 1

N∑

i=1

[

µAF (xi) − µAF]2 ; σBF =

√

√

√

1N − 1

N∑

i=1

[

µBF (xi) − µBF]2

(4.28)

4.5. Relacje rozmyte

Ogólnie pod pojęciem relacji rozumie się zachodzenie określonego związku

między wyróżnionymi elementami pewnych zbiorów. W kategoriach teorii mno-

gości jako relację rozumie się podzbiór iloczynu kartezjańskiego dwóch zbiorów.

Niech dane będą dwa niepuste zbiory X i Y oraz zbiór Z będący iloczynem

kartezjańskim zbiorówX iY, tzn.:Z = X×Y. Elementami zbioruZ są wszystkie

pary uporządkowane elementów (x, y), takie że x ∈ X i y ∈ Y. Jeżeli w przypadku

102



elementów tworzących parę zostanie ustalona pewna właściwość to jej zachodze-

nie między elementami pary (x, y) będzie wyznaczało zbiór Ω, będący podzbio-

rem iloczynu kartezjańskiego zbiorówX×Y. Właściwość ta nazywana jest relacją

dwuczłonową lub krócej relacją. Wyznacza ona jednoznacznie zbiór Ω składający

się z takich par elementów (x, y), które ją spełniają. O elementach tych mówi się,

że pozostają ze sobą w relacji [182]. Problem powstaje jednak wtedy, gdy chcemy

wyrazić częściową lub niezbyt ściśle wyrażoną współzależność zachodzącą między

elementami zbiorówX iY. W takim przypadku można zastosować relację rozmytą,

która w sposób analogiczny do pojęcia zbioru rozmytego dopuszcza częściowe za-

chodzenie określonej właściwości, tzn. uwzględnia, że elementy mogą pozostawać

ze sobą w częściowej relacji.

W takim sensie relacja rozmyta jest uogólnieniem relacji nierozmytej. Pewne

elementy mogą nie tylko być lub nie być ze sobą w pewnym związku, ale pozo-

stawać ze sobą związane tylko w pewnym stopniu. W pracy wykorzystana została

jedynie rozmyta relacja dwuargumentowa, którą definiuje się w następujący spo-

sób [177, 171]:

Definicja 4.2. Relacja rozmyta dwuargumentowa Ω między dwoma zbiorami (nie-

rozymytymi) X = x i Y = y definiowana jest jako zbiór rozmyty Ω ⊆ X × Y =(x, y) : x ∈ X, y ∈ Y, taki że:

Ω = (x, y) , µΩ (x, y) , ∀x ∈ X, ∀y ∈ Y, (4.29)

gdzie µΩ : X×Y → [0, 1] jest funkcją przynależności relacji rozmytej Ω przypisu-

jąca każdej parze (x, y) , x ∈ X, y ∈ Y jej stopień przynależności µΩ (x, y) ∈ [0, 1]

będący miarą „siły” relacji rozmytej Ω między elementami x i y.

4.5.1. Rozmyta relacja podobieństwa

Relacja dwuargumentowa Ω może być oczywiście określona między elemen-

tami tego samego zbioru X, tzn. Ω ⊂ X × X. Pozwala ona wtedy na opisanie

bardzo istotnej właściwości, która może zachodzić między elementami tego sa-

mego zbioru, jaką jest ich podobieństwo pod pewnym względem. Dlatego wśród

relacji rozmytych wyodrębniona została również klasa relacji nazywana relacjami

103



podobieństwa, które oprócz tego że muszą być relacjami w sensie definicji (4.2),

to dodatkowo muszą spełniać także inne warunki [177].

Definicja 4.3. Rozmytą relacją podobieństwa ΩP ⊆ X × X określoną w zbiorze

X o skończonej liczbie elementów nazywana jest relacja rozmyta w sensie definicji

(4.2), która jest dodatkowo:

zwrotna: µΩP(x, x) = 1, ∀x ∈ X

symetryczna: µΩP(x, y) = µΩP

(y, x), ∀x, y ∈ Xprzechodnia: µΩP

(x, z) > maxy∈X

min[

µΩp(x, y) , µΩP

(y, z)]

, ∀x, y, z ∈ X

Wśród relacji podobieństwa istnieją relacje, które określają zachodzenie właści-

wości „x jest podobne do y” dla elementów będących liczbami. Relacje takie można

interpretować zgodnie ze znaczeniem „x jest w przybliżeniu równe y”. Rozmyta re-

lacją podobieństwa między dwoma liczbami x i y może być na przykład określona

przez funkcję przynależności:

µΩG(x, y) = exp

−(

x − y

σG

)2

(4.31)

Ze względu na zbieżność z wyrażeniem opisującym rozkład normalny oraz kształt

krzywych funkcji przynależności, relacja ta jest nazywana gaussowską relacją po-

dobieństwa. Przykłady funkcji przynależności relacji tego typu przedstawiono na

rys. 4.4. ParametrσG decyduje o „sile” relacji, umożliwiając pewną swobodę w do-

borze intensywności relacji między elementami. Jeżeli σG przyjmuje większe war-

tości oznacza to, że dopuszczane są coraz większe różnice między wartościami

elementów x i y, aby uznać je za podobne.

Druga z rozmytych relacji podobieństwa wykorzystana w pracy jest określona

jako funkcja przynależności:

µΩT(x, y) =

1 − |x−y|σT

jeżeli |x − y| < σT

0 w innym przypadku(4.32)

gdzieσT jest arbitralnie ustalonym parametrem ustalającym „siłę” relacji. Ze wzglę-

du na kształt krzywych funkcji przynależności, których przykłady przedstawiono

na rys. 4.5, relacja ta jest nazywana trójkątną relacją podobieństwa.

104



0 50100150

200255

050100150

2002550

0.250.5

0.751

xy

µΩ

G( x

,y)

0.2 0.4 0.6 0.8 1

(a)

0 50100150

200255

050100150

2002550

0.250.5

0.751

xy

µΩ

G( x

,y)

0 0.2 0.4 0.6 0.8 1

Rys. 4.4. Gaussowska relacja podobieństwa o parametrze σG = 127 (a) orazσG = 63 (b)

0 50100150

200255

050100150

2002550

0.250.5

0.751

xy

µΩ

T( x

,y)

0 0.2 0.4 0.6 0.8 1

(a)

0 50100150

200255

050100150

2002550

0.250.5

0.751

xy

µΩ

T( x

,y)

0 0.2 0.4 0.6 0.8 1

Rys. 4.5. Trójkątna relacja podobieństwa dla σT = 127 (a) oraz dla σT = 63 (b)

4.6. Teoria intuicjonistycznych zbiorów rozmytych

Teoria intuicjonistycznych zbiorów rozmytych została zaproponowana przez Ata-

nassova w 1986 roku [183, 184]. Teoria ta zyskała akceptację głównie wśród ba-

daczy zajmujących się teorią zbiorów rozmytych, którzy podjęli intensywne ba-

dania nad właściwościami intuicjonistycznych zbiorów rozmytych [185, 186] oraz

nad ich zastosowaniami praktycznymi. W efekcie tych badań teoria intuicjonistycz-

105



nych zbiorów rozmytych znalazła zastosowanie w wielu różnych dziedzinach nauki

i techniki, wśród których jako przykłady można wymienić: algorytmy wykorzy-

stywane do wspomagania diagnostyki medycznej [187] i algorytmy wspomagania

podejmowania decyzji [188]. Teoria ta znalazła również zastosowanie w dziedzinie

przetwarzania obrazów [189, 190].

Definicja intuicjonistycznego zbioru rozmytego, który w dalszej części pracy

będzie oznaczany akronimem IFS (ang. Intuitionistic Fuzzy Set), podana zostanie

poniżej za Atanssovem [183, 184].

Definicja 4.4. Intuicjonistyczny zbiór rozmytyAIFS w przestrzeniX określony jest

jako trójka uporządkowana:

AIFS =⟨

x, µAIFS (x) , νAIFS (x)⟩ |x ∈ X

(4.33)

gdzie:

µAIFS : X→ [0, 1] ∧ νAIFS : X→ [0, 1] (4.34)

przy spełnieniu dodatkowego warunku:

0 6 µAIFS (x) + νAIFS (x) 6 1 (4.35)

dla każdego x ∈ X.

Symbole µAIFS (x) i νAIFS (x) oznaczają odpowiednio funkcję przynależności oraz

funkcję nieprzynależności elementu x do zbioruAIFS.

Dla dowolnego IFSAIFS określonego w przestrzeniX definiowany jest również

indeks zaufania (ang. hesitancy index) πAIFS , nazywany również indeksem intu-

icjonistycznym (ang. intuitionistic index) lub indeksem wahania elementu x ∈ X

należącego do zbioruAIFS.

Definicja 4.5. Dla danego IFSAIFS jego indeksem zaufania nazywamy funkcję:

πAIFS (x) = 1 − µAIFS (x) − νAIFS (x) , x ∈ X (4.36)

Indeks zaufania πAIFS (x) wprowadza się w celu modelowania stopnia zaufania, że

element x należy do zbioru AIFS [183, 184]. Z warunku (4.35) wynika, że indeks

zaufania spełnia nierówność 0 6 πAIFS (x) 6 1 dla każdego x ∈ X

106



Zgodnie z definicjami 4.4 i 4.5, aby określić jednoznacznie dowolny zbiór IFS

muszą być podane dwie z trzech funkcji: funkcja przynależności i funkcja nieprzy-

należności lub też jedna z tych funkcji oraz indeks zaufania.

W pracy teoria rozmytych zbiorów intuicjonistycznych wykorzystana została

w celu rozwiązania zadania dopasowania pary stereoskopowej. Aby umożliwić wy-

korzystanie zbiorów IFS do rozwiązania tego zdania, zaproponowany został algo-

rytm umożliwiający opis obrazu w dziedzinie IFS, zawierający procedurę wyzna-

czenia funkcji przynależności zbioru IFS oraz indeksu zaufania na podstawie da-

nych obrazowych. Zgodnie z wyrażeniem (4.36) wyznaczenie części określającej

funkcję nieprzynależności staje się zadaniem trywialnym, a tym samym obraz może

być łatwo opisany w dziedzinie zbiorów IFS.

4.7. Miary podobieństwa intuicjonistycznych zbiorów

rozmytych

Podobnie jak w przypadku zbiorów rozmytych, podobieństwo dwóch zbiorów

IFS może być określane z wykorzystaniem różnych miar. W literaturze zapropo-

nowane zostały sposoby określenia podobieństwa zbiorów IFS na podstawie miar

odległości [191, 192], miar opartych o korelację [193] lub miar opartych o entropię

[194]. Poniżej przedstawione zostały typowe miary podobieństwa, które wykorzy-

stane będą do rozwiązania zagadnienia dopasowania obrazów pary stereoskopowej

w dziedzinie IFS. Tak jak w przypadku zwykłych zbiorów rozmytych, miary te

zostaną zdefiniowane dla przypadku zbiorów skończonych.

4.7.1. Odległość intuicjonistycznych zbiorów rozmytych

Jeżeli określone są dwa skończone zbiory IFS AIFS i BIFS o znanych funk-

cjach przynależności µAIFS i µBIFS oraz znane są ich funkcje nieprzynależności νAIFS

i νBIFS , to odległości między tymi zbiorami definiuje się następująco [186, 195,

196]:

Odległość Hamminga (liniowa):

ηIFSH

(

AIFS,BIFS)

=

N∑

i=1

[∣

∣

∣µAIFS (xi) − µBIFS (xi)∣

∣

∣ +∣

∣

∣νAIFS (xi) − νBIFS (xi)∣

∣

∣

]

(4.37)

107



Względna odległość Hamminga (unormowana liniowa):

ηIFSH

(

AIFS,BIFS)

=1

2N

N∑

i=1

[∣

∣

∣µAIFS (xi) − µBIFS (xi)∣

∣

∣ +∣

∣

∣νAIFS (xi) − νBIFS (xi)∣

∣

∣

]

(4.38)

Odległość euklidesowa (kwadratowa):

ηIFSE

(

AIFS,BIFS)

=

√

√

√

N∑

i=1

[

µAIFS (xi) − µBIFS (xi)]2+

[

νAIFS (xi) − νBIFS (xi)]2

(4.39)

Względna odległość euklidesowa (unormowana kwadratowa):

ηIFSH

(

AIFS,BIFS)

=

√

√

√

12N

N∑

i=1

[

µAIFS (xi) − µBIFS (xi)]2+

[

νAIFS (xi) − νBIFS (xi)]2

(4.40)

4.7.2. Korelacja intuicjonistycznych zbiorów rozmytych

Problem określania podobieństwa między zbiorami IFS na podstawie zależno-

ści korelacyjnych był intensywnie rozważany zarówno w kontekście teoretycznym

jak i zastosowań praktycznych. W związku z tym w literaturze można znaleźć wiele

różnych metod obliczania korelacji zbiorów IFS wraz z szeroką analizą ich właści-

wości [197, 198, 199, 200, 201].

W pracy przyjęto następującą definicję współczynnika korelacji między dwoma

zbiorami IFSAIFS i BIFS [202]:

ρIFS(

AIFS,BIFS)

=12

(

ρIFSµAIFS ,µBIFS

+ ρIFSνAIFS ,νBIFS

)

(4.41)

gdzie ρIFSµAIFS ,µBIFS

i ρIFSνAIFS ,νBIFS

są odpowiednio współczynnikami korelacji funkcji

przynależności i nieprzynależności zbiorów IFSAIFS iBIFS określonymi wzorami:

108



ρµAIFS ,µBIFS =

N∑

i=1

[

µAIFS (xi) − µAIFS] [

µBIFS (xi) − µBIFS]

√

N∑

i=1

[

µAIFS (xi) − µAIFS]2[µBIFS (xi) − µBIFS

]2

(4.42)

i odpowiednio:

ρIFSνAIFS ,νBIFS

=

N∑

i=1

[

νAIFS (xi) − νAIFS] [

νBIFS (xi) − νBIFS]

√

N∑

i=1

[

νAIFS (xi) − νAIFS]2 [

νBIFS (xi) − νBIFS]2

(4.43)

oraz µAIFS , µBIFS , νAIFS i νBIFS są wartościami średnimi funkcji przynależności i nie-

przynależności zbiorów IFSAIFS i BIFS:

µAIFS = 1N

N∑

i=1µAIFS (xi) ; µBIFS = 1

N

N∑

i=1µBIFS (xi)

νAIFS = 1N

N∑

i=1µAIFS (xi) ; νBIFS = 1

N

N∑

i=1µBIFS (xi)

(4.44)

Wprowadzone wyżej pojęcia i ich definicje stanowią zaledwie niewielką część

warstwy pojęciowej, jaką operuje teoria zbiorów rozmytych i teoria intuicjonistycz-

nych zbiorów rozmytych. Tworzą jednak kompletny zbiór pojęć niezbędny do pre-

zentacji opracowanych algorytmów umożliwiających rozwiązanie problemu dopa-

sowania pary stereoskopowej z wykorzystaniem tych teorii, jak również do przed-

stawienia dalszych wyników pracy.

109


Rozdział 5

Zastosowanie teorii zbiorów rozmytych

w zagadnieniu dopasowania pary

stereoskopowej obrazów

W rozdziale przedstawiono metody i algorytmy dopasowania pary stereoskopo-

wej obrazów z wykorzystaniem formalizmu zbiorów rozmytych, w tym propozycje

rozwiązań własnych autora stanowiące zasadniczą część rozdziału. Rozdział rozpo-

czyna omówienie koncepcji wykorzystania zbiorów rozmytych w ogólnej proble-

matyce przetwarzania obrazów. Przedstawiono m.in. zasady opisu obrazów w dzie-

dzinie zbiorów rozmytych oraz dokonano krótkiego przeglądu źródeł literaturo-

wych omawiających najczęściej stosowane metody fuzzyfikacji obrazów.

Kolejne punkty rozdziału dotyczą zasadniczego problemu rozważanego w pra-

cy i są poświęcone rozwiązaniu problemu dopasowania pary stereoskopowej z wy-

korzystaniem teorii zbiorów rozmytych i intuicjonistycznych zbiorów rozmytych.

Prezentację opracowań własnych autora poprzedzono omówieniem dostępnych po-

zycji literatury dotyczącej tego problemu, z podziałem na zagadnienie dopasowania

pary stereoskopowej obszarami oraz dopasowania cechami. Wśród opracowań au-

torskich przedstawiono m.in. metodykę konstrukcji funkcji przynależności stoso-

wanej w zaproponowanych algorytmach i zaprezentowano opracowane na jej pod-

stawie algorytmy dopasowania obrazów pary stereoskopowej, zarówno w dziedzi-

nie zbiorów rozmytych, jak i intuicjonistycznych zbiorów rozmytych. Zapropono-

wano ponadto nowy detektor krawędzi opary na relacji rozmytej oraz metodę dopa-

sowania obrazów pary stereoskopowej wykorzystującą tenże detektor. W ostatnim

punkcie rozdziału przedstawiono propozycję obliczania rozmytej transformaty ran-

kingowej oraz sposób jej wykorzystania do rozwiązania zagadnienia dopasowania

pary stereoskopowej obrazów.

110


5. Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania

5.1. Wykorzystanie zbiorów rozmytych w zagadnieniach

przetwarzania obrazów

Zastosowanie teorii zbiorów rozmytych i elementów logiki rozmytej w zagad-

nieniach związanych z komputerowym przetwarzaniem obrazów określane jest cza-

sami jako rozmyte przetwarzanie obrazów [203]. Proponowane w literaturze po-

dejścia, które umożliwiają wykorzystanie zbiorów rozmytych w komputerowym

przetwarzaniu obrazów, nie stanową jednolitej teorii, lecz są zbiorem różnorodnych

metod wykorzystujących wybrane elementy teorii zbiorów rozmytych. Można spo-

tkać propozycje wykorzystania teorii zbiorów rozmytych w takich zagadnieniach

jak usuwanie szumów zawartych w obrazach lub zmiana właściwości obrazu, jaką

jest np. poprawa kontrastu lub normalizacja kolorów. Zbiory rozmyte zostały także

wykorzystane do zdefiniowania operatorów morfologii rozmytej, w algorytmach

segmentacji obrazów, w zagadnieniach związanych z rozpoznawaniem obiektów

przedstawianych na obrazach, czy wreszcie zagadnieniach rozumienia sceny przed-

stawianej na obrazie.

Pomimo braku jednolitego podejścia, można spróbować zdefiniować pojęcie

rozmytego przetwarzania obrazów w sposób następujący [203]:

Rozmyte przetwarzanie obrazów obejmuje wszystkie możliwe podejścia do roz-

wiązywania zagadnień związanych z komputerowym przetwarzaniem obrazów, w któ-

rych wykonywane są operacje na obrazach, ich elementach lub częściach, z wyko-

rzystaniem zbiorów rozmytych. Reprezentacja oraz metoda przetwarzania zależą

od wyboru konkretnej, znanej z teorii zbiorów rozmytych techniki przetwarzania

oraz problemu, do rozwiązania którego jest ona wykorzystana. Jako przykład takiej

techniki można wymienić przetwarzanie za pomocą fuzzyfikacji obrazów i prze-

prowadzanie działań na ich reprezentacjach w dziedzinie zbiorów rozmytych lub

wykorzystanie jedynie wybranych elementów teorii zbiorów rozmytych, takich jak

relacja rozmyta, czy miara rozmyta.

Można oczywiście zadać pytanie, dlaczego zbiory rozmyte używane są w tak

dobrze rozwiniętej dziedzinie, jak przetwarzanie obrazów. W odpowiedzi na to py-

tanie można wymienić następujące powody:

- zbiory rozmyte są efektywnym i sprawdzonym narzędziem, które może być wy-

korzystane do reprezentacji i przetwarzania wiedzy na temat obiektu, którego

dotyczy problem,

111



- techniki wykorzystujące w swoim działaniu zbiory rozmyte są adekwatne do re-

prezentacji i modelowania niepewności, niejednoznaczności, niejasności, jakie

mogą występować w przetwarzanych danych,

- teoria zbiorów rozmytych oraz teoria logiki rozmytej są doskonałymi narzę-

dziami do reprezentacji rozumowania człowieka na podstawie wiedzy w formie

reguł, w wyniku czego w niektórych dziedzinach przetwarzania obrazów, jak

np. rozpoznawanie obiektów, czy analiza sceny, zbiory rozmyte mogą być użyte

w celu wykorzystania wiedzy eksperta na temat rozwiązywanego zagadnienia.

5.2. Przetwarzanie obrazów z wykorzystaniem fuzzyfikacji

obrazu

Jeden z często stosowanych sposobów wykorzystania teorii zbiorów w przetwa-

rzaniu obrazów polega na zmianie dziedziny przetwarzanych obrazów do dziedziny

zbiorów rozmytych i wykonywaniu działań na reprezentacjach obrazów w dziedzi-

nie zbiorów rozmytych. W tym celu należy zdefiniować funkcję przynależności

zmiennych będących przedmiotem rozważań. W przypadku obrazów są to zazwy-

czaj pewne cechy pikseli, jak wartość ich jasności dla obrazów wyrażonych w skali

szarości lub ich kolor dla obrazów kolorowych. Znajomość funkcji przynależności

pozwala na ich opis w kategoriach zbiorów rozmytych. Operacja ta jest nazywana

fuzzyfikacją.

Jednym z najbardziej ogólnych problemów występujących w teorii zbiorów

rozmytych, jest dobór kształtu i parametrów funkcji przynależności. Problem ten

jest rozważany w wielu aspektach zastosowań zbiorów rozmytych i w literaturze

można znaleźć wiele propozycji różnych metod, których zadaniem jest określenie

postaci funkcji przynależności na podstawie przesłanek dotyczących rozważanych

danych [204, 205, 206, 207].

Problem wyboru kształtu funkcji przynależności był również rozważany w kon-

tekście możliwości zastosowania zbiorów rozmytych w algorytmach przetwarzania

obrazów [208]. W przypadku próby zastosowania teorii zbiorów rozmytych w prze-

twarzaniu obrazów zazwyczaj definiowana jest funkcja przynależności pikseli do

pewnego określonego zbioru rozmytego, zdefiniowanego na podstawie pewnej ce-

chy pikseli lub całego obrazu. Znajomość funkcji przynależności pikseli obrazu

pozwala na przeprowadzenie ich fuzzyfikacji oraz wykonywanie działań na ich

112



reprezentacji w dziedzinie zbiorów rozmytych oraz wykorzystanie teorii zbiorów

rozmytych na etapie przetwarzania obrazów.

Ogólny schemat przetwarzania obrazów wykorzystujący fuzzyfikację i teorię

zbiorów rozmytych został przedstawiony na rys. 5.1

Pt ♣ Pt ③ r②t② Pt ♣

② ③ r②t②

♣t ♣ ②

③ r②t② r②t

❲ ♣t

Rys. 5.1. Ogólny schemat przetwarzania obrazów wykorzystujący fuzzyfikacjęi teorię zbiorów rozmytych

5.2.1. Metody fuzzyfikacji wykorzystywane w przetwarzaniu obrazów

Jedną z najczęściej stosowanych metod fuzzyfikacji obrazu jest jego opis w ka-

tegoriach zbiorów rozmytych z wykorzystaniem funkcji przynależności typu sin-

gleton rozmyty (por. p. 4.1.3). W metodzie tej zakłada się, że obraz I składający

się z M × N pikseli pi j , i = 0, . . . ,M − 1, j = 0, . . . ,N − 1, z których każdy może

przybierać L poziomów szarości ponumerowanych od 0 do L − 1, jest traktowany

jako macierz singletonów rozmytych o postaci(

Ii j , µA(

Ii j

))

, gdzie Ii j jest pozio-

mem szarości piksela pi j , zaś µA(

Ii j

)

jest wartością funkcji przynależności po-

ziomu szarości Ii j tego piksela, określającą stopień jego przynależności do zbioru

rozmytego określonego na podstawie pewnej cechy obrazu, np. „jasność piksela”,

113



„przynależność piksela do krawędzi”, „przynależność piksela do pewnego obiektu

w obrazie”, itp. Reprezentacja macierzy singletonów rozmytych ma postać:

µI =

µA (I00) · · · µA (I0N−1)...

. . ....

µA (IM−10) · · · µA (IM−1N−1)

(5.1)

Można zatem powiedzieć, że w metodzie fuzzyfikacji za pomocą funkcji sin-

gleton rozmyty każdy piksel pi j jest fuzzyfikowany oddzielnie, przy czym spo-

śród przestrzeni poziomów szarości tylko poziomowi szarości Ii j tego piksela jest

przypisywana niezerowa wartość funkcji przynależności, podczas gdy wartość tej

funkcji dla pozostałych poziomów szarości są zerowe. Najprostsza tego typu fuz-

zyfikacja obrazu jest dokonywana na podstawie cechy jasności pikseli, tzn. zbiór

rozmyty będzie określany jako „zbiór pikseli białych”.

Z reguły wartości funkcji przynależności są, zgodnie z podstawową definicją

4.1, normowane do przedziału [0, 1]. W przypadku fuzzyfikacji obrazów wygodnie

jest niekiedy przeskalować ten przedział na przedział numerów poziomów jasności

[0, L − 1] i stopień przynależności danego piksela (np. do zbioru rozmytego „pik-

sele białe”) wyrażać bezpośrednio jako numer poziomu jego jasności [209, 210,

211].

W [212] zaproponowana została metoda znajdowania funkcji przynależności

z wykorzystaniem histogramu obrazu. W proponowanym algorytmie wartości ja-

sności pikseli przypisywane są do pewnej liczby abstrakcyjnie określonych klas.

Przynależność piksela do danej klasy określana jest przez wartość funkcji przyna-

leżności o kształcie trapezowym, będącym prostym rozszerzeniem funkcji klasy t

(por. p. 4.1.3). W początkowym kroku algorytmu znajdowania funkcji przynależ-

ności cały przedział wartości jasności pikseli, dla których wyznaczony został histo-

gram obrazu, dzielony jest na przedziały, na których definiowane są funkcje przy-

należności o początkowym, standardowym, symetrycznym na danym przedziale

kształcie trapezowym. Końcowy kształt funkcji przynależności określający przyna-

leżność piksela do pewnej klasy na podstawie jego wartości jasności określany jest

przez dobór parametrów opisujących trapezową funkcję przynależności. Parametry

te są dobierane w efekcie przeprowadzenia algorytmu minimalizacji odległości eu-

klidesowej między wartościami funkcji przynależności dla danej klasy określonej

114



na danym przedziale jasności i jej odległością od wartości histogramu przyjmo-

wanego przez wartości jasności pikseli obrazu na tym przedziale. Po otrzymaniu

ostatecznych kształtów funkcji przynależności dla klas, pikselom o określonych

wartościach jasności przypisywane są wartości funkcji przynależności do klasy

przez nią określonej. Wadą proponowanego rozwiązania jest wstępne określenie

liczby klas, do których zaliczamy piksele obrazu, jak również wykorzystanie al-

gorytmu optymalizacji w celu znalezienia minimalnej odległości poszukiwanych

funkcji przynależności od histogramu obrazu.

Inną metodą stosowaną do określenia funkcji przynależności jasności pikseli

obrazu jest wykorzystanie rozmytych algorytmów grupowania [213]. Jedna z pro-

pozycji wykorzystania rozmytego algorytmu grupowania c-średnich FCM (ang.

Fuzzy c-Means) została przedstawiona w [214]. Autorzy w celu wyznaczenia war-

tości funkcji przynależności pikseli do pewnych klas wykorzystali obraz kolorowy

reprezentowany w przestrzeni HSV (ang. Hue Saturation Value). Wykonanie algo-

rytmu rozmytego algorytmu grupowania na pikselach obrazu pozwoliło na uzyska-

nie wartości ich przynależności do pewnych abstrakcyjnych grup. W wyniku dzia-

łania algorytmu FCM otrzymywane są funkcje przynależności zbliżone kształtem

do funkcji gaussowskich (por. p. 4.1.3), które mogą posłużyć do przypisania pikseli

o określonych wartościach koloru przedstawionego w przestrzeni HSV do pewnych

klas. Wadą algorytmu jest konieczność określenia liczby klas, na które dzielone są

piksele oraz znaczna złożoność algorytmu rozmytego grupowania c-średnich.

W literaturze można także znaleźć rozwiązania opierające się na przekształ-

ceniu rozkładów prawdopodobieństwa do rozkładu możliwości, który następnie

wykorzystywany jest w celu określenia przynależności pikseli o określonych war-

tościach jasności do pewnej klasy [215]. Inne propozycje rozwiązań znajdowania

funkcji przynależności polegają na optymalizacji zadanej funkcji celu [216, 217].

5.3. Zastosowanie zbiorów rozmytych w problemie


Pomimo bardzo dużego zainteresowania problemem dopasowania pary stereo-

skopowej wśród badaczy zajmujących się komputerowym przetwarzaniem obra-

zów, w literaturze nie ma zbyt wielu propozycji rozwiązań wykorzystujących do

tego celu teorię zbiorów rozmytych lub teorię logiki rozmytej. W tym punkcie do-

115



konany zostanie krótki przegląd dostępnych publikacji, do jakich udało się autorowi

dotrzeć podczas studiów literaturowych. Propozycje własne autora przedstawione

zostaną w kolejnych punktach tego rozdziału.

5.3.1. Zastosowanie zbiorów rozmytych w algorytmach dopasowania

obszarami

W przypadku zastosowania teorii zbiorów rozmytych w algorytmach dopaso-

wania obszarami istnieją dwa główne podejścia do rozwiązania tego zagadnienia.

Pierwszym z nich jest fuzzyfikacja obrazu. Na obrazach poddanych algorytmowi

fuzzyfikacji można wykonywać operacje z wykorzystaniem elementów teorii zbio-

rów rozmytych lub logiki rozmytej. Drugim z podejść jest wykorzystanie elemen-

tów teorii zbiorów rozmytych w celu opracowania odpowiednich miar dopasowa-

nia.

Przykładem algorytmu wykorzystującego przejście z opisem obrazów do dzie-

dziny zbiorów rozmytych i obliczanie podobieństwa w dziedzinie zbiorów rozmy-

tych jest algorytm podany w [218]. Obliczanie funkcji przynależności pikseli ob-

razów wykonywane jest lokalnie w danym oknie za pomocą funkcji gaussowskiej

(por. p.4.1.3) z lokalnie wyznaczanymi parametrami ją opisującymi, którymi są:

wartość średnia i wariancja wartości jasności pikseli w oknie referencyjnym.

Algorytm ten działa zgodnie z ogólną zasadą algorytmu dopasowania obsza-

rami (por. p. 3.1). Dla każdego położenia okna referencyjnego Wi j

re fi każdego

położenia okna przeszukiwania Wi jsz (zakładamy okna kwadratowe o rozmiarach

Nw × Nw), umieszczonych na pozycji (i, j), i = 0, . . . ,M − 1, j = 0, . . . ,N − 1,

gdzie M i N są rozmiarami obrazów, dokonywana jest fuzzyfikacja jasności pikseli

zawartych w tych oknach. Fuzzyfikacja jest przeprowadzona na podstawie gaussow-

skich funkcji przynależności µi j

re fi µi j

sz o wartościach oczekiwanych i wartościach

wariancji obliczonych indywidualnie dla obu okien jako wartość średnia i wariancja

wszystkich pikseli zawierających się w danym oknie położonym na pozycji (i, j).

W efekcie fuzzyfikacji otrzymuje się dwie macierze µre f i µsz, których elementami

są funkcje przynależności µi j

re fi µi j

sz otrzymane na podstawie fuzzyfikacji jasności

pikseli zawartych w oknach Wi j

re fi odpowiednio W

i jsz .

Z kolei na podstawie macierzy µre f i µsz dla każdej pary indeksów i, j, i =

0, . . . ,M − 1 , j = 0, . . . ,N − 1, obliczane są macierze Ri j o rozmiarach Nw × Nw

116



i o elementach:

Ri j

kl=

min

µi j

re f(k, l) , µi j

sz (k, l)

max

µi j

re f(k, l) , µi j

sz (k, l) , (5.2)

gdzie µi j

re f(k, l) i µi j

sz (k, l) są wartościami rozmytymi przypisanymi poszczególnym

pikselom zawartymi odpowiednio w oknie referencyjnym i oknie przeszukiwania,

k, l = 1, . . . ,Nw. Operacje min oraz max w wzorze (5.2) oznaczają, że spośród

dwóch elementów zbioru ·, · wybierany jest element o mniejszej i odpowiednio

większej wartości. We wprowadzonych wielkościach nie występuje w formie jaw-

nej zależność aktualnych wartości dysparcyji piskeli od położenia okna przeszuki-

wania. Zależność ta jednak oczywiście istnieje i jest uwzględniana zgodnie z ogól-

ną zasadą działania algorytmów dopasowania obszarami (por. p. 3.1).

Wartości macierzy Ri j , i = 0, . . . ,M − 1, j = 0, . . . ,N − 1, służą następ-

nie do wyznaczania podobieństwa między wartościami jasności pikseli zawartych

w oknach referencyjnym Wi j

re fi przeszukiwania W

i jsz położonymi na pozycji (i, j),

wyrażonymi w dziedzinie zbiorów rozmytych, tzn. określonymi przez wyznaczone

wcześniej lokalne gaussowskie funkcje przynależności µi j

re fi µi j

sz. Za miarę podo-

bieństwa wartości jasności pikseli w oknach referencyjnym i przeszukiwania na

pozycji (i, j) przyjęto unormowaną sumę:

Si j =1

N2w

Nw∑

k=1

Nw∑

l=1

ri j

kl(5.3)

Jako wynikową wartość dysparycji wybierana jest ta wartość, dla której miara miara

Si j określona wzorem (5.3) przyjmuje wartość maksymalną.

W [218] zaproponowana została również dodatkowa wersja algorytmu z lokal-

ną fuzzyfikacją jasności pikseli za pomocą gaussowskiej funkcji przynależności,

ale z odmienną niż (5.3) miarą podobieństwa. W tej wersji algorytmu w macie-

rzy (5.2) znajdowane są elementy o wartościach większych od pewnych arbitral-

nie ustalonych progów αm, gdzie m jest numerem progu. Dla ustalonej wartości

progu αm wybierane są te wartości jasności pikseli należących do okna referencyj-

nego Wi j

re fi okna przeszukiwania W

i jsz , dla których rozmyte wartości elementów

macierzy Ri j przekraczają ten próg. Dla tych wartości jasności pikseli obliczana

jest znormalizowana korelacja wzajemna ZNCC. Wartość tej miary dla progu αm

oznaczana jest jako ρi jαm

. W zależności od przyjętej implementacji algorytmu miara

117



ta jest obliczana dla kilku lub kilkunastu wartości progów. Końcowa miara po-

dobieństwa między wartościami jasności pikseli zawartymi oknach referencyjnym

i przeszukiwania określona jest wyrażeniem:

S′ i j =

∑

mαmρ

i jαm

∑

mαm

(5.4)

Jako wartość dysparycji wybierana jest wartość, dla której miara (5.4) jest maksy-

malna.

Proponowane algorytmy algorytmy zawierają również dodatkowy krok spraw-

dzenia poprawności otrzymanej mapy dysparycji, wykonywany przez porównanie

wartości map dysparycji otrzymanych po zamianie rolami obrazu referencyjnego

i przeszukiwania. Autorzy [218] porównali dwa proponowane algorytmy z algoryt-

mem dopasowania obszarami wykorzystującym miarę NCC dla trzech par obrazów

testowych. Niestety porównanie to obejmowało tylko 20 wybranych pikseli z każ-

dego obrazu. Przedstawione wyniki pozwoliły autorom na sformułowanie wniosku,

że zaproponowane przez nich algorytmy pozwalają na osiągnięcie lepszych wyni-

ków, niż algorytm dopasowania obszarami wykorzystujący miarę NCC zastosowa-

ny bezpośrednio w dziedzinie jasności pikseli.

W algorytmie dopasowania obrazów pary stereoskopowej opisanym w [219]

autorzy przedstawili metodę wykorzystania całki rozmytej w algorytmie dopaso-

wania pary stereoskopowej. Zaproponowane zostało rozwiązanie problemu dopa-

sowania z wykorzystaniem obrazów kolorowych reprezentowanych w przestrzeni

barw RGB. W tym algorytmie dla każdego kanału koloru obrazów wykonywa-

ny jest niezależnie algorytm dopasowania obszarami. Jako miary dopasowania al-

gorytmu wykonywanego w każdym z kanałów opisu obrazu wykorzystane zosta-

ły: miara SSD, miara oparta o model rozkładu możliwości jasności pikseli oraz

miara oparta o wzajemne zawieranie się jasności piskeli w oknach referencyjnym

i przeszukiwania. Istotnym krokiem algorytmu jest agregacja wyników otrzyma-

nych w każdym z kanałów i podjęcie decyzji o istnieniu dopasowania. W jednym

przypadku jako całkowita miara dopasowania wykorzystana została suma wartości

miary dopasowania uzyskana w każdym z kanałów niezależnie. Autorzy porównali

sumę algebraiczną zastosowaną jako metodę agregracji wyników otrzymywanych

z poszczególnych kanałów z proponowaną metodą wykorzystującą całkę rozmytą.

118



W wyniku wykonanych eksperymentów przedstawiony został wniosek, że wyko-

rzystanie całki rozmytej jako metody agregacji wyników dopasowania z każdego

kanału pozwala na uzyskanie większej ilości poprawnie dopasownych pikseli, niż

w przypadku zastosowania sumy algebraicznej otrzymywanych wartości miary po-

dobieństwa jako metody agregacji wyników dopasowania z każdego kanału. Do-

datkowym wnioskiem, przedstawionym jako rezultat badań było stwierdzenie, że

wyniki uzyskiwane przez wykorzystanie całki rozmytej w celu agregacji wyników

otrzymanych z każdego kanału koloru niezależnie, silnie zależą od dobranych war-

tości parametrów całki rozmytej zastosowanej do agregacji wyników otrzymywa-

nych z poszczególnych kanałów.

Shamir [220] zaproponował algorytm rozwiązujący zagadnienie dopasowania

obrazów pary stereoskopowej oparty w pełni na schemacie wnioskowania rozmyte-

go. Zaproponowany algorytm działa w przestrzeni kolorów HSV, przeprowadzając

proces wnioskowania o podobieństwie pikseli obrazów na podstawie różnicy war-

tości między poszczególnymi elementami składowych HSV. Etap wnioskowania

przeprowadzany jest na podstawie 64 reguł według schematu: jeżeli – to. Przykła-

dowa reguła wnioskowania wykorzystana w algorytmie brzmi: jeżeli różnica mię-

dzy składową koloru H jest bardzo mała i różnica między składową koloru S jest

bardzo mała i różnica między składową koloru V jest bardzo mała, wtedy piksele są

takie same. Do wartości różnic przypisane zostały cztery zbiory rozmyte związa-

ne z wykorzystanymi na etapie wnioskowania określeniami lingwistycznymi: bar-

dzo mała, mała, średnia i duża. Dla każdego z tych zbiorów zdefiniowana została

funkcja przynależności kształtu trójkątnego umożliwiająca określenie przynależ-

ności różnic składowych HSV obliczanych w czasie wnioskowania do każdego ze

zdefiniowanych zbiorów rozmytych. Wniosek o podobieństwie pikseli i istnieniu

jednoznacznego dopasowania otrzymywany był za pomocą defuzzyfikacji wartości

zbioru rozmytego otrzymanego w wyniku przeprowadzonego wnioskowania.

Proponowany algorytm został przez autora przetestowany dla rzeczywistej pary

obrazów i przedstawione rezultaty przekonują do jego użyteczności. Jedyną nie-

korzystną cechą jest czas wykonania algorytmu, który dla obrazów o rozmiarze

320 × 240 pikseli oszacowany został na 42 godziny.

W [221] zaprezentowany został algorytm dopasowania obszarami, w którym

miara podobieństwa oparta została o rozmytą relację podobieństwa. W celu popra-

wienia uzyskiwanych wyników zastosowane zostały obrazy kolorowe. Dodatkowo,

119



aby uzyskać lepsze wyniki, autorzy zdecydowali się na obliczanie wartości dyspa-

rycji za pomocą piramidalnej dekompozycji obrazu.

Inna propozycja wykorzystania zbiorów rozmytych została przedstawiona przez

Hugesa [222]. W artykule zastosowane zostały filtry rozmyte umożliwiające popra-

wę otrzymanej mapy dysparycji. Pierwotny algorytm dopasowania wykorzystywał

miarę SSD do otrzymania mapy dysparycji, natomiast filtry wykorzystujące ele-

menty teorii zbiorów rozmytych zostały użyte do poprawienia jej jakości.

5.3.2. Teoria zbiorów rozmytych w algorytmach dopasowania

cechami

W przypadku zastosowań teorii zbiorów rozmytych w algorytmach dopasowa-

nia miejsc charakterystycznych logika rozmyta stosowana jest w celu poprawienia

jakości detektorów oraz konstruowania miary dopasowania.

Autorzy artykułu [223] wykorzystali zbiory rozmyte na etapie detekcji linii pro-

stych, konstruując w tym celu wieloetapowy algorytm. W pierwszym kroku na ob-

razach wykrywane są krawędzie za pomocą detektora Sobela. W efekcie działania

detektora Sobela otrzymywane są obrazy krawędziowe zawierające piksele, których

wartości określają przynależność piksela obrazu oryginalnego do krawędzi w ob-

razie. Wynikowe obrazy krawędziowe zostają poddane algorytmowi tłumienia nie

maksymalnych wartości pikseli określających położenie krawędzi w obrazie orygi-

nalnym, a pozostałe piksele określające położenie krawędzi zostają pogrupowane

w odcinki liniowe. Tłumienie wartości nie maksymalnych (ang. non maximum sup-

pression) jest algorytmem wykorzystywanym w celu znalezienia lokalnych maksi-

mów leżących w pewnym określonym regionie obrazu [224]. Grupowanie pikseli

otrzymanych w wyniku działania algorytmu tłumienia wartości nie maksymalnych

odbywa się za pomocą regułowego systemu rozmytego. W podobny sposób prze-

biega etap dopasowania. Na etapie tym działa system wnioskowania rozmytego,

w którym za pomocą pięciu reguł porównywane jest podobieństwo wyszukanych

odcinków. Niestety autorzy przedstawili wyniki tylko jednego eksperymentu, na

podstawie którego trudno jest wnioskować o cechach algorytmu.

Inna propozycja wykorzystania zbiorów rozmytych w celu dopasowania krawę-

dzi zawartych w obrazie została przedstawiona w [225]. W opisanym tam algoryt-

mie wykorzystany został detektor krawędzi Canny’ego. W otrzymanych obrazach

krawędziowych usuwane są krawędzie poziome, natomiast pozostałe łączone są

120



w odcinki. Do każdego z wyznaczonych odcinków przypisywanych jest pięć atry-

butów: orientacja i wartość gradientu odcinka, średnia wartość jasności pikseli kra-

wędziowych na prawej i lewej części odcinka oraz podobieństwo dwóch sąsiednich

krawędzi. Wartości tych atrybutów zostają przekształcone za pomocą funkcji przy-

należności do dziedziny zbiorów rozmytych, w której wykonywane jest obliczenie

miary podobieństwa.

Dodatkowym krokiem algorytmu jest możliwość wykorzystania algorytmu ge-

netycznego, w celu interpolacji pozostałych wartości dysparycji. Przedstawione

rezultaty pokazały użyteczność proponowanego rozwiązania. Głównym aspektem

prezentowanych wyników była możliwość interpolacji wartości dysparycji.

Główną cechą propozycji, które udało się autorowi wyszukać w literaturze, jest

wykorzystanie jedynie niektórych elementów zbiorów rozmytych do rozwiązania

problemu dopasowania. Metody opracowane w niniejszej pracy pozwalają na pełne

rozwiązanie problemu dopasowania w dziedzinie zbiorów rozmytych i w dziedzi-

nie zbiorów IFS. W dalszych punktach pracy przedstawione zostaną metody umoż-

liwiające opis obrazu zarówno w dziedzinie zbiorów rozmytych jak i w dziedzinie

zbiorów IFS. Przedstawione zostaną również algorytmy umożliwiające rozwiąza-

nie problemu dopasowania pary stereoskopowej w obu dziedzinach zbiorów.

Innym aspektem, który zostanie przedstawiony w dalszych punktach pracy, bar-

dziej zgodnym z przedstawionymi propozycjami jest algorytm dopasowania cecha-

mi. W tym algorytmie, podobnie jak w większości przedstawionych algorytmów,

wykorzystany został tylko jeden z elementów pochodzący z teorii zbiorów roz-

mytych, umożliwiający poprawę otrzymywanych wyników algorytmu dopasowania

cechami pary stereoskopowej.

5.4. Proponowany algorytm znajdowania funkcji

przynależności

Autor pracy zaproponował metodę określania funkcji przynależności pikseli

obrazów opisanych w skali szarości, która może być wykorzystana w ogólnych al-

gorytmach przetwarzania obrazów. W pracy metoda ta została wykorzystana do

rozwiązania zadania dopasowania obrazów pary stereoskopowej w dziedzinie zbio-

rów rozmytych. Polega ona na poszukiwaniu optimum funkcji celu konstruowanej

121



z wykorzystaniem przedstawionych wcześniej miar: entropii całkowitej i indeksu

rozmytości [18]. 1

Miary te umożliwiają konstrukcję funkcji celu, która następnie zostaje wyko-

rzystana do znalezienia funkcja przynależności umożliwiającej fuzzyfikację pikse-

li obrazu. Po określeniu funkcji celu problem znalezienia funkcji przynależności

zostaje sformułowany jako problem optymalizacyjny poszukiwania jej optymal-

nej wartości. Celem postawionego zadania optymalizacyjnego jest znalezienie ta-

kiej postaci funkcji przynależności, która zawierałaby maksymalną ilość informacji

o obrazie. Kryterium optymalizacyjne jest w tym przypadku formułowane na pod-

stawie miary entropii całkowitej. Biorąc pod uwagę że entropia jest miarą informa-

cji, można powiedzieć że funkcja przynależności charakteryzująca się maksymalną

entropią jest najlepszą funkcją z informacyjnego punktu widzenia.

Z drugiej jednak strony poszukiwana funkcja przynależności powinna w dużym

stopniu wykorzystywać zalety teorii zbiorów rozmytych umożliwiających uwzględ-

nienie niepewności co do wartości jasności pikseli zawartych w obrazie. Powinna

ona zatem przypisywać wartości jasności pikseli w możliwie arbitralny sposób.

W tym celu zaproponowane zostało wykorzystanie indeksu rozmytości jako mia-

ry, która mówi o rozmytości otrzymanej funkcji przynależności. Aby znaleziona

funkcja przynależności umożliwiała fuzzyfikację danych w stopniu umożliwiają-

cym uwzględnienie niepewności przynależności jasności piksela do określonego

zbioru, należy znaleźć taką jej postać, dla której indeks rozmytości osiąga wartość

maksymalną.

Stąd problem stawiany jest jako problem znalezienia funkcji, która optymal-

nie opisuje zbiór ze względu na miarę entropii oraz indeks rozmytości. Względem

zastosowanych miar będzie to najlepsza funkcja umożliwiająca wykonanie fuzzy-

fikacji obrazu.

5.4.1. Wybór kształtu funkcji przynależności

W celu określenia funkcji przynależności należy ustalić zbiór, do którego przy-

należność będzie ona opisywała. W proponowanym algorytmie przyjęte zostało za-

łożenie, że poszukiwana funkcja przynależności będzie opisywała przynależność

1 Autor wykorzystał również proponowaną metodę znajdowania funkcji przynależności i ele-menty teorii zbiorów rozmytych do modelowania rozkazów dotyczących przetwarzania obrazów wy-rażonych w języku naturalnym [18]. Temat ten jednak, jako nie mający związku z tezą przedstawianejpracy, nie jest w niej poruszany.

122



pikseli obrazu do zbioru „białych pikseli”. Do opisania przynależności do takiego

zbioru wybrana została funkcja przynależności reprezentowana przez S-funkcję,

oryginalnie wprowadzona przez Zadeha [226].

W literaturze istnieje kilka odmian S-funkcji (jedna z nich była np. już przedsta-

wiona w p. 4.1.3), spośród których w pracy wykorzystana została S-funkcja o po-

staci [217]:

S (x; aS, bS, cS) =

0, x 6 aS

(x − aS)2

(bS − aS) (cS − aS) , aS < x 6 bS

1 − (x − cS)2

(cS − bS) (cS − aS) , bS < x 6 cS

1, x > cS

(5.5)

gdzie x jest zmienną, natomiast parametry aS, bS oraz cS determinują dokładny

przebieg S-funkcji. W odróżnieniu do funkcji opisanej wyrażeniem (4.5), w de-

finicji tej parametr bS może być dowolnym punktem między aS i cS, co znacznie

ułatwia zadanie dopasowania jej przebiegu według proponowanej funkcji celu.

W pracy rozważane są obrazy wyrażone w skali szarości, a więc takie, któ-

rych wartości jasności pikseli są liczbami całkowitymi z przedziału [0, 255]. Kształ

S-funkcji modeluje w naturalny sposób przynależność pikseli wyrażonych w skali

szarości do zbioru białych pikseli. Jeżeli wartość piksela wyrażona w skali szaro-

ści będzie równa 255 (biały piksel), to funkcja przynależności będzie przyjmowała

wartość 1. W przypadku wartości jasności piksela równej 0 (czarny piksel) war-

tość funkcji przynależności jest równa 0. Oznacza to, że piksel o wartości jasności

równej 0 (czarny piksel) nie należy do zbioru białych pikseli.

Cały pozostały zakres wartości jakie przybierają jasności pikseli zostanie przy-

pisany do zbioru białych pikseli w sposób tylko częściowy. Dobór parametrów aS,

bS i cS pozwala na swobodne kształtowanie przebiegu krzywej określającej funkcję

przynależności, a tym samym stopień przynależności piksela o określonej wartości

jasności do zbioru białych pikseli. Wartości parametrów aS, bS i cS mogą przybierać

dowolne wartości z przedziału [0, 255] na skali szarości.

Przykładowe kształty S-funkcji dla różnych wartości parametrów ją opisują-

cych przedstawione zostały na rys. 5.2.

Po przyjęciu założenia, że funkcja przynależności jest S-funkcją opisaną przez

wyrażenie (5.5), poszukiwanym rozwiązaniem jest zbiór optymalnych parametrów

123



x

µAF (x)

0 32 64 96 128 160 192 224 2560

14

12

34

1

aS = 0bS = 63.5cS = 127.5

x

µAF (x)

0 32 64 96 128 160 192 224 2560

14

12

34

1

aS = 0bS = 127.5cS = 255

x

µAF (x)

0 32 64 96 128 160 192 224 2560

14

12

34

1

aS = 63.5bS = 191cS = 255

x

µAF (x)

0 32 64 96 128 160 192 224 2560

14

12

34

1

aS = 127.5bS = 191cS = 255

Rys. 5.2. Kształty S-funkcji dla różnych zestawów parametrów aS, bS i cS

aS, bS i cS, dla którego poszukiwana S-funkcja będzie osiągała warunki maksymal-

nej entropii oraz maksymalnej wartości indeksu rozmytości.

5.4.2. Indeks rozmytości określony dla obrazu

W celu wykorzystania indeksu rozmytości do wyznaczenia optymalnych para-

metrów aS, bS, cS założonej funkcji przynależności typu S należy jego ogólną defi-

nicję (4.15) zmodyfikować w sposób umożliwiający zastosowanie go do rozpatry-

wanego zagadnienia dopasowania pary stereoskopowej obrazów. W pracy przyjęto

liniową wersję indeksu rozmytości (4.19), która zostanie zmodyfikowana następu-

jąco.

Niech I będzie obrazem o rozmiarze M ×N pikseli. Założymy, że poszczegól-

ne piksele p należące do obrazu przybierają poziomy szarości Ip reprezentowane

liczbami całkowitymi na całkowitoliczbowej skali szarości od 0 do Imax. Dla ob-

razu I wyznaczamy jego histogram przez zliczenie wszystkich pikseli o kolejnych

poziomach szarości Ip ∈ [0, Imax]. Wartości tego histogramu oznaczymy g(Ip). Za-

łożymy dalej, że dla obrazu I jest określona jego funkcja przynależności µA(Ip)

określająca na podstawie jego poziomu szarości Ip stopień przynależności pikse-

la p do zbioru rozmytego pikseli białych. Liniowy indeks rozmytości tego zbioru

124



definiujemy wówczas wzorem:

γL

(

AF)

=2

MN

Imax∑

0

g(

Ip

)

·min[

µA(

Ip

)

, µA(

Ip

)]

(5.6)

gdzie µA(Ip) = 1− µA(Ip) jest funkcją przynależności piksela p o poziomie szaro-

ści Ip do dopełnienia zbioru rozmytego AF. Sumowanie w tym wzorze przebiega

po wszystkich poziomach szarości Ip z przedziału [0, Imax]. Jak już wspomniano

wcześniej, w pracy przyjęto, że przedział ten jest równy [0, 255].

5.4.3. Zagadnienie optymalizacyjne

Zagadnienie poszukiwania optymalnych parametrów aS, bS, cS funkcji przy-

należności typu S zostało rozwiązane przez autora jako zagadnienie optymalizacji

dwukryterialnej. Najpierw wyznaczane są optymalne wartości aHSopt, bH

Sopt, cHSopt ze

względu na kryterium maksymalnej entropii całkowitej Hc zdefiniowanej wzorem

(4.12):

Hc max

(

aHSopt, b

HSopt, c

HSopt

)

= maxaS ,bS ,cS

Hc (as, bS, cS) : 0 6 aS, bS, cS 6 Imax (5.7)

Następnie wyznaczane są optymalne wartości aγ

Sopt, bγ

Sopt, cγ

Sopt ze względu na kry-

terium maksimum indeksu rozmytości (5.6):

γL max

(

aγ

Sopt, bγ

Sopt, cγ

Sopt

)

= maxaS ,bS ,cS

γL (aS, bS, cS) : 0 6 aS, bS, cS 6 Imax (5.8)

W proponowanym algorytmie oba zadania optymalizacyjne rozwiązywane są

niezależnie. W wyniku otrzymywane są dwa zbiory rozwiązań opisujące dwie róż-

ne S-funkcje. Jako rozwiązanie końcowe wybierane jest rozwiązanie kompromi-

sowe między informacyjnością funkcji, a jej rozmytością. Kompromis ten jest za-

pewniony przez wybranie optymalnych wartości parametrów aS, bS, cS jako śred-

nich arytmetycznych wartości otrzymanych w wyniku rozwiązania każdego z zadań

optymalizacyjnych:

aSopt =aH

Sopt+aγ

Sopt

2 ,

bSopt =bH

Sopt+bγ

Sopt

2 ,

cSopt =cH

Sopt+cγ

Sopt

2 .

(5.9)

125



Można uznać, że S-funkcja określona przez ten zbiór parametrów zapewni wła-

ściwy wybór pomiędzy informacyjnością zbioru rozmytego „białe piksele”, a jego

rozmytością. Przyjęcie tego rozwiązania ma oczywiści charakter arbitralny i możli-

we jest rozważanie innego operatora służącego do złożenia otrzymanych rozwiązań

cząstkowych, np. sumy ważonej lub średniej geometrycznej.

Pełne rozwiązanie problemu znalezienia optymalnego zbioru parametrów funk-

cji przynależności uzyskuje się w wyniku rozwiązania problemu optymalizacyjne-

go z równoczesnym uwzględnieniem obydwu kryteriów. Zwiększa to jednak zde-

cydowanie trudność rozwiązania problemu optymalizacji i z tego względu zagad-

nienie to nie zostało podjęte na tym etapie badań.

W pracy jako algorytm optymalizacji służący do znalezienia rozwiązania opty-

malizacyjnego zastosowany został algorytm optymalizacji rojem cząstek znany ja-

ko algorytm PSO (ang. Particle Swarm Optimization) [227]. Algorytm ten oparty

jest o stochastyczny ruch cząstek w przestrzeni poszukiwania rozwiązania, w efek-

cie czego nie gwarantuje uzyskania w pełni optymalnego rozwiązania. Dokładność

uzyskiwanego rozwiązania zależna jest od zastosowanego kryterium zatrzymania

algorytmu. Jego zaletą jest jednak szybkość przeszukiwania przestrzeni rozwiązań

i przy zastosowaniu dobrze dobranego kryterium zatrzymania algorytmu pozwala

on na uzyskiwanie dokładnych rozwiązań.

Przedstawiony schemat wyznaczania funkcji przynależności pikseli obrazu do

zbioru „białych pikseli” został wykorzystany w celu fuzzyfikacji obrazów, tj. znale-

zienia reprezentacji obrazów pary stereoskopowej w dziedzinie zbiorów rozmytych

i rozwiązania problemu dopasowania w tej dziedzinie. Algorytm ten ma postać:

126



Algorytm 5.1 Fuzzyfikacja obrazu

Dane wejściowe: Obraz I o rozmiarze M × N pikseli, których wartości jasnościIp są reprezentowane w przyjętej całkowitoliczbowej skali szarości [0, Imax].

Dane wejściowe: Początkowe wartości parametrów S-funkcji aS = 0, bS = 0,cS = 0

1: Oblicz histogram g(

Ip

)

obrazu I

2: Na podstawie histogramu g(

Ip

)

oblicz względne częstości ν(

Ip

)

=

g(

Ip

)

/ (M · N) występowania w obrazie pikseli o kolejnych wartościach jasno-ści Ip.

3: Oblicz początkową wartość entropii całkowitej wg. wzoru (4.12)4: Oblicz początkową wartość liniowego indeksu rozmytości wg. wzoru (5.6)5: Znajdź zbiór parametrów opisujących S-funkcję optymalny ze względu na kry-

terium (5.7)6: Znajdź zbiór parametrów opisujących S-funkcję optymalny ze względu na kry-

terium (5.8)7: Wyznacz końcowe, optymalne wartości parametrów S-funkcji, zgodnie ze

wzorem (5.9)8: for i = 1 to M do

9: for j = 1 to N do

10: Dla każdego piksela p położonego na pozycji o współrzędnych (i, j),o wartości jasności Ip (i, j), znajdź wartość µA

[

Ip (i, j)]

jego funkcjiprzynależności do zbioru rozmytego białych pikseli na podstawie wy-znaczonej optymalnej S-funkcji: µA

(

Ip

)

= S(

Ip; aSopt, bSopt, cSopt

)

. Wy-

nik umieść na pozycji (i, j) macierzy IF =[

IF (i, j)]

zfuzzyfikowa-

nego obrazu IF , której elementy IF (i, j) są parami liczb: IF (i, j) =

(

Ip (i, j) ; µA[

Ip (i, j)])

, i = 1, . . . ,M, j = 1, . . . ,N .11: end for

12: end for

13: Zwróć: Macierz IF zfuzzyfikowanego obrazu IF .

127



5.4.4. Przykłady wyznaczonych funkcji przynależności

Działanie zaproponowanego sposobu wyznaczania funkcji przynależności zo-

stało sprawdzone w praktyce dla różnych obrazów testowych. Rys. 5.3 przedstawia

obrazy wraz z wyznaczonymi dla nich optymalnymi funkcjami przynależności.

Ze względu na niezależne rozwiązywanie zadania optymalizacji względem mia-

ry entropii i indeksu rozmytości, dla każdego z obrazów przedstawione zostały

trzy S-funkcje: o maksymalnej entropii, maksymalnym indeksie rozmytości oraz

o optymalnych wartościach parametrów uzyskanych jako średnie arytmetyczne pa-

rametrów maksymalizujących entropię całkowitą i indeks rozmytości.

(a)

Ip

0 32 64 96 128 160 192 224 2560

14

12

34

1

g(

Ip

)

µA(

Ip

)

µHA

(

Ip

)

µγ

A(

Ip

)

(b)

(c)

Ip

0 32 64 96 128 160 192 224 2560

14

12

34

1

g(

Ip

)

µA(

Ip

)

µHA

(

Ip

)

µγ

A(

Ip

)

(d)

Rys. 5.3. Przykłady wyznaczonych optymalnych funkcji przynależności dla róż-nych obrazów testowych

128



(e)

Ip

0 32 64 96 128 160 192 224 2560

14

12

34

1

g(

Ip

)

µA(

Ip

)

µHA

(

Ip

)

µγ

A(

Ip

)

(f)

Rys. 5.3. Kontynuacja. Przykłady wyznaczonych optymalnych funkcji przynależ-ności dla różnych obrazów testowych

Na rys. 5.3 widoczny jest duży wpływ miar entropii całkowitej i liniowego in-

deksu rozmytości na otrzymywany kształt S-funkcji. Kształty funkcji otrzymywa-

nych przez parametry obliczone w wyniku optymalizacji każdej z miar są znacząco

różne. Dobór wartości parametrów jako średnich arytmetycznych wartości otrzy-

manych w wyniku dwóch niezależnych przebiegów algorytmu optymalizacji po-

woduje, że S-funkcja opisana przez ten zbiór parametrów znajduje się w położeniu

pośrednim.

5.5. Dopasowanie obrazów pary stereoskopowej w dziedzinie

zbiorów rozmytych

W celu wykorzystania elementów teorii zbiorów rozmytych w problemie dopa-

sowania pary stereoskopowej obydwa obrazy pary zostają przekształcone do dzie-

dziny zbiorów rozmytych zgodnie z algorytmem 5.1. Po zamianie dziedziny opisu

obrazów można zastosować algorytm analogiczny do algorytmu 3.1 dopasowania

obszarami. Zasada działania algorytmu 3.1 pozostaje taka sama jak w przypadku

algorytmu działającego w dziedzinie jasności pikseli. Główna zmiana dotyczy kro-

ku obliczania podobieństwa, który w przypadku wykorzystania obrazów opisanych

w dziedzinie zbiorów rozmytych jest ustalany nie na podstawie wartości jasności

pikseli, tylko na podstawie ich reprezentacji w dziedzinie zbiorów rozmytych.

129



W celu wyznaczenia mapy dysparycji w dziedzinie zbiorów rozmytych zapro-

ponowany został algorytm. 5.2.

Algorytm 5.2 Dopasowanie obrazów w dziedzinie zbiorów rozmytych

Dane wejściowe: Obrazy pary stereoskopowej Ire f i Isz o rozmiarach M×N pikse-li, których wartości jasności są reprezentowane w przyjętej całkowitoliczbowejskali szarości [0, Imax].

Dane wejściowe: Założony przedział wartości dysparycji [dmin, dmax].1: Przeprowadź fuzzyfikację obrazów Ire f i Isz, znajdując ich reprezentacje

IFre f

i IFsz w dziedzinie zbiorów rozmytych zgodnie z algorytmem 5.1.

2: for i = 0 do M − 1 do

3: for j = 0 do N − 1 do

4: Ustaw okno referencyjne Wre f na pozycji (i, j) w zfuzzyfikowanym obra-zie referencyjnym I

Fre f

.5: for od d = dmin do dmax z krokiem ∆d do

6: Ustaw okno przeszukiwania Wsz na pozycji (i, j + d) w zfuzzzyfikowa-nym obrazie przeszukiwania IF

sz.7: Oblicz miarę podobieństwa η między wartościami funkcji przynależ-

ności pikseli w oknie referencyjnym Wre f i oknie przeszukiwania Wsz

i zapamiętaj wartość tej miary.8: if bieżąca wartość miary η jest większa niż poprzednio (lub mniejsza

– w zależności od przyjętej miary podobieństwa) then

9: Zapamiętaj wartość miary η oraz wyznaczoną wartość dysparycji dlapiksela położonego na pozycji (i, j).

10: Zapisz znalezioną wartość dysparycji na pozycji (i, j) w wynikowejmacierzy dysparycji d.

11: else

12: Zwiększ bieżącą wartość d o krok ∆d i oblicz wartość miary η dlapołożenia (i, j + d + ∆d) okna przeszukiwania Wsz.

13: end if

14: end for

15: end for

16: end for

17: Zwróć: Otrzymaną macierz dysparycji d jako znalezioną mapę dysparycji.

Jako miary podobieństwa wykorzystane do obliczania podobieństwa między

reprezentacjami piskeli w dziedzinie zbiorów rozmytych przyjęte zostały: unor-

mowana odległość Hamminga zbiorów rozmytych (4.23), unormowana odległość

euklidesowa (4.25) oraz korelacja zbiorów rozmytych (4.26).

Efektywność proponowanego algorytmu 5.2 została zweryfikowana dla testo-

130



wego zbioru par stereoskopowych w wyniku przeprowadzenia szeregu ekspery-

mentów. Otrzymane wyniki wraz z ich analizą oraz porównaniem z wynikami osią-

ganymi przez najbliższe ideowo algorytmy działające bezpośrednio w dziedzinie

jasności pikseli przedstawione zostaną w rodziale 7 pracy.

5.6. Przetwarzanie obrazów opisanych w dziedzinie

intuicjonistycznych zbiorów rozmytych

Metody przetwarzania obrazów, w których wykorzystuje się elementy teorii

zbiorów IFS wymagają reprezentacji obrazów w dziedzinie IFS. Dysponując obra-

zami reprezentowanymi w dziedzinie zbiorów IFS, można do ich przetwarzania za-

stosować elementy teorii IFS. Działania wykonywane są nie w przestrzeni pikseli,

ale na ich odpowiednich reprezentacjach w dziedzinie IFS. W dalszej części przed-

stawiona zostanie proponowana metoda umożliwiająca zmianę opisu obrazów re-

prezentowanych w dziedzinie jasności pikseli na ich opis w dziedzinie zbiorów

IFS. Metoda ta zostanie dalej wykorzystana do rozwiązania zadania dopasowania

obrazów pary stereoskopowej w dziedzinie zbiorów IFS.

Aby można było opisać obraz w dziedzinie zbiorów IFS, należy znać postać

funkcji przynależności oraz nieprzynależności piksela do pewnego zbioru IFS. W ce-

lu wyznaczania funkcji przynależności do zbioru „białych pikseli” można wyko-

rzystać zaproponowany przez autora algorytm znajdowania funkcji przynależności

przez optymalny dobór kształtu S-funkcji (algorytm 5.1).

Do pełnego opisu obrazu w dziedzinie zbiorów IFS potrzebna jest jednak zna-

jomość dwóch funkcji: funkcji przynależności i funkcji nieprzynależności. Można

jednak bardzo łatwo znaleźć opis obrazu w dziedzinie zbiorów IFS, jeżeli znana jest

jedna z tych funkcji i określony dla niej indeks zaufania πAIFS (por. definicję 4.5).

Proponowana metoda postępowania pozwala na znalezienie kształtu optymalnej

S-funkcji i wartości indeksu zaufania πAIFS jako drugiego elementu umożliwiają-

cego opis obrazu w dziedzinie IFS. Dysponując znajomością funkcji przynależno-

ści oraz indeksem zaufania, można uzupełnić opis o funkcję nieprzynależności na

podstawie wzoru (4.36).

131



5.6.1. Określanie indeksu zaufania

Algorytm wyznaczania funkcji przynależności o optymalnie dobranych para-

metrach S-funkcji wykorzystuje w swoim działaniu histogram wartości jasności

wszystkich pikseli obrazu. Jednakże, głównie z powodu kwantyzacji przeprowa-

dzanej w czasie akwizycji obrazu cyfrowego, wartości jasności mogą być obarczo-

ne błędami powstającymi w czasie tego procesu. Na przykład, piksel odpowiadają-

cy poziomowi szarości Ip w wynikowym obrazie mógł mieć w istocie inną wartość,

która została zaburzona w czasie procesu kwantowania wartości jasności. W celu

eliminacji tego rodzaju niepewności zawartej w obrazach została zaproponowa-

na koncepcja histogramu rozmytego [228]. W takim przypadku wartości jasności

pikseli obrazu reprezentowanego w skali szarości traktowane są jako liczby rozmy-

te. Pozwala to na uwzględnienie niepewności powstających w wyniku kwantyzacji

wartości jasności pikseli oraz obliczenie histogramu w dziedzinie zbiorów rozmy-

tych.

W celu obliczenia histogramu rozmytego obrazu, wykorzystywana jest repre-

zentacja jasności pikseli obrazu za pomocą liczb rozmytych. Liczbą rozmytą :

R → [0, 1] nazywany jest zbiór rozmyty określony na dziedzinie liczb rzeczywi-

stych, który jest zbiorem normalnym i wypukłym. Normalny zbiór rozmyty to taki,

którego funkcja przynależności przyjmuje wartość równą 1 co najmniej dla jednej

wartości argumentu.

W pracy w celu obliczenia histogramu rozmytego wykorzystane zostały rozmy-

te symetryczne liczby trójkątne, pozwalające na liczbową reprezentację koncepcji,

według której określony poziom jasności piksela jest „w przybliżeniu równy Ip”.

Trójkątne liczby rozmyte opisywane są funkcją przynależności zdefiniowaną wzo-

rem:

µ∆ (x) = max

(

0, 1 −|x − Ip|α

)

(5.10)

gdzie parametr α będący wartością stałą, ustala nośnik liczby rozmytej, czyli za-

kres wartości zmiennej x, dla którego wartości funkcji przynależności µ (x) są

różne od zera. W przypadku zwiększania wartości parametru α wartości funkcji

przynależności µ są różne od zera w szerszym zakresie zmian jasności pikseli Ip

znajdujących się w rozważanym obrazie I.

Do każdej wartości jasności piksela Ip rozważanego obrazu I o rozmiarze M na

N pikseli może być przypisana liczba rozmyta kształtu trójkątnego. Wykorzystu-

132



jąc te liczby, można zdefiniować rozmyty histogram obrazu gF(

Ip

)

określony dla

kolejnych poziomów jasności pikseli w obrazie Ip ∈ 0, . . . , Imax wzorem [228]:

gF(

Ip

)

=

∥

∥

∥

∥

(i, j) | µ(

Ip (i, j))

; i = 1, . . . ,M, j = 1, . . . ,N

∥

∥

∥

∥

(5.11)

gdzie ‖ · ‖ jest mocą zbioru rozmytego∥

∥

∥AF∥

∥

∥ =∑

i, j µ(

Ip (i, j))

.

Wartości histogramu rozmytego gF(

Ip

)

określone dla konkretnych wartości ja-

sności pikseli Ip w obrazie reprezentują częstości występowania w obrazie pikseli

o wartości jasności „w przybliżeniu równych Ip”.

Błędy powstające w czasie kwantyzacji wartości jasności pikseli mogą być okre-

ślone dla całego rozważanego obrazu I przez porównanie i obliczenie różnicy mię-

dzy histogramem g(

Ip

)

obliczonym na podstawie wartości jasności pikseli nie za-

wierających modelu tego błędu oraz histogramem rozmytym gF(

Ip

)

obliczonym

z wykorzystaniem liczb rozmytych, w którym błąd ten został uwzględniony.

W dziedzinie zbiorów IFS modelem zaufania do wartości funkcji przynależ-

ności, przypisującej danemu elementowi stopień przynależności do pewnego zbio-

ru, jest dodatkowy składnik opisu tych zbiorów nazywany indeksem zaufania (por.

wzór (4.36)). W pracy [229] zaproponowano aby indeks zaufania, określany w cza-

sie fuzzyfikacji obrazów umożliwiającej ich opis w dziedzinie zbiorów IFS, był

proporcjonalny do znormalizowanej różnicy między wartościami znormalizowa-

nego histogramu obliczonego na podstawie wartości jasności pikseli a wartościa-

mi znormalizowanego histogramu rozmytego obliczonego z wykorzystaniem liczb

rozmytych:

πAIFS

(

Ip

)

∝

∣

∣

∣

∣

g(

Ip

)

− gF(

Ip

)

∣

∣

∣

∣

maxIp

∣

∣

∣

∣

g(

Ip

)

− gF(

Ip

)

∣

∣

∣

∣

(5.12)

gdzie g(

Ip

)

i gF(

Ip

)

są odpowiednio znormalizowanymi histogramami klasycznym

i rozmytym, natomiast ∝ jest symbolem proporcjonalności.

Normalizacja histogramów przebiega w taki sposób, aby mogły być one inter-

pretowane jako aproksymacje funkcji gęstości prawdopodobieństwa wystąpienia

jasności pikseli Ip w rozważanym obrazie I:

g(

Ip

)

=g(

Ip

)

∑ImaxI0

g(

Ip

) gF(

Ip

)

=gF

(

Ip

)

∑ImaxI0

gF(

Ip

) (5.13)

133



Wartość maksymalna indeksu zaufania πmaxAIFS

(

Ip

)

dla określonego poziomu Ip

szarości jest określana przez przyjęcie wartości νAIFS

(

Ip

)

= 0 we wzorze (4.35).

Z tego względu zachodzi zależność:

πmaxAIFS

(

Ip

)

= 1 − µAIFS

(

Ip

)

(5.14)

Oznacza to, że poddając fuzzyfikacji określoną wartość jasności piksela Ip najwięk-

sza niepewność istnieje w przypadku, gdy znana jest tylko wartość funkcji przy-

należności do zbioru rozmytego µAIFS

(

Ip

)

. W przypadku, gdy do fuzzyfikowanej

wartości jasności piksela Ip można przypisać również wartość funkcji nieprzyna-

leżności νAIFS

(

Ip

)

, na mocy wyrażenia (4.35) indeks zaufania przyjmuje mniejszą

wartość. W przedstawianym tutaj przypadku wyraża on niepewność przypisania do

danej wartości jasności piksela Ip stopnia przynależności do pewnego zbioru roz-

mytego wyznaczonego przez funkcję przynależności µAIFS

(

Ip

)

. Z wyrażenia (5.14)

wynika, że gdy wartość jasności określająca poziom szarości w obrazie maleje,

wartość indeksu zaufania wzrasta. Wyrażenie (5.12) przyjmuje wartości z zakresu

[0, 1]. Biorąc te dwa spostrzeżenia pod uwagę można przyjąć założenie, że:

πAIFS

(

Ip

)

∝(

1 − µAIFS

(

Ip

))

(5.15)

co zapewnia, że ograniczenie narzucane przez (5.14) jest spełnione.

Wzór ten wyraża stopień pewności o możliwości przypisania jasności piksela Ip

do pewnego zbioru rozmytego określonego przez funkcję przynależności µAIFS

(

Ip

)

.

Im wartość funkcji przynależności jest większa, a więc istnieje większe przeko-

nanie o prawidłowo sformułowanym warunku przynależności jasności piksela do

zbioru rozmytego, tym indeks zaufania jest mniejszy. Podobnie jak w przypadku

wyrażenia określającego wartość maksymalną indeksu zaufania, opisuje on tutaj

niepewność o stopniu przynależności jasności piksela do zbioru określonego przez

funkcję przynależności µAIFS

(

Ip

)

.

W przypadku gdy Imin , 0 indeks zaufania skojarzony z wartością jasności

określanej w skali szarości powinien być również malejącą funkcją znormalizowa-

nego zakresu dynamicznego wartości jasności zawartych w obrazie zdefiniowane-

go jako [229]:

∆Ip =Imax − Imin

Imax(5.16)

134



gdzie Imin i Imax są odpowiednio wartością minimalną i maksymalną wartości ja-

sności pikseli w obrazie. Jeżeli zakres dynamiczny wartości jasności w obrazie się

zmniejsza, to również powinna zmniejszać się pewność o rzeczywistej wartości

jasności danego piksela.

Po uwzględnieniu przedstawionych rozważań, model indeksu zaufania odpo-

wiadający poziomowi szarości Ip w obrazie jest wyrażony wzorem:

πAIFS

(

Ip

)

=(

1 − µAIFS

(

Ip

))

∣

∣

∣

∣

g(

Ip

)

− gF(

Ip

)

∣

∣

∣

∣

maxIp

∣

∣

∣

∣

g(

Ip

)

− gF(

Ip

)

∣

∣

∣

∣

(

1 − k∆Ip

)

(5.17)

gdzie parametr k ∈ (0, 1) określa siłę wpływu zakresu dynamicznego wartości

w obrazie na wartość indeksu zaufania przypisanego do poziomu szarości Ip.

Na wartość tego indeksu składają się trzy czynniki. Pierwszy z nich jest mo-

delem niepewności przypisania wartości jasności piksela Ip do zbioru rozmyte-

go wyznaczonego przez funkcję przynależności µAIFS

(

Ip

)

, drugi jest miarą błę-

du kwantyzacji otrzymaną w wyniku porównania znormalizowanych histogramów

klasycznego i rozmytego, a trzeci uwzględnia zależność od zakresu dynamicznego

jasności pikseli zawartych w obrazie. Ważnym aspektem jest to, że aby wyznaczyć

indeks zaufania w przedstawiony sposób, musi być znana funkcja przynależności

µAIFS

(

Ip

)

jasności pikseli do intuicjonistycznego zbioru rozmytego. W pracy wy-

korzystany został w tym celu zaproponowany wcześniej algorytm 5.1 znajdowania

funkcji przynależności, a następnie opis obrazu był rozszerzany do dziedziny zbio-

rów IFS przy wykorzystaniu przedstawionego wyżej schematu.

5.6.2. Znajdowanie wartości funkcji nieprzynależności

Funkcja nieprzynależności może zostać znaleziona na podstawie zależności

definicyjnych zbiorów IFS. Dla obrazu, dla którego wyznaczona została funkcja

przynależności oraz indeks zaufania, funkcja nieprzynależności wyznaczana jest

według wzoru:

νAIFS

(

Ip

)

= 1 − µAIFS

(

Ip

)

− πAIFS

(

Ip

)

(5.18)

135



5.6.3. Przykłady wyznaczonych funkcji umożliwiających opis obrazu

w dziedzinie intuicjonistycznych zbiorów rozmytych

Przedstawiony powyżej schemat wyznaczania indeksu zaufania wraz z algo-

rytmem wyznaczania funkcji przynależności został zastosowany w celu znalezie-

nia opisu obrazów w dziedzinie zbiorów IFS. Na rys. 5.4 przedstawione zostały

rezultaty działania algorytmu dla kilku obrazów testowych.

(a)

Ip

0 32 64 96 128 160 192 224 2560

14

12

34

1

g(

Ip

)

µIFSA

(

Ip

)

νIFSA

(

Ip

)

πIFSA

(

Ip

)

(b)

(c)

Ip

0 32 64 96 128 160 192 224 2560

14

12

34

1

g(

Ip

)

µIFSA

(

Ip

)

νIFSA

(

Ip

)

πIFSA

(

Ip

)

(d)

Rys. 5.4. Przykłady wyznaczonych funkcji przynależności, nieprzynależności i in-deksu zaufania, umożliwiających opis obrazu w dziedzinie intuicjonistycznych

zbiorów rozmytych

136



(e)

Ip

0 32 64 96 128 160 192 224 2560

14

12

34

1

g(

Ip

)

µIFSA

(

Ip

)

νIFSA

(

Ip

)

πIFSA

(

Ip

)

(f)

Rys. 5.4. Kontynuacja. Przykłady wyznaczonych funkcji przynależności, nieprzy-należności i indeksu zaufania, umożliwiających opis obrazu w dziedzinie intu-

icjonistycznych zbiorów rozmytych

5.6.4. Dopasowanie obrazów pary stereoskopowej w dziedzinie

intuicjonistycznych zbiorów rozmytych

Proponowany algorytm dopasowania obrazów pary stereoskopowej w dziedzi-

nie zbiorów IFS jest bardzo podobny do algorytmu dopasowania z wykorzysta-

niem zwykłych zbiorów rozmytych. Po przeprowadzaniu fuzzyfikacji obu obrazów

i zmianie ich reprezentacji do dziedziny zbiorów IFS, można zastosować analo-

giczny schemat do algorytmu dopasowania obszarami. Takie rozwiązanie zostało

zaproponowane w pracy i zostało przedstawione w postaci algorytmu 5.3.

Jako miary dopasowania w dziedzinie zbiorów intuicjonistycznych wykorzy-

stane zostały: unormowana odległość Hamminga dla zbiorów IFS (4.38), unormo-

wana odległość euklidesowa zbiorów IFS (4.40) oraz korelacja intuicjonistycznych

zbiorów rozmytych (4.41).

137



Algorytm 5.3 Dopasowanie obrazów w dziedzinie intuicjonistycznych zbiorówrozmytych


Dane wejściowe: Założony przedział wartości dysparycji [dmin, dmax].1: Przeprowadź fuzzyfikację obrazów Ire f i Isz, znajdując ich reprezentacje IIFS

re f

i IIFSsz w dziedzinie intuicjonistycznych zbiorów rozmytych.

2: for i = 0 do M − 1 do

3: for j = 0 do N − 1 do

4: Ustaw okno referencyjne Wre f na pozycji (i, j) w zfuzzyfikowanym obra-zie referencyjnym I

IFSre f

.5: for d = dmin do dmax z krokiem ∆d do

6: Ustaw okno przeszukiwania Wsz na pozycji (i, j + d) w zfuzzyfikowa-nym obrazie przeszukiwania IIFS

sz .7: Oblicz miarę podobieństwa η między reprezentacjami pikseli wyrażo-

nymi w dziedzinie zbiorów IFS w oknie referencyjnym Wre f i oknieprzeszukiwania Wsz i zapamiętaj wartość tej miary.

8: if bieżąca wartość η jest większa niż poprzednia (lub mniejsza – w za-leżności od przyjętej miary podobieństwa then

9: Zapamiętaj wartość η oraz wyznaczoną wartość dysparycji dla pik-sela położonego na pozycji (i, j).

10: Zapisz wyznaczoną wartość dysparycji na pozycji (i, j) wynikowejmacierzy dysparycji d.

11: else

12: Zwiększ bieżącą wartość d o krok ∆d i oblicz wartość miary η dlapołożenia (i, j + d + ∆d) okna przeszukiwania Wsz.

13: end if

14: end for

15: end for

16: end for

17: Zwróć: Otrzymaną mapę dysparycji d jako znalezioną mapę dysparycji.

138



5.7. Detekcja krawędzi w obrazie w oparciu o teorię zbiorów

rozmytych

Detekcja krawędzi obecnych w obrazie jest bardzo istotnym i często wykorzy-

stywanym zagadnieniem komputerowego przetwarzania obrazów. Znalezienie kra-

wędzi stanowi często pierwszy krok w bardziej skomplikowanych zagadnieniach

komputerowego widzenia maszynowego, spośród których jako przykłady można

wymienić: rozumienie obrazów [230, 231], rozpoznawanie wzorców [232, 233]

i przedstawiane w tej pracy zagadnienie dopasowania obrazów pary stereoskopo-

wej [234, 235]. W niektórych zastosowaniach znalezione krawędzie używane są

również bezpośrednio np. w przemysłowych systemach wizyjnych [236, 237].

W literaturze można znaleźć bardzo wiele różnorodnych podejść rozwiązują-

cych zagadnienie wyszukiwania krawędzi w obrazie. Prawdopodobnie najbardziej

znanym i popularnym jest algorytm nazywany od nazwiska jego twórcy detektorem

Canny’ego [238, 239], działający w oparciu o detekcję zmian jasności w obrazie.

Na podobnej zasadzie działają również popularne operatory służące do wykrywa-

nia krawędzi oparte o detekcję gradientu zmian jasności nazywane od nazwisk swo-

ich twórców: operatorem Sobela [40, 240] lub operatorem krzyżowym Robertsa

[241, 240].

Zupełnie inne podejście umożliwiające detekcję krawędzi w obrazie zostało

zaproponowane w [242]. Proponowany operator służący do wykrywania krawędzi

oparty jest na znajdowaniu różnic między wartościami jasności pikseli zawartymi

w pewnym wyróżnionym regionie. Znany jest on jako detektor krawędzi i narożni-

ków pod nazwą SUSAN. Podobna idea wyszukiwania pikseli o różnych poziomach

jasności w pewnym określonym otoczeniu została użyta również do opracowania

algorytmów detekcji narożników [243, 244].

Problem wykrywania krawędzi zawartych w obrazie był także rozważany w kon-

tekście zastosowania do tego celu elementów teorii zbiorów rozmytych [245, 246,

32]. W pracy zaproponowany został autorski algorytm umożliwiający znalezienie

krawędzi obecnych w obrazie, wykorzystujący w swoim działaniu elementy teorii

zbiorów rozmytych. Algorytm ten jest ideowo najbardziej zbliżony do algorytmu

SUSAN [242]. Podobnie jak algorytm SUSAN opiera się na przypuszczeniu, że w

pewnym regionie obrazu, gdzie istnieje krawędź w obrazie, pewna liczba pikseli

musi mieć znacząco różną jasność od innych. W algorytmie SUSAN badana jest

139



różnica w wartościach jasności między wyróżnionym pikselem a jasnościami pik-

seli leżącymi w jego sąsiedztwie. Oryginalnie w algorytmie SUSAN wykorzystane

zostało sąsiedztwo w kształcie koła zawierającego 37 pikseli. Jeżeli suma wartości

różnic między jasnością wyróżnionego piksela i jasnościami pikseli z sąsiedztwa

przekracza wartość ustalonego progu, wtedy piksel ten jest klasyfikowany jako na-

leżący do krawędzi. Zależnie od dobrania wartości progu schemat ten może być

wykorzystany do wykrywania krawędzi lub narożników w obrazie.

W proponowanym rozwiązaniu wykorzystany został podobny schemat opar-

ty o badanie różnic między jasnością wyróżnionego piksela i jasnościami pikseli

położonymi w jego pewnym, określonym sąsiedztwie. Zasadniczą różnicą w po-

równaniu do algorytmu SUSAN, jest wykorzystanie rozmytej relacji podobieństwa

w celu określenia podobieństwa między wartością jasności piksela wyróżnione-

go i jasności pikseli położonych w jego sąsiedztwie. Odpowiedź detektora określa

równocześnie przynależność badanego piksela do pikseli krawędziowych w obra-

zie. W przypadku, gdy porównywane są jasności dwóch pikseli za pomocą rozmy-

tej relacji podobieństwa, podobieństwo między nimi wyrażane jest liczbą z zakresu

[0, 1] będącą miarą liczbową rozmytej relacji podobieństwa. Jako końcowa odpo-

wiedź proponowanego detektora przyjmowana jest suma tych liczb, po wszystkich

pikselach należących do badanego sąsiedztwa. W przypadku, gdy detektor działa

w jednorodnym regionie obrazu, liczby wyznaczane przez rozmytą relacją podo-

bieństwa przyjmują wartość równą 1, co oznacza że badane piksele mają takie same

jasności. Ich suma, stanowiąca odpowiedź detektora, przyjmuje wartość maksy-

malną. Oznacza to, że w badanym regionie nie ma piksela należącego do krawędzi.

W przypadku, gdy w badanym regionie znajduje się piksel krawędziowy, liczby

otrzymane w wyniku zastosowania rozmytej relacji podobieństwa przyjmują war-

tości mniejsze od 1, a odpowiedź detektora będąca sumą tych liczb jest mniejsza od

maksymalnej będącej sumą jedynek. Oznacza to, że w badanym regionie znajduje

się piksel należący do krawędzi. Im wartość odpowiedzi detektora jest mniejsza

od maksymalnej, tym bardziej różnorodny region obrazu był poddawany badaniu

i tym większa możliwość, że badany piksel jest pikselem należącym do krawędzi

w obrazie.

140



5.8. Detekcja krawędzi w oparciu o rozmytą relację

podobieństwa

Idea badania podobieństwa pikseli będących w pewnym sąsiedztwie została

wykorzystana do opracowania algorytmu umożliwiającego detekcję krawędzi.

W tym celu na obrazie wybierany jest piksel i badane jest jego podobieństwo do

sąsiadów. Podobieństwo między wyróżnionym pikselem i jego sąsiadami określane

jest z wykorzystaniem rozmytej relacji podobieństwa. Podczas opracowania algo-

rytmu testowane było sąsiedztwo o kwadratowym kształcie i dwóch rozmiarach

określonych przez promień sąsiedztwa rs = 1 i rs = 2 (rys. 5.5).

Ip

(

i − 1,j − 1

)

Ip

(

i − 1,j

)

Ip

(

i − 1,j + 1

)

Ip

(

i,j − 1

)

Ip

(

i,j

)

Ip

(

i,j + 1

)

Ip

(

i + 1,j − 1

)

Ip

(

i + 1,j

)

Ip

(

i + 1,j + 1

)

(a)

Ip

(

i − 2,j − 2

)

Ip

(

i − 2,j − 1

)

Ip

(

i − 2,j

)

Ip

(

i − 2,j + 1

)

Ip

(

i − 2,j + 2

)

Ip

(

i − 1,j − 2

)

Ip

(

i − 1,j − 1

)

Ip

(

i − 1,j

)

Ip

(

i − 1,j + 1

)

Ip

(

i − 1,j + 2

)

Ip

(

i,j − 2

)

Ip

(

i,j − 1

)

Ip

(

i,j

)

Ip

(

i,j + 1

)

Ip

(

i,j + 2

)

Ip

(

i + 1,j − 2

)

Ip

(

i + 1,j − 1

)

Ip

(

i + 1,j

)

Ip

(

i + 1,j + 1

)

Ip

(

i + 1,j + 2

)

Ip

(

i + 2,j − 2

)

Ip

(

i + 2,j − 1

)

Ip

(

i + 2,j

)

Ip

(

i + 2,j + 1

)

Ip

(

i + 2,j + 2

)

(b)

Rys. 5.5. Ilustracja sąsiedztwa o promieniu rs = 1 (rys. 5.5a) oraz o promieniurs = 2 (rys. 5.5b) wykorzystywanych w detektorze krawędzi

W sąsiedztwie przedstawionym na rys. 5.5 dla wyróżnionego piksela w obra-

zie obliczana jest wartość relacji podobieństwa między jego jasnością a jasnościa-

mi wszystkich pikseli z jego sąsiedztwa. W pracy wykorzystana została zarówno

gaussowska, jak i trójkątna relacja podobieństwa. Relacja gaussowska opisana jest

wyrażeniem (por. p. 4.5.1):

µΩG

(

Ip (i, j) , Ip(

i′, j′)

)

= exp

−

∣

∣

∣Ip (i, j) − Ip (i′, j′)∣

∣

∣

σG

2

(5.19)

141



gdzieσG jest arbitralnie wybranym parametrem ustalającym zakres i stopień zacho-

dzenia rozmytej gaussowskiej relacji podobieństwa, natomiast IP (i, j) oraz Ip (i′, j′)

są wartościami jasności pikseli położonych na pozycjach o współrzędnych (i, j)

i odpowiednio (i′, j′).

Druga postać relacji rozmytej wykorzystywanej w pracy oparta jest na trójkąt-

nej funkcji przynależności (por. p. 4.5.1):

µΩT

(

Ip (i, j) , Ip(

i′, j′)

)

=

1 − |Ip(i, j)−Ip(i′, j′)|σT

jeżeli∣

∣

∣Ip (i, j) − Ip (i′, j′)∣

∣

∣ < σT

0 przeciwnie(5.20)

gdzie σT jest arbitralnie ustalonym parametrem ustalającym zakres i stopień za-

chodzenia rozmytej trójkątnej relacji podobieństwa.

Za pomocą parametrówσG we wzorze (5.19) lubσT we wzorze (5.20) dobiera-

ny jest zakres zachodzenia relacji rozmytej i zarazem miara liczbowa podobieństwa

między jasnością analizowanego piksela a jasnością pikseli należących do jego są-

siedztwa. W wyniku obliczenia tych miar podobieństwa otrzymywane są zbiory

liczb:

µΩG

[

Ip (i, j) , Ip (i + k, j + l)]

: −rs 6 k, l 6 rs; k, l , 0

, (5.21)

w przypadku relacji gaussowskiej, lub:

µΩT

[

Ip (i, j) , Ip (i + k, j + l)]

: −rs 6 k, l 6 rs; k, l , 0

, (5.22)

w przypadku relacji trójkątnej. Zbiory te zawierają w sobie informację o jednorod-

ności badanego regionu. Na ich podstawie definiowana jest odpowiedź detektora.

W opracowanym algorytmie jako odpowiedź detektora określona dla piksela (i, j)

przyjęta została suma wszystkich elementów należących do tych zbiorów, czyli

suma stopni podobieństwa pikseli należących do określonego sąsiedztwa piksela

(i, j):

ζG (i, j) =k,l=rs∑

k,l=−rsk,l,0

µΩG

[

Ip (i, j) , Ip (i + k, j + l)]

(5.23)

142



lub

ζT (i, j) =k,l=rs∑

k,l=−rsk,l,0

µΩT

[

Ip (i, j) , Ip (i + k, j + l)]

. (5.24)

W przypadku sąsiedztwa o promieniu rs = 1 sumy powyższe obejmują 8 elemen-

tów, zaś w przypadku sąsiedztwa o promieniu rs = 2 aż 24 elementy. Biorąc pod

uwagę definicje rozmytych relacji podobieństwa, można łatwo zauważyć, że zarów-

no w przypadku gaussowskiej funkcji przynależności (5.19), jak i trójkątnej funkcji

przynależności (5.20), największa wartość odpowiedzi detektora ζ (i, j), wynosi

ζmax = 8, jeśli promień sąsiedztwa jest równy rs = 1, oraz wynosi ζmax = 24, jeśli

promień sąsiedztwa jest równy rs = 2. Najmniejsza wartość odpowiedzi detektora

ζmin jest zależna od wyboru parametru σG w gaussowskiej funkcji przynależności

(5.19) lub parametru σT w trójkątnej funkcji przynależności (5.20).

Maksymalne wartości odpowiedzi detektora otrzymuje się dla tych pikseli (i, j),

dla których wszystkie sąsiadujące z nim piksele (i′, j′) mają identyczne wartości

jasności Ip (i′, j′) jak wartość jasności Ip (i, j) piksela (i, j). Oznacza to, że piksel

(i, j) należy wówczas do obszaru całkowicie jednorodnego, a więc nie zawierają-

cego krawędzi. Im wartość odpowiedzi detektora jest mniejsza, tym stopień przy-

należności danego piksela do pikseli krawędziowych jest większy.

Wyniki działania detektora krawędzi mogą być zapisane w postaci macierzy

o wymiarach M × N : Z =[

ζ (i, j)]

, i = 1, . . . ,M, j = 1, . . . ,N , której elementy

przybierają ciągłe wartości należące do przedziału[

ζmin, ζmax]

. Na podstawie tej

macierzy jest tworzony obraz IK , który nazywać będziemy obrazem krawędzio-

wym. W celu skontrastowania oznaczenia obrazu krawędziowego od obrazu pier-

wotnego został użyty we frakcji górnej indeks K . Na obrazie krawędziowym piksele

należące w analizowanym oryginalnym obrazie do obszarów jednorodnych, o du-

żych wartościach ζ (i, j) odpowiedzi detektora powinny być odzwierciedlone jako

piksele białe, natomiast piksele o małych wartościach ζ (i, j) jako piksele ciemniej-

sze, tym bardziej czarne im wartość ta jest mniejsza. Z tego względu w opracowa-

nym detektorze krawędzi i metodzie tworzenia obrazu krawędziowego przeprowa-

dzono przeskalowanie przedziału wartości możliwych odpowiedzi detektora kra-

wędzi[

ζmin, ζmax]

w przedział [Imin, Imax] skwantowanych wartości jasności pikseli

IK (i, j), gdzie wartości ζmin odpowiada wartość Imin, zaś wartości ζmax – wartość

Imax. Jak podkreślano już wyżej, w pracy w implementacji wszystkich algorytmów

143



założone całkowitoliczbową skalę jasności pikseli, przy czym przyjęto konwencję,

że Imin = 0 (całkowita czerń) oraz Imax = 255 (całkowita biel).

5.8.1. Przykłady obrazów krawędziowych otrzymanych w efekcie

działania rozmytego detektora krawędzi

W wyniku przeprowadzonego przeskalowania i dyskretyzacji przedziału war-

tości odpowiedzi detektora krawędzi macierz Z =[

ζ (i, j)]

zostaje przekodowa-

na w macierz IK =[

Ik (i, j)]

wartości jasności pikseli definiującą wynikowy ob-

raz krawędziowy IK . Na rys. 5.6 i 5.7 przedstawione zostały przykładowe obrazy

krawędziowe uzyskane jako rezultaty działania proponowanego algorytmu detek-

cji krawędzi. Algorytm zastosowany został dla dwóch obrazów testowych, dwóch

kształtów rozmytych relacji podobieństwa i dwóch rozmiarów sąsiedztw.

(a) (b) (c)

(d) (e) (f)

Rys. 5.6. Obrazy oryginalne i obrazy krawędziowe otrzymane w wyniku działaniadetektora krawędzi wykorzystującego rozmytą relację podobieństwa kształtu

gasussowskiego z parametrem σG = 127.

Na rys. 5.6 przedstawione zostały obrazy uzyskane w wyniku działania algoryt-

mu wykorzystującego rozmytą relację podobieństwa kształtu gaussowskiego. Ob-

razy oryginalne przedstawione zostały na rys. 5.6a i 5.6d. Obrazy krawędziowe

144



otrzymane w wyniku zastosowania sąsiedztwa o promieniu rs = 1 przedstawio-

ne zostały na rys. 5.6b i 5.6e, natomiast obrazy uzyskane w wyniku zastosowania

sąsiedztwa o promieniu rs = 2 na rys. 5.6c i 5.6f.

Na rys. 5.7 przedstawione zostały obrazy krawędziowe otrzymane w wyniku

zastosowania detektora wykorzystującego rozmytą relację podobieństwa kształtu

trójkątnego. Obrazy oryginalne są pokazane na rys. 5.7a i 5.7d. Obrazy krawędzio-

we w przypadku sąsiedztw o promieniu rs = 1 i o promieniu rs = 2 przedstawione

zostały na rys. 5.7b i 5.7e i odpowiednio rys. 5.7c i 5.7f.

(a) (b) (c)

(d) (e) (f)

Rys. 5.7. Obrazy oryginalne i obrazy krawędziowe otrzymane w efekcie działaniadetektora krawędzi wykorzystującego rozmytą relację podobieństwa kształtu

trójkątnego o parametrze σT = 127.

Ogólnie można powiedzieć, że w przypadku zastosowanie rozmytej trójkątnej

relacji podobieństwa pikselom są przypisywane mniejsze wartości jasności IK (i, j)

w obrazach krawędziowych w porównaniu z gaussowską relacją podobieństwa, tzn.

stopień przynależności pikseli do zbioru pikseli krawędziowych jest w tym przy-

padku większy. Z tego względu obrazy krawędziowe uzyskane z wykorzystaniem

trójkątnej relacji podobieństwa mają nieco silniej zarysowane krawędzie, a otrzy-

mane krawędzie są nieco grubsze i ciemniejsze. Podobnie można zauważyć, że

145



zwiększenie rozmiaru promienia sąsiedztwa prowadzi do uzyskania bardziej wy-

razistego obrazu krawędziowego.

5.8.2. Wykrywanie pikseli charakterystycznych w obrazach

krawędziowych

Przedstawiony algorytm wykrywania krawędzi w obrazie i tworzenia obrazów

krawędziowych wykorzystany został jako krok wstępny w zaproponowanym przez

autora algorytmie dopasowania punktów charakterystycznych w obrazach pary ste-

reoskopowej. Ze względu na specyfikę działania opracowanego rozmytego detek-

tora, otrzymywane w efekcie jego działania krawędzie są zbyt „grube”, aby łatwo

można dokonać identyfikacji pikseli charakterystycznych. Z tego względu w pierw-

szym kroku algorytmu wykorzystywana jest przedstawiona poniżej metoda wykry-

wania pikseli charakterystycznych w obrazach krawędziowych otrzymanych w wy-

niku działania rozmytego detektora. Stanowi ona podstawę do znajdowania odpo-

wiedników w pełnym algorytmie dopasowania pikseli charakterystycznych.

Przed prezentacją tej metody wprowadzone zostanie pojęcie krawędziowości

pikseli. Jako miarę krawędziowości piksela (i, j) w obrazie krawędziowym IK wy-

godnie jest przyjąć wielkość:

IK

(i, j) = Imax − IK (i, j) , (5.25)

a więc wyrazić krawędziowość pikseli w odwrotnej skali jasności pikseli. W ten

sposób pikselom ciemniejszym, o mniejszych wartościach jasności, przypisany jest

większy stopień krawędziowości. Inaczej mówiąc, im piksel w obrazie krawędzio-

wym jest ciemniejszy, tym większy stopień krawędziowości. W krańcowym przy-

padku pikselom białym, dla których IK (i, j) = Imax = 255, przyporządkowana jest

zerowa krawędziowość IK

(i, j) = Imin = 0.

Na zaproponowaną metodę wykrywania i dopasowania punktów (pikseli) cha-

rakterystycznych w obrazach krawędziowych składają się następujące kroki.

1. Progowanie globalne.

W kroku tym eliminowane są z obrazów krawędziowych piksele, którym przy-

pisana jest zbyt mała wartość krawędziowości. Polega on na przeprowadzeniu

progowania wartości krawędziowości pikseli. W obrazie krawędziowym pozo-

146



stawiane są jedynie takie piksele, których krawędziowość spełnia warunek:

IK

(i, j) > λ · IK

sr , (5.26)

gdzie IK

sr jest średnią wartością krawędziowości pikseli obrazu krawędziowego

zdefiniowaną wzorem:

IK

sr =1

MN

M∑

i=0

N∑

j=0

IK

(i, j) (5.27)

natomiast λ jest arbitralnie ustalonym parametrem progowania. W pracy przy-

jęta została wartość λ = 1.25.

2. Eliminacja pikseli o nie maksymalnych poziomych wartościach krawę-

dziowości

W kolejnym kroku spośród pikseli, które pozostały w obrazie krawędziowym

po przeprowadzeniu progowania globalnego, usuwane są piksele nie mające

maksymalnych wartości krawędziowości w porównaniu z sąsiadującymi z ni-

mi pikselami położonymi w kierunku poziomym obrazu. Eliminacja odbywa

się według zasady:

IK

(i, j) =

IK

(i, j) , jeżeli IK

(i, j) > IK

(i − 1, j)∧I

K(i, j) > I

K(i + 1, j) ,

0, przeciwnie

(5.28)

3. Eliminacja pikseli o nie maksymalnych pionowych wartościach krawę-

dziowości

Krok ten przebiega identycznie jak krok 2, przy czym porównywana jest w tym

przypadku krawędziowość pikseli pionowych. W jego wyniku następuje dalsza

eliminacja pikseli nie mających maksymalnych wartości krawędziowości w po-

równaniu z sąsiadującymi z nimi pikselami położonymi w kierunku pionowym

obrazu:

IK

(i, j) =

IK

(i, j) , jeżeli IK

(i, j) > IK

(i, j − 1)∧I

K(i, j) > I

K(i, j + 1) ,

0, przeciwnie

(5.29)

147



W rezultacie progowania globalnego i eliminacji pikseli o nie maksymalnych

wartościach krawędziowości, w obrazie krawędziowym uwypuklane są piksele cha-

rakterystyczne, którym detektor krawędzi przypisał dostatecznie duże wartości kra-

wędziowości. W efekcie otrzymuje się obraz krawędziowy, który oznaczany będzie

dalej ICH, o bardzo cienkich krawędziach. W przeprowadzonych przez autora eks-

perymentach jeden przebieg przedstawionej metody pozwalał na uzyskanie obra-

zów ICH, na których otrzymane krawędzie były szerokości jednego piksela. Tak

cienkie krawędzie mogą być w łatwy sposób wykorzystane do detekcji położenia

punktów krawędziowych o bardzo dużej krawędziowości, które w dalszej kolejno-

ści będą poddane algorytmowi poszukiwania odpowiedników na dwóch obrazach

pary stereoskopowej i wyznaczenia poszukiwanej wartości dysparycji.

5.8.3. Algorytm dopasowania pikseli charakterystycznych

w obrazach krawędziowych

Omówiony wyżej detektor krawędzi i metoda wykrywania pikseli charaktery-

stycznych zostały wykorzystane przez autora w pełnym algorytmie dopasowania

punktów charakterystycznych w obrazach krawędziowych pary stereoskopowej. Po

przeprowadzeniu dopasowania pikseli odpowiadającym tym punktom można, jako

wynik końcowy, wyznaczyć poszukiwaną mapę dysparycji.

Jak podkreślano wcześniej, odpowiedzi detektora krawędzi (wzory (5.23)

i (5.24)) mogą być traktowane jako miary stopni przynależności pikseli w obrazach

oryginalnych do zbioru pikseli krawędziowych. Cecha ta mogłaby być podstawą do

wykorzystania w algorytmie dopasowania pikseli charakterystycznych elementów

zbiorów rozmytych. Jednak biorąc pod uwagę prostotę obliczeniową, autor zrezy-

gnował z obliczeń w dziedzinie zbiorów rozmytych i przeprowadził je w zwykłej

dziedzinie jasności pikseli. Jako miara dopasowania, umożliwiające znalezienie od-

powiadających sobie pikseli w obrazach krawędziowych wykorzystana została mia-

ra korelacji wzajemnej CC określona wzorem (3.7). Poniżej podano pełny algorytm

dopasowania pikseli charakterystycznych w obrazach krawędziowych i wyznacze-

nia mapy dysparycji.

148



Algorytm 5.4 Dopasowanie punktów charakterystycznych w obrazach krawędzio-wych


Dane wejściowe: Założony przedział dopuszczalnych wartości dysparycji[dmin, dmax].

1: Korzystając z algorytmu opisanego w p. 5.8 utwórz obrazy krawędziowe IKre f

i IKsz.

2: W referencyjnym obrazie krawędziowym IKre f

znajdź punkty charakterystycz-ne, wykorzystując metodę opisaną w p. 5.8.2. Wynik zapamiętaj jako obrazI

CH.3: for i = 1 do M do

4: for j = 1 do N do

5: if (i, j) jest pikselem charakterystycznym then

6: Ustaw okno referencyjne Wre f w referencyjnym obrazie ICHre f

na pozycji(i, j).

7: for d = dmin do dmax z krokiem ∆d do

8: Oblicz wartość korelacji CC określonej wzorem (3.7) między oknemreferencyjnym Wre f a oknem przeszukiwania Wsz ustawionym w po-zycji (i, j + d) w krawędziowym obrazie przeszukiwania ICH

sz .9: if bieżąca wartość korelacji CC jest większa niż poprzednia then

10: Zapamiętaj bieżącą wartość korelacji CC oraz bieżącą wartość d

jako znalezioną wartość dysparycji d (i, j) dla piksela (i, j).11: else

12: Zwiększ bieżącą wartość d o ∆d i oblicz wartość korelacji CC dlanastępnego położenia okna przeszukiwania Wsz.

13: end if

14: end for

15: else

16: Zwiększaj wartości i oraz j aż do znalezienia następnego punktu cha-rakterystycznego w obrazie krawędziowym.

17: end if

18: end for

19: end for

20: Zwróć: Otrzymaną mapę dysparycji d jako znalezione rozwiązanie problemudopasowania pikseli charakterystycznych.

149



5.9. Dopasowanie obrazów pary steroskopowej w oparciu

o rozmytą transformatę rankingową

W niniejszym punkcie przedstawiona została propozycja obliczania rozmytej

transformaty rankingowej. Transformata ta została wykorzystana jako wstępny krok

przetwarzania obrazów zastosowany w algorytmie dopasowania pary stereosko-

powej. Pełen algorytm dopasowania polega na zamianie dziedziny opisu obrazów

z dziedziny jasności pikseli do dziedziny transformaty, a następnie zastosowaniu

algorytmu dopasowania obszarami działającego w dziedzinie transformaty.

W punkcie 3.3.4 opisana została transformata rankingowa, polegająca na ba-

daniu różnicy między wartościami jasności wyróżnionego piksela i wartościami

jasności pikseli znajdujących się w jego określonym sąsiedztwie. W przedstawionej

transformacie rankingowej brana jest jednak pod uwagę jedynie ostro ograniczo-

na właściwość większości lub mniejszości jasności piksela od jasności sąsiednich

pikseli, decydująca o wartości transformaty określanej dla wyróżnionego piksela.

Ideą zaproponowaną przez autora jest zwiększenie rozróżnialności pomiędzy

wartościami jasności pikseli przez wzięcie pod uwagę wielkości różnicy pomię-

dzy wartościami jasności badanych pikseli. Polega ona na określeniu, czy wartość

jasności wyróżnionego piksela poddawanego transformacie jest „dużo większa”,

„trochę większa”, „prawie równa” a może tylko „trochę mniejsza” lub o „wiele

mniejsza” od wartości jasności otaczających go pikseli położonych w określonym

sąsiedztwie.

Koncepcję porównywania wartości jasności pikseli reprezentowanych w dzie-

dzinie zbiorów rozmytych można wyrazić za pomocą funkcji, której argumentami

są wartości funkcji przynależności jasności pikseli do określonego zbioru rozmy-

tego poddawane transformacie, natomiast wartość tej funkcji odpowiada lingwi-

stycznemu modelowi różnicy. Idea funkcyjnego wyrażenia lingwistycznych warto-

ści „większy”, „mniejszy” oraz porównywania reprezentacji pikseli obrazów opisa-

nych w dziedzinie zbiorów rozmytych, zaczerpnięta została z teorii zbiorów rozmy-

tych, stąd proponowana nazwa tej transformaty: rozmyta transformata rankingowa.

W celu wprowadzenia matematycznego modelu wyrażenia zależności lingwi-

stycznych „większy”, „mniejszy” umożliwiającego przeprowadzenie obliczeń, za-

proponowane zostało wykorzystanie funkcji wykładniczej, a następnie przy jej po-

150



mocy zdefiniowana została tranformata rozmyta według zależności:

RFµ (p) =

∑

p∈N(p)

1

1 + exp[

βR

(

µ(

Ip′)

− µ(

Ip

))] (5.30)

gdzie RFµ (p) jest wartością transformaty określonej dla wyróżnionego piksela p,

dla którego obliczana jest transformata, natomiast p′ to piksele położone w określo-

nym sąsiedztwie N (p) wyróżnionego piksela p, µ(

Ip

)

i µ(

Ip′)

to wartości funkcji

przynależności pikseli do pewnego zbioru rozmytego określone na podstawie ich

jasności Ip i Ip′ zaś βR jest dowolnie ustalonym parametrem.

Formalnie we wzorze (5.30) wykorzystane zostały funkcje przynależności ja-

sności pikseli µ(

Ip

)

i µ(

Ip′)

do pewnego zbioru rozmytego. W celu otrzymania

reprezentacji wartości jasności w dziedzinie zbiorów rozmytych może być zasto-

sowana dowolna metoda fuzzyfikacji obrazów, również metoda zaproponowana

w tej pracy. Inną intuicyjną i łatwą do implementacji metodą fuzzyfikacji obrazu

jest metoda wykorzystujacą funkcję przynależności typu singleton rozmyty (por.

p. 4.1.3). W przypadku zastosowania fuzzyfikacji obrazu z wykorzystaniem funk-

cji przynależności typu singleton rozmyty, każdej wartości jasności piksela obrazu

Ip przypisywana jest wartość przynależności do zbioru białych piskeli µ(

Ip

)

równa

co do wartości jasności tego piksela Ip.

Możliwe jest jednak zastosowanie rozmytej transformaty rankingowej działają-

cej bezpośrednio na wartościach jasności pikseli Ip. W tym przypadku wykorzysty-

wany jest model zależności „większy”, „mniejszy”, natomiast uproszczony zostaje

algorytm obliczania wartości transformaty. Przy wykorzystaniu tak zdefiniowanej

rozmytej transformaty rankingowej nie wykonywany jest krok fuzzyfikacji obra-

zów. Formalnie wartości transformaty wyrażone są wówczas wzorem:

RFI (p) =

∑

p∈N(p)

1

1 + exp[

βR

(

Ip′ − Ip

)] (5.31)

gdzie: RFI

(p) to wartość transformaty określonej dla wyróżnionego piksela p, p′ to

piksele z pewnego sąsiedztwa N (p) natomiast Ip i Ip′ to wartości jasności pikse-

li, a βR jest dowolnie ustalanym parametrem. Parametr βR decyduje o przebiegu

krzywej definiującej transformatę, a tym samym o wartości transformaty w przy-

padku reprezentacji pikseli w dziedzinie zbiorów rozmytych (wzór 5.30) lub ich

151



reprezentacji wartości w dziedzinie jasności (wzór 5.31). Dla rosnących wartości

parametru βR transformata wyrażona wzorem (5.30) i (5.31) coraz bardziej zbliża

się do klasycznej transformaty rankingowej.

54 56 58 60 62 64 66 68 70 72 744.75

5

5.25

5.5

5.75

6

6.25

I∗p

RF I

( p)

βR = 0.25βR = 0.5βR = 0.75βR = 1βR = 5

14 81 23

58 64 36

72 28 I∗p

(a) (b)

Rys. 5.8. Przebieg rozmytej transformaty rankingowej określonej wzorem (5.31)dla różnych wartości parametru βR (rys. (a)), obliczanej dla środkowego pikselao wartości jasności Ip = 64 leżącego w sąsiedztwie pokazanym na rys. (b)i zmieniającej się wartości jasności piksela I∗p należącego do tego sąsiedztwa.

Zakres zmian jasności piksela I∗p zawiera się w przedziale [54, ..., 74] .

Przykładowe przebiegi funkcji opisującej transformatę w zależności od para-

metru βR przedstawione zostały na rys. 5.8a. Wartości transformaty były obliczane

dla środkowego piksela o wartości jasności Ip = 64 leżącego w sąsiedztwie przed-

stawionym na rys. 5.8b w przypadku, gdy zmianie uległa wartość jasności jednego

piksela z sąsiedztwa I∗p.

Transformata opisana wzorem (5.31) pozwala na większe zróżnicowanie otrzy-

mywanej wartości dla wyróżnionego piksela w porównaniu do klasycznej transfor-

maty rankingowej. W czasie porównywania pikseli o takich samych wartościach

jasności składowa transformaty pochodząca od tego porównania przyjmuje wartość

równą 0.5. Jeżeli wartość jasności wyróżnionego piksela jest większa niż wartość

jasności porównywanego z nim piksela, wkład takiego porównania do wartości

transformaty jest mniejszy niż 0.5. Natomiast gdy wartość jasności wyróżnionego

piksela jest mniejsza niż wartość jasności porównywanego piksela wkład do wyni-

kowej wartości takiego porównania jest większy od 0.5. Z tego względu w trans-

formacie rozmytej uwzględniona została informacja o tym czy wartość jasności

152



sąsiedniego piksela jest mniejsza, czy większa od wartości jasności wyróżnionego

piksela poddawanego transformacie rozmytej.

Praktycznie dla parametru βR > 5 wartości uzyskiwane w wyniku zastosowania

proponowanej transformaty rozmytej przy założeniu, że wartości jasności są zapi-

sane jako liczby całkowite, są takie same jak dla transformaty rankingowej opartej

o badanie większości lub mniejszości wartości jasności piksela względem jego są-

siedztwa. Z tego względu proponowana postać rozmytej transformaty rankingowej

może być traktowana jako uogólnienie rozmytej transformaty rankingowej. Jako

uogólnienie rozumiany jest fakt, że po wybraniu odpowiednio dużej wartości pa-

rametru βR transformata rozmyta pozwala na uzyskanie takich samych wyników,

jakie otrzymane byłby w czasie zastosowania klasycznej transformaty rankingo-

wej. Możliwe jest więc emulowanie działania klasycznej transformaty rankingo-

wej, z wykorzystaniem rozmytej transformaty rankingowej, za pomocą właściwego

doboru wartości parametru βR, definiującego przebieg wartości rozmytej transfor-

maty rankingowej.

Na rys. 5.9 przedstawione zostały reprezentacje przykładowego obrazu w dzie-

dzinie transformaty rankingowej uzyskane przez zastosowanie transformaty kla-

sycznej i proponowanej transformaty rozmytej. W celu przedstawienia ich jako ob-

razów w skali szarości wartości otrzymane w wyniku zastosowania transformaty

zostały unormowane do przedziału wartości [0, 255]. Rys. 5.9a przedstawia repre-

zentację obrazu uzyskaną w wyniku zastosowania transformaty rankingowej opar-

tej o badanie ostrej nierówności między wartościami jasności pikseli w pewnym

sąsiedztwie (por. p. 3.3.4). Natomiast rys. 5.9b przedstawia reprezentację rozmytej

transformaty rankingowej obliczonej z wykorzystaniem wzoru (5.31) o wartości

parametru βR = 0.55. Obydwie transformaty zostały obliczone dla sąsiedztwa pik-

sela o promieniu równym 2.

153



(a) (b)

Rys. 5.9. Reprezentacje obrazów w dziedzinie transformat rankingowych przedsta-wione jako obrazy w skali szarości

W pracy wykorzystana została rozmyta transformata rankingowa działająca na

wartościach jasności pikseli opisana wzorem (5.31). Wykorzystanie tej postaci trans-

formaty pozwoliło na zmniejszenie złożoności obliczeniowej algorytmu. Następnie

dla obrazów reprezentowanych w dziedzinie transformaty może być zastosowany

algorytm dopasowania obszarami z dowolną miarą podobieństwa operującą na re-

prezentacjach pikseli w dziedzinie transformaty. W pracy przedstawione zostaną

rezultaty przy wykorzystaniu algorytmu dopasowania obszarami wykorzystujące-

go miarę dopasowania SAD (wzór (3.11)), dopasowaną do działania na wartościach

reprezentacji pikseli w dziedzinie rozmytej transformaty rankingowej.

154


Rozdział 6

Kryteria i metody oceny działania

algorytmów

W rozdziale omówiono metodykę badań przeprowadzonych w celu porówna-

nia efektywności działania różnych algorytmów stosowanych do rozwiązania pro-

blemu dopasowania obrazów pary stereoskopowej. Przedstawiono testowy zbiór

par stereoskopowych, który posłużył jako materiał badawczy do oceny rezultatów

otrzymywanych za pomocą zaproponowanych algorytmów. Omówiono charaktery-

styki najczęściej występujących zakłóceń szumowych obrazów, w obecności któ-

rych przeprowadzone zostały badania tych algorytmów. Scharakteryzowano ponad-

to miary stosowane do oceny numerycznej rozwiązań otrzymywanych przez różne

algorytmy.

6.1. Metody oceny i porównania algorytmów

Porównywanie wyników uzyskiwanych w efekcie działania różnych algoryt-

mów zastosowanych do rozwiązania tego samego zadania, a często również oce-

na przydatności określonego sposobu rozwiązywania zagadnienia do zastosowań

praktycznych, stanowi zazwyczaj trudne i złożone zagadnienie w większości ob-

szarów nauki i techniki. Problem wyboru metod umożliwiających łatwe porówna-

nie rezultatów lub mogących dostarczyć wskazówek co do jakości algorytmu pod-

czas procesu dobierania algorytmu do rozwiązywanego zadania występuje również

w obszarze zagadnień komputerowego przetwarzania obrazów.

Opracowanie metod umożliwiających obiektywne porównywanie wyników, jak

również sposobów oceny ich przydatności do zastosowań praktycznych w obszarze

komputerowego przetwarzania obrazów, stało się przedmiotem dyskusji zapocząt-

kowanej w latach 80 ubiegłego wieku [247, 248] i trwającej nieprzerwanie do dnia

dzisiejszego. Dyskusja ta prowadzona jest zarówno w formie publikacji książko-

wych [249], artykułów [250, 251], jak i cyklicznych dedykowanych spotkań ro-

boczych, np. NIST’s Performance Metrics for Intelligent Systems [252]. Problem

155


6. Kryteria i metody oceny działania algorytmów

obiektywnej metody porównywania otrzymywanych rozwiązań jest przedmiotem

dyskusji również w obszarze zagadnień widzenia stereoskopowego.

Metody widzenia stereoskopowego w ogólności, a szczególnie problem dopa-

sowania obrazów pary stereoskopowej, stanowią bardzo intensywnie badaną dzie-

dzinę i w efekcie tych badań zaproponowanych zostało bardzo wiele różnorodnych

metod umożliwiających uzyskanie rozwiązania. W raporcie z roku 1993 Koschan

[253] oszacował liczbę istniejących rozwiązań na około 200. Kolejne lata przyno-

siły idee nowych rozwiązań [47] i ciągle są proponowane nowe rozwiązania [254,

255, 256, 257, 258, 259, 260] przy równoczesnym braku uznanych metod umoż-

liwiających ocenę ich przydatności do zastosowań praktycznych lub przynajmniej

możliwości ich porównywania pod względem otrzymywanych wyników.

Jednym z powodów takiego stanu rzeczy był na pewno brak odpowiedniego

materiału badawczego mogącego umożliwić przynajmniej próbę obiektywizacji

oceny otrzymywanych rozwiązań. Dostępnych było co prawda kilka standardowych

obrazów, często wykorzystywanych do prezentacji wyników, jednak otrzymywane

wyniki były prezentowane głównie w formie wizualnej jako obrazy w skali sza-

rości, gdzie wartości jasności piksela były uzyskiwane przez przeliczanie wartości

dysparycji [261, 262]. Natomiast ocena rozwiązania odbywała się poprzez ocenę

wizualną tak przedstawianej mapy dysparycji, sprowadzając się do stwierdzenia, że

mapa dysparycji prezentowana jako obraz w skali szarości „na oko wygląda lepiej

lub gorzej” [263].

Dużym krokiem naprzód było zaprezentowanie wyników dla obrazów pary ste-

reoskopowej, dla której znane było idealne rozwiązanie w postaci mapy dysparycji

z ręcznie wyznaczonymi prawdziwymi wartościami [264, 265]. Obrazy te zosta-

ły bardzo szybko zaakceptowane przez społeczność zajmującą się badaniami nad

widzeniem stereoskopowym, która dostrzegła możliwość testowania własnych roz-

wiązań względem istniejącego idealnego rozwiązania znanego pod nazwą „wzor-

cowej mapy dysparycji” (ang. true disparity map). Para stereoskopowa przedsta-

wiona w punkcie 6.3.1 jest dzisiaj jednym z najbardziej znanych i najczęściej wy-

korzystywanych obrazów testowych. Znana jest pod nazwą „Tsukuba” pochodzącą

prawdopodobnie od nazwy macierzystego uniwersytetu jej twórców, tj. „University

of Tsukuba”.

W ostatnich latach pojawiają się nowe projekty, których celem jest wypraco-

wanie jednolitego sposobu postępowania przy ocenie wyników otrzymywanych za

156



pomocą różnych algorytmów. Jednym z pierwszych, który uzyskał równocześnie

najszersze uznanie jest projekt Middlebury Stereo Vision [266] wraz z poświęco-

ną mu stroną internetową [267]. Autorzy tego projektu użyli aktywnej techniki

uzyskiwania obrazów trójwymiarowych opartej o skanowanie laserowe z wyko-

rzystaniem światła strukturalnego [268]. Eksperyment ten został przeprowadzony

w warunkach laboratoryjnych, a w jego efekcie otrzymane zostały pary stereosko-

powe ze znanymi, wzorcowymi mapami dysparycji. Pozwoliło to na zwiększenie

różnorodności materiału badawczego w stosunku do jedynej do tej pory istniejącej

pary stereoskopowej „Tsukuba”. Projekt ten jest ciągle kontynuowany i rozwijany

poprzez akwizycję kolejnych obrazów w formie par stereoskopowych, dla których

wyznaczone i znane są wartości wzorcowej mapy dysparycji.

Drugą istotną cechą projektu Middlebury Stereo Vision jest próba opracowania

uniwersalnej metody porównań algorytmów dopasowania obrazów pary stereosko-

powej. Autorzy tego projektu wykorzystali do tego celu pary stereoskopowe o zna-

nej mapie dysparycji i zaproponowali, aby porównywać algorytmy pod względem

najprostszej, a zarazem najbardziej intuicyjnej miary, jaką jest liczba prawidłowo

dopasowanych pikseli obrazu (tzn. takich, dla których wyznaczona wartość dyspa-

rycji różni się mniej niż o pewien założony błąd od wartości wzorcowej).

Dalszym krokiem mającym na celu polepszenie analizy własności algorytmów

dopasowania jest podział analizowanej sceny przedstawionej na obrazach pary ste-

reoskopowej na trzy rozłączne części i wyznaczanie liczby prawidłowo dopaso-

wanych pikseli odrębnie dla każdej z tych części. Na podział proponowany przez

autorów Middlebury Stereo Vision składają się trzy obszary, którymi są:

— obszar pełnego dopasowania, tzn. taki w którym istnieje jednoznaczna odpwied-

niość pikseli w obu obrazach umożliwiająca ich bezbłędne dopasowanie,

— obszar przesłonięty, tzn. taki w którym piksele nie mogą zostać dopasowane ze

względu na ich obecność tylko w jednym obrazie pary i brak ich odpowiedni-

ków w drugim z obrazów pary,

— obszar nieciągłości dysparycji, tzn. taki w którym zmiana wartości dysparycji

następuje skokowo, co dzieje się głównie na brzegach obiektów widzianych na

obrazach sceny.

Autorzy stworzyli własny zestaw algorytmów wykorzystywanych do rozwiąza-

nia zagadnienia dopasowania obrazów pary stereoskopowej oraz testowania i oceny

osiąganych przez nich rezultatów. Udostępnili ponadto interfejs internetowy, który

157



umożliwia dodanie wyników działania kolejnych algorytmów samodzielnie przez

ich twórców, którzy dodatkowo są do tego zachęcani w celu zwiększenia różno-

rodności dostępnych rozwiązań i wyników. Zbiór testowy wykorzystywany przez

autorów projektu Middlebury Stereo Vision do celów analizy wyników działania

algorytmów składa się z czterech par stereoskopowych. Zawiera parę „Tsukuba”

oraz trzy dodatkowe pary stereoskopowe uzyskane przez autorów w wyniku zasto-

sowania metody skanowania aktywnego.

Pomimo wielu niewątpliwych zalet projektu, wśród których można wymienić

przede wszystkim udostępnienie bez żadnych ograniczeń prawnych par stereosko-

powych ze znanymi (wzorcowymi) mapami dysparycji oraz próbę skolekcjonowa-

nia i usystematyzowania algorytmów stosowanych do rozwiązania problemu do-

pasowania par stereoskopowych, ma on również pewne wady. Jedną z tych wad,

zdaniem autora niniejszej pracy, jest sposób porównywania algorytmów z wyko-

rzystaniem zasady „czarnej skrzynki” (ang. black box). Na stronie internetowej

Middlebury Stereo Vision można co prawda sprawdzić liczbę dopasowywanych

pikseli przez algorytm w regionach określonych przez autorów, ale przy zupełnym

braku jakichkolwiek informacji o innych cechach algorytmu, jak również wielko-

ści błędu jakie były otrzymane w wyniku wykonania algorytmu. Błędy określane

w projekcie Middlebury Stereo Vision wyznaczane są na zasadzie klasyfikacji, bez

żadnego odniesienia się do ich miary liczbowej.

Dodatkowo niewiele wiadomo o parametrach, jakie zastosowali autorzy prezen-

towanych algorytmów w celu uzyskania rozwiązania. Można wysnuć uzasadnione

przypuszczenie, iż autorzy, ze względu na to że strona Middlebury jest prowadzona

na zasadzie rankingu, starali się uzyskać jak najlepsze rezultaty, aby zająć jak naj-

wyższą pozycję w tym rankingu. Prawdopodobnie odbywało się to poprzez celowy

dobór parametrów algorytmów umożliwiających uzyskanie jak najlepszych roz-

wiązań branych pod uwagę w czasie ustalania pozycji algorytmu w rankingu. Brak

jest również jawnej informacji o zastosowanych krokach przetwarzania wstępne-

go i końcowego w zastosowanych algorytmach zarówno w odniesieniu do samych

obrazów wejściowych, jak i otrzymanej mapy dysparycji. Z tego względu wyższa

pozycja w rankingu nie musi świadczyć o obiektywnej poprawie uzyskiwanych

wyników, jak również przewadze prezentowanego algorytmu nad innymi.

Inna warta wspomnienia próba usystematyzowania wyników otrzymywanych

za pomocą różnych algorytmów dopasowania pary stereoskopowej jest związana

158



z propozycją wykorzystania krzywych ROC (ang. Receiver Operating Characteris-

tic) [269] jako obiektywnej miary jakości otrzymywanych rozwiązań. Podobnie jak

w projekcie Middlebury Stereo Vision, również z tą propozycją związana jest strona

internetowa CMP Stereo Algorithm Evaluation [270] prowadzona przez Center for

Machine Perception czeskiego Uniwersytetu Technicznego w Pradze.

Krzywe ROC są ogólnymi narzędziami matematycznymi, które znalazły zasto-

sowanie w różnych dziedzinach. Na przykład, w przetwarzaniu sygnałów, a mówiąc

ściślej w zagadnieniu detekcji sygnałów są one często wykorzystywane do oce-

ny jakości detektorów [271]. Innym przykładem stosowania krzywych ROC jest

ocena dyskryminacyjnych klasyfikatorów, np. danych biomedycznych [272, 273].

Jedną z cech charakterystycznych metod oceny opartych o krzywe ROC jest wy-

maganie zdefiniowania błędów określających układ współrzędnych, w którym są

one wykreślane. W przypadku zastosowaniu krzywych ROC do oceny problemu

decyzyjnego określa się zazwyczaj liczbę przypadków prawdziwie i fałszywie po-

zytywnych oraz prawdziwie i fałszywie negatywnych. Następnie na ich podstawie

wyznaczona zostaje czułość (ang. sensitivity) oraz specyficzność (ang. specifity)

danej metody klasyfikacyjnej [274]. Czułość metody klasyfikacyjnej określa się

jako stosunek liczby przypadków prawdziwie pozytywnych do sumy przypadków

prawdziwie pozytywnych i fałszywie negatywnych. Natomiast specyficzność me-

tody określana jest jako stosunek liczby przypadków prawdziwie negatywnych do

sumy przypadków fałszywie pozytywnych i prawdziwie negatywnych.

Podobne podejście, związane z przedstawieniem problemu dopasowania obra-

zów pary stereoskopowej w ramach problemu decyzyjnego i przeprowadzanie jego

oceny jako metody klasyfikacyjnej, zostało przedstawione przez autorów projektu

CMP Stereo Evalutaion [275]. Autorzy tego projektu zaproponowali wykorzysta-

nie w celu wyznaczania przebiegów krzywych ROC dwa błędy: jednym z nich jest

stopa błędu (ang. error rate) natomiast drugim jest stopa wypełnienia (ang. spar-

sity rate). Stopa błędu wyznaczana jest jako iloraz sumy liczby wszystkich błędnie

znalezionych dopasowań oraz dopasowań znalezionych w obszarach przesłoniętych

do liczby wszystkich pikseli w obrazie. Natomiast stopa wypełnienia określana jest

jako iloraz liczby niedopasowanych pikseli, dla których istnieje prawidłowe dopa-

sowanie (np. w przypadku blokowych braków w wartościach dysparycji, powsta-

jących często przy dopasowywaniu obszarów o braku tekstury) do liczby wszyst-

kich pikseli, jakie można dopasować w obrazie. Błędy te wyznaczają układ współ-

159



rzędnych do wykreślania krzywych ROC oraz są wykorzystywane do definicji dal-

szych możliwych miar, takich jak efektywność metody klasyfikacyjnej określona

jako wartość całki obliczanej dla określonej krzywej ROC lub poprawa klasyfika-

cji określona jako różnica między wartościami całek dwóch krzywych ROC [275,

269].

Inicjatywa ta nie zyskała jednak szerokiej popularności w środowisku osób

zajmujących się przetwarzaniem obrazów. Na stronie projektu CMP Stereo Evalu-

ation przedstawione są jedynie autorskie rozwiązania twórców projektu. Wynika to

prawdopodobnie z trudności jakie wiążą się z uzyskaniem wyników w formie krzy-

wych ROC proponowanych przez autorów. Co prawda umieszczają oni na swojej

stronie internetowej program umożliwiający otrzymywanie krzywych ROC według

zaproponowanej przez nich metody, jednak oprogramowanie to działa w licencjo-

nowanym środowisku obliczeniowym MATLAB® oraz wymaga dużego wkładu

własnego w celu jego uruchomienia oraz uzyskania wyników.

Dodatkowo przy wykorzystaniu krzywych ROC istnieje praktycznie dowolność

w definiowaniu błędów określających układ współrzędnych. W efekcie tego przyj-

mowane są różne definicje błędów określających układ współrzędnych krzywych

ROC. Czasami mimo podobnie brzmiących nazw definicje błędów są różne. Na

przykład w pracach [276, 277] do oceny rozwiązań również zostały zastosowane

krzywe ROC wykreślone w układzie współrzędnych opisanym przez gęstość oraz

stopę błędu. Jednak gęstość określona została jako iloraz liczby prawidłowo dopa-

sowanych pikseli do wszystkich pikseli zawartych w obrazie, natomiast stopa błędu

zdefiniowana została jako iloraz liczby błędnie dopasowanych pikseli do wszystkich

pikseli w obrazie. Dowolność w definiowaniu błędów prowadzi do polemiki co

do zalet i wad poszczególnych definicji wykorzystywanych przez różnych autorów

[278] i praktycznie uniemożliwia porównywanie wyników osiąganych za pomocą

różnych algorytmów przy pozornie tej samej metodzie oceny.

Jako obrazy testowe autorzy projektu CMP Stereo Evaluation wykorzystali pary

stereoskopowe udostępnione w projekcie Middlebury Stereo Vision. Stosując po-

dobną metodę skanowania aktywnego dokonali także akwizycji i udostępnili dodat-

kowe obrazy par stereoskopowych wraz ze wzorcowymi mapami dysparycji [268,

269].

Oprócz ogólnych rozważań dotyczących możliwości porównywania wyników

osiąganych przez różne algorytmy dopasowania pary stereoskopowej coraz czę-

160



ściej pojawiają się prace poświęcone konkretnemu zagadnieniu związanemu z pro-

blemem dopasowania. Jako przykład przytoczyć można pracę Tombariego [279],

w której autor porównał 26 różnych algorytmów dopasowania obszarami wykorzy-

stujących w swoim działaniu zmienny rozmiar okien. Jako zbiór testowy obrazów

wykorzystany został zbiór par stereoskopowych pochodzący z projektu Middlebu-

ry Stereo Vision, a jako rezultaty przedstawione zostały dane liczbowe dotyczące

prawidłowo dopasowanych pikseli w dwóch regionach. Pierwszy z nich to region,

gdzie istnieje pełna jednoznaczność pikseli i możliwe jest prawidłowe dopasowa-

nie, podczas gdy drugi region został określony jako obszar nieciągłości dysparycji

zgodnie z metodyką określoną przez autorów projektu Middlebury Stereo Vision.

Na podstawie powyższych rozważań można wysnuć wniosek, że pomimo pro-

pozycji metodyk mogących ujednolicić sposoby porównywania algorytmów dopa-

sowania par stereoskopowych ciągle brak jest sposobu ogólnie akceptowanego. Ze

względu na obecność i łatwą dostępność wzorcowych map dysparycji standardem

stał się zbiór par stereoskopowych udostępnionych w projekcie Middlebury Stereo

Vision. Także zastosowanie bardzo prostej i intuicyjnie zrozumiałej miary jaką jest

liczba prawidłowo dopasowanych pikseli zyskało szeroką aprobatę.

W celu przeprowadzenia badań eksperymentalnych autor wykorzystał zbiór te-

stowych par stereoskopowych pochodzący z projektu Middlebury Stereo Vision. Po-

szczególne pary stereoskopowe z tego zbioru zostaną przedstawione w sposób bar-

dziej szczegółowy w punkcie 6.3. Dostępność wzorcowych map dysparycji pozwo-

liła na zdefiniowanie intuicyjnie zrozumiałych błędów dopasowania, które omó-

wione będą w punkcie 6.5. Do oceny algorytmów nie wykorzystano metodyki

zaproponowanej w projekcie Middlebury Stereo Vision, ani też opartej o krzy-

we ROC, gdyż implementacja proponowanych w pracy algorytmów nie zawierała

żadnych dodatkowych etapów przetwarzania obrazów. Natomiast w opisanych pro-

jektach ocenie podlegają pełne algorytmy, które często zawierają dodatkowe etapy

przetwarzania, a to uniemożliwiłoby zachowanie obiektywności przy porównywa-

niu rezultatów z algorytmami zaproponowanymi przez autora.

161



6.2. Algorytmy dopasowania w obecności zakłóceń obecnych

w obrazach

Obecność zakłóceń w obrazach jest jednym z ogólnych problemów dotyczących

zagadnień ich przetwarzania. Problem ten występuje również w zagadnieniu dopa-

sowania pary stereoskopowej i stanowi jedno z zagadnień, które zostały poddane

badaniom eksperymentalnym prowadzonym w ramach niniejszej pracy. Pomimo

istotnego znaczenia tego problemu w literaturze można znaleźć jedynie nielicz-

ne prace poświęcone zagadnieniu wpływu zakłóceń na rezultaty otrzymywane za

pomocą różnych algorytmów dopasowania pary stereoskopowej.

Analizie wpływu różnego typu zakłóceń obecnych w obrazach na wyniki do-

pasowania obrazów pary stereoskopowej jest poświęcona praca [138]. Jej autorzy

przedstawili wyniki uzyskane za pomocą 15 różnych algorytmów dopasowania

obrazów pary stereoskopowej działających na obrazach z różnymi zakłóceniami.

W czasie eksperymentu symulowane było zakłócenie liniowe (zmiana wzmocnie-

nia) oraz zakłócenie nieliniowe uzyskiwane przez zastosowanie nieliniowej (wy-

kładniczej) operacji zniekształcenia jasności pikseli obrazów (ang. gamma correc-

tion). Innym zakłóceniem poddanym badaniom przez autorów była symulacja efek-

tu winietowania (ang. vignetting effect), polegającego na niedoświetleniu brzegów

obrazu spowodowanego przez niedoskonałości układu optycznego urządzenia, nie-

odpowiednie oświetlenie lub zakłócenie brzegów toru optycznego urządzenia przez

inne elementy otoczenia. Dodatkowo przeprowadzony został również eksperyment

przy zakłóceniu obrazów szumem gaussowskim. Jako obrazy testowe użyty został

zbiór obrazów z projektu Middlebury Stereo Vision, a jako rezultaty podane zostały

liczby nieprawidłowo dopasowanych pikseli w regionach, gdzie istnieje możliwość

ich jednoznacznego dopasowania.

Zagadnienie wpływu zakłóceń na działanie poszczególnych algorytmów dopa-

sowania pary stereoskopowej obrazów zostało podjęte także przez autora niniej-

szej pracy i stanowi jej istotny element. Ponieważ zarówno rezultaty przytoczone

w [138], jak i podane w innych pozycjach literaturowych, nie mogły – zdaniem

autora – służyć jako miarodajny punkt odniesienia do przeprowadzenia analizy po-

równawczej w pracy przeprowadzono pełne własne analizy wszystkich rozpatry-

wanych dopasowania pary stereoskopowej pod kątem ich wrażliwości na różnego

rodzaju zakłócenia obrazów. Różne typy zakłóceń zostaną dokładnie omówione

162



w p. 6.4, natomiast wyniki przeprowadzonych analiz będą przedstawione w odpo-

wiednich punktach rodziału 7.

6.3. Wzorcowe pary stereoskopowe

W projekcie Middlebury Stereo Vision [267] udostępnionych jest 38 par stereo-

skopowych. Dodatkowe pary ze znanymi mapami dysparycji udostępniane są przez

autorów projektu CMP Stereo Algorithm Evaluation [270]. Jednak najczęściej jako

zbiór obrazów testowych wykorzystywany jest zbiór składający się z czterech par

stereoskopowych. Zbiór ten został użyty również w tej pracy i posłużył autorowi

do przeprowadzenia własnych testów badanych algorytmów dopasowania pary ste-

reoskopowej.

Wymieniony zbiór składa się z pary stereoskopowej „Tsukuba”, przedstawionej

na rys. 6.1, i jak wspomniano wcześniej udostępnionej przez naukowców z Uni-

wersytetu w Tsukubie, oraz trzech dodatkowych par uzyskanych w czasie trwania

projektu Middlebury Stereo Vision znanych pod zwyczajowymi nazwami „Venus”

(rys. 6.2), „Cones” (rys. 6.3) i „Teddy” (rys. 6.4).

Jako najważniejsze cechy obrazów tego zbioru, które decydują o tym, że jest on

dobrym zbiorem testowym par stereoskopowych wykorzystanym do oceny jakości

algorytmów dopasowania, można wymienić:

- Zestaw tych par wyczerpuje praktycznie wszystkie elementy sceny, które można

spotkać w rzeczywistych obrazach. Zawierają one między innymi dużo drob-

nych elementów, duże powierzchnie prostopadłe do płaszczyzny obrazowania

oraz powierzchnie do niej skośne, a także powierzchnie stożkowe, obszary o bra-

ku tekstury i obszary o powtarzającym się wzorze tekstury.

- Ponieważ znane są ich wzorcowe mapy dysparycji, znane są również przedziały

wartości dysparycji w jakich może znajdować się poszukiwana wartość dyspa-

rycji. Ustalenie wartości dopuszczalnego przedziału dysparycji przeszukiwa-

nia, szczególnie w obrazach rzeczywistych, jest dosyć złożonym zagadnieniem

podejmowanym jako jeden z problemów badawczych występujących przy pró-

bach stosowaniu algorytmów widzenia stereoskopowego [280].

- Obrazy tworzące parę stereoskopową są zrektyfikowane, tzn. że wiersze ma-

cierzy składających się na obrazy są równoważne z geometrycznymi liniami

epipolarnymi. W przypadku obrazów zrektyfikowanych poszukiwanie dyspa-

163



rycji odbywa się tylko w kierunku poziomym, co znacząco zmniejsza koszt

wykonywania algorytmu natomiast nie zmniejsza jego ogólności rozwiązania.

W wyniku zastosowania przekształceń geometrycznych w fazie przetwarzania

wstępnego obrazów problem poszukiwania dysparycji w obrazie zawsze mo-

że zostać sprowadzony do poszukiwania dysparycji horyzontalnej [57, 6] (por.

również. p. 2.4.1).

- W obrazach obecne są tylko, poza kilkoma wyjątkami lśniących powierzch-

ni w parze stereoskopowej „Tsukuba”, elementy o powierzchniach lambertow-

skich, tzn. równomiernie rozpraszających światło. Obecność elementów o po-

wierzchniach nielambertowskich, jak np. szyby, lustra, powodują znaczne utrud-

nienia w znajdowaniu prawidłowych dopasowań i stanowią odrębną gałąź badań

nad algorytmami dopasowania pary stereoskopowej [281, 282].

- Wszystkie obrazy zostały uzyskane w warunkach laboratoryjnych, zawierają

więc minimalną liczbę składowych niepożądanych powodowanych przez nie-

jednorodność oświetlenia, zniekształcenia geometryczne, czy szumy [268, 264].

6.3.1. Para stereoskopowa „Tsukuba”

Para stereoskopowa „Tsukuba”, przedstawiona na rys. 6.1a i rys. 6.1b, jest histo-

rycznie jedną z pierwszych par, dla których znana była wzorcowa mapa dysparycji.

Mapa ta została otrzymana w manualny sposób przez przypisanie wartości dyspa-

rycji dla każdego piksela obrazu i przedstawiona została na rys. 6.1c. Para ta cza-

sami bywa nazywana Head and Lamp, prawdopodobnie ze względu na widoczne

na obrazach elementy sceny.

Na parę tę składają się dwa obrazy o rozmiarach 384 × 288 pikseli. Wartości

dysparycji widocznej sceny zmieniają się w zakresie [0, 16] pikseli. W oryginalnej

wzorcowej mapie dysparycji brak jest wyznaczonych wartości na brzegach obra-

zu w pasie o szerokości 16 pikseli. Obrazy tej pary mają najmniejsze rozmiary

z całego zbioru 4 par testowych oraz najmniejszy zakres wartości dysparycji. Dla

prezentacji wizualnej jako obrazu w skali szarości wartości dysparycji mnożone

są przez stałą liczbę równą 16. Cechami charakterystycznymi pary stereoskopowej

„Tsukuba” jest obecność w obrazach obszarów lśniących (powierzchni nielamber-

towskich), które odbijają światło w sposób nierównomierny. Elementami tymi są

półka w lewej górnej części obrazu, powierzchnia lampy i przednia część statuetki.

164



(a) Lewy obraz pary stereoskopowej „Tsukuba” (b) Prawy obraz pary stereoskopowej „Tskuba”

(c) Wzorcowa mapa dysparycji (d) Regiony mapy dysparycji określone wg.Middlebury Stereo Vision.

Rys. 6.1. Testowa para stereoskopowa „Tsukuba” (a) i (b) wraz ze wzorcową mapądysparycji (c) oraz regionami wyznaczonymi w projekcie Middlebury Stereo

Vision (d). Kolor biały – region umożliwiający jednoznaczne dopasowanie, ko-lor czarny – piksele przesłonięte, kolor szary – obszary nieciągłości wartości

dysparycji.

Ze względu na obecność różnych elementów w obrazowanej scenie wartości

dysparycji zmieniają się w sposób ciągły (sferyczna powierzchnia statuetki lub

walcowa lampy), jak również skokowo (np. między kamerą, a ścianą z półkami).

W scenie brakuje natomiast skośnych do płaszczyzny obrazowania płaszczyzn oraz

powtarzających się elementów, a wszystkie proste płaszczyzny są prostopadłe do

płaszczyzny obrazowania. W obrazach znajdują się ponadto regiony o pełnym bra-

ku tekstury (ściana w prawym górnym rogu lub obszar w cieniu poniżej stołu).

165



6.3.2. Para stereoskopowa „Venus”

Para stereoskopowa „Venus” składa się z obrazów przedstawionych na rys. 6.2a

i rys. 6.2b. Obrazy te pochodzą ze zbiorów uzyskanych i udostępnionych w ramach

projektu Middlebury Stereo Vision [267]. Nazwa pary pochodzi prawdopodobnie

od widocznego w prawym dolnym rogu obrazu napisu „Venus”.

(a) Lewy obraz pary stereoskopowej „Venus” (b) Prawy obraz pary stereoskopowej „Venus”

(c) Wzorcowa mapa dysparycji pary „Venus” (d) Regiony mapy dysparycji określone wg.Middlebury Stereo Vision

Rys. 6.2. Testowa para stereoskopowa „Venus” (a) i (b) ze wzorcową mapą dys-parycji (c) oraz regionami dysparycji określonymi według Middlebury Stereo

Vision (d). Kolor biały – obszar o możliwym jednoznacznym dopasowaniu, ko-lor czarny – regiony przesłonięte, kolor szary – regiony nieciągłości dysparycji

Na parę tę składają się dwa obrazy o rozmiarach 434 × 383 pikseli. Wartości

dysparycji zawierają się w przedziale [0, 32] pikseli. Wartości wzorcowej mapy

166



dysparycji wyznaczone zostały za pomocą aktywnej techniki obrazowania trójwy-

miarowego i są określone dla każdego piksela obrazu. W celu prezentacji mapy

dysparycji jako obrazu w skali szarości wartości te mnożone są przez stałą liczbę

równą 8.

Cechą charakterystyczną pary stereoskopowej „Venus” jest konstrukcja obra-

zowanej sceny. Składają się na nią trzy duże powierzchnie skośne do płaszczyzny

obrazowania. Wartości dysparycji określone dla tych powierzchni zmieniają się

w sposób ciągły. Para ta miała być prawdopodobnie w zamierzeniu jej autorów uzu-

pełnieniem pary „Tsukuba” o elementy sceny zawierające duże płaszczyzny sko-

śne do płaszczyzny obrazowania. W obrazach pary obecne są obszary o skokowej

zmianie wartości dysparycji znajdujące się na krawędziach płaszczyzn, a także du-

że obszary o jednolitych wartościach jasności pikseli, klasyfikowane jako obszary

bez tekstury.

6.3.3. Para stereoskopowa „Cones”

Para stereoskopowa „Cones”, której nazwa pochodzi prawdopodobnie od stoż-

ków widocznych na obrazach, pokazana jest na rys. 6.3a i 6.3b. Para ta pochodzi

z projektu Middlebury Stereo Vision i składa się z dwóch obrazów o rozmiarach

540 × 375 pikseli. Parę tę cechuje również dużo większy zakres zmienności dys-

parycji w zawierający się w przedziale [0, 64] pikseli.

Aby przedstawić mapę dysparycji pary „Cones” w postaci obrazu w skali sza-

rości pokazanego na rys.6.3c, wartości dysparycji mnożone są przez liczbę 4. Pa-

ra „Cones” obrazuje bardzo złożoną scenę. Jej cechą charakterystyczną jest bar-

dzo duża liczba powierzchni stożkowych, dla których zmiana dysparycji następuje

w ciągły sposób. W obrazach pary występuje powtarzający się wzór tekstury two-

rzony przez drabinkę umiejscowioną w prawym górnym rogu sceny. W parze ist-

nieje bardzo dużo miejsc o skokowej zmianie dysparycji umieszczonych głównie na

brzegach obrazowanych stożków. Obecne są również obszary o bardzo małym stop-

niu pokrycia teksturą lub jej zupełnym braku (powierzchnia drabinki, powierzchnie

stożków).

167



(a) Lewy obraz pary stereoskopowej „Cones” (b) Prawy obraz pary stereoskopowej „Cones”

(c) Wzorcowa mapa dysparycji (d) Regiony mapy dysparycji określone wg.Middlebury Stereo Vision

Rys. 6.3. Testowa para stereoskopowa „Cones” (a) i (b) wraz z wzorcową mapą dys-parycji (c) oraz regionami dysparycji określonymi według projektu Middlebury

Stereo Vision (d). Kolor biały – obszar umożliwiający znalezienie jednoznacz-nego dopasowania, kolor czarny – region przesłoniętych pikseli, kolor szary –

regiony nieciągłości dysparycji.

6.3.4. Para stereoskopowa „Teddy”

Para stereoskopowa „Teddy” jest przedstawiona na rys. 6.4a i 6.4b. Jej nazwa

pochodzi prawdopodobnie od pluszowych zabawek widocznych w obrazach two-

rzących tę parę. Para ta pochodzi ze zbioru par udostępnionego w projekcie Mid-

dlebury Stereo Vision. Obrazy tworzące parę mają rozmiar 450× 375 pikseli. Dys-

parycja zmienia się w szerokim przedziale wartości wynoszącym [0, 64] pikseli.

168



(a) Lewy obraz pary stereoskopowej „Teddy” (b) Prawy obraz pary stereoskopowej „Teddy”

(c) Wzorcowa mapa dysparycji (d) Regiony mapy dysparycji określone wg.Middlebury Stereo Vision

Rys. 6.4. Testowa para stereoskopowa „Teddy” (a) i (b) wraz ze wzorcową mapądysparycji (c) oraz regionami dysparycji określonymi przez Middlebury Stereo

Vision (d). Kolor biały – region w którym możliwe jest jednoznaczne dopaso-wanie pikseli, kolor czarny – region pikseli przesłoniętych, kolor szary – region

gwałtownych zmian wartości dysparcji.

W celu przedstawienia mapy dysparycji jako obrazu w skali szarości, wartości

dysparycji mnożone są przez 4. Para stereoskopowa „Teddy” jest złożoną sceną za-

równo ze względu na przedmioty tworzące scenę jak i duży zakres dopuszczalnych

wartości dysparycji. W obrazach znajdują się zarówno duże skośne płaszczyzny

o liniowej zmianie wartości dysparycji (dach domku), jak również nieregularna

płaszczyzna tworzona przez materiał umieszczony po lewej stronie obrazu. Obec-

ne są również płaszczyzny walcowe tworzone przez zabawki. Obrazowana scena

zawiera dużą liczbę detali tworzonych przez liście kwiatu w prawym dolnym rogu

169



obrazów i wzór ściany w najdalszej płaszczyźnie obrazu. W obrazach widoczne

są obszary o zupełnym braku tekstury, jak również obszary o dobrym pokryciu

teksturą.

Przedstawiony zbiór obrazów par stereoskopowych wykorzystany został jako

zbiór testowy umożliwiający przeprowadzenie badań eksperymentalnych algoryt-

mów dopasowania pary stereoskopowej. W czasie prowadzenia badań dla obrazów

zakłóconych obrazy testowe były sztucznie zakłócane szumem o zadanej charak-

terystyce. W dalszej części rozdziału omówione zostaną zakłócenia szumowe, dla

których przeprowadzone zostały badania eksperymentalne.

6.4. Charakterystyka zakłóceń szumowych

Pod pojęciem szumu rozumie się zazwyczaj obecność dodatkowych elementów

w obrazie, zazwyczaj niepożądanych i przeszkadzających w prawidłowym rozpo-

znawaniu, przetwarzaniu i interpretacji danych użytecznych składających się na ob-

raz. Zakłócenia szumowe występują praktycznie zawsze w czasie akwizycji i prze-

twarzania obrazów. Ich źródłem są zarówno czynniki zewnętrzne, np. zmienność

oświetlenia w czasie akwizycji obrazów sceny, jak i czynniki wynikające z za-

sad działania urządzeń elektronicznych służących do akwizycji obrazów, np. szum

kwantowania.

Właściwości zakłóceń szumowych obecnych w obrazach charakteryzowane są

zazwyczaj poprzez ich cechy statystyczne. W niniejszej pracy przeanalizowany zo-

stał wpływ czterech rodzajów zakłóceń szumowych na wyniki otrzymywane za

pomocą różnych algorytmów dopasowania pary stereoskopowej. Poniżej zostaną

omówione modele tych zakłóceń.

6.4.1. Podstawowe modele szumu

Jednym z ogólnych modeli szumu jest szum addytywny [38], który może być

modelowany jako niezależna addytywna składowa obrazu. W ogólnym modelu szu-

mu addytywnego przyjmuje się, że wartości szumu opisane są przez pewną zmien-

ną losową o wartościach niezależnych od wartości jasności pikseli obrazu. W przy-

padku, gdy składowa szumowa opisana jest statystycznym rozkładem normalnym,

model ten jest popularnym modelem szumu cieplnego urządzeń elektronicznych

występującego praktycznie w każdym urządzeniu elektronicznym [283].

170



Ogólny model szumu addytywnego wyraża się zależnością:

Ina= I (i, j) + na (i, j) (6.1)

gdzie Ina(i, j) jest jasnością piksela obrazu I położonego na pozycji o współrzęd-

nych (i, j) zakłóconą addytywną składową szumową na (i, j), natomiast I (i, j) jest

jasnością piksela obrazu bez składowej szumowej. Wartości jasności pikseli obrazu

bez zawartości szumu I (i, j) oraz sygnał szumu na (i, j) są zmiennymi niezależny-

mi.

Ponieważ szum addytywny nie jest wystarczający do opisu wszystkich zakłó-

ceń występujących w obrazach, bardzo często stosowany jest drugi ogólny model

szumu nazywany szumem multiplikatywnym [284]. Model szumu multiplikatywne-

go znajduje zastosowanie m.in. w obrazach radarowych uzyskiwanych za pomocą

techniki SAR (ang. Synthetic Aperture Radar) [285] oraz w obrazowaniu medycz-

nym, a szczególnie w obrazowaniu ultrasonograficznym [286, 287].

Najbardziej charakterystyczną cechą szumu multiplikatywnego jest brak nieza-

leżności składowej szumowej od wartości jasności pikseli tworzących obraz. Skła-

dowa szumowa nm (i, j) może być również modelowana różnymi rozkładami pro-

babilistycznymi, ale wartość szumu zawsze zależy od wartości jasności pikseli two-

rzących obraz użyteczny. Ogólny model szumu multiplikatywnego wyraża się wzo-

rem:

Inm= I (i, j) · nm (i, j) (6.2)

gdzie Inm(i, j) jest wartością jasności piksela położnego na pozycji określonej przez

współrzędne (i, j) obrazu zniekształconego przez szumową składową multiplika-

tywną nm (i, j), natomiast I (i, j) jest jasnością piksela obrazu nie zawierającego

zakłóceń szumowych.

Często do zakłóceń obecnych w obrazie nie można dopasować wyłącznie jed-

nego z powyższych modeli szumu, tzn. zakłócenia te nie mogą być modelowane

dokładnie ani szumem addytywnym ani multiplikatywnym. Stąd najbardziej ogól-

ny model szumu zawiera obydwie składowe. Poprzez dobór odpowiednich modeli

statystycznych składowych szumu model ten można dopasować do bardziej złożo-

nych zakłóceń.

171



Model zakłóceń szumowych uwzględniających zarówno składową addytywną

jak i multiplikatywną określony jest wyrażeniem:

In (i, j) = I (i, j) · nm (i, j) + na (i, j) (6.3)

gdzie: nm (i, j) jest zależną statystycznie od zawartości obrazu multiplikatywną

składową szumu, natomiast na (i, j) jest niezależną adddytywną składową szumu.

Podobnie jak poprzednio I (i, j) określa wartość jasności piksela obrazu nie zakłó-

conego, podczas gdy In (i, j) jest jasnością piksela obrazu obarczoną obydwoma

zakłóceniami szumowymi.

Powyższe proste modele zawierają jedynie zakłócenia liniowe. Przykładem szu-

mu, który nie może być opisany tymi modelami jest szum impulsowy [288], którego

szczególny przypadek został omówiony w punkcie 6.4.6.

6.4.2. Miary szumu zawartego w obrazie

Miary zawartości szumu oraz innych niepożądanych składowych w obrazie są

jednym z przedmiotów dyskusji w obszarze cyfrowego przetwarzania obrazów.

Dyskusja ta jest wynikiem chęci znalezienia takiej miary, która odpowiadałaby su-

biektywnym odczuciom człowieka dotyczącym zniekształcenia obrazu [289, 290,

291]. Z drugiej strony w literaturze podawanych jest wiele miar umożliwiających

numeryczne określenie wartości zniekształcenia obrazu [292]. Jedną z najbardziej

znanych, powszechnie akceptowaną i wykorzystywaną miarą, która została wyko-

rzystana również w tej pracy, jest miara określona przez stosunek sygnału do szumu

SNR (ang. Signal to Noise Ratio) [293, 294]. Miarę tę definiuje się w następujący

sposób: jeżeli I (i, j) jest wartością jasności piksela rozważanego obrazu cyfrowe-

go, natomiast In (i, j) jest jasnością tego piksela zakłóconą w wyniku wystąpienia

w obrazie pewnego szumu lub zakłóconego w wyniku przeprowadzenia pewnej

operacji przetwarzania obrazu, np. filtracji to stosunek sygnału do szumu SNR wy-

rażony w dB określony jest wyrażeniem:

SNR = 10 log10

M∑

i=1

N∑

j=1

[

I (i, j)]2

M∑

i=1

N∑

j=1

[

I (i, j) − In (i, j)]2

(6.4)

172



gdzie M i N określają rozmiary obrazu wyrażone w pikselach, natomiast (i, j) okre-

śla położenie piksela w obrazie.

W niniejszej pracy miara SNR (6.4) została użyta do określenia zawartości szu-

mów, dla których wykonane zostały badania algorytmów dopasowania pary stereo-

skopowej, oprócz szumu impulsowego typu „sól i pieprz”. W przypadku zakłóce-

nia obrazu tego typu szumem miara SNR wydaje się być bardzo mało intuicyjna

i dodatkowo, ze względu na skalę logarytmiczną, wykazuje zbyt małą czułość.

Dla określenia zawartości zakłócenia obrazu szumem typu „sól i pieprz” uży-

ta została prosta miara procentowa zdefiniowana jako liczba zakłóconych pikseli

zawartych w obrazie w stosunku do liczby wszystkich pikseli w obrazie. Zgodnie

ze specyfiką tego szumu jasność piksela może być zmieniona tylko do wartości

minimalnej lub maksymalnej (por. p. 6.4.6) i z tego względu prostszym i wygod-

niejszym rozwiązaniem jest podanie procentowej liczby pikseli, które uległy zakłó-

ceniu.

W przypadku szumu „sól i pieprz” miara zawartości szumu w obrazie będzie

oznaczana SP i obliczana ze wzoru:

SP =Ls

N · M · 100% (6.5)

gdzie Ls jest liczbą zakłóconych pikseli.

6.4.3. Szum addytywny o rozkładzie normalnym

Szum o normalnym (gaussowskim) rozkładzie prawdopodobieństwa jest bar-

dzo często stosowanym modelem zakłóceń szumowych. W dziedzinie przetwarza-

nia obrazów znajduje zastosowanie jako model niemożliwych do uniknięcia addy-

tywnych szumów cieplnych urządzeń elektronicznych, model statystycznej niesta-

bilności zliczania fotonów w przetwornikach obrazowych, a także model probabi-

listyczny szumu ziarnistego (ang. grain noise) [283].

W przypadku modelowania addytywnego szumu o rozkładzie normalnym przyj-

muje się, że sygnał użyteczny zostaje zakłócony pewną losową wielkością, której

funkcja gęstości prawdopodobieństwa w przypadku jednowymiarowym ma postać:

p (x) =1

σ√

2πexp

− (x − µ)2

2σ2 (6.6)

173



gdzie µ to wartość średnia rozkładu, natomiast σ to jego wariancja.

Na rysunku 6.5 przedstawiony został przykład zakłócenia wartości jasności pik-

seli obrazu szumem addytywnym o normalnym rozkładzie statystycznym. Poka-

zany został: obraz oryginalny bez obecności szumu (rys. 6.5a), obraz szumu ja-

ko wartości zmiennej losowej (rys. 6.5b), obraz z szumem (rys. 6.5c) oraz histo-

gram wyznaczonego szumu na tle jego teoretycznego rozkładu probabilistycznego

(rys. 6.5d).

(a) Oryginalny lewy obraz pary stereoskopo-wej „Tsukuba”

(b) Obraz szumu o rozkładzie normalnymo poziomie 10dB uzyskany jako różnicaobrazów: zakłóconego i oryginalnego

(c) Obraz z szumem o rozkładzie normal-nym o poziomie 10 dB

I−128 −96 −64 −32 0 32 64 96 1280

14

12

34

1

(d) Histogram oraz funkcja gęstości prawdopodo-bieństwa szumu o rozkładzie normalnym

Rys. 6.5. Zobrazowanie addytywnego szumu o rozkładzie normalnym o poziomie10 dB. W celu poprawienia wizualnej czytelności rysunku zarówno histogramjak i funkcja gęstości prawdopodobieństwa zostały scentrowane i znormalizo-

wane do jedności

Przy wykorzystaniu tego modelu zakłóceń w celu zbadania odporności algo-

174



rytmów dopasowania obrazów pary stereoskopowej na ich obecność w obrazach,

do każdej wartości jasności piksela I pochodzącej z rozważanego obrazu doda-

wana była losowa wartość o rozkładzie (6.6) oraz zadanych wartościach µ i σ.

W przypadku, gdy wartość jasności piksela po zakłóceniu szumem addytywnym

przekraczała granice przedziału jasności obrazów reprezentowanych w skali sza-

rości [0, 255], była ona zaokrąglana do wartości granicznych 0 lub 255. Poziom

szumu równy 10 dB (por. rys. 6.5b i 6.5c) oznacza, że miara (6.4) zawartości tego

szumu w obrazie oryginalnym ma wartość 10 dB.

6.4.4. Szum addytywny o rozkładzie jednostajnym

Szum addytywny o rozkładzie jednostajnym jest bardzo często przyjmowany

jako model zakłóceń powstających w procesie kwantowania ciągłej zmiennej do

formy cyfrowej [283]. W dziedzinie przetwarzania obrazów zjawisko to zachodzi

najczęściej na etapie akwizycji obrazów, gdy ciągła funkcja jasności zapisywana

jest przez dyskretne wartości jasności pikseli tworzące obraz cyfrowy.

Rozkład prawdopodobieństwa szumu jednostajnego [295] opisany jest funkcją

gęstości prawdopodobieństwa:

p (x) =

0 dla x < a1

b − adla a 6 x 6 b

0 dla x > b

(6.7)

gdzie wartości parametrów a i b ustalają przedział przyjmowanych wartości na skali

szarości.

Przykład zakłócenia obrazu szumem o rozkładzie jednostajnym został przed-

stawiony na rys. 6.6. Rysunek 6.6a przedstawia oryginalny obraz. Na rys. 6.6b

przedstawiony został szum jako obraz w skali szarości, rys. 6.6c przedstawia obraz

z zawartym w nim szumem, natomiast rys. 6.6d prezentuje histogram szumu na tle

jego teoretycznego rozkładu probabilistycznego.

175




(b) Obraz szumu o rozkładzie jednostajnymo poziomie 10 dB otrzymany jako różni-ca obrazów: zakłóconego i oryginalnego

(c) Obraz „Tsukuba” zakłócony szumemo rozkładzie jednostajnym o poziomie

10 dB

I−128 −96 −64 −32 0 32 64 96 1280

14

12

34

1

(d) Histogram oraz funkcja gęstości prawdopodo-bieństwa szumu jednostajnego

Rys. 6.6. Zobrazowanie addytywnego szumu o rozkładzie jednostajnym o poziomie10dB. W celu poprawienia czytelności obrazu, zarówno histogram jak i funkcjagęstości prawdopodobieństwa zostały scentrowane i unormowane do wartości 1

6.4.5. Szum multiplikatywny

Szum multiplikatywny, nazywany szumem plamkowym (ang. speckle noise)

[296], jest najczęstszą wadą obrazów uzyskiwanych za pomocą systemów obrazo-

wania używających koherentnej demodulacji odbitej fali elektromagnetycznej lub

fal dźwiękowych. Dobrze znanymi przykładami tak uzyskiwanych obrazów są ob-

razy radarowe i sonarowe oraz medyczne obrazy ultradźwiękowe USG.

Do modelowania rozkładu szumu multiplikatywnego używane są rozkłady praw-

dopodobieństwa: Rayleigha, Gamma lub wykładniczy [297, 298, 283]. Czasami

176



stosowanym rozkładem szumu multiplikatywnego jest szum o rozkładzie jedno-

stajnym określony wzorem (6.7). Taki model przyjmowany jest np. przy analizie

obrazów satelitarnych [299] i ze względu na prosty opis statystyczny został również

wykorzystany w tej pracy jako reprezentant multiplikatywnego typu zakłócenia ob-

razu opisanego wzorem (6.2).


(b) Obraz szumu multiplikatywnego o pozio-mie 10 dB otrzymany jako różnica obra-

zów: zakłóconego i oryginalnego

(c) Obraz „Tsukuba” zakłócony szumemmultiplikatywnym o poziomie 10 dB

I−128 −96 −64 −32 0 32 64 96 1280

14

12

34

1

(d) Histogram oraz funkcja gęstości prawdopodo-bieństwa szumu multiplikatywnego

Rys. 6.7. Przykład zakłócenia obrazu szumem multiplikatywnym o poziomie 10dB. Histogram oraz funkcja gęstości prawdopodobieństwa zostały scentrowanei unormowane do wartości 1 w celu lepszej czytelności rysunku. Widocznajest zmiana kształtu histogramu ze względu na mnożenie wartości szumu przezjasność piksela, natomiast teoretyczny rozkład prawdopodobieństwa pozostajetaki sam, jak w przypadku zakłócenia adddytywnym szumem jednostajnym

Na rys. 6.7 przedstawiony został przykład zakłócenia obrazu szumem multi-

177



plikatywnym. Rys. 6.7c przedstawia obraz z zawartym w nim szumem otrzyma-

ny w wyniku zastosowania wzoru (6.2). Na rys. 6.7b przedstawiony został obraz

szumu uzyskany jako różnica arytmetyczna między obrazem zakłóconym szumem

(rys. 6.7c), a obrazem oryginalnym (rys. 6.7a). Wyraźnie widać zależność wartości

szumu od wartości jasności pikseli obrazu. Rys. 6.7d przedstawia rozkład prawdo-

podobieństwa szumu na tle uzyskanego histogramu. Wyraźnie widać rozbieżność

pomiędzy teoretycznym rozkładem prawdopodobieństwa a wartościami histogra-

mu szumu, które uzależnione są od wartości jasności pikseli.

6.4.6. Szum impulsowy typu „sól i pieprz”

Szum impulsowy jest modelem szumu, który może powstawać w efekcie błę-

dów podczas transmisji obrazów, błędów przetworników A/C, a także w wyniku

uszkodzeń matryc urządzeń do akwizycji obrazów lub uszkodzeń komórek pamięci

urządzeń, w których obraz jest przechowywany [300, 301]. Wizualnie szum im-

pulsowy objawia się na obrazie w postaci ciemnych i jasnych pikseli widocznych

w obrazie. W przypadku granicznym, gdy wartości zakłóceń są równe zakresowi

dynamicznemu wartości jasności pikseli uwidacznia się on w postaci białych lub

czarnych pikseli.

Szum impulsowy należy do zakłóceń nieliniowych [288], tzn. takich, których

nie da się opisać za pomocą parametrów składowych na oraz nm w wyrażeniu (6.3).

Rozkład prawdopodobieństwa szumu impulsowego jest rozkładem dwupunktowym

[295]:

p (x) =

Pa dla x = a

Pb = 1 − Pa dla x = b

0 w przeciwnym przypadku

(6.8)

Jeżeli b > a, to poziom jasności b będzie widoczny w obrazie jako jasny piksel.

I odwrotnie, poziom jasności a będzie widoczny w obrazie o skali szarości jako

ciemny piksel. W przypadku, gdy jedno z prawdopodobieństw Pa lub Pb będzie

równe zero, w obrazie widoczne będą zakłócenia w postaci pikseli jednego rodzaju,

a rozkład prawdopodobieństwa (6.8) redukuje się do rozkładu jednopunktowego.

Najbardziej znanym typem szumu impulsowego jest szum znany pod nazwą

„sól i pieprz”. Szum tego rodzaju powstaje wtedy, gdy żadne z prawdopodobieństw

178



rozkładu szumu impulsowego nie jest równe zero i ponadto mają one w przybli-

żeniu równe wartości. W przypadku, gdy wartości impulsów szumu przybierają

wartości graniczne, które w przypadku 8-bitowego obrazu wynoszą a = 0 (kolor

czarny) i b = 255 (kolor biały), obraz zostaje zakłócony czarnymi (pieprz) oraz

białymi (sól) pikselami.


(b) Obraz szumu „sól i pieprz” o zawartości10%

(c) Lewy obraz pary stereoskopowej „Tsu-kuba” zakłócony szumem typu „sól

i pieprz” o zawartości 10%

I−32 0 32 64 96 128 160 192 224 2550

14

12

34

1

(d) Histogram oraz funkcja gęstości prawdopodo-bieństwa szumu typu „sól i pieprz”

Rys. 6.8. Zobrazowanie zakłócenia obrazu szumem typu „sól i pieprz” o zawartości10%. Podobnie jak w przypadku poprzednich zakłóceń zarówno histogram jak

i funkcja gęstości prawdopodobieństwa zostały unormowane do wartości 1.

Zakłócenie szumem typu „sól i pieprz” zilustrowane zostało na rys. 6.8, gdzie

rys.6.8b przedstawia obraz szumu w postaci białych (sól) i czarnych (pieprz) kro-

179



pek. Rysunek 6.8c przedstawia obraz z zawartym w nim zakłóceniem, natomiast na

rys. 6.8d przedstawiony został histogram szumu na tle jego rozkładu teoretycznego.

6.5. Miary oceny jakości rozwiązań

Na podstawie przedstawionej wcześniej dyskusji można stwierdzić, że mimo

prób wprowadzenia jednolitej metodyki oceny rozwiązań algorytmów dopasowa-

nia pary stereoskopowej ciągle brak jest kryteriów oceny, które wyznaczałyby sze-

roko przyjęty standard.

W pracy skupiono się na możliwościach zastosowania elementów teorii zbio-

rów rozmytych w celu rozwiązania zadania dopasowania pary stereoskopowej.

W opracowanych algorytmach nie wykorzystano żadnych dodatkowych kroków

przetwarzania wstępnego obrazów, ani przetwarzania końcowego otrzymanych map

dysparycji w celu uzyskania poprawy otrzymywanych wyników. Celem przeprowa-

dzonych badań było uzyskanie odpowiedzi na pytanie, czy zastosowanie elementów

teorii zbiorów rozmytych w algorytmie dopasowania pary stereoskopowej pozwala

na uzyskanie innych wyników, niż wyniki otrzymywane za pomocą algorytmów,

w których nie wykorzystuje się tej teorii. Przeprowadzone badania umożliwiły po-

równanie opracowanych algorytmów z najbliższymi co do idei działania algoryt-

mami dopasowania wykorzystującymi obrazy w skali szarości. Aby jak najbardziej

zobiektywizować otrzymywane rezultaty przyjęte zostały takie miary, które w zało-

żeniu mają umożliwić obiektywne porównanie i ocenę otrzymywanych rozwiązań.

Starano się również zachować jak największą obiektywność uzyskiwanych wyni-

ków. Została ona osiągnięta poprzez zachowanie w implementacjach prezentowa-

nych algorytmów dokładnie takich samych warunków i stałości parametrów algo-

rytmów, jak również nie stosowanie dodatkowych kroków przetwarzania obrazów

wejściowych, ani też kroku końcowego przetwarzania mapy dysparycji.

Istotną częścią pracy jest również badanie jakości uzyskiwanych rozwiązań

w obecności zakłóceń szumowych. Aby uzyskać jakościowe i ilościowe wyniki,

poddano badaniom wszystkie algorytmy przy takich samych poziomach zakłóceń

obecnych w obrazach.

180



6.5.1. Ocena efektywności algorytmów dopasowania cechami

W przypadku algorytmów dopasowania cechami najpierw badana była liczba

pikseli zaklasyfikowanych przez algorytm jako piksele charakterystyczne obrazu

i określana była procentowa liczba wykrytych pikseli charakterystycznych w sto-

sunku do wszystkich pikseli składających się na obraz. Jeżeli Pch jest liczbą wy-

krytych pikseli charakterystycznych, to ich procentowa zawartość w obrazie była

obliczana ze wzoru:

Lch =Pch

M · N · 100% (6.9)

gdzie M i N są rozmiarami obrazu wyrażonymi w liczbach pikseli.

W drugim kroku badana była zdolność algorytmu do prawidłowego dopasowa-

nia pikseli zaklasyfikowanych jako piksele charakterystyczne. W tym celu, po wy-

znaczeniu zbioru pikseli charakterystycznych, dla każdego elementu tego zbioru

dokonywane było sprawdzenie, czy jest on prawidłowo dopasowany. Aby spraw-

dzić prawidłowość dopasowania obliczany był błąd bezwzględny między wyzna-

czoną wartością dysparycji dch(i, j) piksela charakterystycznego położonego na po-

zycji obrazu o współrzędnych (i, j) a wzorcową wartością tej dysparycji dre f

ch(i, j)

określoną na podstawie wzorcowej mapy dysparycji. Inaczej mówiąc, dla każdego

piksela zaklasyfikowanego przez algorytm jako piksel charakterystyczny obliczane

były wartości błędów bezwzględnych:

Err (i, j) = |dch (i, j) − dre f

ch(i, j)| (6.10)

Przyjęto założenie, że piksel o współrzędnych (i, j) jest prawidłowo dopasowa-

ny, jeśli wartość dch(i, j) dysparycji obliczanej różni się od wartości dre f

ch(i, j) dys-

parycji wzorcowej co najwyżej o 1, tzn. jeśli błąd bezwzględny Err(i, j) 6 1. Jest to

założenie powszechnie przyjmowane w literaturze [302, 303, 304, 305, 306] i wy-

nika z faktu, że dysparycja jest w praktyce obliczana z dokładnością do jednego pik-

sela z uwagi na cyfrową reprezentację obrazów w formie liczb stałoprzecinkowych,

mimo że w istocie rzeczy wartości dysparycji mogą zmieniać się w sposób ciągły,

szczególnie w przypadku obecności skośnych powierzchni w obrazowanej scenie.

Inny sposób dyskretyzacji obrazów lub na przykład zastosowanie przetworników

A/C o innej rozdzielczości może spowodować, że wyznaczone wartości dysparycji

są ułamkowe. W przyjętym sposobie reprezentacji obrazu wartości te są następnie

odpowiednio zaokrąglane.

181



Oznaczając przez Dch = (i, j) : Err(i, j) 6 1 zbiór prawidłowo dopasowanych

pikseli spośród pikseli zaklasyfikowanych przez algorytm jako piksele charaktery-

styczne, definiujemy ich procentowy udział w obrazie jako:

Lch =Dch

M · N · 100% (6.11)

gdzie Dch jest licznością zbioru Dch. Procentowy udział wykrytych i prawidłowo

dopasowanych przez algorytm pikseli charakterystycznych w całym obrazie, okre-

ślony wzorem (6.11), przyjęto w pracy za miarę efektywności algorytmu dopaso-

wania cechami.

6.5.2. Ocena efektywności algorytmów dopasowania obszarami

Analogiczne kryterium oceny efektywności algorytmu przyjęto w przypadku

algorytmów dopasowania obszarami. Także w tym przypadku wykorzystywana jest

wzorcowa mapa dysparycji, na podstawie której dla każdego piksela (i, j) obrazu

wyznaczany jest lokalny błąd bezwzględny dopasowania piksela:

Err (i, j) = |d (i, j) − dre f (i, j)| (6.12)

gdzie d(i, j) jest wartością dysparycji piksela (i, j) obliczona przez algorytm, zaś

dre f (i, j) jest wartością dysparycji tego piksela określoną na podstawie dostępnej

wzorcowej mapy dysparycji.

Błąd globalny algorytmu dopasowania

Jako prostą, naturalną miarę globalną jakości rozwiązań otrzymywanych za po-

mocą algorytmów dopasowania obszarami przyjęto liczbę prawidłowo dopasowa-

nych pikseli wyrażoną procentowo w stosunku do wszystkich pikseli składających

się na obraz. Jeżeli przez D = (i, j) : Err(i, j) 6 1 oznaczymy zbiór prawidłowo

dopasowanych pikseli, to miara ta jest określona wzorem:

Ld =D

M · N · 100% (6.13)

182



Przyjęte tu zostało założenie, analogiczne jak w przypadku algorytmów dopaso-

wania cechami, że wartość dysparycji różniąca o się co najwyżej o 1 od wartości

wzorcowej jest wartością prawidłową.

Oszacowanie spójności mapy dysparycji

Ważną cechą otrzymywanych map dysparycji jest ich wypełnienie rozumia-

ne jako liczba prawidłowych dopasowań. Zazwyczaj jednak w mapie dysparycji

otrzymanej w wyniku działania algorytmu pozostają błędne wartości dysparycji.

Sytuacja taka ma na przykład miejsce przy próbie znalezienia wartości dysparycji

dla regionów obrazu o zupełnym braku tekstury. Miara opisana w tym punkcie

ma za zadanie dostarczyć numerycznego oszacowania liczby błędnych dopasowań.

Przy czym przyjęto założenie, że miara ta będzie pozwalała na oszacowanie liczby

błędnych dopasowań pozostających w swoim bliskim sąsiedztwie, tworzących gru-

py błędnie obliczonych wartości dysparycji. Grupy błędnych dopasowań określane

będą jako błędne izolowane dopasowania.

Miarę tę można określić przez liczbę wartości dysparycji w relatywnie „ma-

łych” regionach, w których wartości dysparycji różnią się od sąsiednich regionów

w sposób „znaczący”. Grupa wartości dysparycji znacznie odbiegająca wartością

od wartości pozostających w jej sąsiedztwie ma prawdopodobnie błędnie obliczone

wartości.

W celu oszacowania liczby pikseli o błędnie znalezionych wartościach dyspa-

rycji, które dodatkowo pozostają w grupie, wykorzystany został prosty algorytm

kolorowania plam (ang. blob coloring) [307].

Jeżeli przez Dizol = (i, j)izol oznaczymy zbiór pikseli o dysparycjach okre-

ślonych przez algorytm 6.1 jako błędne izolowane dopasowania, to procentowa

zawartość błędnych izolowanych dopasowań w całej mapie dysparycji określona

jest wzorem:

Lizol =Dizol

M · N · 100% (6.14)

Oszacowanie dokładności mapy dysparycji

W pracy badano również dokładność rozwiązań otrzymanych za pomocą róż-

nych algorytmów dopasowania obrazów pary stereoskopowej. Jako miarę dokład-

ności przyjęto unormowany empiryczny błąd średniokwadratowy RMSE (ang. Root

183



Algorytm 6.1 Kolorowanie plam

Dane wejściowe: Obliczona mapa dysparycji d o rozmiarach M na N

Dane wejściowe: Okno sąsiedztwa o rozmiarach x_okna, y_okna orazzadany_prog

x_brzeg = f loor(x_okna/2)y_brzeg = f loor(y_okna/2)obszar = x_okna ∗ y_okna

for i = x_brzeg+ 1 to M − x_brzeg do

for j = y_brzeg+ 1 to N − y_brzeg do

dla danego położenia (i, j) okna sumuj wartości dysparycji znajdującychsię w oknie, wynik zapisz jako suma

oblicz średnią wartość dysparycji w oknie srednia = suma/obszar

oblicz różnicę R (i, j) = abs (d (i, j) − srednia)if R(i, j) > zadany_prog then

oznacz bieżącą wartość dysparycji d(i, j) jako izolowaną dizol (i, j)end if

end for

end for

Zwróć: Mapę dysparycji z błędnie wyznaczonymi izolowanymi dopasowaniamidizol

Mean Square Error), który obliczany był ze wzoru:

RMSE =

√

√

√

1M · N

M−1∑

i=0

N−1∑

j=0

[

d (i, j) − dre f (i, j)]2 (6.15)

gdzie d(i, j) jest obliczoną wartością dysparycji piksela położonego na pozycji

(i, j), dre f (i, j) jest wartością wzorcową dysparycji tego piksela, zaś M i N są roz-

miarami mapy dysparycji.

184


Rozdział 7

Wyniki badań eksperymentalnych

W rozdziale przedstawiono wyniki weryfikacji eksperymentalnej opracowa-

nych algorytmów dopasowania pary stereoskopowej. Materiałem testowym był

zbiór czterech wzorcowych par stereoskopowych opisanych w poprzednim roz-

dziale. Zbadano między innymi efektywność zaproponowanego algorytmu dopa-

sowania cechami wykorzystującego w swoim działaniu opracowany przez auto-

ra detektor krawędzi oparty na rozmytej relacji podobieństwa. Otrzymane wyniki

porównano z wynikami uzyskanymi za pomocą algorytmu dopasowania cechami

Marra-Poggio-Grimsona (MPG). Przedstawiono również wyniki testów zapropo-

nowanych algorytmów dopasowania pary stereoskopowej obszarami, działających

na reprezentacjach obrazów w dziedzinie zbiorów rozmytych i w dziedzinie in-

tuicjonistycznych zbiorów rozmytych. Uzyskane wyniki porównano z wynikami

otrzymanymi za pomocą algorytmów dopasowania obszarami działającymi w dzie-

dzinie jasności pikseli. W drugiej części rozdziału omówiono wyniki testowania

opracowanych algorytmów w przypadku występowania w obrazach pary stereo-

skopowej różnego rodzaju zakłóceń szumowych.

Wyniki badań przedstawiono w formie umożliwiającej łatwe i poglądowe po-

równanie zaproponowanych algorytmów z algorytmami literaturowymi. Wszyst-

kie otrzymane rezultaty opatrzone zostały komentarzami i nasuwającymi się na ich

podstawie wnioskami. Rozdział kończy krótkie podsumowanie przeprowadzonych

eksperymentów.

7.1. Założenia oceny efektywności działania algorytmów


Prezentowane w tym rodziale rezultaty weryfikacji eksperymentalnej działania

zaproponowanych algorytmów dopasowania pary stereoskopowej zostały otrzyma-

ne w wyniku zastosowania każdego z tych algorytmów w odniesieniu do czterech

wytypowanych wcześniej wzorcowych par stereoskopowych. We wszystkich algo-

rytmach przedziały poszukiwania wartości dysparycji dla danej pary stereoskopo-

185


7. Wyniki badań eksperymentalnych

wej zostały ograniczone do wartości określonych indywidualnie dla danej wzorco-

wej pary stereoskopowej w punkcie 6.3.

Podczas obliczania wyników numerycznych nie były uwzględniane wartości

dysparycji dla pikseli znajdujących się w przesłoniętych regionach obrazów pary

stereoskopowej. Regiony przesłonięte były określone zgodnie z maskami je wy-

znaczającymi przedstawionymi w punkcie 6.3. W regionach tych prawidłowe do-

pasowania i tym samym prawidłowe wartości dysparycji nie mogą zostać znale-

zione bez zastosowania dodatkowych kroków wykonywanych w czasie działania

algorytmu lub implementacji metod wykrywania takich regionów. Gdyby regiony

przesłonięte nie były wykluczone a priori, wówczas w wyniku badania algorytmów

nie zawierających takich kroków, a tylko takie algorytmy były badane w niniejszej

pracy, otrzymywane wyniki zostałby obciążone dodatkowymi błędnymi wartościa-

mi utrudniającymi wykonanie analizy rozwiązań i ich obiektywne porównanie.

Regiony obrazów, w których występują duże zmiany wartości dysparycji, okre-

ślone dla badanych par stereoskopowych przez maski opisane w punkcie 6.3, trakto-

wane były podczas obliczeń tak samo jak obszary, w których istnieje jednoznaczne

dopasowanie pikseli. Ponieważ dla pikseli położonych w tych regionach wartości

dysparycji mogą zostać znalezione, w czasie prowadzonych eksperymentów nie

zostały one wyróżnione jako obszary specjalne obrazów, ani też nie podlegały spe-

cjalnemu traktowaniu.

W wynikach nie uwzględniano wartości dysparycji określonych dla pikseli znaj-

dujących się na brzegach obrazów w pasach o szerokości równej rozmiarowi po-

łowy okna przeszukiwania. Wiąże się to z ogólnym problemem implementacji al-

gorytmów przetwarzania obrazów wynikającym z faktu, że ich przetwarzanie na

brzegach jest bardzo trudne i wymaga zastosowania specjalnych metod. W prezen-

towanej pracy postanowiono pominąć te piksele, a wyniki przedstawiać tylko dla

obszarów w pełni obejmowanych przez okna. W konsekwencji, podczas oblicza-

nia wielkości wyrażonych jako miary procentowe pikseli w obrazie uwzględniano

zmniejszenie rozmiarów obrazów o pasy o szerokości równej połowie rozmiaru

okna przeszukiwania.

Ważnym założeniem, jakie przyjęto przy ocenie efektywności działania algo-

rytmów, jest także to, że otrzymane wyniki obliczeń są prezentowane jako średnie

arytmetyczne rezultatów uzyskanych dla każdej pary stereoskopowej oddzielenie.

Prezentacja wyników w tej formie pozwoliła na uniezależnienie się od zawarto-

186



ści jednej sceny przedstawionej na poszczególnych obrazach pary stereoskopowej,

jak również od cech charakterystycznych danej pary stereoskopowej. Umożliwiło

to równocześnie uogólnienie analizy i bardziej ogólną ocenę wyników osiąganych

przez różne algorytmy dopasowania dla różnych obrazów par stereoskopowych.

7.2. Podstawowe parametry działania algorytmów

dopasowania cechami

W algorytmie MPG podstawowymi parametrami, które muszą zostać dobra-

ne w początkowej fazie implementacji algorytmu są: liczba filtrów LoG oraz roz-

miary masek zastosowanych filtrów (por. p. 3.4.1). W pracy założono, że liczba

filtrów LoG jest ustalona i równa 4. Liczba ta, przy braku innych przesłanek, zosta-

ła wybrana jako najczęściej przyjmowana w literaturze (por. rys. 7.1). Natomiast

rozmiary masek zastosowanych filtrów zostały dobrane w sposób doświadczalny.

Wybrane zostały takie rozmiary masek filtrów LoG, które dla badanej grupy par

stereoskopowych pozwoliły na uzyskiwanie najlepszych rozwiązań pod względem

zastosowanych miar ich oceny.

Podobna sytuacja ma miejsce w przypadku algorytmu dopasowania cechami

opartego o rozmyty detektor krawędzi, w którym należy dobrać rodzaj stosowa-

nej rozmytej relacji podobieństwa w algorytmie detekcji krawędzi oraz rozmiar

sąsiedztwa badanego piksela, które jest używane podczas detekcji krawędzi (por.

p. 5.8.3). Zdecydowano, że przy braku przesłanek teoretycznych umożliwiających

dobór tych parametrów algorytmu zostaną one dobrane na podstawie przeprowa-

dzonych doświadczeń z zastosowaniem różnych rozmytych relacji podobieństwa

i rozmiarów sąsiedztw. Do dalszych analiz wybrane zostały parametry pozwalają-

ce na uzyskiwanie najlepszych rozwiązań pod względem miar zastosowanych do

oceny jakości algorytmu.

Na rys. 7.1 przedstawione zostały wyniki badań algorytmu MPG o różnych roz-

miarach masek filtrów LoG. W załączonej tabeli poszczególne warianty algorytmu

różniące się rozmiarami masek oznaczono literami od A do J. Podano także numer

pozycji literatury, w której dany wariant algorytmu został opisany. Przedmiotem

obliczeń były średnie procentowe wartości liczby znalezionych charakterystycz-

nych, tj. krawędziowych pikseli obrazu oraz średnie procentowe wartości liczby

prawidłowo dopasowanych pikseli odniesione do wszystkich pikseli w obrazie.

187



Pierwszym wnioskiem, który może być wysnuty na podstawie otrzymanych re-

zultatów jest stwierdzenie, że zastosowanie dużych masek filtrów LoG daje gorsze

wyniki. Duże maski filtrów LoG zastosowane zostały w wariantach algorytmu C,

E i H, dla których otrzymano najmniejszą liczbę pikseli klasyfikowanych jako nale-

żące do krawędzi zawartych w obrazie. Zwiększenie rozmiarów masek filtrów LoG

prowadzi zatem do zmniejszenia liczby pikseli klasyfikowanych jako należące do

krawędzi w obrazie, co pociąga za sobą spadek liczby prawidłowo dopasowanych

pikseli. W efekcie zastosowania algorytmu J oraz A otrzymywane są najlepsze re-

zultaty zarówno pod względem liczby pikseli klasyfikowanych jako należące do

krawędzi, jak i pod względem liczby prawidłowo dopasowanych pikseli. Jako al-

gorytm do przeprowadzenia dalszych badań, a zarazem algorytm odniesienia do

zaproponowanego przez autora algorytmu dopasowania wykorzystującego rozmy-

tą relację podobieństwa w celu detekcji krawędzi zawartych w obrazie, wybrany

został wariant J algorytmu, pozwalający na uzyskanie najlepszych rezultatów na

testowanym zbiorze par stereoskopowych.

A B C D E F G H I J0

1

2

3

4

5

6

7

Algorytm

%pi

ksel

iobr

azu

Liczba pikseli krawędziowychLiczba pikseli dopasowanych

Alg. Rozmiar LoG Bib.A 17, 13, 9, 5 [310]B 33, 17, 9, 5 [310]C 72, 36, 18, 9 [311]D 35, 17, 9, 4 [312]E 105, 51, 27, 13 [313]F 63, 35, 17, 9 [314]G 35, 21, 17, 9 [315]H 81, 41, 21, 11 [316]I 35, 27, 21, 13 *J 13, 9, 5, 3 *

Rys. 7.1. Średnie procentowe wartości znalezionych charakterystycznych (krawę-dziowych) i prawidłowo dopasowanych pikseli dla poszczególnych wariantówalgorytmu MPG oraz oznaczenie algorytmów o określonych maskach filtrów

LoG wraz z numerem pozycji literaturowej, gdzie algorytm został opisany

W przypadku autorskiego algorytmu wykorzystującego detektor krawędzi opar-

ty o rozmytą relację podobieństwa, zastosowano dwa typy rozmytej relacji podo-

bieństwa: trójkątną i gaussowską (por. p. 4.5.1). Średnie procentowe liczby pikseli

obrazów określonych jako należące do krawędzi oraz średnie procentowe liczby

prawidłowo dopasowanych pikseli w przypadku trójkątnej relacji podobieństwa

188



przedstawione zostały na rys. 7.2a, zaś w przypadku gaussowskiej relacji podo-

bieństwa na rys. 7.2b. Dla każdego typu relacji podobieństwa przeprowadzone zo-

stały obliczenia z zastosowaniem dwóch rozmiarów sąsiedztw zawierających 8 i 24

pikseli.

3×3

5×5

7×7

9×9

11×11

13×13

15×15

17×17

19×19

21×21

0123456789

101112

Rozmiar okna korelacji [piks.]

%pi

ksel

iobr

azu

znalezionych; (8 piks. sąsiedz.)dopasowanych; (8 piks. sąsiedz.)znalezionych; (24 piks. sąsiedz.)dopasowanych; (24 piks. sąsiedz.)

(a) Trójkątna relacja podobieństwa

3×3

5×5

7×7

9×9

11×11

13×13

15×15

17×17

19×19

21×21

0123456789

101112

Rozmiar okna korelacji [piks.]

%pi

ksel

iobr

azu

znalezionych; (8 piks. sąsiedz.)dopasowanych; (8 piks. sąsiedz.)znalezionych; (24 piks. sąsiedz.)dopasowanych; (24 piks. sąsiedz.)

(b) Gaussowska relacja podobieństwa

Rys. 7.2. Średnie procentowe wartości znalezionych i prawidłowo dopasowanychkrawędziowych pikseli obrazu przy zastosowaniu trójkątnej (a) i gaussowskiej(b) rozmytej relacji podobieństwa w algorytmie wykrywania krawędzi oraz róż-nych rozmiarów sąsiedztwa względem rozmiarów okien referenycjnego i prze-

szukiwania

Z porównania otrzymanych wyników można zauważyć, że przy zastosowaniu

gaussowskiej relacji podobieństwa zarówno liczba pikseli określonych jako nale-

żące do krawędzi, jak i liczba prawidłowo dopasowanych pikseli jest około 1%

mniejsza, niż przy zastosowaniu trójkątnej relacji podobieństwa. Ze względu na

swój kształt rozmyta relacja podobieństwa typu gaussowskiego mniej różnicuje

wartości jasności pikseli w sąsiedztwie piksela, co zmniejsza zdolność algorytmu

do detekcji pikseli krawędziowych. Przekłada się to na mniejsza liczbę prawidłowo

dopasowanych pikseli w stosunku do trójkątnej relacji podobieństwa, w przypadku

której zdolność różnicowania wartości jasności pikseli jest zdecydowanie większa.

Wpływ rozmiaru sąsiedztwa zarówno na liczbę pikseli określanych jako nale-

żące do krawędzi w obrazach, jak i na liczbę prawidłowo dopasowanych pikseli jest

niewielki. Można jednak zauważyć, że ze zwiększeniem ilości informacji o poło-

189



żeniu danego piksela względem sąsiadów przez zwiększenie rozmiaru sąsiedztwa

badanego piksela osiągane są wyższe procentowe wartości zarówno wykrytych pik-

seli krawędziowych jak i ilości pikseli prawidłowo dopasowanych.

Ze względu na otrzymane wyniki do dalszych badań wybrany został algorytm

dopasowania wykorzystujący w kroku znajdowania pikseli charakterystycznych roz-

mytą relację podobieństwa kształtu trójkątnego przy ustalonym rozmiarze sąsiedz-

twa badanego piksela równym 24 piksele.

Rezultaty przeprowadzonych eksperymentów prowadzą do wniosku, że autor-

ski algorytm dopasowania punktów charakterystycznych opierający swoje działa-

nie o rozmyty detektor krawędzi pozwala na uzyskanie procentowo dwukrotnie

większej liczby zarówno pikseli klasyfikowanych jako charakterystyczne, jak i pik-

seli prawidłowo dopasowanych w porównaniu z algorytmem MPG.

W celu porównania efektywności wykrywania pikseli krawędziowych przez al-

gorytm oparty na rozmytym detektorze krawędzi oraz algorytm MPG oparty na

działaniu filtrów LoG, na tym samym materiale testowym przeprowadzono podob-

ne eksperymenty z zastosowaniem innych znanych i często wykorzystywanych de-

tektorów krawędzi. W wyniku zastosowania detektora Canny’ego, otrzymano śred-

nią procentową liczbę pikseli zaklasyfikowanych jako krawędziowe równą 9.94%.

Zastosowanie algorytmu detekcji krawędzi opartego o maskę Sobela dało wynik

4.24%, opartego o maskę Prewitta – 4.20%, natomiast opartego o krzyż Robertsa

– zaledwie 3.52%. Wytypowany wariant algorytmu detekcji krawędzi wykorzystu-

jący rozmytą relację podobieństwa ma zatem zdolność wykrywania pikseli krawę-

dziowych porównywalną z algorytmem Canny’ego, natomiast za pomocą pozosta-

łych typów detektorów uzyskuje się wyniki porównywalne z detektorem opartym

na filtrach LoG. Można więc powiedzieć, że w zastosowaniach, gdzie ważna jest

efektywność wykrywania pikseli należących do krawędzi, a takim jest przypadek

zagadnienia dopasowania pary stereoskopowej, lepszym wyborem jest zastosowa-

nie detektora krawędzi opartego o rozmytą relację podobieństwa.

7.3. Rozmiar okien w algorytmach dopasowania obszarami

W przypadku problemu dopasowania obrazów pary stereoskopowej obszara-

mi parametrami, które muszą zostać dobrane na samym początku implementacji

algorytmów dopasowania są rozmiar i kształt okien referencyjnego i przeszukiwa-

190



nia. W pracy w celu przeprowadzenia eksperymentów przyjęty został kwadratowy

kształt obu okien. Wybór ten był motywowany głównie popularnością kwadrato-

wego kształtu okien, jak również prostszą implementacją programową algorytmów

wykorzystujących taki kształt okien. Autor nie znalazł przesłanek przemawiają-

cych za doborem innego kształtu okien, choć intuicyjnie wydaje się, że zagadnie-

niem wartym przeprowadzenia badań jest wykorzystanie w algorytmie dopasowa-

nia również okien o kształcie prostokątnym.

Drugą istotną decyzją w przypadku próby implementacji algorytmów dopaso-

wania obszarami jest określenie rozmiarów okien. Optymalny rozmiar okien nie

powinien być zbyt mały, gdyż w takich oknach nie będzie wystarczającej informa-

cji potrzebnej do znalezienia odpowiadających sobie pikseli. Zbyt duży rozmiar

okien powoduje natomiast niepotrzebny wzrost kosztu obliczeniowego algorytmu,

a ponadto zmniejszenie rozróżnialności pikseli i spadek liczby prawidłowo wy-

znaczonych dopasowań ze względu na zbyt duże zróżnicowanie wartości jasności

pikseli obejmowanych przez okno.

W celu uzyskania przesłanek dotyczących doboru rozmiaru okien, przepro-

wadzone zostały obliczenia liczby prawidłowo dopasowanych pikseli dla różnych

rozmiarów okien i dla różnych klas algorytmów. Wyniki obliczeń przedstawione

zostały na rys. 7.3.

3×3

5×5

7×7

9×9

11×11

13×13

15×15

17×17

19×19

21×21

23×23

7273747576777879808182

Rozmiar okien [piks.]

%pi

ksel

iobr

azu

SADZSADFUZZ+HAMMIFS+HAMM

(a) Algorytmy wykorzystujące miary oparte o róż-nicę

3×3

5×5

7×7

9×9

11×11

13×13

15×15

17×17

19×19

21×21

23×23

7475767778798081


%pi

keli

obra

zu

SSDZSSDFUZZ+EUCLIDIFS+EUCLID

(b) Algorytmy wykorzystujące miary oparteo kwadrat różnicy

Rys. 7.3. Średnie procentowe liczby prawidłowo dopasowanych pikseli w zależno-ści od rozmiarów okien referencyjnego i przeszukiwania, przy założeniu ich

jednakowych rozmiarów

Analizując wyniki przedstawione na rys.7.3a, można stwierdzić, że algorytmy

191



3×3

5×5

7×7

9×9

11×11

13×13

15×15

17×17

19×19

21×21

23×23

76

77

78

79

80

81

82


%pi

ksel

liob

razu

NCCZNCCFUZZ+CORRIFS+CORR

(c) Algorytmy wykorzystujące miary korelacyjne

3×3

5×5

7×7

9×9

11×11

13×13

15×15

17×17

19×19

21×21

23×23

78

79

80

81

82

83


%pi

ksel

iobr

azu

RANK+SADFuzzyRANK+SADCENSUS

(d) Algorytmy wykorzystujące transformaty obra-zów

Rys. 7.3. Średnie procentowe liczby prawidłowo dopasowanych pikseli w zależno-ści od rozmiarów okien referencyjnego i przeszukiwania, przy założeniu ich

jednakowych rozmiarów (kontynuacja)

dopasowania obszarami wykorzystujące fuzzyfikację obrazów oraz miary oparte

o różnicę wartości jasności pikseli reprezentowanych w dziedzinie zbiorów rozmy-

tych i zbiorów IFS pozwalają na uzyskanie większej o kilka procent liczby prawi-

dłowo dopasowanych pikseli w całym zakresie rozmiarów badanych okien w po-

równaniu do algorytmu dopasowania obszarami działającego bezpośrednio w dzie-

dzinie jasności pikseli i wykorzystującego miarę SAD (por. p. 3.3.2). Lepszy wy-

nik, w sensie większej liczby prawidłowo dopasowanych pikseli, w zakresie małych

rozmiarów okien (do 13 × 13 pikseli), uzyskiwany jest jedynie w metodzie wyko-

rzystującej miarę z normalizacją wartości jasności pikseli ZSAD (por. p. 3.3.2).

Propozycją, która nasuwa się w tym momencie, jest przeprowadzenia podobnego

zabiegu normalizacyjnego w dziedzinie zbiorów rozmytych, co prawdopodobnie

pozwoliłoby na polepszenie wyników uzyskiwanych przez algorytmy działające

w dziedzinie zbiorów rozmytych.

W przypadku zastosowania miar opartych o kwadrat różnicy (rys. 7.3b) oraz

algorytmów wykorzystujących miary korelacyjne (rys. 7.3c) również zauważalna

jest kilkuprocentowa poprawa rezultatów osiąganych przez algorytmy działające

w dziedzinie zbiorów rozmytych w stosunku do ich odpowiedników działających

w dziedzinie jasności obrazów. Normalizacja pozwala na uzyskanie lepszych wy-

ników dla małych rozmiarów okien w przypadku zastosowania miary ZSSD (por.

p. 3.3.2). W przypadku algorytmów wykorzystujących miary korelacyjne osiągane

192



rezultaty są prawie takie same jak dla algorytmów wykorzystujących fuzzyfikację

obrazów i działających na ich reprezentacjach w dziedzinie zbiorów rozmytych. Na

wykresach prezentujących wyniki dla miar opartych o kwadrat różnic (rys. 7.3b),

jak również korelację (rys.7.3c), dostrzegalne jest pewne maksimum osiąganych

wyników względem rozmiarów zastosowanych w algorytmie okien.

Opierając się na wynikach przedstawionych na rys. 7.3, do dalszych obliczeń

zdecydowano się stosować algorytm o rozmiarach okien referencyjnego i przeszu-

kiwania równych 11 × 11 pikseli. Rozmiary te wydają się optymalnym wyborem

pod względem jakości uzyskiwanych rozwiązań rozumianej jako liczba prawidłowo

dopasowanych pikseli. Dla większych rozmiarów okien poprawa uzyskiwanych wy-

ników jest nieznaczna, albo wręcz następuje ich pogorszenie. Efekt osiągania pew-

nego optimum rozmiaru okien szczególnie dobrze widoczne jest na rys. 7.3c dla

przypadku algorytmów dopasowania wykorzystujących w swoim działaniu miary

korelacyjne.

W przypadku algorytmów wykorzystujących transformaty rankingowe oraz trans-

formatę CENSUS obrazów (por. p. 3.3.4 i p. 3.3.5) (rys. 7.3d) można zauważyć, że

największe liczby prawidłowo dopasowanych pikseli otrzymywane są dla algoryt-

mów z oknami o rozmiarach 5 × 5 oraz 7 × 7 pikseli. Widoczna jest również prze-

waga zastosowania rankingowej transformaty rozmytej, dla której osiągana jest naj-

większa liczba prawidłowo dopasowanych pikseli dla wszystkich rozmiarów okien

większych niż 9×9 pikseli. W dalszych analizach algorytmów dopasowania wyko-

rzystujących transformaty obrazów zdecydowano się jednak na stosowanie okien

o rozmiarach 11× 11 pikseli. Wybór ten był motywowany chęcią zachowania spój-

ności prezentowanych wyników w odniesieniu do pozostałych algorytmów dopa-

sowania, dla których również przyjęto rozmiary okien równe 11 × 11 pikseli.

W celu jakościowego porównania i zobrazowania osiąganych wyników, na

rys. 7.4 zaprezentowane zostały mapy dysparycji dla pary stereoskopowej „Tsuku-

ba” otrzymane w wyniku wykonania algorytmów działających z rozmiarami okien

równymi 11 × 11 pikseli. Wizualne porównanie map dysparycji przedstawionych

jako obrazy w skali szarości nie pozwala na obiektywne porównywanie osiąganych

wyników. Z tego względu mapy dysparycji dla pozostałych par stereoskopowych

nie będą prezentowane, ponieważ różnice wizualne, podobnie jak dla pary stereo-

skopowej „Tsukuba”, są na obrazach map dysparycji trudno zauważalne. Jako efekt

wszystkich pozostałych przeprowadzonych eksperymentów przedstawione zostaną

193

“KonspP

ream

b”

2013/1

0/3

page

194

#197

7.

Wyn

ikibadań

eksperym

enta

lnych

Wzorcowa SAD SSD NCC

RANK+SAD ZSAD ZSSD ZNCC

FuzzyRANK+SAD FUZZ+HAMM FUZZ+EUCL FUZZ+CORR

CENSUS IFS+HAMM IFS+EUCL IFS+CORR

Rys. 7.4. Wizualne porównanie map dysparycji otrzymanych jako efekt wykonania różnych algorytmów dopasowania dla parystereoskopowej „Tsukuba”

194



w związku z tym tylko wyniki numeryczne, bez wizualnej prezentacji otrzymywa-

nych map dysparycji.

Drugą miarą liczbową, która posłużyła do oceny jakości otrzymywanych roz-

wiązań jest zaproponowana w punkcie 6.5.2 liczba nieprawidłowych dopasowań,

które pozostają w swoim sąsiedztwie. Miara ta miała na celu numeryczne odzwier-

ciedlenie cechy spójności otrzymywanych map dysparycji. Wartości tej miary okre-

ślano przez zliczanie nieprawidłowych dopasowań występujących w wyznaczanych

mapach dysparycji, otrzymanych w wyniku wykonania algorytmu 6.1 opisanego

w punkcie 6.5.2. Na rys. 7.5 przedstawione zostały mapy dysparycji wyznaczo-

ne przez różne algorytmy dopasowania dla pary stereoskopowej „Venus”. Na ma-

pach tych zaznaczone zostały w postaci białych plam izolowane grupy błędnych

wartości dysparycji otrzymanych w wyniku zastosowania algorytmu 6.1. Również

w przypadku tej miary wizualne porównywanie osiąganych wyników nie pozwala

na sformułowanie jednoznacznych wniosków dotyczących jakości otrzymywanych

rozwiązań, aczkolwiek w tym przypadku mapy dysparycji są bardziej zróżnicowa-

ne. Z tego względu dalej będą prezentowane jedynie wyniki numeryczne dotyczące

tej miary.

195

“KonspP

ream

b”

2013/1

0/3

page

196

#199

7.

Wyn

ikibadań

eksperym

enta

lnych

Wzorcowa SAD SSD NCC

RANK+SAD ZSAD ZSSD ZNCC

FuzzyRANK+SAD FUZZ+HAMM FUZZ+EUCL FUZZ+CORR

CENSUS IFS+HAMM IFS+EUCL IFS+CORR

Rys. 7.5. Zobrazowanie grup błędnie dopasowanych pikseli, widocznych w postaci białych plam na przedstawionych mapachdysparycji, otrzymanych w efekcie wykonania różnych algorytmów dopasowania dla pary stereoskopowej „Venus”

196



Wyniki numeryczne obliczeń średnich procentowych liczb błędnych izolowa-

nych dopasowań zostały przedstawione na rys. 7.6. Dla trzech grup algorytmów wy-

korzystujących miary oparte o różnicę (rys.7.6a), kwadrat różnicy (rys.7.6b) oraz

korelację (rys.7.6c) otrzymywane wyniki są bardzo podobne.

3×3

5×5

7×7

9×9

11×11

13×13

15×15

17×17

19×19

21×21

23×23

48

12162024283236


%pi

ksel

iobr

azu



3×3

5×5

7×7

9×9

11×11

13×13

15×15

17×17

19×19

21×21

23×23

48

12162024283236


%pi

ksel

iobr

azu



3×3

5×5

7×7

9×9

11×11

13×13

15×15

17×17

19×19

21×21

23×23

48

121620242832364044


%pi

ksel

iobr

azu



3×3

5×5

7×7

9×9

11×11

13×13

15×15

17×17

19×19

21×21

23×23

56789

101112131415


%pi

ksel

iobr

azu



Rys. 7.6. Średnie procentowe liczby błędnych izolowanych dopasowań w zależno-ści od rozmiarów okien referenycjnego i przeszukiwania, przy założeniu ich

jednakowych rozmiarów

Niewielkie różnice są zauważalne dla małych rozmiarów okien, gdzie algoryt-

my dopasowania wykorzystujące miary znormalizowane ZSAD oraz ZSSD wy-

kazały znacząco większą tendencję do znajdowania błędnych dopasowań pozosta-

jących w swoim sąsiedztwie. Większe zróżnicowanie otrzymywanych rezultatów

widoczne jest w przypadku algorytmów wykorzystujących transformaty obrazów

(rys. 7.6d). Wyraźnie widać, że najbardziej spójna mapa dysparycji, o najmniejszej

197



liczbie błędnych izolowanych dopasowań, otrzymana została w efekcie zastosowa-

nia algorytmu wykorzystującego rozmytą transformatę rankingową.

Na podstawie wyników przedstawionych na rys. 7.6 można stwierdzić, że dla

wszystkich algorytmów średnia procentowa liczba błędnych izolowanych dopaso-

wań zmienia się nieznacznie dla okien o rozmiarach większych niż 11×11 pikseli.

Potwierdza to decyzję wyboru rozmiaru okien równego 11 × 11 pikseli jako roz-

miaru optymalnego dla algorytmów dopasowania obszarami w eksperymentach

przeprowadzonych dla badanego zbioru par stereoskopowych.

Ostatnią badaną miarą będącą wyznacznikiem jakości otrzymywanych rozwią-

zań jest empiryczny błąd średniokwadratowy RMSE zdefiniowany wzorem (6.15).

Średnie wartości błędu RMSE w zależności od rozmiarów okien zastosowanych

w algorytmie dopasowania przedstawione zostały na rys. 7.7.

3×3

5×5

7×7

9×9

11×11

13×13

15×15

17×17

19×19

21×21

23×23

2832364044485256


RM

SE

[pik

s.]


(a) Średnia wartość błędu RMSE dla algorytmówwykorzystujących miary oparte o różnicę

3×3

5×5

7×7

9×9

11×11

13×13

15×15

17×17

19×19

21×21

23×23

2832364044485256


RM

SE

[pik

s.]


(b) Średnia wartość błędu RMSE dla algoryt-mów wykorzystujących miary oparte o kwa-

drat różnicy

Rys. 7.7. Średnie wartości błędu RMSE w zależności od rozmiarów okien referen-cyjnego i przeszukiwania, przy założeniu ich jednakowych rozmiarów

Dla wszystkich badanych algorytmów widoczna jest tendencja do zmniejsza-

nia się tego błędu wraz ze wzrostem rozmiarów okien. Otrzymane wartości błędu

RMSE są bardzo zbliżone do siebie dla wszystkich badanych algorytmów dopaso-

wania. Jednakże w przypadku algorytmu wykorzystującego transformatę CENSUS

obrazów widoczny jest wyraźny spadek wartości błędu RMSE przy zwiększaniu

rozmiarów okien.

Większy rozmiar okna pozwala na uzyskanie wartości dysparycji bliższych

do wzorcowych wartości dysparycji określonych dla poszczególnych pikseli. Ze

198



3×3

5×5

7×7

9×9

11×11

13×13

15×15

17×17

19×19

21×21

23×23

303438424650545862


RM

SE

[pik

s.]


(c) Średnia wartość błędu RMSE dla algorytmówwykorzystujących miary korelacyjne

3×3

5×5

7×7

9×9

11×11

13×13

15×15

17×17

19×19

21×21

23×23

2426283032343638404244


RM

SE

[pik

s.]


(d) Średnia wartość błędu RMSE dla algorytmówwykorzystujących transformaty obrazów

Rys. 7.7. Średnie wartości błędu RMSE w zależności od rozmiarów okien referen-cyjnego i przeszukiwania, przy założeniu ich jednakowych rozmiarów (konty-

nuacja)

względu na wartości błędu RMSE najkorzystniejszym wydaje się wybór okien

o dużych rozmiarach. Okna takie zwiększają jednak niepotrzebnie koszt oblicze-

niowy algorytmu, nie poprawiając jakości otrzymywanych map dysparycji zarówno

w sensie liczby prawidłowych dopasowań, jaki i spójności otrzymanej mapy dys-

parycji.

Ostatnim zagadnieniem, które zostanie przeanalizowane w tym punkcie, jest

złożoność obliczeniowa badanych algorytmów. Zagadnienie to jest bardzo istotne

w aspekcie praktycznych zastosowań algorytmów. W pracy złożoność algorytmów

oszacowana została poprzez zmierzenie czasu wykonania każdego algorytmu, któ-

ry jest często przyjmowanym wyznacznikiem złożoności obliczeniowej algorytmu

[138, 317, 318]. Średnie czasy wykonania algorytmów dla badanego zbioru par

stereoskopowych przedstawione zostały na rys. 7.8.

Na przedstawionych wykresach widoczny jest wzrost czasu wykonania algoryt-

mu wraz ze zwiększaniem rozmiarów okien zastosowanych w algorytmie. W przy-

padku algorytmów wykorzystujących fuzzyfikację obrazów i działanie w dziedzi-

nie zbiorów rozmytych, na wykresach nie uwzględniono czasu fuzzyfikacji obra-

zów, który jest stały i wynosi średnio 31 ms. Z tego względu czasy wykonania tych

algorytmów, jak ich i odpowiedników działających w dziedzinie jasności pikseli

są równe. Sytuacja ta zachodzi np. dla algorytmu wykorzystującego miarę SAD

w dziedzinie jasności pikseli i miarę Hamminga w dziedzinie zbiorów rozmytych

199



3×3

5×5

7×7

9×9

11×11

13×13

15×15

17×17

19×19

21×21

23×23

05

101520253035404550556065


Śre

dnic

zas

wyk

onan

ia[s

]


(a) Średni czas wykonania algorytmów wykorzy-stujących miary oparte o różnicę

3×3

5×5

7×7

9×9

11×11

13×13

15×15

17×17

19×19

21×21

23×23

05

1015202530354045


Śre

dnic

zas

wyk

onan

ia[s

]


(b) Średni czas wykonania algorytmów wykorzy-stujących miary oparte o kwadrat różnicy

3×3

5×5

7×7

9×9

11×11

13×13

15×15

17×17

19×19

21×21

23×23

05

10152025303540455055


Śre

dnic

zas

wyk

onan

ia[s

]


(c) Średni czas wykonania algorytmow wykorzy-stujących miary oparte o korelację

3×3

5×5

7×7

9×9

11×11

13×13

15×15

17×17

19×19

21×21

23×23

0

5

10

15

20

25


Śre

dnic

zas

wyk

onan

ia[s

]RANK+SADFuzzyRANK+SADCENSUS

Czas wykonania : 10

(d) Średni czas wykonania algorytmów wykorzy-stujących transformaty obrazów

Rys. 7.8. Średnie czasy wykonania algorytmów w zależności od rozmiarów okienzastosowanych w algorytmie dopasowania

(rys. 7.8a). Podobnie, jednakowe czasy wykonania mają algorytm wykorzystują-

cy miarę SSD i algorytm wykorzystujący miarę euklidesową w dziedzinie zbio-

rów rozmytych FUZZ+EUCL (rys. 7.8b), jak również algorytm wykorzystujący

miarę korelacji jasności pikseli NCC i algorytm wykorzystujący miarę korelacji

w dziedzinie zbiorów rozmytych FUZZ+CORR (rys. 7.8c). Wynika to z faktu, że po

obliczeniu wartości funkcji przynależności dla pikseli wyznaczanie odpowiednich

miar dopasowania przebiega identycznie zarówno w dziedzinie jasności pikseli, jak

i w dziedzinie zbiorów rozmytych.

Na rys. 7.8 nie uwzględniono również czasu fuzzyfikacji obrazów do dziedziny

intuicjonistycznych zbiorów rozmytych. Średni czas fuzzyfikacji obrazu do dzie-

dziny zbiorów IFS wynosił dla badanego zbioru par stereoskopowych 76 ms. Jak

200



wynika z rys. 7.8, algorytmy działające w dziedzinie zbiorów IFS cechuje dłuższy

czas wykonania ze względu na konieczność przeprowadzenia wszystkich obliczeń

na dwóch elementach liczbowych reprezentujących opis obrazu w dziedzinie zbio-

rów IFS.

Osobnego komentarza wymaga czas wykonania algorytmu opartego o trans-

formatę CENSUS, który jest bardzo długi (rys. 7.8d). Wynika to z przyjętej przez

autora implementacji algorytmu, w której nie zastosowano bitowego typu danych

w celu reprezentacji obliczanych wartości transformaty CENSUS. Wartości przyj-

mowane w wyniku zastosowania transformaty CENSUS były reprezentowane na

wbudowanym w język programowania typie całkowitym zawierającym 8 bitów, co

spowodowało znaczny wzrost czasu wykonywania algorytmu. Można przyjąć, że

obliczanie transformaty CENSUS z wykorzystaniem reprezentacji bitowej znaczą-

co przyśpieszyłoby działanie algorytmu wykorzystującego transformatę CENSUS.

Metoda ta nie została wykorzystana w przedstawionych algorytmach ze względu

na cechę programowania języka C++, w którym zrealizowano programowo przed-

stawiane algorytmy. W używanej wersji języka brak było wbudowanego bitowego

typu danych umożliwiającego łatwą reprezentację wartości transformaty CENSUS.

Ponieważ zagadnienie to potraktowane zostało jako złożony szczegół techniczny,

w celu reprezentacji wartości transformaty CENSUS zdecydowano się na wyko-

rzystanie wbudowanego w język całkowitego typu danych, co nie zmieniło cech

algorytmu dopasowania pary stereoskopowej, a znacząco ułatwiło programową re-

alizację algorytmu dopasowania pary stereoskopowej.

Czasy wykonania poszczególnych algorytmów dla przyjętych w dalszych eks-

perymentach rozmiarów okien 11×11 pikseli mogą być odczytane wprost z rys. 7.8.

Generalnie można stwierdzić, że zastosowanie fuzzyfikacji obrazów nie zwiększa

znacząco nakładów obliczeniowych poniesionych na wykonanie algorytmów do-

pasowania pary stereoskopowej działających w dziedzinie zbiorów rozmytych lub

intuicjonistycznych zbiorów rozmytych w porównaniu z algorytmami klasycznymi.

Są one zwiększone jedynie nieznacznie o stały czas fuzzyfikacji wynoszący, jak

podano powyżej 31 ms w przypadku fuzzyfikacji do dziedziny zbiorów rozmytych

i 76 ms do dziedziny IFS. Zastosowanie odpowiednich technik optymalizacji opro-

gramowania umożliwiłoby prawdopodobnie zmniejszenie niezbędnych nakładów

obliczeniowych, jednak przeprowadzenie takiej optymalizacji nie było celem auto-

201



ra, bowiem nie wpływa ono na ogólną interpretację uzyskanych w pracy rezultatów

i wynikające z nich podstawowe wnioski.

7.4. Wyniki działania algorytmów w przypadku obrazów

zakłóconych szumem gaussowskim

W kolejnych punktach pracy omówione zostaną wyniki badania odporności

algorytmów dopasowania obrazów pary stereoskopowej na zakłócenia obrazów

szumami o różnych charakterystykach probabilistycznych. Jako pierwszy przedys-

kutowany zostanie przypadek zakłócenia obrazów szumem gaussowskim (por. p.

6.4.3).

W celu zbadania zachowania się analizowanych algorytmów w obecności szu-

mu gaussowskiego obydwa obrazy pary zakłócano sztucznie tym szumem, a na-

stępnie przeprowadzono eksperymenty na tak zakłóconych obrazach. W literatu-

rze można spotkać opis eksperymentów [138], w których zakłócany jest tylko je-

den z obrazów pary stereoskopowej. Autor przeprowadził szereg testów, które nie

będę tu omawiane, na podstawie których można stwierdzić, że wyniki otrzymy-

wane w przypadku zakłócenia tylko jednego z obrazów nie różnią się jakościowo

od wyników otrzymywanych w przypadku zakłócania obu obrazów. W pierwszym

przypadku wyniki ilościowe są lepsze, natomiast zachowane są relacje między wy-

nikami liczbowymi otrzymywanymi w rezultacie wykonania różnych algorytmów

dopasowania.

W praktycznych zastosowaniach algorytmów dopasowania pary stereoskopo-

wej zakłócenia są obecne zazwyczaj w obu obrazach równocześnie. Dlatego w pra-

cy zdecydowano się do przedstawienia wyników eksperymentów przeprowadzo-

nych dla tego właśnie przypadku. Będą one prezentowane w funkcji wzrastającego

poziomu szumu określonego w mierze decybelowej wyrażonej wzorem (6.4).

7.4.1. Wyniki działania algorytmów dopasowania cechami

Na rys. 7.9 przedstawiono wyniki eksperymentów obliczeniowych przeprowa-

dzonych przy założeniu zakłócania obrazów pary stereoskopowej szumem gaus-

sowskim w przypadku algorytmu MPG oraz algorytmu dopasowania wykorzystu-

jącego w swoim działaniu zaproponowany rozmyty detektor krawędzi. Analizując

wyniki uzyskane za pomocą algorytmu MPG (rys. 7.9a), można stwierdzić, że za-

202



równo procent pikseli zakwalifikowanych przez algorytm jako krawędziowe, jak

i procent pikseli prawidłowo dopasowanych różnią się znacznie od odpowiadają-

cych im liczb procentowych otrzymanych w przypadku obrazów nie zawierających

zakłóceń szumowych. Duży poziom szumu, przy stosunku sygnał-szum SNR poni-

żej 25 dB, powoduje wzrost liczby pikseli uznanych przez algorytm jako należące

do krawędzi obrazu, co oznacza zwiększenie liczby błędnych decyzji o zakwalifiko-

waniu poszczególnych pikseli jako piksele krawędziowe. Jednocześnie zmniejsza

się liczba prawidłowo dopasowanych pikseli i określonych dla nich prawidłowych

wartości dysparycji.

5 10 15 20 25 30 35 40 45 500123456789

10

Zawartość szumu gaussowskiego [dB]

%pi

ksel

iobr

azu


(a) Wyniki działania algorytmu MPG

5 10 15 20 25 30 35 40 45 5002468

101214161820


%pi

ksel

iobr

azu

Liczba pikseli krawędziowychLiczba pikseli doapasowanych

(b) Wyniki działania algorytmu wykorzystującegodetektor krawędzi oparty o rozmytą trójkątnąrelację podobieństwa i sąsiedztwo o rozmia-

rze 24 pikseli

Rys. 7.9. Średnie procentowe liczby pikseli zakwalifikowanych jako krawędzioweoraz pikseli prawidłowo dopasowanych uzyskane w wyniku zastosowania al-gorytmów dopasowania cechami w przypadku zakłócania obrazów pary stre-

oskopowej szumem gaussowskim

Podobny efekt jest zauważalny w wynikach algorytmu wykorzystującego roz-

myty detektor krawędzi (rys. 7.9b), gdzie duża zawartość szumu (dla SNR poniżej

25 dB) zaburza wyraźnie działanie detektora, a w konsekwencji zmniejsza się licz-

ba prawidłowo dopasowanych pikseli. Ogólnie można stwierdzić, że szum gaus-

sowski przy SNR powyżej 25 dB jest znacznie lepiej tolerowany przez algorytm

z rozmytym detektorem krawędzi w porównaniu do algorytmu MPG. Na przykład,

dla SNR = 25 dB względna procentowa liczba prawidłowo dopasowanych pikseli

przez zaproponowany algorytm jest prawie czterokrotnie większa. Należy podkre-

ślić, że wprawdzie na osi rzędnych na wykresach podane zostały liczby procentowe

w odniesieniu do wszystkich pikseli obrazów, to właściwa ocena uzyskanych wyni-

203



ków powinna być dokonana przez ich względne odniesienie do liczby tych pikseli,

które faktycznie należą do krawędzi obrazów.

7.4.2. Wyniki działania algorytmów dopasowania obszarami

Wyniki eksperymentów przeprowadzonych w celu zbadania odporności algo-

rytmów dopasowania obszarami na zakłócenia obrazów pary stereoskopowej szu-

mem gaussowskim ilustrują wykresy pokazane na rys. 7.10. Na wykresach zauwa-

żalny jest wyraźny wzrost średniej procentowej liczby prawidłowo dopasowanych

pikseli wraz ze zmniejszaniem się poziomu szumu (wzrostem SNR).

5 10 15 20 25 30 35 40 45 506264666870727476788082


%pi

ksel

iobr

azu


(a) Algorytmy wykorzystujące miary oparte o róż-nice

5 10 15 20 25 30 35 40 45 506264666870727476788082


%pi

ksel

iobr

azu


(b) Algorytmy wykorzystujące miary oparteo kwadrat różnic

5 10 15 20 25 30 35 40 45 506264666870727476788082


%pi

ksel

iobr

azu



5 10 15 20 25 30 35 40 45 50626466687072747678808284


%pi

ksel

iobr

azu



Rys. 7.10. Średnie liczby procentowe prawidłowo dopasowanych pikseli uzyskanew wyniku zastosowania różnych algorytmów dopasowania obszarami w przy-

padku zakłócenia obrazów pary stereoskopowej szumem gaussowskim

W grupie algorytmów wykorzystujących miarę jakości opartą na różnicy (rys. 7.10a),

przy dużych poziomach szumu (dla SNR mniejszych od 30 dB), wszystkie algo-

rytmy osiągają bardzo podobne wyniki. Natomiast dla małych poziomów szumu

204



można zauważyć, że algorytm wykorzystujący miarę ZSAD oraz algorytm dzia-

łający w dziedzinie zbiorów IFS wykorzystujący miarę Hamminga IFS+HAMM

wykazują większą odporność na tego typu zakłócenie.

W przypadku algorytmów wykorzystujących miary oparte o kwadrat różnicy

(rys. 7.10b) jak również algorytmów wykorzystujących miary korelacyjne

(rys. 7.10c) uzyskano bardzo podobne wyniki, niewiele różniące się liczbowo od

wyników otrzymywanych przy zastosowaniu algorytmów z miarami opartymi o róż-

nicę. Jedynie w grupie algorytmów wykorzystujących miary korelacyjne widoczny

jest niewielki wpływ szumu na pogorszenie wyników osiąganych przez algorytm

wykorzystujący miarę NCC.

W przypadku algorytmów wykorzystujacych transformatę obrazu, dla których

wyniki przedstawione zostały na rys. 7.10d, najlepsze rezultaty osiągane są przez

zastosowanie rozmytej transformaty rankingowej. Dobrą tolerancją na szum gaus-

sowski cechuje się również algorytm wykorzystujący transformatę CENSUS.

Drugą badaną miarą jakości działania algorytmów była liczba nieprawidłowych

dopasowań tworzących grupy izolowanych pikseli. Wyniki numeryczne dotyczące

tej miary przedstawione zostały na rys. 7.11.

5 10 15 20 25 30 35 40 45 505

101520253035404550556065


%pi

ksel

iobr

azu



5 10 15 20 25 30 35 40 45 505

101520253035404550556065


%pi

ksel

iobr

azu



Rys. 7.11. Średnie procentowe liczby błędnych izolowanych dopasowań otrzymanedla obrazów par stereoskopowych z zawartym w nich szumem gaussowskim

Widoczny jest tu wyraźny wpływ szumu na liczbę błędnych izolowanych do-

pasowań, szczególnie dla algorytmów wykorzystujących w swoim działaniu znor-

malizowane miary ZSAD i ZSSD. Także duża liczba błędnie dopasowanych pikseli

otrzymana została w przypadku algorytmu wykorzystującego transformatę rankin-

gową RANK+SAD. W grupie algorytmów wykorzystujących miary korelacyjne

205



5 10 15 20 25 30 35 40 45 505

101520253035404550556065


%pi

ksel

iobr

azu



5 10 15 20 25 30 35 40 45 505

101520253035404550556065


%pi

ksel

iobr

azu



Rys. 7.11. Średnie procentowe liczby błędnych izolowanych dopasowań otrzymanedla obrazów par stereoskopowych z zawartym w nich szumem gaussowskim

(kontynuacja)

(rys. 7.11c) brak jest wyraźnych rozbieżności w wynikach otrzymywanych przez

różne algorytmy.

Ogólny wniosek, jaki może być sformułowany na podstawie otrzymanych wy-

ników, sprowadza się do stwierdzenia, iż algorytmy działające w dziedzinie jasno-

ści pikseli i wykorzystujące miary znormalizowane ZSAD i ZSSD mają większą

tendencję do znajdowania grup pikseli o błędnie przypisanych im wartościach dys-

parycji.

Ze względu na błąd RMSE, którego wyniki analizy przedstawione zostały na

rys. 7.12, największe wartości tego błędu otrzymano w przypadku algorytmów

wykorzystujących miary ZSAD oraz ZSSD. Potwierdza to wcześniejsze stwierdze-

nie, że algorytmy dopasowania wykorzystujące miary znormalizowane są najmniej

efektywne z grupy badanych algorytmów w sytuacji, gdy obrazy zawierają zakłó-

cenia szumem gaussowskim. W grupie algorytmów wykorzystujących miary kore-

lacyjne dostrzegalne jest, że dla dużego poziomu szumu, poniżej 25 dB, algorytm

wykorzystujący miarę NCC daje największe wartości błędu.

W przypadku algorytmów wykorzystujących transformaty obrazów (rys. 7.12d)

największy błąd RMSE jest osiągany przez algorytm wykorzystujący transformatę

rankingową RANK+SAD i działający w dziedzinie jasności pikseli. Najbardziej

efektywny z uwagi na miarę RMSE okazał się algorytm wykorzystujący transfor-

matę CENSUS. Nieznacznie gorsze od niego wyniki daje algorytm oparty o trans-

formatę rozmytą FuzzyRANK+SAD.

206



5 10 15 20 25 30 35 40 45 5034384246505458626670747882


RM

SE

[pik

s.]



5 10 15 20 25 30 35 40 45 5034384246505458626670747882


RM

SE

[pik

s.]



5 10 15 20 25 30 35 40 45 503438424650545862667074788286


RM

SE

[pik

s.]



5 10 15 20 25 30 35 40 45 50303438424650545862667074788286


RM

SE

[pik

s.]



Rys. 7.12. Średnie wartości błędu RMSE w przypadku zakłócenia obrazów parstereoskopowych szumem gaussowskim


zakłóconych szumem addytywnym o rozkładzie

jednostajnym lub szumem multiplikatywnym

Podobnie jak w przypadku szumu gaussowskiego, eksperymenty przeprowa-

dzono przy założeniu, że moce szumów zakłócających oba obrazy pary stereosko-

powej są identyczne. Charakter i struktura eksperymentów były analogiczne.


W pierwszej serii eksperymentów porównano rezultaty uzyskane za pomocą

algorytmu dopasowania cechami MPG oraz zaproponowanego algorytmu wyko-

rzystującego detektor krawędzi oparty o rozmytą relację podobieństwa. Przypadek

zakłócania obrazów pary stereoskopowej szumem addytywnym o rozkładzie jedno-

207



stajnym ilustruje rys. 7.13, zaś szumem multiplikatywnym rys. 7.14. Zachowanie

5 10 15 20 25 30 35 40 45 500123456789

10

Zawartość szumuo rozkładzie jednostajnym [dB]

%pi

ksel

iobr

azu



5 10 15 20 25 30 35 40 45 5002468

101214161820


%pi

ksel

iobr

azu


(b) Wyniki działania algorytmu opartego o rozmy-ty detektor krawędzi wykorzystujący trójkąt-ną relację podobieństwa i sąsiedztwo o roz-

miarze 24 pikseli

Rys. 7.13. Średnie procentowe liczby pikseli zakwalifikowanych jako krawędzioweoraz pikseli prawidłowo dopasowanych uzyskane w wyniku zastosowania algo-rytmów dopasowania cechami przy założeniu zakłócenia obrazów pary stereo-

skopowej szumem addytywnym o rozkładzie jednostajnym

5 10 15 20 25 30 35 40 45 500123456789

10

Zawartość szumu multiplikatywnego [dB]

%pi

ksel

iobr

azu



5 10 15 20 25 30 35 40 45 5002468

101214161820


%pi

ksel

iobr

azu


(b) Wyniki działania algorytmu wykorzystującegorozmyty detektor krawędzi z trójkątną relacjąpodobieństwa i sąsiedztwie równym 24 pik-

sele

Rys. 7.14. Średnie procentowe liczby pikseli zakwalifikowanych jako krawędzioweoraz pikseli prawidłowo dopasowanych uzyskane w wyniku zastosowania algo-rytmów dopasowania cechami przy zakłóceniu obrazów pary stereoskopowej

szumem multiplikatywnym o rozkładzie jednostajnym

obu algorytmów dla obu rodzajów szumów niewiele różni się od przypadku zakłó-

208



cania obrazów szumem gaussowskim. W przypadku algorytmu MPG zauważalna

jest jedynie większa liczba pikseli (w mierze względnej o około 20%) zaklasyfi-

kowanych przez algorytm jako krawędziowe w całym zakresie zmian SNR w po-

równaniu do przypadku szumu gaussowskiego. Dla oceny wyników uzyskanych

w pracy nie ma to większego znaczenia. Natomiast istotny jest fakt, że zapropono-

wany przez autora algorytm zarówno dla szumu addytywnego o rozkładzie jedno-

stajnym, jak i szumu multiplikatywnego, wykazuje w całym zakresie zmian SNR

niemal identyczną odporność na zakłócenia jak dla szumu gaussowskiego. Można

zatem sformułować generalny wniosek, że dla wszystkich trzech rodzajów szumu

zaproponowany w pracy algorytm dopasowania cechami dobrze toleruje zakłóce-

nia szumowe do poziomu SNR = 25 dB, natomiast poniżej tego poziomu algo-

rytm ma tendencje do błędnej klasyfikacji pikseli jako krawędziowe, co wpływa na

zmniejszanie się liczby prawidłowo dopasowanych pikseli. Tym nie mniej, podob-

nie jak dla szumu gaussowskiego, względne procentowe liczby prawidłowo dopa-

sowanych pikseli w przypadku zaproponowanego algorytmu są znacząco większe

w porównaniu z algorytmem MPG. Tak więc również dla szumu o rozkładzie jed-

nostajnym i szumu multiplikatywnego zaproponowany algorytm ma przewagę nad

algorytmem MPG.


W celu zbadania wpływu zakłóceń obrazów addytywnym szumem o rozkładzie

jednostajnym oraz szumem multiplikatywnym na zachowanie się algorytmów do-

pasowania obszarami pary stereoskopowej powtórzono cykl eksperymentów prze-

prowadzony w przypadku szumu gaussowskiego. Badaniu podlegały zatem: śred-

nie procentowe liczby prawidłowo dopasowanych pikseli, średnie procentowe licz-

by błędnych izolowanych dopasowań oraz średnie wartości błędu RMSE.

Wykresy średnich procentowych liczb prawidłowo dopasowanych pikseli

w funkcji stosunku sygnał-szum SNR są pokazane na rys. 7.15 (przypadek za-

kłócania addytywnym szumem o rozkładzie jednostajnym) oraz rys. 7.16 (przy-

padek zakłócania szumem multiplikatywnym). Z porównania tych wykresów z od-

powiadającymi im wykresami z rys. 7.10 otrzymanymi dla przypadku szumu gaus-

sowskiego wynika, że są one praktycznie identyczne. Niewielkie różnice mieszczą

się w ramach błędu wynikającego ze statystycznego charakteru eksperymentów.

Podobną zbieżność wyników otrzymano podczas badania średnich procentowych

209



liczb błędnie izolowanych dopasowań oraz średnich wartości błędu RMSE. Dlatego

wykresy tych miar jakości działania algorytmów nie będą tu przytoczone.

5 10 15 20 25 30 35 40 45 506264666870727476788082


%pi

ksel

iobr

azu


(a) Algorytmy wykorzystujące w swoim działaniumiary oparte o różnice

5 10 15 20 25 30 35 40 45 506264666870727476788082


%pi

ksel

iobr

azu


(b) Algorytmy wykorzystujące w swoim działaniumiary oparte o kwadrat różnicy

5 10 15 20 25 30 35 40 45 506264666870727476788082


%pi

ksel

iobr

azu


(c) Algorytmy wykorzystujące w swoim działaniumiary korelacyjne

5 10 15 20 25 30 35 40 45 50626466687072747678808284


%pi

ksel

iobr

azu


(d) Algorytmy wykorzystujące w swoim działaniutransformaty obrazów

Rys. 7.15. Średnie procentowe liczby prawidłowo dopasowanych pikseli w zależ-ności poziomu szumy wyrażonego w mierze SNR otrzymane dla algorytmówdziałających na obrazach zakłóconych szumem addytywnym o rozkładzie jed-

nostajnym

Ogólnie można stwierdzić, że zachowanie się badanych w pracy algorytmów

dopasowania pary stereoskopowej cechami, a także algorytmów dopasowania ob-

szarami jest bardzo podobne dla trzech analizowanych dotąd rodzajów szumu, tj.

szumu addytywnego gaussowskiego, szumu addytywnego o rozkładzie jednostaj-

nym oraz szumu multiplikatywnego. Wykresy przeanalizowanych wskaźników ja-

kości tych algorytmów nie wykazują istotnych różnic w całym zakresie zmian sto-

sunku sygnał-szum SNR. Wszystkie wnioski i komentarze sformułowane w od-

niesieniu do poszczególnych algorytmów, sformułowane w p. 7.4.2 dla przypadku

210



5 10 15 20 25 30 35 40 45 5064666870727476788082


%pi

ksel

iobr

azu



5 10 15 20 25 30 35 40 45 5064666870727476788082


Pro

cent

obra

zu[%

]



5 10 15 20 25 30 35 40 45 5064666870727476788082


%pi

ksel

iobr

azu



5 10 15 20 25 30 35 40 45 506466687072747678808284


%pi

ksel

iobr

azu



Rys. 7.16. Średnie procentowe liczby prawidłowo dopasowanych pikseli w zależno-ści od poziomu szumu wyrażonego w mierze SNR otrzymane przez algorytmydziałające na obrazach par stereokopowych zakłóconych szumem multiplika-

tywnym o rozkładzie jednostajnym

zakłócania obrazów pary stereoskopowej szumem gaussowskim, są słuszne zatem

również w przypadku szumu o rozkładzie jednostajnym i szumu multiplikatywne-

go.


zakłóconych szumem impulsowym typu „sól i pieprz”

Inaczej sytuacja przedstawia się w przypadku zakłócania obrazów pary stereo-

skopowej szumem impulsowym typu „sól i pieprz”. Przypadek ten charakteryzuje

się odrębną specyfiką w porównaniu do poprzednich trzech typów szumów zakłó-

cających, dlatego też będzie omówiony dokładniej.

211



Eksperymenty przeprowadzono według tego samego schematu jak w przypad-

ku poprzednich zakłóceń, jednak zasadniczą różnicą była odmienna miara zawar-

tości szumu w obrazach. Dla szumu impulsowego typu „sól i pieprz” zawartość

szumu nie była wyrażana za pomocą miary SNR, ale jako procentowy udział pikseli

zaszumionych w stosunku do wszystkich pikseli składających się na obraz. Miara

ta w przypadku szumu impulsowego typu „sól i pieprz” jest bardziej zrozumiała

intuicyjnie (por. p. 6.4.2) i dlatego tę właśnie miarę przyjęto w przeprowadzonych

eksperymentach.


Tak jak poprzednio, w ramach tej serii eksperymentów porównano odporność

na zakłócenia obrazów szumem impulsowym typu „sól i pieprz” algorytmu dopa-

sowania cechami MPG i zaproponowanego algorytmu wykorzystującego w detek-

torze krawędzi rozmytą relację podobieństwa. Otrzymane wyniki przedstawiono na

rys 7.17.

5 10 15 20 25 30 35 40 45 500123456789

1011

Zawartość szumu „sól i pieprz” [%]

%pi

ksel

iobr

azu

Liczba pikseli charakterystycznychLiczba pikseli dopasowanych


5 10 15 20 25 30 35 40 45 5002468

10121416182022


%pi

ksel

iobr

azu

Liczba pikseli charakterystycznychLiczba pikseli dopasowanych

(b) Wyniki działania algorytmu wykorzystującegodetektor krawędzi oparty o rozmytą trójkątnąrelację podobieństwa i sąsiedztwo o rozmia-

rze 24 pikseli

Rys. 7.17. Średnie procentowe liczby pikseli zakwalifikowanych jako krawędzio-we oraz pikseli prawidłowo dopasowanych uzyskane w wyniku zastosowaniaalgorytmów dopasowania cechami w przypadku zakłócania obrazów pary ste-

reoskopowej szumem impulsowym typu „sól i pieprz”

Na wykresach widoczna jest istotna różnica między liczbą pikseli sklasyfiko-

wanych przez oba algorytmy jako należące do krawędzi. W przypadku algorytmu

wykorzystującego detektor oparty na rozmytej relacji podobieństwa liczba ta jest

prawie dwukrotnie większa. Ponieważ szum impulsowy przyjmuje tylko skrajne

212



wartości jasności pikseli, jego wpływ na działanie detektorów krawędzi jest znacz-

nie silniejszy. W konsekwencji powoduje to zwiększenie liczby pikseli błędnie za-

kwalifikowanych przez algorytm jako krawędziowe. Ogólnie można powiedzieć,

że – w porównaniu do trzech poprzednio rozważanych typów szumu – zakłócenie

obrazów pary stereoskopowej szumem „sól i pieprz” znacznie silniej degraduje

działanie algorytmów zarówno pod względem liczby prawidłowo sklasyfikowa-

nych pikseli krawędziowych, jak i liczby prawidłowo dopasowanych pikseli. Efekt

ten pogłębia się wraz ze wzrostem procentowego udziału pikseli zaszumionych

w obrazach.


Wyniki efektywności poszczególnych klas algorytmów dopasowania pary ste-

reoskopowej pod względem ich zdolności do wyznaczania prawidłowych dopaso-

wań pikseli przy założeniu obecności w obrazach szumu impulsowego „sól i pieprz”

ilustrują wykresy pokazane na rys. 7.18. Występują tu istotne różnice w porówna-

niu z odpowiadającymi im wykresami z rysunków 7.10, 7.15 i 7.16.

5 10 15 20 25 30 35 40 45 506264666870727476


%pi

ksel

iobr

azu



5 10 15 20 25 30 35 40 45 506061626364656667686970


%pi

ksel

iobr

azu



Rys. 7.18. Średnie procentowe liczby prawidłowo dopasowanych pikseli uzyskanew wyniku zastosowania różnych algorytmów dopasowania obszarami w przy-padku zakłócenia obrazów pary stereoskopowej szumem impulsowym „sól

i pieprz”

W przypadku zakłócenia „sól i pieprz” w grupie algorytmów wykorzystujących

miary oparte o różnice (rys. 7.18a) wyraźnie widoczna jest kilkuprocentowa prze-

waga algorytmów działających w dziedzinie zbiorów rozmytych FUZZ+HAMM

i zbiorów IFS IFS+HAMM nad algorytmami działającymi w dziedzinie jasności

213



5 10 15 20 25 30 35 40 45 50606162636465666768697071


%pi

ksel

iobr

azu



5 10 15 20 25 30 35 40 45 506264666870727476788082


%pi

ksel

iobr

azu



Rys. 7.18. Średnie procentowe liczby prawidłowo dopasowanych pikseli uzyskanew wyniku zastosowania różnych algorytmów dopasowania obszarami w przy-padku zakłócenia obrazów pary stereoskopowej szumem impulsowym „sól

i pieprz” (kontynuacja)

pikseli i wykorzystującymi miary SAD i ZSAD. Najmniejszą liczbę prawidłowo

dopasowanych pikseli otrzymano w efekcie wykonania algorytmu wykorzystują-

cego miarę ZSAD.

Podobna sytuacja występuje dla grupy algorytmów wykorzystujących w swoim

działaniu miary oparte o kwadrat różnicy (rys. 7.18b). Widoczne jest, że algoryt-

my działające w dziedzinie zbiorów rozmytych i zbiorów IFS pozwalają na prawi-

dłowe dopasowanie znacząco większej liczby pikseli od algorytmów działających

w dziedzinie jasności pikseli. Tendencja ta jest zachowana i zauważalna w wy-

nikach otrzymanych dla grupy algorytmów wykorzystujących w swoim działaniu

miary korelacyjne (rys. 7.18c). Również w tej grupie algorytmów algorytmy dzia-

łające w dziedzinie zbiorów rozmytych oraz w dziedzinie zbiorów IFS pozwoliły

na uzyskanie znacząco większej liczby prawidłowych dopasowań, przy czym jest

rzeczą charakterystyczną, że otrzymane wykresy dla obu tych typów algorytmów

praktycznie się pokrywają.

W grupie algorytmów wykorzystujących transformaty obrazów (rys. 7.18d),

najgorsze wyniki otrzymano w przypadku algorytmu wykorzystującego transfor-

matę rozmytą FuzzyRANK+SAD. Algorytmy wykorzystujące transformatę ran-

kingową RANK+SAD oraz transformatę CENSUS pozwoliły na uzyskanie więk-

szej liczby prawidłowo dopasowanych pikseli. Tak więc w grupie algorytmów opar-

214



tych na transformatach obrazów wykorzystanie rozmytej transformaty rankingowej

prowadzi do gorszych rezultatów.

Wyniki analizy błędnych izolowanych dopasowań przy zakłócaniu obrazów

szumem „sól i pieprz” przedstawiono na rys. 7.19. W przypadku grupy algorytmów

wykorzystujących miary oparte o różnice (rys. 7.19a) oraz miary oparte o kwa-

draty różnic (rys. 7.19b) algorytmy działające w dziedzinie zbiorów rozmytych:

FUZZ+HAMM i odpowiednio FUZZ+EUCL oraz algorytmy działające w dzie-

dzinie intuicjonistycznych zbiorów rozmytych: IFS+HAMM i odpowiednio IFS+

EUCL dają znacząco mniejsze liczby błędnych izolowanych dopasowań w porów-

naniu z algorytmami bez zastosowania fuzzyfikacji obrazów. Można zatem stwier-

dzić, że w grupie algorytmów wykorzystujących dwie pierwsze miary algorytmy

z fuzzyfikacją obrazów mają wyraźną przewagę. Także i tym razem należy odno-

tować, że uzyskane wykresy dla algorytmów działających w dziedzinie zbiorów

rozmytych i w dziedzinie IFS się pokrywają.

5 10 15 20 25 30 35 40 45 5025303540455055606570


%pi

ksel

iobr

azu



5 10 15 20 25 30 35 40 45 5045

50

55

60

65

70


%pi

ksel

iobr

azu



Rys. 7.19. Średnie procentowe liczby błędnych izolowanych dopasowań otrzyma-ne dla obrazów par stereoskopowych zakłóconych szumem impulsowym „sól

i pieprz”

Nieco odmienne wnioski wynikają z analizy wykresów otrzymanych dla gru-

py algorytmów wykorzystujących miary korelacyjne (rys. 7.19c). W tym przypad-

ku algorytmy z fuzzyfikacją obrazów mają przewagę nad algorytmami bez zasto-

sowania fuzzyfikacji jedynie dla małych poziomów zakłócenia obrazów szumem

„sól i pieprz”, poniżej 20% zaszumionych pikseli. Dla wyższych stopni zaszumie-

nia lepsze wyniki daje algorytm NCC. Natomiast najmniej odporny na szum „sól

i pieprz” prawie w całym zakresie stopnia zaszumienia jest algorytm ZNCC. Gor-

215



5 10 15 20 25 30 35 40 45 5045

50

55

60

65

70

Zawartość szumu „sól i pieprz”[%]

%pi

ksel

iobr

azu



5 10 15 20 25 30 35 40 45 505

10152025303540455055606570


%pi

ksel

iobr

azu



Rys. 7.19. Średnie procentowe liczby błędnych izolowanych dopasowań otrzyma-ne dla obrazów par stereoskopowych zakłóconych szumem impulsowym „sól

i pieprz” (kontynuacja)

sze zachowanie się algorytmów z fuzzyfikacją obrazów dla większych poziomów

zakłócania obrazów można wytłumaczyć dużą wrażliwością przyjętej relacji podo-

bieństwa na specyficzny rodzaj szumu, jakim jest szum typu „sól i pieprz” przyj-

mujący jedynie dwie skrajne wartości jasności pikseli.

Z kolei spośród algorytmów wykorzystujących transformaty obrazów najlep-

sze wyniki dla wszystkich poziomów zaszumienia osiągane są przez algorytm wy-

korzystujący transformatę CENSUS. Nieco gorsze wyniki daje algorytm RANK+

SAD, natomiast wyraźnie najgorsze algorytm wykorzystujący rozmytą transforma-

tę rankingową FuzzyRANK+SAD. Zastosowanie rozmytej transformaty rankingo-

wej obrazów powoduje, podobnie jak w grupie algorytmów z miarami korelacyj-

nymi, że w przypadku zakłócenia obrazów szumem „sól i pieprz” w mapach dys-

parycji występuje duża liczba błędnie dopasowanych pikseli pozostających w izo-

lowanych grupach.

Wyniki dotyczące trzeciego rozpatrywanych wskaźników jakości algorytmów,

tj. błędu RMSE, dla przypadku zakłócania obrazów pary stereoskopowej szumem

„sól i pieprz” przedstawia rys. 7.20. Dla trzech pierwszych miar jakości dopasowa-

nia (rys. 7.20a, 7.20b, 7.20c) widoczna jest wyraźna przewaga algorytmów działa-

jących w dziedzinie zbiorów rozmytych lub zbiorów IFS. Natomiast w grupie al-

gorytmów wykorzystujących transformaty obrazów algorytm FuzzyRANK+SAD

z rozmytą transformatą rankingową daje najgorsze wyniki (rys. 7.20d). Najbardziej

216



odpornym z algorytmów tej klasy okazał się algorytm wykorzystujący transformatę

CENSUS.

5 10 15 20 25 30 35 40 45 5046505458626670747882


RM

SE

[pik

s.]



5 10 15 20 25 30 35 40 45 506266707478828690

Zawartość szumu „sól i pieprz” [%]R

MSE

[pik

s.]



5 10 15 20 25 30 35 40 45 506670747882869094


RM

SE

[pik

s.]



5 10 15 20 25 30 35 40 45 5030354045505560657075808590


RM

SE

[pik

s.]



Rys. 7.20. Średnie wartości błędu RMSE wprzypadku zakłócenia obrazów par ste-roskopowych szumem impulsowym typu „sól i pieprz”

Zestawienie otrzymanych w tym punkcie rezultatów dla przypadku zakłócania

obrazów szumem typu „sól i pieprz” prowadzi do wniosku, że przejście do dziedzi-

ny transformat i zastosowanie fuzzyfikacji daje wyniki niezadowalające. Bardziej

odporne na ten rodzaj zakłócenia są algorytmy działające w dziedzinie transfor-

mat bez stosowania fuzzyfikacji. W przypadku pozostałych klas rozpatrywanych

algorytmów fuzzyfikacja obrazów umożliwia uzyskanie lepszych, a dla niektórych

miar jakości znacząco lepszych wynników, zarówno w przypadku problemu dopa-

sowania pary stereoskopowej cechami, jak i dopasowania obszarami.

217



7.7. Wnioski

Zasadniczym celem niniejszej pracy była próba odpowiedzi na pytanie, czy za-

stosowanie zbiorów rozmytych i/lub intuicjonistycznych zbiorów rozmytych umoż-

liwia skonstruowanie algorytmów, za pomocą których rozwiązanie zagadnienia do-

pasowania pary stereoskopowej byłoby bardziej efektywne. Przeprowadzone bada-

nia, których rezultaty numeryczne zostały przedstawione powyżej, nie pozwalają,

zdaniem autora, na udzielenie prostej i jednoznacznej odpowiedzi na to pytanie.

Aczkolwiek w wielu eksperymentach algorytmy z fuzzyfikacją obrazów wykazały

przewagę nad algorytmami klasycznymi, to w innych ich efektywność była gorsza.

Ocena algorytmów działających w dziedzinie zbiorów rozmytych i zbiorów IFS

zależy od rodzaju zastosowania, od przyjętej miary jakości dopasowania obrazów

oraz od tego, czy wykorzystane są w nich transformaty obrazów, czy też działają

one w dziedzinie jasności pikseli. Efektywność algorytmów jest również zależna od

tego, czy obrazy pary stereoskopowej są niezakłócone, czy też zakłócone, a także

od statystyki szumu zakłócającego i jego poziomu.

Na podstawie przeprowadzonych obliczeń można stwierdzić, że w przypadku

algorytmów dopasowania cechami zaproponowany w pracy algorytm detekcji kra-

wędzi z rozmytą trójkątną relacją podobieństwa pozwala na uzyskanie lepszych re-

zultatów niż klasyczny i często stosowany algorytm MPG. Dla obrazów nie zawie-

rających zakłóceń algorytm ten umożliwia detekcję większej liczby pikseli krawę-

dziowych, jak również uzyskanie większej liczby prawidłowych dopasowań. Rów-

nież w przypadku obrazów zakłóconych zaproponowany algorytm, pomimo jego

wrażliwości na zakłócenia w fazie detekcji pikseli krawędziowych, jest bardziej

efektywny praktycznie dla wszystkich rodzajów szumów zakłócających i pozio-

mów zakłócania.

W przypadku grupy algorytmów dopasowania obszarami wykorzystujących mia-

ry oparte o różnice, widoczna jest pewna przewaga algorytmów zawierających fuz-

zyfikację obrazów. Szczególnie dobrze przewaga algorytmów wykorzystujących

fuzzyfikację uwidaczniana jest w przypadku obrazów par stereoskopowych zakłó-

conych szumem impulsowym typu „sól i pieprz”. Wyniki otrzymane przez te al-

gorytmy są znacznie lepsze od wyników osiąganych przez algorytmy działające

w dziedzinie jasności pikseli.

W przypadku grupy algorytmów wykorzystujących miary oparte o kwadrat róż-

218



nic, również widoczna jest znaczna przewaga algorytmów wykorzystujących fuz-

zyfikację obrazów w przypadku obrazów zakłóconych szumem impulsowym typu

„sól i pieprz”. W przypadku pozostałych zakłóceń nie udało się osiągnąć aż tak

znaczącej poprawy otrzymywanych rezultatów.

W grupie algorytmów wykorzystujących miary korelacyjne najlepsze wyniki

w przypadku zakłócenia typu „sól i pieprz” zawartego w obrazach par stereosko-

powych otrzymane zostały przez zastosowanie algorytmów zawierających fuzzyfi-

kację obrazów. W przypadku pozostałych zakłóceń obecnych w obrazach par ste-

reoskopowych, nie udało się osiągnąć aż tak znacznej przewagi w wynikach otrzy-

mywanych przez algorytmy wykorzystujące opis obrazów w dziedzinie zbiorów

rozmytych i zbiorów IFS.

W przypadku algorytmów wykorzystujących transformaty obrazów dla wszyst-

kich typów zakłóceń wykorzystanie rozmytej transformaty rankingowej pozwoliło

na uzyskanie lepszych rezultatów w stosunku do algorytmu wykorzystującego kla-

syczną transformatę rankingową. Jednak w przypadku zakłócenia szumem impul-

sowym „sól i pieprz”, wykorzystanie transformaty rozmytej w algorytmie dopaso-

wania spowodowało spadek ilości prawidłowych dopasowań.

Wnioskiem kończącym może być stwierdzenie, że algorytm dopasowania ce-

chami wykorzystujący detektor krawędzi oparty o trójkątną rozmytą relację po-

dobieństwa pozwala na uzyskiwanie lepszych wyników w stosunku do algorytmu

MPG. Wykorzystanie algorytmów dopasowania obszarami działających w dziedzi-

nie zbiorów rozmytych i zbiorów IFS pozwala na uzyskiwanie nie gorszych rezul-

tatów dopasowania we wszystkich badanych przypadkach, niż przez zastosowanie

odpowiadających im algorytmów działających w dziedzinie jasności pikseli. Efekt

ten szczególnie dobrze widoczny jest w czasie analizy wyników otrzymanych dla

par stereoskopowych zakłóconych szumem impulsowym typu „sól i pieprz”, gdzie

rezultaty otrzymywane przez zastosowanie algorytmów działających w dziedzinie

zbiorów rozmytych i zbiorów IFS są zdecydowanie lepsze od rezultatów uzyskiwa-

nych przez zastosowanie algorytmów działających w dziedzinie jasności pikseli.

219


Rozdział 8

Zakończenie

Problem dopasowania obrazów pary stereoskopowej i ściśle z nim związany

problem wyznaczenia mapy dysparycji jest jednym z bardzo ważnych zagadnień

w dziedzinie maszynowego widzenia. Pomimo bardzo intensywnie prowadzonych

badań nad jego rozwiązaniem, nie istnieje metoda pozwalająca na uzyskanie pra-

widłowych wyników dla dowolnej pary stereoskopowej. Powodem takiego stanu

rzeczy są problemy związane z samym zagadnieniem, jak np. występowanie regio-

nów przesłoniętych w obrazach lub prawidłowe określenie zakresu poszukiwanej

dysparycji. W przypadku próby zastosowania maszynowego widzenia stereosko-

powego liczba problemów się zwiększa. Przykładem problemów występujących

w rzeczywistych zastosowaniach maszynowego widzenia stereoskopowego mogą

być zakłócenia wnoszone przez urządzenia elektroniczne akwizycji i przetwarzania

obrazów, jak również zakłócenia związane z niejednorodnością oświetlenia obra-

zowanej sceny.

Ciągle trwają więc prace nad poszukiwaniem nowych algorytmów pozwalają-

cych na rozwiązanie problemu dopasowania, jak również nad poprawą efektywno-

ści istniejących metod. Poszukiwane są metody odporne na zakłócenia oraz takie,

które umożliwiają znalezienie dopasowania w rzeczywistych zastosowaniach.

Przedstawiona praca wpisuje w się w nurt badawczy wykorzystania nowych

metod obliczeniowych stosowanych w celu poprawy wyników uzyskiwanych przez

algorytmy dopasowania. Celem przedstawionej pracy było sprawdzenie możliwo-

ści wykorzystania teorii zbiorów rozmytych do zaprojektowania metod umożliwia-

jących rozwiązanie problemu dopasowania obrazów pary stereoskopowej. Moty-

wacją do podjęcia badań nad próbą zastosowania zbiorów rozmytych w problemie

dopasowania pary stereoskopowej był fakt, że pomimo dużej popularności proble-

mu dopasowania obrazów pary stereoskopowej, jak również dużej popularności

teorii zbiorów rozmytych w literaturze istnieje niewielka ilość publikacji poświęco-

nych zagadnieniu zastosowanie teorii zbiorów rozmytych w celu rozwiązania pro-

blemu dopasowania. Aspektem decydującym o braku proponowanych rozwiązań

jest prawdopodobnie duża złożoność tak postawionego problemu. Podjęty w pracy

220


8. Zakończenie

temat badawczy znajduje się na pograniczu dwóch bardzo rozwiniętych teorii. Pra-

ca nad takim zagadnieniem wymaga więc dobrego zrozumienia obu teorii w sposób

umożliwiający poprawne połączenie ich elementów w jedną całość.

Jednak podjęcie badań w tym kierunku wydawało się bardzo dobrą decyzją. Za-

stosowanie zbiorów rozmytych jako narzędzia umożliwiającego przeprowadzanie

obliczeń na danych niepewnych i nieprecyzyjnych może doprowadzić do polepsze-

nia uzyskiwania rezultatów algorytmów operujących na tego rodzaju danych. Ob-

razy z zawartymi w nich zakłóceniami niewątpliwie zaliczają się do tego rodzaju

danych.

Przedstawione w pracy wyniki eksperymentalne pozwoliły na potwierdzenie

tej tezy. W algorytmach, w których wykorzystane zostały elementy teorii zbiorów

rozmytych otrzymane zostały lepsze rezultaty, niż w odpowiadających im znanych

z literatury algorytmach nie zawierających w swoim działaniu elementów teorii

zbiorów rozmytych. Zgodnie z wynikami przedstawionymi w pracy można stwier-

dzić, że zależność ta jest szczególnie prawdziwa, gdy obrazy pary stereoskopowej

zawierają zakłócenia szumowe.

8.1. Komentarz uzyskanych rezultatów

W pracy przedstawione zostały wyniki dla kilku kierunków zastosowań zbio-

rów rozmytych w problemie dopasowania obrazów pary stereoskopowej. Pierw-

szym z nich jest wykorzystanie relacji rozmytej w celu konstrukcji rozmytego de-

tektora krawędzi. Algorytm dopasowania pary stereoskopowej wykorzystujący ten-

że detektor pozwala na osiągnięcie znacząco lepszych rezultatów, niż dobrze znany

z literatury algorytm odniesienia MPG. Tak więc przedstawione wyniki ekspery-

mentalne potwierdziły zasadność podjęcia tego kierunku badań, jak również zasto-

sowania teorii zbiorów rozmytych w tak postawionym zagadnieniu.

Kolejna grupa przedstawionych metod rozwiązania problemu dopasowania pa-

ry stereoskopowej wykorzystuje zmianę dziedziny opisu obrazów i pozwala na uzy-

skanie opisu obrazów w dziedzinie zbiorów rozmytych. W pracy przedstawione zo-

stały dwie metody opisu. Pierwsza z nich pozwala na opisanie obrazu za pomocą

funkcji przynależności, podczas gdy druga pozwala na opis obrazu w dziedzinie in-

tuicjonistycznych zbiorów rozmytych. Po otrzymaniu opisu obrazów w dziedzinie

zbiorów rozmytych i zbiorów IFS możliwe jest rozwiązanie problemu dopasowa-

221


8. Zakończenie

nia pary stereoskopowej w ich dziedzinach. Zgodnie z przedstawionymi wynikami

można powiedzieć, że dopasowanie w dziedzinie zbiorów rozmytych jak i zbiorów

IFS również pozwala na osiągnięcie lepszych rezultatów, niż rezultaty osiągane

przez algorytmy dopasowania działające w dziedzinie jasności pikseli. Zależność

ta zachodzi przynajmniej dla odpowiadających sobie ideowo metod działających

w różnych dziedzinach, które zostały poddane szczegółowym badaniom w przed-

stawianej pracy.

Możliwy jest do sformułowania zarzut, że poprawa wyników jest niewielka.

Jednak przy tak dużej liczbie znanych algorytmów opracowanie algorytmu umoż-

liwiającego bardzo znaczną poprawę wyników wydaje się praktycznie niemożliwe.

Należy jednak stwierdzić, że osiągana poprawa jest jednak na tyle znacząca, że

może uzasadnić celowość podjęcia badań, jak również zastosowań opracowanych

w ich efekcie algorytmów dopasowania pary stereoskopowej wykorzystujących ele-

menty teorii zbiorów rozmytych.

Inną przedstawioną w pracy ideą jest zastosowanie rozmytej transformaty ran-

kingowej. Również w tym przypadku uzyskane zostały lepsze wyniki dopasowania

obrazów pary stereoskopowej, niż przy zastosowaniu algorytmów wykorzystują-

cych klasyczną transformatę rankingową.

Dużą wartością przedstawianej pracy jest znaczna ogólność części zaprojekto-

wanych metod. Zarówno rozmyty detektor krawędzi jak i metody fuzyfikacji obra-

zów umożliwiających ich opis w dziedzinie zbiorów rozmytych jak i zbiorów IFS są

na tyle ogólne, że można je z łatwością zastosować do projektowania algorytmów

rozwiązujących inne zagadnienia przetwarzania obrazów, jak np. segmentacja lub

filtracja obrazów.

8.2. Perspektywy dalszego rozwoju

Bardzo dobrym kierunkiem dalszego rozwoju zagadnień przedstawionych w pra-

cy wydaje się zastosowanie obrazów kolorowych w algorytmach dopasowania. Na-

turalnym stwierdzeniem wydaje się, że niebieska kropka nie powinna zostać za-

klasyfikowana jako odpowiadająca kropce zielonej. Jednak to intuicyjnie stwier-

dzenie, nie zostało potwierdzone przez badaczy, którzy już podjęli ten kierunek

w przedstawionych przez nich wynikach badań. Wykorzystanie obrazów koloro-

wych w problemie dopasowania obrazów pary stereoskopowej ciągle należy do

222


8. Zakończenie

zagadnień nie zbadanych bardzo szczegółowo i możliwe jest podjęcie dalszych ba-

dań w tym kierunku. Dopuszczalne jest także przypuszczenie, że przedstawione

w tej pracy algorytmy wykorzystujące w swoim działaniu elementy teorii zbiorów

rozmytych, działające na obrazach kolorowych pozwoliłby na uzyskanie znaczą-

co lepszych rezultatów. Odpowiedź na to pytanie, pozostaje jednak jako otwarty

kierunek badań.

Prawdopodobnym kierunkiem rozwoju algorytmów rozwiązujących problem

dopasowania pary stereoskopowej wydaje się również rozwój metod hybrydowych.

W obecnej chwili istnieją algorytmy pozwalające na uzyskanie bardzo dobrych

wyników w przypadku spełnienia szczególnych warunków dotyczących zawarto-

ści obrazowanej sceny lub rodzaju zakłóceń obecnych w obrazach pary stereosko-

powej. Rozwiązanie hybrydowe umożliwiające wykorzystanie tylko cech różnych

pozytywnych algorytmów pozwala na uzyskiwanie dobrych wyników w szerszym

obszarze zastosowań.

Takim rozwiązaniem hybrydowym bazującym na wynikach przedstawionej pra-

cy, mógłby być algorytm hybrydowy wykorzystujący zarówno wynik działania

algorytmu dopasowania krawędzi jak i algorytmu dopasowania obszarami. Teo-

ria zbiorów rozmytych mogłaby znaleźć tutaj dalsze zastosowania jako narzędzie

umożliwiające fuzje wyników otrzymywanych z dwóch różnych algorytmów. Ta-

ki algorytm prawdopodobnie pozwoliłby na uzyskanie bardzo dobrych wyników

rozwiązania problemu dopasowania obrazów pary stereoskopowej.

223


Bibliografia

[1] The Oxford Advanced Learner’s Dictionary, 7th Edition. Red. Wehmeier S.

Oxford New York: Oxford University Press, 2005. isbn: 01-94-31649-1.

[2] Słownik języka polskiego [online]. Wydawnictwo Naukowe PWN. [Dostęp:

29 sierpnia 2011]. Dostępny w Internecie: url: http://sjp.pwn.pl/.

[3] Howard I. P., Rogers B. J.: Binocular vision and stereopsis. USA: Oxford

University Press, Inc., 1995. isbn: 01-95-08476-4.

[4] Nowa encyklopedia powszechna PWN. Red. Kaczorowski B. Warszawa:

Wydawnictwo Naukowe PWN, 2004. isbn: 83-01-14179-4.

[5] Niżankowska M. H.: Podstawy okulistyki. Wyd. 2. Wrocław: Volumed, 2000.

isbn: 83-87804-14-2.

[6] Trucco E., Verri A.: Introductory techniques for 3-D computer vision. Up-

per Saddle River, New Jersey: Prentice Hall, Inc., 1998. isbn: 01-32-61108

-2.

[7] Duchinski M.: “Współpraca manipulatora z systemem wizyjnym”. Praca

magisterska. Wrocław: Politechnika Wrocławska, 2003.

[8] Rzeszotarski D., Strumiłło P., Pełczyński P., [i in.]: “System obrazowa-

nia stereoskopowego sekwencji scen trójwymiarowych”. Elektronika: pra-

ce naukowe 10, 2005, str. 165–184.

[9] Cyganek B.: Komputerowe przetwarzanie obrazów trójwymiarowych. War-

szawa: Akademicka Oficyna Wydawnicza EXIT, 2001. isbn: 83-87674-34

-6.

[10] Hong L., Chen G.: “Segment-based stereo matching using graph cuts”. Pro-

ceedings of the 2004 IEEE Computer Society Conference on Computer Vi-

sion and Pattern Recognition CVPR 2004. Tom 1. Washington, DC, USA,

2004, str. 74–81.

[11] Hannah M. J.: “Digital stereo image matching techniques”. International

Archives for Photogrammetry and Remote sensing 27(111), 1988, str. 280

–293.

224


BIBLIOGRAFIA

[12] Lazaros N., Sirakoulis G. C., Gasteratos A.: “Review of stereo vision algo-

rithms: from software to hardware”. International Journal of Optomecha-

tronics, 2(4), 2008, str. 435 –462.

[13] Tomaszewski M., Skarbek W.: “Liniowa odpowiedniość pozy kamery w bie-

gunowym dopasowaniu obrazów”. Przegląd Telekomunikacyjny i Wiado-

mości Telekomunikacyjne (KKRRiT 2009) 82(6), 2009, str. 384–387.

[14] Piegat A.: Modelowanie i sterowanie rozmyte. Warszawa: Akademicka Ofi-

cyna Wydawnicza EXIT, 1999. isbn: 83-87674-14-1.

[15] Butkiewicz B.: Metody wnioskowania przybliżonego. Właściwości i zasto-

sowanie. Warszawa: Oficyna Wydawnicza Politechniki Warszawskiej, 2001.

[16] Łachwa A.: Rozmyty świat zbiorów, liczb, relacji, faktów, reguł i decyzji.

Warszawa: Akademicka Oficyna Wydawnicza EXIT, 2001. isbn: 83-87674

-21-4.

[17] Rutkowski L.: Metody i techniki sztucznej inteligencji. Wydawnictwo Na-

ukowe PWN, 2006. isbn: 83-01-14529-3.

[18] Nieradka G.: “Method for edge detection in images using fuzzy relation”.

Proceedings of the SPIE. Tom 6937. 2008, str. 69373E–8.

[19] Nieradka G., Butkiewicz B.: “Features stereo matching based on fuzzy

logic”. Proceedings of the Joint International Fuzzy Systems Association

World Congress and European Society of Fuzzy Logic and Technology Con-

ference. Lisbon, Portugal, 2009, str. 1188–1193.

[20] Nieradka G., Butkiewicz B.: “A method for automatic membership func-

tion estimation based on fuzzy measures”. Foundations of Fuzzy Logic and

Soft Computing. Tom 4529. Lecture Notes in Computer Science. Springer

Berlin / Heidelberg, 2007, str. 451–460.

[21] Nieradka G.: Rozdz. Intuitionistic fuzzy sets applied to stereo matching pro-

blem. [w:] “Development in Fuzzy Sets, Intuitionistic Fuzzy Sets, Gene-

ralized Nets and Related Topics. Applications.” Pod. red. Atanassov A,

Chountas P, Kacprzyk J, [i in.]. Tom 2. Warszawa: Akademicka Oficyna

Wydawnicza EXIT, 2008, str. 161–171. isbn: 978-83-60434-53-6.

[22] Nieradka G.: “Disparity smoothing algorithm for three-dimensional scene

reconstruction”. Proceedings of the 14th International Conference on Me-

thods and Models in Automation and Robotics. Tom 14 (1). 2009, str. 1–6.

225


BIBLIOGRAFIA

[23] Hartley R., Zisserman A.: Multiple view geometry in computer vision. Wyd.

2. Cambridge, United Kingdom: Cambridge University Press, 2003. isbn:

05-21-54051-8.

[24] Faugeras O., Loung Q.-T., Papadopoulo T.: The geometry of multiple ima-

ges. London, England: The MIT Press, 2001. isbn: 02-62-06220-8.

[25] Wöhler C.: 3D computer vision. Efficient methods and applications. New

York: Springer-Verlag, 2009. isbn: 36-42-01731-2.

[26] Emerging topics in computer vision. Red. Medioni G., Kang S. B. Up-

per Saddle River, New Jersey: IMSC Press Multimedia Series, 2003. isbn:

01-31-01366-1.

[27] Elias R.: Rozdz. Geometric Modeling in Computer Vision: An Introduction

to Projective Geometry. [w:] “Wiley Encyclopedia of Computer Science

and Engineering”. Pod. red. Wah B. Tom 3. John Wiley & Sons, Inc., 2009,

str. 1400–1416. isbn: 0-471-38393-7.

[28] Elias R.: “Projective geometry for three-dimensional computer vision”. Pro-

ceedings of the Seventh World Multiconference on Systemics, Cybernetics

and Informatics, SCI’03. Tom 5. Orlando, Florida, USA, 2003, str. 99–104.

[29] Kuffar H., Takaya K.: “Depth measurement and 3D metric reconstruction

from two uncalibrated stereo images”. Proceedings of the Canadian Con-

ference on Electrical and Computer Engineering, (CCECE 2007). Vanco-

uver, BC, 2007, str. 1460–1463.

[30] Bocquillon B., Bartoli A., Gurdjos P., [i in.]: “On constant focal length

self-calibration from multiple views”. Proceedings of the IEEE Conference

on Computer Vision and Pattern Recognition, 2007. CVPR ’07. Minneapo-

lis, MN, 2007, str. 1–8.

[31] Guerchouche R., Coldefy F.: “Camera calibration methods evaluation pro-

cedure for images rectification and 3D reconstruction”. Proceedings of the

16th International Conference in Central Europe on Computer Graphics,

Visualization and Computer Vision’2008 (WSCG’2008). Plzen, Czech Re-

public, 2008, str. 205–210.

[32] Miosso C. J., Almeida Mencari M. de, Bauchspiess A.: “Stereo vision sys-

tem applied to the reconstruction of polyhedric structures”. Proceedings

of the Fourth Industry Applications Conference (INDUSCON’2000). Porto

Alegre, Brasil, 2000, str. 576–581.

226


BIBLIOGRAFIA

[33] Ke X, Sutton M. A., Lessner S. M., [i in.]: “Robust stereo vision and calibra-

tion methodology for accurate three-dimensional digital image correlation

measurements on submerged objects”. The Journal of Strain Analysis for

Engineering Design 43(8), 2008, str. 689–704.

[34] Thormaählen T., Broszio H., Wassermann I.: “Roubst line-based calibra-

tion of lens distortion from a single view”. Proceedings of Mirage 2003

( Computer Vision / Computer Graphics Collaboration for Model-based

Imaging, Rendering, Image Analysis and Graphical Special Effects). IN-

RIA Rocquencourt, France, 2003, str. 105–112.

[35] Ricolfe-Viala C., Sánchez-Salmerón A.-J.: “Roubst metric calibration of

non-linear camera lens distortion”. Pattern Recognition 43, 2010, str. 1688–

1699.

[36] Wu J., Ding W., Yuan Z., [i in.]: “Improving registration accuracy of AR

with non-linear camera model”. Proceedings of the IEEE Conference on

Mechatronics and Automation. Luoyang, China, 2006, str. 200–204.

[37] Chen H, Che R. S., Chen G: “A technique for binocular stereo vision system

calibration by the nonlinear optimization and calibration points with accu-

rate coordinates”. Journal of Physics: Conference Series 48, 2006, str. 806–

810.

[38] Sonka M., Hlavac V., Boyle R.: Image processing, analysis, and machine vi-

sion. Wyd. 3. Toronto, Ontario: Thomson Learning, 2008. isbn: 04-95-08-

252-X.

[39] Cyganek B., Siebert J. P.: An introduction to 3D computer vision techniques

and algorithms. Great Britain, Wiltshire: John Wiley & Sons, Ltd., 2009.

isbn: 04-70-01704-X.

[40] Jähne B.: Digital Image Processing. Wyd. 6. Berlin, Germany: Springer-

Verlag, 2002. isbn: 35-40-24035-7.

[41] Hesch J. A., Mourikis A. I., Roumeliotis S. I.: “Extrinsic camera calibration

using multiple reflections”. Lecture Notes in Computer Science 6301, 2010,

str. 311–325.

[42] Sun W., Cooperstock J. R.: “An empirical evaluation of factors influen-

cing camera calibration accuracy using three publicly available techniqu-

es”. Machine Vision and Applications 17(1), 2006, str. 51–67.

227


BIBLIOGRAFIA

[43] Bradley D., Heidrich W.: “Binocular camera calibration using rectification

error”. Proceedings of the Canadian Conference on Computer and Robot

Vision (CRV). Kanada, Ottawa, 2010, str. 183 –190.

[44] Beyer H. A.: “Accurate calibration of CCD cameras”. Proceedings of the

IEEE Computer Society Conference on Computer Vision and Pattern Re-

cognition (CVPR ’92). Champaign, IL, USA, 1992, str. 96–101.

[45] Zhang Z., Deriche R., Faugeras O., [i in.]: A robust technique for matching

two uncalibrated images throughe the recovery of the unknown epipolar

geometry. Raport badawczy, 2273. Institut national de recherche en infor-

matique en automatique (INRIA), 1994.

[46] Zhang Z.: “Determining the epipolar geometry and its uncertainty: a re-

view”. International Journal of Computer Vision 27(2), 1998, str. 161–198.

[47] Brown M. Z., Burschka D., Hager G. D.: “Advances in computational ste-

reo”. IEEE Transactions on Pattern Analysis and Machine Intelligence 25(8),

2003, str. 993–1008.

[48] Gosta M., Grgic M.: “Accomplishments and challenges of computer stereo

vision”. Proceedings ot the 52 International Symposium ELMAR-2010, Za-

dar, Croatia, 2010, str. 57–64.

[49] Whitehead A., Roth G.: “Estimating intrinsic camera parameters from the

fundamental matrix using an evolutionary approach”. EURASIP Journal

on Applied Signal Processing 8, 2004, str. 1112–1124.

[50] Bert J., Dembèlè S., Lefort-Piat N.: “Performing weak calibration at the

microscale, application to micromanipulation”. Proceedings of the IEEE

International Conference on Robotics and Automation. Roma, Italy, 2007,

str. 4937 –4942.

[51] Ihrke I., Ahrenberg L., Magnor M.: “External camera calibration for syn-

chronized multi-video systems”. Journal of WSCG 12(1–3), 2004, str. 1–

12.

[52] Armangué X, Salvi J, Batlle J: “A comparative review of camera calibra-

ting methods with accuracy evaluation”. Pattern Recognition 35(7), 2002,

str. 1617–1635.

[53] Barnard S. T., Thomson W. B.: “Disparity analysis of images”. IEEE Trans-

actions on Pattern Analysis and Machine Intelligence PAMI-2(4), 1980,

str. 333–340.

228


BIBLIOGRAFIA

[54] Lin G.-Y., Chen X.: “A robust epipolar rectification method of stereo pairs”.

Proceedings of the IEEE International Conference on Measuring Techno-

logy and Mechatronics Automation. Changsha, China, 2010, str. 322–326.

[55] Jawed K., Morris J., Khan T., [i in.]: “Real time rectification for stereo cor-

respondence”. Proceedings of the International Conference on Computa-

tional Science and Engineering. 2009, str. 277–284.

[56] Liebowitz D., Zisserman A.: “Metric rectification for perspective images of

planes”. Proceedings of the IEEE Computer Society Conference on Compu-

ter Vision and Pattern Recognition. Santa Barbara, CA, USA, 1998, str. 482

–488.

[57] Fusiello A., Trucco E., Veri A.: “A compact algorithm for rectification of

stereo pairs”. Machine Vision and Applications 12(1), 2000, str. 16–22.

[58] Sàra R., Bajscy R.: “On occluding contour artifacts in stereo vision”. Proce-

edings of the IEEE Computer Society Conference on Computer Vision and

Pattern Recognition, CVPR ’97. San Juan, Puerto Rico, 1997, str. 852–857.

[59] Kim J. C., Lee K. M., Choi B. T., [i in.]: “A dense stereo matching using

two-pass dynamic programming with generalized ground control points”.

Proceedings of the IEEE Computer Society Conference on Computer Vision

and Pattern Recognition (CVPR’05). Tom 2. 2005, str. 1075–1082.

[60] Kang S. B., Szeliski R., Chi J.: “Handling occlusions in dense multi-view

stereo”. Proceedings of the IEEE Computer Society Conference on Com-

puter Vision and Pattern Recognition, (CVPR 2001). Tom 1. 2001, str. I–

103–110.

[61] Egnal G., Wildes R. P.: “Detecting binocular half-occlusions: empirical

comparisons of five approaches”. IEEE Transactions on Pattern Analysis

and Machine Intelligence 24(8), 2002, str. 1127–1133.

[62] Barrois B., Konrad M., Wöhler C., [i in.]: “Resolving stereo matching er-

rors due to repetitive structures using model information”. Pattern Reco-

gnition Letters 31(1), 2010, str. 1683–1692.

[63] Kim Y.-K., Kim S.-Y., Ho Y.-S.: “Stereo matching using global and local

segmentation”. International Technical Conference on Circuits/Systems,

Computers and Communications (ITC-CSCC). Busan, Korea, 2007, str.

1225 –1226.

229


BIBLIOGRAFIA

[64] Gerrits M., Bekaert P.: “Local stereo matching with segmentation based

outlier rejection”. Proceedings of the 3rd Canadian Conference on Com-

puter and Robot Vision. 2006, str. 66–66.

[65] Bleyer M., Gelautz M.: “Graph-cut-based stereo matching using image seg-

mentation with symmetrical treatment of occlusions”. Signal Processing:

Image Communication 22, 2007, str. 127–143.

[66] Candocia F. M.: “A scale-preserving lens distortion dodel and its applica-

tion to image registration”. Proceedings of the Florida Conference on Re-

cent Advances in Robotics, (FCRAR 2006). Miami, Florida, 2006, str. 1–6.

[67] Villiers J. P. de, Leuschner F. W., Geldenhuys R.: “Centi-pixel accura-

te real-time inverse distortion correction”. Proceedings of the Internatio-

nal Symposium on Optomechatronic Technologies. Tom 7266. ISOT2008.

2008, str. 1–8.

[68] Jin H., Soatto S., Yezzi Anthony J: “Multi-view stereo beyond Lambert”.

Proceeding of the IEEE Computer Society Conference on Computer Vision

and Pattern Recognition (CVPR 03). Tom 1. 2003, str. I–171–178.

[69] Ihrke I., Kutulakos K. N., Lensch H. P. A., [i in.]: “State of the art in transpa-

rent and specular object reconstruction”. Proceedings of the Eurographics.

Crete, Greece, 2008, str. 87–108.

[70] Tsin Y., Kang S. B., Szeliski R.: “Stereo matching with reflections and

translucency”. Proceedings of the IEEE Computer Society Conference on

Computer Vision and Pattern Recognition. Tom 1. 2003, str. I–702–709.

[71] Mayer H.: “Analysis of means to improve cooperative disparity estimation”.

International Archives of the Photogrammetry, Remote Sensing and Spatial

Information Sciences 34(3/8), 2003, str. 25–32.

[72] Sadeghi H., Moallem P., Monadjemi S. A.: “Feature based dense stereo

matching using dynamic programming and color”. International Journal

of Information and Mathematical Sciences 4(3), 2008, str. 179–186.

[73] Mark W. van der, Gavrila D.: “Real-time dense stereo for intelligent vehic-

les”. IEEE Transactions on Intelligent Transportation Systems 7(1), 2006,

str. 38–50.

[74] Szeliski R., Zabih R., Scharstein D., [i in.]: “A comparative study of energy

minimization methods for markov random fields”. IEEE Transactions on

Pattern Analysis and Machine Intelligence 30(6), 2006, str. 1068–1080.

230


BIBLIOGRAFIA

[75] Sarkis M., Diepold K.: “Towards real-time stereo using non-uniform ima-

ge sampling and sparse dynamic programming”. Proceedings of the Fourth

International Symposium on 3D Data Processing, Visualization and Trans-

mission. Atlanta, GA, USA, 2008, str. 1–8.

[76] Cassisa C.: “Local vs global energy minimization methods: application

to stereo matching”. Proceedings of the IEEE International Conference

on Progress in Informatics and Computing (PIC). Shanghai, China, 2010,

str. 678–683.

[77] Handbook of mathematical models in computer vision. Red. Paragois N.,

Chen Y., Faugeras O. New York, USA: Springer Science+Business Media,

Inc., 2006. isbn: 0-387-26371-3.

[78] West D. B.: Introduction to graph theory. Wyd. 2. Delhi, India: Pearson

Education Pte. Ltd., 2002. isbn: 81-7808-830-4.

[79] Roy S., Cox I. J.: “A maximum-flow formulation of the N-camera stereo

correspondence problem”. Proceedings of the Sixth International Confe-

rence on Computer Vision (ICCV’98). Bombay, India, 1998, str. 492–499.

[80] Roy S.: “Stereo without epipolar lines: a maximum-flow formulation”. In-

ternational Journal of Computer Vision 34(2/3), 1999, str. 147–161.

[81] Ishikawa H., Geiger D.: “Occlusions, discontinuities and epipolar lines in

stereo”. Proceedings of the Fifth European Conference on Computer Vision

(ECCV ’98). Freiburgh, Germany, 1998, str. 1–14.

[82] Bykov Y., Veksler O., Zabih R.: “Fast approximate energy minimization

via graph cuts”. Proceedings of the International Conference on Computer

Vision. Tom 1. Kerkyra, Greece, 1999, str. 377–384.

[83] Bykov Y., Veksler O., Zabih R.: “Fast Approximate energy minimization

via graph cuts”. IEEE Transactions on Pattern Analysis and Machine In-

telligence 23(11), 2001, str. 1–18.

[84] Kolmogorov V., Zabih R.: “Computing visual correspondence with occ-

lusions using graph cuts”. Proceedings of the Eighth IEEE International

Conference on Computer Vision (ICCV 2001). Tom 2. Vancouver, BC, Ca-

nada, 2001, str. 508 –515.

[85] Kolmogorov V., Zabih R.: “What energy functions can be minimized via

graph cuts?” IEEE Transactions on Pattern Analysis and Machine Intelli-

gence 26(2), 2004, str. 147–159.

231


BIBLIOGRAFIA

[86] Cormen T. H., Leiserson C. E., Rivest R. L.: Wprowadzenie do algorytmów.

Warszawa: Wydawnictwa Naukowo-Techniczne, 2001. isbn: 83-204-2665

-0.

[87] Ohta Y., Kanade T.: “Stereo by intra-and inter-scanline search using dyna-

mic programming”. IEEE Transactions on Pattern Analysis and Machine

Intelligence 7(2), 1985, str. 139–154.

[88] Leung C., Appleton B., Changming S.: “Fast stereo matching by itera-

ted dynamic programming and quadtree subregioning”. Proceedings of the

British Machine Vision Conference. Kingston University, London, 2004,

str. 97–106.

[89] Sorgi L., Neri A.: “Bidirectional dynamic programming for stereo mat-

ching”. Proceedings of the IEEE International Conference on Image Pro-

cessing. Atlanta, GA, 2006, str. 1013–1016.

[90] Ferrari V., Tuytelaars T., Van Gool L.: “Wide-baseline multiple-view cor-

respondences”. Proceedings of the IEEE Computer Society Conference on

Computer Vision and Pattern Recognition (CVPR’03). Tom 1. 2003, str. I–

718–725.

[91] Di Stefano L., Mattoccia S.: “Fast template matching using bounded partial

correlation”. Machine Vision and Applications 13(4), 2003, str. 213–221.

[92] Tsai D.-M., Lin C.-T., Chen J.-F.: “The evaluation of normalized cross cor-

relations for defect detection”. Pattern Recognition Letters 24(15), 2003,

str. 2525–2535.

[93] Sun C.: “A fast stereo matching method”. Digital Image Computing: Tech-

niques and Applications. New Zealand, 1997, str. 95–100.

[94] Di Stefano L., Mattoccia S., Tombari F.: “ZNCC-based template matching

using bounded partial correlation”. Pattern Recognition Letters 26(14), 2005,

str. 2129–2134.

[95] Arcara P, Di Stefano L, Mattoccia S, [i in.]: “Perception of depth infor-

mation by means of a wire-actuated haptic interface”. Proceedings of the

IEEE International Conference on Robotics & Automation. Tom 4. San

Francisco, CA , USA, 2000, str. 3443–3448.

[96] Di Stefano L., Marchionni M., Mattoccia S.: “A fast area-based stereo mat-

ching algorithm”. Image and Vision Computing 22(12), 2001, str. 983–

1005.

232


BIBLIOGRAFIA

[97] Hirschmüller H.: “Improvements in real-time correlation-based stereo vi-

sion”. Proceedings of the IEEE Workshop on Stereo and Multi-Baseline

Vision (SMBV’01). Kauai, HI , USA, 2001, str. 141–148.

[98] Cai J.: “Fast stereo matching: coarser to finer with selective updating”. Pro-

ceedings of the Image and Vision Computing New Zealand Conference.

Hamilton, New Zealand, 2007, str. 266–270.

[99] Roma N., Santos-Victor J., Tomé J.: Rozdz. A comparative analysis of cross

-correlation matching algorithms using a pyramidal resolution approach.

[w:] “Empirical evaluation methods in computer vision”. Pod. red. Chri-

stensen H. I., Phillips P. J. World Scientific Press, 2002, str. 117–143. isbn:

98-10-24953-5.

[100] Yoon K.-J., Kweon I. S.: “Adaptive support-weight approach for correspon-

dence search”. IEEE Transactions on Pattern Analysis and Machine Intel-

ligence 28(4), 2006, str. 650–656.

[101] Lourakis M. I. A., Argyros Antonis A., Marias K.: “A graph-based ap-

proach to corner matching using mutual information as a local similarity

measure”. Proceedings of the 17th International Conference on Pattern Re-

cognition (ICPR’04). Tom 2. Cambridge, UK, 2004, str. 827–830.

[102] Hirschmüller H.: “Accurate and efficient stereo processing by semi-global

matching and mutual information”. Proceedings of the IEEE Computer So-

ciety Conference on Computer Vision and Pattern Recognition (CVPR).

Tom 2. San Diego, CA, USA, 2005, str. 807–814.

[103] Sarkar I., Bansal M.: “A wavelet-based multiresolution approach to so-

lve the stereo correspondence problem using mutual information”. IEEE

Transactions on Systems, Man and Cybernetics Part B: Cybernetics 37(4),

2007, str. 1009–1014.

[104] Studholme C, Hill D, Hawkes D: “An overlap invariant entropy measure of

3D medical image alignment”. Pattern Recognition 32(1), 1999, str. 71–96.

[105] Egnal G.: Mutual information as a stereo correspondence measure. Raport

badawczy, MS-CIS-00-20. University of Pennsylvania, 2000.

[106] Fookes C., Maeder A., Sridharan S., [i in.]: “Multi-spectral stereo image

matching using mutual information”. Proceedings of the 2nd Internatio-

nal Symposium on 3D Data Processing, Visualization, and Transmission

(3DPVT’04). Thessaloniki, Greece, 2004, str. 961–968.

233


BIBLIOGRAFIA

[107] Ramírez J. M., Paz-Luna O., Salazar H.: “A hierachical block matching ste-

reo algorithm based on cepstrum analysis for remote sensing”. Proceedings

of the XIV Iberchip Workshop. Puebla, Mexico, 2008, str. 1–4.

[108] Mukherjee D., Wang G., Wu Q.: “Stereo matching algorithm based on cu-

rvelet decomposition and modified support weights”. Proceedings of the

IEEE International Conference on Acoustics Speech and Signal Processing

(ICASSP). Dallas, TX, 2010, str. 758–761.

[109] Ahlvers U., Zoelzer U., Rechmeier S.: “FFT-based disparity estimation for

stereo image coding”. Proceedings of the International Conference on Ima-

ge Processing. Tom 1. Barcelona, Catalonia, Spain, 2003, str. I –761–4.

[110] Solari F, Sabatini S. P., Bisio G. M.: “A fast technique for phase-based di-

sparity estimation with no explicit calculation of phase”. Electronics Letters

37(23), 2001, str. 1382–1383.

[111] Díaz J., Ros E., Sabatini S. P., [i in.]: “A phase-based stereo vision system-

on-a-chip”. BioSystems 87, 2007, str. 314–321.

[112] Goswami J. C., Chan A. K.: Fundamentals of wavelets : theory, algorithms,

and applications. Hoboken, New Jersey: John Wiledy & Sons, Inc., 2011.

isbn: 04-71-19748-3.

[113] Burrus C. S., Gopinath R. A., Guo H.: Introduction to wavelets and wavelet

transforms: a primer. Upper Saddle River, New Jersey: Prentice Hall, 1998.

isbn: 01-34-89600-9.

[114] Wawrzyniak K.: “Analiza czasowo-częstotliwościowa akustycznych obra-

zów falowych za pomocą tranformaty falkowej”. Geologia 31(3/4), 2005,

str. 309–335.

[115] Bołt W.: “Zastosowanie układów falkowych do aproksymacji rozwiązań

równań różniczkowych”. Praca magisterska. Uniwersytet Gdański, Wydział

Matematyki, Fizyki i Informatyki, 2008.

[116] Wavelets and their applications. Red. Misiti M., Misiti Y., Oppenheim G.,

[i in.]. London, UK: ISTE Ltd., 2007. isbn: 9-781-90520931-6.

[117] Calderbank A. R., Daubechies I., Sweldens W., [i in.]: “Wavelet transforms

that map integers to integers”. Applied and Computational Harmonic Ana-

lysis 5, 1998, str. 332–369.

[118] Białasiewicz J. T.: Falki i aproksymacje. Warszawa: Wydawnictwa Nauko-

wo-Techniczne, 2004. isbn: 83-204-2557-3.

234


BIBLIOGRAFIA

[119] Wojtaszczyk P.: Teoria falek. Warszawa: Wydawnictwo Naukowe PWN,

2000. isbn: 83-01-13322-8.

[120] Xiong Y., Quek F. “Stereo matching approach based on wavelet analysis for

3D reconstruction in neurovision system”. Proceedings of SPIE. Pod. red.

Nasrabadi N. M., Katsaggelos Aggelos K. Tom 5015. 2003.

[121] Wu Y.-T., Chen L.-F., Lee P.-L., [i in.]: “Discrete signal matching using

coarse-to-fine wavelet basis functions”. Pattern Recognition 36, 2003, str.

171 –192.

[122] Zadeh P. B., Serdean C. V.: “Stereo correspondence matching using mul-

tiwavelets (ICDT ’10)”. Proceedings ot the IEEE Fifth International Confe-

rence on Digital Telecommunications. Washington, DC, USA, 2010, str. 153

–157.

[123] Zabih R., Woodfill J.: “Non-parametric local transform for computing vi-

sual correspondence”. Proceedings of the third European conference on

Computer Vision ECCV ’94. Tom 2. Stockholm, Sweden, 1994, str. 151–

158.

[124] Banks J., Bennamoun M.: “Reliability analysis of the rank transform for

stereo matching”. IEEE Transactions on Systems, Man and Cybernetics –

Part B: Cybernetics 31(6), 2001, str. 870–880.

[125] Ambrosch K., Kubinger W., Humenberg M., [i in.]: “Flexible hardware–

based stereo matching”. EURASIP Journal on Embedded Systems, 2008,

str. 1–12.

[126] Fröba B., Ernst A.: “Face detection with the modified census transform”.

Proceedings of the Sixth IEEE Conference on Automatic Face and Gesture

Recognition. Santa Barbara, USA, 2004, str. 91–96.

[127] Kim H. J., Lee Y.-G., Cho K. H., [i in.]. “Disparity estimation using ed-

ge model for stereo video compresion”. Proceedings of SPIE-IS&T Elec-

tronic Imaging. Pod. red. Apostolopoulos J. G., Said A. Tom 6077. 2006,

60772A–1–9.

[128] Bay H., Ferrari V., Van Gool L.: “Wide-baseline stereo matching with line

segments”. Proceedings of the IEEE Conference on Computer Vision and

Pattern Recognition. Tom 1. San Diego, CA, USA, 2005, str. 329–336.

235


BIBLIOGRAFIA

[129] Étienne V., Laganiére R.: “Matching feature points in stereo pairs: a com-

parative study of some matching strategies”. Machine Graphics & Vision

10(3), 2001, str. 237–259.

[130] Dankers A., Barnes N., Zelinsky A.: “Active vision - rectification and depth

mapping”. Proceedings of the Australian Conference on Robotics and Au-

tomation (ACRA). Canberra, Australia, 2004, str. 1–11.

[131] Ivaturi A., Kalmar H.: Uncalibrated rectification with reduced geometric

and visual distortion. Raport badawczy, Blekinge Tekniska Högskola, 2007.

[132] Lu Y., Smith S.: “A comprehesive tool for recovering 3d models from

2d photos with wide baselines”. Proceedings of the IASTED Internatio-

nal Conference Human-Computer Interaction. Phoenix, AZ, USA, 2005,

str. 108–113.

[133] Loaïza H., Triboulet J., Lelandais S., [i in.]: “Matching segments in ste-

reoscopic vision”. IEEE Instrumentation & Measurement Magazine 4(1),

2001, str. 37–42.

[134] Moallem P., Faez K.: “Fast edge-based stereo matching and geometric para-

meters”. International Journal of Pattern Recognition and Image Analysis

(Advances in Mathematical Theory and Application) 13, 2003, str. 518 –

524.

[135] Belli T., Cord M., Philipp-Foliguet S.: “Color contribution for stereo image

matching”. Proceeding of the Internationl Conference on Colour in Gra-

phics and Image Processing, CGIP’2000. Saint-Étienne, France, 2000, str.

317 –322.

[136] Bleyer M., Chambon S.: “Does color really help in dense stereo matching?”

Proceedings of the Fifth International Symposium on 3D Data Processing,

Visualization and Transmission (3DPVT’10). Espace Saint-Martin, Paris,

France, 2010, str. 1–8.

[137] Bleyer M., Chambon S., Poppe U., [i in.]: “Evaluation of different methods

for using colour information global stereo matching approaches”. The In-

ternational Archives of the Photogrammetry, Remote Sensing and Spatial

Information Sciencies. Tom XXXVII. Beijing, China, 2008, str. 63–68.

[138] Hirschmüller H., Scharstein D.: “Evaluation of stereo matching costs on

images with radiometric differences”. IEEE Transactions on Pattern Ana-

lysis and Machine Intelligence 31(9), 2009, str. 1582–1599.

236


BIBLIOGRAFIA

[139] Compañ P., Satorre R., Rizo R., [i in.]: “Improving depth estimation using

colour information stereo vision”. Proceedings of the Fifth IASTED Inter-

national Conference on Visualization, Imaging, and Image Processing. Be-

nidorm, Spain, 2005, str. 520–525.

[140] Matthies L., Kanade T., Szeliski R.: “Kalman filter-based algorithms for es-

timating depth from image sequences”. International Journal of Computer

Vision 3(3), 1989, str. 209–238.

[141] Ivekovic S., Trucco E.: “Fitting subdivision surface models to noisy and

incomplete 3-D data”. Proceedings of the Third International Conference

Computer Vision/Computer Graphics Collaboration Techniques (MIRAGE

2007). Rocquencourt, France, 2007, str. 542–554.

[142] Moravec K., Harvey R., Bangham J. A.: “Improving stereo performance in

regions of low texture”. Proceedings of the British Machine Vision Confe-

rence (BMVC’98). Southampton, UK, 1998, str. 822–831.

[143] Sun J., Shum H.-Y., Zheng N.-N.: “Stereo matching using belief propaga-

tion”. Lecture Notes in Computer Science 2351, 2000, str. 510–524.

[144] Yang Q., Wang L., Ahuja N.: “A constant-space belief propagation algo-

rithm for stereo matching”. Proceedings of the IEEE Conference on Com-

puter Vision and Pattern Recognition (CVPR). San Francisco, CA, 2010,

str. 1458–1465.

[145] Klaus A., Sormann M., Karner K.: “Segment-based stereo matching using

belief propagation and a self-adapting dissimilarity measure”. Proceedings

of the 18th International Conference on Pattern Recognition (ICPR’06).

Hong Kong, 2006, str. 15–18.

[146] Gong M., Yang Y.-H.: “Multi-resolution stereo matching using genetic al-

gorithm”. Proceedings of the IEEE Workshop on Stereo and Multi-Baseline

Vision (SMBV’01). Kauai, Hawaii, 2001, str. 21–29.

[147] Han K.-P., Song K.-W., Chung E.-Y., [i in.]: “Stereo matching using gene-

tic algorithm with adaptive chromosomes”. Pattern Recognition 34, 2001,

str. 1729–1740.

[148] Liatsis P., Goulermas J. Y., Wang Y.: “Stereo correspondence using sym-

biotic genetic algorithms”. Proceedings of the 9th WSEAS International

Conference on Mathematics & Computers in Business and Economics

(MCBE ’08). Bucharest, Romania, 2008, str. 97–104.

237


BIBLIOGRAFIA

[149] Issa H., Ruichek Y., Postaire J.-G.: “A specific encoding scheme for ge-

netic stereo correspondence searching: application to obstacle detection”.

Journal of Systemics, Cybernetics and Informatics 1(1), 2003, str. 9–17.

[150] Wang X. N., Jiang P.: “Multiple ant colony optimizations for stereo mat-

ching”. International Journal of Image Processing 3(5), 2009, str. 203–217.

[151] Elias R.: “Sparse view stereo matching”. Pattern Recognition Letters 28,

2007, str. 1667–1678.

[152] Wang J.-H., Hsiao C.-P.: “On disparity matching in stereo vision via a neu-

ral network framework”. Proceedings of the National Science Council Re-

public of China Part A: Physical Science and Engineering 23(5), 1999,

str. 665–677.

[153] Zadeh L. A.: “Fuzzy sets”. Information and Control 8, 1965, str. 338–353.

[154] Guanrong C., Trung T. P.: Introduction to fuzzy sets, fuzzy logic, and fuz-

zy control systems. Washington, D.C., USA: CRC Press LLC, 2001. isbn:

08-49-31658-8.

[155] Wolkenhauer O.: Data engineering. Fuzzy mathematics in systems theory

and data analysis. New York, USA: John Wiley & Sons, Inc., 2001. isbn:

04-71-41656-8.

[156] Siler W., Buckley J. J.: Fuzzy expert systems and fuzzy reasoning. Hoboken,

New Jersey, USA: John Wiley & Sons, Inc., 2005. isbn: 04-71-38859-9.

[157] Fuzzy techniques in image processing. Red. Kerre E. E., Nachtegael M.

Heidelberg, Germany: Physica-Verlag, 2000. isbn: 37-90-81304-4.

[158] Chaira T., Ray A. K.: Fuzzy image processing and applications with MA-

TLAB. Washington, D.C., USA: CRC Press, 2009. isbn: 14-39-80708-6.

[159] Kuratowski K., Mostowski A.: Teoria mnogości. Warszawa: Polskie To-

warzystwo Matematyczne, 1952. isbn: Książka dostępna w internecie: http:

//matwbn.icm.edu.pl/kstresc.php?tom=27&wyd=10.

[160] Klir G. J., Yuan B.: Fuzzy sets and fuzzy logic. Theory and applications. Up-

per Saddle River, New Jersey: Prentice Hall PTR, 1995. isbn: 01-31-01171

-5.

[161] Zimmermann H.-J.: Fuzzy set theory and its applications. Wyd. 2. Nor-

well, Massachusetts, USA: Kluwer Academic Publishers, 1991. isbn: 07-

92-39075-X.

238


BIBLIOGRAFIA

[162] Sivanandam S., Sumathi S., Deepa S.: Introduction to fuzzy logic using

MATLAB. Berlin Heidelberg: Springer-Verlag, 2007. isbn: 35-40-35780-7.

[163] Cox E.: The fuzzy systems handbook: a practitioner’s guide to building,

using, and maintaining fuzzy systems. Chestnut Hill, MA,USA: AP Profes-

sional, 1994. isbn: 01-21-94270-8.

[164] Applications of fuzzy sets theory. Red. Masulli F., Mitra S., Pasi G. Berlin

Heidelberg: Springer-Verlag, 2007. isbn: 978-3-540-73399-7.

[165] Dubois D. J., Prade H.: Fuzzy sets and systems. Theory and applications.

Chestnut Hill, MA, USA: Academic Press, Inc., 1980. isbn: 01-22-22750–6.

[166] Pal N. R., Bezdek C: “Measuring fuzzy uncertainty”. IEEE Transactions

on Fuzzy Systems 2(2), 1994, str. 107–118.

[167] Wang W.-J., Chiu C.-H.: “Entropy and information energy for fuzzy sets”.

Fuzzy Sets and Systems 108, 1999, str. 333–339.

[168] Yager R.: “On the Measure of Fuzziness and Negation. Part I :Membership

in the Unit Interval”. International Journal of Intelligent Systems 5, 1979,

str. 221–229.

[169] Yager R.: “On the Measure of Fuzziness and Negation. Part II:Lattices”.

Information Control 44, 1980, str. 236–280.

[170] Al-sharhan S., Karray F., Gueaieb W., [i in.]: “Fuzzy entropy: a brief su-

rvey”. Proceedings of the IEEE International Fuzzy Systems Conference.

Tom 3. Melbourne, Vic., Australia, 2001, str. 1135–1139.

[171] Czogała E., Pedrycz W.: Elementy i metody teorii zbiorów rozmytych. War-

szawa: Państwowe Wydawnictwa Naukowe, 1985. isbn: 83-01-05726-2.

[172] Bezdek J. C., Keller J., Krisnapuram R., [i in.]: Fuzzy models and algori-

thms for pattern recognition and image processing. New York / Heidelberg:

Springer Science+Business Media, Inc., 2005. isbn: 03-87-24515-4.

[173] Fundamentals of fuzzy sets. Red. Dubois D., Prade H. Tom 7. The Handbo-

oks of Fuzzy Sets. New York: Springer-Verlag Inc., 2012. isbn: 978-1-4613

-6994-3.

[174] Zoran M., Rusov S.: “Z similarity measure among fuzzy sets”. FME Trans-

actions 34(2), 2006, str. 115–119.

[175] Zwick R., Carlstein E., Budescu D. V.: “Measures of similarity among fuz-

zy concepts: a comparative analysis”. International Journal of Approximate

Reasoning 1, 1987, str. 221–242.

239


BIBLIOGRAFIA

[176] Bloch I.: “On fuzzy distances and their use in image processing under im-

precision”. Pattern Recognition 32, 1999, str. 1873–1895.

[177] Kacprzyk J.: Zbiory rozmyte w analizie systemowej. Warszawa: Państwowe

Wydawnictwa Naukowe, 1986. isbn: 83-01-05497-2.

[178] Merigó J., Casanovas M.: “Decision making with distance measures and

linguistic aggregation operators”. International Journal of Fuzzy Systems

12(3), 2010, str. 190–198.

[179] Janis V., Montes S.: “Distance between fuzzy sets as a fuzzy quantity”. Acta

Universitatis Matthiae Belli 14, 2007, str. 41–49.

[180] Chaudhuri B. B., Bhattacharya A: “On correlation between two fuzzy sets”.

Fuzzy Sets and Systems 118, 2001, str. 447–456.

[181] Chiang D.-A., Lin N. P.: “Correlation of fuzzy sets”. Fuzzy Sets and Systems

102, 1999, str. 221–226.

[182] Matuszewska H., Matuszewski W.: Elementy logiki i teorii mnogości dla in-

formatyków. Warszawa: BEL Studio Sp. z o.o., 2003. isbn: 83-88442-56-2.

[183] Atanassov K. T.: “Intuitionistic fuzzy sets”. Fuzzy Sets and Systems 20,

1986, str. 87–96.

[184] Atanassov K. T.: “More on intuitionistic fuzzy sets”. Fuzzy Sets and Systems

33, 1989, str. 37–45.

[185] Atanassov K.: “On four intuitionistic fuzzy topological operators.” Math-

ware & Soft Computing 8, 2001, str. 65–70.

[186] Szmidt E., Kacprzyk J.: “Distances between intuitionistic fuzzy sets”. Fuz-

zy Sets and Systems 114, 2000, str. 505–518.

[187] Szmidt E., Kacprzyk J.: “Intuitionistic fuzzy sets in some medical applica-

tions”. Proceedings of the Fifth International Conference on Intuitionistic

Fuzzy Sets. Sofia, 2001, str. 22–23.

[188] Szmidt E., Kacprzyk J.: “A concept of similarity for intuitionistic fuzzy sets

and its use in group decision making.” Proceedings of the IEEE Interna-

tional Conference on Fuzzy Syststems. Budapest, Hungary, 2004, str. 1129–

1134.

[189] Kuppannan J., Rangasamy P.: “Intuitionistic fuzzy approach to enhance text

documents.” Proceedings of the 3rd International IEEE Conference on In-

telligent Systems. London, 2006, str. 733–737.

240


BIBLIOGRAFIA

[190] Vlachos I., Sergiadis G.: “Intuitionistic fuzzy information application to

pattern recognition.” Pattern Recognition Letters 28(2), 2007, str. 197–206.

[191] Szmidth E., Kacprzyk J.: “A measure of similarity for intuitionistic fuzzy

sets”. Proceedings of the Third Conference of the European Society for

Fuzzy Logic and Technology (EUSFLAT). Zittau, Germany, 2003, str. 206

–209.

[192] Hung W.-L., Yang M.-S.: “Similarity measures of intuitionistic fuzzy sets

based on Hausdorff distance”. Pattern Recognition Letters 25, 2004, str.

1603 –1611.

[193] Hong D. H.: “A note on correlation of interval-valued intuitionistic fuzzy

sets”. Fuzzy Sets and Systems 95(1), 1998, str. 113–117.

[194] Xie B., Mi J.-S., Han L.-W.: “Entropy and similarity measure of intuitioni-

stic fuzzy sets”. Proceedings of the International Conference on Machine

Learning and Cybernetics. Kunming, 2008, str. 501–506.

[195] Huang G.-S., Liu Y.-S., Wang X.-D.: “Some new distances between intu-

itionistic fuzzy sets”. Proceedings of the Fourth International Conference

on Machine Learning and Cybernetics. Guangzhou, 2005, str. 18–21.

[196] Hung W.-L., Yang M.-S.: “Similarity measures of intuitionistic fuzzy sets

based on Lp metric”. International Journal of Approximate Reasoning 46,

2007, str. 102–136.

[197] Zeng W., Li H.: “Correlation coefficient of intuitionistic fuzzy sets”. Jour-

nal of Industrial Engineering International 3(5), 2007, str. 33–40.

[198] Bustince H., Burillo P.: “Correlation of interval-valued intuitionistic fuzzy

sets”. Fuzzy Sets and Systems 75, 1995, str. 237–244.

[199] Park D. G., Kwun Y. C., Park J. H., [i in.]: “Correlation coefficient of

interval-valued intuitionistic fuzzy sets and its application to multiple attri-

bute group decision making problems”. Mathematical and Computer Mo-

delling 50, 2009, str. 1279–1293.

[200] Xu Z.: “On correlation measures of intuitionistic fuzzy sets”. Lecture Notes

on Computer Scienes 4224, 2006, str. 16–24.

[201] Mitchell H. B.: “A correlation coefficient for intuitionistic fuzzy sets”. In-

ternational Journal of Intelligent Systems 19, 2004, str. 483–490.

241


BIBLIOGRAFIA

[202] Hung W.-L.: “Using statistical viewpoint in developing correlation of intu-

itionistic fuzzy sets”. International Journal of Uncertainty, Fuzziness and

Knowledge-Based Systems 9(4), 2001, str. 509–516.

[203] Homepage of Fuzzy Image Processing [online]. Hamid R. Tizhoosh. [Do-

stęp: 29 sierpnia 2011]. Dostępny w Internecie: url: http://pami.uwaterloo.

ca/tizhoosh/readme.htm.

[204] Dombi J.: “Membership function as an evaluation”. Fuzzy Sets and Systems

35(1), 1990, str. 1–21.

[205] Makrehchi M., Basir O., Kamel M.: “Generation of fuzzy membership

function using information theory measures and genetic algorithm”. Fuzzy

Sets and Systems — IFSA 2003. Tom 2715. Lecture Notes in Computer

Science. Springer Berlin / Heidelberg, 2003, str. 603–610.

[206] Derbel I., Hachani N., Ounelli H.: “Membership functions generation ba-

sed on density function”. Proceddings of the International Conference on

Computational Intelligence and Security. Tom 1. Los Alamitos, CA, USA,

2008, str. 96–101.

[207] Nasibov E., Peker S.: “Exponentail membership function evaluation based

on frequency”. Asian Journal of Mathematics and Statistics 4(1), 20011,

str. 8–20.

[208] Medasani S., Kim J., Krishnapuram R.: “An overview of membership func-

tion generation techniques for pattern recognition”. Int. Journal of Appro-

ximate Reasoning 19(3-4), 1998, str. 391–417.

[209] Amaral T. G., Crisóstomo M. M., de Almeida A. T.: “Image thresholding

by minimisation of fuzzy compactness and linear index of fuzziness”. Pro-

ceedings of the IEEE International Conference on Fuzzy Systems. Tom 2.

IEEE. Seoul, Korea, 1999, str. 1116–1121.

[210] Vlachos I. K., Sergiadis G. D.: “Parametric indices of fuzziness for auto-

mated image enhancement”. Fuzzy Sets and Systems 157(8), 2006, 1126 –

1138.

[211] Anzueto-Rios A., Moreno-Cadenas J. A., Gómez-Castañeda: “Fuzzy tech-

nique for image enhancement using B-spline”. Proceedings of the 52nd IE-

EE International Midwest Symposium on Circuits and Systems (MWSCAS

’09). Cancun, 2009, str. 869–872.

242


BIBLIOGRAFIA

[212] Bloch I., Aurdal L., Bijno D., [i in.]: “Estimation of class membership func-

tions for grey level based image fusion”. Proceedings of the International

Conference on Image Processing. Tom 3. Santa Barbara, CA, USA, 1997,

str. 268–271.

[213] Bezdek J.: Pattern recognition with fuzzy objective function algorithms.

Norwell, MA, USA: Plenum, New York, 1981. isbn: 03-06-40671-3.

[214] Anvarifard M. K., Imandoost S., Yazdi H. S., [i in.]: “Image semantic retrie-

val using image fuzzyfication based on weighted relevance feedback”. Pro-

ceedings of the 18th Iranian Conference on Electrical Engineering

(ICEE’10). Isfahan, Iran, 2010, str. 476–482.

[215] Bharathi B., Sarma V.: “Estimation of fuzzy membership from histograms”.

Information Sciences 35(1), 1985, str. 43–59.

[216] Civanlar M., Trussel H.: “Construction membership functions using stati-

stical data”. Fuzzy Sets and Systems 18(1), 1986, str. 1–13.

[217] Cheng H., Cheng J.: “Automatically determine the membership function

based on the maximum entropy principle”. Information Sciences: an Inter-

national Journal 96(3-4), 1997, str. 163–182.

[218] Kumar S. S., Chatterji N: “Stereo matching algorithms based on fuzzy ap-

proach”. International Journal of Pattern Recognition and Artificial Intel-

ligence 16(7), 2002, str. 883–899.

[219] Knoll A., Wolfram A.: “Searching correspondences in colour stereo images

an approach using the fuzzy integral”. Proceedings of the 4th IEEE In-

ternational Conference on Fuzzy Systems and the 2nd International Fuzzy

Engineering Symposium. Tom 5. Yokohama, Japan, 1995, str. 2033–2038.

[220] Shamir L.: “A proposed stereo matching algorithm for noisy sets of color

images”. Computers & Geosciences 33, 2007, str. 1052–1063.

[221] Tolt G., Kalykov I.: “Measures based on fuzzy similarity for stereo mat-

ching of color images”. Soft Computing 10, 2006, str. 1117–1126.

[222] Hughes N. R., Roberts G. N., Wilson G. R.: “Application of fuzzy signal

processing to three dimensional vision”. Proceedings of the Fifth Interna-

tional Conference on The Technology Exploitation Process; Factory 2000.

Cambridge , UK, 1997, str. 319–324.

[223] Luo A, Tao W, Burkhardt H: “A new multilevel line-based stereo vision

algorithm based ond fuzzy techniques”. Proceedings of the 13th Interna-

243


BIBLIOGRAFIA

tional Conference on Pattern Recognition. Tom 1. Vienna, Austria, 1996,

str. 383 –387.

[224] Neubeck A., Van Gool L.: “Efficient non-maximum suppression”. Proce-

edings of the 18th International Conference on Pattern Recognition (ICPR

2006). Tom 3. Hong Kong, 2006, str. 850 –855.

[225] Goulermas J., Liatsis P.: “Hybrid symbiotic genetic optimisation for robust

edge-based stereo correspondence”. Pattern Recognition 34, 2001, str. 2477

–2496.

[226] Zadeh L.: “A fuzzy-algorithmic approach to the definition of complex or

imprecise concepts”. International Journal Man-Machines Studies 8(3),

1976, str. 249–291.

[227] Parsopoulos K. E., Vrahatis Michael N: Particle swarm optimization and

intelligence: advances and applications. Hershey, USA: Information Scien-

ce Reference (IGI Global), 2010. isbn: 16-15-20666-3.

[228] Jawahar C., Ray A.: “Fuzzy statistics of digital images”. IEEE Signal Pro-

cessing Letters 3(8), 1996, str. 225–227.

[229] Vlachos I., Sergiadis G.: “Towards intuitionistc fuzzy image processing”.

Proceedings of the International Conference on Computational Intelligen-

ce for Modelling, Control and Automation and International Conference

on Intelligent Agents, Web Technologies and Internet Commerce. Vienna,

Austria, 2005, str. 2–7.

[230] Shin M. C., Goldgof D. B., Bowyer K. W.: “Comparison of edge detector

performance through use in an object recognition task”. Computer Vision

and Image Understanding 84(1), 2001, str. 160–178.

[231] Lee M., Nepal S., Srinivasan U. “Role of edge detection in video seman-

tics”. Selected Papers from the 2002 Pan-Sydney Workshop on Visualisa-

tion. Pod. red. Jin J. S., Eades P., Feng D. D., [i in.]. Tom 161. ACM Inter-

national Conference Proceedings. 2003, str. 59–68.

[232] Wang D., Zhang X., Liu Y.: “Recognition system of leaf images based on

neuronal network”. Journal of Forestry Research 17(3), 2006, str. 243–246.

[233] Gao Y., Maylor K. H.: “Face recognition using line edge map”. IEEE Trans-

actions on Pattern Analysis and Machine Intelligence 24(6), 2002, str. 764–

779.

244


BIBLIOGRAFIA

[234] Liguori C., Paolillo A., Pietrosanto A.: “An on-line stereo-vision system

for dimensional measurements of rubber extrusions”. Measurement 35(3),

2004, str. 221–231.

[235] Wan Y. F., Cabestaing F., Burie J.-C.: “A new edge detector for obstacle

detection with a linear stereo vision system”. Proceedings of the Intelligent

Vehicles Symposium. Tom 161. Detroit, MI , USA, 1995, str. 130–135.

[236] Truchetet F., Nicolier F., Laligant O.: “Subpixel edge detection for dimen-

sional control by artificial vision”. Journal of Electronic Imaging 10(1),

2001, str. 234–239.

[237] Hou T.-H., Kuo W.-L.: “A new edge detection method for automatic visual

inspection”. The International Journal of Advanced Manufacturing Tech-

nology 13(6), 1997, str. 407–412.

[238] Canny J.: “A computational approach to edge detection”. IEEE Transac-

tions on Pattern Analysis and Machine Intelligence 8(6), 1986, str. 679–

698.

[239] Forsyth D. A., Ponce J.: Computer vision: a modern approach. Upper Sad-

dle River, USA: Prentice Hall, 2002. isbn: 01-30-85198-1.

[240] Pratt W. K.: Digital image processing. Wyd. 3. New York, USA: John Wiley

and Sons, Inc., 2001. isbn: 04-71-37407-5.

[241] Vernon D.: Machine vision, automated visual inspection and robot vision.

London, Great Britain: Prentice Hall, 1991. isbn: 01-35-43398-3.

[242] Smith S. M., Brady J. M.: “A new Approach to low level image processing”.

International Journal of Computer Vision 23(1), 1997, str. 45–78.

[243] Rosten E., Drummond T. “Machine learning for high-speed corner detec-

tion”. Proccedings of the European Conference on Computer Vision

(ECCV’06). Pod. red. Leonardis A., Bischof H., Pinz A. Tom 1. 2006,

str. 430–443.

[244] Trajković M., Hedley M.: “Fast corner detection”. Image and Vision Com-

puting 16(2), 1998, str. 75–87.

[245] Russo F.: “Edge detection in noisy images using fuzzy reasoning”. IEEE

Transactions on Instrumentation and Measurement 47(5), 1998, str. 1102–

1105.

245


BIBLIOGRAFIA

[246] Ishii H., Kimura T., Sone M., [i in.]: “An edge detection from images cor-

rupted by mixed noise using fuzzy inference”. Electronics and Communi-

cations in Japan 83(8), 2000, str. 39–50.

[247] Price K.: “Anything you can do, I can do better (no you can’t) ...” Computer

Vision, Graphics, And Image Processing 36(2/3), 1986, str. 387–391.

[248] Haralick R.: “Computer vision theory: the lack thereof”. Computer Vision,

Graphics and Image Processing 36, 1986, str. 272–286.

[249] Bowyer K. W., Phillips P. J.: Empirical evaluation techniques in compu-

ter vision. Los Alamitos, CA, USA: Wiley-IEEE Computer Society Press,

1998. isbn: 978-0-8186-8401-2.

[250] Wu A., Xu D., Xu Y., [i in.]: “Performance characterization in computer

vision: the role of visual cognition theory”. Lecture Notes in Artificial In-

telligence 3614, 2005, str. 1255–1264.

[251] Thacker N. A., Clark A. F., Barron J. L., [i in.]: “Performance characteri-

zation in computer vision: A guide to best practices”. Computer Vision and

Image Understanding 109, 2008, str. 305–334.

[252] Performance metrics for intelligent Systems (PerMIS’10) Workshop [onli-

ne]. The National Institute of Standards and Technology (NIST). [Dostęp:

28 sierpnia 2011]. Dostępny w Internecie: url: http://www.nist.gov/

el/isd/permis2010.cfm.

[253] Koschan A.: What is new in computational stereo since 1989: a survey

on current stereo papers. Raport badawczy, 93-22. Technische Universität

Berlin, 1993.

[254] Nalpantidis L., Sirakoulis G. C., Gasteratos A.: “Review of stereo matching

algorithms for 3D vision”. Proceedings of the 16th International Sympo-

sium on Measurement and Control in Robotics (ISMCR 2007). Warsaw,

Poland, 2007, str. 116–124.

[255] Ng O.-E., Ganapathy V.: “A novel modular framework for stereo vision”.

Proceedings of the IEEE/ASME International Conference on Advanced In-

telligent Mechatronics (AIM 2009). Singapore, 2009, str. 857 –862.

[256] Chowdhury M. H., Bhuiyan M. A.-A.: “A new approach for disparity map

determination”. Daffodil International University Journal of Science and

Technology 4(1), 2009, str. 9–13.

246


BIBLIOGRAFIA

[257] Nalpantidis L., Gasteratos A.: “Biologically and psychophysically inspired

adaptive support weights algorithm for stereo correspondence”. Robotics

and Autonomous Systems 58, 2010, str. 457–464.

[258] Humenberger M., Zinnera C., Webera M., [i in.]: “A fast stereo matching

algorithm suitable for embedded real-time systems”. Computer Vision and

Image Understanding 114(11), 2010, str. 1180–1202.

[259] Hu T., Huang M.: “A new stereo matching algorithm for binocular vision”.

International Journal of Hybrid Information Technology 3(1), 2010, str. 1–

8.

[260] Zigh E, Belbachir M. F.: “A neural method based on new constraints for

stereo matching of urban high-resolution satellite imagery”. Journal of Ap-

plied Sciences 10(18), 2010, str. 2010–2018.

[261] Silva C., Santos-Victor J.: “Intrinsic images for dense stereo matching with

ccclusions”. Proceedings of the 6th European Conference on Computer Vi-

sion Dublin (ECCV 2000). Dublin, Ireland, 2000, str. 100 –114.

[262] Felzenszwalb P. F., Huttenlocher D. P.: “Efficient belief propagation for

early vision”. Proceedings of the IEEE Computer Society Conference on

Computer Vision and Pattern Recognition (CVPR’04). Tom 1. Washington,

D.C., USA: IEEE Computer Society, 2004, str. 261–268.

[263] Scharstein D.: “View synthesis using stereo vision”. Praca doktorska. Cor-

nell University, 1997.

[264] Satoh K., Ohta Y.: “Occlusion detectable stereo – systematic comparison

of detection algorithms”. Proceedings of the 13th International Conference

on Pattern Recognition (ICPR’96). Vienna, Austria, 1996, str. 280–286.

[265] Nakamura Y., Matsuura T., Satoh K., [i in.]: “Occlusion detectable stereo

– occlusion patterns in camera matrix”. Proceedings of the IEEE Computer

Society Conference on Computer Vision and Pattern Recognition (CVPR’96).

San Francisco, CA , USA, 1996, str. 371–379.

[266] Scharstein D., Szeliski R.: “A taxonomy and evaluation of dense two-frame

stereo correspondence algorithms”. International Journal of Computer Vi-

sion 47(1-3), 2002, str. 7–42.

[267] Middlebury stereo vision page [online]. Middlebury College. [dostęp: 15

marca 2010]. Dostępny w Internecie: url: http://www.vision.middle-

bury.edu/stereo.

247


BIBLIOGRAFIA

[268] Scharstein D., Szeliski R.: “High-accuracy stereo depth maps using structu-

red light”. Proceedings of the IEEE Computer Society Conference on Com-

puter Vision and Pattern Recognition (CVPR ’03). Tom 1. Los Alamitos,

CA, USA, 2003, str. 195–202.

[269] Kostlivá J., Cech J., Šára R.: ROC based evaluation of stereo algorithms.

Raport badawczy, 8. Center for Machine Perception, Czech Technical Uni-

versity in Prague, 2007.

[270] CMP Stereo Algorithm Evaluation [online]. Center for Machine Perception,

Czech Technical University Prague. [dostęp: 13 kwietnia 2010]. Dostępny

w Internecie: url: http://cmp.felk.cvut.cz/~stereo/stereointro.

php.

[271] Advanced signal processing. Theory and implementation for sonar, radar

and non-invasive medical diagnostic systems. Red. Stergiopoulos S. Wyd.

2. CRC Press, Taylor & Francis Group, LLC, 2009. isbn: 14-20-06238-7.

[272] Zweig M. H., Campbell G.: “Receiver-Operating Characteristic (ROC) plots:

a fundamental evaluation tool in clinical medicine”. Clinical Chemistry

39(4), 1993, str. 561–577.

[273] Stoch P.: “Zastosowanie narzędzi statystycznych i matematycznych metod

sztucznej inteligencji do predykcji wystąpienia dysplazji oskrzelowo-płuc-

nej noworodków”. Praca doktorska. Kraków: Akademia Górniczo-Hutnicza

im. Stanisława Staszica w Krakowie, 2007.

[274] Fawcett T.: ROC graphs: notes and practical considerations for resear-

chers. Raport badawczy, HPL-2003-4. Palo Alto, CA: HP Laboratories,

2004.

[275] Kostlivá J., Sàra R.: “Feasibility boundary in dense and semi-dense ste-

reo matching”. Proceedings of the IEEE Computer Society Conference on

Computer Vision and Pattern Recognition (CVPR 2007). Minneapolis, Min-

nesota, USA, 2007, str. 1–8.

[276] Minglun G., Yang Y.-H.: “Fast unambiguous stereo matching using reliabi-

lity-based dynamic programming”. IEEE Transactions on Pattern Analysis

and Machine Intelligence 27(6), 2005, str. 998–1003.

[277] Rabin J., Delon J., Gousseau Y.: “A contrario matching of SIFT-like de-

scriptors”. Proceddings of the 19th International Conference on Pattern

Recognition (ICPR’08). Tampa, FL, 2008, str. 1–4.

248


BIBLIOGRAFIA

[278] Mordohai P.: “The self-aware matching measure for stereo”. Proceedings of

the 12th International Conference on Computer Vision (ICCV’09). Kyoto,

Japan, 2009, str. 1841–1848.

[279] Tombari F., Mattoccia S., Di Stefano L., [i in.]: “Classification and eva-

luation of cost aggregation methods for stereo correspondence”. Proce-

edings of the IEEE Conference on Computer Vision and Pattern Recogni-

tion (CVPR ’08). Anchorage, AK, 2008, str. 1–8.

[280] Kostková J., Šára R. “Automatic disparity search range estimation for ste-

reo pairs of unknown scenes”. Proceedings of the Computer Vision Winter

Workshop 2004 (CVWW’04). Pod. red. Skocaj D. University of Ljubljana,

Faculty of Computer and Information Science. Ljubljana, Slovenia: Slove-

nian Pattern Recognition Society, 2004, str. 1–10.

[281] Schluüns K.: “Photometric stereo for non-lambertian surfaces using color

information”. Lecture Notes in Computer Science 719, 1993, str. 444–451.

[282] Tsin Y., Kang S. B., Szeliski R.: “Stereo matching with linear superposition

of layers”. IEEE Tansactions on Pattern Analysis and Machine Inteliigence

28(2), 2006, str. 290–301.

[283] Boncelet C.: Rozdz. Image noise models. [w:] “Handbook of image and

video processing”. Pod. red. Bovik A. Academic Press, 2000, str. 325–335.

isbn: 0-12-119790-5.

[284] Acharya T., Ray A. K.: Image processing. Principles and applications. John

Wiley & Sons, Inc., 2005. isbn: 978-0-471-71998-4.

[285] Huang S.-Q., Liu D.-Z., Gao G.-Q., [i in.]: “A novel method for speckle

noise reduction and ship target detection in SAR images”. Pattern Reco-

gnition 42(7), 2009, str. 1533–1542.

[286] Thangavel K., Manavalan R., Aroquiaraj I. L.: “Removal of speckle noise

from ultrasound medical image based on special filters: comparative stu-

dy”. ICGST-GVIP Journal of Applied Sciences 9(3), 2009, str. 25–32.

[287] Nadernejad E., Karami M. R., Sharifzadeh S., [i in.]: “Despeckle filtering

in medical ultrasound imaging”. Contemporary Engineering Sciences 2(1),

2009, str. 17–36.

[288] Chan T. F., Shen J. J.: Image processing and analysis: variational, PDE,

wavelet and stochastic methods. Philadelphia, PA: Society for Industrial

Applied Mathematics (SIAM), 2005. isbn: 08-98-71589-X.

249


BIBLIOGRAFIA

[289] Cosman P. C., Gray R. M., Olshen R. A.: “Evaluating quality of compres-

sed medical images: snr, subjective rating, and diagnostic accuracy”. Pro-

ceedings of the IEEE 82(6), 1994, str. 919–932.

[290] Keelan B. W., Cookingham R. E., Kane P. J., [i in.]: Handbook of image

quality: characterization and prediction. New York: Marcel Dekker, Inc.,

2002. isbn: 08-24-70770-2.

[291] Shnayderman A., Gusev A., Eskicioglu A. M.: “An svd-based grayscale

image quality measure for local and global assessment”. IEEE Transactions

on Image Processing 15(2), 2006, str. 422–429.

[292] Woźnicki J.: Podstawowe techniki przetwarzania obrazu. Warszawa: Wy-

dawnictwa Komunikacji i Łączności, Warszawa, 1996. isbn: 83-206-1189

-X.

[293] Gonzalez R. C., Woods R. E.: Digital image processing. Wyd. 2. Upper

Saddle River, New Jersey: Prentice-Hall, Inc., 2002. isbn: 02-01-18075-8.

[294] Image processing and analysis – a practical approach. Red. Baldock R.,

Graham J. Oxford, USA: Oxford University Press, 2000. isbn: 01-99-6370

0-8.

[295] Plucińska A., Pluciński E.: Probalistyka. Rachunek prawdopodobieństwa.

Statystyka matematyczna. Procesy stochastyczne. Warszawa: Wydawnic-

twa Naukowo-Techniczne, 2000. isbn: 978-83-204-3617-4.

[296] Pau V., Cretu E.: “Cyfrowe przetwarzanie obrazów plamkowych w specjal-

nych urządzeniach optoelektronicznych.” Elektronika 8–9, 2004, str. 296–

298.

[297] Hawwar Y., Reza A.: “Spatially adaptive multiplicative noise image deno-

ising technique”. IEEE Transactions on Image Processing 11(12), 2002,

str. 1397–1404.

[298] Bioucas-Dias J. M., Figueiredo M. A. T.: “Multiplicative noise removal

using variable splitting and constrained optimization”. IEEE Transactions

on Image Processing 19(7), 2010, str. 1720–1730.

[299] Al-Amri S. S., Kalyankar N. V., Khamitkar S. D.: “A comparative study of

removal noise from remote sensing image”. International Journal of Com-

puter Science Issues 7(1), 2010, str. 32–36.

[300] López-Rubio E.: “Restoration of images corrupted by Gaussian and uni-

form impulsive noise”. Pattern Recognition 43(5), 2010, str. 1835–1846.

250


BIBLIOGRAFIA

[301] Alajan N., Kamel M., Jernigan E.: “Detail preserving impulsive noise re-

moval”. Signal Processing: Image Communication 19, 2004, 993–1003.

[302] Szeliski R., Scharstein D.: “Sampling the disparity space image”. IEEE

Transactions on Pattern Analysis and Machine Intelligence 25(3), 2004,

str. 419–425.

[303] Wei Y., Quan L.: “Region-based progressive stereo matching”. Proceedings

of the IEEE Computer Society Conference on Computer Vision and Pattern

Recognition (CVPR 2004). Tom 1. Washington, DC, 2004, str. I–106–113.

[304] Yang Q., Engels C., Akbarzadeh A.: “Near real-time stereo for weakly-tex-

tured scenes”. Proceedings of the British Machine Vision Conference

(BMVC). Leeds, UK, 2008, str. 80–87.

[305] Brockers R.: “Cooperative stereo matching with color-base adaptive local

support”. Proceedings of the 13th International Conference on Compu-

ter Analysis of Images and Patterns (CAIP ’09). Münster, Germany, 2009,

str. 1019–1027.

[306] Bleyer M., Rother C., Kohli P., [i in.]: “Object stereo – joint stereo mat-

ching and object segmentation”. Proceedings of the IEEE Computer Socie-

ty Conference on Computer Vision and Pattern Recognition (CVPR 2011).

Colorado Springs, USA, 2011, str. 3081–3088.

[307] Ballard D. H., Brown C. M.: Computer vision. Englewood Cliffs, New Jer-

sey: Prentice-Hall, Inc., 1982. isbn: 01-31-65316-4.

[308] Leclercq P., Morris J.: “Assessing stereo algorithm accuracy”. Proceedings

of the Image Vision Computing New Zealand Conference (IVCNZ). Auc-

kland, New Zealand, 2002, str. 110–115.

[309] Zhu Q., Wu B., Xu Z.-X.: “Seed point selection method for triangle constra-

ined image matching propagation”. IEEE Geoscience and Remote Sensing

Letters 3(2), 2006, str. 207–211.

[310] Grimson W. E. L.: A computer implementation of a theory of human stereo

vision. Raport badawczy, A.I. Memo 762. AI Lab, Massachusetts Institute

of Technology, 1984.

[311] Grimson W. E. L.: “Computational experiments with a feature based stereo

algorithm”. IEE Transactions on Pattern Analysis and Machine Intelligence

7(1), 1985, str. 17–34.

251


BIBLIOGRAFIA

[312] Hemayed E., Sandbek A., Wassal A., [i in.]: “Investigation of stereo-based

3D surface reconstruction”. Proceedings of the SPIE 3023, 1997, str. 191–

202.

[313] Cyganek B., Siebert J. P.: An introduction to 3D computer vision techniques

and algorithms. Great Britain, Wiltshire: John Wiley & Sons, Ltd, 2009.

isbn: 04-70-01704-X.

[314] Grewe L., Kak A.: Rozdz. Stereo Vision. [w:] “Handbook of Pattern Reco-

gnition and Image Processing: Computer Vision”. Pod. red. Tzay Y. Y. Or-

lando, FL, USA: Academic Press, Inc., 1994, str. 239–317. isbn: 01-27-7456

1-0.

[315] Sadayuki H., Sohehara N., Yoroizawa I.: “Edge-based binocular stereopsis

algorithm – a matching mechanism with probabilistic feedback”. Neural

Networks 9(3), 1996, str. 379–395.

[316] Harvey R. J.: “The extraction of features and disparities from images by a

model based on the neurological organisation of the visual system”. Vision

Research 48, 2008, 1297–1306.

[317] Wang Z.-F., Zheng Z.-G.: “A region based stereo matching algorithm using

cooperative optimization”. Proceedings of the IEEE Conference on Com-

puter Vision and Pattern Recognition (CVPR 2008). Anchorage, AK, 2008,

str. 1–8.

[318] Min D., Sohn K.: “Cost aggregation and occlusion handling with WLS

in stereo matching”. IEEE Transaction on Image Processing 17(8), 2008,

str. 1431–1442.

252

Documents

POLITECHNIKA WARSZAWSKA - Serwer pracowniczy WEiTIstaff.elka.pw.edu.pl/~gnieradk/Praca2013.pdf · “KonspPreamb” 2013/10/3 page 1 #1 POLITECHNIKA WARSZAWSKA Wydział Elektroniki