Algorytmy Rozpoznawania Wzorcówpforczmanski.zut.edu.pl/homepage/wp-content/uploads/01...jest nie...

Preview:

Citation preview

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[1]

Algorytmy Rozpoznawania WzorcówAlgorytmy Rozpoznawania Wzorców

Metody oceny podobieństwaMetody oceny podobieństwadr inż. Paweł Forczmańskidr inż. Paweł Forczmański

pforczmanski@wi.zut.edu.plpforczmanski@wi.zut.edu.pl

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[2]

• Podstawowe pojęcia– Odległość

– Metryka

– Klasyfikacja

• Rodzaje metryk• Przykłady

Spis treści:

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[3]

Które obrazy są do siebie podobne?

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[4]

To zależy...

W środku Obrót w lewoObrót w prawo

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[5]

mężczyźni

kobiety

To zależy...

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[6]

… to zależy, czego szukamy...

student

nauczyciel

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[7]

...lub od treści obrazu (kontekstu)

Tło złożone

Jednolite tło

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[8]

Przestrzeń euklidesowa:  przestrzeń o geometrii euklidesowej.

Jest naturalnym elementem modeli świata rzeczywistego (łac. geometria = mierzenie ziemi) i stanowi dobre przybliżenie przestrzeni fizycznych w warunkach makroskopowych

(Nie nadają się do opisu rzeczywistości w bardzo małych, atomowych, lub bardzo wielkich, astronomicznych, wielkościach).

Jednowymiarowa przestrzeń euklidesowa nazywana jest prostą euklidesową, zaś dwuwymiarowa – płaszczyzną euklidesową.

Przestrzeń Euklidesowa

365 r. p.n.e., - 300 r. p.n.e

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[9]

Przestrzeń metryczna – zbiór z określonym pojęciem odległości (nazywanej metryką) między jego elementami.

Przestrzenie metryczne tworzą najogólniejszą klasę obiektów, w których używa się pojęcia odległości wzorowanej na odległości znanej przestrzeni euklidesowych (prostej, płaszczyzny czy przestrzeni trójwymiarowej).

Przestrzeń metryczna:

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[10]

Odległością w niepustym zbiorze X nazywamy funkcję, która każdej parze elementów a, b należących do X przyporządkowuje taką liczbę d(a, b), że :

1a) d(a, b) jest większa lub równa 0

1b) d(a, b) = 0 wtedy i tylko wtedy, gdy a = b (odległość wyraża się liczbą nieujemną oraz jest równa zeru tylko wtedy, gdy elementy się pokrywają)

2 ) d(a, b) – odległość z a do b jest taka sama jak z b do a. Mówimy, że od-ległość jest symetryczna.

3) d(a, b) jest mniejsza lub równa d(a, c) + d(c, b) – to odległość z a do b jest nie większa niż suma odległości z a do c i z c do b. Tą własność nazywa-my nierównością trójkąta .

Odległość

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[11]

Odległość – wartość metryki.

Potocznie wiąże się z nią metrykę euklidesową.

Kula w metryce euklidesowej

Odległość:

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[12]

Kula to : zbiór punktów oddalonych nie bardziej niż pewna zadana odległość r (promień kuli) od wybranego punktu O (środek kuli).

Koło: zbiór wszystkich punktów płaszczyzny, których odległość od ustalonego punktu na tej płaszczyźnie (środka koła) nie przekracza pewnej wartości (promienia koła). Jest to kula w metryce euklidesowej na płaszczyźnie

Kula i koło w metryce euklidesowej

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[13]

Metryki w rozpoznawaniu obrazów :

metryka euklidesowametryka miejskametryka kolejowametryka Czebyszewametryka Hausdorffametryka Mahalanobisametryka Minkowskiego

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[14]

Metryka Euklidesowa to "zwykła" odległość punktów na płaszczyźnie.

Metryka Euklidesowa

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[15]

Metryka Manhattan, inaczej metryka miasto lub miejska. Odległość dwóch punktów w tej metryce to suma wartości bezwzględnych różnic ich współrzędnych.

Przyjmuje się założenie, że możemy poruszać się jedynie w kierunkach wschód-zachód oraz północ-południe.

Wtedy droga, jaką będziemy przebywać z jednego punktu do drugiego, wyniesie właśnie tyle, ile określa metryka miejska.

Metryka „miejska”

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[16]

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[17]

Kluczowa własność metryki miejskiej:

dla dowolnych punktów A, B i C

A B C d A C d A B d B Ci i i , , , , i d1…

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[18]

Metryka nieskończoność, maksimum, Czebyszewa, szachowa – metryka opisana wzorem

Dla dowolnych dwóch punktów x i y, metryka maksimum określona jest wzorem:

Miara ta została wprowadzona przez Pafnutija Czebyszewa i jest specjalnym przypadkiem odległości Minkowskiego.

W szachach jest to odległość między polami szachownicy wyrażona w ruchach, które musi wykonać figura króla. Stąd pochodzi jej angielska nazwa chessboard distance.

Metryka maksimum

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[19]

Metryka kolejowa, centrum – metryka na płaszczyźnie. Odległość dwóch punktów w tej metryce jest sumą euklidesowych ich odległości od punktu 0 = (0,0) lub – w przypadku, kiedy prosta łącząca te punkty przechodzi przez punkt  – zwykła euklidesowa odległość.

Przykładem może być labirynt, którego korytarze są prostymi rozchodzącymi się gwiaździście z jednego punktu.

Wtedy, aby dojść z jednego punktu do drugiego, musimy najpierw dojść do skrzyżowania (centrum), by skręcić w odpowiedni korytarz.Nie porównujemy więc rzeczywistej odległości między tymi punktami, lecz właśnie taką, jaką określa metryka centrum.

Metryka „kolejowa”

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[20]

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[21]

Odległość Minkowskiego – uogólniona miara odległości między punktami przestrzeni euklidesowej; niekiedy nazywa się także odległością Lm

Można o niej myśleć jako o uogólnieniu odległości euklidesowej (L2), miejskiej (L1, w teorii informacji znanej jako odległość Hamminga) oraz Czebyszewa (L∞, tzn. Lm w granicy przy m ∞).→

Metryka Minkowskiego

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[22]

Klasyfikacja statystyczna to rodzaj algorytmu statystycznego, który przydziela obserwacje statystyczne do klas, bazując na atrybutach (cechach) tych obser-wacji.

Formalnie, ten problem można przedstawić następująco: dla danego zbioru da-nych trenujących:

znaleźć klasyfikator h: który przydziela obiektowi klasę y .

Przykładowe klasyfikatory:•Klasyfikatory liniowe

•Naiwny klasyfikator bayesowski,•Perceptron,

•K-najbliższych sąsiadów•Drzewa decyzyjne•Sieci bayesowskie

Klasyfikacja

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[23]

Rozróżniamy klasyfikację nadzorowaną (supervised classification) i nienadzorowaną (unsupervised classification). Klasyfikacja nadzorowana:

–etykiety klas nieznanych obiektów odgaduje się na podstawie zbioru obiektów o znanych etykietach; tj. zbioru uczącego (training set, learning set).

Klasyfikacja nienadzorowana:–zbiór uczący nie jest dany.

Zadanie: rozdzielenie zbioru obiektów na dwa lub więcej podzbiorów; obiekty w obrębie pojedynczego podzbioru powinny być możliwie podobne (w przestrzeni zadanych cech i w sensie określonej metryki lub miary podobień-stwa).

Klasyfikacja

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[24]

Klasyfikacja nienadzorowana: segmentacja obiektów w obrazach 2- i 3-wymiarowych; kategoryzacja dokumentów tekstowych, np. na potrzeby wyszukiwarek siecio-wych; automatyczne grupowanie słów o wspólnym rdzeniu.

Klasyfikacja nadzorowana: wspomaganie diagnostyki medycznej; kontrola jakości artykułów przemysłowych; detekcja obiektów na zdjęciach satelitarnych i lotniczych (remote sensing); rozpoznawanie pisma maszynowego i ręcznego (Optical Character Recogni-tion, OCR).

Klasyfikacja - Zastosowania

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[25]

Przykład z prezentacji (Cunningham, 2001). 2 klasy (jabłka i gruszki), 10 obiektów w zbiorze uczącym, 6 cech (5 liczbowych, jedna symboliczna). Potrzebna reguła decyzyjna ustalająca klasę obiektu w wierszu na dole.

Klasyfikacja - przykład

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[26]

Sieci neuronowe (neural networks)

Zalety:– zwykle duża szybkość klasyfikacji;– elastyczność (duża przestrzeń rozpatrywanych modeli);– stosunkowo duża odporność na zbędne cechy.

Wady:– powolne uczenie;– kryterium średniego błędu kwadratowego (w pełni adekwatne tylko w niektórych problemach);– znaczące niebezpieczeństwo przeuczenia.

Podstawowe rodziny klasyfikatorów

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[27]

Drzewa decyzyjne (decision trees)

Zalety:– często duża szybkość klasyfikacji;– prostota ogólnej koncepcji;– niewrażliwość na skalowanie cech;– względna odporność na zbędne cechy.

Wady:– trudność w aproksymacji prostych, lecz nierównolegle do osi ułożonych granic decyzyjnych; – niestabilność (małe zmiany na wejściu powodują duże zmiany w strukturze drzewa);

– problematyczna obsługa brakujących wartości cech.

Podstawowe rodziny klasyfikatorów, c.d.

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[28]

Klasyfikatory minimalnoodległościowe (nearest neighbor classifiers)

Zalety (oryginalnej reguły k-NN):– asymptotyczna optymalność;– wysoka jakość klasyfikacji w praktyce;– prostota, podatność na liczne modyfikacje.

Wady (oryginalnej reguły k-NN):– wolna klasyfikacja;– wrażliwość na zbędne cechy;– mała przestrzeń rozpatrywanych modeli.

Klasyfikacja próbki q regułą 3-NN

Podstawowe rodziny klasyfikatorów, c.d.

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[29]

Podstawowe rodziny klasyfikatorów, c.d.Reguła k scentrowanych sąsiadów

(k Nearest Centroid Neighbors, k-NCN) — Sánchez i in., 1997; koncepcja NCN: Chaudhuri, 1996

Reguła k-NCN, k=3

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[30]

Podstawowe rodziny klasyfikatorów, c.d.

Głosowanie 3 klasyfikatorów typu k-NN

Analogiczne schematy z głosowaniem zaproponowaliśmy dla reguł k-NCN i k-NSN.

W przeciwieństwie do większości klasyfikatorów równoległych, strata prędkości klasyfikacji w stosunku do „pojedynczego” klasyfikatora

jest umiarkowana (w przypadku voting k-NN zaniedbywalna).

Klasyfikator voting k-NN, c.d.

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[31]

Klasyfikatory minimalnoodległościowe (nearest neighbor classifiers)

Podstawowe rodziny klasyfikatorów, c.d.

x2

x1

x2

x1

Dwuwymiarowa przestrzeń cech:

Podejmowanie decyzji w metodzie NN:

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[32]

Klasyfikacja na podstawie wzorców(template matching)

Podstawowe rodziny klasyfikatorów, c.d.

Dwuwymiarowa przestrzeń cech:pojęcie wzorca

Podejmowanie decyzji w metodzie TM:

Przy dyskretnych cechach prawdopodobieństwo rozpoznania metodą pokrycia punktów jest bardzo duże

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[33]

Problem separowalności klasPodstawowe rodziny klasyfikatorów, c.d.

Przykład liniowej separowalności klas:Przykład zadania, które nie jest liniowo separowalne:

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[34]

Podstawowe rodziny klasyfikatorów, c.d.

Zjawisko przeuczenia (overfitting)

Którą płaszczyznę rozdzielającą klasy zbioru uczącego należy wybrać?

Pojedyncza odstająca od pozostałych próbka (ang. outlier) ma znaczący wpływ na wyuczone granice decyzyjne.

Płaszczyzna (b) prawdopodobnie lepiej odpowiada rozkładowi prawdopodobieństwa.

Możliwe hipotezy dla tego samego zbioru

Prawdziwa inteligencja polega na tym, aby wiedzieć kiedy przestać myśleć.

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[35]

Podstawowe kryteria oceny klasyfikatorów:• jakość klasyfikacji;

• szybkość klasyfikacji;• szybkość uczenia;

• zrozumiałość wygenerowanego modelu dla człowieka.

Podstawowe zagadnienia badawcze:• konstrukcja możliwie dokładnych klasyfikatorów;

• redukcja zbioru odniesienia;• selekcja cech;

• topologia i dobór komponentów w klasyfikatorach o strukturze sieciowej;

• dobór metryki.

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[36]

1. Metoda resubstytucji (resubstitution method) — cały dany zbiór jest używany zarówno do uczenia, jak i do testowania. Wada: zawyżone (zbyt optymistyczne) wyniki.

2. Metoda wydzielania (holdout method) — losowa połowa zbioru służy do konstrukcji klasyfikatora, a druga połowa do jego testowania. Wada: pesymistyczna estymacja jakości klasyfikatora.

3. Metoda minus jednego elementu (ang. leave-one-out method) — klasyfikator generowany jest n–1 razy, tj. dla każdego (n–1)-elementowego podzbioru pełnego zbioru, podczas gdy zbiorem testowym dla każdego wygenerowanego klasyfikatora jest tylko jedna pozostała próbka. Estymacja błędu jest w tej metodzie nieobciążona (tj. sprawiedliwa), ale wariancja błędu jest znaczna; ponadto nie jest łatwo osiągnąć satysfakcjonującą szybkość działania tej metody.

Jak mierzyć jakość klasyfikacji?

Algorytmy Rozpoznawania Wzorców :: S2/Inf :: Paweł Forczmański :: 2014/2015

[37]

4. Metoda k-krotnej walidacji skrośnej (ang. k-fold cross validation) — kompromis pomiędzy metodą wydzielania a metodą minus jednego elementu: dostępny zbiór dzielony jest losowo na k równych podzbiorów, a następnie każda z k części jest po kolei zbiorem testowym, zaś pozostałe k–1 części zbiorem uczącym. Błąd estymacji tej metody jest stosunkowo niski (generalnie tym niższy, im większe k), wariancja błędu jest niższa niż przy metodzie minus jednego elementu, zaś koszt czasowy realizacji dla praktycznych wartości k=5..10 – umiarkowany. Metoda ta jest obecnie najczęściej stosowana w praktyce.

Jak mierzyć jakość klasyfikacji (c.d.)?

Recommended