Bachelorarbeit - TU Dortmundpatrec.cs.tu-dortmund.de/pubs/theses/ba_pavelko.pdfBachelorarbeit Lineare Unterraumtechniken zur automatischen Gesichtserkennung Andreas Pawelko Oktober

Bachelorarbeit

Lineare Unterraumtechniken zurautomatischen Gesichtserkennung

Andreas PawelkoOktober 2012

Korrigierte Version

Gutachter:Prof. Dr.-Ing. Gernot A. FinkDipl.-Inf. Leonard Rothacker

Technische Universität DortmundFakultät für InformatikMustererkennung in Eingebetteten Systemen (LS-12)http://ls12-www.cs.tu-dortmund.de

Inhaltsverzeichnis

1 Einleitung 11.1 Verfahren zur Gesichtserkennung . . . . . . . . . . . . . . . . . . . . . . . . 2

1.1.1 Merkmalsbasierte Verfahren . . . . . . . . . . . . . . . . . . . . . . . 31.1.2 Holistische Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.1.3 Vergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2 Grundlagen 92.1 Algebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.1.1 Transformationsmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . 102.1.2 Eigenwertproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.1.3 Lösung des Eigenwertproblems . . . . . . . . . . . . . . . . . . . . . 11

2.2 Stochastik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.2.1 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.2.2 Mischverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.3 Optimierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.3.1 Vektorquantisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.3.2 EM-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.3.3 Lagrange-Multiplikator . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3 Verfahren 233.1 Allgemeines Gesichtserkennungssystem . . . . . . . . . . . . . . . . . . . . . 23

3.1.1 Unterraumkonzept . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.1.2 Klassifikator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.1.3 Distanzmetriken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.2 Hauptkomponentenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.2.1 Prinzip . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.2.2 Eigenfaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.2.3 Projektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.3 Lineare Diskriminanzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . 32

i

ii INHALTSVERZEICHNIS

3.3.1 Prinzip . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.3.2 Direkte Fisherfaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.3.3 Indirekte Fisherfaces . . . . . . . . . . . . . . . . . . . . . . . . . . . 343.3.4 PCA+LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.4 Hauptkomponentenmischung . . . . . . . . . . . . . . . . . . . . . . . . . . 363.4.1 Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.4.2 Optimierungsproblem . . . . . . . . . . . . . . . . . . . . . . . . . . 393.4.3 Gewichte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403.4.4 Modellparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.4.5 Merkmalsvektoren zur Klassifikation . . . . . . . . . . . . . . . . . . 41


4 Versuche 454.1 FERET-Programm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464.1.2 FERET-Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464.1.3 Datenbank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.2 Normalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494.3 Implementierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504.4 Standard-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.4.1 Durchführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514.4.2 Evaluierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.5 Parameteroptimierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.5.1 Bildgröße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.5.2 Dimensionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 584.5.3 Distanzmetriken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624.5.4 Kombination bester Parameter . . . . . . . . . . . . . . . . . . . . . 64


5 Abschluß 67

Abbildungsverzeichnis 69

Literaturverzeichnis 76

Kapitel 1

Einleitung

Seit Jahrzehnten beschäftigt sich die Wissenschaft mit Gesichtserkennung. Besonders imBereich der Computervision, der Neurowissenschaft und der Psychologie werden durchintensive Forschung heute noch bedeutende Fortschritte erzielt. Diese führen dazu, dassdie maschinelle Gesichtserkennung zunehmend an Beliebtheit gewinnt und immer mehrAnwendung findet.

Die Gesichtserkennung zählt zu den biometrischen Verfahren und bietet in diesemBereich eine Reihe wichtiger Vorteile gegenüber anderen Techniken. Im Unterschied zurÜberprüfung des Fingerabdrucks oder der Iriserkennung ist die Gesichtserkennung einepassive und nicht intrusive Identifizierungstechnik. Ihre Anwendung kann nämlich bereitsaus der Ferne stattfinden, ohne dass die betroffene Person einem Gerät direkt ausgesetztwird und sie sich dadurch unwohl oder bloßgestellt fühlt. Ein anderer Grund der Populari-tät der Gesichtserkennung ist, dass ihre Anwendung genau der Art und Weise entspricht,wie sich Menschen selbst im Alltag untereinander identifizieren - und zwar visuell. Zudemist für die Gesichtserkennung kein großer technischer Aufwand notwendig, denn es reichtbereits eine einfache Kamera aus, statt teurer Scanner oder Spezialgeräte.

Aus diesen Gründen besitzt die Gesichtserkennung heute ein weitreichendes Spektrumvon Anwendungsgebieten. Einige davon sind:

• Einfache und schnelle Autorisierung und Authentifizierung (statt PIN-Codes, Kartenusw.).

• In der Kameraüberwachung von Straßen, Bahnhöfen, Zügen und Büssen zur Redu-zierung von Gewalt und Vandalismus oder zum Aufspühren vermisster Personen.

• Bei der Überwachung von Anlagen und Gebäuden zum Durchsetzen von Hausverbo-ten oder Finden von Dieben (z.B. wird in einigen Fußballstadien Gesichtserkennungverwendet, um bekannten Hooligans den Eintritt zu verweigern (vgl. [wSt12])).

• In der Forensik zum Aufspühren von Verbrechern aus Polizei-Datenbanken.

1

2 KAPITEL 1. EINLEITUNG

• Unterstützung der Kriminalitätsbekämpfung im Bereich des Terrorismus und Dro-genschmuggels (z.B. Identifizierung verdächtiger Personen am Flughafen).

• Als Designkomponente für intelligente und ubiquitäre Systeme (Intelligentes Haus,Multimedia-Anwendungen usw.).

Im Bereich der Gesichtserkennung wird viel geforscht, denn es ist eine große Herausfor-derung ein leistungsstarkes und zuverlässiges Gesichtserkennungssystem zu entwerfen. DerGrund dafür ist, dass das Gesicht kein invariantes Identifizierungsmerkmal darstellt. Sokann sich ein menschliches Gesicht bereits innerhalb kürzester Zeit - von einem Tag auf denanderen - ändern. Eine solche Veränderung wichtiger Gesichtscharakteristiken kann dazuführen, dass ein gleiches Gesicht nicht mehr richtig erkannt wird. Beispiele für solche Fällesind Gesichtsaccessoires (Brille, Bart usw.), variierende Beleuchtungsstärken, wechselndeGesichtausdrücke oder Gesichtsdrehungen.

Unter den Gesichtserkennungstechniken gehören Unterraumverfahren zu den vielver-sprechendsten, wie es sich in unabhängigen Tests herausstellte. Bei Unterraumverfahrenwerden Gesichtsbilder als Vektoren in einen algebraischen Raum projiziert und dort an-hand ihrer Abstände zueinander klassifiziert. Kommerzielle Gesichtserkennungssysteme,die in der Praxis Anwendung finden, sind hoch-komplex und bestehen aus mehreren Einzel-komponenten. Obwohl Details zur genauen Struktur dieser Systeme vertraulich behandeltwerden, ist allgemein bekannt, dass sie meißt eine Unterraumkomponente zur Dimensi-onsreduktion und zum Bestimmen wichtiger Gesichtsmerkmale enthalten. Solche Systemeübersteigen die menschliche Erkennungsfähigkeit von Gesichtern und kommen auch an dieIdentifizierungsleistungen anderer biometrischer Verfahren, wie der Fingerabdrucküber-prüfung oder der Iriserkennung, heran.

Im Rahmen dieser Arbeit werden drei Unterraumverfahren vorgestellt. Die ersten bei-den sind die Hauptkomponentenanalyse und die lineare Diskriminanzanalyse. Beide zäh-len zu Meilensteinen in der Gesichtserkennung. Bei dem dritten Verfahren handelt es sichum die Hauptkomponentenmischung. Dieses Verfahren wurde ursprünglich für die Feh-lerverdeckung in Videoübertragungen entwickelt. Es wurde zwar von den Autoren in derGesichtserkennung erprobt, jedoch ist in der Literatur kein umfangreicher Vergleich diesesAnsatzes zu finden (insbesondere nicht auf der FERET-Datenbank). Wir werden diesedrei Verfahren genauer analysieren, um die optimalen Arbeitsbedingungen für jedes dieserVerfahren herauszufinden und anschließend eine Schlußfolgerung darüber zu ziehen, fürwelchen Bereich der Gesichtserkennung sich das jeweilige Verfahren besonders eignet.

1.1 Verfahren zur Gesichtserkennung

Zunächst soll eine Übersicht über allgemeine Verfahren zur Gesichtserkennung gegebenwerden. Gesichtserkennungsverfahren werden grundsätzlich in drei Kategorien eingeteilt,

1.1. VERFAHREN ZUR GESICHTSERKENNUNG 3

je nach dem mit welcher Art von Bildern sie arbeiten: Techniken, die auf Intensitätsbildernoperieren, Methoden für Video-Gesichtserkennung und Verfahren, die besondere Bilder(z.B. Infrarot-Bilder) verwenden (vgl. [JA09]).

In dieser Arbeit werden Verfahren zur Gesichtserkennung auf Intensitätsbildern be-trachtet. Diese Verfahren lassen sich in zwei Grundbereiche einteilen. Zum einen gibt esdie merkmalsbasierten Verfahren, bei denen lokale Merkmale von Gesichtern gemessenund verglichen werden. Zum anderen existieren holistische Techniken, die statt einzelnerBereiche das gesamte Bild zur Gesichtserkennung heranziehen.

1.1.1 Merkmalsbasierte Verfahren

Abbildung 1.1: 35 manuell iden-tifizierte Gesichtsmerkmale (aus[IJCY96]).

Merkmalsbasierte Verfahren gelten als die erstenAnsätze zur automatischen Gesichtserkennung. Siearbeiten in zwei Schritten. Im ersten Schritt wer-den aus Bildern markante Merkmale (Mund, Augen,Nase usw.) - meißt manuell - extrahiert. Die geo-metrische Lagen und Beziehungen dieser Merkmalewerden gemessen und in einem Merkmalsvektor zu-sammengefasst. Durch die kompakte Repräsentati-on in einem Merkmalsvektor wird die Problemgrößereduziert. Im zweiten Schritt erfolgt dann mit Hilfevon Pattern-Matching-Methoden ein Vergleich derMerkmalsvektoren verschiedener Bilder.

Der erste Ansatz (in [Kan73], 1973) bestand dar-in, mit Methoden der Bildbearbeitung einen Merk-malsvektor zu erstellen, der insgesamt 16 Anga-ben zu Distanzen, Flächen und Winkeln eines Ge-sichts enthielt. Um dann zu klassifizieren, wurde einPattern-Matching mit der euklidischen Distanz durchgeführt. Für 20 Personen mit jeweils2 Bildern, führte das Verfahren zu Erkennungsraten von bis zu 75%. Eine Erweiterung die-ses Ansatzes ([BP93], 1993) auf einen Merkmalsvektor mit 35 geometrischen Parameternerreichte eine Erkennungsrate von 90% für 47 Personen mit jeweils 4 Bildern. Ein solcherMerkmalsvektor aus 35 Parametern ist in Abbildung 1.1 veranschaulicht. Man erkennt,dass geometrische Beziehungen von Gesichtsmerkmalen gespeichert werden. Verbesserun-gen solcher Ansätze, die auf Merkmalsvektoren arbeiten, können beispielsweise mit demGebrauch von dynamischen Templates (s. [YCH89]) oder Hough-Transformationen (s.[mn85]) erreicht werden.

Einen anderen Bereich merkmalsbasierter Gesichterkennungsverfahren stellen Metho-den dar, die auf Profilen von Gesichtern operieren ([LL99]). Dabei werden Informationen


zu Gesichtsprofilen in einen Vektor geschrieben, der dann nach einem Distanzmaß mitanderen Profil-Vektoren verglichen wird. Auf einer Datenbank von 112 Personen wurdenErkennungsraten von 96% berichtet.

Eine weitere, sehr bekannte Methode ist der Elastic Bunch Graph Matching (EBGM)Algorithmus (s. [WFKvdM97]). Dabei werden auf jedem Bild charakteristische Punkte(wie Mund, Augen, Nase) ausgewählt. Anschließend extrahiert man Gabor Jets aus jedemdieser Punkte. Aus den gewonennen Gabor Jets wird dann ein sogenannter Gesichtsgraphgeneriert. Ein Gesichtsgraph besteht aus den charakterisitschen Punkten als Knoten, diemit ihren Gabor Jets beschriftet werden, und eine Kante wird zwischen diesen Punkte er-stellt und mit der Distanz der Punkte zueinander gewichtet. Die Darstellung eines Gesichtsals Graph dient als eine kompaktere Repräsentation der Reduzierung der Problemgröße.Um dann mit dem EMBG-Verfahren ein unbekanntes Gesichtsbild zu klassifizieren, wirdder Gesichtsgraph zu diesem Bild erstellt und mit den bereits erstellten Gesichtsgraphender Trainingsbilder verglichen. Der Ähnlichkeitsgrad zwischen zwei Graphen ist dann derIndikator für die Zuordnung. Der EBGM-Algorithmus war in den FERET-Tests insgesamteines des besten Verfahren in der Kategorie der Gesichtsidentifikation (vgl. [PMRR00]),jedoch lag der Implementierung ein holistisches Verfahren zum Aufspühren der charakte-ristischen Punkte zugrunde.

1.1.2 Holistische Verfahren

In diesem Abschnitt werden holistische Methoden zur Gesichtserkennung vorgestellt. Grund-sätzlich wird dieser Bereich in statistische Verfahren, zu denen unter anderem lineare Un-terraumtechniken gehören, und Verfahren der Künstlichen Intelligenz (KI) unterteilt.

Statistische VerfahrenEine naheliegende statistische Methode zur Gesichtserkennung besteht darin, für die

Klassifikation eines Bildes Korrelationen zwischen den Pixelwerten des Bildes mit den Pi-xelwerten von Bildern aus der Datenbank direkt zu vergleichen, um so die Ähnlichkeitder Bilder zu ermitteln ([Bar81]). Solche Ansätze haben sich als sehr intolerant gegenüberÄnderungen von Außenbedingungen im Bild (z.B. variierende Lichtstärke, Bildrotationen,Bildhintergrund) herausgestellt. Außerdem ergeben sich direkte Nachteile aus der hohenDimensionalität der Bilder. Um diesen sogenannten ”Fluch der Dimensionalität” (vgl.[Alp10], S. 170) zu umgehen, wurden zahlreiche Unterraumverfahren entwickelt. Bei Un-terraumverfahren wird vor der eigentlichen Gesichtserkennung eine Dimensionsreduktiondurchgeführt, bei der unwichtige Bildinformationen entfernt werden.


Aufbauend auf den Arbeiten von Sirovich und Kirby ([SK87]), die mit Hilfe der Haupt-komponentenanalyse (PCA) ein Verfahren zur Bildkomprimierung entwickelt hatten, ha-ben Turk und Pentland in [TP91b] und [TP91a] im Jahr 1991 die Eigenfaces-Methodevorgestellt, die in Kapitel 3 dieser Arbeit ausführlicher eingeführt wird. Auf ihrer eigenenGesichtsdatenbank von 2500 variierenden Bildern zu 16 Personen berichteten sie Erken-nungsraten zwischen 64% und 96%.

Ein anderes lineares Unterraumverfahren ist die Independent Components Analysis(ICA) ([Com94], 1994). Während die Basisvektoren der PCA von paarweisen Zusammen-hängen zwischen jeweils zwei Pixeln der Bilder abhängen, werden bei der Bestimmung derICA-Komponenten, Beziehungen höherer Ordnung zwischen Pixeln betrachtet. Die ICAwurde erstmals von Bartlett et al. in der Gesichtserkennung eingesetzt ([BMS02], 2002)und es wurden mit der ICA bessere Ergebnisse berichtet als mit der PCA. Jedoch ist trotzvieler durchgeführter Vergleiche zwischen der ICA und der PCA nicht eindeutig, welchesVerfahren generell als besser einzustufen ist (vgl. ([DGG05]).

Einen weiteren Unterraum-Ansatz hatten Belhumeur et al. ([BHK97]) im Jahr 1997. Eswurde argumentiert, dass bei Datenbanken, die mehrere Bilder zu einer Person enthalten,durch die Wahl der Basisvektoren des Unterraums bei der PCA Informationen behal-ten werden, die nicht zur Unterscheidung von Gesichtern geeignet sind (wie z.B. Licht-einflüße oder Gesichtsausdrücke). Deswegen haben die Autoren die Fisherfaces-Methodevorgeschlagen, die mit der linearen Diskriminanzanalyse (LDA) eine Trennung von Bil-dern verschiedener Personen durchführt. Kurze Zeit später wurde die LDA auf Bilder imPCA-Unterraum angewendet. Dieser Ansatz entspricht dem PCA+LDA-Verfahren, dasin Kapitel 3.3.4 vorgestellt wird. Auf einer Datenbank von 330 verschiedenen Bildern zu5 Personen wurden bessere Erkennungsraten erreicht als mit dem Eigenfaces-Verfahren.Jedoch haben Experimente von [MK01] ergeben, dass bei kleinen Trainingsets PCA bes-ser als LDA sein kann. Außerdem kann die PCA für Datenbanken, die wenige Bilder proPerson enthalten, höhere Erkennungsraten als die LDA liefern. Jeweils drei Basisvektorendes PCA-, ICA- sowie LDA-Unterraums sind in Abbildung 1.2 visualisiert. Zu erkennensind die unterschiedlichen Annahmen, die der Wahl der Basen jedes Verfahrens zugrundeliegen.

Mit der Argumentation, dass in einem Unterraum sich die Projektionen von verschie-denen Individuen überlappen können und so eine korrekte Klassifikation nicht möglichwäre, schlugen Pentland et al. in [MNP96] ein probabilistisches Verfahren vor, das zweiKlassen von Differenzbildern als arithmetische Differenz zwischen den Pixelwerten zweierBilder definiert. Es werden intrapersonelle Bilder (Differenzbilder zwischen Bildern derselben Person) und extrapersonelle Bilder (Differenzbilder zwischen Bildern verschiedenerPersonen) berechnet. Mit Hilfe der Regel von Bayes werden Differenzbilder in Klassen ein-geordnet, sodass ein binäres Klassifikationsproblem entsteht, das man anschließend mit


PCA

ICA

LDA

Abbildung 1.2: Komponenten der PCA, ICA und einer PCA-basierten LDA (aus [DGG05]).

a-posteriori Wahrscheinlichkeiten löst. In den FERET-Tests war dieses Verfahren einesder besten Verfahren (vgl. [PMRR00]).

Bis heute wurden vielerlei Verbesserungen der ursprünglichen PCA- und LDA-Ansätze(s. [JA09]) entwickelt. Eine davon ist beispielsweise die MPC (nach [TC02a]). Es ist einelineare Erweiterung der PCA, die mehrere PCA-Unterräume in einem Modell kombiniertund dadurch eine genauere Repräsentation von Bildern anstrebt. Die MPC wird in dieserArbeit vorgestellt.

Neben den linearen Unterraumtechniken gibt es zahlreiche nicht-lineare Verfahren. Beidiesen Ansätzen wird argumentiert, dass lineare Verfahren nur ”oberflächliche” Struk-turen betrachten und nicht-lineare Zusammenhänge, die insbesondere bei Bildern mitvariierenden Lichteinflüßen, Gesichtsausdrücken und Aufnahmewinkeln vorhanden seinsollen, außer Acht lassen. Ein Beispiel eines nicht-linearen Unterraumverfahrens ist dasLaplacianfaces-Verfahren ([HYH+05]). Eines der Probleme nicht-linearer Unterraumver-fahren besteht darin herauszufinden, auf welcher Mannigfaltigkeit die nicht-linearen Ei-genschaften der Bilder liegen (vgl. z.B. [HYH+05]).

KI-VerfahrenKI-Verfahren orientieren sich an Methoden der künstlichen Intelligenz. Die wichtigsten

Konzepte stellen dabei künstliche neuronale Netze dar. Diese sind eine Nachbildung vonNervenvernetzungen des Gehirns und sind Modelle zur vereinfachten Informationsverar-


beitung. Ein künstliches neuronales Netz besteht aus mehreren Knoten, die zusammeneine Struktur für automatisches Lernen bilden.

Einer der ersten Ansätze verwendete ein auto-assoziatives neuronales Netzwerk, um 50extrahierte Hauptkomponenten einer PCA auf 5 Dimensionen zu reduzieren. Anschließendwurde mit einem mehrschichtigen Perzeptron klassifiziert ([DY93], 1993). Die Erkennungs-raten waren zwar zufriedenstellend, jedoch lag den Experimenten eine Datenbank von nur20 Personen zugrunde, die alle unter gleichen Bedingungen fotographiert wurden.

In [LGTB97] wurde ein hybrides neuronales Netzwerk eingesetzt, das eine selbstor-ganisierende Karte (SOM) zur Dimensionsreduktion und ein konvolutionelles neuronalesNetzwerk zum Kompensieren von Rotationen und Skalierungen des Bildes verwendet. Aufeiner Datenbank von 400 Bildern von insgesamt 40 Personen hatte dieses Verfahren lautden Autoren bessere Ergebnisse als das Eigenfaces-Verfahren.

Li und Yin ([LY05], 2005) zerlegten ein Bild mit einer Wavelet-Transformation in dreiBildebenen. Auf die drei so entstandenen Bilder wurde die Fisherfaces-Methode angewen-det. Anschließend vereinte man die einzelnen Klassifikationsergebnisse mit einem RBFneuronalen Netzwerk. Laut ihren Experimenten auf einer Datenbank von 40 Personenwurde so eine Verbesserung des reinen Fisherfaces-Verfahrens erreicht.

Gute Erkennungsraten von 98% auf Frontalbildern der FERET-Datenbank erzieltenZhang et al. ([ZHL+05], 2004). Bei ihrem Ansatz wird eine Ählichkeitsfunktion trainiert,die zu zwei Bildern die Wahrscheinlichkeit angibt, dass es sich um die selbe Person han-delt. Von Gesichtsregionen werden Local Binary Pattern (LBP) Histogramme gewonnen,aus denen dann Gesichtsmerkmale ausgesucht werden. Chi-quadratische Distanzen zwi-schen den LBP-Histogrammen stellen dabei Merkmale zum Unterscheiden von Gesichterndar. Anschließend werden mit dem AdaBoost-Lernalgorithmus die besten LBP-Merkmaleausgewählt und die Ähnlichkeitsfunktion als Kombination der schwachen LBP-Merkmaletrainiert.

Außerdem können mit dem Support Vector Machine (SVM) Klassifikator gute Er-kennungsraten erreicht werden, wie z.B. in [LWQ05]. Dabei werden Trainingsbilder alsKlassen in einen hoch-dimensionalen Raum projiziert und mit Hyperebenen in diesemRaum werden dann unterschiedliche Klassen bestmöglich voneinander getrennt.

Hidden Markov Modelle (HMM) können ebenfalls in der Gesichterkennung eingesetztwerden. In [SH94] wurde mit einem eindimensionalen HMM und später mit einem pseudozweidimensionalen HMM experementiert. Es konnten Erkennungsraten von bis zu 87%bzw. 95% auf der ORL-Datenbank erzielt werden. Außerdem erreichte man mit einge-betteten HMM-Gesichtsmodellen ([NI99]) Erkennungsleistungen von bis zu 98% auf dergleichen Datenbank.


1.1.3 Vergleich

Nun sollen Vor- und Nachteile merkmalsbasierter und holistischer Verfahren nach [JA09]einander gegenübergestellt werden.

• Merkmalsbasierte Verfahren sind im Vergleich zu holistischen Verfahren relativ ro-bust gegenüber variierenden Lichteinflüßen, Bilddrehungen oder Bildgrößen, da nurdie Verhältnisse zwischen Gesichtsmerkmalen betrachtet werden.

• Bei merkmalsbasierten Verfahren werden Bilder relativ kompakt als Merkmalsvek-toren repräsentiert, was einen geringen Aufwand zum Vergleichen der Vektoren zurFolge hat. Holistische Verfahren hingegen sind meißt mit einem relativ hohen Re-chenaufwand verbunden.

• Es ist schwierig und aufwändig die relevanten Gesichtsmerkmale für einen Merk-malsvektor eines merkmalsbasierten Verfahrens automatisch zu lokalisieren. DieseMerkmale müssen so gewählt werden, dass mit ihrer Hilfe eine gute Unterscheid-barkeit von Gesichtern möglich ist. Bei den meißten oben vorgestellten Verfahrenwurden die Merkmale manuell erfasst. Im Unterschied dazu arbeiten holistische Ver-fahren meißt vollautomatisch.

• Bei holistischen Verfahren werden Bilder als Ganzes betrachtet, statt auf ihre wich-tigsten Merkmale reduziert. Dadurch wird die meißte Bildinformation behalten.

Kapitel 2

Grundlagen

Um Hintergründe und Zusammenhänge linearer Unterraumverfahren nachvollziehen zukönnen, müssen zunächst einige grundlegende Aspekte in linearer Algebra, multivariaterStochastik sowie mathematischer Optimierung verstanden werden.

Bei Unterraumverfahren wird in der Trainingsphase ein Unterraum bestimmt, in denfür die spätere Zuordnung eines Gesichtsbildes zu einer Person das Bild hineinprojiziertwird. Die Projektion erfolgt über Transformationsmatrizen. Diese definieren den Unter-raum und werden aus Eigenvektoren gebildet. Transformationsmatrizen und Eigenvekto-ren werden in Kapitel 2.1 beschrieben.

Eigenvektoren zur Bildung einer Transformationsmatrix werden aus einer sogenanntenStreuungsmatrix (s. Kapitel 2.2.1) extrahiert, die für eine Punktmenge in einem mehrdi-mensionalen Raum angibt, in Richtung welcher Dimension die größte Streuung der Punktevorliegt. Dabei wird angenommen, dass die Dimension mit der größten Streuung die besteUnterscheidbarkeit der Punkte ermöglicht.

Darüberhinaus werden für das Verfahren der Hauptkomponentenmischung (MPC) zu-sätzlich noch Kentnisse über Mischverteilungen von Zufallsvariablen benötigt (Kapitel2.2.2). Dazu werden in Kapitel 2.3.1 und 2.3.2 zwei unterschiedliche Möglichkeiten zumErstellen von Mischverteilungsmodellen aus mehreren Normalverteilungen vorgestellt. Beider MPC handelt es sich nämlich um einen EM-Algorithmus, der mit einer Kombinati-on mehrerer PCA-Unterräume eine Art ”Misch-Unterraum” modelliert. Außerdem wirdfür die Entwicklung des MPC-Modells die Methode des Lagrange-Multiplikators benötigt.Diese erlaubt es Nebenbedingungen in Form von Funktionen in Optimierungsproblemeeinzubinden (s. Kapitel 2.3.3).

2.1 Algebra

In diesem Unterkapitel werden Transformationsmatrizen, Basisvektoren und Projektionenvon Vektoren in Unterräume behandelt. Dazu wird außerdem die Bedeutung und die

9

10 KAPITEL 2. GRUNDLAGEN

Berechnung von Eigenwerten und Eigenvektoren erläutert, die bei unseren Verfahren fürdie Bildung von Unterräumen essenziell sind.

2.1.1 Transformationsmatrix

Bei jedem unserer Unterraumverfahren wird eine Transformationsmatrix verwendet, umVektoren in den Unterraum zu projizieren. Weiterhin definiert die Transformationsmatrixden Unterraum und seine Dimensionalität.

Eine Basisrepräsentation eines Vektorraums besteht aus einer Menge sogenannter Ba-sisvektoren. Sie spannen den Vektorraum auf und definieren seine Elemente, die Vektoren(vgl. [Beu03], S. 54ff).

Soll nun ein Basiswechsel eines Vektors durchgeführt werden, d.h. ein Vektor soll voneinem Vektorraum in einen anderen transformiert werden, dann wird eine Transformati-onsmatrix benötigt. Eine Transformationsmatrix

T =

a11 · · · a1n... . . . ...

am1 · · · amn

(2.1)

bildet einen Vektor von einem n-dimensionalen Vektorraum in einen m-dimensionalenVektorraum ab. Der resultierende Vektor wird Projektion genannt und seine Koeffizientensind Linearkombinationen der Zeilenvektoren von T mit Vektor v (vgl. [Beu03]). Mathe-matisch gesehen definiert die Transformationsmatrix T eine lineare Abbildung, weshalbT auch Abbildungsmatrix genannt wird. Die Abbildung entspricht einer Matrixmultipli-kation (vgl. [KM03], S. 52ff):

T · v = v′. (2.2)

Dabei bestimmt die Anzahl der Zeilenvektoren der Transformationsmatrix T die Dimen-sionalität des abgebildeten Vektors v′.

2.1.2 Eigenwertproblem

Eigenvektoren sind für unsere Zwecke Komponenten von Transformationsmatrizen. Im Fol-genden zeigen wir, wie aus Eigenvektoren Transformationsmatrizen entstehen können undein mehrdimensionaler Raum mit Hilfe von Eigenvektoren in seine einzelnen Dimensio-nen zerlegt werden kann, um dann mit ausgewählten Dimensionen Unterräume für unsereVerfahren zu definieren.

Als Eigenwertproblem wird die Aufgabe der Berechnung von Eigenvektoren und Eigen-werten zu einer Matrix bezeichnet. Eigenvektoren einer Matrix T haben die Eigenschaft,dass sich durch die Transformation mit T ihre Richtung nicht ändert, sondern nur ei-ne Skalierung ihrer Länge stattfindet. Der Skalierungsfaktor eines Eigenvektors nach derTransformation mit seiner Matrix T heißt Eigenwert zum Eigenvektor von T . Seien v ein

2.1. ALGEBRA 11

Eigenvektor von Transformationsmatrix T und λ der dazugehörige Eigenwert von v, danngilt folgender mathematischer Zusammenhang (vgl. [Jä00], S. 197f):

T · v = λ · v und v 6= 0. (2.3)

Der Skalierungsfaktor λ ist für sein Eigenvektor-Matrix-Paar immer konstant, unabhängigvon der vorherigen Skalierung seines Eigenvektors.

Es kann gezeigt werden, dass zu einer symmetrischen und quadratischen n×n-Matrixhöchstens n Eigenvektoren gefunden werden können, die insbesondere orthogonal zuein-ander sind (vgl. [DHS01], S. 609f). Wegen der Orthogonalität stellen sie voneinander un-abhängige Dimensionen dar und bilden zusammen als Basisvektoren eine Basis für einenVektorraum. Da jeder orthogonale Eigenvektor eine unabhängige Dimension darstellt, be-steht der Vorteil der Eigenvektordarstellung eines Raums darin, durch das Weglassen vonEigenvektoren einzelne Dimensionen zu entfernen und auf diese Weise eine lineare Dimen-sionsreduktion zu vollziehen.

2.1.3 Lösung des Eigenwertproblems

Dieser Abschnitt widmet sich der Berechnung von Eigenwerten und Eigenvektoren. An-gefangen mit einer anschaulichen Berechnung mit Hilfe des charakteristischen Polynoms,schließen wir mit einem praktischen Verfahren, dem QR-Verfahren, ab, welches derzeitauch z.B. in Matlab Verwendung findet und für unsere spätere Berechnung von Eigenwer-ten und Eigenvektoren gebraucht wird (vgl. [QS06], S. 158ff).

Eine exakte Berechnung von Eigenwerten und Eigenvektoren findet grundsätzlich überdas charakteristische Polynom statt. Dazu geht man laut [KM03] wie folgt vor: Im erstenSchritt berechnet man die Eigenwerte. Nach Formel 2.3 gilt für Matrix T , Eigenwert λund Eigenvektor v mit Einheitsmatrix E:

T · v = λ ·E · v ⇐⇒ (2.4)

T · v − λ ·E · v = 0 ⇐⇒ (2.5)

(T − λ ·E) · v = 0. (2.6)

Da v 6= 0 gilt, ist die Gleichung dann lösbar, wenn det(T − λ ·E) 6= 0. Schreibt man dieDeterminante aus, dann erhält man das charakteristische Polynom. Die Nullstellen diesesPolynoms sind gerade die gesuchten Eigenwerte. Im zweiten Schritt können die gefundenenEigenwerte in Formel 2.3 eingesetzt werden, wodurch man ein lineares Gleichungssystemerhält. Anschließend kann mit dem Gauß-Verfahren das lineare Gleichungssystem für jedenEigenwert gelöst werden, um die Eigenvektoren zu erhalten.

Die Berechnung von Eigenwerten als Nullstellen das charakteristischen Polynom funk-tioniert zwar für kleine Matrizen, für Matrizen, deren charakteristisches Polynom Grad 5


oder höher hat, ist die Berechnung der Eigenwerte jedoch problematisch, da kein allgemei-nes Verfahren zur Berechnung von Nullstellen solcher Polynome existiert (nach [KM03],S. 126f). Deswegen werden dann numerische Approximationsverfahren angewendet.

Ein bekanntes Näherungsverfahren ist zum Beispiel das QR-Verfahren. Das Verfahrenbasiert darauf, dass zwei ähnliche Matrizen die selben Eigenwerte besitzen. Zwei gleichdi-mensional quadratische Matrizen A und B sind ähnlich, wenn eine invertierbare MatrixT existiert, mit der gilt (vgl. [QS06], S. 158ff):

T−1AT = B. (2.7)

Ist dann λ ein Eigenwert von A und v 6= 0 der zugehörige Eigenvektor, so folgt ausGleichung 2.3 unmittelbar, dass λ auch Eigenwert von B ist, denn

T−1Av = λT−1v ⇐⇒ (2.8)

BT−1v = λT−1v. (2.9)

Der Eigenvektor zum gefundenen Eigenwert λ ist dann T−1v.Ausgehend von diesen Überlegungen ist das Vorgehen des QR-Verfahrens zum Bestim-

men aller Eigenwerte einer Matrix A, die Matrix A schrittweise zu einer ähnlichen, aberdiagonalen, Matrix B zu überführen. Dazu werden iterativ QR-Zerlegungen von der ak-tuellen Matrix A berechnet. Die QR-Zerlegung ist dabei die Umformung einer Matrix Ain das Produkt zweier Matrizen Q und R, sodass

A = QR (2.10)

gilt. Dies wird solange wiederholt, bis eine Diagonalmatrix B entstanden ist, aus der danndie Eigenwerte vonA als Diagonaleinträge abgelesen werden können (vgl. [QS06], S. 158ff).

2.2 Stochastik

Dieser Abschnitt stellt den Bezug zur stochastischen Schätzung von Parametern her. Fürjedes in dieser Arbeit vorgestellte Unterraumverfahren wird eine Streuungsmatrix ver-wendet, um Einsichten in die Verteilung von Daten zu gewinnen und entsprechend denUnterraum zu wählen.

Außerdem ist es für das spätere Verständnis der MPC wichtig zu verstehen, wie Misch-verteilungen mit Hilfe von Normalverteilungen modelliert werden können. Die MPC greiftnämlich diese Idee auf.

2.2.1 Korrelation

Wir stellen die Streuungsmatrix vor. Mit ihr kann eine Punktmenge (repräsentiert durchZufallsvariablen) in einem mehrdimensionalen Raum charakterisiert werden und entspre-

2.2. STOCHASTIK 13

chend der Eigenschaften der Punktwolke wird bei unseren Verfahren ein passender Unter-raum in Form von Eigenvektoren gewählt. Die Eigenvektoren werden aus der Streuungs-matrix gewonnen. Sie repräsentieren dann Dimensionen des Ausgangsraums, während ihreEigenwerte die Stärke der Streuung der Punkte in der entsprechenden Dimension angeben.

Die Kovarianz ist ein Maß der multivariaten Statistik, um anzugeben, ob ein linearerZusammenhang zwischen zwei Zufallsvariablen besteht, das heißt eine Korrelation zwi-schen ihnen vorliegt. Für zwei Zufallsvariablen X und Y mit Realisierungen Xi bzw. Yikann die Kovarianz mit folgender mathematischer Formel geschätzt werden (nach [Kir10],S. 45ff):

Cov(X,Y ) = 1n− 1

n∑i=1

(Xi − X)(Yi − Y ). (2.11)

Dabei sind X und Y die entsprechenden Schätzungen der Erwartungswerte der Zufallsva-riablen und n die Anzahl der Elemente.

Wie an der Formel erkennbar ist, wertet die Kovarianz zwei Zufallsvariablen bezüglicheinander aus, indem die gemeinsame Streuung der Stichprobendaten berechnet wird. DieKovarianz ist also ein Streuungsmaß, welches Aussagen zur linearen Beziehung zwischenzwei Zufallsvariablen macht (vgl. [Kir10]):

• Ist Cov(X,Y ) > 0, dann kann auf eine positive Korrelation geschloßen werden. Diesbedeutet, große X-Werte gehen mit großen Y -Werten einher und kleine X-Werteimplizieren kleine Y -Werte.

• Ist Cov(X,Y ) < 0, dann liegt eine negative Korrelation vor: Aus kleinen X-Wertenkann auf große Y -Werte geschloßen werden und umgekehrt.

• Ist Cov(X,Y ) ≈ 0, dann existiert kein linearer Zusammenhang zwischen den beidenZufallsvariablen, das heißt sie sind unkorreliert.

Abbildung 2.1 zeigt eine positive Korrelation (links) und eine Unkorreliertheit (rechts)zwischen zwei Zufallsvariablen, die in der Abbildung als Achsen dargestellt sind. Würdeman beispielsweise für die zwei Zufallsvariablen in der linken Abbildung die Kovarianzschätzen, würde man einen Kovarianzwert größer Null erhalten. Demnach besteht zwischenX und Y also ein linearer Zusammenhang in Form einer positiven Korrelation. Für dieZufallsvariablen gilt dann prinzipiell, dass der X-Wert wächst, wenn der Y -Wert fällt undumgekehrt.

Die Kovarianz findet lineare Beziehungen zwischen zwei Zufallsvariablen. Nun hat manin Problemstellungen jedoch meißt mit mehr als zwei Zufallsvariablen zu tun, die alle nachihren Abhängigkeiten untereinander analysiert werden sollen. Folglich muss für jede Kom-bination der Zufallsvariablen die Kovarianz berechnet werden. Diese Kombinationen wer-den in einer Kovarianzmatrix dargestellt, indem systematisch alle möglichen Kovarianzen


Abbildung 2.1: Beispiel für eine positiv korrelierte Punktwolke (links) und eine unkorreliertePunktwolke (rechts) für zwei Zufallsvariablen X und Y (nach [Fin03], S. 140).

zwischen den Zufallsvariablen gebildet werden. Eine solche Kovarianzmatrix sieht für zweiZufallsvariablen X und Y wie folgt aus (nach [DHS01], S. 617f):

K =

Cov(X,X) Cov(X,Y )Cov(Y ,X) Cov(Y ,Y )

. (2.12)

Sind die Einträge der Kovarianzmatrix, wie in Formel 2.12, Schätzungen der tatsächlichenKovarianz, dann wird die Kovarianzmatrix als Streuungsmatrix bezeichnet (vgl. [Fin03],S. 141f.). Sie ist eine Schätzung der Kovarianzmatrix. Die Streuungsmatrix ist stets qua-dratisch und die Einträge an der Hauptdiagonalen sind die Schätzungen der Varianzen fürdie einzelnen Zufallsvariablen. Die Schätzung der Varianz von Zufallsvariable X entsprichtCov(X,X). An Formel 2.11 ist erkennbar, dass Cov(X,Y ) = Cov(Y ,X) gilt. Aus diesemGrund ist die Streuungsmatrix immer symmetrisch und erfüllt damit wichtige Vorausset-zungen für die Berechnung von Eigenwerten und Eigenvektoren (siehe Kapitel 2.1.2).

2.2.2 Mischverteilung

Aus mehreren Normalverteilungen kann ein Mischverteilungsmodell angegeben werden.Analog dazu erschafft das MPC-Verfahren aus mehreren Unterräumen eine Mischung vonUnterräumen. Aus diesem Grund werden zunächst Grundlagen von Mischverteilungen er-klärt.

Eine Wahrscheinlichkeitsverteilung einer Zufallsvariablen gibt an, wie wahrscheinliches ist, dass eine Realisierung der Zufallsvariable eintritt. Es ist aus Kompaktheitsgründenpraktisch eine Verteilung als Funktion anzugeben. Ist eine Zufallsvariable normalverteilt,dann kann ihre Verteilung als Gaußsche Normalverteilung dargestellt werden. Hierbeihandelt es sich um eine Dichtefunktion, die zu jeder Realisierung einer Zufallsvariablenangibt, mit welcher Häufigkeit sie eintreten kann.

2.2. STOCHASTIK 15

Abbildung 2.2: Beispiel für zwei Normalverteilungen N1 und N2 (nach [Fin12], S.141).

Für eine mehrdimensionale Zufallsvariable kann die Normalverteilung als Funktionangegeben werden (vgl. [Fin03], S. 46f):

N(x|µ,K) = 1√|2πK|

e−12 (x−µ)TK−1(x−µ). (2.13)

Dabei müssen sowohl Mittelvektor µ als auch Kovarianzmatrix K bekannt sein, um dieNormalverteilung angeben zu können. In der Formel bezeichnet |2πK| die Determinanteder Matrix 2πK, K−1 ist die Inverse zur Matrix K und KT die Transponierte zu K.

Da Normalverteilungen nur ein Häufungsgebiet (siehe zum Beispiel Abbildung 2.2),und zwar um den Mittelvektor herum, gleichzeitig aufweisen, können Verteilungen, diemehrere Häufungsgebiete besitzen, nicht gut mit einer einzelnen Normalverteilung reprä-sentiert werden. Allerdings kann mit einer linearen Kombination aus mehreren Normalver-teilungen die Verteilung einer Zufallsvariablen mit mehreren Häufungsgebieten approxi-miert werden. Die so entstehende Mischverteilung ist umso genauer, je mehr Normalvertei-lungen kombiniert werden. Nach [Fin03] ist die Mischverteilung aus K Normalverteilungendann gebildet durch

p(x) ≈K∑i=1

ciN(x|µi,Ki). (2.14)

Zum Bilden eines solchen Mischverteilungsmodells müssen die Mittelvektoren µi, die Ko-varianzmatrizenKi der Normalverteilungen und die Mischungsgewichte ci, die als Summe1 ergeben müssen, als Parameter vorliegen.

In Abbildung 2.3 ist ein Beispiel für eine Mischverteilung mit zwei Häufungsgebietendargestellt. So könnte eine Mischverteilung aussehen, die aus den zwei Normalverteilungenvon Abbildung 2.2 geschätzt wurde.


Abbildung 2.3: Beispiel für eine Mischverteilung (nach [Fin12], S. 168).

2.3 Optimierung

Methoden aus dem Gebiet der mathematischen Optimierung werden wir benötigen, umeine optimale Parameterschätzung für einen Unterraum durchzuführen. Dieses Kapitelträgt hauptsächlich zum Verständnis der MPC-Methode bei, denn diese basiert auf denIdeen dieses Kapitels.

2.3.1 Vektorquantisierung

Parameter für Mischverteilungsmodelle, die wir in Kapitel 2.2.2 eingeführt haben, könnenmit Verfahren der Vektorquantisierung geschätzt werden. Wir erklären das Vorgehen undbeschreiben ein Vektorquantisierungsverfahren, den Lloyd-Algorithmus, dessen Ergebnisseals Parameter für ein einfaches Mischverteilungsmodell verwendet werden können.

Die Vektorquantisierung ist ein allgemeiner Begriff für Verfahren, die vor allem derKompression von Datenvektoren dienen. Ziel ist es, zu einer Menge von Vektoren, dieeinen großen Wertebereich haben, eine kleine Menge von repräsentativen Vektoren zubestimmen, auf welche alle Vektoren abgebildet werden können. Auf diese Weise werdenfür spätere Zwecke nur noch die Repräsentanten benötigt und nicht die Vielzahl allermöglichen Ausprägungen der Vektoren. Die Menge der Repräsentanten wird dabei alsCodebuch bezeichnet ([Fin03], S. 53ff).

Ein Beispiel für das Ergebnis einer durchgeführten Vektorquantisierung ist als Voronoi-Diagramm in Abbildung 2.4 zu sehen. Es sind vierzehn Repräsentanten bestimmt worden(schwarze Punkte in der Abbildung). Die Vektoren, die auf einen Repräsentanten abgebil-

2.3. OPTIMIERUNG 17

Abbildung 2.4: Beispiel für eine Vektorquantisierung. Die Repräsentanten sind als schwar-ze Punkte dargestellt und die Partitionen der jeweiligen Repräsentanten sind durch die Li-nien abgegrenzt (nach [Fin12], S. 138).

det werden, sind durch die Fläche (auch Partition oder Zelle genannt) um den jeweiligenRepräsentanten gegeben.

Während der Vorteil der Vektorquantisierung darin besteht, nur das Codebuch undnicht alle Vektoren speichern zu müssen, liegt der Nachteil darin, dass mit kleinerem Co-debuch ebenso die Ungenauigkeit zunimmt. Die Ungenauigkeit der Quantisierung wirdals globaler Quantisierungsfehler bezeichnet. Dieser berechnet sich als statistischer Erwar-tungswert der Quantisierungsfehler aller bekannten Vektoren x zur Zufallsvariable X (vgl.[Fin03], S. 53ff):

ε(Q) = εd(X,Q(X)) (2.15)

Hierbei bezeichnet Q(X) die Quantisierung von X. Die Distanz zwischen X und Q(X) istdurch eine Funktion d(X,Q(X)) gegeben.

Das Optimalitätskriterium für die Vektorquantisierung ist es nun für eine gegebeneCodebuchgröße die Repräsentanten so zu bestimmen, dass der globale Quantisierungsfehlerε(Q) minimiert wird. Die Vektorquantisierung beachtet dabei zwei Grundbedingungen:

1. Die Nächster-Nachbar-Bedingung: Bei gegebenem Codebuch sind für die Repräsen-tanten die Partitionen, die darüber entscheiden, ob ein Vektor auf den jeweiligenRepräsentanten abgebildet wird, so zu wählen, dass alle Vektoren in der jeweiligenPartition minimalen Abstand zum Repräsentanten dieser Partition haben.


2. Die Zentroid-Bedingung: Bei gegebenen Partitionen sind die optimalen Repräsentan-ten gerade die Zentroiden dieser Partitionen. Zentroiden sind diejenigen Vektoren,die minimalen Abstand zu allen anderen Vektoren in ihrer Partition haben.

Ein einfacher Algorithmus zur Vektorquantisierung ist der Lloyd-Algorithmus. Bei die-sem Verfahren werden nach den zwei oben genannten Bedingungen das Codebuch und diePartitionen abwechselnd aktualisiert. Dabei wird bei jedem Iterationsschritt der Quanti-sierungsfehler minimiert und der Algorithmus terminiert, sobald keine Verbesserung desQuantisierungsfehlers mehr stattfindet. Das Codebuch und dessen Größe müssen initialfestgelegt werden, was auf heuristische oder zufällige Art zu erfolgen hat. Bei der Durchfüh-rung des Lloyd-Algorithmus (z.B. mit der euklidischen Distanz) für eine gegebene Mengevon Vektoren kann eine Iteration wie folgt aussehen (vgl. [Fin03], S. 58f):

• Ordne jeden Vektor nach der Nächster-Nachbar-Bedingung seinem Repräsentantenim Codebuch zu.

• Berechne die Repräsentanten nach der Zentroid-Bedingung neu anhand der Parti-tionen, die durch die ihnen zugeordneten Vektoren gegeben sind.

Ein Problem des Lloyd-Algorithmus ist, dass nicht immer garantiert das globale Opti-mum gefunden wird. Das Verfahren kann nämlich bereits bei einem lokalen Optimumkonvergieren.

Das Ergebnis eines Vektorquantisierers kann dazu verwendet werden, um Parametereines Mischverteilungsmodells zu schätzen. Liefert ein Vektorquantisierer ein Codebuchder Größe N mit N Partitionen, so kann jede Partition als Normalverteilung betrachtetwerden, die - wie in Kapitel 2.2.2 erwähnt - zusammen zu einer Mischverteilung kombi-niert werden können. Die Parameter für eine Normalverteilung i = 1..N können wie folgtgeschätzt werden (vgl. [Fin03], S. 62f)

• Der Mittelvektor µi entspricht dem Zentroiden der i-ten Partition, das heißt demi-ten Codebucheintrag.

• Die Kovarianzmatrix Ki kann aus den Vektoren, die zur i-ten Partition gehören,geschätzt werden.

• Das Mischungsgewicht ci für die Kombination der Normalverteilungen ist dabei diea-priori-Wahrscheinlichkeit der i-ten Partition (dezimaler Prozentualanteil der Par-titionsvektoren aus allen Vektoren)

2.3.2 EM-Algorithmus

Schätzt man ein Mischverteilungsmodell mit Ergebnissen des Lloyd-Algorithmus, dann flie-ßen in jede Berechnung einer Normalverteilung nur Vektoren aus der jeweiligen Partition

2.3. OPTIMIERUNG 19

mit ein, obwohl eine Normalverteilung laut Definition Dichtewerte für jeden Vektor liefernmuss, auch wenn diese Werte beliebig klein sein können. Dies ist bei dem als nächstes vor-gestellten Verfahren zur Schätzung von Mischverteilungsmodellen, dem EM-Algorithmus,anders. Bei dieser Methode geschieht keine strikte Zuordnung von Vektoren zu Normalver-teilungen, sondern es erfolgt eine sogenannte ”weiche Vektorquantisierung” (vgl. [Fin03],S. 63ff). Dabei wird jedem Vektor für jede Normalverteilung eine Wahrscheinlichkeit verge-ben. Bei der MPC wird ebenfalls eine solche Vektorquantisierung mit einem EM-Verfahrendurchgeführt.

Wir betrachten den Expectation-Maximization-Algorithmus, kurz EM-Algorithmus,als Verfahren zur Schätzung von Mischverteilungsparametern. Es handelt sich um eineMaximum-Likelihood-Methode, bei der iterativ eine zu maximierende Likelihood-Funktionverbessert wird. Das Verfahren terminiert, sobald keine bedeutende Verbesserung des Li-kelihoods mehr stattfindet, also bis das Verfahren konvergiert.

Wir erinnern uns an die Definition einer Mischverteilung aus Kapitel 2.2.2. Ausgehendvon N Normalverteilungen, werden für ein Mischverteilungsmodell die Parameter für jedeNormalverteilung benötigt. Wir fassen diese Parameter im Parametersatz Θ zusammen.

Mit Hilfe der Likelihood-Funktion werden die Parameter der Mischverteilung geschätzt.Wir führen die Likelihood-Funktion ein und vereinfachen diese durch Anwendung des Lo-garithmus. Wir können dies problemlos tun, da die Anwendung einer monotonen Funktionauf eine andere Funktion nicht das Ergebnis des Maximierungsproblems verändert. Wirerhalten somit die Log-Likelihood-Funktion (vgl. [Fin03], S. 63ff):

L(Θ|w) =∑x∈w

ln(p(x|Θ)). (2.16)

Sie ist abhängig vom Parametersatz Θ bei gegebener Stichprobe w. Es handelt sich beidieser Berechnung um die Summe der Dichtewerte des Mischverteilungsmodells zum Pa-rametersatz Θ.

Nach der Initialisierung arbeitet der EM-Algorithmus in zwei Schritten pro Iteration.Im Expectation-Schritt werden bekannten Datenvektoren der Stichprobe Wahrscheinlich-keiten für die Zugehörigkeit zu jeder Normalverteilung zugeordnet. Und im Maximization-Schritt erfolgt dann die Neuberechnung der Parameter mit dem Ziel, die Log-Likehood-Funktion zu maximieren.

In Kapitel 2.3.1 haben wir beschrieben, wie eine einfache Schätzung von Parameternfür ein Mischverteilungsmodell nach einer Vektorquantisierung erfolgen kann. Auf genaudiese Weise kann der Ausgangsparametersatz Θ0 des EM-Algorithmus initialisiert werden.Danach können die zwei EM-Schritte abwechselnd ausgeführt werden.

Im ersten Schritt (Expectation-Schritt) wird die a-posteriori Wahrscheinlichkeit für dieNeuzuordnung jedes Vektors x ∈ w zu jedem Repräsentanten wi des Codebuchs für den


aktuellen Parametersatz Θm berechnet. Diese berechnet sich in [Fin03] als Prozentualanteilder Dichtewerte folgendermaßen:

P (wi|x, Θm) = cmi ·N(x|µmi ,Kmi )∑

j cmj ·N(x|µmi ,Km

i ) . (2.17)

Nun können im zweiten Schritt (Maximization-Schritt) die Parameter des Modells anhandder soeben aktualisierten a-posteriori-Wahrscheinlichkeiten neu geschätzt werden. Für jedeNormalverteilung i ist die Neuschätzung der Parameter dann wie folgt (vgl. [Fin03], S.63ff):

ci =∑x∈w P (wi|x)|w|

, (2.18)

µi =∑x∈w P (wi|x) · x∑x∈w P (wi|x) , (2.19)

Ki =∑x∈w P (wi|x)(x− µi)(x− µi)T∑

x∈w P (wi|x) . (2.20)

Zuletzt kann das Konvergenzkriterium kontrolliert werden, das heißt die Log-Likelihood-Funktion wird berechnet und es wird überprüft, ob diese einen bedeutend optimalerenWert liefert als die zuvor berechnete Funktion. Ist dies nicht der Fall, terminiert derEM-Algorithmus mit dem aktuellen Parametersatz Θm, welcher das endgültige Mischver-teilungsmodell definiert.

2.3.3 Lagrange-Multiplikator

Die Methode des Lagrange-Multiplikators werden wir bei dem MPC-Verfahren brauchen,um das Optimum einer Funktion mit Nebenbedingungen berechnen zu können.

Soll eine Extremstelle (Maximum oder Minimum) einer Funktion bestimmt werden,dann ist es einfach diese Funktion nach ihren Veränderlichen abzuleiten und die Ableitunggleich Null zu setzen, um das gesuchte Extremum zu erhalten. Ist jedoch die zu optimieren-de Funktion durch Nebenbedingungen eingeschränkt, dann ist dies nicht direkt möglich.Zum Lösen von Optimierungsproblemen mit Nebenbedingungen wird daher die Methodedes Lagrange-Multiplikators verwendet. Hierbei wird für jede Nebenbedingung, die dieFunktion einhalten muss, eine skalare Variable eingeführt, die als Lagrange-Multiplikatorbezeichnet wird. Indem nun jede solche Variable als Koeffizient einer Linearkombinationeingesetzt wird, reduziert man das Optimierungsproblem mit Nebenbedingungen auf einProblem ohne Nebenbedingungen.

Will man zum Beispiel von einer Funktion f(x) die Extrema berechnen und gleichzeitigeine Nebenbedingung in Form einer Funktion g einhalten, sodass g(x) = 0 gelten soll,

2.4. ZUSAMMENFASSUNG 21

dann definiert man zunächst die Lagrange-Funktion, die diese Nebenbedingung mit derzu optimierenden Funktion kombiniert (vgl. [DHS01], S. 610):

L(x,λ) = f(x) + λ · g(x)

Diese Funktion ist nicht mehr durch separate Nebenbedingungen eingeschränkt, sodassihre Extrema leicht berechnet werden können.

2.4 Zusammenfassung

Es wurden wichtige mathematische Grundlagen für das Verständnis der nächsten Kapitelgelegt.

Mit Hilfe linearer Abbildungen in Form von Transformationsmatrizen werden Vekto-ren, die bei den hier vorgestellten Techniken Gesichtern entsprechen werden, in lineareUnterräume projiziert. Für unsere Zwecke wird eine Transformationsmatrix aus mehrerenVektoren gebildet, die zusammen als Basen einen Unterraum aufspannen. Solche Vektorenwerden Eigenvektoren zu einem Eigenwertproblem sein, das z.B. mit dem QR-Algorithmusgelöst werden kann.

Um lineare Abhängigkeiten zwischen Vektoren einer Menge in einem mehrdimensiona-len Raum zu beschreiben, verwendet man eine Streuungsmatrix. Diese zeigt Korrelationenzwischen mehreren Zufallsvariablen, die als Dimensionen angesehen werden können, an.Streuungsmatrizen werden bei jedem in dieser Arbeit eingeführten Unterraumverfahrenberechnet, um aus den Streuungsinformationen gegebener Vektoren einen geeigneten Un-terraum zu bestimmen.

Darüberhinaus wurde dargestellt, wie die Verteilung einer Datenmenge, die mehrereHäufungsgebiete aufweist, mit einer Kombination von Normalverteilungen zu einer Misch-verteilung genauer modelliert werden kann als mit einer einzelnen Normalverteilung. ZumErstellen eines solchen Mischverteilungsmodells wurden zwei Möglichkeiten erläutert, zumEinen mit Ergebnissen eines Verfahrens zur Vektorquantisierung (z.B. Lloyd-Algorithmus)und zum Anderen mit einem EM-Algorithmus. Letzteres ist dabei vorteilhafter, weil nichtnur lokale, sondern auch globale Informationen betrachtet werden. Diese Erkenntnissewerden bei der Hauptkomponentenmischung aufgegriffen mit dem Ziel, eine optimalereRepräsentation von Vektoren durch ein EM-Vorgehen zu erreichen. Dabei wird es erforder-lich sein, eine Optimierungsfunktion mit Einschränkung zu definieren. Diese Nebenbedin-gung muss erst mit der Funktion verknüft werden, bevor das Optimum berechnet werdenkann. Das Verbinden von Nebenbedingungen mit einer Funktion leistet der Lagrange-Multiplikator.


Kapitel 3

Verfahren

In diesem Kapitel wird die allgemeine Struktur eines Gesichtserkennungssystems vorge-stellt. Darauf folgt eine Einführung in das Grundkonzept von Unterraumverfahren. Diesbeeinhaltet auch die Beschreibung des Nächste-Nachbarn-Klassifikators und einiger ver-wendbarer Distanzmaße. Anschließend werden die drei Unterraumverfahren Hauptkom-ponentenanalyse (PCA), Lineare Diskriminanzanalyse (LDA) und Hauptkomponentenmi-schung (MPC) im Kontext der Gesichtserkennung detailliert beschrieben.

3.1 Allgemeines Gesichtserkennungssystem

Abbildung 3.1: Grundaufbau eines Gesichtserkennungssystems.

Das grundlegende Schema eines Gesichtserkennungssystems ist in Abbildung 3.1 darge-stellt. Unter der Annahme, dass eine aus bekannten Gesichtsbildern bestehende Datenbankbereits erstellt wurde, die als Referenz für wiederzuerkennende Gesichter dient, besteht dasgrundlegende Schema eines Gesichtserkennungssystems aus drei Komponenten: der Auf-nahme des Gesichtsbilds, der Normalisierung des Bilds sowie dessen Klassifizierung.

Der erste Schritt liegt darin, ein Gesichtsbild zu beschaffen, das aus der Datenbankwiedererkannt werden soll. Das Bild kann zum Beispiel eine Foto- oder Videoaufnahmesein.

Da das aufgenommene Bild neben dem Gesicht auch andere Dinge enthalten kann undBilder nicht immer unter optimalen Bedingungen aufgenommen werden, muss das Bildnormalisiert werden. Dies beinhaltet unter anderem das Lokalisieren der Gesichtspositionim gesamten Bild, das Ausschneiden und das anschließende Skalieren sowie ein eventuelles

23

24 KAPITEL 3. VERFAHREN

Rotieren des Gesichts. Die konkrete Prozedur zur Normalisierung der Bilder bei unserenExperimenten wird in Kapitel 4.2 erklärt.

Im dritten und letzten Schritt erfolgt die Klassifizierung des normalisierten Bildes.Hierbei entscheidet der Klassifikator, welcher Person in der Datenbank dieses Gesichtsbildzuzuordnen ist oder, ob es sich um eine unbekannte Person handelt.

Abbildung 3.2: Einige Gesichtsbilder der verwendeten Trainingsmenge (aus [FER12]).

Bevor ein Gesichtserkennungssystem tatsächlich in Betrieb genommen werden kann,muss in der sogenannten Trainingsphase das Verfahren initialisiert werden. Diesem Trai-ning liegt eine Datenbank von bekannten Gesichtern zugrunde, aus denen ein VerfahrenInformationen extrahiert, die für das spätere Erkennen unbekannter Gesichter hilfreichsein könnten. Ein Einblick in einige Gesichtsbilder der Datenbank, die bei unseren Ex-perimenten verwendet wird, gibt Abbildung 3.2. Nach dem Training werden unbekanntePersonen dann aus der Datenbank identifiziert. Das Identifizieren wird im experimentellenZusammenhang auch als Testphase und die unbekannten Bilder als Testbilder bezeichnet.

3.1.1 Unterraumkonzept

Im Zusammenhang mit Unterraumverfahren wird ein Gesichtsbild als Vektor betrachtet.Bei einem Gesichtsbild handelt es sich um eine Pixelmatrix, die zu jeder Position imBild einen Pixelwert angibt. Um nun ein Bild als Vektor darzustellen, wird jede Zeile derPixelmatrix hintereinander zu einem Vektor hinzugefügt. Hatte das ursprüngliche Bildm × n Pixel, dann besteht der entsprechende Bildvektor aus m · n Einträgen. Mit derProjektion eines Bildes ist also immer die Projektion eines Bildvektors gemeint.

Die Idee von Unterraumverfahren zur Gesichtserkennung ist es, einen geeigneten Un-terraum zu bestimmen, in dem die Klassifikation stattfinden kann. Die Bestimmung desUnterraums findet vorab, noch vor der eigentlichen Gesichtserkennungsprozedur, im soge-nannten Training statt. Dabei werden Informationen aus der Datenbank von gegebenen,bekannten Gesichtern genutzt, um einen möglichst optimalen Unterraum zu berechnen.Optimal bedeutet, dass der Unterraum so aufgebaut ist, dass nach der Projektion in diesen

3.1. ALLGEMEINES GESICHTSERKENNUNGSSYSTEM 25

Raum möglichst viele Informationen zur Unterscheidung von Gesichtern erhalten bleibenund möglichst viel der nebensächlichen Information verloren geht. Ist der Unterraum ein-mal bestimmt, kann der tatsächliche Prozess der Gesichtserkennung stattfinden. Dazu wirddas Bild in den Unterraum projiziert und anschließend vom Klassifikator der jeweiligenPerson zugeordnet.

Die Vorteile von Unterraumverfahren sind:

• Der Unterraum wird so bestimmt, dass die Klassifikation begünstigt wird.

• Nach der Projektion in den Unterraum sind die Gesichtsbilder durch kompakte Vek-toren repräsentiert. Das führt zu einem geringeren Rechenaufwand bei der Klassifi-kation.

• Es wird ein geringerer Speicherplatzbedarf benötigt, da die Bilder der Datenbanknicht in ihren Ursprungsbildgrößen gespeichert werden müssen, sondern nur ihreProjektionen.

Die Nachteile hingegen sind:

• Durch die Dimensionsreduktion bei der Projektion in einen Unterraum gehen Bild-informationen verloren, die nicht fehlerlos wiederhergestellt werden können.

• Die Berechnung des Unterraums benötigt zusätzlichen Rechenaufwand, der je nachVerfahren sehr hoch sein kann. Jedoch kann diese Berechnung problemlos vor derInbetriebnahme des Gesichtserkennungssystems stattfinden und zum Beispiel beiStehzeiten des Systems wiederholt werden.

3.1.2 Klassifikator

Bei unterraumbasierten Gesichtserkennungsverfahren kann ein Bild aus m×n Pixel als einmn-dimensionaler Vektor oder als ein Punkt in einem mn-dimensionalen Raum aufgefasstwerden. Ein solcher Vektor enthält dann alle Informationen eines Gesichtsbildes und wirdGesichtsvektor genannt. Bei unseren Verfahren wird jeder Vektor eines Gesichtsbildes ineinen Unterraum projiziert, sodass Projektionen entstehen, die zu den jeweiligen Gesich-tern gehören. Um eine unbekannte Person zu identifizieren, wird ihr Gesichtsvektor inden Unterraum projiziert und mit dem Nächste-Nachbarn-Klassifikator einer der bekann-ten Projektionen zugeordnet. Der Nächste-Nachbarn-Klassifikator ordnet einem Vektoreinen anderen Vektor zu, der den geringsten Abstand zu ihm hat. Mit der Annahme, dassein kleiner Abstand zweier Projektionen auf zwei ähnliche Bilder schließen lässt, werdenbei den später vorgestellten Unterraumverfahren nach diesem Schema Gesichter Personenzugeordnen.


3.1.3 Distanzmetriken

Distanzmaße verden verwendet, um den Abstand zwischen zwei Vektoren - in unserem Fallalso den Unterschied zwischen zwei Gesichtsbildern - zu berechnen. Im Folgenden werdeneinige Distanzmaße vorgestellt, die sich in der Gesichtserkennung etabliert haben und oftin Verbindung mit Unterraumverfahren verwendet werden.

Seien u und v zwei P -dimensionale Vektoren, für die die Distanz zueinander berechnetwerden soll, dann sind die Distanzfunktionen wie folgt definiert (vgl. [ML09]):

1. L2-Norm (euklidische Distanz):

DL2(u,v) =

√√√√ P∑i=1

(ui − vi)2 (3.1)

Die L2-Norm ist ein weitverbreitetes Abstandsmaß. Dabei wird die Wurzel der quadriertenDifferenzen betrachtet. Fasst man zwei Vektoren als Punkte im mehrdimensionalen Raumauf, dann entspricht die euklidische Distanz der Länge der direkten Verbindung zwischenden beiden Punkten.

2. L1-Norm (Manhattan-Distanz):

DL1(u,v) =P∑i=1|ui − vi| (3.2)

Bei der L1-Norm wird die Distanz zweier Vektoren als Summe der absoluten Differenzender Komponenten berechnet. Das entspricht einer blockweisen Verbindung in Richtungder Koordinatenachsen.

3. Kosinusdistanz:

DKosinus(u,v) = 1− uv

|u||v|= 1−

∑Pi=1 uivi√∑P

i=1 u2i

√∑Pi=1 v

2i

(3.3)

Die Kosinusdistanz ist von dem Kosinus-Ähnlichkeitsmaß abgeleitet, welches den Kosinusdes Winkel zwischen zwei Vektoren berechnet. Dieses ist ein Indikator dafür, wie ähnlichsich die beiden Richtungen der beiden Vektoren sind. Damit nun die Kosinusdistanzfunk-tion für zwei Vektoren, die in die gleiche Richtung zeigen, einen minimalen Distanzwertausgibt, wird das Ergebnis der Kosinusähnlichkeitsfunktion durch Subtraktion von einsnormiert (vgl. z.B. [WYB02]).

Für die folgenden Distanzmaße werden die Vektoren u und v in den Mahalanobis-Raum projiziert. Im Mahalanobis-Raum besitzt jede Dimension eine Varianz von Eins (vgl.[ML09]). Dadurch wird jede Dimension beim Messen der Distanz gleichwertig behandelt.Um einen Vektor in den Mahalanobis-Raum zu transformieren, wird zu jeder Dimensionihre Varianz benötigt. Diese ist bei unseren Verfahren durch die Eigenwerte bekannt.Die Varianz von Dimension i bezeichnen wir also mit

√λi. Die Transformation jedes

Vektoreintrags ui und vi ist damit mi = ui√λi

sowie ni = vi√λi. Nachdem Vektoren u

3.2. HAUPTKOMPONENTENANALYSE 27

und v auf diese Weise zu Vektoren m und n transformiert wurden, können die oberenDistanzfunktion angewendet werden.

4. Mahalanobis-L2

DMahL2(m,n) =

√√√√ P∑i=1

(mi − ni)2 (3.4)

5. Mahalanobis-L1

DMahL1(m,n) =P∑i=1|mi − ni| (3.5)

6. Mahalanobis-Kosinus

DMahKosinus(m,n) = mn

|m||n|(3.6)

Die letzten drei Distanzmaße sind jeweils Kombinationen des Mahalanobis-Raums mit derL2-Norm, der L1-Norm oder der Kosinusdistanz.

Diese sechs Distanzmaße werden für den Nächste-Nachbarn-Klassifikator zur Berech-nung der Abstände zwischen Projektionen benötigt. In den Experimenten in Kapitel 4werden die sechs vorgestellten Distanzmaße analysiert.

3.2 Hauptkomponentenanalyse

Das erste Verfahren zur Gesichtserkennung, welches in diesem Kapitel vorgestellt wird,ist das Eigenfaces-Verfahren nach [TP91b]. Es basiert auf der Hauptkomponentenanalyse(Principal Component Analysis, PCA) und gilt als erstes wirklich erfolgereiches Gesichts-erkennungsverfahren. Die Idee der Gesichtserkennung mit der PCA ist es, einen Unterraumzu bestimmen, bei dem nach der Projektion die meißte Information des Gesichtsvektorserhalten bleibt. Anschließend wird der Abstand des projizierten Gesichts zu bekannten,bereits projizierten Gesichtern verglichen.

3.2.1 Prinzip

Generell wird die PCA mit dem Ziel der Dekorrelation von Daten und der Dimensionsre-duktion verwendet (vgl. [Fin03], S. 141ff). Dazu wird zu den Daten die Streuungsmatrixgebildet, wodurch Korrelationen zwischen den Dimensionen der Daten bekannt werden(vgl. Kapitel 2.2.1). Dann werden Eigenvektoren der Streuungsmatrix berechnet, die einenVektorraum bilden, bei dem im Vergleich zum ursprünglichen Raum die projizierten Datenso verteilt sind, dass ihre Streuungsmatrix in Diagonalform vorliegt. Die Diagonalmatrixenthält für jede Dimension Angaben zur Varianz der Daten (vgl. Kapitel 2.1.3).

In Abbildung 3.3 ist die Dekorrelation der Punktwolke von Abbildung 2.1 (links) ausKapitel 2.2.1 dargestellt. Erkennbar ist eine Translation des Koordinatensystems zumZentrum der Punktwolke und eine anschließende Rotation des Koordinatensystem. Das


Abbildung 3.3: Beispiel einer durch die PCA dekorrelierten Punktwolke im zweidimensionalenRaum mit Achsen X und Y .

Ergebnis ist eine Ausrichtung der Koordinatenachsen in Richtung der Streuung. Der Di-mensionsreduktionsschritt bei der PCA wird durchgeführt, indem Achsen zur geringstenStreuung der Daten entfernt werden. Mit so einer Dimensionsreduktion wird ein minimalerInformationsverlust der Daten erreicht.

Die Idee der PCA wird bei dem Eigenfaces-Verfahren aufgegriffen. Zunächst werdendie bekannten Gesichtsbilder, die Trainingsbilder, als Gesichtsvektoren repräsentiert (vgl.Kapitel 3.1.2). Durch anschließende Berechnung der Streuungsmatrix zu den Vektoren wirdihre Streuung bekannt, sodass die aus der Streuungsmatrix berechneten Eigenvektorenund Eigenwerte nun Informationen über die Gesichtsbilder enthalten, genauer über dieVerteilung der Pixel und über die Variationen in jedem Bildbereich. Insbesondere verläuftder Eigenvektor zum größten Eigenwert in Richtung der größten Varianz der Bildern. Diegrundlegende Annahme des Verfahrens ist es, dass die Dimension mit der größten Varianz- also der Eigenvektor mit dem größten Eigenwert - am charakteristischsten für Gesichterist und daher am meißten Information zur Unterscheidung von Gesichtern enthält (vgl.[TP91a]).

Diese Annahme wird bei der Wahl des Unterraums ausgenutzt. Eigenfaces werden nachihrer Berechnung absteigend nach ihren Eigenwerten geordnet. Die ersten P Eigenfaces zuden größten Eigenwerten spannen einen P -dimensionalen Vektorraum auf, der Eigenraumoder auch Gesichtsraum genannt wird (vgl. [TP91a]). In diesem Unterraum wird jedes


Gesichtsbild als Linearkombination der Eigenfaces dargestellt. Indem zur Dimensionsre-duktion Eigenvektoren zu den kleinsten Eigenwerten entfernt werden, erreicht man einenim Durchschnitt minimalen Rekonstruktionsfehler der Gesichter. Als Rekonstruktionsfeh-ler eines Vektors wird der euklidische Abstand zwischen dem ursprünglichen Vektor undseiner Rückprojektion aus einem Unterraum bezeichnet. Mit einer Dimensionsreduktion,bei der Achsen mit den geringsten Varianzanteilen entfernt werden, wird der Projektions-fehler der Daten minimiert.

Die Initialisierungsschritte des PCA-Verfahrens können wie folgt zusammengefasst wer-den:

• Erstellen einer Datenbank von bekannten Gesichtern (Trainingsbilder).

• Berechnung der Eigenfaces und Bildung des P -dimensionalen Gesichtsraums aus denersten P Eigenfaces.

• Projektion jedes Bildes aus der Gesichtsdatenbank in den Gesichtsraum.

Zum Klassifizieren eines unbekannten Gesichts müssen nur noch zwei Schritte ausge-führt werden:

• Projektion des unbekannten Gesichtsbilds in den Gesichtsraum.

• Klassifikation der Projektion mit dem Nächste-Nachbarn-Klassifikator.

Abbildung 3.4: Veranschaulichung der Klassifikation eines unbekannten Gesichts aus einer Da-tenbank von drei Personen in einem zweidimensionalen Gesichtsraums (nach [TP91b]). Die Pro-jektionen der bekannten Gesichter (P1, P2 und P3) sind als schwarze Punkte und die Projektiondes unbekannten Gesichts als blauer Stern abgebildet. Der Unterraum wird von zwei Eigenfacesu1 und u2 aufgespannt.

Zur Verdeutlichung des Eigenface-Verfahrens dient Abbildung 3.4. Dargestellt ist einGesichtsraum, in den drei Gesichter von bekannten Personen projiziert wurden. Soll nun


ein unbekanntes Gesicht klassifiziert werden, wird es ebenfalls in den Gesichtsraum abge-bildet. Anschließend kann anhand der Distanz dieser Projektion zu anderen Projektionenentschieden werden, welcher Person das unbekannte Gesichtsbild zuzuordnen ist. In derAbbildung würde der Klassifikator das unbekannte Gesicht Person P2 zuweisen, da dieProjektion des unbekannten Gesichts die kleinste Distanz zur Projektion von P2 hat.

3.2.2 Eigenfaces

In diesem Abschnitt wird die Berechnung der Eigenfaces nach [TP91a] erklärt.Sei die Trainingsmenge gegeben durch x1, ...,xN . Jeder der N Gesichtsvektoren besitzt

D Dimensionen. Der durchschnittliche Gesichtsvektor zur Trainingsmenge ist:

m = 1N

N∑i=1xi. (3.7)

Das wird verwendet, um die Trainingsbilder im Koordinatensystem zu zentrieren (Transla-tionsschritt). Matrix A enthält die zentrierten Bilder als Spaltenvektoren. Die Zentrierungjedes Trainingsvektors xi erfolgt durch:

ai = xi −m , für alle i = 1..N . (3.8)

Das Durchschnittsgesicht zu der Trainingsmenge, die bei den späteren Experimenten ver-wendet wird, ist in Abbildung 3.5 dargestellt. Zu erkennen ist eine partielle Unschärfedes Gesichts. Das liegt daran, dass das Durchschnittsgesicht aus verschiedenen Gesichternbesteht. Besonders am Mundbereich des Durchschnittsgesichts ist zu erkennen, dass dieTrainingsbilder unterschiedliche Gesichtausdrücke haben.

Abbildung 3.5: Das durch-schnittliche Gesicht zur verwen-deten Trainingsmenge.

Als Nächstes kann die Streuungsmatrix berechnet wer-den:

C = 1N

N∑i=1aia

Ti = AAT . (3.9)

Bei einer Bildauflösung von 150 × 130 Pixel, ist C eine19500× 19500-Matrix (D×D). Das bedeutet, aus C kön-nen potenziell D Eigenvektoren gewonnen werden, was beigroßem D aufwändig sein kann. Ist jedoch die Anzahl derTrainingsvektoren, die in die Berechnung vonC einfließen,kleiner als die Dimension der Vektoren, falls also N < D gilt, dann können nach [TP91a]aus C nur N − 1 Eigenvektoren berechnet werden, deren Eigenwert größer Null ist. Ausdiesem Grund ist es nicht erforderlich C direkt zu berechnen.

Stattdessen werden die Eigenvektoren zur Matrix

C′ = ATA (3.10)


berechnet. Es besteht nämlich zwischen Eigenvektoren ui von C und Eigenvektoren vi vonC ′ für i = 1..N folgender Zusammenhang (siehe dazu auch Definition des Eigenwertpro-blems in Kapitel 2.1.2):

C′vi = λivi ⇐⇒ AATA︸︷︷︸=C′

vi = Aλivi ⇐⇒ AAT︸︷︷︸=C

Avi = λiAvi. (3.11)

An der letzten Gleichung ist erkennbar, dass die Eigenvektoren von C dem Produkt Avientsprechen, also ist für alle i = 1..N

ui = Avi. (3.12)

Auf diese Weise können indirekt N Eigenvektoren ui zu den größten Eigenwerten von Cberechnet werden, von denen höchstens N −1 einen Eigenwert von ungleich Null besitzen.Diese Eigenvektoren sind die Eigenfaces des Gesichtsraums.

3.2.3 Projektion

In Kapitel 3.2.2 wurde erklärt, wie Eigenfaces für den Unterraum berechnet werden. DiesesKapitel setzt sich mit der Projektion von Gesichtern mit Hilfe von Eigenfaces auseinander.

Soll der Gesichtsraum P Dimensionen haben, dann sortiert man die berechneten Ei-genfaces ui absteigend nach ihren Eigenwerten und behält die P ersten. Aus diesen P Ei-genfaces wird jetzt eine Transformationsmatrix U definiert, mit der jedes D-dimensionaleBild in den Gesichtsraum projiziert werden kann. Die Transformationsmatrix U ist eineP ×D-Matrix, die die Vektoren ui als Zeilen enthält. Um dann ein Gesicht als Vektor xin den Unterraum zu projizieren, wird es durch Subtraktion des Durchschnittvektors mzentriert und dann durch Transformation mit U (vgl. Kapitel 2.1.1) in den Gesichtsraumprojiziert:

z = U(x−m). (3.13)

Fünf Eigenfaces zu den größten Eigenwerten sind in Abbildung 3.6 visualisiert. Sie be-schreiben die größten Variationen innerhalb der Trainingsbilder. Beispielsweise trägt daszweite Eigenface (v. links) zur Rekonstruktion von hellen Bildern bei, das dritte Eigen-face charakterisiert lächelnde Personen und das vierte sowie fünfte Eigenface beschreibenGesichtsbehaarungen. Im Unterschied dazu charakterisieren die unwichtigsten Eigenfacesnur unwesentliche Details der Trainingsbilder. Fünf der Eigenfaces zu den kleinsten Ei-genwerten sind in Abbildung 3.7 abgebildet.

Ist ein unbekanntes Gesicht als Vektor in den Unterraum projiziert worden, dann ord-net der Nächste-Nachbarn-Klassifikator es einer Person aus der Datenbank zu (vgl. Kapitel3.1.2). Die Person, dessen Gesichtsprojektion den geringsten Abstand zur Projektion desgesuchten Gesichts hat, ist der gesuchten Person am ähnlichsten und folglich auch unterallen bekannten Personen am wahrscheinlichsten die gesuchte Person.


Abbildung 3.6: Die wichtigsten fünf Eigenfaces eines Gesichtsraums.

Abbildung 3.7: Die unwichtigsten fünf Eigenfaces eines Gesichtsraums.

Außerdem kann eine Rückweisung von Bildern realisiert werden, auf denen kein Ge-sicht abgebildet ist. Dazu wird der Rekonstruktionsfehler des Bildes betrachtet, ist dieserzu groß (es muss zuvor eine Grenze definiert werden), dann konnte das Bild nicht gut mitEigenfaces repräsentiert werden. In so einem Fall handelt es sich bei dem Bild wahrschein-lich um kein Gesicht und das Verfahren kann entsprechend reagieren.

3.3 Lineare Diskriminanzanalyse

Das zweite Gesichtserkennungsverfahren, das wir im Rahmen dieser Arbeit kennenlernen,ist die lineare Diskriminanzanalyse (Linear Discriminant Analysis, LDA). Die LDA ist alsFishers Diskriminanzanalyse auf R. A. Fisher zurückzuführen und wird deshalb im Kontextder Gesichtserkennung oft auch als Fisherfaces-Technik bezeichnet (vgl. [BHK97]).

3.3.1 Prinzip

Die LDA ist ein klassenbasiertes Verfahren, bei dem mehrere Gesichter einer Person alsKlasse aufgefasst werden. Ziel der LDA ist es Diskriminanzkomponenten zu finden, die esam besten erlauben zwischen verschiedenen Klassen zu unterscheiden. Wie in Abbildung3.8 erkennbar, ist die Grundidee des Verfahrens, den Unterraum so zu wählen, dass beider Projektion der Bilder die Streuung zwischen den Klassen (Interklassenstreuung) ma-ximiert und gleichzeitig die Streuung innerhalb jeder Klasse (Intraklassenstreuung) mini-miert wird. Dadurch wird im Unterraum die Unterscheidbarkeit der projizierten Gesichterverschiedener Personen erleichtert.

Bei der LDA wird eine Eigenwertaufgabe formuliert mit dem Ziel, einen Unterraumzu bestimmen, der die beiden oben genannten Eigenschaften erfüllt. Die Lösung der Ei-genwertaufgabe liefert dann Eigenvektoren, die den gewünschten Unterraum aufspannen.

3.3. LINEARE DISKRIMINANZANALYSE 33

Abbildung 3.8: Trennung von Klassen bei der LDA. Dargestellt ist ein Unterraum aus zweiEigenvektoren u1 und u2. Es sind jeweils drei Projektionen (Punkte) von unterschiedlichen Ge-sichtsbildern zu zwei Personen P1 und P2 vorhanden.

Im Zusammenhang mit Gesichtserkennung werden Eigenvektoren der LDA (mit Bezug zuden Eigenfaces) oft auch als Fisherfaces bezeichnet (vgl. z.B. [BHK97]).

3.3.2 Direkte Fisherfaces

Im Folgenden erklären wir, wie man bei der Berechnung von Fisherfaces vorgehen kann,um eine Minimierung der Interklassenstreuung sowie eine Maximierung der Intraklassen-streuung der Trainingsbilder im Unterraum zu erreichen. Wir orientieren uns am Vorgehennach [Fin03] (S. 147ff), [Fin12] (S. 51f), [Bev01], [DHS01] (S. 117ff) sowie nach der Origi-nalliteratur zu Fisherfaces in [EC96].

Für die LDA ist eine annotierte Trainingsmenge erforderlich, in der jedes Gesichtsbildeiner Klasse zugeordnet ist. Sei jedes Gesichtsbild als ein D-dimensionaler Vektor gegebenund die Trainingsmenge in K Klassen aufgeteilt. Die gesamte Trainingsmenge x1, ...,xNist dann eine Vereinigung aus K Teilmengen, also

Ω =K⋃i=1

Ωi. (3.14)

Das Durchschnittsgesicht jeder Klasse i ist

mi = 1|Ωi|

∑x∈Ωi

x (3.15)

und das Durchschnittsgesicht der gesamten Trainingsmenge ist

m = 1N

∑x∈Ω

x. (3.16)


Für jede Klasse i kann ihre a-priori Wahrscheinlichkeit bestimmt werden mit:

pi = |Ωi||Ω| . (3.17)

Die a-priori Wahrscheinlichkeiten braucht man für eine unterschiedliche Gewichtung derStreuungswerte jeder Klasse. Um die Streuung innerhalb jedes Klassengebiets zu be-schreiben, wird die Intraklassenstreuungsmatrix (within-class-scatter) SW berechnet (vgl.[BHK97]):

SW =K∑i=1

∑x∈Ωi

(x−mi)(x−mi)T . (3.18)

Dies ist die Summe der Streuungen innerhalb jeder Klasse. Streuungsangaben zwischenden Klassengebieten beschreibt man mit der Interklassenstreuungsmatrix (between-class-scatter) SB, wie in [BHK97] als gewichtete Streuungsmatrix der Durchschnittsvektorenjeder Klasse:

SB =K∑i=1

pi(mi −m)(mi −m)T . (3.19)

Das Ziel ist eine minimale Intraklassenstreuung und eine maximale Interklassenstreu-ung. Damit beide Eigenschaften für den Unterraum gelten muss also die Funktion

J(U) = |UTSBU |

|UTSWU |(3.20)

maximiert werden. Eigenvektormatrix U , die diese Funktion maximiert, kann durch Lö-sung des Eigenwertproblems für Matrix S−1

W SB bestimmt werden (vgl. [DHS01], S. 117ff).Die gesuchten Fisherfaces sind dann Spaltenvektoren von Matrix U und die entsprechen-den Eigenwerte die Einträge an der Hauptdiagonalen der Diagonalmatrix Λ zum Problem:

S−1W SBU = UΛ. (3.21)

Um dieses Eigenwertproblem zu lösen, muss SW invertiert werden. Bei einer Anzahl von NTrainingsvektoren mit jeweils Dimension D ist SW singulär und somit nicht invertierbar,falls N ≤ D gilt (vgl. [DHS01], 117ff). Da in der Gesichtserkennung die Anzahl der Trai-ningsvektoren fast immer geringer ist als die Anzahl der Pixel, ist es im Allgemeinen nichtmöglich SW zu invertieren und das Eigenwertproblem aus Gleichung 3.21 direkt zu lösen.Allerdings gibt es eine Alternativlösung, die ohne eine Matrixinvertierung auskommt unddie gleichen Eigenvektoren liefert.

3.3.3 Indirekte Fisherfaces

In diesem Abschnitt wird beschrieben, wie die Matrixinvertierung bei dem Eigenwert-problem aus Gleichung 3.21 umgangen werden kann. Durchgeführt wird ein zweistufigesVorgehen (vgl. [Fin03], S. 147ff).

3.3. LINEARE DISKRIMINANZANALYSE 35

Im ersten Schritt wird Matrix SW auf Einheitsform gebracht, damit sie durch weitereTransformationen nicht verändert wird. Dazu berechnet man aus dem Eigenwertproblem

SWV = V Λ (3.22)

Eigenvektormatrix V und Eigenwertematrix Λ von SW .Aus der Eigenwertematrix Λ wird dann Matrix Λ−

12 wie folgt berechnet:

Λ−12 =

λ− 1

21 0 · · · 0

0 λ− 1

22 · · · 0

...... . . . ...

0 0 · · · λ− 1

2D

. (3.23)

Transformiert man nun die Trainingsdaten mit Λ−12V T , erhält man als neue Intraklas-

senstreuungsmatrix:SW = Λ−

12V TSWV Λ−

12 = E. (3.24)

Matrix SW ist also eine Einheitsmatrix. Das bedeutet, die Klassengebiete weisen eineStreuung von Eins auf und SW wird die durch weitere (orthogonale) Transformationender Daten nicht beeinflußt.

Durch die erste Transformation der Daten zur Normierung der Intraklassenstreuung(s. Gleichung 3.24) hat sich die Interklassenstreuungsmatrix SB geändert und ist jetzt:

SB = Λ−12V TSBV Λ−

12 . (3.25)

Das Lösen des Eigenwertproblems für SB liefert die Eigenvektormatrix V . Die Transfor-mation mit V ist der zweite Schritt des Verfahrens. Beide Transformationen können ineiner Transformationsmatrix U = V TΛ−

12V T zusammengefasst werden. Diese enthält die

gesuchten Fisherfaces als Spaltenvektoren.

3.3.4 PCA+LDA

Das LDA-Verfahren ist in der Praxis nicht immer direkt umsetzbar, da mehrere großeMatrizen berechnet werden müssen. Das ist nicht besonders effizient und die Arbeit von[ZCK98] hat außerdem ergeben, dass die Durchführung der LDA auf einer Datenmenge,die mit der PCA dekorreliert wurde, zu besseren Ergebnissen führt als die reine LDA. Beiso einem Vorgehen werden zuerst die Eigenfaces aus der PCA für die ursprünglichen Bilderberechnet und anschließend werden die Fisherfaces zu der mit den Eigenfaces projizier-ten Datenmenge berechnet. Zur Klassifikation kombiniert man dann beide Transforma-tionen. Dieses hybride Verfahren aus PCA und LDA wird oft als PCA+LDA bezeichnet(vgl. z.B. [ZCP99]). Die Funktionsweise der PCA+LDA ist in Abbildung 3.9 schemati-siert. Ein Bild wird erst mit der PCA und danach mit der LDA transformiert, bevor es


Abbildung 3.9: Schema des PCA+LDA-Vorgehens.

abschließend klassifiziert wird. Die Klassifikation projizierter Bilder wird dabei mit demNächste-Nachbarn-Klassifikation durchgeführt, wie in Kapitel 3.1.2 beschrieben. Bei denExperimente in Kapitel 4 wird eine Implementierung der PCA+LDA-Methode verwendet.

In Abbildung 3.10 sind fünf Fisherfaces zu den größten Eigenwerten eines durchgeführ-ten PCA+LDA-Verfahrens zu sehen. Fisherfaces der PCA+LDA erlauben eine bessereUnterscheidung zwischen Gesichtsbildern verschiedener Personen als die Fisherfaces derreinen LDA, da sie eine auf Gesichter spezialisierte Verallgemeinerung der LDA-Fisherfacessind (die Darstellung der reinen LDA-Fisherfaces ähnelt Gesichtern kaum) (vgl. [ZCP99]).Außerdem sind in Abbildung 3.10 aufgrund der Vollständigkeit fünf Fisherfaces zu denkleinsten Eigenwerten der PCA+LDA abgebildet. Im Allgemeinen können keine Aussagendarüber gemacht, welchen Bereich des Bildes ein Fisherface repräsentiert.

Abbildung 3.10: Die wichtigsten fünf Fisherfaces bei einer PCA+LDA.

Abbildung 3.11: Die unwichtigsten fünf Fisherfaces bei einer PCA+LDA.

3.4 Hauptkomponentenmischung

Die Hauptkomponentenmischung (Mixture of Principal Components, MPC) ist das drittein dieser Arbeit betrachtete Verfahren. Es wurde ursprünglich in [TC02b] mit dem Zweckder Fehlerverdeckung in Videoübertragungen vorgestellt. Daraufhin erprobten die Autorendie MPC in [TC02a] als Verfahren zur Gesichtserkennung und berichteten auf der PIE-Datenbank bessere Erkennungsraten mit der MPC als mit der PCA.

3.4. HAUPTKOMPONENTENMISCHUNG 37

3.4.1 Modell

Die MPC ist eine lineare Erweiterung der PCA, die mehrere PCA-Unterräume in einemModell kombiniert. In Kapitel 2.2.2 wurde erklärt, dass Daten, die sich auf mehrere Häu-fungsgebiete verteilen, mit einer Mischverteilung besser modelliert werden können als miteiner einzelnen Normalverteilung. Analog zu der Erstellung eines Mischverteilungsmodellsdurch eine Kombination mehrerer Normalverteilungen, ist die Idee der MPC, mehrerePCA-Unterräume in einem Modell zu vereinen. Dadurch sollen Gesichtsvariationen genau-er repräsentiert werden können. Statt sich wie bei der einfachen PCA für eine Reihenfolgevon wichtigsten Hauptkomponenten zu entscheiden, werden bei der MPC zu verschiedenenGesichtseigenschaften jeweils Hauptkomponenten bestimmt, die für eine optimalere Reprä-sentation von Gesichtsbildern kombiniert werden. Ziel dabei ist es, den durchschnittlichenRekonstruktionsfehler (s. Kapitel 3.2.1) der Gesichtsbilder zu minimieren.

Durchschnittsgesicht Eigenvektoren

M1

M2

M3

M4

Abbildung 3.12: Parameter zu vier Mischungskomponenten eines fertigen MPC-Modells. Abge-bildet sind Mittelvektoren und Eigenvektoren zu Mischungskomponenten M1, ...,M4.

Abbildung 3.12 verdeutlicht, wie einzelne Mischungskomponenten verschiedene Eigen-schaften von Gesichtern speichern. Zu jeder der vier Mischungskomponenten ist jeweils derMittelvektor und vier Eigenvektoren dargestellt. Zu erkennen ist, dass Mischungskompo-nente M1 sich auf eher dunkelhäutige und M2 auf Brillen tragende Personen spezialisierthaben, während M3 Personen mit Bart und M4 lächelnde Personen repräsentieren.

Die MPC ist ein EM-Algorithmus und führt eine ”weiche Vektorquantisierung” durch(vgl. Kapitel 2.3.2). Dadurch fließt jeder Unterraum des MPC-Modells in die Repräsenta-


tion eines Gesichts mit ein. So wie beim Schätzen von Mischverteilungen mit einem Vek-torquantisierungsalgorithmus (”harte Vektorquantisierung”) und einem EM-Algorithmus,der EM-Algorithmus zu einem genaueren Modell führt, hofft man bei der MPC ebensodurch ein EM-Vorgehen bessere Resultate zu erzielen.

Das MPC-Modell besteht aus mehreren Mischungskomponenten. Jede Mischungskom-ponente spannt einen PCA-Unterraum auf, der jeweils durch eine Eigenvektormatrix undeinen Mittelvektor definiert ist. Da die MPC mehrere PCA-Unterräume kombiniert, würdeein MPC-Modell bestehend aus einer Mischungskomponente einer gewöhnlichen PCA ent-sprechen. Beim Training wird zu jedem Trainingsvektor für jede Mischungskomponente einGewicht berechnet, das angibt, wie stark eine Mischungskomponente zur Rekonstruktiondieses Vektors beiträgt.

Abbildung 3.13: Schema für das Training eines MPC-Modells (nach [TC02b]).

Im Expectation-Schritt des iterativen EM-Algorithmus werden die Gewichte und derRekonstruktionsfehler berechnet. Im Maximization-Schritt wird dann der Rekonstrukti-onsfehler durch Neuberechnung der Mittelvektoren und Eigenvektoren zu jeder Mischungs-komponente minimiert. Das Vorgehen zum Bestimmen der Parameter (Training) für dasMPC-Modell ist in Abbildung 3.13 dargestellt. Zu Beginn werden die Modellparameter(z.B. zufällig oder mit Ergebnissen eines Vektorquantisierungsverfahrens) initialisiert.Anschließend folgen iterativ die EM-Schritte:

• Berechnung der neuen Gewichte für jeden Vektor zu jeder Mischungskomponente.


• Berechnung der neuen Mittelwertvektoren zu jeder Mischungskomponente.

• Berechnung der neuen Eigenvektoren zu jeder Mischungskomponente.

Diese drei Schritte werden wiederholt, bis keine wesentliche Änderung der Modellparame-ter (Mittelvektoren und Eigenvektoren jeder Komponente) mehr festgestellt wird, d.h. biskeine Reduzierung des Rekonstruktionsfehlers mehr erzielt wird. Die Parameter der MPCsind die Eigenvektoren und die Mittelvektoren zu jeder Komponente. Die Gewichte sindkein Teil des eigentlichen Modells, sie dienen nur als Hilfe zur Berechnung der tatsächlichenModellparameter.

3.4.2 Optimierungsproblem

In diesem Abschnitt wird das Optimierungskriterium der MPC definiert. Mit dem Zieldieses Kriterium zu optimieren werden in den darauf folgenden Abschnitten die Modell-parameter der MPC berechnet.

Seien die Trainingsbilder x1, ...,xN D-dimensionale Bildvektoren. Das MPC-Modellsoll ausM Mischungskomponenten mit jeweils P Eigenvektoren bestehen. Zu Komponentej wird der Mittelvektor mitmj und die Eigenvektormatrix, die Eigenvektoren uj1, ...,ujPals Spalten enthält, mit Uj bezeichnet. Des Weiteren bezeichnet man das Gewicht zumVektor xi für Komponente j als wij .

Die Rekonstruktion eines Vektors xi zu Mischungskomponente j ist:

xij = mj +P∑k=1

[(xi −mj)T ujk

]ujk. (3.26)

Dies entspricht der Projektion des Vektors xi mit dem j-ten Komponentenraum und deranschließenden Rückprojektion. Der dabei entstehende Informationsverlust wird Rekon-struktionsfehler zu Komponente j genannt. Dieser Fehler ist die euklidische Distanz desOriginalvektors xi zu seiner Rückprojektion xij . Die Distanz von Vektor xi zur Summeseiner gewichteten Rekonstruktionen aus jeder Mischungskomponente ist dann:∣∣∣∣∣∣

∣∣∣∣∣∣xi −M∑j=1

wijxij

∣∣∣∣∣∣∣∣∣∣∣∣ =

∣∣∣∣∣∣xi − Xiwi

∣∣∣∣∣∣ . (3.27)

Die Rekonstruktionsmatrix Xi enthält als Spaltenvektoren die Rekonstruktionen xi1, ...,xiMzu den Mischungskomponenten. Im Gewichtsvektor wi sind Gewichte wi1, ...,wiM die Ein-träge. Das Ziel der MPC ist es, den durchschnittlichen Rekonstruktionsfehler für die ge-samte Trainingsmenge zu minimieren. Dies lässt sich als Optimierungsproblem wie folgtformulieren:

minmj ,ujk

= 1N

N∑i=1

∣∣∣∣∣∣∣∣∣∣∣

∣∣∣∣∣∣∣∣∣∣∣xi −

M∑j=1

wij

mj +P∑k=1

[(xi −mj)T ujk

]ujk︸︷︷︸

=xij

∣∣∣∣∣∣∣∣∣∣∣

∣∣∣∣∣∣∣∣∣∣∣. (3.28)


Mit Hilfe dieses Optimierungsproblems werden in Kapitel 3.4.4 die Modellparameterder MPC bestimmt.

3.4.3 Gewichte

In diesem Abschnitt wird die Berechnung der Gewichte erläutert, die für das MPC-Trainingbenötigt werden.

Für jeden Vektor xi muss der Gewichtsvektor so bestimmt werden, dass der Rekon-struktionsfehler (s. Formel 3.27) für xi minimiert wird. Dies lässt sich als Optimierungs-problem formulieren:

minwi

=∣∣∣∣∣∣xi − Xiwi

∣∣∣∣∣∣ . (3.29)

Für jeden Vektor xi müssen sich seine Gewichte zu Eins summieren. Diese Nebenbedingungwird mathematisch formuliert:

M∑j=1

wij = 1

⇐⇒

wTi 1− 1 = 0.

(3.30)

Dabei ist 1 ein M -dimensionaler Spaltenvektor mit Einsen als Einträgen. Diese Neben-bedingung integriert man nun mit Hilfe des Lagrange-Multiplikators (vgl. Kapitel 2.3.3)in das Optimierungsproblem 3.29 und erhält (die Wurzel der euklidischen Norm konnteentfernt werden, da dadurch das Optimierungsergebnis nicht beeinflußt wird):

minwi,λ

=[(xi − Xiwi

)T (xi − Xiwi

)+ λ

(wTi 1− 1

)]. (3.31)

Um das Minimum dieser Optimierungsfunktion zu bestimmen, wird die Funktion nachihren Veränderlichen wi und λ abgeleitet und die Ableitung gleich Null gesetzt. Dadurchentsteht das folgende lineare Gleichungssystem:

2XTi Xiwi − 2XT

i xi + λ1 = 0

1Twi = 1.(3.32)

Dieses ist offensichtlich äquivalent zur Matrixschreibweise:2XTi Xi 1

1T 0

wi

λ

=

2XTi xi

1

. (3.33)

Das lineare Gleichungssystem kann beispielsweise mit dem Gauß-Verfahren gelöst werden.Die Lösungen sind die gesuchten optimalen Gewichte, die für die gegebenen Parameterzum minimalsten Rekonstruktionsfehler führen.


3.4.4 Modellparameter

Jede Mischungskomponente der MPC ist definiert durch Eigenvektoren und einen Mittel-vektor. In diesem Abschnitt wird die Berechnung dieser Parameter beschrieben.

Die Optimierungsfunktion für die MPC wurde bereits in Gleichung 3.28 formuliert.Aus dem Nullsetzen der Ableitungen dieser Funktion folgt, dass der Mittelvektor zurMischungskomponente r sich ergibt durch (vgl. [TC02b]):

mr = 1∑Ni=1w

2ir

N∑i=1

wir

xi − M∑j=1,j 6=r

wijxij

(3.34)

Dies entspricht dem normierten, gewichteten Durchschnitt der Trainingsvektoren, von de-nen zuvor jeweils ihre gewichtete Summe der Rekonstruktionen subtrahiert wurde.

Zur Berechnung der Eigenvektoren von Mischungskomponente r wird das Optimie-rungsproblem in Gleichung 3.28 zum Eigenwertproblem

CrUr = ΛUr (3.35)

umgeformt, sodass Matrix Cr gegeben ist durch (vgl. [TC02b]):

Cr = 1N

N∑i=1

wir[(xi −mr)xTi + xi (xi −mr)T

]−∑Mj=1wijwir

[(xi −mr)mT

j +mj (xi −mr)T]

−∑Mj=1,j 6=r wijwir

∑Pk=1

[uTjk (xi −mj)

] [(xi −mr)uTjk + ujk (xi −mr)T

]−w2

ir (xi −mr) (xi −mr)T

.

(3.36)Die Lösung des Eigenwertproblems für Cr liefert Eigenvektormatrix Ur mit Eigenvektorenur1, ...,urD als Spaltenvektoren. Die P Eigenvektoren zu den größten Eigenwerten sinddann die gesuchten Eigenvektoren für Mischungskomponente r.

3.4.5 Merkmalsvektoren zur Klassifikation

Ist das MPC-Modell erstellt, kann mit der Klassifizierung unbekannter Gesichter begonnenwerden.

Zunächst soll verdeutlicht werden, dass die Entwickler der MPC ihr Verfahren aufeine etwas andere Weise zur Gesichtserkennung eingesetzt haben als wir es tun werden.Sie trainierten ein MPC-Modell pro Person (vgl. [TC02a]). Dadurch sollten variierendeAnsichten, Blickwinkel und Beleuchtungsstärken von Gesichtern einer Person in einemModell besser repräsentiert werden. Zur Klassifikation eines unbekannten Gesichts wurden


dann die Rekonstruktionsfehler jedes MPC-Modells betrachtet. Die Person zum MPC-Modell, für das das unbekannte Gesicht den geringsten Rekonstruktionsfehler aufweiste,war dann die unbekannte Person.

Für ihre Versuche verwendeten die Autoren der MPC eine Trainingsmenge von fünfPersonen mit jeweils 286 Bildern, unseren Experimenten in Kapitel 4 liegt jedoch eineTrainingsmenge von 501 Personen (mit einer geringen Anzahl von Bildern pro Person)zugrunde. Es wäre rechnerisch sehr aufwändig 501 MPC-Modelle zu erstellen und zu spei-chern, die außerdem auch nur wenige Bilder für ihr Training zur Verfügung hätten. Ausdiesem Grund trainieren wir ein einziges Modell für die gesamte Trainingsmenge und füh-ren ebenso eine alternative Klassifikation unbekannter Gesichter durch. Im Folgenden wirdbeschrieben, wie mit Hilfe eines fertigen MPC-Modells Merkmalsvektoren gebildet werden,an denen klassifiziert wird.

Ein unbekanntes Gesicht wird als Vektor y in jede Mischungskomponente j projiziert,indem y erst mit Mittelvektor mj zentriert und anschließend mit Eigenvektormatrix Ujtransformiert wird. Dadurch erhält man M Projektionsvektoren z1, ...,zM :

zj = UTj (y −mj) . (3.37)

Das Projizieren der Gesichter in jeden Unterraum ist in Abbildung 3.14 illustriert. Dar-gestellt sind zwei Unterräume, die jeweils drei Projektionen enthalten. Die Koeffizientender Projektionen sind für jede Mischungskomponente verschieden, da jeder Unterraum aufunterschiedliche Eigenschaften von Gesichtern trainiert ist.

Zum Schluß werden die Projektionen der Unterräume kombiniert, sodass ein einzelnerMerkmalsvektor z ensteht:

z =M∑j=1zj . (3.38)

Nach diesem Schema wird auch jeder Trainingsvektor als Merkmalsvektor repräsentiert,sodass jetzt mit dem Nächste-Nachbarn-Klassifikator das unbekannte Gesicht einem derTrainingsvektoren zugeordnet werden kann (vgl. Kapitel 3.1.2).

Die Idee die Projektionen miteinander zu kombinieren wird durch Abbildung 3.14 be-gründet. Die Grundannahme ist, dass zwei ähnliche Gesichter auch ähnliche Projektionenhaben, wodurch wiederrum ihre Kombinationen ähnlich sind und durch die geringe Distanzder Kombinationen zueinander sie mit dem Nächste-Nachbarn-Klassifikator als Gesichtereiner Person identifiziert werden. In der Abbildung sind die Projektionen a1 und a2 einerPerson mit Gesichtsvektor a in den beiden Unterräumen zu sehen. Wird ein Gesichtsvek-tor b, der an gleichen Pixelpositionen ähnliche Werte besitzt wie Vektor a, in die beidenUnterräume projiziert, dann werden die Koeffizienten seiner beiden Projektionen ähnlichzu den beiden Projektionen von a sein. Folglich ist die Distanz zwischen den Kombinatio-nen der jeweiligen Projektionen gering und die beiden können als Gesichter einer Personaufgefasst werden. Wird hingegen ein Gesichtsvektor c projiziert und die Kombination


Abbildung 3.14: Projektion von Gesichtern bei einem aus zwei Mischungskomponenten beste-henden MPC-Modell. Die erste Mischungskomponente hat Mittelvektor m1 und Eigenvektorenu11 und u12, die zweite Komponente hat Mittelvektorm2 und Eigenvektoren u21 und u22. Darge-stellt sind jeweils Projektionen dreier Gesichtsvektoren a, b und c in die beiden Unterräume (nach[TC02b]).

seiner Projektionen weist einen großen Abstand zu der Kombination für Gesicht a oder bauf, dann handelt es sich bei Gesicht c wahrscheinlich um nicht die gleiche Person wie beiGesicht a oder b.

Da die verschiedenen Unterräume unterschiedliche Vektorräume sind, kann der Additions-Ansatz nicht mathematisch begründet werden. Aus diesem Grund wurden anstelle einerAddition der Projektionen einige andere Möglichkeiten zur Bildung von Merkmalsvektorenuntersucht. Eine davon war beispielsweise die Konkatenation der Projektionen zu einemeinzelnen Vektor, der so unveränderte Informationen jeder Mischungskomponente enthielt.Dieser lange Merkmalsvektor wurde dann mit dem Nächste-Nachbarn-Klassifikator einerPerson zugeordnet. Ein anderer Versuch lag darin, jedes Gesicht mit allen Gesichternder Mischungskomponente zu klassifizieren, die das Gesicht mit geringstem Rekonstruk-tionsfehler repräsentieren konnte. Jedoch war unter allen Versuchen die Kombination derProjektionen zu einem einzelnen Merkmalsvektor (vgl. Formel 3.38) am erfolgreichsten.


Dennoch werden Ergebnisse alternativer Möglichkeiten zur Bildung von Merkmalsvektorenin Kapitel 4.4 angegeben und diskutiert.

3.5 Zusammenfassung

Ein Gesichtserkennungssystem hat im Allgemeinen drei Komponenten: Eine Datenbankvon Gesichtsbildern, eine Komponente zur Normalisierung von Bildern und einen Klassifi-kator (vgl. Kapitel 3.1). Die ersten beiden Komponenten werden in Kapitel 4 beschrieben.Die Identifizierung von Personen führt der Nächste-Nachbarn-Klassifikator durch (vgl.Kapitel 3.1.2). Dabei wird ein Vektor demjenigen Vektor zugewiesen, der die geringste Di-stanz zu ihm aufweist. Zur Messung von Distanzen können zahlreiche Distanzfunktionenverwendet werden, von denen einige grundlegende in Kapitel 3.1.3 eingeführt wurden.

Das PCA-basierte Vorgehen wird als Eigenfaces-Technik bezeichnet (vgl. Kapitel 3.2).Eigenfaces sind die charakteristischsten Eigenvektoren zur Streuungsmatrix der Trainings-bilder und verlaufen folglich in Richtung der größten Varianz der Daten. Eigenfaces span-nen als Basisvektoren einen Unterraum auf. Gesichtsbilder werden als Vektoren in denUnterraum projiziert und mit dem Nächste-Nachbarn-Klassifikator Personen zugeordnet.

Bei der Fisherfaces-Methode (Kapitel 3.3) wird mit der LDA durch Kenntnis vonKlassenzugehörigkeiten der Trainingsbilder ein Unterraum bestimmt, in dem projizierteGesichtsbilder eine maximale Streuung zwischen Klassen und eine minimale Streuunginnerhalb von Klassen aufweisen. Es wird eine schärfere Klassentrennung und dadurch eineleichtere Klassifikationsaufgabe erreicht. Das Verfahren kann verbessert werden, indem dieTrainingsbilder zuerst in den PCA-Unterraum projiziert werden und dann die LDA aufdiese Projektionen angewendet wird (vgl. Kapitel 3.3.4).

Die MPC ist ein PCA-basiertes EM-Verfahren (vgl. Kapitel 3.4). In einem Modellwerden mehrere Unterräume kombiniert, die jeweils für verschiedene Gesichtseigenschaf-ten zuständig sind. Dadurch können Gesichtsbilder genauer - das heißt mit geringeremRekonstruktionsfehler - repräsentiert werden.

Kapitel 4

Versuche

Nachdem die Hauptkomponentenanalyse (PCA), die lineare Diskriminanzanalyse (LDA)und die Hauptkomponentenmischung (MPC) in Kapitel 3 beschrieben wurden, werden diedrei Verfahren auf ihre Erkennungsleistung von Gesichtsbildern der FERET-Datenbankuntersucht. Die FERET-Datenbank wird in Kapitel 4.1 vorgestellt und das FERET-Protokoll zum Durchführen standardisierter Tests wird erläutert.

Da Bilder der FERET-Datenbank unter verschiedenen Bedingungen aufgenommenwurden, muss eine Normalisierung der Bilder durchgeführt werden. Die Normalisierungs-prozedur ist für jedes der drei Verfahren identisch und wird detailliert in Kapitel 4.2 erklärt.Im Anschluß erfolgt eine kurze Vorstellungen der verwendeten Programmiersprache zurImplementierung der Verfahren.

Schließlich werden die FERET-Tests unter standardisierten Bedingungen (soweit diesmöglich ist) in Kapitel 4.4 durchgeführt und evaluiert, sodass Aussagen darüber gemachtwerden können, ob signifikante Unterschiede zwischen den Erkennungsleistungen der gete-steten Verfahren existieren. Aussagen zur Signifikanz werden dabei mit Hilfe von Konfiden-zintervallen geführt. Um dann die drei Verfahren weiter zu vergleichen, werden Parameter(Bildgröße, Anzahl der Dimensionen und Distanzfunktion) in Kapitel 4.5 variiert. Mit denso gefundenen, für das jeweilige Verfahren besten Parametern wird zum Schluß überprüft,ob die Erkennungsleistung der Verfahren durch Kombination dieser Parameter gesteigertwerden kann.

4.1 FERET-Programm

Das Face Recognition Technology (FERET) Programm wurde im September 1993 vomArmy Research Laboratory (ARL) eingeleitet, um den Stand der Technik in der Ge-sichtserkennung zu messen und eine unabhängige Methode zum Testen und Auswertenvon Gesichtserkennungsalgorithmen zu entwickeln. Dadurch sollte die Entwicklung vonGesichtserkennungsverfahren unterstützt werden, die für Sicherheit sorgen, Kriminalität

45

46 KAPITEL 4. VERSUCHE

reduzieren und intelligente Systeme fördern würden (vgl. [PMRR00]). Zu diesem Zweckwurde die FERET-Gesichtsdatenbank erstellt und ein standardisiertes Auswertungsproto-koll definiert. Das Prokoll legt fest, mit welchen Bildern der Test eines Verfahrens gemachtwird und wie die Ausgabe und Leistung bewertet werden soll (vgl. [PWHR98]).

4.1.1 Motivation

Bevor FERET als Auswertungsprotokoll und unabhängige Datenbank zur Verfügung stand,gab es keine einheitlichen Methoden zum Bewerten von Gesichtserkennungsalgorithmen.Die meißten Wissenschaftler erstellten eigene kleine Datenbanken, die aus nur einigenDutzend Individuen bestanden und auf das Verfahren angepasst waren (vgl. [PRD96]).Als Folge davon konnten verschiedene Verfahren nicht richtig miteinander verglichen wer-den und viele Forscher berichteten in ihren Arbeiten Erkennungsraten von über 95%.Heute können Wissenschaftler die Leistung eines Gesichtserkennungsalgorithmus mit demFERET-Protokoll bewerten und dadurch erfahren, in welchen Bereichen der Gesichtser-kennung ihre Verfahren verbessert werden sollten.

Heute zählt die FERET-Datenbank zu den umfangreichsten allgemein vorhandenenGesichtsdatenbanken. Sie gilt als der De-facto-Standard zum Testen und Auswerten vonGesichtserkennungsverfahren. Dadurch, dass mit ihr verschiedene Verfahren verglichenwerden können, hat die Datenbank dazu beigetragen, den wissenschaftlichen Stand in derGesichtserkennung voranzutreiben und Bereiche aufzudecken, in denen weiter geforschtwerden muss.

4.1.2 FERET-Tests

Aus den durchgeführten FERET-Tests haben sich die heutigen Standard-Tests entwickelt,die zur Beurteilung von Algorithmen verwendet werden. Die Tests waren so ausgerich-tet, dass man Aussagen über die Leistung von Gesichtserkennungsverfahren mit großenDatenbanken, Personenveränderungen über längere Zeiträume, Bildskalierungen, Posen-änderungen, verschiedenen Beleuchtungsstärken und Hintergründen zu arbeiten treffenkonnte. Teilgenommen haben verschiedene Universitäten und Firmen, die in der Gesichts-erkennung forschten. Die Rechendauer eines Algorithmus wurde bei der Auswertung nichtbewertet, sondern nur die Erkennungsleistung. Die Ergebnisse der FERET-Tests sind aus-führlich in [PRD96] protokolliert.

Die Resultate eines Algorithmus wurden in sogenannten CMS-Kurven (cummulativematch score curves) angegeben. Eine CMS-Kurve stellt die Erkennungsleistung eines Ver-fahrens für Rang k (gewöhnlich für k = 1..50) dar. Ein Gesicht ist unter Rang k erfolgreichidentifiziert, wenn sich unter den ersten k Ausgabekandidaten des Verfahrens die korrektePerson zu diesem Gesicht befindet. Die Idee von CMS-Kurven ist es nicht anzugeben, wieeindeutig ein Verfahren eine Person identifizieren kann, sondern die Sicherheit des Verfah-

4.1. FERET-PROGRAMM 47

rens dafür zu messen, dass die gesuchte Person unter den ersten k Ausgabekandidaten ist.Gibt das Verfahren dann die k ersten Personen aus, kann in der Praxis z.B. ein Mensch diegesuchte Person aus den wenigen k Personen manuell identifizieren. Dabei wird voraus-gesetzt, dass jede Testperson dem Verfahren bekannt ist (geschloßenes Universum) (vgl.[PRD96]).

Im Laufe des FERET-Programm von 1994 bis 1997 wurden drei großangelegte Testsdurchgeführt. Gemessen wurden vollautomatische Algorithmen, die Gesichter in Bildernselbstständig lokalisieren, normalisieren und identifizieren konnten. Als Gallerie werdenBilder der Personen, die dem Algorithmus bekannt sind, und Bilder unbekannter Per-son als Testbilder bezeichnet. Trainingsbilder werden zur Initialisierung des Algorithmusverwendet. Diese sind Bilder von Personen aus der Gallerie.

Der erste Test war der August-1994 Test. Ziel des Tests war es, eine Messbasis zuerschaffen, an der sich Gesichtserkennungs-Algorithmen erstmals orientieren konnten. Eswurden drei Teiltests durchgeführt. Der Erste bestand aus einer großen Gallerie und testetedie allgemeine Identifizierungsleistung der Algorithmen. Der Zweite war der Falsch-Alarm-Test. Diesem Test lag ein offenes Universum zugrunde und es wurde gemessen, wie gutein Verfahren Gesichter ablehnt, die sich nicht in der Gallerie befinden. Im dritten Testüberprüfte man die Leistung der Verfahren rotierte Gesichter zu erkennen. Dabei warendie Kopfposition der Test-Personen bis zu 90 seitlich gedreht (vgl. [PWHR98]).

Der zweite große FERET-Test fand im März 1995 statt und basierte auf den Ergeb-nissen und Schlußfolgerungen des ersten Tests. Er bestand aus einer größeren Gallerie.Der Schwerpunkt des Tests lag in der Erkennungsfähigkeit von Duplikatbildern. Ein Du-plikatbild einer Person ist eine Gesichtsaufnahme, die zu einem anderen Zeitpunkt (biszu mehreren Jahren) gemacht wurde. Der Test ergab trotz steigenden Schwierigkeitsgradsim Vergleich zum August-1994-Test keine sinkenden Erkennungsleistungen der Verfah-ren. Daraus konnte geschlußfolgert werden, dass die Verfahren besser geworden sind (vgl.[PWHR98]).

Der September-1996 Test war der dritte FERET-Test. Er sollte den damals aktuellenStand der Technik verbessern und Richtungen für zukünftige Forschung vorgeben. Fürdiesen FERET-Test wurden die vier Testsets entwickelt, die in der FERET-Datenbankdokumentiert sind und in Kapitel 4.1.3 beschrieben werden. Der Test hat gezeigt, dass dasbeste Verfahren von der jeweiligen Testkategorie abhängt, denn kein getestetes Verfahrenkonnte in allen Kategorien die besten Ergebnisse erzielen (vgl. [MP98]).

4.1.3 Datenbank

Für die Auswertung von Algorithmen wird eine gemeinsame Datenbank mit einer ausrei-chenden Anzahl von Bildern benötigt. Die FERET-Datenbank wurde ständig erweitert


und an den technischen Stand von Gesichtserkennungsverfahren angepasst. Heute bein-haltet die FERET-Datenbank über 11338 Bilder von 994 verschiedenen Personen.

Für jede Person sind unterschiedliche Foto-Aufnahmen vorhanden. Ein Beispielsatz derFotos einer Person ist in Abbildung 4.1 zu sehen. Es sind mehrere Frontalansichten mit ver-schiedenen Gesichtsausdrücken, Beleuchtungsstärken und Altererungen der Personen, diefür einige Fotos auch gebeten wurden eine Brille aufzusetzen oder ihre Frisur zu verändern,abgebildet. Außerdem konnten durch variierende Kameraabstände und Kamerapositionendie Gesichter auf den Bildern in unterschiedlichen Skalierungen und Ansichtswinkeln auf-genommen werden.

Abbildung 4.1: Ein Beispielsatz einer Person in der FERET-Datenbank (aus [FER12]).

Die FERET-Dokumentation definiert vier Standard-Testsets, auf denen Algorithmenmit der FERET-Datenbank ausgewertet werden sollen. Die Testsets mit ansteigendemSchwierigkeitsgrad (nach [PMRR00]) sind:

FAFB: Das ist das vermeintlich leichteste Testset, denn es besteht aus Personen, die ih-ren Gesichtsausdruck oder ihr Erscheinungsbild (durch Brille o.ä.) modifizieren. Esbeeinhaltet 1195 Testbilder.

FAFC: Dieses Testset besteht aus 194 Bildern, die im Vergleich zur Gallerie andere Beleuch-tungsstärken aufweisen.

DUP1: Das Testset beeinhaltet 722 Bilder. Die Aufnahme jedes Bildes liegt innerhalb einesZeitraums von einer Minute und 1031 Tagen nach der entsprechenden Aufnahme desGallerie-Bildes.

4.2. NORMALISIERUNG 49

DUP2: Dieses Testset hat sich als schwierigstes erwiesen. Es ist eine Teilmenge von demDUP1-Testset und besteht aus 234 Bildern, deren Aufnahme mindestens 18 Monatenach der entsprechenden Gallerie-Aufnahme stattgefunden hat.

Die Standard-Gallerie besteht aus 1196 Personen, für die jeweils ein Frontalbild vorhandenist. Ein Standard-Trainingsset ist nicht von FERET vorgegeben. Für 3368 Bilder stelltFERET die Augen- und Mundkoordinaten zur Verfügung, um Gesichtserkennungssystemezu unterstützen, die keine Gesichtslokalisierungskomponente besitzen. Bei den FERET-Tests war dies bei einigen Verfahren der Fall.

4.2 Normalisierung

Die FERET-Datenbank, der unsere Experimente zugrunde liegen, enthält Bilder, die erstnormalisiert werden müssen, bevor ein Unterraumverfahren darauf trainiert wird.

Bilder der FERET-Datenbank wurden unter verschiedenen Bedingungen aufgenom-men. Dadurch soll eine reale Umgebung simuliert werden, in der Foto- und Videoaufnah-men nicht optimal auf die Gesichtserkennung angepasst sind. Fast immer ist der Hinter-grund mit abgebildet oder die Größe des Gesicht auf dem Bild variiert. Um die Erken-nungsrate zu verbessern, werden durch Normalisierung Informationen im Bild entfernt,die nicht relevant oder charakteristisch für Gesichter sind. Unter anderem werden Hinter-gründe entfernt und Gesichter lokalisiert und auf eine einheitliche Größe skaliert.

Zur Normalisierung der Bilder für die Experimente wird die Normalisierungsprozedurvon der Colorado State University (CSU) verwendet (s. [CSU12b]). Diese Normalisie-rung ist eine verbesserte und stabilere Version der originalen FERET-Normalisierung. DieCSU-Normalisierung besteht aus fünf Schritten und konvertiert ein FERET-Bild in einnormalisiertes Bild wie folgt (vgl. [GBDB04]):

1. Integer zu Float umwandeln: Die 256 Grauwerte des Bildes werden als Gleitkomma-zahlen repräsentiert.

2. Geometrische Normalisierung: Anhang der Augenkoordinaten (für FERET-Bildervorhanden) wird das Gesicht im Bild auf eine einheitliche Position verschoben undskaliert.

3. Maskierung: Eine elliptische Maske wird erstellt, die nur das Gesicht ausschneidet(der Hintergrund wird abgedeckt).

4. Histogrammausgleich auf die Pixel des Gesichtsbereichs, um den gesamten Wertebe-reich der Pixel auszunutzen.

5. Pixelnormalisierung: Pixelwerte werden so skaliert, dass der Durchschnitt null unddie Standardabweichung eins ist.


Abbildung 4.2: Beispiel für ein Original-Bild der FERET-Datenbank (links) und das entspre-chende normalisierte Bild (rechts) (aus [FER12]).

Nach der Normalisierung liegt das Bild in 150 × 130 Pixel vor. In Abbildung 4.2 istdas Ergebnis der Normalisierungsprozedur (rechtes Bild) zu sehen. Diese Prozedur wirdauf jedes Bild der FERET-Datenbank angewendet.

4.3 Implementierung

Für die Experimente werden die drei Verfahren PCA, LDA und MPC in Matlab imple-mentiert. Matlab ist eine Programmiersprache, die primär auf die Lösung mathematischerProbleme mit Hilfe von Matrizen ausgelegt ist. Die Sprache ist auf Matrixberechnungenspezialisiert und da bei Unterraumverfahren die meißten Rechenschritte algebraisch durch-führbar sind, eignet sich Matlab gut zur einfachen und effizienten Implementierung solcherVerfahren. Die Implementierung jedes Verfahrens erfolgt separat voneinander, um einenunabhängigen Vergleich der Verfahren zu ermöglichen.

4.4 Standard-Test

Das FERET-Protokoll definiert vier standardisierte Testsets, mit denen die Erkennungslei-stung von Gesichtserkennungsalgorithmen gemessen wird. In diesem Abschnitt werden dieVerfahren aus Kapitel 3 unter FERET-Bedingungen getestet, die es erlauben einen mög-lichst direkten Vergleich zur Literatur herzustellen und die Verfahren auch miteinander zuvergleichen. Der Vergleich wird mit Hilfe von Konfidenzintervallen geführt.

4.4. STANDARD-TEST 51

4.4.1 Durchführung

Parameter PCA LDA MPCGallerie 1196 Bilder (1196 Personen)Trainingsset 501 Bilder (428 Personen)Testsets FAFB (1195 Bilder), FAFC (194), DUP1 (722), DUP2 (234)Bildgröße 150× 130 px 45× 39 pxDimension 40% = 200 10 · 20 = 200Distanz Euklidisch

Tabelle 4.1: Parameterübersicht für den Standard-Test mit der FERET-Datenbank.

Eine Übersicht zu den Parametern des Tests befindet sich in Tabelle 4.1. Verwendetwerden die vier Standard-Testsets FAFB, FAFC, DUP1 und DUP2 sowie die Standard-Gallerie von 1196 Personen nach dem FERET-Protokoll (in Kapitel 4.1 ausführlich be-schrieben). Die Gallerie enthält ein Bild pro Person. Verfahren nutzen die Gallerie, umnach ihrem Training Personen zu identifizieren, die sich nicht in der Trainingsmenge befan-den. FERET schreibt kein festes Trainingsset vor. Aus diesem Grund sind in der Literaturunterschiedliche, beinahe willkürliche Trainingssets zu finden. Um diese Arbeit trotzdemmit einigen anderen Arbeiten vergleichen zu können, wird das Trainingsset verwendet, dasim CSU Face Identification Evaluation System ([CSU12b]) definiert ist. Es besteht aus501 Bildern von insgesamt 428 Personen.

PCA und LDA werden auf eine Bildgröße von 150×130 Pixel angewendet. Die Autorender MPC testeten ihr Verfahren auf der PIE-Datenbank (vgl. [TC02a]), die nach [SBB02]Bilder der Größe 640×486 Pixel enthält. Diese Bildgröße wäre für ein Gesichtserkennungs-system nicht vorstellbar und die Autoren der MPC erwähnen in ihrer Arbeit nicht, welcheSkalierung sie vorgenommen haben. Wir entscheiden uns für Bilder der Größe 45× 39, dagrößere Bilder zu Speicherproblemen und sehr langen Rechenzeiten führten.

Bei dem Dimensionsreduktionsschritt werden - wie von FERET empfohlen und in denmeißten Arbeiten eingehalten - 40% von den 501 Dimensionen für den Unterraum behal-ten. Um einen möglichst gleichwertigen Vergleich mit der PCA und LDA zu ermöglichen,wird die MPC für 10 Mischungskomponenten mit jeweils 20 Eigenvektoren trainiert. Diesentspricht einer Gesamtanzahl von 10 · 20 = 200 Dimensionen im MPC-Modell. Mit dergleichen Begründung vergleichen die Autoren der MPC in [TC02a] ihr Verfahren mit derPCA.

Für die Klassifikation der Projektionen mit dem Nächste-Nachbarn-Klassifikator wirddie euklidische Distanz (L2-Norm) verwendet. Diese ist weitverbreiteter Standard, der inden meißten Arbeiten als primäres Distanzmaß benutzt wird (s. z.B. [DGG05], [BSDG01]).


4.4.2 Evaluierung

FAFB FAFC DUP1 DUP2 Durchschnitt

Nach [CSU12a]PCA 74,31% 4,64% 33,80% 14,10% 31,71%LDA 61,17% 19,07% 37,95% 13,68% 32,97%

UnserePCA 73,47% 4,64% 34,35% 14,96% 31,85%LDA 69,29% 24,74% 23,27% 12,82% 32,53%MPC 51,97% 9,28% 52,22% 51,71% 41,30%

Tabelle 4.2: Erkennungsraten für Rang 1 für PCA und LDA nach [CSU12a] sowie unsere Erken-nungsraten für PCA, LDA und MPC für die FERET-Testsets unter standardisierten Bedingungen.

In Tabelle 4.2 sind die Ergebnisse unserer Tests (untere Tabellenhälfte) dargestellt.Diese werden in der Tabelle den Ergebnissen von [CSU12a] (obere Tabellenhälfte) ge-genübergestellt, die unter gleichen Bedingungen und gleichen Parametern durchgeführtwurden, wie unsere Tests. Die etwas unterschiedlichen Erkennungsraten sind Folge unter-schiedlicher Details in der Implementierung der Verfahren.

Konfidenzintervall

Nach [CSU12a]PCA [29,83; 33,59]LDA [31,07; 34,87]

UnserePCA [29,96; 33,74]LDA [30,63; 34,43]MPC [39,31; 43,29]

Tabelle 4.3: Kofidenzintervalle zu den Ergebnissen in Tabelle 4.2.

Da es sich bei der Messungen einer Erkennungsrate an einer Stichprobe nur um ei-ne Schätzung der tatsächlichen Erkennungsrate handelt, muss ein Toleranzbereich fürdie Erkennungsrate angegeben werden, der eine statistische Schwankung repräsentiert.Dies ist mit Konfidenzintervallen möglich. Für Aussagen zur Signifikanz werden Konfi-denzintervalle einer 95%-igen Sicherheit berechnet (vgl. [PL95]). Überschneiden sich dieKonfidenzintervalle zweier Erkennungsraten nicht, ist das ein Hinweis darauf, dass einsignifikanter Unterschied zwischen den Erkennungsraten besteht (vgl. [BSDG01]). EineÜberschneidung der Konfidenzintervalle hingegen deutet auf keinen signifikanten Unter-schied hin. Basierend auf diesen beiden Aussagen werden im Folgenden Vermutungen zusignifikanten Unterschieden zwischen Erkennungsraten geführt.


Die Konfidenzintervalle zu den durchschnittlichen Erkennungsraten aus Tabelle 4.2sind in Tabelle 4.3 angegeben. Es wird die durchschnittliche Erkennungsrate über alle vierTestsets betrachtet, da festgestellt werden soll, welches Verfahren insgesamt und nicht füreinzelne Kategorien besser ist als die anderen Verfahren.

Aus Tabelle 4.3 kann man folgern, dass zwischen den Erkennungsraten für Rang 1der PCA von [CSU12a] und unserer Implementierung der PCA kein bedeutender Unter-schied besteht. Dies gilt ebenso für die LDA. Unterschiedliche Erkennungsraten zwischenunserer LDA und der LDA von [CSU12a] sind möglicherweise ein Resultat abweichen-der Implementierungen. Weiterhin stellt man fest, dass nach [CSU12a] die PCA nichteindeutig schlechter ist als die LDA. Die gleiche Schlußfolgerung kann auch über unsereImplemetierungen der PCA und LDA getroffen werden. Die weitere Betrachtung der Kon-fidenzintervalle ergibt, dass die MPC signifikant höhere Erkennungsraten hat als die PCAund LDA. Zu dieser Einsicht gelangten die Autoren der MPC bei ihren Vergleichen desVerfahrens mit der PCA ebenfalls (vgl. [TC02a]).

Abbildung 4.3: CMS-Kurve für PCA bis Rang 50.

In jedem der FERET-Tests war es nicht Ziel die Verfahren nur nach ihrer direktenIdentifizierungsleistung von Gesichtern zu untersuchen. Vielmehr sollten Erkennungsra-ten der Verfahren für die k-Nächsten-Nachbarn, also für Rang k (meißt mit k = 1..50),angegeben werden (vgl. z.B. [PRD96]). Für diesen Zweck verwendete man CMS-Kurven


Abbildung 4.4: CMS-Kurve für LDA bis Rang 50.

(s. Kapitel 4.1.2). In dieser Arbeit sollen ebenso die Erkennungsraten der untersuchtenVerfahren als CMS-Kurven dargestellt werden.

Die Erkennungsraten der PCA für Rang 1 bis Rang 50 für die vier FERET-Testsetssind als CMS-Kurve in Abbildung 4.3 dargestellt. Zur Durchführung eines Vergleiches istdie CMS-Kurve der LDA in Abbildung 4.4 und die CMS-Kurve der MPC in Abbildung4.4 visualisiert. Die PCA-Kurve ist mit den CMS-Kurven nach [CSU12a] für alle vier Test-sets bis auf geringe Schwankungen identisch. Die LDA-Kurve (Abbildung 4.4) ist für dasTestset DUP2 ähnlich der LDA-Kurve nach [CSU12a]. Für die restlichen Testsets schwan-ken die Verläufe zwar insgesamt zwischen etwa 5% und 15% (für zwei der drei Testsetssind die Erkennungsraten unserer LDA besser), insgesamt jedoch können beide Implemen-tierungen der LDA als gleichwertig angesehen werden. Der Grund der unterschiedlichenKurvenverläufe liegt wahrscheinlich in der Implementierung.

Betrachtet man die CMS-Kurve der MPC, dann fällt auf, dass diese bereits ab einemRang von 2 die Kurven der PCA und LDA in allen Testkategorien überragt. Die MPC-Kurve erreicht bereits bei Rang 6 für alle vier Testsets eine Erkennungsrate von beinahe100%. Sogar für das Testset FAFC, bei dem die MPC für Rang 1 weniger als 10% derBilder korrekt erkennt (vgl. Tabelle 4.2), sind es bereits für Rang 2 fast 100%. DieserWert übertrifft die Erkennungsrate des besten Algorithmus der FERET-Tests, der in der


Abbildung 4.5: CMS-Kurve für MPC bis Rang 50.

Kategorie FAFC getestet wurde (vgl. [PMRR00]). Auch für die Kategorien DUP1 undDUP2 ist die MPC ab Rang 2 bedeutend besser als die besten Verfahren der FERET-Tests. Für das FAFB-Testset erreichen die Algorithmen der FERET-Tests ebenso wie dieMPC Erkennungsraten von fast 100% für Rang 2. Diese Ergebnisse erreicht das MPC-Verfahren durch die genaue Repräsentation der Bilder durch mehrere Unterräume.


Addition 51,97% 9,28% 52,22% 51,71% 41,30%Konkatenation 61,92% 1,55% 25,90% 9,83% 24,80%

min. Rekonstr.fehler 44,35% 0,00% 16,34% 8,12% 17,20%

Tabelle 4.4: Erkennungsraten der MPC unter Rang 1 für alternative Möglichkeiten zur Bildungvon Merkmalsvektoren zur Klassifikation.

In Kapitel 3.4.5 wurde erläutert, dass bei der MPC die einzelnen Projektionen in dieUnterräume addiert werden, um einen Merkmalsvektor für die Klassifikation zu bilden. AmEnde des Kapitels erklärte man, dass alternative Methoden zur Bildung der Merkmalsvek-toren untersucht wurden, die Addition jedoch die besten Erkennungsraten ergab. Neben


der Addition wurden drei Alternativen getestet: Die Konkatenation der Projektionen undder Vergleich der Projektion in der Mischungskomponente zum kleinsten Rekonstruktions-fehler des Bildes (eine ausführliche Erklärung der Alternativen ist am Ende von Kapitel3.4.5 zu finden). In Tabelle 4.4 sind die Erkennungsraten der Alternativen aufgeführt. DasKonfidenzintervall zur Konkatenation ist: [23, 05; 26, 55]. Dieses überschneidet sich nichtmit dem Konfidenzintervall für die Addition (vgl. Tabelle 4.3), was darauf schließen lässt,dass die Addition der Merkmalsvektoren eine signifikant höhere Erkennungsrate ergibt alsdie beiden Alternativen. Aufbauend auf dieser Erkenntnis werden die Folgeexperimentezur MPC mit der Addition der Projektionen durchgeführt.

4.5 Parameteroptimierung

Die Tests im vorherigen Kapitel wurden unter standardisierten Bedingungen durchgeführt.Die Ergebnisse der Tests dienen nun als Vergleichsbasis für weitere Experimente. In diesemKapitel wird versucht die Erkennungsleistung der Verfahren zu optimieren, indem Parame-ter systematisch verändert werden. Es werden jeweils Bildgröße, Anzahl der Dimensionenund Distanzmaße abwechselnd und unabhängig voneinander varriert.

4.5.1 Bildgröße

Zuerst wird die Bildgröße variiert, um zu entscheiden, welche Bedeutung ihr zufällt. Dabeibleiben alle restlichen Parameter fest, wie in Kapitel 4.4 angegeben. Zum Verkleinern derBilder wird die Matlab-Funktion imresize() verwendet. Die verschiedenen Skalierungser-gebnisse eines Beispielbildes sind in Abbildung 4.6 dargestellt.

Abbildung 4.6: Beispiel für Bildskalierungen eines normalisierten FERET-Bildes (von 100% obenlinks bis 5% unten rechts) (aus [FER12]).

In Tabelle 4.5 sind die Resultate der PCA für unterschiedliche Bildskalierungen an-gegeben. Bis zu einer Bildskalierung auf 10% der Originalgröße ist eine streng monotoneSteigerung der durchschnittlichen Erkennungsrate bei kleiner werdenden Bildern festzu-

4.5. PARAMETEROPTIMIERUNG 57

PCASkal. Pixel FAFB FAFC DUP1 DUP2 Durchschnitt

100% (150× 130) 73,47% 4,64% 34,35% 14,96% 31,85%90% (135× 117) 73,56% 4,64% 34,49% 15,39% 32,02%80% (120× 104) 73,72% 4,64% 34,49% 15,39% 32,06%70% (105× 91) 73,81% 4,64% 34,63% 15,81% 32,22%60% (90× 78) 73,89% 4,64% 34,77% 15,81% 32,28%50% (75× 65) 74,14% 4,64% 34,90% 15,81% 32,37%40% (60× 52) 74,48% 4,64% 35,04% 16,24% 32,60%30% (45× 39) 74,48% 4,64% 35,32% 16,67% 32,78%20% (30× 26) 75,06% 5,16% 35,73% 16,67% 33,16%10% (15× 13) 75,65% 4,12% 32,69% 15,39% 31,96%5% (8× 7) 66,86% 2,06% 23,41% 8,55% 25,22%

Tabelle 4.5: Erkennungsraten der PCA für Rang 1 unter verschiedenen Bildskalierungen zwischen100% und 5%.

stellen. Es wird mit Hilfe von Konfidenzintervallen untersucht, ob eine signifikante Steige-rung der Erkennungsrate erzielt werden kann. Die höchste Erkennungsrate wird bei einerBildskalierung von 20% erreicht. Das Konfidenzintervall dazu ist: [31, 25; 35, 07]. Da sichdas Konfidenzintervall mit dem Intervall der PCA aus Tabelle 4.3 überschneidet, kannkeine signifikante Steigerung der Erkennungsrate durch Veränderung der Bildgröße ge-schlußfolgert werden. Daraus folgt offensichtlich auch, dass eine Verkleinerung der Bilderauf bis zu 10% ihrer Originalgröße keine bedeutende Verschlechterung der Erkennungsratenach sich zieht. Bei einer Skalierung von 5% sinkt die Erkennungsrate aufgrund geringenInformationsgehalts in den Bildern (insgesamt nur 56 Pixel in einem Bild).

Bei dem Experiment mit der LDA (Tabelle 4.6) beobachten wir einen ähnlichen Zu-sammenhang, wie bei der PCA (Erkennungsrate steigt bis zu einem gewissen Punkt beisinkender Bildgröße). Jedoch ergibt die Berechnung des Konfidenzintervalls für die durch-schnittliche Erkennungsrate bei einer 10%-tigen Skalierung ([41,95; 45,97]), dass im Ver-gleich zur Standard-Bildgröße (vgl. Konfidenzintervall in Tabelle 4.3) eine signifikanteSteigerung der Erkennungsrate vorliegt. Durch Verkleinerung der Bildgröße kann bei derLDA die Erkennungsrate also signifikant erhöht werden. Das ist womöglich damit zu er-klären, dass bei kleineren Bildern die LDA eine schärfere Klassentrennung durchführenkann.

Da bei der MPC Bildgrößen über 45× 39 Pixel (entspricht einer Skalierung von 30%)kritisch werden und jedes MPC-Training langwierig ist, verzichten wir bei der MPC aufdiesen Test und nehmen an, dass sich die Bildgröße bei diesem Verfahren analog zu den


LDASkal. Pixel FAFB FAFC DUP1 DUP2 Durchschnitt

100% (150× 130) 69,29% 24,74% 23,27% 12,82% 32,53%90% (135× 117) 70,21% 24,74% 24,52% 14,52% 33,50%80% (120× 104) 70,29% 24,23% 25,21% 15,39% 33,78%70% (105× 91) 70,63% 24,74% 25,90% 16,67% 34,49%60% (90× 78) 70,71% 24,74% 26,18% 17,09% 34,68%50% (75× 65) 71,13% 23,71% 27,29% 17,52% 34,91%40% (60× 52) 71,88% 25,77% 28,95% 18,38% 36,24%30% (45× 39) 72,47% 25,77% 31,72% 20,51% 37,62%20% (30× 26) 74,31% 29,90% 39,20% 22,65% 41,51%10% (15× 13) 78,33% 23,20% 46,95% 27,35% 43,96%5% (8× 7) 61,84% 10,31% 34,90% 13,68% 30,18%

Tabelle 4.6: Erkennungsraten der LDA für Rang 1 unter verschiedenen Bildskalierungen zwischen100% und 5%.

Ergebnissen der PCA verhält, das heißt bei Bildskalierungen von 30% die Erkennungsratenicht geringer wird.

Insgesamt konnte für die FERET-Datenbank ein linearer Zusammenhang zwischen Er-kennungsrate und Bildgröße festgestellt werden. Bis zu einer bestimmten Bildgröße steigtdie Rate und fällt, sobald die Bildverkleinerung zu groß ist. Letzteres ist damit zu erklären,dass bei sehr kleinen Bildern ein zu geringer Informationsgehalt vorliegt und eine Unter-scheidung der Bilder kaum noch möglich ist. Man kann also zum Sparen von Speicherplatzund Rechenzeit die Bildgröße bedenkenlos auf mindestens die Hälfte reduzieren ohne mitgravierenden Verlusten in Erkennungsleistung zu rechnen. Diese Erkenntnis ist konsistentzu den Ergebnissen der Experimente in [ZCK98].

4.5.2 Dimensionen

Nun wird mit der Anzahl der Dimensionen des Unterraums experimentiert. Die restlichenParameter bleiben auf den Werten von Kapitel 4.4. Lediglich die Bildgröße wird auf 75×65 Pixel reduziert, denn dadurch ist keine statistisch bedeutende Verschlechterung derErkennungsrate zu erwarten, wie in Abschnitt 4.5.1 festgestellt wurde.

In Tabelle 4.7 sind Erkennungsraten der PCA für unterschiedliche Dimensionsgrößendes Unterraums aufgelistet. Dazu ist angegeben, wieviel Energie der jeweilige Unterraumenthält. Als Energie wird der Varianzanteil des Unterraums an der Gesamtvarianz derBilder bezeichnet (vgl. z.B. [WYB02]). Energie kann also als Informationsgehalt der pro-jizierten Bilder im Unterraum aufgefasst werden. Generel sinkt die Erkennungsrate mit


PCADim. Energie FAFB FAFC DUP1 DUP2 Durchschnitt

500 100% 75,40% 4,64% 35,87% 16,24% 33,04%450 99,82% 75,31% 4,64% 35,46% 16,24% 32,91%400 99,53% 75,23% 4,64% 35,46% 16,24% 32,89%350 99,11% 75,06% 4,64% 35,60% 16,24% 32,88%300 98,51% 74,90% 4,64% 35,32% 16,24% 32,77%250 97,64% 74,73% 4,64% 35,18% 16,24% 32,70%200 96,35% 74,14% 4,64% 34,90% 15,81% 32,37%150 94,34% 73,56% 4,64% 34,76% 16,24% 32,30%100 90,88% 71,97% 4,12% 34,07% 15,81% 31,49%50 83,48% 68,70% 3,61% 31,30% 13,25% 29,21%25 74,22% 61,67% 1,55% 26,04% 10,68% 24,99%5 44,56% 25,11% 0,00% 3,88% 2,14% 7,78%

Tabelle 4.7: Erkennungsraten der PCA für Rang 1 für verschiedene Dimensionen des Unterraums.

sinkender Dimensionszahl (konsistent zu [BHK97]). Das Konfidenzintervall für die Di-mensionsanzahl zur höchsten durchschnittlichen Erkennungsrate (500 Dimensionen) ist[31, 14; 34, 94], das Konfidenzintervall zu 100 Dimensionen ist [29, 61; 33, 37] und das für50 Dimensionen ist [27, 37; 31, 05]. Aus den Intervallen kann geschloßen werden, dass keineindeutiger Unterschied zwischen den Erkennungsleistungen bei 500 und 100 Dimensionenbesteht. Erst bei 50 Dimensionen sinkt die Erkennungsrate signifikant. Bei nur noch 100Dimensionen sind über 90% der Bildinformationen im Unterraum gespeichert und bei 200Dimensionen über 96%. Die Empfehlung von FERET 40% der Dimensionen (in unseremFall sind es gerade die 200 Dimensionen) für den Unterraum zu verwenden kann nach-folzogen werden, weil dies ein zufriedenstellender Kompromiss zwischen Dimensionsgrößeund Informationsgehalt der Projektionen scheint. Ist die Zahl der Hauptkomponenten zugering, sind hohe Fehlerraten zu verzeichnen (ab 25 Dimensionen). Dies haben auch dieVersuche von [WYB02] ergeben.

Die LDA-Ergebnisse zum Experiment mit unterschiedlicher Dimensionsanzahl des Un-terraums sind in Tabelle 4.8 angegeben. Bei der LDA können nur weniger von Null ver-schiedene Eigenvektoren zustande kommen als verschiedene Klassen vorhanden sind (vgl.Kapitel 3.3 und z.B. [DGG05]). Aus diesem Grund kann in 100 Dimensionen noch 100%der Energie erfasst werden. Selbst bei 50 Eigenvektoren ist im Vergleich zur maximalenDimensionsgröße keine eindeutige Veränderung der Erkennungsrate festzustellen (beideWerte im Bereich von 34%). Diese Ergebnisse sind zu denen der PCA ähnlich, jedoch


LDADim. Energie FAFB FAFC DUP1 DUP2 Durchschnitt

500 100% 71,13% 23,71% 27,29% 17,52% 34,91%...

......

......

......

100 100% 71,13% 23,71% 27,29% 17,52% 34,91%50 95,50% 70,04% 20,10% 29,64% 17,52% 34,33%25 74,22% 62,09% 12,89% 27,70% 11,97% 28,66%5 44,56% 24,85% 1,03% 5,82% 1,71% 8,35%

Tabelle 4.8: Erkennungsraten der LDA für Rang 1 für verschiedene Dimensionen des Unterraums.

enthalten wenige Fisherfaces mehr Informationen als die gleiche Anzahl von Eigenfaces(z.B. speichern 50 Fisherfaces über 95%, 50 Eigenfaces aber nur 83,48% Energie).

MPCDim. M P FAFB FAFC DUP1 DUP2 Durchschnitt

2005 40 51,97% 0,52% 53,05% 51,71% 39,31%10 20 51,97% 9,28% 52,23% 51,71% 41,30%

100 5 20 55,56% 1,55% 53,46% 51,71% 40,57%

102 5 46,03% 46,71% 50,42% 47,86% 47,76%5 2 47,20% 8,76% 51,25% 50,43% 39,41%

Tabelle 4.9: Erkennungsraten der MPC für Rang 1 für verschiedene Kombinationen von Mi-schungskomponenten M und Eigenvektoren P pro Mischungskomponente.

In Tabelle 4.9 sind Resultate zur Variierung der MPC-Parameter dargestellt. Es wur-den verschiedene Kombinationen von Mischungskomponenten und ihren Eigenvektorenuntersucht. Das Konfidenzintervall für die niedrigste durchschnittliche Erkennungsrate (5Mischungskomponenten mit je 40 Eigenvektoren) ist [37, 33; 41, 29] und das zur höchstenErkennungsrate (2 Mischungskomponenten mit je 5 Eigenvektoren) ist [45, 74; 49, 78]. Dar-aus folgt, dass eine signifikante Steigerung der Erkennungsrate durch einen Unterraum,der insgesamt nur 10 Dimensionen enthält, erreicht werden konnte. Außerdem ist die Kom-bination von Mischungskomponenten entscheidend. So ist die Erkennungsrate für 5 Mi-schungskomponenten und je 2 Eigenvektoren signifikant schlechter als die Erkennungsratefür 2 Mischungskomponenten mit je 5 Eigenvektoren. Als Ursache dafür vermuten wir, dassBilder der FERET-Datenbank gut durch zwei Unterräume repräsentiert werden können.Genaue Aussagen erfordern jedoch weitere Untersuchungen.



PCAnormal 74,14% 4,64% 34,90% 15,81% 32,37%ohne 1en 3 72,39% 20,62% 35,04% 17,52% 36,40%

Tabelle 4.10: Ergebnisse der PCA für 200 Eigenfaces, aber ohne die wichtigsten drei Eigenfaces.


LDAnormal 71,13% 23,71% 27,29% 17,52% 34,91%ohne 1en 3 65,27% 20,62% 22,85% 14,10% 30,71%

Tabelle 4.11: Ergebnisse der LDA für 200 Fisherfaces, aber ohne die wichtigsten drei Fisherfaces.


MPCnormal 51,97% 9,28% 52,22% 51,71% 41,30%ohne 1en 1/M 51,80% 10,31% 52,22% 51,71% 41,51%ohne 1en 3/M 49,21% 8,25% 52,22% 51,71% 40,35%

Tabelle 4.12: Ergebnisse der MPC für 10 Mischungskomponenten mit je 20 Eigenvektoren, wobeijeweils der erste Eigenvektor bzw. die ersten 3 Eigenvektoren jeder Mischungskomponente entferntwurden.

Konfidenzintervall

PCAnormal [30,48; 34,26]ohne 1en 3 [34,45; 38,35]

LDAnormal [32,98; 36,84]ohne 1en 3 [28,84; 32,58]

MPCnormal [39,31; 43,29]ohne 1en 1/M [39,52; 43,50]ohne 1en 3/M [38,36; 42,34]

Tabelle 4.13: Kofidenzintervalle zu den durchschnittlichen Erkennungsraten aus Tabelle 4.10,Tabelle 4.11 sowie Tabelle 4.12.


Ein weiterer Untersuchungsaspekt liegt in der Bedeutung der ersten Eigenvektoreneines Verfahrens. Es kann nämlich bei der PCA vorkommen, dass die ersten Eigenfaces(also die mit den größten Eigenwerten) Bildinformationen speichern, die für das Unter-scheiden von Gesichtern keine Rolle spielen. Beispielsweise kann es sein, dass ein Eigenfacedie Varianz in den Beleuchtungsstärken oder in den unterschiedlichen Gesichtsausdrückenaufnimmt. Aus diesem Grund wird ein weiteres PCA-Experiment durchgeführt, bei demdie wichtigsten drei Eigenfaces entfernt werden. Das Resultat ist in Tabelle 4.10 darge-stellt. Es ist offensichtlich ein signifikanter Anstieg der Erkennungsleistung der PCA fürdas FAFC-Testset feststellbar. Dieses Testset untersucht die Leistung der Verfahren, Ge-sichter unter verschiedenen Lichtbedingungen zu identifizieren (vgl. Kapitel 4.1.3). Diesignifikante Steigerung der Leistung durch das Entfernen der ersten drei Eigenfaces (vgl.Konfidenzintervalle in Tabelle 4.13) unterstützt die Vermutung, dass die ersten Eigenfa-ces Gesichter anhand der Beleuchtung unterscheiden. Diese Erkenntnis ist konsistent zu[BHK97] und [WYB02].

Das gleiche Experiment mit der LDA (Tabelle 4.11) zeigt, dass die ersten Fisherfacesim Gegensatz zu den Eigenfaces tatsächlich relevante Informationen (statt Lichtstärkeno.Ä.) speichern. Das ist daran zu erkennen, dass die Erkennungsrate ohne die ersten dreiFisherfaces für jedes Testset sinkt. Die Betrachtung der Konfidenzintervalle in Tabelle 4.13ergibt, dass die durchschnittliche Erkennungsrate der LDA ohne die ersten drei Fisherfacesim Vergleich zur Erkennungsrate mit den drei ersten Fisherfaces signifikant abnimmt. Dashaben auch die Versuche in [BHK97] ergeben.

Da bei der MPC in der Theorie sich jede Mischungskomponente auf bestimmte Ge-sichtseigenschaften spezialisiert und deshalb auch nur eine Mischungskomponente für dieVarianz in der Beleuchtung zuständig ist, kann durch das Entfernen des ersten Eigenvek-tors bzw. der ersten drei Eigenvektoren aus jeder Mischungskomponente keine bedeutendeSteigerung der Erkennungsleistung erwartet werden (vgl. Tabelle 4.12 und die entspre-chenden Konfidenzintervalle in Tabelle 4.13).

4.5.3 Distanzmetriken

Als Letztes wird die Erkennungsleistung jedes Verfahrens für sechs verschiedene Distanz-maße untersucht. Diese sind die euklidische Distanz (L2-Norm), die Manhattandistanz(L1-Norm), die Kosinus-Distanz sowie die Kombination jeder dieser Distanzmaße mit demMahalanobis-Raum (vgl. Kapitel 3.1.3).

Die Erkennungsraten der PCA für die sechs Distanzmaße sind in Tabelle 4.14 darge-stellt. Zu erkennen ist, dass die L1-Norm besser als die L2-Norm und die Kosinusdistanz istund die Projektion in den Mahalanobis-Raum für jedes Distanzmaß mit einer verbessertenErkennungsrate einhergeht. Der Grund dafür ist die gleichwertige Gewichtung jedes Ei-genfaces. Das ist vor allem an der Steigerung der Raten für das FAFC-Testset zu erklären.


PCAFAFB FAFC DUP1 DUP2 Durchschnitt

L2/euklid. 74,14% 4,64% 34,90% 15,81% 32,37%L1/manhat. 81,09% 29,90% 39,34% 18,38% 42,18%Cos 72,13% 7,22% 35,32% 14,96% 32,41%MahL2 79,33% 43,81% 34,76% 17,52% 43,86%MahL1 78,00% 44,33% 34,90% 18,80% 44,01%MahCos 85,10% 60,82% 46,12% 21,79% 53,46%

Tabelle 4.14: Erkennungsraten der PCA für unterschiedliche Distanzmaße.

Bilder in diesem Testset variieren in der Beleuchtungsstärke und durch die Normierung je-der Dimension auf eine Varianz von Eins fällt die hohe Streuung in der Beleuchtungsstärkenicht mehr so stark ins Gewicht und eine Unterscheidung der Gesichter mit geeigneterenDimensionen kann besser stattfinden. Die Mahalanobis-Kosinus-Distanz ist für die PCAam besten geeignet. Mit ihr kann für drei von vier Testkategorien eine signifikante Stei-gerung der Erkennungsrate erzielt werden. Dies ist konsistent zu den Erkenntnissen in[WYB02], [MP01] und [ML09]. Der Grund für die Verbesserung der Erkennungsleistungder PCA durch Verwendung der Mahalanobis-Kosinus-Distanz ist, dass die Kosinusdistanzden Winkel zwischen zwei Vektoren betrachtet und je gleicher die Richtung zweier Vek-toren ist, desto kleiner ist ihre Kosinusdistanz. Folglich ist für zwei ähnliche Projektionen(d.h. Vektoren mit ähnlicher Richtung) die Kosinusdistanz gering (vgl. Kapitel 3.1.3).

LDAFAFB FAFC DUP1 DUP2 Durchschnitt


Tabelle 4.15: Erkennungsraten der LDA für unterschiedliche Distanzmaße.

Bei der LDA führt die Projektion der Vektoren in den Mahalanobis-Raum zu keinerSteigerung der Erkennungsrate (vgl. Tabelle 4.15). Zwischen L2, L1 und der Kosinusdistanzliegt kein eindeutiger Unterschied für die LDA vor, denn das Konfidenzintervall für L2 ist[32,98; 36,84] und für die Kosinusdistanz [33,07; 36,93] (die Intervalle überschneiden sich).


MPCFAFB FAFC DUP1 DUP2 Durchschnitt


Tabelle 4.16: Erkennungsraten der MPC für unterschiedliche Distanzmaße.

Für die MPC kann die durchschnittliche Erkennungsrate ihres Standard-Distanzmaßes(L2) (Konfidenzintervall: [39,31; 43,29]) durch die Mahalanobis-Kosinus-Distanz (Konfi-denzintervall: [43,53; 47,57]) signifikant übertroffen werden. Das liegt daran, dass diesesMaß eine bessere Erkennung im FAFC-Testset erlaubt (mit der Begründung, wie bei derPCA).

4.5.4 Kombination bester Parameter

Nun soll die Erkennungsrate jedes Verfahrens gesteigert werden, indem die jeweils bestenParameter verwendet werden.

Dazu wird die PCA auf Bildern der Größe 30× 26 trainiert, 500 Eigenfaces (ohne dieersten drei) werden für den Unterraum verwendet und es wird die Mahalanobis-Kosinus-Distanz zum Testen benutzt. Bei der LDA sind es Bilder mit 15× 13 Pixel, 100 Dimensio-nen für den Unterraum und die Kosinusdistanz als Distanzsmaß. Für die MPC wird dieBildgröße von 45 × 39 Pixel, 2 Mischungskomponenten mit jeweils 5 Eigenvektoren unddie Mahalanobis-Kosinus-Distanz verwendet. Die Gallerie, das Trainingsset sowie die vierTestsets bleiben für alle Verfahren identisch, wie in Kapitel 4.4 beschrieben.

Die Ergebnisse des Tests für jedes Verfahren sind in Tabelle 4.17 den Ergebnissen desStandard-Tests gegenübergestellt. In der Tabelle sind außerdem die entsprechenden Kon-fidenzintervalle angegeben, mit denen überprüft werden soll, ob eine signifikante Verbes-serung der Erkennungsleistung eines Verfahrens erreicht werden konnte. Die Betrachtungder Konfidenzintervalle lässt den Schluß zu, dass mit den jeweils besten Parametern diedurchschnittlichen Erkennungsleistungen der PCA und LDA signifikant verbessert werdenkonnten. Die Leistung der MPC hingegen ist durch die Kombination ihrer besten Para-meter signifikant gesunken. Der Grund dafür ist wahrscheinlich, dass die MPC in ihremTraining auf bestimmte Parameter eingestellt wurde (vgl. Kapitel 3.4) und das Verfahrendeshalb durch spätere Parameterveränderungen nicht verbessert werden kann. Die Kom-bination der Parameter für die LDA hat dazu geführt, dass die Erkennungsrate der MPC

4.6. ZUSAMMENFASSUNG 65

FAFB FAFC DUP1 DUP2 Durchschnitt Konfidenzintervall

VorherPCA 73,47% 4,64% 34,35% 14,96% 31,85% [29,96; 33,74]LDA 69,29% 24,74% 23,27% 12,82% 32,53% [30,63; 34,43]MPC 51,97% 9,28% 52,22% 51,71% 41,30% [39,31; 43,29]

NachherPCA 63,51% 59,79% 19,11% 11,11% 38,38% [36,41; 40,35]LDA 78,58% 20,62% 48,34% 23,93% 42,87% [40,87; 44,87]MPC 39,92% 24,23% 37,40% 29,06% 32,65% [30,75; 34,55]

Tabelle 4.17: Erkennungsraten der PCA, LDA und MPC für standardisierte Parameter nachKapitel 4.4 (obere Tabellenhälfte) und für die in diesem Abschnitt bestimmten besten Parameter(untere Tabellenhälfte). Außerdem sind die Konfidenzintervalle zu den durchschnittlichen Erken-nungsraten angegeben.

nicht mehr eindeutig besser ist. Zudem ist die LDA nach der Kombination signifikant bes-ser als die entsprechende PCA. Dies war für die Ausgangsparameterbelegungen nicht derFall.

4.6 Zusammenfassung

Drei lineare Unterraumverfahren (PCA, LDA, MPC) wurden in diesem Kapitel getestet.Die Tests wurden an der FERET-Datenbank durchgeführt und Bilder wurden mit demVerfahren nach [CSU12b] normalisiert.

Bei der ersten Testdurchführung (Kapitel 4.4) hat man sich an dem FERET-Protokollorientiert und Parameter wurden so gewählt, dass ein möglichst direkter Vergleich zurLiteratur geführt werden konnte. Die Ergebnisse des Tests können zusammengetragenwerden:

1. Als Durchschnitt über die vier FERET-Testsets besteht zwischen den Erkennungs-raten der PCA und der LDA für Rang 1 kein eindeutiger Unterschied. Allerdings istfür den DUP1-Test die PCA signifikant besser als die LDA und die LDA ist für denFAFC-Test signifikant besser als die PCA.

2. Zwischen den durchschnittlichen Erkennungsraten unserer PCA und LDA und derPCA und LDA nach [CSU12a] besteht jeweils kein bedeutender Unterschied.

3. Die Erkennungsrate der MPC als Durchschnitt über die vier Testkategorien ist si-gnifikant höher als die der PCA und der LDA.

4. Die MPC erreicht für Rang 2 in allen Testkategorien eine höhere Erkennungsrateals PCA und LDA. Für Rang 2 ist die Erkennungsrate der MPC in jeder Testkate-


gorie genauso gut oder besser als die Erkennungsraten der besten Algorithmen derFERET-Tests.

5. Für Rang 6 erreicht das MPC-Verfahren Erkennungsraten von fast 100%.

Um die Erkennungsleistungen der Verfahren zu steigern, wurde versucht die jeweilsbesten Parameter jedes Verfahrens zu kombinieren. Untersucht wurden unterschiedlicheBildgrößen, Dimensionsanzahlen im Unterraum sowie sechs verschiedene Distanzmaße. DieExperimente ergaben folgende Resultate:

6. Generell steigt sowohl für PCA als auch für LDA mit der Verkleinerung der Bil-der die Erkennungsrate. Für die PCA kann die Erkennungsleistung insgesamt nichtsignifikant gesteigert werden, für die LDA schon.

7. Für PCA und LDA sinkt die Erkennungsleistung bei kleiner werdender Dimensiona-lität des Unterraums. Bei beiden Verfahren kann die Anzahl der Dimensionen auf 1

5der Maximalanzahl reduziert werden ohne eine eindeutig sinkende Erkennungsratezu erwarten.

8. Die signifikant höchste Erkennungsrate erzielt die MPC bei einer Konstellation von2 Mischungskomponenten mit je 5 Eigenvektoren. Andere getestete Konstellationenergaben keine eindeutigen Unterschiede in Erkennungsleistung.

9. Die wichtigsten Eigenvektoren der PCA speichern Bildinformationen, die nicht re-levant zur Identifizierung von Gesichtern sind. Entsprechend kann bei der PCA inspeziellen Fällen (z.B. FAFC-Kategorie) durch Entfernen der ersten Eigenvektorendie Erkennungsrate signifikant gesteigert werden. Dies ist für die LDA und die MPCnicht der Fall.

10. Für die PCA erzielt die Mahalanobis-Kosinus-Distanz im Vergleich zu anderen ge-testen Distanzmaßen die signifikant besten Erkennungsraten.

11. Bei der MPC wurde mit der Mahalanobis-Kosinus-Distanz eine im Vergleich zureuklidischen Distanz signifikant höhere Erkennungsrate erreicht.

12. Ein eindeutiger Anstieg der Erkennungsrate durch Variierung von Distanzmaßenkonnte bei der LDA nicht erreicht werden. Jedoch führte die Kosinusdistanz zu denhöchsten Raten.

Unter Ausnutzung dieser Erkenntnisse konnten die PCA und LDA für ihre jeweilsoptimalen Parameter signifikant in ihrer Erkennungsleistung verbessert werden. Außer-dem wurden für Rang 1 die Erkennungsraten der MPC erreicht. Der Versuch das MPC-Verfahren zu optimieren hatte insgesamt keinen Erfolg.

Kapitel 5

Abschluß

Im Verlauf dieser Arbeit wurden drei lineare Unterraumverfahren zur Gesichtserkennunguntersucht. Bevor ein Unterraumverfahren zur Identifikation von Gesichtern eingesetztwerden kann, wird es initialisiert. Dazu berechnet das Verfahren automatisch anhand vonBildern einer Gesichtsdatenbank einen Unterraum, in dem die Klassifizierung unbekannterGesichtsbilder durchgeführt wird. Für diesen Zweck werden Bilder in den berechneten Un-terraum projiziert. Durch die Projektion wird das anfängliche Problem ein möglicherweisegroßes Bild mit einer hohen Anzahl von Pixeln mit allen anderen Bildern der Datenbank zuvergleichen derart reduziert, dass nur noch die kompakten Projektionen der entsprechen-den Bilder miteinander verglichen werden müssen. Einen solchen Vergleich führt prinzipiellder Nächste-Nachbarn-Klassifikator durch.

Die drei vorgestellten Unterraumverfahren waren die Hauptkomponentenanalyse (PCA),die lineare Diskriminanzanalyse (LDA) und die Hauptkomponentenmischung (MPC). DiePCA und die LDA sind zwei bekannte Verfahren, die oft als Basis für den Vergleich vonGesichtserkennungsverfahren dienen. Beide Verfahren haben nach ihrer Entwicklung anden FERET-Tests teilgenommen und zählten dort zu den besseren Verfahren. GeringerRechenaufwand sowohl zur Initialisierung der Verfahren als auch zum Identifizieren un-bekannter Gesichter macht die PCA und LDA zu effizienten und schnellen Verfahren,die auch in Echtzeit-Anwendung zum Einsatz kommen können. Mit dem MPC-Modellkönnen Gesichter genauer repräsentiert werden als mit der gewöhnlichen PCA. Soll auseiner Datenbank beispielsweise die Identität eines unbekannten Gesichts auf sechs Perso-nen eingeschränkt werden, dann trifft die MPC in so einem Fall selbst unter schlechtenLichtverhältnissen oder großen Altersunterschieden der Personen mit nahezu 100%-igerSicherheit die korrekte Entscheidung.

Gesichtserkennung ist eine große Herausforderung. Seit Jahrzehnten versucht For-schung und Wissenschaft erfolgreiche und effiziente Gesichtserkennungsverfahren zu ent-wickeln. Eine besondere Schwierigkeit stellt dabei das Gesicht selbst dar, denn es ist kein in-variantes Identifizierungsmerkmal des Menschen. Lichteinflüße, Mimik und Alterung kön-

67

68 KAPITEL 5. ABSCHLUß

nen die Leistung eines Gesichtserkennungsverfahrens drastisch beeinflußen. Trotz dieserHindernisse wird weiterhin versucht neue Gesichtserkennungsverfahren zu entwickeln undalte zu verbessern.

Zum Fortschritt im Bereich der Gesichtserkennung hat die FERET-Datenbank beige-tragen. Durch ihren großen Umfang sowie ihrer einfachen Erhältlichkeit können Verfahrenzur Gesichtserkennung einfach und ausgiebig getestet werden. In Kooperation mit FE-RET stellt außerdem die Colorado State University (CSU) ein System zum Auswertenvon Gesichtserkennungsalgorithmen an der FERET-Datenbank zur Verfüngung. Zahlrei-che Veröffentlichungen sind der Beweis für den Erfolg der FERET-Datenbank und desCSU-Systems. Bis heute wird die FERET-Datenbank weiter erweitert und auf neue Pro-blembereiche der Gesichtserkennung angepasst, sodass auch in Zukunft die Entwicklungvon Gesichtserkennungsverfahren weiter voran getrieben werden kann. Neue FERET-Testssind die Basis für den weiteren Erfolg im Bereich der Gesichtserkennung.

Das Ziel der Arbeit drei Unterraumverfahren miteinander zu vergleichen wurde er-reicht. Unseres Wissens nach durften wir als erste Arbeit (abgesehen von der Originalar-beit) eine Implementierung der MPC vornehmen und mit dem Verfahren an der FERET-Datenbank experimentieren. Die Experimente betrachten wir als Erfolg, da mit der MPCein Verfahren gefunden werden konnte, das bereits ab Rang 6 eine sehr hohe Erkennungs-rate aufweist.

Zukünftige Arbeiten könnten sich auf weitere Experimente mit der MPC konzentrie-ren. Mit der genauen Repräsentation von Bildern ist es durchaus vorstellbar das MPC-Verfahren beispielsweise zur Bildkomprimierung zu verwenden. Bei unseren Experimentenmit der MPC sind wir außerdem auf einige Probleme gestoßen, die weiterer Untersuchungbedürfen. So gibt es keine automatische und analytische Methode, um zu entscheiden, wiedie Anzahl von Mischungskomponenten und Eigenvektoren zu wählen ist. Ein weiteresProblem stellt die lange Rechenzeit des Verfahrens zur Initialisierung dar. Abhängig vonBildgröße und Anzahl der Mischungskomponenten des Modells dauerte eine Initialisierungbis zu mehreren Tagen. Wir sind der Überzeugung, dass durch weitere Forschung die Ge-schwindigkeit des Verfahrens stark optimiert werden kann. Darüberhinaus könnte weiteruntersucht werden, ob das Verfahren für Rang 1 verbessert werden kann.

Abbildungsverzeichnis

1.1 35 manuell identifizierte Gesichtsmerkmale . . . . . . . . . . . . . . . . . . . 31.2 Komponenten der PCA, ICA und LDA . . . . . . . . . . . . . . . . . . . . . 6

2.1 Beispiel für eine korrelierte und eine unkorrelierte Punktwolke . . . . . . . . 142.2 Beispiel für zwei Normalverteilungen . . . . . . . . . . . . . . . . . . . . . . 152.3 Beispiel einer Mischverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 162.4 Beispiel für eine Vektorquantisierung . . . . . . . . . . . . . . . . . . . . . . 17

3.1 Grundaufbau eines Gesichtserkennungssystems . . . . . . . . . . . . . . . . 233.2 Beispielbilder aus der FERET-Datenbank . . . . . . . . . . . . . . . . . . . 243.3 Beispiel einer dekorrelierten Punktwolke . . . . . . . . . . . . . . . . . . . . 283.4 Klassifikation im Gesichtsraum . . . . . . . . . . . . . . . . . . . . . . . . . 293.5 Das durchschnittliche Gesicht der Trainingsmenge . . . . . . . . . . . . . . 303.6 Die wichtigsten fünf Eigenfaces . . . . . . . . . . . . . . . . . . . . . . . . . 323.7 Die unwichtigsten fünf Eigenfaces . . . . . . . . . . . . . . . . . . . . . . . . 323.8 Trennung von Klassen bei der LDA . . . . . . . . . . . . . . . . . . . . . . . 333.9 Schema des PCA+LDA-Vorgehens . . . . . . . . . . . . . . . . . . . . . . . 363.10 Die wichtigsten fünf Fisherfaces . . . . . . . . . . . . . . . . . . . . . . . . . 363.11 Die unwichtigsten fünf Fisherfaces . . . . . . . . . . . . . . . . . . . . . . . 363.12 Parameter eines MPC-Modells . . . . . . . . . . . . . . . . . . . . . . . . . 373.13 Schema des MPC-Trainings . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.14 Projektionen im MPC-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.1 Beispielsatz einer Person der FERET-Datenbank . . . . . . . . . . . . . . . 484.2 Beispiel eines normalisierten Bildes . . . . . . . . . . . . . . . . . . . . . . . 504.3 CMS-Kurve der PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.4 CMS-Kurve der LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 544.5 CMS-Kurve der MPC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554.6 Beispiel für Bildskalierungen . . . . . . . . . . . . . . . . . . . . . . . . . . 56

69

70 ABBILDUNGSVERZEICHNIS

Literaturverzeichnis

[Alp10] Alpaydin, E. (Herausgeber): Introduction to Machine Learning. The MITPress, Cambridge, Massachusetts, Zweite Auflage, 2010.

[Bar81] Baron, Robert J.: Mechanisms of Human Facial Recognition. Interna-tional Journal of Man-Machine Studies, Seiten 137–178, 1981.

[Beu03] Beutelspacher, A.: Lineare Algebra, Eine Einführung in die Wissen-schaft der Vektoren, Abbildungen und Matrizen. Vieweg+Teubner, SechsteAuflage, 2003.

[Bev01] Beveridge, J.R.: The Geometry of LDA and PCA Classifiers Illustratedwith 3D Examples. Technischer Bericht, Colorado State University, 2001.

[BHK97] Belhumeur, P.N., J.P. Hespanha und D.J. Kriegman: Eigenfaces vs.Fisherfaces: recognition using class specific linear projection. IEEE Tran-sactions on Pattern Analysis and Machine Intelligence, 19(7):711–720, Juli1997.

[BMS02] Bartlett, Marian Stewart, Javier R. Movellan und Terrence J.Sejnowski: Face recognition by independent component analysis. IEEETransactions on Neural Networks, Seiten 1450–1464, 2002.

[BP93] Brunelli, R. und T. Poggio: Face recognition: features versus templa-tes. IEEE Transactions on Pattern Analysis and Machine Intelligence,15(10):1042–1052, Oktober 1993.

[BSDG01] Beveridge, J.R., K. She, B.A. Draper und G.H. Givens: A nonpa-rametric statistical comparison of principal component and linear discri-minant subspaces for face recognition. In: Proceedings of the 2001 IEEEComputer Society Conference on Computer Vision and Pattern Recogniti-on, CVPR 2001, Band 1, Seiten 535–542, 2001.

[Com94] Comon, Pierre: Independent component analysis, a new concept? SignalProcess., 36(3):287–314, April 1994.

71

72 LITERATURVERZEICHNIS

[CSU12a] CSU Baseline Results on the Feret Database (Website), Oktober 2012.http://www.cs.colostate.edu/evalfacerec/algorithms/version5/CSUBaselineResultsV5/index.html.

[CSU12b] Evaluation of Face Recognition Algorithms (Colorado State University)Website, Oktober 2012. http://www.cs.colostate.edu/evalfacerec/data.php.

[DGG05] Delac, Kresimir, Mislav Grgic und Sonja Grgic: Independent compa-rative study of PCA, ICA, and LDA on the FERET data set. InternationalJournal of Imaging Systems and Technology, 15(5):252–260, 2005.

[DHS01] Duda, R.O., P.E. Hart und D.G. Stork: Pattern classification. PatternClassification and Scene Analysis: Pattern Classification. Wiley, 2001.

[DY93] Demers, David und Garrison Cottrell Y: Non-Linear DimensionalityReduction. In: Advances in Neural Information Processing Systems 5, Seiten580–587. Morgan Kaufmann, 1993.

[EC96] Etemad, K. und R. Chellappa: Face recognition using discriminant ei-genvectors. In: 1996 IEEE International Conference on Acoustics, Speech,and Signal Processing, 1996. ICASSP-96. Conference Proceedings, Band 4,Seiten 2148–2151, Mai 1996.

[FER12] Face Recognition Technology (FERET) Website, Oktober 2012. FERET-Database, http://www.nist.gov/itl/iad/ig/feret.cfm.

[Fin03] Fink, G.A.: Mustererkennung Mit Markov-Modellen: Theorie - Praxis -Anwendungsgebiete. Leitfäden Der Informatik. Teubner, 2003.

[Fin12] Fink, G.A.: Skriptum zur Vorlesung “Mustererkennung”, Technische Uni-versität Dortmund. 2012.

[GBDB04] Givens, GeofH., J.Ross Beveridge, BruceA. Draper und DavidBolme: Using a Generalized Linear Mixed Model to Study the ConfigurationSpace of a PCA+LDA Human Face Recognition Algorithm. In: ArticulatedMotion and Deformable Objects, Band 3179 der Reihe Lecture Notes inComputer Science, Seiten 1–11. Springer Berlin Heidelberg, 2004.

[HYH+05] He, X., S. Yan, Y. Hu, P. Niyogi und H.J. Zhang: Face recognitionusing laplacianfaces. IEEE Transactions on Pattern Analysis and MachineIntelligence, 27(3):328–340, 2005.

[IJCY96] I. J. Cox, J. Ghosn und P. N. Yianilos: Feature-based face recognitionusing mixture-distance. In: Proceedings of IEEE Conference on ComputerVision and Pattern Recognition, Seiten 209–216, 1996.

LITERATURVERZEICHNIS 73

[Jä00] Jänich, K.: Lineare Algebra. Springer, Achte Auflage, 2000.

[JA09] Jafri, Rabia und Hamid R. Arabnia: A Survey of Face RecognitionTechniques. Journal of Information Processing Systems, 5(2):41–68, Juni2009.

[Kan73] Kanade, Takeo: Picture Processing System by Computer Complex andRecognition of Human Faces. In: doctoral dissertation, Kyoto University.November 1973.

[Kir10] Kirillova, E.: Skript zur Vorlesung “Statistik, Wahrscheinlichkeitsrech-nung und Mathematische Logik”, Technische Universität Dortmund. 2010.

[KM03] Kowalsky, H.-J. und G.O. Michler: Lineare Algebra. Walter de gruyter,12. Auflage, 2003.

[LGTB97] Lawrence, S., C.L. Giles, Ah Chung Tsoi und A.D. Back: Face re-cognition: a convolutional neural-network approach. IEEE Transactions onNeural Networks, 8(1):98 –113, Januar 1997.

[LL99] Liposcak, Zdravko und Sven Loncaric: A Scale-Space Approach toFace Recognition from Profiles. In: Proceedings of the 8th InternationalConference on Computer Analysis of Images and Patterns, CAIP ’99, Seiten243–250, London, UK, 1999. Springer-Verlag.

[LWQ05] Li, Huaqing, Shaoyu Wang und Feihu Qi: Automatic Face Recognitionby Support Vector Machines. In: Combinatorial Image Analysis, Band 3322der Reihe Lecture Notes in Computer Science, Seiten 716–725. SpringerBerlin Heidelberg, 2005.

[LY05] Li, Bicheng und Hujun Yin: Face recognition using RBF neural networksand wavelet transform. In: Proceedings of the Second international confe-rence on Advances in neural networks - Volume Part II, ISNN’05, Seiten105–111, Berlin, Heidelberg, 2005. Springer-Verlag.

[MK01] Martínez, Aleix M. und Avinash C. Kak: PCA versus LDA. IEEETrans. Pattern Anal. Mach. Intell., 23(2):228–233, Februar 2001.

[ML09] Miller, Philip und Jamie Lyle: The Effect of Distance Measures onthe Recognition Rates of PCA and LDA Based Facial Recognition. DigitialImage Processing, 2009.

[mn85] nixon mark: Eye Spacing Measurement for Facial Recognition. In: Proc.SPIE Applications of Digital Image Processing, Band 575, Seiten 279–283,1985.


[MNP96] Moghaddam, B., C. Nastar und A. Pentland: A Bayesian SimilarityMeasure for Direct Image Matching. In: Proceedings of the 13th Interna-tional Conference on Pattern Recognition - Volume 2, ICPR ’96, Seiten350–358, Washington, DC, USA, 1996.

[MP98] Moon, H. und P.J. Phillips: The FERET verification testing protocolfor face recognition algorithms. In: Third IEEE International Conferenceon Automatic Face and Gesture Recognition, Seiten 48–53, April 1998.

[MP01] Moon, Hyeonjoon und P Jonathon Phillips: Computational and per-formance aspects of PCA-based face-recognition algorithms. Perception,30:303–321, 2001.

[NI99] Nefian, Ara V. und Monson H. Hayes III: Face Recognition Using AnEmbedded HMM. In: IEEE Conference on Audio and Video-based BiometricPerson Authentication, Seiten 19–24, 1999.

[PL95] Paulus, Erwin und Michael Lehning: Die Evaluierung von Spracher-kennungssystemen in Deutschland. Technischer Bericht, Universitäts- undLandesbibliothek, Saarbrücken, 1995.

[PMRR00] Phillips, P.J., Hyeonjoon Moon, S.A. Rizvi und P.J. Rauss: The FE-RET evaluation methodology for face-recognition algorithms. IEEE Tran-sactions on Pattern Analysis and Machine Intelligence, 22(10):1090–1104,Oktober 2000.

[PRD96] Phillips, P. Jonathon, Patrick J. Rauss und Sandor Z. Der: FE-RET (Face Recognition Technology) Recognition Algorithm Developmentand Test Results. Army Research Laboratory, Oktober 1996.

[PWHR98] Phillips, P.Jonathon, Harry Wechsler, Jeffery Huang und Pa-trick J. Rauss: The FERET database and evaluation procedure for face-recognition algorithms. Image and Vision Computing, 16(5):295 – 306, 1998.

[QS06] Quadteroni, A. und F. Saleri: Wissenschaftliches Rechnen mit Matlab.Springer, 2006.

[SBB02] Sim, Terence, Simon Baker und Maan Bsat: The CMU Pose, Illu-mination, and Expression (PIE) Database. In: Proceedings of the IEEEInternational Conference on Automatic Face and Gesture Recognition, Mai2002.

[SH94] Samaria, F.S. und A.C. Harter: Parameterisation of a stochastic modelfor human face identification. In: Proceedings of the Second IEEE Workshopon Applications of Computer Vision, Seiten 138–142, Dezember 1994.

LITERATURVERZEICHNIS 75

[SK87] Sirovich, L. und M. Kirby: Low-dimensional procedure for the charac-terization of human faces. Journal of the Optical Society of America A,4(3):519–524, März 1987.

[TC02a] Turaga, D.S. und Tsuhan Chen: Face recognition using mixtures ofprincipal components. In: International Conference on Image Processing,Band 2, Seiten II–101 – II–104, Dezember 2002.

[TC02b] Turaga, D.S. und Tsuhan Chen: Model-based error concealment for wi-reless video. IEEE Transactions on Circuits and Systems for Video Tech-nology, 12(6):483–495, Juni 2002.

[TP91a] Turk, M. und A. Pentland: Eigenfaces for recognition. J. CognitiveNeuroscience, 3(1):71–86, Januar 1991.

[TP91b] Turk, M.A. und A.P. Pentland: Face recognition using eigenfaces. In:IEEE Computer Society Conference on Computer Vision and Pattern Re-cognition, CVPR ’91, Seiten 586–591, Juni 1991.

[WFKvdM97] Wiskott, L., J.-M. Fellous, N. Kruger und C. von der Malsburg:Face recognition by elastic bunch graph matching. In: International Confe-rence on Image Processing, Band 1, Seiten 129–132, Oktober 1997.

[wSt12] Hörzu Wissen Website, Oktober 2012. http://www.hoerzu.de/wissen-service/wissen/datenschuetzer-warnen.

[WYB02] W. Yambor, B. Draper und R. Beveridge: Analyzing PCA-based FaceRecognition Algorithms: Eigenvector Selection and Distance Measures. Em-pirical Evaluation Methods in Computer Vision, Colorado State University,2002.

[YCH89] Yuille, A.L., D.S. Cohen und P.W. Hallinan: Feature extraction fromfaces using deformable templates. In: IEEE Computer Society Conferenceon Computer Vision and Pattern Recognition, Proceedings CVPR ’89, Sei-ten 104–109, Juni 1989.

[ZCK98] Zhao, W., R. Chellappa und A. Krishnaswamy: Discriminant analysisof principal components for face recognition. In: Third IEEE InternationalConference on Automatic Face and Gesture Recognition, Seiten 336–341,April 1998.

[ZCP99] Zhao, W., R. Chellappa und P. Phillips: Subspace Linear Discrimi-nant Analysis for Face Recognition, Computer Vision Laboratory, Centerfor Automation Research, University of Maryland, April 1999.


[ZHL+05] Zhang, Guangcheng, Xiangsheng Huang, Stan Li, YangshengWang und Xihong Wu: Boosting Local Binary Pattern (LBP)-Based FaceRecognition. In: Advances in Biometric Person Authentication, Seiten 179–186. 2005.

Documents

Bachelorarbeit - TU Dortmundpatrec.cs.tu-dortmund.de/pubs/theses/ba_pavelko.pdfBachelorarbeit Lineare Unterraumtechniken zur automatischen Gesichtserkennung Andreas Pawelko Oktober