Upload
vandat
View
216
Download
0
Embed Size (px)
Citation preview
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 1 -
Multivariate Verfahren
Prof. Dr. Jörg Rahnenführer
Raum 720Email: rahnenfuehrer@statistik.
tu-dortmund.de
• Voraussetzungen: • Vordiplom in Statistik,
Mathematik, Datenanalyse, Informatik
• Zeiten und Räume• Vorlesung (4V):
Mo 8.30-10.00, M/E 21
Do 10.15-11.45, M/E 21
• Übung (2Ü):Fr 10.15-11.45 M/E 25Fr 14.15-15.45 M/E 27
M.Sc. Katrin Knies
Raum 730Email: [email protected]
dortmund.de
• Leistungsnachweis• Mündliche Prüfung
• Statistik: Spezialgebiete
• Datenwissenschaft
• Zulassungsvoraussetzungen zur mündlichen Prüfung
• 50% der Übungspunkte
• 50% der Punkte aus Übungen und Klausur(Gewichtung 80% Klausur)
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 2 -
Multivariate Verfahren
• Wichtigste Grundlage der Vorlesung ist ein Skript von Prof. Dr. Roland Fried, TU Dortmund, Fakultät Statistik:
Multivariate Statistik (Wintersemester 2006/07)
• Skript beruht teilweise auf früheren Skripten von• Prof. Dr. Claudia Becker, Universität Halle-Wittenberg
• Prof. Dr. Isabel Molina, Universidad Carlos III de Madrid
• Andere Literatur• Backhaus, K. et al., Multivariate Analysemethoden, 10. Auflage, Berlin
2003.
• Johnson, R.A. und D.W. Wichern, Applied Multivariate StatisticalAnalysis, 5. Auflage, New Jersey 2002.
• Fahrmeir, L., A. Hamerle und G. Tutz (Hrsg.), Multivariate statistische Verfahren, 2. Auflage, Berlin 1996.
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 3 -
Themengebiete der Vorlesung
0 Multivariate Analysemethoden
1 Multivariate Zufallsvariablen
2 Die multivariate Normalverteilung
3 Normalverteilungsmodelle
4 Hauptkomponentenanalyse
5 Faktorenanalyse
6 Kanonische Korrelationsanalyse
7 Korrespondenzanalyse
8 Clusteranalyse
9 Diskriminanzanalyse
10 Graphische Modelle
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 4 -
0. Multivariate Analysemethoden
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 5 -
Multivariate Analysemethoden
• Häufige Situation: mehrdimensionale (multivariate) Daten
• Beschreibung der Untersuchungsobjekte (’Individuen’) durch mehrere Variablen
• Multivariate Verfahren dienen zur Analyse solcher mehrdimensionaler Daten, insbesondere der Zusammenhänge unter den Variablen
• Beispiele• Messwerte bei Menschen
• Alter, Geschlecht, Körpergröße, Gewicht, Puls, Blutdruck
• Risikofaktoren bei Krebspatienten• Ausdehnung des Tumors, Vorhandensein von Metastasen, Rauchen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 6 -
Multivariate Analysemethoden
• Auswahl geeigneter multivariater Analysemethoden• Verschiedene Arten der “Zusammenhangsanalyse“ adressieren
verschiedene Fragestellungen
• Korrelationsanalyse
• Hypothesentests für eine oder mehrere Populationen
• Multivariate Varianzanalyse, multiple multivariate Regression
• Hauptkomponentenanalyse
• Faktorenanalyse
• Korrespondenzanalyse
• Clusteranalyse
• Diskriminanzanalyse
• Graphische Modelle
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 7 -
Multivariate Analysemethoden
• Korrelationsanalyse• Ziel: Bestimmung von paarweisen, multiplen und partiellen
Korrelationen
• Beispiel: Gewicht, Körpergröße und Alter von Personen
• Paarweise Scatterplots fürGewicht, Körpergröße undAlter von n = 21 Individuen
• Scatterplot kann als sehreinfaches multivariatesVerfahren betrachtetwerden
Körpergröße
Gew
icht
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 8 -
Multivariate Analysemethoden
• Korrelationsanalyse• Ziel: Bestimmung von paarweisen, multiplen und partiellen
Korrelationen
• Beispiel: Gewicht, Körpergröße und Alter von Personen
• Paarweise Scatterplots
Alter
Gew
icht
Alter
Kör
perg
röß
e
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 9 -
Multivariate Analysemethoden
• Hypothesentests für eine oder mehrere Populationen
• Ziel: Unterscheidung von Populationen anhand von mehrdimensionalen Merkmalen
• Beispiel: Gefälschte Banknoten
• Daten: ne
= 100
echte und nf= 100
falsche Schweizer Banknoten
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 10 -
Multivariate Analysemethoden
• Multivariate Varianzanalyse• Frage: Wirken mehrere Variablen einzeln und/oder gemeinsam
auf eine oder mehrere interessierende Merkmale?
• Beispiel Werkstatt• Fertigung von Autorädern in verschiedenen Werkstätten mit jeweils
mehreren Maschinen• Zwei Qualitätsmerkmale zur Beurteilung der gefertigten Räder• Gibt es Qualitätsunterschiede zwischen den Maschinen innerhalb
einer Werkstatt, oder zwischen den Werkstätten?
• Multiple Multivariate Regression• Funktionaler Zusammenhang zwischen mehreren Einfluss- und
einer oder mehreren Zielgrößen
• Beispiel Prostatakrebs• Untersuchung des Einflusses verschiedener Prädiktoren auf eine
Zielvariable
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 11 -
Multivariate Analysemethoden
• Daten zum Prostatakrebs von Stamey et al. (1989)
• Prädiktoren: lcavol log cancer volumelweight log prostate weightage
lbph log benign hyperplasiaamount
svi seminal vesicle invasionlcp log capsular penetrationgleason gleason scorepgg45 percent gleason
scores 4 or 5
• Zielvariable:log(PSA) (prostate specific antigen) level
Daten standardisiert auf Varianz 1
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 12 -
Lineare Regression: Prostatakrebs
Kovarianz-Matrix:
0.7570.6630.4810.0300.2760.0740.483pgg45
0.4760.3070.0330.3660.0240.426gleason
0.671-0.0890.1730.1570.692lcp
-0.1390.1290.1810.593svi
0.2870.4370.063lbph
0.3170.286age
0.300lweight
gleasonlcpsvilbphagelweightlcavol
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 13 -
Lineare Regression: Prostatakrebs
• Modell für log PSA
• Prädiktoren auf Varianz 1 normalisiert
• Test auf Ausschließungeiner Gruppe von Termendurch F-test (ANOVA)
• Z-score misst somit den Effekt für das Entferneneiner Variable aus demModell
• lcp ist nicht signifikantwenn lcalvol im Modellenthalten ist, ansonstenschon!
1.740.150.27pgg45
-0.150.15-0.02gleason
-1.870.15-0.29lcp
2.470.120.31svi
2.060.100.21lbph
-1.400.10-0.14age
2.750.110.30lweight
5.370.130.68lcavol
27.660.092.48Intercept
Z ScoreStd. ErrorCoefficientTerm
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 14 -
Multivariate Analysemethoden
• Hauptkomponentenanalyse• Bestimmung weniger Richtungen, die möglichst viel Varianz
erklären
• Iterative BestimmungorthogonalerVektoren
• Erste Hauptkomponenteentspricht der linearenTransformation derDaten auf die Richtungmit maximalerVarianz
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 15 -
Multivariate Analysemethoden
• Faktorenanalyse• Ähneln sich mehrere Merkmale so stark, dass wir sie als ein
einziges ”latentes” Merkmal betrachten können?
• Beispiel• Wichtige Charakteristika für Einstellungschancen von Bewerbern?
• Bei diesen Charakteristika kann es sich um ”abstrakte” Faktoren handeln, wie etwa Kontaktfähigkeit oder emotionale Kompetenz.
• Korrespondenzanalyse• Beziehungen zwischen kategoriellen Variablen an mehreren
Individuen
• Beispiel• Betrachtung der Haarfarbe und Augenfarbe von Menschen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 16 -
Multivariate Analysemethoden
• Clusteranalyse• Auffinden von Gruppen ähnlicher Objekte
• Beispiel• Marketinganalyse zur Einteilung von Produkten in homogen
Untergruppen• Ein Handyhersteller stellt auf Basis einer Verbraucherbefragung fest,
dass alle drei von ihm hergestellte Handytypen in die gleiche Untergruppe eingeordnet werden, sich aus Verbrauchersicht also kaum unterscheiden
• Einen oder zwei dieser Typen durch einen neuen, mit anderen Leistungsmerkmalen ausgestatteten Typen ersetzen, um so einen neuen Kundenkreis anzusprechen?
• Wichtigste „Zutaten“ der Clusteranalyse• Distanzmaß oder Ähnlichkeitsmaß zwischen Objekten
• Clusteralgorithmus zum Auffinden kompakter Gruppen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 17 -
Multivariate Analysemethoden
• Diskriminanzanalyse
• Einordnung von Objekten in gegebene Klassen
• Beispiel Kreditwürdigkeit• Beurteilung der Kreditwürdigkeit von Firmen an Hand von
Bilanzkennzahlen, unter Zurückgreifen auf “Erfahrungswerte”
• Betrachtung einer ”Lernstichprobe” von Firmen mit bekannten Bilanzkennzahlen und Kreditwürdigkeit
• Entscheidung über die Kreditwürdigkeit eines neuen Antragstellers mit dieser Vorinformation
• Beispiel Krebsdiagnose• Prognose von Therapieerfolg anhand von klinischen und genetischen
Messungen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 18 -
Multivariate Analysemethoden
• Graphische Modelle• Unterscheidung mittelbarer und unmittelbarer Zusammenhänge
unter mehreren Variablen
• Beispiel• Examensnoten in Mechanik Me, Vektorrechnung Ve, Algebra Al,
Analysis An, Statistik St (gemessen in Prozentzahlen) von 88 Studenten
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 19 -
1. Multivariate Zufallsvariablen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 20 -
Multivariate Zufallsvariablen
1.1 Multivariate Verteilungen
• Zufallsvektor: gemeinsame Darstellung d eindimensionaler Zufallsvariablen.• Wie im univariaten Fall unterscheidet man zwischen diskret und stetig.
• Mischformen: Zufallsvektor mit diskreten und stetigen Merkmalen (Komponenten).
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 21 -
Multivariate Zufallsvariablen
• Beispiele für multivariate Verteilungen• Biometrie
• Klinische Messungen bei Krebspatienten (Örtliche Ausdehnung des Primärtumors, Existenz von regionären Lymphknotenmetastasen, Existenz von Fernmetastasen, Blutwerte, Raucherstatus, genetische Mutationen)
• Genexpressionswerte (Messungen der Aktivität von Tausenden Genen gleichzeitig)
• Ökonometrie• Aktienkurse verschiedener Unternehmen
• Daten zu Konsum, Investition, Import, Export (BIP)
• Technometrie• Zur Risikoanalyse technischer Systeme
• Einstellungen verschiedener technischer Parameter, technologische Bauteilqualität
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 22 -
Multivariate Zufallsvariablen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 23 -
Multivariate Verteilungsfunktion
• Die folgende Definition d-variater Verteilungs- und Dichtefunktionen verallgemeinert die entsprechenden Begriffe f ¨ur eindimensionale Zufallsvariablen:
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 24 -
Multivariate Dichte
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 25 -
Multivariate Dichte
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 26 -
Multivariate Verteilungsfunktion
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 27 -
Multivariate Verteilungsfunktion
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 28 -
Erwartungswert
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 29 -
Erwartungswert
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 30 -
Kovarianz
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008 - 31 -
Kovarianz
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 1 -
Kovarianz
Eine Kovarianzmatrix ist symmetrisch, damit diagonalisierbar (mittels Hauptachsentransformation) und folglich positiv semidefinit.
Die Berechnungen erfolgen mittels einfacher Matrizenrechnung, meist unter Ausnutzung der Linearität des Erwartungswertes
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 2 -
Bedingte Erwartungen
• Die bedingte Erwartung ist eines der tiefsten und wichtigsten Konzepte der Wahrscheinlichkeitstheorie, aber auch offensichtlich eines der am schwersten zu vermittelnden Konzepte
• Allgemeine Definition:
Die Funktion Y=E(X| ) heißt dann bedingte Erwartung von X
• Wir betrachten nur Spezialfälle• Die σ-Algebra wird ersetzt durch eine Zufallsvariable
• Die Zufallsvariable ist entweder stetig oder diskret verteilt
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 3 -
Bedingte Erwartungen
E(XX2)-E(X)E(X2)
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 4 -
Bedingte Erwartungen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 5 -
Bedingte Erwartungen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 6 -
Bedingte Erwartungen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 7 -
Bedingte Erwartungen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 8 -
Bedingte Erwartungen
• Interpretation des bedingten Erwartungswertes• Bedingte Erwartung als orthogonale Projektion
• h(X1) ist eine bzgl. X1 messbare Funktion, die X2
besonders gut approximiert
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 9 -
Multivariate Zufallsvariablen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 10 -
Multivariate Zufallsvariablen
• Empirische Größen entsprechen den theoretischen Größen, wobei die multivariaten Verteilungen durch die empirischen Verteilungen ersetzt sind
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 11 -
Multivariate Zufallsvariablen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 12 -
Multivariate Zufallsvariablen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 13 -
Multivariate Zufallsvariablen
• Für lineare Transformationen können Mittelwerte und Kovarianzenleicht berechnet werden
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 14 -
Multivariate Zufallsvariablen
• Empirische Mittelwerte und Kovarianzenim (Größe/Gewicht)-Datensatz
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 15 -
Multivariate Zufallsvariablen
• Wichtigste Transformation eines Datensatzes zur Normalisierung bzgl. Mittelwert und Kovarianz
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 16 -
Multivariate Zufallsvariablen
• Jordan‘sche Zerlegung• Charakterisierung von symmetrischen Matrizen
• Hilfsmittel zur Berechnung von Hauptkomponenten
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 17 -
Multivariate Zufallsvariablen
• Beispiel 1.26 • Beispiel 1.27(Fortsetzung von Beispiel 1.2)
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 18 -
Multivariate Zufallsvariablen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 19 -
Multivariate Zufallsvariablen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 20 -
Multivariate Zufallsvariablen
• Verallgemeinerung der inversen Matrix auf singuläre und nichtquadratische Matrizen
• Häufigste Anwendung: Lösung linearer Gleichungssysteme
• Kann mit Hilfe von Singulärwertzerlegung berechnet werden
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 21 -
Multivariate Zufallsvariablen
• Zusammenhang von theoretischen und empirischen Größen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 22 -
Multivariate Zufallsvariablen
• Wichtigster Satz der Statistik:
• ZENTRALER GRENZWERTSATZ
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 23 -
Multivariate Zufallsvariablen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 24 -
Multivariate Zufallsvariablen
• Zentraler Grenzwertsatz für Transformationen des empirischen Mittelwerts
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008 - 25 -
Multivariate Zufallsvariablen
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 1 -
2. Die multivariate Normalverteilung
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 2 -
Theorie der Multinormalverteilung
• Multivariate Normalverteilung ist die wichtigste
multivariate Verteilung
• Normalverteilung eignet sich zur Modellierung von Größen, die durch
das Zusammenwirken vieler Zufallseinflüsse entstehen
• Messfehler, Abweichungen vom Sollwert, physikalische Größen wie
Länge, Gewicht, Volumen etc.
• Die multivariate Normalverteilung ist die einzige multivariateVerteilung, deren Komponenten stochastisch unabhängig sind und deren Dichte zugleich rotationssymmetrisch ist
• Eine multivariate Verteilung ist genau dann eine multivariateNormalverteilung, wenn alle Linearkombinationen der Komponenten
univariate Normalverteilungen sind
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 3 -
Theorie der Multinormalverteilung
• Univariate Normalverteilung
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 4 -
Theorie der Multinormalverteilung
• Multivariate Normalverteilung• Eindeutig bestimmt durch Erwartungswertvektor und Kovarianzmatrix
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 5 -
Theorie der Multinormalverteilung
• Standardnormalverteilung
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 6 -
Theorie der Multinormalverteilung
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 7 -
Theorie der Multinormalverteilung
• Die Kovarianzmatrix ist symmetrisch und beinhaltet alle
Kovarianzen von Paaren von den Komponenten der
multivariaten Verteilung
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 8 -
Theorie der Multinormalverteilung
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 9 -
Theorie der Multinormalverteilung
• Höhenlinien bei der (Standard-)Normalverteilung
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 10 -
Theorie der Multinormalverteilung
Höhenlinien
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 11 -
Theorie der Multinormalverteilung
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 12 -
Theorie der Multinormalverteilung
• Lineare Transformationen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 13 -
Theorie der Multinormalverteilung
• Beweis durch Berechnung der Kovarianzmatrix mit
gemischtem Term ΣΣΣΣ12 = AΣΣΣΣBT
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 14 -
Theorie der Multinormalverteilung
• Approximation und bedingte Verteilung
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 15 -
Theorie der Multinormalverteilung
• Für eine multivariate Normalverteilung ist die bedingte Erwartung
linear in x1
und die bedingte Varianz unabhängig von x1.
• Die beste Approximation von X2
durch X1
fällt mit der besten linearen Approximation BX
1+b von X
2durch X
1zusammen.
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 16 -
Theorie der Multinormalverteilung
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008 - 17 -
Theorie der Multinormalverteilung
• Spezialfall d=k+1
• Multiple Korrelation: maximale Korrelation zwischen Xd
und einer
Linearkombination BX1, für k = 1 „gewöhnliche“ Korrelation
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008 - 1 -
Theorie der Multinormalverteilung
• Multiple Korrelation zwischen X1 und(X2 ,X3) ist (notwendigerweise) größer als die (univariaten) Korrelationen zwischen X1 und X2
und zwischen X1
und X3
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008 - 2 -
Theorie der Multinormalverteilung
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008 - 3 -
Theorie der Multinormalverteilung
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008 - 4 -
Stichprobenverteilungen
• Bei multivariaten Datenanalysen geht man oft von einer multivariaten Normalverteilung aus, kennt aber Erwartungswert und Kovarianzmatrix nicht.
• Übergang von theoretischen zu empirischen Größen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008 - 5 -
Stichprobenverteilungen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008 - 6 -
Stichprobenverteilungen
• Test, ob die Korrelation in einem bestimmten Intervall liegt (Konfidenzintervalle)
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008 - 7 -
Stichprobenverteilungen
Übung: Nachrechnen mit r12 = 0.73, n = 100
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008 - 8 -
Stichprobenverteilungen
• Bei der Kovarianzmatrix stoßen wir auf die Wishart-Verteilung(multivariate Erweiterung der χ2-Verteilung)
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008 - 9 -
Stichprobenverteilungen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008 - 10 -
Stichprobenverteilungen
(Im Wesentlichen Projektionsmatrizen)
Ü: Warum folgt dies?
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 1 -
Stichprobenverteilungen
Hotteling´s T2-Verteilung (multivariate Erweiterung der t-Verteilung)
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 2 -
Stichprobenverteilungen
• Zusammenhang zwischen Hotteling´s T2-Verteilung und F-Verteilung
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 3 -
Schätztheorie
• Allgemeines Schätzen (mit parametrischen Familien)
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 4 -
Schätztheorie
• Scorefunktion und Fisher-Informationsmatrix für Normalverteilungen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 5 -
Schätztheorie
• Der ML-Schätzer ist also unter Regularitätsbedingungenasymptotisch unverzerrt, effizient und normalverteilt.
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 6 -
Schätztheorie
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 7 -
3. Normalverteilungsmodelle
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 8 -
Parametertests
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 9 -
Parametertests
• Asymptotische Verteilung für Likelihood-Quotienten (LR) Test
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 10 -
Parametertests
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 11 -
Parametertests
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 12 -
Parametertests
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 13 -
Parametertests
Hier wird dasMaximum über alleVektoren a gebildet, so dass dasKonfidenzintervallfür beliebiges festesa gilt
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 14 -
Parametertests
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 15 -
Parametertests
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008 - 16 -
Parametertests
0.5 2 3 3 1- pchisq(2.7365,3)d p= ⋅ ⋅ = ⇒ =
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 1 -
Parametertests
• Spezialfall für Likelihood-Quotienten Test• Test auf einen bestimmten Koeffizientenvektor im linearen Modell
Exakte Verteilung der LR
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 2 -
Lineare Restriktionen
• Testen von linearen Hypothesen (lineare Restriktionen)
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 3 -
Lineare Restriktionen
• Es soll getestet werden, ob jeweils die i-te Komponente des Vektors (X
1,...,X
k) und des Vektors (X
k+1,...,X
d) denselben Erwartungswert
haben
• Linke Formulierung der Nullhypothese entspricht der anschaulichen Formulierung, rechte der Formulierung mit Kontrastmatrix C=(diag(1,...,1),diag(-1,...,-1)) mit jeweils k Einträgen 1 bzw. -1
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 4 -
Lineare Restriktionen
• Banknoten-Beispiel: Sind die Abstände von inneren Rechteck zum unteren Rand (x
4) bzw. oberen Rand (x
5) gleich?
signifikant wegen F1,99(13.638) = 0.00036
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 5 -
Lineare Restriktionen
• Es soll getestet werden, ob alle Komponenten des Vektos (Xk+1
,...,Xd)
den Erwartungswert 0 haben
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 6 -
Lineare Restriktionen
• Repeated Measures (wiederholte Messungen)• n Beobachtungen mit d Messungen (Bedingungen, Behandlungen,
Prüfungen,… )
• In Matrixschreibweise:
Kovarianzmatrix unbekannt,siehe Satz 3.10
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 7 -
Lineare Restriktionen
• Repeated Measures (wiederholte Messungen)• n Beobachtungen mit d Messungen (Bedingungen, Behandlungen,
Prüfungen,… )
Satz 3.5 lieferte
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 8 -
Lineare Restriktionen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 9 -
Lineare Restriktionen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 10 -
Lineare Restriktionen
• Umschreiben der Teststatistik zeigt wiederum, dass man einen exakten F-Test verwenden kann:
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 11 -
Lineare Restriktionen
Pivot-Statistik: Verteilung der Statistik hängt nicht vom unbekannten Parameter ab
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 12 -
Lineare Restriktionen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 13 -
Lineare Restriktionen
• Wert der Teststatistik ist hoch-signifikant
• Die meisten Konfidenzintervalle für die sechs Einzelhypothesen umschließen auch nicht die 0
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 14 -
Lineare Restriktionen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 15 -
Lineare Restriktionen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 16 -
Lineare Restriktionen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 17 -
Lineare Restriktionen
Zum Vergleich: Bei der Annahme gleicher Kovarianzmatrizenhatten wir folgende Konfidenzintervalle erhalten:
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 18 -
Lineare Restriktionen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 19 -
Lineare Restriktionen
• Übung: Nachrechnen der Signifikanzwerte
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 20 -
Lineare Restriktionen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 21 -
Lineare Restriktionen
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008 - 22 -
Lineare Restriktionen
• Sind Profile parallel?• Keine Ablehnung
• Sind Profile gleich?• Ablehnung
• Sind Profile horizontal?• Ablehnung
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 1 -
4. Hauptkomponentenanalyse
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 2 -
Hauptkomponentenanalyse
• Problemstellung• Beobachtungen X
1,…, X
nvon d quantitativen Merkmalen, n
Objekte.
• Problem für großes d: schwere Überschaubarkeit / Strukturerkennung
• Lösungsansatz (Pearson, 1901, Hotelling, 1933):• Konstruktion unkorrelierter Linearkombinationen
(Hauptkomponenten, HK) der beobachteten Variablen, die sukzessive einen sinkenden Prozentsatz der Datenvariabilität erklären
• Durch Auswahl von p < d Hauptkomponenten Repräsentation der Daten in einem niedriger dimensionalen Raum mit möglichst kleinem Informationsverlust
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 3 -
Hauptkomponentenanalyse
1. Hauptkomponente: Richtung der größten Varianz
2. Hauptkomponente: Richtung dergrößten Varianz,orthogonal zur1. Hauptkomponente
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 4 -
Hauptkomponentenanalyse
• Beispiel mit d=2 und 2 Hauptkomponenten• Zur Veranschaulichung, üblicherweise zur Dimensionsreduktion
verwendetes Verfahren
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 5 -
Hauptkomponentenanalyse
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 6 -
Hauptkomponentenanalyse
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 7 -
Hauptkomponentenanalyse
• Die Verkaufszahlen für beide Produkte sind positiv korreliert
• Geschäfte, die von einem Produkt viel verkaufen, verkaufen in der Regel auch viel von dem zweiten Produkt
• Somit ist die wesentliche Information in der summe der verkauften Produkte enthalten
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 8 -
Hauptkomponentenanalyse
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 9 -
Hauptkomponentenanalyse
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 10 -
Hauptkomponentenanalyse
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 11 -
Hauptkomponentenanalyse
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 12 -
Hauptkomponentenanalyse
• Aus der Definition der Hauptkomponenten folgt direkt die Diagonalform der Kovarianzmatrix der transformierten Daten
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 13 -
Hauptkomponentenanalyse
• Hauptkomponentenzerlegung entspricht der Spektralzerlegung der Kovarianzmatrix
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 14 -
Hauptkomponentenanalyse
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 15 -
Hauptkomponentenanalyse
technische universität dortmund
Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008 - 16 -
Hauptkomponentenanalyse
• Die totale Varianz von Y1,...,Y
dund der HKn stimmen überein