30

Statistische Statistische Modellierungcattaneo.userweb.mwn.de/pgs-ws1011/materials/Vortrag 9 - Statistische... · Statistische Modellierung A. Göpfert Denkweisen Statistische Modellierung

Embed Size (px)

Citation preview

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur

Statistische Modellierungim Rahmen des Seminars: Philosophische Grundlagen der

Statistik

Anne Göpfert

Betreuer: Prof. Dr. Thomas Augustin

München, 28. Januar 2011

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur�The word 'model' is highly ambiguous, and there is no uniform

terminology used by either scientists or philosophers.�Internet Encyclopedia of Philosophy

2 / 30

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur

Inhaltsverzeichnis

1 Verschiedene Denkweisen der Statistik

2 Statistische Modellierung

3 Beispielhafte Anwendungen

4 Fazit

5 Literatur

3 / 30

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur

Wiederholung: FrequentistischeInferenzschule

• (Zumindest theoretisch) unendlich viele Wiederholungenein und desselben Zufallsexperiments

• Wichtige Begri�e: Erwartungstreue (→ �im Mittel� wirdder richtige Wert getro�en) und Konsistenz

• Bedeutung von Experimenten rückt in den Vordergrund

• Planung von Experimenten steht stärker im Fokus

4 / 30

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur

Wiederholung: BaysianischeInferenzschule

• Bestehendes Vorwissen wird in die Schätzung vonWahrscheinlichkeiten eingebracht

• Der wahre Parameter ϑ wird technisch als Zufallsvariablemit Mittelwert m und Standardabweichung s angesehen:Priori-Verteilung f (ϑ)

• Nach Beobachtung der Daten erhält man diePosteriori-Verteilung f (ϑ|x)

• Je nach Zielsetzung und Vorwissen können unterschiedlichePriori-Verteilungen gewählt werden (z.B. Gleichverteilungoder konjugierte Priori)

• Die fortschreitende Entwicklung computerintensiverMethoden führt zu einem verstärkten Interesse für Bayes

• Die Verwendung von baysianischen Methoden stellt denAnwender vor eine Reihe von Herausforderungen

5 / 30

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur

Wiederholung: Sichtweise von SirRonald Fisher als 3. Denkrichtung

• De�nition der �logischen Unsicherheit�

• Hauptunterschied zu Neymann (Frequentist): subjektiveWahrscheinlichkeiten werden zugelassen

• Fiduzialinferenz: Die Rollen der Zufallsvariable x und desParameters ϑ sind vertauscht, Wissen über ϑ hängt vonden beobachteten Daten x ab

6 / 30

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur

Die drei Denkrichtungen:Zusammenfassung und Vergleich

Bedeutung von Experimenten

Hohe BedeutungGeringe Bedeutung

Sichtweise

Objektivistisch Subjektivistisch

FrequentistischParameter fest, beeinflusst x

FisherWissen über (festen)

Parameter wird von x beeinflusst

BayesParameter hat eine Verteilung, beeinflusst x

Abbildung: Vergleich der drei verschiedenen Denkweisen in derStatistik

7 / 30

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur

Bedeutung für die statistischeModellierung

• Keine eindeutige Empfehlungen für die Bevorzugung einer�Denkrichtung� wie frequentistische, bayesianische oder�shersche Sicht

• Häu�g werden verschiedene Methoden nebeneinanderverwendet

• Vorgehensweise zur �Wahl� für ein geeignetes Modell wirdauch von der jeweiligen Inferenzschule beein�usst

8 / 30

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur

Was ist ein �Modell�? (1/2)

Abbildung: Beispiele für unterschiedliche Modelle aus verschiedenenBereichen

9 / 30

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur

Was ist ein �Modell�? (2/2)

• Modelle sind so alt wie die Menschheit selbst (z.B.Höhlenmalerei)

• Weitläu�ge Interpretation des Begri�es Modell

• Gemeinsamkeit: Repräsentation einer bestimmten Idee

• Bestimmte Aspekte werden weggelassen, andere u.U. falschdargestellt

Pragmatische De�nition:

• Für wen ist das Modell? (�für jemanden�)

• Wann brauchen wir dieses Modell? (�innerhalb einesbestimmtes Zeitintervalls�)

• Wozu brauchen wir dieses Modell? (�für einen bestimmtenZweck�)

→ �A model is a representation for a particular purpose.�(Kaplan)

10 / 30

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur

Ziele der Modellierung

• Annäherung bzw. Approximation

• Erklärung

• Vorhersage

→ Je nach Sicht und Einstellung des Anwenders könnenunterschiedliche Ziele in den Vordergrund gestellt werden

11 / 30

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur

�Bausteine� eines statistischenModells

• Bestandteile eines Modells sind Daten, die in einemZusammenhang stehen

• Daten bestehen aus Objekten (Fällen), die unterschiedlicheAttribute (Variablen) besitzen

• Schwerpunkt der Modellierung ist die Variation in denDaten, sie wird in erklärte und unerklärte Variation(Residuen) aufgeteilt

• Durch eine mathematische Funktion werdenResponse-Variablen und Kovariablen in Zusammenhanggebracht

• �Untypische� Fälle werden auch als Ausreiÿer bezeichnet, esgibt unterschiedliche Möglichkeiten mit ihnen umzugehen

12 / 30

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur

Eigenschaften eines Modells

Die Eigenschaften eines wissenschaftlichen Modells werden beiPittioni erwähnt:

• Modelle sind Systeme, d.h. ein Beziehungsgefüge

• Modelle beziehen sich auf ein Objekt oder einen Prozessdes Originals. Die Art und Weise des Bezugs wird dabeivom Anwender (Modellsubjekt) vorgegeben

• Modelle sind dem Original ähnlich. Der Grad derÄhnlichkeit hängt dabei von den Absichten des Anwendersab

• Modelle haben praktische Vorteile gegenüber dem Original.Diese Vorteile können z.B. darin bestehen, dass das Modellbilliger oder für den Anwender verständlicher ist

→ Übereinstimmung mit vorhergehenden De�nitionen derAbstraktion und der Zweckgebundenheit eines Modells

13 / 30

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur

Methoden zur Modellwahl

1 Substanzwissenschaftliche Überlegungen bzw. Vorwissen:Es wird eine Vorauswahl potentieller Modelle getro�en.Diese Modelle können sich sowohl in der Anzahl derVariablen als auch in der Art der Modellierungunterscheiden. Insgesamt sollte die Anzahl der Modelleaber relativ klein sein

2 Beurteilung anhand von gewählten Modellwahlkriterien:• Modellselektion: Die Performance von verschiedenenModell wird geschätzt, mit dem Ziel das Beste auszuwählen

• Modellbeurteilung: Schätzung des Vorhersagefehlers aufeinem neuen Datensatz

14 / 30

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur

HypothesentestsTesten linearer HypothesenH0 : CΘ = dgegenH1 : CΘ 6= d

• Likelihood-Quotienten-Test: vergleicht denMaximum-Likelihood-Schätzer unter derAlternativhypothese mit demMaximum-Likelihood-Schätzer unter der Nullhypothese

• Wald-Statistik : Di�erenz zwischen C Θ̂ und d (gewichtetmit der inversen Kovarianzmatrix)

• Score-Statistik : gewichtete Distanz zwischem dem Wert0 = s(Θ̂) der Score-Funktion und dem Wert s(Θ̃)ausgewertet am restringierten Schätzer Θ̃.

Die drei Teststatistiken sind unter H0 approximativ χ2-verteiltmit r Freiheitsgraden, gröÿere Werte weisen jeweils darauf hin,H0 abzulehnen 15 / 30

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur

Gütekriterien und ModelldiagnoseEinige Gütekriterien:• korrigiertes Bestimmtheitsmaÿ R2 (lineareRegressionsmodelle): Häu�g verwendet, hat allerdings denNachteil, dass die Bestrafung für zusätzliche Kovariablenzu gering ist

• AIC (Maximum-Likelihood-Inferenz): −2l(Θ̂) + 2p,Modelle mit niedrigem AIC werden bevorzugt

• BIC (Maximum-Likelihood-Inferenz): −2l(Θ̂) + log(n)p,bestraft komplexere Modelle stärker als das AIC

Modelldiagnose (Maximum-Likelihood-Inferenz): Überprüfen derModellannahmen, z.B.• Autokorrelation in den Residuen (z.B. lineareRegressionsmodelle)

• Varianzengleichheit (Homoskedastizität) der Residuen(lineare Regressionsmodelle)

• Über- bzw. Unterdispersion (generalisierte lineareRegressionsmodelle)

16 / 30

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur

Varianzengleichheit(Homoskedastizität) der Residuen

●●●●

●●

●●●●

●●●●●

●●●●●●●●

●●●

●●

●●

●●

●●●●●

●●●●

●●

●●

●●

●●●

●●●●●●

●●

●●●●●

●●●●

●●●●●

●●●

●●●●●●●●●

●●●

●●

●●●●●●●●●●

●●●●

●●●●

●●●●●

●●

●●

●●●

●●●

●●

●●

●●●

●●

●●

●●●●●

●●●●●●●●

●●●●

●●●

●●●

●●

●●●

●●●●

●●●

●●

●●●

●●●●●●

●●

●●

●●●

●●

●●●●●●●●

●●●●

●●●●

●●●

●●●●●●●

●●●●●

●●●●●●

●●

●●

●●●

●●●●●●●

●●●●●●●●

●●●●●

●●●●●●

●●

●●●

●●

●●●●●●

●●●

●●●●●●

●●

●●●

●●●●

●●●

●●

●●●

●●●●

●●●●

●●

●●●●●

●●●

●●

●●

●●

●●●●●●

●●●

●●●●●

●●

●●

●●

●●●

●●

●●

●●●

●●●●●

●●

●●●●●

●●

●●

●●

●●●●●●●●●

●●●

0 2 4 6 8 10

0

10

20

30

Homoskedastisches Modell

●●●●

●●

●●●

●●

●●

●●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●●

●●

●●●

●●

●●●

●●

●●

●●●●●●●●●

●●

●●

●●●●

●●

●●

●●

●●

●●

●●

●●●

●●●●●

●●●●

●●●

●●

●●

●●●

●●

●●

●●●

●●●●

●●

●●●

●●

●●●●●●●

●●●●

●●

●●●

●●●●●●

●●

●●●

●●

●●

●●

●●

●●●●●●

●●●●●●

●●

●●●●

●●

●●

●●●●●●

●●

●●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●●●●●

0 2 4 6 8 10

−10

−5

0

5

10

Fehler in homoskedastischem Modell

●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●

●●●●●●●●●●●

●●●●●●●●●●●

●●●●

●●●●

●●●●●●●●

●●●●●●●●●●●

●●●●

●●●●

●●

●●●●●●

●●●

●●

●●●●●●

●●●●

●●●●

●●●●

●●●●●●

●●

●●●●●●

●●

●●●●

●●●●●

●●●

●●●●●●

●●●●●●

●●●●●●

●●●

●●●●●●

●●●

●●●●

●●●

●●●●●●●●

●●

●●●●

●●●

●●

●●

●●●●●

●●●●

●●

●●

●●●

●●

●●

●●●●●●●●

●●

●●●

●●

●●

●●

●●●●

●●●●●

●●

●●●●●●

●●

●●●

●●●

●●

●●

●●●●●●

●●

●●●

●●●

●●

●●

●●

●●

●●●

●●

●●●●●

●●

●●

●●●●●

●●

●●

●●

●●

0 2 4 6 8 10

5

10

15

20

25

30

35

Heteroskedastisches Modell

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●

●●●●●●●

●●●●●

●●

●●●●

●●

●●●

●●●

●●●●●

●●●

●●●

●●●

●●●●

●●

●●●●●

●●●

●●

●●●

●●●

●●

●●●

●●

●●

●●●●

●●

●●

●●●

●●

●●

●●

●●

●●●●●

●●

●●●

●●

●●●●

●●●

●●●●●

●●

●●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●●

●●

●●

●●

●●

0 2 4 6 8 10

−10

−5

0

5

10

Fehler in heteroskedastischem Modell

Abbildung: Überprüfung Homoskedastizität17 / 30

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur

Modellkomplexität undKreuzvalidierung (1/2)

Kreuzvalidierung als Methode zur Wahl der optimalenParameteranzahl:

• Aufteilung der Daten in einen Trainings- und einenTestdatensatz

• Fitten des Modells auf den Trainingsdaten

• Vorhersagefehler wird auf den Testdaten ermittelt

• Alternativen zur �einfachen� Kreuzvalidierung sind n-facheund k-fache Kreuzvalidierung

Modellkomplexlität vs. Modellgüte:

• Eine erhöhte Anzahl an Modellparametern erklärt auch vielRauschen aus den Trainingsdaten

• Die Fehlerrate in den Testdaten steigt dadurch wieder an

• Zu starke Anpassung an Trainingsdaten: Over�tting,Extremfall ist das saturierte Modell

18 / 30

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur

Modellkomplexität undKreuzvalidierung (2/2)

Abbildung: Test- und Trainingsfehler

19 / 30

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur

Typen von Modellen

Dempster unterscheidet Modelle nach Art ihrer Relation in

• empirische Modelle: �Teilgebiet� der explorativenDatenanalyse, Darstellung erfolgt oft graphisch, gutgeeignet für die Anwendung nicht-parametrischer Verfahren

• stochastische Modelle: Daten beruhen auf Stichproben,Zusammenhang zwischen den Daten ist, wie beiempirischen Modellen auch, durch formale mathematischeStrukturen gegeben. Hier werden die Parameterwertejedoch als Schätzungen über die entsprechenden Werte inder Gesamtpopulation angesehen

• prädiktive Modelle: Zwischen der zu prognostizierendenzukünftigen Variable und den erklärenden beobachbarenVariablen gibt es einen Zusammenhang

20 / 30

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur

Unterschiedliche Modellierungenvon Verweildauern

In vielen wissenschaftlichen Disziplinen werden Überlebenszeitenbzw. Verweildauern untersucht. Beispiele dafür sind:

• Medizin: Überlebenszeit eines Patienten mit einembestimmten Tumor bei unterschiedlichenBehandlungsmethoden

• Ökonometrie: Verweildauer in der Arbeitslosigkeit abhängigvon Alter, Geschlecht und Quali�kation

• Marketing: Dauer bis zum Produktwechsel beiunterschiedlichen Werbemaÿnahmen

→ In allen Fällen ist das Ziel immer dasselbe: Es wird das�Verbleiben� in einem Zustand bis zum Eintritt einesbestimmten Ergebnisses modelliert.Die Methoden und die Begri�e unterscheiden sich in deneinzelnen Wissenschaften jedoch voneinander.→ siehe folgende Folien 21 / 30

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur

Exkurs: Wichtige Begri�e undDe�nitionen bei Verweildauern

(1/2)

• Die Lebensdauer T ist eine nichtnegative Zufallsvariable.Sie gibt an wie lange das �Verbleiben� in einem bestimmtenZustand dauert

• Veränderungen in einem Zustand (z.B. Patient stirbt,Individuum fängt wieder an zu arbeiten) werden alsEreignisse bezeichnet

• Die Hazardrate λ gibt an, wie groÿ das �Risiko� ist ausdem Zustand auszuscheiden, gegeben, man hat bis zumaktuellen Zeitpunkt t �überlebt�

22 / 30

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur

Exkurs: Wichtige Begri�e undDe�nitionen bei Verweildauern

(2/2)

• Zensierung bezeichnet die Tatsache, dass ein Individuumaus der Studie ausscheidet ohne das ein Ereignisstattgefunden hat. Dies ist der Fall wenn kein Ereignis biszum Ende des Beobachtungszeitraum stattgefunden hatoder wenn ein Individuum (z.B. durch Umzug) nicht mehrunter Beobachtung steht

• Unter Risiko ist ein Individuum solange es unterBeobachtung steht. Dies ist solange der Fall bis eineZensierung oder ein Ereignis statt�ndet

23 / 30

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur

Non-parametrische Modellierung inder Medizin

Schätzung der Kaplan-Meier Kurve mit Hilfe des�Product-Limit-Estimators�: ˆS(t) =

∏t(k)≤t

nk−dknk

0 50 100 150

0.0

0.2

0.4

0.6

0.8

1.0

Überlebenszeit

Übe

rlebe

nsw

ahrs

chei

nlic

hkei

t Chemo. fortgeführt

Chemo. nicht fortgef.

Abbildung: Beispielhafte Darstellung einer Kaplan-Meier Kurve

24 / 30

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur

Parametrische Modellierung in derÖkonometrie

• Modelliert wird die Verweildauer in einem bestimmtenZustand, wie z.B. Arbeitslosigkeit

• Im Gegensatz zur Medizin werden Modelle häu�gparametrisch modelliert, d.h. es existiert eine bestimmteVerteilungsannahme

• Die Verteilungsannahmen (z.B. Exponentialverteilung oderWeibullverteilung) unterscheiden sich u.a. durch dieHazard-Rate

25 / 30

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur

Vergleich: Modellierung in derMedizin und der Ökonometrie

• Medizin: häu�g non-parametrisch vs. Ökonometrie: häu�gparametrisch

• Diese Aussage ist nicht allgemeingültig, in vielenLehrbüchern �nden sich Hinweise auf die jeweils �andere�Methode

• �Kompromiss�: Cox-Modell (Proportional-Hazards-Modell):λ(t, x) = λ0(t)exp(x ′β)

26 / 30

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur

Prognosemodelle: Klimaszenario

• Bisher vorgestellte Modelle: Schätzung vonÜberlebensdauern und Verweildauern, jedoch keine exaktePrognose eines zukünftigen Zustands

• Hier: Modellierung von Klimazeitreihen und Klimaprognose

• Z.B. Studie vom Massachusetts Institute of Technology(MIT)

• Betrachtung verschiedener physikalischer und ökonomischerUnsicherheitsfaktoren (z.B. Ausstoÿ von Kohlensto�dioxid)

• Die Simulation der Analysen erfolgte dabei hauptsächlichmit Monte-Carlo-Methoden

• Als Ergebnis aus der Simulation wird beispielsweise eineErwärmung der Erdtemperatur auf 5.1◦C im Jahr 2100prognostiziert

27 / 30

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur

Fazit

• Modelle sind zur zweckgebundene Abbilder der Realität ist,niemals 100%-ige Nachbildungen

• Modellwahlkriterien helfen bei der Wahl eines geeignetenModells

• Jedoch dürfen diese Methoden nicht als alleinigesAuswahlkriterium gelten. Mindestens genauso wichtig füreine gute Modellierung sind Kenntnisse über Mechanismenund Kausalitäten

• Die Modellierung von Kausalität setzt allerdings bereits dieKenntnis einer Theorie voraus

→ Es gibt kein allgemeingültiges, �bestes� Modell. Je nachAusgangsbedingung und Zielsetzung kann ein anderes Modellgeeignet sein. Wichtig ist jedoch, dass sich der Anwender mitder zugrundeliegenden Theorie und den spezi�schenProblemstellungen beschäftigt hat

28 / 30

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur �All modells are wrong but some are useful.�George E. P. Box, Professor an der Universität von Wisconsin

29 / 30

StatistischeModellierung

A. Göpfert

Denkweisen

StatistischeModellierung

Beispiele

Fazit

Literatur Literaturverzeichnis: siehe ausgearbeitete Seminararbeit

30 / 30