34
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

Embed Size (px)

Citation preview

Page 1: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

Forschungsstatistik IIProf. Dr. G. Meinhardt

SS 2005

Fachbereich Sozialwissenschaften, Psychologisches Institut

Johannes Gutenberg Universität Mainz

KLW-24

Page 2: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

2

Thema der Stunde

I. Die Form der Stichprobenkennwerteverteilung

II. Schlüsse von der Stichprobe auf die Population

III. t-Test für unabhängige und abhängige Stichproben

Page 3: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

3

Stichprobenkennwerte

Population

Stichprobe des Umfangs Nx

Tue dies k - mal:

1 1 kx x x

Stichprobenmittelwerte sind erwartungstreue Schätzungen des Populationsparameters

Kennwert (Erwartungswert)

E x

Verteilung von Stichprobenmittelwerten

„Kennwerteverteilung“

Erwartungswert

E x

Die Kennwerteverteilung hat denselben Erwartungswert wie die Population, aus der die Stichproben gezogen wurden. Schätzstatistiken, die denselben Erwartungswert haben wie die Population, heissen erwartungstreu.

Page 4: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

4

Stichprobenkennwerte

Population

Stichprobe des Umfangs N 2 2 21 2 ks s s

Stichprobenvarianzen sind keine erwartungstreuen Schätzungen des Populationsvarianz

Varianz2

Verteilung von Stichprobenvarianzen

Erwartungswert der Stichprobenvarianzen

2 2

2 2

1

1

NE s

N

N

2s

Die Stichprobenvarianz unterschätzt die Populationsvarianz tendenziell

2 2

21

Bias E s

N

Tue dies k - mal:

Page 5: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

5

Varianz der Stichprobenmittelwerte

Population

Stichprobe des Umfangs Nx

Tue dies k - mal:

1 1 kx x x

Verteilung von Stichprobenmittelwerten

„Kennwerteverteilung“

Varianz

22x N

Der Faktor 1/N bezieht die Populationsvarianz auf die Varianz der Stichprobenmittel

Varianz2

Für N = 1 sind beide Varianzen gleich

Für N geht die Varianz der Mittelwerte gegen Null.

Page 6: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

6

Korrektur

Stichprobenvarianzen sind keine erwartungstreuen Schätzungen des Populationsvarianz

2 2 2 2 21xE s

N

Die Stichprobenvarianz berechnet aus korrigiertem Umfang N-1 ist eine erwartungstreue Schätzung der Populationsvarianz

Der Bias bei der Schätzung der Pop.Varianz aus der Stichprobenvarianz ist die Varianz der Stichprobenmittelwerte.

2 2 2 21 1NE s

N N

Korrektur:

22 2

1

1 1

N

ii

Ns x x

N N

Page 7: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

7

Form der Verteilung von Mittelwerten

-15 -10 -5 0 5 10 15

0.00

0.05

0.10

Wah

rsch

ein

lich

keits

dic

hte

f (x)

x

x

Zentraler Grenzwertsatz:

Der zentrale Grenzwertsatz ermöglicht die Schätzung von Parametern unter Angabe statistischer Sicherheiten

Die Verteilung von Mittelwerten aus Stichproben der Größe N 30 geht mit wachsendem Stichprobenumfang in eine Normalverteilung über, unabhängig von der Verteilungsform der Werte in der Population.

[Math-Beispiel]

Page 8: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

8

Konfidenzintervalle in der Verteilung der Mittelwerte

Konfidenzintervalle geben Intervalle um einen Kennwert an, in denen ein gesuchter Wert mit einer bestimmten WK liegt.

1. Man habe einen Mittelwert aus einer Stichprobe der Größe N vorliegen. In welchem Bereich um den Mittelwert kann man den Populationsparameter mit einer bestimmten Wahrscheinlichkeit erwarten ?

2. Der Populationsparameter sei bekannt. Mit welcher Wahrscheinlichkeit kann ein Mittelwert wie der beobachtete oder ein extremerer auftreten?

Fragestellungen:

1 / 2 1 / 2 1x xP x z x z

1 / 2 1 / 2 1x xP z x z

1.

2.

Page 9: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

9

Hypothesen

Wissenschaftliche Vermutung über einen Sachverhalt

Hypothesen als Aussagen über Populationsparameter

Aussage Gegenaussage (komplementär)

A: Neue Unterrichtsmethode ist besser als die alte

A: Neue Unterrichtsmethode ist schlechter oder gleich gut

1 1 0:H Statistisch:

0 1 0:H (gerichtet)

1 1 0:H 0 1 0:H (ungerichtet)

Page 10: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

10

Entscheidungsregeln (ungerichtet)

Sei ein vorgegebenes Signifikanzniveau (Konvention: = 0.05)und z0 der beobachtete z- Wert.

Vergleich mit kritischem Wert oder Signifikanzniveau

Regel 1 (Überschreitungswahrscheinlichkeit):

Wenn 0P z z verwerfe H0

Regel 2 (Kritischer Wert z1-/2):

Wenn 0 1 / 2z z verwerfe H0

Grundlage:

0 1 / 2

0 1 / 2

1P z z

P z z

Page 11: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

11

Entscheidungsregeln (gerichtet)

Sei ein vorgegebenes Signifikanzniveau (Konvention: = 0.05)und z0 der beobachtete z- Wert.

Vergleich mit kritischem Wert oder Signifikanzniveau

Regel 1 (Überschreitungswahrscheinlichkeit):

Wenn 0P z z verwerfe H0

Regel 2 (Kritischer Wert z1-):

Wenn 0 1z z verwerfe H0

Grundlage:

0 1

0 1

1P z z

P z z

Page 12: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

12

Fehler 1. und 2. Art

In der Population gilt

Hypothesenwahrscheinlichkeiten : bedingte WKn

Correct

Rejection

Miss

(Fehler 2. Art)

False Alarm

(Fehler 1. Art)

Hit

H0 H1

H0

H1

Entscheidung für 0 0HP H

1 0HP H 1 1HP H

0 1HP H

[Entscheidungsaufgabe]

Page 13: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

t - Test

Prüfung des Mittelwerteunterschieds bei unabhängigen & abhängigen

Stichproben

Page 14: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

14

Aufbau

1. Praktische Problemstellung

2. Logik der Schlussweise bei der Prüfungeines Mittelwertsunterschieds

3. Praktische Durchführung am Beispiel

Page 15: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

15

Problemstellung

Anzahl der gefundenen Zielelemente in einem Konzentrationsleistungstest

(verhältnisskaliert)

Gruppierungsvariable Messgröße

Gibt es Unterschiede in der Leistung von Mädchen und Jungen?

Frage

Geschlecht

M J

Page 16: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

16

Problemstellung

26.7 17.2

Geschlecht

M J

Wir untersuchen 20 Jungen und 20 Mädchen und berechnen Mittelwerte

Mx Jx M Jx x x

26.7 – 17.2 = 9.5

Gibt es „wirkliche“ Unterschiede in der Leistung von Mädchen und Jungen oder ist der gefundene Unterschied rein zufällig?

Frage

Page 17: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

17

ModellvorstellungPopulation der Jungen

Stichprobe des Umfangs N

Jx

Population der Mädchen

Stichprobe des Umfangs N

Mx

Bilde Mittelwertsdifferenz

M Jx x x

Tue dies k - mal: 1 1 1M Jx x x

2 2 2M Jx x x k Mk Jkx x x

Verteilung der Differenzen von Mittelwerten

1 2 i kx x x x

Page 18: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

18

Modellvorstellung

Verteilung der Differenzen von Mittelwerten

Annahme:

J M

Die Populationsmittelwerte von Jungen und Mädchen sind gleich

0x

Der Erwartungswert der Differenzen von Mittelwerten ist Null

1 1 0:H 0 1 0:H (ungerichtet)

Page 19: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

19

Verteilung der Differenzen von Mittelwerten

-15 -10 -5 0 5 10 15

0.00

0.05

0.10

Wah

rsch

ein

lich

keits

dic

hte

f (x)

x0x

x

x

3 Festlegungen für die Verteilung:

2. Die sind normalverteilt (für NM+ NJ 50)

x1. Sie hat den Mittelwert 0

x 3. Sie hat eine Standardabweichung („Standardfehler“)

Wir können die Wahrscheinlichkeitsbestimmung vornehmen,wenn der Standardfehler bekannt istx

Page 20: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

20

Bestimmung des Standardfehlers x

Annahme:

Ist die Messvariable eine in beiden Populationen unabhängige ZV:

2 2M J

xM JN N

Jungen und Mädchen kommen aus derselben Population2 2 2M J

2 1 1x

M JN N

Page 21: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

21

Schätzung des Standardfehlers x

Für die Populationsvarianz verwendet man eine Schätzung aus den Daten beider Stichproben:

2 22ˆ

2M M J J

M J

N s N s

N N

wobei und die Stichprobenvarianzen sind2Ms 2

Js

2 2

ˆ 22 2

M Jx

s s

N

Für gleiche Stichprobenumfänge M JN N N gilt:

als beste Schätzung des Standardfehlers der Mittelwertsdifferenz

Page 22: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

22

Prinzip der Testung

xTestung der Gültigkeit der „Nullhypothese“ über die Bestimmung der Auftretenswahrscheinlichkeit von in der theoretischen Verteilung der Differenzen vonMittelwerten mit dem Erwartungswert 0x

Fall 1: NM + NJ 50

x

x

xz

(standardnormalverteilt)

Fall 2: NM + NJ < 50

x

x

xt

(t – verteilt mit NM + NJ - 2Freiheitsgraden)

Fall 2: NM + NJ < 50

Page 23: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

23

Prinzip der Testung (zweiseitig)

f t

-4 -2 2 4

0.1

0.2

-4 -2 2 4 t0

2.5%2.5%

95%x

xt

Prüfgrösse

Testen zum Signifikanzniveau : Ist |t| > t1-/2?

0.05 Signifikanzniveau

1 / 2P t t

1 / 2t 1 / 2t Annahmebereich

1 / 2t t Ablehnungsbereich

1 / 2t t Ablehnungsbereich

1 / 2t t

Page 24: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

24

-3 -2 -1 1 2 3

0.1

0.2

0.3

0.4

-3 -2 -1 1 2 3

0.1

0.2

0.3

0.4

Die t- Verteilung

Kritische Werte sind bei der t- Verteilung im Vergleich zur N- Verteilung größer

1 / 2 2.23t

Normalverteilung

t- Verteilung mit df = 10

1 / 2 1.96z

Ablehnung der H0 erst bei größeren Werten der Prüfgröße

Page 25: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

25

Prüfgröße und Entscheidung

Gilt die Nullhypothese M = J (bzw. = 0)

so ist

t - verteilt mit NM + NJ -2 Freiheitsgraden.

x

xt

Ist die Wahrscheinlichkeit einen extremeren Wert als den empirischent - Wert zu erhalten, kleiner oder gleich 5%, so sehen wir die Nullhypothese als zu unwahrscheinlich an und vermuten, dass ein wirklicher Mittelwertsunterschied in den Populationen besteht.

Page 26: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

26

Entscheidung

1. Berechnex

xt

A. Gilt 1 / 2t t Ablehnung von H0

(die Mittelwerte der J. und M. sind signifikant verschieden)

3. Entscheide

B. Gilt Beibehalten von H0

(die Mittelwerte der J. und M. unterscheiden sich nur zufällig)

1 / 2t t

2. Ermittle kritischen t - Wert nach der t - Verteilung 1 / 2( )t

Page 27: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

27

Praktische Berechnung

26.7 17.2

173 106

Mx Jx M Jx x x

26.7 – 17.2 = 9.5

2 2 173 106ˆ 2 2 3.48

2 2 46M J

x

s s

N

2Ms 2

Js

GeschlechtM J

24M JN N N

Page 28: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

28

Praktische Entscheidung

1. Berechne9.5

2.733.48x

xt

Es gilt 1 / 2 : 2.73 2.024t t

Ablehnung von H0:

Die Wahrscheinlichkeit der gefundenen Mittelwertsdifferenz ist kleiner als 5%.

3. Entscheide

2. Ermittle kritischen t - Wert nach der t- Verteilung: ( = 0.05, df =38)

1 / 2 2.024t

Der Mittelwertsunterschied der Jungen und Mädchen ist signifikant

Page 29: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

29

Voraussetzungen

des t- Tests für unabhängige Stichproben

1. Für N1 + N2 < 50 müssen die Werte aus normalverteilten Populationen stammen(Prüfung der Stichprobenwerte auf Normalverteilung)

2. Die Populationsvarianzen, die beiden Stichproben zugrundeliegenmüssen gleich (homogen) sein (Prüfung der geschätzen Populationsvarianzen auf Gleichheitmit F- Test.

3. Die Stichproben müssen unabhängig sein. (Messeinheiten untereinander und zwischen den Stichproben)

t- Test ist relativ robust, selten progressive Entscheidungen

Page 30: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

30

Abhängige Stichproben

Eine Gruppe von Schülern wird trainiert.Vorher und nachher wird ein Leistungstest gemacht.

Sind die Schüler nach dem Training besser als vorher?

Frage

1 89 89 0

2 93 94 1

3 98 100 2

4 102 100 -2

5 99 102 3

6 106 110 4

7 117 112 -5

8 99 104 5

9 92 100 8

10 94 103 9

Nr Test 1 Test 2

2.5x 2 16.65s

2 1 Testung der H0:

Page 31: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

31

Verteilung der Mittelwerte von Differenzen

0

x

-15 -10 -5 0 5 10 15

0.00

0.05

0.10

Wah

rsch

ein

lich

keits

dic

hte

f (x)

x

x

3 Festlegungen für die Verteilung:

2. Die sind normalverteilt (für N 30)

x1. Sie hat den Mittelwert 0

x

3. Sie hat eine Standardabweichung („Standardfehler“)

Standardfehler x

muss bestimmt werden

Page 32: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

32

Schätzung des Standardfehlers x

Es gilt:

Aus Stichprobendaten:

ˆˆ x

N

2

21ˆ

1 1

N

ii

x xN s

N N

Standardfehler aus Stichprobendaten: ˆ1

x

s

N

Wobei N die Anzahl der Messwertpaare ist.

Page 33: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

33

Prüfgröße und Entscheidung

Gilt die Nullhypothese 2 = 1 (bzw. = 0)

so ist

t - verteilt mit N - 1 Freiheitsgraden.

x

xt

Interpretation wie im Fall des t – Tests für unabhängige Stichproben

Page 34: Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24

34

Voraussetzungen

des t- Tests für abhängige Stichproben

1. Für N < 30 müssen die Werte aus normalverteilten Populationen stammen(Prüfung der Stichprobenwerte auf Normalverteilung)

2. Die Populationsvarianzen, die beiden Stichproben zugrundeliegenmüssen nicht gleich (homogen) sein. (Allerdings verliert der Test an Teststärke für stark verschiedene Varianzen)

3. Bei hohen Korrelationen der beiden Stichproben und gleichenVarianzen ist der t- Test für abhängige Stichproben weit mehr teststark als der t- Test für unabhängige Stichproben.

[Tafelbeispiel für 2 und 3]