Download pdf - Statistische Methoden in den Umweltwissenschaften...IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert Wassertemperatur Salzgehalt Phosphat Nitrat Wassertemperatur

IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert

Statistische Methoden in den Umweltwissenschaften

Stetige und diskrete Wahrscheinlichkeitsverteilungen

Lageparameter

Streuungsparameter


Diskrete und stetige Zufallsvariablen

• Beispiel: − Wurf eines Würfels − Anzahl der Seeigel auf 1 m² einer Seegraswiese − Individuenlänge einer Dorschpopulation

• Eine Zufallsvariable heißt diskret, wenn sie endlich (oder abzählbar unendliche)

viele Werte annehmen kann.

• Eine Zufallsvariable heißt stetig, wenn sie unendlich viele Werte in einem Intervall [a,b] annehmen kann.

Eine Variable (oder Merkmal X), dessen Werte die Ergebnisse eines Zufallsexperimentes sind, heißt Zufallsvariable


Wahrscheinlichkeitsverteilungen

• Die Wahrscheinlichkeitsfunktion (diskret) bzw. die Wahrscheinlichkeitsdichte (stetig) beschreibt die Wahrscheinlichkeitsverteilung (gibt die Wahrscheinlichkeit des Auftretens der einzelnen Werte der Zufallsvariablen an).

• Die (kumulierte) Verteilungsfunktion ist das Aufsummieren der Werte der Wahrscheinlichkeitsfunktion bzw. ist das Integral über die Dichtefunktion

Zufallsexperiment

Zufallsvariable X

Wahrscheinlichkeits-funktion

Wahrscheinlichkeits-dichte

Verteilungsfunktion

diskret stetig

Beispiele: •Verteilung der Ergebnisse eines Würfelspiels

•Binomialverteilung

Beispiele: •Normalverteilung •Andere stetige Verteilungen (t, F, χ²)


Zufallsexperiment und Wahrscheinlichkeitstheorie

• Zufallsexperiment:

– empirischen Häufigkeitsverteilung in einer Stichprobe unabhängiger Replikate

• Theorie:

– Wahrscheinlichkeitsverteilung

Wird ein Zufallsexperiment häufig genug wiederholt (= die Stichprobe, n, Anzahl der Replikate wird immer weiter erhöht) konvergiert die Häufigkeitsverteilung gegen die

“wahre” theoretische Wahrscheinlichkeitsverteilung.


Verteilungstypen

Stetige Wahrscheinlichkeitsverteilung Diskrete Wahrscheinlichkeitsverteilung

Normalverteilung Poissonverteilung

Log-Normalverteilung (Negative) Binomialverteilung

Fisher‘s F (z.B. ANOVA) …

Student‘s t (z.B. t-Test)

Exponentialverteilung

…


Normalverteilung – die bekannteste stetige Wahrscheinlichkeitsverteilung

Simulation von normalverteilten Zufallszahlen (Balken): rnorm(100,mean=24,sd=4)

Wahrscheinlichkeitsdichte (rote Linie): dnorm(seq(10,40,1),mean=24,sd=4)


Normalverteilung

• Eine der wichtigsten Verteilungen ist die Normalverteilung (besser: Verteilungsdichte) mit Mittelwert µ und Varianz σ² (= Gaußschen Glockenkurve)

Symmetrisch um µ

Nur abhängig von µ und σ

−

−=2

21exp

21

σμx

πσf(x)


Normalverteilung: Wie groß sind µ und σ ?


Normalverteilung: Wie groß sind µ und σ ?

µ = 4 ; σ = 1

µ = 8 ; σ = 1

µ = 8 ; σ = 0,5


Normalverteilung

• Verteilungsfunktion

(= Kumulierte Häufigkeiten)

• Dichtefunktion

-3σ -2σ -σ μ 1σ 2σ 3σ

50 %

68,72% der Werte liegen im Bereich [- σ, σ ]

-3σ -2σ -σ μ 1σ 2σ 3σ


z-Transformation: Normierung

• Eigenschaften der z-Verteilung (=Standardnormalverteilung):

− Mittelwert µ = 0

− Varianz σ² = 1

− ohne Maßeinheit (dimensionslos)

• Lineare Skalentransformation

σµ)( −

= ii

azzi : neuer Wert ai: alter Wert µ: arithmetischer Mittelwert σ: Standardabweichung


Wassertemperatur Salzgehalt Phosphat Nitrat Wassertemperatur Salzgehalt Phosphat Nitrat°C PSU µM µM z-Wert z-Wert z-Wert z-Wert

01/01/1991 1.4 5.2 1.8 5.2 -1.2 -0.4 2.6 -0.402/01/1991 1.4 4.7 0.2 24.0 -1.2 -0.8 -0.8 0.103/01/1991 1.8 4.7 0.2 76.6 -1.1 -0.8 -0.8 1.604/01/1991 2.0 4.9 0.3 34.5 -1.1 -0.6 -0.6 0.405/01/1991 2.0 5.1 0.1 45.6 -1.1 -0.5 -1.0 0.706/01/1991 2.8 5.0 0.3 35.7 -1.0 -0.6 -0.6 0.407/01/1991 2.9 4.9 0.4 32.5 -1.0 -0.6 -0.4 0.308/01/1991 2.7 4.8 0.4 59.5 -1.0 -0.7 -0.4 1.1

MW 9.9 5.8 0.6 20.1 0.0 0.0 0.0 0.0STABW 7.2 1.4 0.5 36.3 1.0 1.0 1.0 1.0

Warum z-Transformation ?

0,0 ± 1,0 Verschiedene Größenordnungen und Einheiten

Vergleichbarkeit: Die z-Transformation ermöglicht eine Vergleichbarkeit verschiedener Variablen (bzgl. Größenordnungen und Einheiten.)

Standardisierung: Die transformierten Variablen sind dimensionslos (ohne Maßeinheit). Variablen unterschiedlicher Maßeinheiten können so unter Verwendung ihrer z-Werte verglichen oder zu neuen Variablen kombiniert werden.


Poissonverteilung: diskrete Wahrcheinlichkeitsverteilung

• Nur ein Parameter λ

• λ ist gleichzeitig Mittelwert und Varianz der Verteilung

• Linksschiefe Verteilung

• Sie ordnet den natürlichen Zahlen k=0, 1, 2, .. Die Wahrscheinlichkeiten wie folgt zu:

λλ −== ek

k)f(Xk

!Simulation von poissonverteilten Zufallszahlen (Balken): rpois(400,lambda=2)

Wahrscheinlichkeitsdichte(rote Punkte): dpois(c(0:10),lambda=2)


Poissonverteilung

• Parameter: µ (= lambda)

• kleine µ, stark l-Form, je größer µ, desto mehr symmetrische (Normal-) Verteilung


Kenngrößen der Verteilungen

Normalverteilung Mittelwert, Standardabweichung

Poissonverteilung Mittelwert

Log-Normalverteilung Mittelwert, Standardabweichung

Fisher‘s F Zwei Freiheitsgrade (df1, df2)

Student‘s t Freiheitsgrad (df)

Chi-Quadrat-Verteilung Freiheitsgrad (df)

(Negative) Binomialverteilung Stichprobenumfang (n), Wahrscheinlichkeit (p)


• Varianzquotient F:

– F-Verhältnis =

– Je größer F, desto wahrscheinlicher Ablehnung von H0

• F ist abhängig von df1 (= zwischen den Gruppen) und df2 (= innerhalb der Gruppen)

F-Verhältnis: Testgröße für die ANOVA

Varianz zwischen Gruppe 1 und Gruppe 2

Varianz innerhalb der Gruppen

Behandlungseffekt

Residualvarianz


F-Verteilung (df1=1 , df2= 8)

Diese Verteilung muss herangezogen werden, um den kritischen F-Wert zu bestimmen

z.B. F = 8, d.h. die Varianz zwischen den Gruppen ist 8 mal größer als die Varianz innerhalb der Gruppen


F-Verteilung (df1=1 , df2= 8)

Die Auftretwahrscheinlichkeit von F ≥ 8 ist allerdings sehr gering. Sie ist repräsentiert von der Fläche unter der Kurve rechts von F = 8 und entspricht 2,2%.

z.B. F = 8, d.h. die Varianz zwischen den Gruppen ist 8 mal größer als die Varianz innerhalb der Gruppen


Kritische F-Werte

Fkrit 0,05 = 5,3

5% der Fläche

Wo liegt der kritische F-Wert? Er ist auch abhängig von der Irrtumswahrscheinlichkeit alpha.


Biologische Beispiele für verschiedene Verteilungen

Negative Binomialverteilung



Log-Normalverteilung: Wachstums- oder Zerfallsprozesse



Log-Normalverteilung


Wie sind die Messdaten verteilt ?

Balken sind Häufigkeitsverteilung eines Zufallexperiments

Poissonverteilung(rote Punkte): dpois(c(0:10),lambda=2)

Normalverteilung(blaue Punkte): dnorm(c(0:10),mean=2,sd=1)


Eine diskrete poisson-verteilte Zufallsvariable ?

• Beispiel: Anzahl der Seeigel auf 200 quadratischen, zufällig ausgewählten Beobachtungsflächen in einer Seegraswiese.

Anzahl der Seeigel (xi)

beobachtete Häufigkeit des Eintretens (hi)

(xi * hi)

0 28 0 1 69 69 2 42 84 3 34 102 4 13 52 5 8 40 6 5 30 7 1 7

≥8 0 0 ∑(hi) = 200 ∑(xi*hi) = 384

Mittelwert 1.92


Kolmogorov-Smirnov-Anpassungstest

• H0 : empirische Verteilung entspricht einer theoretischen Verteilung (z.B. der Normalverteilung)

• Differenzen (K) zwischen empirischer und theoretischer Verteilungsfunktion

• Aus K errechnet sich Testgröße λ

• H0 wird verworfen, wenn λ-Wert den kritischen Wert für ein gegebenes α überschreitet

●

● ●

●

●

●

● ●

K- = größter Abstand wenn Messwerte über theoretischer Funktion liegen

K+ = größter Abstand wenn Messwerte unter theoretischer Funktion liegen nK ⋅=λ


Parametrische versus nicht-parametrische Tests

Kann den Daten eine bestimmte Verteilung zugeordnet werden ?

Nicht-parametrische Tests

setzen keine bestimmte Verteilung voraus

Parametrische Tests

setzen eine bestimmte Verteilung voraus

(z.B. Normalverteilung)

ja nein


Lageparameter 1

• Modalwert (= Modus)

– Die am häufigsten vorkommende Ausprägung eines Merkmals

– Verteilungsfreie Kenngröße!

– Beispiel: {1, 2, 3, 2, 4, 4, 2, 5, 1, 2}: M = 2


Lageparameter 2

• Median

– Werte der Größe nach ordnen, der mittlere Wert (bei ungerader Anzahl) bzw. der Durchschnitt der beiden mittleren Werte (bei gerader Anzahl) entspricht dem Median

– Verteilungsfreie Kenngröße!

– Median teilt die Verteilung in zwei Hälften

– Beispiel: Lethale Dosis LD50


• Arithmetisches Mittel

– Kenngröße der Normalverteilung !

• Gewogenes arithmetisches Mittel

– Unterschiedliche Werte werden unterschiedlich stark gewichtet

– Bsp. Mittlere Korngröße

• Geometrisches Mittel

– Bsp. Mittlere Wachstumsrate von Raten über mehre Zeitintervalle

Lageparameter 3

∑∑ == iii ahn

xn

x 11

1

1

=

=

∑∑

i

iig

g

xgn

x

∑=

⋅⋅ ⋅=

in

nn

xx

xxxx

geom

geom

loglog

...1

21


Streuungsparameter 1

• Minimum, Maximum, Spannweite

• Quantile

– 25% und 75%-Quantil (= oder 1. und 3. Quartil)


Box-Whisker-Plots

Vegetationsform

BGrA

rm

BKlA

rm

ZoR

u

ChR

uci

ChZ

oma

Ruc

i

Zom

a

Nm MP

mitt

lere

Kor

ngrö

ße [m

m]

0.0

0.1

0.2

0.3

0.4

0.5

Extremwerte

Maximaler Wert oder 90% Quantil

75% Quantil

Median = 50% Quantil

25% Quantil

Minimaler Wert oder 10% Quantil

Extremwerte

Extremwerte: Werte, die mehr als das 1,5-fache des Abstandes zwischen 25% und 75%-Quantil entfernt sind (kann man aber selber festlegen…)



• Varianz:

– Ein Maß für die Streuung der Einzelwerte xi um den Mittelwert

– Die Maßeinheit der Varianz entspricht nicht der Maßeinheit der Messwerte

• Standardabweichung:

– Ein Maß für die Streuung der Einzelwerte xi um den Mittelwert

– Die Maßeinheit der Standardabweichung entspricht der Maßeinheit der Messwerte

1)²(

²−−

= ∑n

xxs i

1)²(

−−

= ∑n

xxs i

Parameter der Normalverteilung !!!



• Standardfehler eines Parameters, z.B. des arithmetischen Mittelwertes:

– Gibt die statistische Unsicherheit der Mittelwerte an

– Ein Standardfehler wird um so kleiner, je größer der Stichprobenumfang ist n

ssx =



xszxGrenzeobereuntere ⋅±= )2/(/ α

• Konfidenzintervall

– Ist ein geschätztes Intervall, welches den wahren Wert eines unbekannten Parameters (z.B. Mittelwert) mit vorgegebener Wahrscheinlichkeit (z.B. 95 %) überdeckt.

– Der wahre Wert ist unbekannt und würde sich nur durch „unendlich“ viele Messungen bestimmen lassen.

Z-Wert von α/2, z.B. 1,96 bei 95% kann der Tabelle zur Normalverteilung entnommen werden

Mittelwert Standardfehler des Mittelwertes


Wovon hängt die Breite eines Konfidenzintervalls ab?

1. Je größer der Stichprobenumfang, desto kleiner der Standardfehler und desto schmaler das Konfidenzintervall.

2. Je größer die Sicherheit der Schätzung, desto breiter das Konfidenzintervall

3. Je größer die Standardabweichung desto breiter das Konfidenzintervall

• Konfidenzintervalle werden sehr breit, wenn sie aufgrund kleiner Stichproben bestimmt werden.

• Präzise Intervallschätzung erfordert große Stichproben