IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Statistische Methoden in den Umweltwissenschaften
Stetige und diskrete Wahrscheinlichkeitsverteilungen
Lageparameter
Streuungsparameter
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Diskrete und stetige Zufallsvariablen
• Beispiel: − Wurf eines Würfels − Anzahl der Seeigel auf 1 m² einer Seegraswiese − Individuenlänge einer Dorschpopulation
• Eine Zufallsvariable heißt diskret, wenn sie endlich (oder abzählbar unendliche)
viele Werte annehmen kann.
• Eine Zufallsvariable heißt stetig, wenn sie unendlich viele Werte in einem Intervall [a,b] annehmen kann.
Eine Variable (oder Merkmal X), dessen Werte die Ergebnisse eines Zufallsexperimentes sind, heißt Zufallsvariable
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Wahrscheinlichkeitsverteilungen
• Die Wahrscheinlichkeitsfunktion (diskret) bzw. die Wahrscheinlichkeitsdichte (stetig) beschreibt die Wahrscheinlichkeitsverteilung (gibt die Wahrscheinlichkeit des Auftretens der einzelnen Werte der Zufallsvariablen an).
• Die (kumulierte) Verteilungsfunktion ist das Aufsummieren der Werte der Wahrscheinlichkeitsfunktion bzw. ist das Integral über die Dichtefunktion
Zufallsexperiment
Zufallsvariable X
Wahrscheinlichkeits-funktion
Wahrscheinlichkeits-dichte
Verteilungsfunktion
diskret stetig
Beispiele: •Verteilung der Ergebnisse eines Würfelspiels
•Binomialverteilung
Beispiele: •Normalverteilung •Andere stetige Verteilungen (t, F, χ²)
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Zufallsexperiment und Wahrscheinlichkeitstheorie
• Zufallsexperiment:
– empirischen Häufigkeitsverteilung in einer Stichprobe unabhängiger Replikate
• Theorie:
– Wahrscheinlichkeitsverteilung
Wird ein Zufallsexperiment häufig genug wiederholt (= die Stichprobe, n, Anzahl der Replikate wird immer weiter erhöht) konvergiert die Häufigkeitsverteilung gegen die
“wahre” theoretische Wahrscheinlichkeitsverteilung.
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Verteilungstypen
Stetige Wahrscheinlichkeitsverteilung Diskrete Wahrscheinlichkeitsverteilung
Normalverteilung Poissonverteilung
Log-Normalverteilung (Negative) Binomialverteilung
Fisher‘s F (z.B. ANOVA) …
Student‘s t (z.B. t-Test)
Exponentialverteilung
…
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Normalverteilung – die bekannteste stetige Wahrscheinlichkeitsverteilung
Simulation von normalverteilten Zufallszahlen (Balken): rnorm(100,mean=24,sd=4)
Wahrscheinlichkeitsdichte (rote Linie): dnorm(seq(10,40,1),mean=24,sd=4)
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Normalverteilung
• Eine der wichtigsten Verteilungen ist die Normalverteilung (besser: Verteilungsdichte) mit Mittelwert µ und Varianz σ² (= Gaußschen Glockenkurve)
Symmetrisch um µ
Nur abhängig von µ und σ
−
−=2
21exp
21
σμx
πσf(x)
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Normalverteilung: Wie groß sind µ und σ ?
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Normalverteilung: Wie groß sind µ und σ ?
µ = 4 ; σ = 1
µ = 8 ; σ = 1
µ = 8 ; σ = 0,5
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Normalverteilung
• Verteilungsfunktion
(= Kumulierte Häufigkeiten)
• Dichtefunktion
-3σ -2σ -σ μ 1σ 2σ 3σ
50 %
68,72% der Werte liegen im Bereich [- σ, σ ]
-3σ -2σ -σ μ 1σ 2σ 3σ
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
z-Transformation: Normierung
• Eigenschaften der z-Verteilung (=Standardnormalverteilung):
− Mittelwert µ = 0
− Varianz σ² = 1
− ohne Maßeinheit (dimensionslos)
• Lineare Skalentransformation
σµ)( −
= ii
azzi : neuer Wert ai: alter Wert µ: arithmetischer Mittelwert σ: Standardabweichung
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Wassertemperatur Salzgehalt Phosphat Nitrat Wassertemperatur Salzgehalt Phosphat Nitrat°C PSU µM µM z-Wert z-Wert z-Wert z-Wert
01/01/1991 1.4 5.2 1.8 5.2 -1.2 -0.4 2.6 -0.402/01/1991 1.4 4.7 0.2 24.0 -1.2 -0.8 -0.8 0.103/01/1991 1.8 4.7 0.2 76.6 -1.1 -0.8 -0.8 1.604/01/1991 2.0 4.9 0.3 34.5 -1.1 -0.6 -0.6 0.405/01/1991 2.0 5.1 0.1 45.6 -1.1 -0.5 -1.0 0.706/01/1991 2.8 5.0 0.3 35.7 -1.0 -0.6 -0.6 0.407/01/1991 2.9 4.9 0.4 32.5 -1.0 -0.6 -0.4 0.308/01/1991 2.7 4.8 0.4 59.5 -1.0 -0.7 -0.4 1.1
MW 9.9 5.8 0.6 20.1 0.0 0.0 0.0 0.0STABW 7.2 1.4 0.5 36.3 1.0 1.0 1.0 1.0
Warum z-Transformation ?
0,0 ± 1,0 Verschiedene Größenordnungen und Einheiten
Vergleichbarkeit: Die z-Transformation ermöglicht eine Vergleichbarkeit verschiedener Variablen (bzgl. Größenordnungen und Einheiten.)
Standardisierung: Die transformierten Variablen sind dimensionslos (ohne Maßeinheit). Variablen unterschiedlicher Maßeinheiten können so unter Verwendung ihrer z-Werte verglichen oder zu neuen Variablen kombiniert werden.
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Poissonverteilung: diskrete Wahrcheinlichkeitsverteilung
• Nur ein Parameter λ
• λ ist gleichzeitig Mittelwert und Varianz der Verteilung
• Linksschiefe Verteilung
• Sie ordnet den natürlichen Zahlen k=0, 1, 2, .. Die Wahrscheinlichkeiten wie folgt zu:
λλ −== ek
k)f(Xk
!Simulation von poissonverteilten Zufallszahlen (Balken): rpois(400,lambda=2)
Wahrscheinlichkeitsdichte(rote Punkte): dpois(c(0:10),lambda=2)
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Poissonverteilung
• Parameter: µ (= lambda)
• kleine µ, stark l-Form, je größer µ, desto mehr symmetrische (Normal-) Verteilung
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Kenngrößen der Verteilungen
Normalverteilung Mittelwert, Standardabweichung
Poissonverteilung Mittelwert
Log-Normalverteilung Mittelwert, Standardabweichung
Fisher‘s F Zwei Freiheitsgrade (df1, df2)
Student‘s t Freiheitsgrad (df)
Chi-Quadrat-Verteilung Freiheitsgrad (df)
(Negative) Binomialverteilung Stichprobenumfang (n), Wahrscheinlichkeit (p)
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
• Varianzquotient F:
– F-Verhältnis =
– Je größer F, desto wahrscheinlicher Ablehnung von H0
• F ist abhängig von df1 (= zwischen den Gruppen) und df2 (= innerhalb der Gruppen)
F-Verhältnis: Testgröße für die ANOVA
Varianz zwischen Gruppe 1 und Gruppe 2
Varianz innerhalb der Gruppen
Behandlungseffekt
Residualvarianz
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
F-Verteilung (df1=1 , df2= 8)
Diese Verteilung muss herangezogen werden, um den kritischen F-Wert zu bestimmen
z.B. F = 8, d.h. die Varianz zwischen den Gruppen ist 8 mal größer als die Varianz innerhalb der Gruppen
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
F-Verteilung (df1=1 , df2= 8)
Die Auftretwahrscheinlichkeit von F ≥ 8 ist allerdings sehr gering. Sie ist repräsentiert von der Fläche unter der Kurve rechts von F = 8 und entspricht 2,2%.
z.B. F = 8, d.h. die Varianz zwischen den Gruppen ist 8 mal größer als die Varianz innerhalb der Gruppen
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Kritische F-Werte
Fkrit 0,05 = 5,3
5% der Fläche
Wo liegt der kritische F-Wert? Er ist auch abhängig von der Irrtumswahrscheinlichkeit alpha.
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Biologische Beispiele für verschiedene Verteilungen
Negative Binomialverteilung
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Biologische Beispiele für verschiedene Verteilungen
Log-Normalverteilung: Wachstums- oder Zerfallsprozesse
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Biologische Beispiele für verschiedene Verteilungen
Log-Normalverteilung
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Wie sind die Messdaten verteilt ?
Balken sind Häufigkeitsverteilung eines Zufallexperiments
Poissonverteilung(rote Punkte): dpois(c(0:10),lambda=2)
Normalverteilung(blaue Punkte): dnorm(c(0:10),mean=2,sd=1)
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Eine diskrete poisson-verteilte Zufallsvariable ?
• Beispiel: Anzahl der Seeigel auf 200 quadratischen, zufällig ausgewählten Beobachtungsflächen in einer Seegraswiese.
Anzahl der Seeigel (xi)
beobachtete Häufigkeit des Eintretens (hi)
(xi * hi)
0 28 0 1 69 69 2 42 84 3 34 102 4 13 52 5 8 40 6 5 30 7 1 7
≥8 0 0 ∑(hi) = 200 ∑(xi*hi) = 384
Mittelwert 1.92
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Kolmogorov-Smirnov-Anpassungstest
• H0 : empirische Verteilung entspricht einer theoretischen Verteilung (z.B. der Normalverteilung)
• Differenzen (K) zwischen empirischer und theoretischer Verteilungsfunktion
• Aus K errechnet sich Testgröße λ
• H0 wird verworfen, wenn λ-Wert den kritischen Wert für ein gegebenes α überschreitet
●
● ●
●
●
●
● ●
K- = größter Abstand wenn Messwerte über theoretischer Funktion liegen
K+ = größter Abstand wenn Messwerte unter theoretischer Funktion liegen nK ⋅=λ
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Parametrische versus nicht-parametrische Tests
Kann den Daten eine bestimmte Verteilung zugeordnet werden ?
Nicht-parametrische Tests
setzen keine bestimmte Verteilung voraus
Parametrische Tests
setzen eine bestimmte Verteilung voraus
(z.B. Normalverteilung)
ja nein
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Lageparameter 1
• Modalwert (= Modus)
– Die am häufigsten vorkommende Ausprägung eines Merkmals
– Verteilungsfreie Kenngröße!
– Beispiel: {1, 2, 3, 2, 4, 4, 2, 5, 1, 2}: M = 2
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Lageparameter 2
• Median
– Werte der Größe nach ordnen, der mittlere Wert (bei ungerader Anzahl) bzw. der Durchschnitt der beiden mittleren Werte (bei gerader Anzahl) entspricht dem Median
– Verteilungsfreie Kenngröße!
– Median teilt die Verteilung in zwei Hälften
– Beispiel: Lethale Dosis LD50
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
• Arithmetisches Mittel
– Kenngröße der Normalverteilung !
• Gewogenes arithmetisches Mittel
– Unterschiedliche Werte werden unterschiedlich stark gewichtet
– Bsp. Mittlere Korngröße
• Geometrisches Mittel
– Bsp. Mittlere Wachstumsrate von Raten über mehre Zeitintervalle
Lageparameter 3
∑∑ == iii ahn
xn
x 11
1
1
=
=
∑∑
i
iig
g
xgn
x
∑=
⋅⋅ ⋅=
in
nn
xx
xxxx
geom
geom
loglog
...1
21
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Streuungsparameter 1
• Minimum, Maximum, Spannweite
• Quantile
– 25% und 75%-Quantil (= oder 1. und 3. Quartil)
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Box-Whisker-Plots
Vegetationsform
BGrA
rm
BKlA
rm
ZoR
u
ChR
uci
ChZ
oma
Ruc
i
Zom
a
Nm MP
mitt
lere
Kor
ngrö
ße [m
m]
0.0
0.1
0.2
0.3
0.4
0.5
Extremwerte
Maximaler Wert oder 90% Quantil
75% Quantil
Median = 50% Quantil
25% Quantil
Minimaler Wert oder 10% Quantil
Extremwerte
Extremwerte: Werte, die mehr als das 1,5-fache des Abstandes zwischen 25% und 75%-Quantil entfernt sind (kann man aber selber festlegen…)
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Streuungsparameter 2
• Varianz:
– Ein Maß für die Streuung der Einzelwerte xi um den Mittelwert
– Die Maßeinheit der Varianz entspricht nicht der Maßeinheit der Messwerte
• Standardabweichung:
– Ein Maß für die Streuung der Einzelwerte xi um den Mittelwert
– Die Maßeinheit der Standardabweichung entspricht der Maßeinheit der Messwerte
1)²(
²−−
= ∑n
xxs i
1)²(
−−
= ∑n
xxs i
Parameter der Normalverteilung !!!
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Streuungsparameter 3
• Standardfehler eines Parameters, z.B. des arithmetischen Mittelwertes:
– Gibt die statistische Unsicherheit der Mittelwerte an
– Ein Standardfehler wird um so kleiner, je größer der Stichprobenumfang ist n
ssx =
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Streuungsparameter 4
xszxGrenzeobereuntere ⋅±= )2/(/ α
• Konfidenzintervall
– Ist ein geschätztes Intervall, welches den wahren Wert eines unbekannten Parameters (z.B. Mittelwert) mit vorgegebener Wahrscheinlichkeit (z.B. 95 %) überdeckt.
– Der wahre Wert ist unbekannt und würde sich nur durch „unendlich“ viele Messungen bestimmen lassen.
Z-Wert von α/2, z.B. 1,96 bei 95% kann der Tabelle zur Normalverteilung entnommen werden
Mittelwert Standardfehler des Mittelwertes
IOW-Statistikseminar: 2. Veranstaltung Carola Wagner & Anja Eggert
Wovon hängt die Breite eines Konfidenzintervalls ab?
1. Je größer der Stichprobenumfang, desto kleiner der Standardfehler und desto schmaler das Konfidenzintervall.
2. Je größer die Sicherheit der Schätzung, desto breiter das Konfidenzintervall
3. Je größer die Standardabweichung desto breiter das Konfidenzintervall
• Konfidenzintervalle werden sehr breit, wenn sie aufgrund kleiner Stichproben bestimmt werden.
• Präzise Intervallschätzung erfordert große Stichproben