Upload
lebao
View
226
Download
0
Embed Size (px)
Citation preview
15.05.2012 Geostatistik
Spezielle Verteilungen
Prof. Sabine Attinger Jun. Prof. Anke Hildebrandt
15.05.2012 Geostatistik
Beschreibende Statistik
Lagemaße:
1. Mittelwert:
3. Median=0.5 Perzentil
∑=
==n
iixn
x1
1µ
15.05.2012 Geostatistik
Beschreibende Statistik
Streumaße:
1. Reichweite:
3. Varianz:
4. Standardabweichung
5. Variationskoeffizient:
)( minmax xxV −=
( )2
1
2 1∑=
−=n
ii xx
nσ
2ss =2σσ =
xsCV =
µσ
=CV
15.05.2012 Geostatistik
Beschreibende Statistik
Schiefe: ( )3
3
111
s
xxn
n
ii
g∑ −
− ==
15.05.2012 Geostatistik
• Beschreibende Statistik – Stichproben/Ereignisse
– Grundgesamtheit
– Grafische Darstellung, Maße, Perzentile
• Schließende Statistik: – Wahrscheinlichkeit
– Zufallsvariable
– Spezielle Verteilungen
Statistik
15.05.2012 Geostatistik
Wahrscheinlichkeit Verteilungsfunktion F(x): = die Wahrscheinlichkeit einer Zufallsvariable kleiner oder
gleich als x zu sein
Wahrscheinlichkeitsdichte f(x) für diskrete Zufallsvariablen =Wahrscheinlichkeit, exakt x_i anzunehmen
15.05.2012 Geostatistik
Wahrscheinlichkeitsdichte f(x) (kontinuierliche Variablen):
Wahrscheinlichkeit
1)( =∫∞
∞−
xf
15.05.2012 Geostatistik
• Wahrscheinlichkeitsdichte f(x) (kontinuierlich):
• Verteilungsfunktion F(x):
Wahrscheinlichkeit
1)( =∫∞
∞−
xf
∫∞−
=x
xfxF )()(
15.05.2012 Geostatistik
• Mittelwert
Maße
∑=
⋅==N
iii xfxXE
1
)()( µ dxxfxXE ∫+∞
∞−
⋅== )()( µ
discrete continuous
15.05.2012 Geostatistik
• Mittelwert
• Varianz
Maße
∑=
⋅==N
iii xfxXE
1
)()( µ dxxfxXE ∫+∞
∞−
⋅== )()( µ
( )∑=
⋅−==N
iii xfxXVar
1
22 )()( µσ ( )∫+∞
∞−
⋅−== )()( 22 xfxXVar µσ
diskret kontinuierlich
15.05.2012 Geostatistik
Definition: Das -Quantil ist definiert als der Wert, bei dem der
te-Teil der Daten kleiner ist and 1- te-Teil größer ist als .
Die Definition für das Perzentil ist ähnlich, nur ein Prozenten ausgedrückt.
Perzentil
α αQ
αα =< )( QXP
α α
αQ
Das Bild kann nicht angezeigt werden. Dieser Computer verfügt möglicherweise über zu wenig Arbeitsspeicher, um das Bild zu öffnen, oder das Bild ist beschädigt. Starten Sie den Computer neu, und öffnen Sie dann erneut die Datei. Wenn weiterhin das rote x angezeigt wird, müssen Sie das Bild möglicherweise löschen und dann erneut einfügen.
%100αα PQ =
15.05.2012 Geostatistik
Perzentil p – Perzentil (- Quantil)
0.90 – Perzentil 0.75 – Perzentil (upper Quartile) 0.50 – Perzentil (Median) 0.25 – Perzentil (Lower Quartile) 0.10 – Perzentil
15.05.2012 Geostatistik
Box-Whisker-Plot
15.05.2012 Geostatistik
Spezielle Verteilungen/ Wahrscheinlichkeitsdichten
• Binomial Verteilung • Bernoulli Verteilung • Poisson Verteilung • Normal Verteilung • Log-Normal Verteilung • Gamma Verteilung
15.05.2012 Geostatistik
Bernoulli Verteilung Wenn die Ergebnisse eines Zufallsexperiments in zwei Ereignisse A
und B zusammengefasst werden können, gilt für die Wahrscheinlichkeit der Ereignisse
P(A=1)=p P(B=0)=q=1-p
diese Verteilung heißt Bernoulli Verteilung, nach dem Schweizer Jacob Bernoulli. Es ist eine diskrete Verteilung, die den Wert 1 mit der Wahrscheinlichkeit p und den Wert 0 mit der Wahrscheinlichkeit q = 1 − p annimmt.
15.05.2012 Geostatistik
Binomial Verteilung • Die Binomialverteilung ist eine der wichtigsten
diskreten Wahrscheinlichkeitsverteilungen.
• Sie beschreibt die Anzahl der Erfolge in einer Serie von gleichartigen und unabhängigen Versuchen, die jeweils genau zwei mögliche Ergebnisse haben („Erfolg“ oder „Misserfolg“). Solche Versuchs-Serien werden auch Bernoulli-Prozesse genannt.
• Der Spezialfall N=1 entspricht gerade der Bernoulli Verteilung.
xNx ppxN
xp −−⎟⎟⎠
⎞⎜⎜⎝
⎛= )1()(
15.05.2012 Geostatistik
Beispiel Für ein See wurde in den letzten 220 Jahren aufgezeichnet, wann er
zugefroren war. Wie hoch ist die Wahrscheinlichkeit, daß der See 1. im nächsten Jahr zufriert? 2. genau einmal in den nächsten 10 Jahren zufriert? 3. mindestens einmal in den nächsten 10 Jahren zufriert?
Jahre Jahre
1796 1904 1816 1912 1856 1934 1875 1961 1884 1979
15.05.2012 Geostatistik
Poisson Verteilung • Die Poisson Verteilung ist eine diskrete Verteilung die die
Wahrscheinlichkeit seltener Ereignisse beschreibt. Die Verteilung wurde von Siméon Denis Poisson (1781–1840)
eingeführt.
• Wenn die erwartete Anzahl von Ereignissen in einem Intervall gleich λ ist, dann ist die Wahrscheinlichkeit, daß es genau k Ereignisse gibt
Das Bild kann nicht angezeigt werden. Dieser Computer verfügt möglicherweise über zu wenig Arbeitsspeicher, um das Bild zu öffnen, oder das Bild ist beschädigt. Starten Sie den Computer neu, und öffnen Sie dann erneut die Datei. Wenn weiterhin das rote x angezeigt wird, müssen Sie das Bild möglicherweise löschen und dann erneut einfügen.
( ) λλ
λλ
λ
λ
λ
λ
=−=
==
==
−
−
−
∑
∑
!)()(
!)(
!)(
2
keXEkXVar
kekXE
kekXf
k
k
k
15.05.2012 Geostatistik
Beispiel Der Staat New York wird häufiger von Tornados heimgesucht. Die 30-
jährigen Aufzeichnungen sagen folgendes: Nehmen Sie an, daß das Auftreten von Tornados einer Poisson Verteilung gehorcht. Stellen Sie die Poisson Verteilung auf!
1959 3 1969 7 1979 3
1960 4 1970 4 1980 4
1961 5 1971 5 1981 3
1962 1 1972 6 1982 3
1963 3 1973 6 1983 8
1964 1 1974 6 1984 6
1965 5 1975 3 1985 7
1966 1 1976 7 1986 9
1967 2 1977 5 1987 6
1968 2 1978 8 1988 5
15.05.2012 Geostatistik
Normal Verteilung
2
21
21)(
⎟⎠
⎞⎜⎝
⎛ −−
⋅= σµ
πσ
x
exf
Die Normal- oder Gauß-Verteilung (nach Carl Friedrich Gauß) ist ein wichtiger Typ stetiger Wahrscheinlichkeitsverteilungen. Ihre Wahrscheinlichkeitsdichte wird auch Gauß-Funktion, Gauß-Kurve, Gauß-Glocke, Gaußsche Glockenkurve oder schlicht Glockenkurve genannt.
15.05.2012 Geostatistik
Normalverteilung
Die besondere Bedeutung der Normalverteilung beruht unter anderem auf dem zentralen Grenzwertsatz, der besagt, dass eine Summe von n unabhängigen, identisch verteilten Zufallsvariablen im Grenzwert normalverteilt ist. Das bedeutet, dass man Zufallsvariablen dann als normalverteilt ansehen kann, wenn sie durch Überlagerung einer großen Zahl von unabhängigen Einflüssen entstehen, wobei jede einzelne Einflussgröße einen im Verhältnis zur Gesamtsumme unbedeutenden Beitrag liefert.
Zufallsgrößen mit Normalverteilung benutzt man zur Beschreibung zufälliger Vorgänge wie:
• zufällige Messfehler, • zufällige Abweichungen vom Nennmaß bei der Fertigung von
Werkstücken, • Beschreibung der brownschen Molekularbewegung.
15.05.2012 Geostatistik
Normalverteilung
( )2
21
Var(X)XE
21)(
2
σ
µ
πσσµ
=
=
⋅=⎟⎠
⎞⎜⎝
⎛ −−
x
exf
15.05.2012 Geostatistik
Lognormal Verteilung
Die Lognormalverteilung ist eine Verteilung, die sich ergibt, wenn man normalverteilte logarithmierte Werte zugrunde legt.
15.05.2012 Geostatistik
Lognormal Verteilung
15.05.2012 Geostatistik
Gamma Verteilung
Viele atmosphärischen Variablen sind gamma-verteilt:
( )
2
1
Var(X)E(X)
exp)(
αβ
αβ
αβββ
α
=
=
Γ
⎟⎟⎠
⎞⎜⎜⎝
⎛−⎟⎟
⎠
⎞⎜⎜⎝
⎛
=
−xx
xf
15.05.2012 Geostatistik
Beispiel Wir nehmen an, daß die Verteilung der Januar Niederschlagswerte in
Ithaka (Tabelle A.2) einer Gamma-Verteilung folgt. Stellen Sie die Verteilung auf!
15.05.2012 Geostatistik
Fitten von Verteilungen
Anpassen der theoretischen Verteilung durch
• Vergleich mit Histogramm mithilfe der
Methode der kleinsten Fehlerquadrate • Quantil-Quantil-Plots • Maximum Likelihood
15.05.2012 Geostatistik
Methode der kleinsten Fehlerquadrate
• Die Methode der kleinsten Quadrate (engl.: method of least squares) ist das mathematische Standardverfahren zur Ausgleichungsrechnung.
• Dabei wird zu einer Datenpunktwolke eine Kurve gesucht, die möglichst nahe an den Datenpunkten verläuft.
• Die Methode der kleinsten Quadrate besteht dann darin, die Kurvenparameter so zu bestimmen, dass die Summe der quadratischen Abweichungen der Kurve von den beobachteten Punkten minimiert wird. Die Abweichungen werden Residuen genannt.
15.05.2012 Geostatistik
Methode der kleinsten Fehlerquadrate
Quelle: Wikipedia
( )( )∑=
−=N
iiji yxf
1
2,min! β
15.05.2012 Geostatistik
Quantil-Quantil-Plots Ein Quantile-Quantile-Plot (Q-Quantil-Diagramm) ist
ein exploratives, grafisches Werkzeug, in dem die Quantile zweier statistischer Variablen gegeneinander abgetragen werden, um ihre Verteilungen zu vergleichen.
Stammen die Messdaten tatsächlich aus der
angenommenen Verteilung, liegen die Wertepaare ungefähr auf einer Linie.
Wenn die Vergleichsverteilung für die Merkmalswerte
nicht passt, gibt es mehr oder weniger starke Abweichungen von der Linie; die Verteilung kann dann nicht als Ursprungsverteilung der Merkmalswerte angenommen werden.
Quelle: http://www.bb-sbl.de/tutorial/verteilungen/qqplot.html
15.05.2012 Geostatistik
Maximum Likelihood Die Maximum-Likelihood-Methode (von engl. maximale
Wahrscheinlichkeit) bezeichnet in der Statistik ein parametrisches Schätzverfahren.
• Bei der Maximum-Likelihood-Methode wird von einer
Zufallsvariablen ausgegangen, deren Dichte- bzw. Wahrscheinlichkeitsfunktion von einem Parameter abhängt. Liegt eine einfache Zufallsstichprobe mit unabhängigen und identisch verteilten Realisationen vor, so lässt sich die Dichtefunktion bzw. Wahrscheinlichkeitsfunktion wie folgt faktorisieren:
( ) ( )∏=
=N
ijij xfL
1
;ββ
15.05.2012 Geostatistik
Maximum Likelihood • Wird diese Funktion in Abhängigkeit von den Parametern der
Verteilung maximiert, so erhält man die Maximum-Likelihood-Schätzung für diese Parameter.
• Häufig arbeitet man auch mit dem Logarithmus von L und maximiert lnL.
( ) ( ) ( )∑∏==
==N
iji
N
ijij xfxfL
11
;ln;lnln βββ
15.05.2012 Geostatistik
Maximum Likelihood • Wir stellen die Likelihood-Funktion bzw. Log-Likelihood Funktion
einmal für die Normalverteilung auf:
15.05.2012 Geostatistik
Beispiel Um die Parameter der Gamma-Verteilung zu schätzen wird gern die
Maximum-Likelihood Methode benutzt, allerdings muß man dabei auf Approximationen zu zurückgreifen, weil man nicht explizit nach den Parametern der Verteilung auflösen kann. Dazu wird die Größe D definiert:
Nach Thom (1958) folgen dann die Parameter zu: Es gibt auch noch andere Approximationen (siehe Wilks, Seite 97)
( ) ( )∑=
−=N
iixNxD
1
ln/1ln
DD
43/411 ++
=α
15.05.2012 Geostatistik
15.05.2012 Geostatistik
Übung 1
15.05.2012 Geostatistik
Übung 2 • Bitte berechnen Sie den Mittelwert und die Varianz der
Bernoulli-Verteilung!
15.05.2012 Geostatistik
Bernoulli Distribution
15.05.2012 Geostatistik
Übung 3 Auf der Erde gibt es pro Jahr im Mittel ein Erdbeben mit
einer Stärke 8 oder mehr auf der Richterskala. a) Mit welcher Wahrscheinlichkeit gibt es im nächsten
Jahr mehr als zwei solche Erdbeben? b) Wieviele Jahre im Zeitraum 2011 bis 2060 mit
höchstens einem solch starken Erdbeben können wir erwarten?
Hinweis: Die Anzahl Erdbeben pro Jahr soll Poisson-verteilt
sein.
15.05.2012 Geostatistik
Übung 3 In Japan, gibt es im Jahresmittel 50 Erdbeben.
Wie hoch ist die Wahrscheinlichkeit, daß sich im nächsten Monat 3 Erdbeben ereignen, wenn man annimmt, daß die Erbeben einer Poisson Verteilung folgen?
15.05.2012 Geostatistik
Poisson Verteilung
15.05.2012 Geostatistik
Poisson Verteilung
15.05.2012 Geostatistik
15.05.2012 Geostatistik
Übung 4
15.05.2012 Geostatistik
Übung 4 • Please plot the distribution of the porosities in sand
stone.
• It looks like which specific probabiity distribution?
• Please determine the parameters of this distribution! Write down explicitly the probability distribution!
15.05.2012 Geostatistik
Example
15.05.2012 Geostatistik
Solution - Mean
15.05.2012 Geostatistik
Solution - Variance