18
1 Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik Lage- und Streuungsparameter III 1 Auswertung univariater Datenmengen - deskriptiv Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik Lage- und Streuungsparameter III 2 Bibliografie Prof. Dr. Kück; Statistik, Vorlesungsskript Abschnitt 6.1.2 Bleymüller/Gehlert/Gülicher; Statistik für Wirtschaftswissenschaftler Verlag Vahlen Bleymüller/Gehlert; Formeln, Tabellen und Programme Verlag Vahlen

Auswertung univariater Datenmengen - deskriptiv · 2 Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik Lage- und Streuungsparameter III 3 Lageparameter können die Verteilung

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Auswertung univariater Datenmengen - deskriptiv · 2 Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik Lage- und Streuungsparameter III 3 Lageparameter können die Verteilung

1

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

1

Auswertung univariaterDatenmengen - deskriptiv

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

2

Bibliografie

Prof. Dr. Kück; Statistik, Vorlesungsskript Abschnitt 6.1.2

Bleymüller/Gehlert/Gülicher;Statistik für WirtschaftswissenschaftlerVerlag Vahlen

Bleymüller/Gehlert;Formeln, Tabellen und ProgrammeVerlag Vahlen

Page 2: Auswertung univariater Datenmengen - deskriptiv · 2 Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik Lage- und Streuungsparameter III 3 Lageparameter können die Verteilung

2

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

3

Lageparameter können die Verteilung nicht vollständig beschreiben.Die drei extrem unterschiedlichen Verteilungen haben den gleichen (arithmetischen) Mittelwert von 1000:

Empirische Streuungsmaße

0

1000

2000

1 2 3 4 50

1000

2000

1 2 3 4 5 0

1000

2000

1 2 3 4 5

Die zweite Aufgabe der statistischen Beschreibung ist die Messung der Streuung.

Streuungsparameter dienen der näheren Charakterisierung von Verteilungen. Sie sind ein Maß dafür, wie weit die Daten auf der Merkmalsachse voneinander oder vom Zentrum der Verteilung entfernt liegen.

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

4

Empirische StreuungsmaßeBeispiel: Temperaturschwankungen

Für Moskau und Dublin wird die gleiche Jahresdurchschnittstemperatur von 10°C ausgewiesen.

Der Vergleich der gemessenen Einzelwerte zeigt folgendes Bild, wo man erkennen kann, dass die Temperaturschwankungen in Moskau größer als in Dublin sind:

30

20

10

0

-10

-20J F M A M J J A S O N D

30

20

10

0

-10

-20J F M A M J J A S O N D

Das Temperaturmittel reicht nicht, um die Temperatursituation zuvergleichen. Hier wird ein Streuungsmaß gebraucht, um die Schwankungen zu charakterisieren.

Page 3: Auswertung univariater Datenmengen - deskriptiv · 2 Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik Lage- und Streuungsparameter III 3 Lageparameter können die Verteilung

3

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

5

In der beschreibenden Statistik werden folgende Maßzahlen der Streuung verwendet:

• Spannweite

• Quartilsabstand

• Mittlere absolute Abweichung

• Varianz

• Standardabweichung

• Variationskoeffizient

Empirische Streuungsmaße

Streuungsmaße lassen sich nur für kardinalskalierte Merkmale ermitteln, da sich bei nominal- und ordinalskalierten Merkmalen keine (sinnvollen) Differenzen der Merkmalsausprägungen ermitteln lassen.

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

6

Die Spannweite ist die einfachste Maßzahl für die Differenz der Daten, die den Abstand zwischen dem kleinsten und dem größten Beobachtungswert angibt. Sie drückt damit nicht die mittleren sondern punktuelle Abweichungen aus:

Spannweite

Spannweite (Englisch: range)

Dabei sind a[N] und a[1] die der Größe nach aufsteigend geordneten Einzelwerte.

a[1] a[N]

R = a[N] – a[1]

Page 4: Auswertung univariater Datenmengen - deskriptiv · 2 Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik Lage- und Streuungsparameter III 3 Lageparameter können die Verteilung

4

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

7

Beispiel: In der Reihe der geordneten Merkmalswerte der Gewichte für die zehn untersuchten Personen ist die Spannweite die Differenz aus dem Gewicht von Nils und Lisa:

Name Lisa Anna AntjeMarieDörte Sven Uwe Kai Jan NilsNr. i 1 2 3 4 5 6 7 8 9 10

ai 44 46 50 54 56 69 72 78 80 101

Spannweite

Es ergibt sich: R = max ai – min ai = 101 – 44 = 57

Die Spannweite beträgt 57 kg.

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

8

Der Quartilsabstand (Englisch: interquartil range) ist die Differenz zwischen dem 75%igen und 25%igen Quartil der Häufigkeitsverteilung. Das ist die Spanne, welche die mittleren 50 % der Daten umfasst:

Quartilsabstand

Dabei sind Q1 und Q3 das erste und das dritte Quartil der Verteilung

QA = Q3 – Q1

a[1] a[N]Q1 Q3

Page 5: Auswertung univariater Datenmengen - deskriptiv · 2 Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik Lage- und Streuungsparameter III 3 Lageparameter können die Verteilung

5

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

9

Beispiel: Für die in Gewichtsklassen erfassten 100 Personen sind zunächst die 75%igen und 25%igen Quartilswerte zu bestimmen:

Quartilsabstand -Beispiel

………

0,800,1262,5 – 67,5

0,680,2057,5 – 62,5

0,480,2652,5 – 57,5

0,220,1847,5 – 52,5

0,040,0442,5 – 47,5

F(xi)f(xi)Gewicht von…bis unter…

Einfallsklassen0

0,2

0,4

0,6

0,8

1

1,2

42,5

bis

47,5

47,5

bis

52,5

52,5

bis

57,5

57,5

bis

62,5

62,5

bis

67,5

67,5

bis

72,5

72,5

bis

77,5

77,5

bis

82,5

82,5

bis

87,5

87,5

bis

92,5

F(xi)

Man bestimmt für Q1: 53,1 und für Q3: 65,4. Der Quartilsabstand beträgt 12,3 kg.

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

10

Mittelt man den Abstand der beiden Quartile, so erhält man den durchschnittlichen Abstand der Quartile gegenüber dem Zentrum der Verteilung. Dieser Wert sagt aus, wie weit die Quartile im Mittel von Q2 (Median) abweichen.

2QQMQA 13−=

Mittlerer Quartilsabstand

Später lernen wir weitere Streuungsmaße kennen, bei denen die Einzelabweichungen gegenüber dem Median gemittelt werden.

Page 6: Auswertung univariater Datenmengen - deskriptiv · 2 Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik Lage- und Streuungsparameter III 3 Lageparameter können die Verteilung

6

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

11

Gleichverteilung:

f(x)

X

Quartilsabstand unterschiedlicher Verteilungen

X

1F(x)

Quartilsabstand

0,25

0,75

0

f(x)

X Quartilsabstand

F(x)1

0,25

0,75

0X

Normalverteilung:

Der Quartilsabstand ist bei Normalverteilung kleiner als bei Gleichverteilung.Man kann aus dem Abstand auch vergleichende Aussagen über die Form von Verteilungen ableiten.

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

12

Quartile einer empirischen Verteilung -Beispiel

0,99812,25000 – 18000

0,87614,63600 – 5000

0,73018,12600 – 3600

0,54914,72000 – 2600

0,40214,71500 – 2000

0,2556,61300 – 1500

0,18911,7900 – 1300

0,0727,2Unter 900

F(x)Früheres

Bundesgebiet

HHNEvon…bis unter … Euro

Beispiel: Haushaltnettoeinkommen (HHNE) im früheren Bundesgebiet Erwerbsstatistik 2003 ( DESTATIS)

Der Median liegt in der Klasse von 2000 bis unter 2600 Euro. Daraus folgt:

)x(x)F(x)F(x

)F(xpxMe ui

oiu

i0i

uiu

i −⋅−

−+=

∈=−⋅−−

+= 24002000)(26000,4020,549

0,4020,52000Me

Q1 liegt in der Klasse von 1300 bis unter 1500 Euro

∈=−⋅−−

+= 1484,851300)(15000,1890,255

0,1890,251300Q1

∈=−⋅−−

+= 3791,783600)(50000,7300,876

0,7300,753600Q3Q3 liegt in der Klasse von 3600 bis unter 5000 Euro.

Page 7: Auswertung univariater Datenmengen - deskriptiv · 2 Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik Lage- und Streuungsparameter III 3 Lageparameter können die Verteilung

7

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

13

Interquartilsabstand als Streuungsmaß - Beispiel

0,99812,25000 – 18000

0,87614,63600 – 5000

0,73018,12600 – 3600

0,54914,72000 – 2600

0,40214,71500 – 2000

0,2556,61300 – 1500

0,18911,7900 – 1300

0,0727,2Unter 900

F(x)Früheres

Bundesgebiet

HHNEvon…bis unter … Euro

Beispiel: Haushaltnettoeinkommen (HHNE) im früheren Bundesgebiet Erwerbsstatistik 2003 ( DESTATIS)

Die mittlere Hälfte der Haushaltsnettoeinkommen hat einen Abstand von 2306,93€,gegenüber dem Zentralwert beträgt die mittlere Abweichung des ersten und dritten Quartils1153,47€.

QA=Q3-Q1=3791,78-1484,85=2306,93

1153,472

2306,932

QQMQA 13 ==−

=

Q1=1484,85; Q2=Me=2400; Q3=3791,78

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

14

Beurteilung der Spannweite

Die Spannweite ist eine einfache Maßzahl für die Streuung.

Die Spannweite drückt die Variationsbreite der Beobachtungswerte aus. Da sie nur aus den beiden Extremwerten berechnet wird, ist sie sensibel für Ausreißer.

Sie ist nicht geeignet, wenn die Anzahl der Beobachtungen sehr groß ist.

Beispiel: Würde Nils nicht 101 kg sondern lediglich 81 kg wiegen, so ergäbe sich für die Spannweite 37 kg (statt 57 kg)

Page 8: Auswertung univariater Datenmengen - deskriptiv · 2 Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik Lage- und Streuungsparameter III 3 Lageparameter können die Verteilung

8

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

15

Beurteilung des Quartilsabstandes

Der Quartilsabstand wird nicht durch einzelne Extremwerte beeinflusst. Er ist gegenüber Ausreißern robuster.

Der Quartilsabstand gibt die Differenz der Merkmalswerte an, welche die mittlere Hälfte der Einzelwerte repräsentiert.

Der mittlere Quartilsabstand misst die Abweichung des ersten und dritten Quartils, indem die „mittlere Hälfte“in zwei Bereiche geteilt wird.

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

16

Die mittlere absolute Abweichung wird meist gegenüber dem arithmetischen Mittel gebildet.

Grundlage der Streuungsberechnung sind die Abweichungen aller Einzelwerte vom Mittelwert.

Die mittlere absolute Abweichung ist das arithmetische Mittel aller Einzelabweichungen.

∑=

−=N

1ii µa

N1MAD

Mittlere absolute Abweichung für Einzelwerte

Page 9: Auswertung univariater Datenmengen - deskriptiv · 2 Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik Lage- und Streuungsparameter III 3 Lageparameter können die Verteilung

9

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

17

Beispiel: Für die Verteilung der Gewichte der 10 betrachteten Personen ergeben sich bei einem arithmetischen Mittel von 65 kg folgende Abweichungen:

020406080

100120

Lisa

Ann

a

Ant

je

Mar

ie

Dör

te

Sve

n

Uw

e

Kai

Jan

Nils

15|)65101|...|6550||6546||6544(|101MAD =−++−+−+−=

Mittlere absolute Abweichung - Beispiel

Man erhält als mittlere absolute Abweichung 15 kg.

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

18

Für gehäufte bzw. klassierte Daten gilt:

Mittlere absolute Abweichungfür gehäufte oder klassierte Daten

relative Häufigkeit der jeweiligen Klasse

absolute Häufigkeit der jeweiligen Klasse

gehäufte Merkmalsausprägungbzw. Klassenmitte

Anzahl der verschiedenen Merkmalsausprägungen bzw. Klassen

i

k

1iii

k

1ii fµxhµx

N1MAD ∑∑

==

−=⋅−=

Page 10: Auswertung univariater Datenmengen - deskriptiv · 2 Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik Lage- und Streuungsparameter III 3 Lageparameter können die Verteilung

10

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

19

Beispiel: Für die in Gewichtsklassen erfassten 100 Personen ergibt sich bei einem arithmetischen Mittel von (gerundet) 60 kg:

Klasse von… bis unter…

Relative Häufigkeit

Absolute Differenz

Spalte 2* Spalte 3

42,5 bis 47,5 0,04 15 0,60 47,5 bis 52,5 0,18 10 1,80 52,5 bis 57,5 0,26 5 1,30 57,5 bis 62,5 0,20 0 0,00 62,5 bis 67,5 0,12 5 0,60 67,5 bis 72,5 0,09 10 0,90 72,5 bis 77,5 0,05 15 0,75 77,5 bis 82,5 0,03 20 0,60 82,5 bis 87,5 0,02 25 0,50 87,5 bis 92,5 0,01 30 0,30

MMiittttlleerree aabbssoolluuttee AAbbwweeiicchhuunngg:: 77,,3355

MAD für klassierte Daten -Beispiel

Interpretation: Bei einem arithmetischen Mittel von (gerundet) 60 kg weichen die Einzelgewichte der 100 Personen durchschnittlich um 7,35 kg ab. Damit wird ein Streubereich von 52,65 kg bis unter 67,35 kg ausgewiesen.

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

20

Beispiel: Klausuraufgabe 3 vom Februar 2003In Norddeutschland lebten im Jahr 2001 15 Mill. Einwohner. Für die 5 Bundesländer liegen für 2001 folgende Eckdaten über Bevölkerung, Erwerb, Arbeitslosigkeit und Bruttoinlandsprodukt vor:

MAD für gehäufte Daten - Beispiel

66,09,411643,61.23018,8SH

180,410,035043,83.48253,0NI

29,719,616841,273011,8MV

75,59,37160,21.04811,6HH

23,413,64053,53854,8HB

Bruttoinlands-produkt(Mrd.€)

Arbeits-losenquote

(%)

Arbeits-losenzahl

(Tsd.)

Erwerbs-quote (%)

Erwerbs-tätige (Tsd.)

Bevölkerungs-anteil (%)

Bundes-land

Page 11: Auswertung univariater Datenmengen - deskriptiv · 2 Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik Lage- und Streuungsparameter III 3 Lageparameter können die Verteilung

11

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

21

Klausuraufgabe 3 vom Februar 2003, Aufgabenstellung:3.1 Berechnen Sie die Erwerbsquote (Erwerbstätige je Bevölkerung) für Norddeutschland und weisen Sie den Prozentwert aus.3.2 Berechnen Sie die Arbeitslosenquote (Arbeitslosenzahl je Arbeitskräftepotenzial) als Prozentwert für Norddeutschland.3.3 Geben Sie für die 5 Bundesländer und Norddeutschland gesamt die Quote des Bruttoinlandsproduktes in Tsd. Euro je Einwohner an. Weisen Sie mit der mittleren absoluten Abweichung gegenüber dem Wert für Norddeutschland, gewichtet mit dem Bevölkerungsanteil, die Differenziertheit der Bundesländer nach.

Lösung…3.3 Unter Verwendung der Gesamtgrößen ergibt sich ein (mittleres) Verhältnis von 25000 €BIP je Einwohner für Norddeutschland. Für die Berechnung der Landeswerte muss zuerst die Bevölkerungszahl nach Bundesländern berechnet werden. Die gewichtete mittlere absolute Abweichung der fünf Bundesländer vom Wert für Norddeutschland beträgt 5000 €. Damit wird ein Bereich in den Grenzen von 20000 und 30000 Euro für den Wert des BIP je Einwohner gebildet.

MAD für gehäufte Daten – Klausur 02/2003

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

22

Wenn als Lageparameter der Median verwendet wird, dann ist die Angabe der mittleren absoluten Abweichung gegenüber dem Median aussagefähig.

Median

i

k

1ii

* hMexN1MAD ⋅−= ∑

=

MAD* gegenüber dem Median

Interpretation: MAD* ist das arithmetische Mittel aller Abweichung der Einzelwerte gegenüber dem Merkmalswert, den die Hälfte der geordneten Daten annimmt.

Page 12: Auswertung univariater Datenmengen - deskriptiv · 2 Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik Lage- und Streuungsparameter III 3 Lageparameter können die Verteilung

12

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

23

Es ist auch sinnvoll, anstelle des arithmetischen Mittels den Median der Abweichungen zu bestimmen:

}{( )Mea,...,MeaMeMAD N1** −−=

Abweichung zwischen Wert 1 und Median der Verteilung

MAD** gegenüber dem Median

Interpretation: MAD** gibt den Median aller Abweichung der Einzelwerte gegenüber dem Median an, d.h. es gibt gleich viele negative wie positive Abweichungen gegenüber dem Median.

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

24

Beispiel: Für das Körpergewicht der 10 etwa gleichaltrigen Personen ergibt sich bei einem Median von 62,5 kg der Zentralwert der Abweichungen wie folgt:

Name Lisa Anna Antje Marie Dörte Sven Uwe Kai Jan NilsNr. i 1 2 3 4 5 6 7 8 9 10

xi 44 46 50 54 56 69 72 78 80 101

|xi - Me| 18,5 16,5 12,5 8,5 6,5 6,5 9,5 15,5 17,5 38,5

MAD gegenüber dem Median - Beispiel

38,518,517,516,515,512,59,58,56,56,5Abw.

Abweichungen absolut, der Größe nach geordnet:

Der Zentralwert der Abweichungsbeträge (MAD**) ist 14 kg.

Summe=150 kg

Das arithmetische Mittel der Abweichungen (MAD*) beträgt 15 kg.

Page 13: Auswertung univariater Datenmengen - deskriptiv · 2 Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik Lage- und Streuungsparameter III 3 Lageparameter können die Verteilung

13

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

25

Beurteilung der mittleren absoluten Abweichung

Die mittlere absolute Abweichung ist eine sehr anschauliche und plausible Maßzahl der Streuung.

Allen Abweichungen wird das positive Vorzeichen gegeben, damit betragsmäßig gleiche, vom Vorzeichen jedoch verschiedene Abweichungen sich nicht aufheben.

Für asymmetrische Verteilungen ist es sinnvoll, die mittlere absolute Abweichung für den oberen und für den unteren Bereich getrennt zu ermitteln:

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

26

Für asymmetrische Verteilungen ergeben sich für den unteren und für den oberen Bereich unterschiedliche mittlere Abstände.

Für symmetrische Verteilungen sind die Abstände des unteren und des oberen Bereiches gleich bzw. annähernd gleich.

Beurteilung der mittleren absoluten Abweichung

f(x)

x

Unterer Bereich

Oberer Bereich

Arithmetisches Mittel bzw. Median

Arithmetisches Mittel bzw. Median

f(x)

x

Page 14: Auswertung univariater Datenmengen - deskriptiv · 2 Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik Lage- und Streuungsparameter III 3 Lageparameter können die Verteilung

14

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

27

Die Varianz ist das am häufigsten verwendete Streuungsmaß. Analog zur mittleren absoluten Abweichung werden die Abweichungen der Einzelwerte vom Mittelwert gebildet, diese jedoch quadriert. Größere Abweichungen fallen dadurch stärker ins Gewicht, es treten nur positive Abweichungen auf. Es gilt für ungehäufte Daten:

Varianz

( )²µaN1σ

N

1ii

2 ∑=

−=

Einzelabweichungen zwischen Beobachtungswerten und arithmetischem Mittel der Verteilung

Zur Begriffsabgrenzung sollte hier von empirischer Varianz gesprochen werden, da die modifizierte Form (Division durch n-1) in der induktiven Statistik bevorzugt wird. Achten Sie bei Standardoptionen in Programmpaketen darauf, welche Varianzberechnung vorgenommen wird!

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

28

Beispiel: Für das Gewicht der 10 betrachteten Personen ergibt sich bei einem arithmetischen Mittel von 65 kg die Varianz wie folgt:

Name Lisa Anna Antje Marie Dörte Sven Uwe Kai Jan Nils

Nr. i 1 2 3 4 5 6 7 8 9 10xi 44 46 50 54 56 69 72 78 80 101

(xi - µ)2 441 361 225 121 81 16 49 169 225 1296

Summe=2.984 kg²

( ) ( ) ( ) ²kg 298,4²]65101...²6546²6544[101σ 2 =−++−+−⋅=

Varianz - Beispiel

Infolge des Quadrierens hat die Varianz nicht die gleiche Maßeinheit wie das Merkmal selbst. Die Interpretation ist daher nicht sinnvoll.

Page 15: Auswertung univariater Datenmengen - deskriptiv · 2 Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik Lage- und Streuungsparameter III 3 Lageparameter können die Verteilung

15

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

29

Bei manueller Berechnung kann eine andere Varianzformel vorteilhaft sein, deren Herleitung gezeigt wird:

Varianz - Berechnungsformel

( ) ( )

∑∑

∑∑

∑∑

==

==

==

−=+−=

+−=

+−=−=

N

1i

22i

N

1i

222i

2

N

1i

2i

N

1ii

2

N

1i

2i

2i

N

1i

2i

2

µaN1)NµNµ2a(

N1σ

)Nµaµ2²a(N1σ

µµa2aN1µa

N1σ

∑=

−=N

1i

22i

2 µaN1σ

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

30

Für gehäufte bzw. klassierte Merkmalsausprägungen ergibt sich die Varianz wie folgt:

( ) ( ) i

k

1iii

k

1ii

2 f²µxh²µxN1σ ⋅−=⋅−= ∑∑

==

Einzelabweichungen zwischen gehäuften Beobachtungswerten bzw. zwischen Klassenmitten und arithmetischem Mittel der Verteilung

Relative Häufigkeit des gehäuften Merkmals bzw. der jeweiligen Klasse

Absolute Häufigkeit des gehäuften Merkmals bzw. der jeweiligen Klasse

Anzahl der verschiedenen Merkmalsausprägungen bzw. der Klassen

Varianz für gehäufte bzw. klassierte Daten

Page 16: Auswertung univariater Datenmengen - deskriptiv · 2 Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik Lage- und Streuungsparameter III 3 Lageparameter können die Verteilung

16

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

31

Ohne Herleitung sei auch hier die andere Varianzformel für gehäufte Daten angeführt:

2

i

k

1ii

i

k

1ii

2

N

hxh²x

N1σ

⎟⎟⎟⎟

⎜⎜⎜⎜

⎛⋅

−⋅=∑

∑ =

=

Varianz für gehäufte bzw. klassierte Daten-Berechnungsformel-

2

i

k

1iii

k

1ii

2 fxf²xσ ⎟⎠

⎞⎜⎝

⎛⋅−⋅= ∑∑

==

µ²

- mit absoluten Häufigkeiten:

- mit relativen Häufigkeiten:

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

32

Beispiel: Für das Gewicht der 100 betrachteten Personen ergibt sich bei einem arithmetischen Mittel von (gerundet) 60 kg die Varianz wie folgt:

Summe=77.225 kg²

Klasse i 1 2 3 4 5 6 7 8 9 10hi 4 18 26 20 12 9 5 3 2 1

xi (Mitte) 45 50 55 60 65 70 75 80 85 90

(xi - µ)2 hi 3.600 32.400 16.900 0 3.600 8.100 5.625 3.600 2.500 900

( ) i

k

1i

2i

2 hµxN1σ ⋅−= ∑

=

( ) ( ) ( ) 22222 kg 772,251]6090...18605046045[100

1σ =⋅−++⋅−+⋅−=

Varianzberechnung - Beispiel

Page 17: Auswertung univariater Datenmengen - deskriptiv · 2 Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik Lage- und Streuungsparameter III 3 Lageparameter können die Verteilung

17

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

33

Beispiel: Klausuraufgabe 3 vom Februar 2003 (gekürzt)In Norddeutschland lebten im Jahr 2001 15 Mill. Einwohner. Für die 5 Bundesländer liegen für 2001 folgende Eckdaten über Bevölkerung, Erwerb, … vor:

Varianzberechnung - Beispiel

45,8Erwerbsquote Norddeutschland

43,61.23018,8SH

43,83.48253,0NI

41,273011,8MV

60,21.04811,6HH

53,53854,8HB

Erwerbs-quote (%)

Erwerbs-

tätige (Tsd.)

Bevölkerungs-

anteil (%)

Bundesland

Berechnen Sie die Varianz der Erwerbsquote.

σ ² = (0,535-0,458)² 0,048 + + (0,602-0,458)² 0,116 + (0,412-0,458)² 0,118 + (0,438-0,458)² 0,530+ (0,436-0,458)² 0,188

σ² = 0,003242

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

34

Beispiel: Klausuraufgabe 3 vom Februar 2003 (gekürzt)In Norddeutschland lebten im Jahr 2001 15 Mill. Einwohner. Für die 5 Bundesländer liegen für 2001 folgende Eckdaten über Bevölkerung … und Bruttoinlandsprodukt vor:

Varianzberechnung - Beispiel

25,0

23,4

22,7

16,8

43,4

32,5

BIP je Einwohner (Tausend €)

BIP je Einwohner Norddeutschland

66,018,8SH

180,453,0NI

29,711,8MV

75,511,6HH

23,44,8HB

Bruttoinlands-

produkt(Mrd.€)

Bevölkerungs-

anteil (%)

Bundesland

Berechnen Sie die Varianz des BIP je Einwohner (in Tausend Euro).

σ² = (32,5-25)² 0,048 + + (43,4-25)² 0,116 + (16,8-25)² 0,118 + (22,7-25)² 0,530+ (23,4-25)² 0,188

σ² = 53,192

Page 18: Auswertung univariater Datenmengen - deskriptiv · 2 Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik Lage- und Streuungsparameter III 3 Lageparameter können die Verteilung

18

Prof. Kück / R. Bernitz / Dr. RicabalLehrstuhl Statistik Lage- und Streuungsparameter III

35

Klausuraufgabe 3 vom Februar 2003, Aufgabenstellung:…3.3 Geben Sie für die 5 Bundesländer und Norddeutschland gesamt die Quote des Bruttoinlandsproduktes in Tsd. Euro je Einwohner an. Weisen Sie mit der mittleren absoluten Abweichung gegenüber dem Wert für Norddeutschland, gewichtet mit dem Bevölkerungsanteil, die Differenziertheit der Bundesländer nach.Geben Sie zusätzlich die Varianz für die Messung der Streuung an.

Varianzberechnung – Klausur 02/2003

Lösung…3.3 Unter Verwendung der Gesamtgrößen ergibt sich ein (mittleres) Verhältnis von 25000 € BIP je Einwohner für Norddeutschland. Für die Berechnung der Landeswerte muss zuerst die Bevölkerungszahl nach Bundesländern berechnet werden. Die gewichtete mittlere absolute Abweichung der fünf Bundesländer vom Wert für Norddeutschland beträgt 5000 €. Damit wird ein Bereich in den Grenzen von 20000 und 30000 Euro für den Wert des BIP je Einwohner gebildet. Die Varianz beträgt 53,192 [Tausend Euro² ]