Name:Matrikelnummer:
Formelsammlung zur Vorlesung
Statistik I fur Studierende der Soziologie
Dr. Carolin Strobl & Gero Walter
WS 2008/09
1 Einfuhrung
1.1 Grundbegriffe
1.1.1 Statistische Einheiten und Gesamtheiten
Statistische Einheiten: Objekte an denen interessierende Großen erhoben werden.
Grundgesamtheit: Die Menge aller fur eine bestimmte Fragestellung relevanten stati-stischen Einheiten heißt Grundgesamtheit (Universum, Population).
1.1.2 Merkmale und Merkmalsauspragungen
Merkmale: Eigenschaften der Einheiten heißen Merkmale (Variablen).
Merkmalsauspragungen: Auspragung eines Merkmals fur eine konkret vorliegende sta-tistische Einheit.
Wertebereich: Alle prinzipiell moglichen Auspragungen eines Merkmals.
1
1. Einfuhrung 2
Notation: Merkmale werden typischerweise mit Großbuchstaben bezeichnet (X, Y , Z,etc.), Auspragungen mit dem zugehorigen Kleinbuchstaben (x, y, z). Der Wertebereichwird mit W bezeichnet.
Formal ist jedes Merkmal eine Funktion
X : Ω → Wω 7→ X(ω)
1.1.3 Merkmalstypen
Stetige, quasi-stetige und diskrete Merkmale
Skalenniveaus
• Nominalskala,
• Oridnalskala,
• Intervallskala,
• Ratioskala / Verhaltnisskala.
• Zulassige Tranformationen:
Transformation
Nominalskala eineindeutige
Ordinalskala streng monotone
Intervallskala lineare (a + bX; b > 0)
Verhaltnisskala linear affine (bX; b > 0)
Qualitative und quantitative Merkmale
1.1.4 Erhebungsformen
Experiment vs. Beobachtungsdaten
Vollerhebung vs. Stichprobe
Auswahltechniken:
• Einfache Zufallsstichprobe,
• Klumpenstichprobe,
• Geschichtete Stichprobe.
2. Haufigkeitsverteilungen 3
Studientypen:
• Querschnittsstudie,
• Zeitreihe
• Longitudinal- / Paneldaten.
Analysearten:
• Primarerhebung / -analyse,
• Sekundaranalyse,
• Tertiaranalyse,
• Metaanalyse.
2 Haufigkeitsverteilungen
Ausgangssituation: An n Einheiten ω1, . . . , ωn sei das Merkmal X beobachtet worden.
Die verschiedenen Merkmalsauspragungen werden mit a1, . . . , ak bezeichnet.
2.1 Haufigkeiten
Absolute Haufigkeiten der Merkmalsauspragungen: Fur jedes aj, j = 1, . . . , k, be-zeichnen hj und h(aj) die absolute Haufigkeit der Auspragung aj, d.h. die Anzahl der xi
aus x1, . . . , xn mit xi = aj.
Formal:hj := h(aj) := |ω ∈ Ω | X(ω) = aj|.
h1, h2, . . . , hk (als Ganzes) nennt man die absolute Haufigkeitsverteilung.
Es giltk∑
j=1
hj = n.
Relative Haufigkeiten der Merkmalsauspragungen: Fur jedes aj, j = 1, . . . , k, be-zeichnen fj und f(aj) die relative Haufigkeit der Auspragung aj, also
fj := f(aj) :=hj
n.
f1, f2, . . . , fk nennt man die relative Haufigkeitsverteilung.
2. Haufigkeitsverteilungen 4
Es giltk∑
j=1
fj = 1.
Haufigkeitstabelle:
j aj hj fj
1 a1 h1 f1
2 a2 h2 f2
3 a3 h3 f3
......
......
k ak hk fk∑n 1
2.2 Grafische Darstellung
Stabdiagramm
Saulendiagramm
Balkendiagramm
Kreisdiagramm: Der Kreis wird in Segmente unterteilt, denen jeweils eine Auspragung(oder Klasse) zugeordnet wird. Der jeweilige Winkel ist proportional zur Haufigkeit.
Berechnung: Winkel des Kreissektors j = relative Haufigkeit ×360
Stamm-Blatt-Diagramm
2.3 Histogramm
• Gegeben: Urliste x1, . . . , xn eines (mindestens) intervallskalierten Merkmals.
• Wahle c0 ≤ mini=1,...,n(xi) und ck ≥ maxi=1,...,n(xi)
• Bilde Klasseneinteilung [c0, c1), [c1, c2), . . . , [ck−1, ck].
• Fur jede Klasse [cj−1, cj), j = 1, . . . , k sei
dj = cj − cj−1
die Breite des j-ten Intervalls und hj bzw. fj die absolute bzw. relative Haufigkeitin der j-ten Klasse.
2. Haufigkeitsverteilungen 5
• Zeichne uber jedem Intervall ein Rechteck der Breite dj so, dass die Flache propor-tional zu fj und hj ist.
Das Histogramm ist flachentreu.
Typen von Haufigkeitsverteilungen
• Unimodale und multimodale Verteilungen.
• Symmetrie und Schiefe.
2.4 Kumulierte Haufigkeiten und empirische Verteilungsfunktion
Gegeben sei die Urliste x1, . . . , xn eines (mindestens) ordinalskalierten Merkmals mit derHaufigkeitsverteilung h1, . . . , hk bzw. f1, . . . , fk.
Dann heißt
H(x) := Anzahl der Werte xi mit xi ≤ x
=∑
j:aj≤x
h(aj) =∑
j:aj≤x
hj
absolute kumulierte Haufigkeitsverteilung und
F (x) := Anteil der Werte xi mit xi ≤ x
= H(x)/n
=∑
j:aj≤x
f(aj) =1
n
∑j:aj≤x
h(aj)
relative kumulierte Haufigkeitsverteilung bzw. empirische Verteilungsfunktion.
Gruppierte Daten:
• k Klassen [c0, c1), . . . , [cj−1, cj), . . . , [ck−1, ck], hj Haufigkeit in j-ter Klasse.
• Verwende bei einem x aus der Klasse [cj−1, cj) als Approximation fur H(x) folgenden,aus der linearen Interpolation gewonnenen Punkt:
H(x) ≈ H(cj−1) +hj
(cj − cj−1)· (x− cj−1)
3. Lage- und Streuungsmaße 6
3 Lage- und Streuungsmaße
3.1 Lagemaße
3.1.1 Arithmetisches Mittel
Definition: Sei x1, . . . , xn die Urliste eines (mindestens) intervallskalierten Merkmals X.Dann heißt
x :=1
n
n∑i=1
xi
das arithmetische Mittel der Beobachtungen x1, . . . , xn.
Alternative Berechnung basierend auf Haufigkeiten: Hat das Merkmal X die Aus-pragungen a1, . . . , ak und die (relative) Haufigkeitsverteilung h1, . . . , hk bzw. f1, . . . , fk,so gilt
x =1
n
k∑j=1
ajhj =k∑
j=1
ajfj.
Satz: Arithmetisches Mittel und lineare Transformationen. Gegeben sei die Urlistex1, . . . , xn eines intervallskalierten Merkmals X. Betrachtet wird das (linear transformier-te) Merkmal Y = a ·X + b und die zugehorigen Auspragungen y1, . . . , yn.Dann gilt:
y = a · x + b.
Arithmetisches Mittel bei gruppierten Daten: Sei X ein intervallskaliertes Merkmal,das in gruppierter Form mit k Klassen [c0, c1), [c1, c2), . . . , [ck−1, ck] erhoben wurde. Mithl, l = 1, . . . k, als absoluter Haufigkeit der l−ten Klasse, fl als zugehoriger relativerHaufigkeit und ml := cl+cl−1
2als der jeweiligen Klassenmitte definiert man als arithmeti-
sches Mittel fur gruppierte Daten
xgrupp :=1
n
k∑
l=1
hlml =k∑
l=1
flml.
Arithmetisches Mittel bei geschichtete Daten: Zerfallt die Grundgesamtheit in zSchichten, so kann x aus den Schichtmitteln xl, l = 1, . . . , z berechnet werden:
x =1
n
z∑
l=1
nlxl
Dabei bezeichnet nl die Anzahl der Elemente in der l-ten Schicht.
3. Lage- und Streuungsmaße 7
3.1.2 Median & Quantile
Median: Gegeben sei die Urliste x1, . . . , xn eines (mindestens) ordinalskalierten Merk-mals X. Jede Zahl xmed mit
|i|xi ≤ xmed|n
≥ 0.5 und|i|xi ≥ xmed|
n≥ 0.5
heißt Median.
Alternative Definition des Medians uber die geordnete Urliste x(1) ≤ x(2) ≤ . . . ≤ x(n):
xmed :=
12
(x(n
2 )+ x(n
2+1)
)fur n gerade
x(n+12 ) fur n ungerade
Quantile Gegeben sei die Urliste x1, . . . , xn eines (mindestens) ordinalskalierten Merk-mals X und eine Zahl 0 < α < 1. Jede Zahl xα mit
|i|xi ≤ xα|n
≥ α und|i|xi ≥ xα|
n≥ 1− α
heißt α · 100%-Quantil.
Spezielle Quantile:
• Median: x0.5 = xmed .
• Quartile: x0.25, x0.75.
• Dezile: x0.1, x0.2, . . . , x0.8, x0.9.
Satz: Sei x1, x2, . . . , xn die Urliste eines (mindestens) ordinalskalierten Merkmals X, geine streng monoton steigende Funktion und y1 = g(x1), . . . , yn = g(xn) die Urliste desMerkmals Y = g(X). Dann gilt:
ymed = g(xmed).
3.1.3 Modus
Definition: Sei x1, . . . , xn die Urliste eines nominalskalierten Merkmals mit den Aus-pragungen a1, . . . , ak und der Haufigkeitsverteilung h1, . . . , hk. aj∗ heißt Modus xmod genaudann, wenn hj∗ ≥ hj, fur alle j = 1, . . . , k.
3. Lage- und Streuungsmaße 8
3.1.4 Vergleich der Lagemaße
Die relative Lage von x, xmed, xmod zueinander kann zur Charakterisierung von Verteilun-gen herangezogen werden:
symmetrisch: x ≈ xmed ≈ xmod
linkssteil: x > xmed > xmod
rechtssteil: x < xmed < xmod
3.1.5 Geometrisches Mittel
Sei Ω = 0, . . . , n eine Menge von Zeitpunkten und B(i) =: bi ein zum Zeitpunkt ierhobenes Merkmal. Fur i = 1, . . . , n heißt
xi =bi
bi−1
der i-te Wachstumsfaktor und
ri =bi − bi−1
bi−1
= xi − 1
die i-te Wachstumsrate. Dann bezeichnet man
xgeom :=
(n∏
i=1
xi
) 1n
= (x1· x2· . . . ·xn)1n
als das geometrische Mittel der Wachstumsfaktoren x1, . . . , xn.
Es giltbn = b0 · (xgeom)n
3.1.6 Harmonisches Mittel
Sei x1, . . . , xn mit xi 6= 0 fur alle i die Urliste eines verhaltnisskalierten Merkmals X.Dann heißt
xhar :=1
1n
∑ni=1
1xi
das harmonische Mittel der x1, . . . , xn.
3.2 Streuungsmaße
3.2.1 Varianz und Standardabweichung
Varianz : Sei x1, . . . , xn die Urliste eines intervallskalierten Merkmals X. Dann heißen
s2X :=
1
n
n∑i=1
(xi − x)2
3. Lage- und Streuungsmaße 9
die (empirische) Varianz oder Stichprobenvarianz und
sX :=√
s2X
die empirische Streuung, Stichprobenstreuung oder Standardabweichung von X.
Sind die Auspragungen a1, . . . , ak mit (relativer) Haufigkeitsverteilung h1, . . . , hk bzw.f1, . . . , fk gegeben, so gilt
s2X =
1
n
k∑j=1
hj(aj − x)2 =
=k∑
j=1
fj(aj − x)2.
Satz: Sei x1, . . . , xn die Urliste eines mindestens intervallskalierten Merkmals X mitsX > 0 und y1, . . . , yn die zugehorige Urliste des Merkmals Y = a ·X + b. Dann gilt
s2Y = a2 · s2
X
undsY = |a| · sX .
Verschiebungssatz: Es gilt
s2X =
1
n
n∑i=1
x2i −
(1
n
n∑i=1
xi
)2
= x2 − (x)2.
Varianzzerlegung / Streuungszerlegung: Varianz bei geschichteten Daten mit
Schicht 1, . . . , l, . . . , z
Besetzungszahlen n1, . . . , nl, . . . , nz;z∑
l=1
nl = n
Mittelwerte x1, . . . , xl, . . . , xz
Varianzen s21, . . . , s
2l , . . . , s
2z
Mit
s2innerhalb :=
1
n
z∑
l=1
nls2l
sowie
s2zwischen :=
1
n
z∑
l=1
nl(xl − x)2
gilt
s2 = s2innerhalb + s2
zwischen .
3. Lage- und Streuungsmaße 10
Korrigierte empirische Varianz: Sei x1, . . . , xn die Urliste eines intervallskalierten Merk-mals X. Dann heißt
s2X :=
1
n− 1
n∑i=1
(xi − x)2
die korrigierte empirische Varianz oder korrigierte Stichprobenvarianz von X.
3.2.2 Weitere Streuungsmaße
Variationskoeffizient: Ist x > 0, so heißt die Große
vX :=sX
x
Variationskoeffizient des Merkmals X.
Inter-Quartils-Abstand: Sind x0.25 und x0.75 das obere und das untere Quartil einesMerkmals, so heißt
dQX := x0.75 − x0.25
der Interquartilsabstand.
Median-Absolute-Deviation: Der Median der Werte |xi − xmed|, i = 1, . . . , n heißtMedian-Absolute-Deviation von X (MADX).
Spannweite: Die GroßeRX := x(n) − x(1)
heißt Spannweite von X.
3.3 Box-Plot
Grafische Zusammenfassung wichtiger Kennzahlen, die nicht ausreißeranfallig sind.
• x0.25, x0.50, x0.75.
• Interquartilsabstand: dQX = x0.75 − x0.25
•”Zaune“: zu := x0.25 − 1.5 · dQX
zo := x0.75 + 1.5 · dQX
• Ausserhalb der Zaune werden alle Punkte eingezeichnet; sie sind ausreißerverdachtig.
4. Konzentrationsmaße 11
4 Konzentrationsmaße
Durchgangige Annahmen in diesem Kapitel:
• X sei ein verhaltnisskaliertes Merkmal mit Urliste x1, . . . , xn.
• xi ≥ 0, fur alle i = 1, . . . , n undn∑
i=1
xi > 0 (d.h mindestens ein Wert ist von Null
verschieden).
• Betrachtet werden die der Große nach geordneten Daten:
x(1) ≤ x(2) ≤ . . . ≤ x(n)
4.1 Relative Konzentrationsmessung
4.1.1 Lorenzkurve
Definition: Bezeichne mit
uj :=j
nden Anteil der j kleinsten Merkmalstrager und mit
vj :=
j∑i=1
x(i)
n∑i=1
xi
=
j∑i=1
x(i)
n∑i=1
x(i)
den anteiligen Beitrag dieser Einheiten zur Gesamtsummen∑
i=1
xi =n∑
i=1
x(i)
(”kumulierte relative Merkmalssumme“). Die stuckweise lineare Kurve durch die Punkte
(0, 0), (u1, v1), (u2, v2), . . ., (un, vn) = (1, 1), heißt Lorenzkurve.
Berechnung uber die Haufigkeiten: Sind die relativen / absoluten Haufigkeiten f1, . . . , fk
bzw. h1, . . . , hk der der Große nach geordneten Merkmalsauspragungen a1 < a2 < . . . < ak
gegeben, so gilt fur j = 1, . . . , k
uj =
j∑
l=1
hl
n=
j∑
l=1
fl = F (aj)
und
vj =
j∑
l=1
hl · al
k∑
l=1
hl · al
=
j∑
l=1
fl · al
k∑
l=1
fl · al
=partielles arith. Mittel uber die ersten j
x.
4. Konzentrationsmaße 12
Berechnung bei klassierten Daten: Bei klassierten Daten mit den Klassen [c0, c1), [c1, c2),. . . , [ck−1, ck] verwendet man als Approximation
vj =
j∑
l=1
hl ·ml
k∑
l=1
hl ·ml
.
4.1.2 Gini-Koeffizient
Definition: Gegeben sei die geordnete Urliste x(1), x(2), . . . , x(n) eines verhaltnisskaliertenMerkmals X. Dann heißt
G :=2·∑n
i=1 i·x(i)
n∑n
i=1 xi
− n + 1
n
Gini-Koeffizient und
G∗ :=n
n− 1·G
normierter Gini-Koeffizient (Lorenz-Munzner-Koeffizient).
Betrachtet man die geordneten Auspragungen a1 < a2 < . . . < ak mit den Haufigkeitenh1, h2, . . . , hk, so gilt
G =
k∑
l=1
(ul−1 + ul)fl · al
k∑
l=1
fl · al
− 1 =
k∑
l=1
(ul−1 + ul)hl · al
k∑
l=1
hl · al
− 1
mit
uj =1
n
j∑
l=1
hl
und u0 := 0.
4.1.3 Quantilsbezogene relative Konzentrationsmessung
Fur die Quantile α, 2α, 3α, . . . seien v1, v2, v3, . . . die entsprechenden”v-Werte“ der Lo-
renzkurve:
vj =
jα·n∑i=1
x(i)
n∑i=1
x(i)
=∑
l≤j
zl
4. Konzentrationsmaße 13
Berechnung des Gini-Koeffizienten: Wenn im jeweiligen Quantil alle Einkommen gleichsind, so hat man Haufigkeitsdaten mit den Auspragungen a1, a2, . . . , ak vorliegen, d.h. al
ist der Wert im l-ten Quantil und man erhalt
G =
k∑
l=1
(ul−1 + ul)fl · al
k∑
l=1
fl · al
− 1
=k∑
l=1
(ul−1 + ul) · fl · al
k∑
l=1
fl · al
− 1
=
(l∑
l=1
(ul−1 + ul) · zl
)− 1
4.1.4 Weitere relative Konzentrationsmaße
Robin-Hood-Index
• Wieviel musste den Reichen weggenommen werden, um zu einer Konzentration von0 zu kommen?
• Ermittle jeweils fur jedes j fur das j · α-Quantil den Abstand seines Anteils zu α.
• Aufaddieren der positiven Abstande liefert den Robin-Hood-Index.
Quantilverhaltnisse Bilde das Verhaltnis von (1− α)- und α-Quantil, zum Beispiel:
x0.9
x0.1
Dezilverhaltnis (falls x0.1 > 0).
4.2 Absolute Konzentrationsmessung
Konzentrationsrate Sei 0 ≤ x(1) ≤ x(2) ≤ . . . ≤ x(n) die geordnete Urliste eines verhalt-nisskalierten Merkmals mit
∑ni=1 xi > 0. Mit
p(i) :=x(i)
n∑j=1
xj
heißt
CRg :=n∑
i=n−g+1
p(i)
Konzentrationsrate vom Grad g.
5. Analyse von Zusammenhangen 14
Herfindahl-Index: Sei 0 ≤ x(1) ≤ x(2) ≤ . . . ≤ x(n) die geordnete Urliste eines verhalt-nisskalierten Merkmals mit
∑ni=1 xi > 0. Mit
p(i) :=x(i)n∑
j=1
xj
heißt
H :=n∑
i=1
p2(i) =
n∑i=1
p2i
Herfindahl -Index. Die Große 1−H wird auch als Rae-Index bezeichnet.
5 Analyse von Zusammenhangen
5.1 Multivariate Merkmale
5.2 Assoziationsmessung in Kontingenztafeln
5.2.1 Gemeinsame Verteilung, Randverteilung, Kontingenztafel
Betrachtet wird ein zweidimensionales Merkmal (X,Y ) bestehend aus den diskreten Merk-malen X und Y und die zugehorige Urliste
(x1, y1), (x2, y2), . . . , (xn, yn).
Wir wollen ferner annehmen, dass X und Y nur endlich viele (wenige), verschiedene Werte
a1, . . . , ai, . . . , ak bzw. b1, . . . , bj, . . . bm
annehmen konnen.
Gemeinsame relative und absolute Haufigkeitsverteilung:
hij = h(ai, bj), i = 1, . . . , k, j = 1, . . . , m,
= Anzahl von Beobachtungen mit x = ai und y = bj.
fij = hij/n = f(ai, bj), i = 1, . . . , k, j = 1, . . . , m,
= Anteil von Beobachtungen mit x = ai und y = bj.
Man nennt (hij), i = 1, . . . , k, j = 1, . . . , m und (fij) die gemeinsame Verteilung von(X,Y ) in absoluten bzw. relativen Haufigkeiten.
5. Analyse von Zusammenhangen 15
Kontingenztafel / Kontingenztabelle / Kreuztabelle: Darstellung der Haufigkeitenin Form einer (k ×m)-dimensionalen Haufigkeitstabelle
b1 · · · bj · · · bm
a1 h11 · · · h1j · · · h1m h1•a2 h21 · · · h2j · · · h2m h2•...
......
......
ai hi1 · · · hij · · · him hi•...
......
......
ak hk1 · · · hkj · · · hkm hk•h•1 · · · h•j · · · h•m n
mit den Randverteilungen
hi• = hi1 + . . . + him = h(ai), i = 1, . . . , k, fur X
undh•j = h1j + . . . + hkj = h(bj), j = 1, . . . , m, fur Y.
Kontigenztafel der relativen Haufigkeitsverteilung:
b1 · · · bj · · · bm
a1 f11 · · · f1j · · · f1m f1•a2 f21 · · · f2j · · · f2m f2•...
......
......
ai fi1 · · · fij · · · fim fi•...
......
......
ak fk1 · · · fkj · · · fkm fk•f•1 · · · f•j · · · f•m 1
mit relativen Haufigkeiten fij =hij
nund den Randverteilungen
fi• =hi•n
= fi1 + . . . + fim = f(ai), i = 1, . . . , k, fur X
und
f•j =h•jn
= f1j + . . . + fkj = f(bj), j = 1, . . . ,m, fur Y.
Randhaufigkeiten: Die absoluten Haufigkeiten von X bezeichnet man mit h1•, h2•, . . . , hi•, . . . , hk•,die von Y mit h•1, h•2, . . . , h•j, . . . , h•m, analog fi•, f•j. Es gilt
• hi• ist die absolute Haufigkeit von ai,
• h•j ist die absolute Haufigkeit von bj.
5. Analyse von Zusammenhangen 16
und
hi• =m∑
j=1
hij,
h•j =k∑
i=1
hij.
Vollig analog definiert sind die relativen Randhaufigkeiten
fi• :=m∑
j=1
fij und f•j :=k∑
i=1
fij .
5.2.2 Okologischer Fehlschluss
Der unzulassige Schluss von der Randverteilung auf Eigenschaften der gemeinsamen Ver-teilung heißt okologischer Fehlschluss.
5.2.3 Grafische Darstellung der gemeinsamen Verteilung
5.2.4 Bedingte Haufigkeitsverteilungen
Definition: Seien hi• > 0 und h•j > 0 fur alle i, j. Fur jedes i = 1, . . . , k heißt
fY (b1|ai) :=hi1
hi•=
h(ai, b1)
h(ai), . . . , fY (bm|ai) :=
him
hi•=
h(ai, bm)
h(ai)
bedingte (relative) Haufigkeitsverteilung von Y unter der Bedingung X = ai.
Analog heißt fur jedes j = 1, . . . , m
fX(a1|bj) :=h1j
h•j=
h(a1, bj)
h(bj), . . . , fX(ak|bj) :=
hkj
h•j=
h(ak, bj)
h(bj)
bedingte (relative) Haufigkeitsverteilung von X unter der Bedingung Y = bj.
Bedingte Verteilungen basieren immer auf relativen Haufigkeiten. Fur die Berechnung gilt
f(ai|bj) =hij
h•j=
hij
nh•j
n
=fij
f•j
und analog
f(bj|ai) =hij
hi•=
fij
fi•.
5. Analyse von Zusammenhangen 17
5.2.5 (Empirische) Unabhangigkeit und χ2
Empirische Unabhangigkeit: Die beiden Komponenten X und Y eines bivariaten Merk-mals (X, Y ) heißen voneinander (empirisch) unabhangig, falls fur alle i = 1, . . . , k undj = 1, . . . ,m
f(bj|ai) = f•j = f(bj) (1)
undf(ai|bj) = fi• = f(ai) (2)
gilt.
Satz:
a) Es genugt, entweder (1) oder (2) zu uberprufen: Mit einer der beiden Beziehungen giltauch die andere.
b) X und Y sind genau dann empirisch unabhangig, wenn fur alle i = 1, . . . k und allej = 1, . . . m gilt:
fij = fi• · f•j (3)
c) Gleichung (3) ist aquivalent zu
hij =hi• · h•j
n(4)
χ2-Abstand, χ2-Koeffizient: Mit
hij :=hi•·h•j
n
wird definiert:
χ2 :=k∑
i=1
m∑j=1
(hij − hij)2
hij
.
Alternative Berechnung von χ2 in Vierfeldertafeln:
χ2 =n · (h11h22 − h12h21)
2
h1·h2·h·1h·2(5)
5.2.6 χ2-basierte Maßzahlen
a) Kontingenzkoeffizient nach Pearson:
K :=
√χ2
n + χ2. (6)
5. Analyse von Zusammenhangen 18
b) Korrigierter Kontingenzkoeffizient:
K∗ :=K
Kmax
(7)
mit
Kmax :=
√mink, m − 1
mink, m
c) Kontingenzkoeffizient nach Cramer (Cramers V):
V =
√χ2
n · (mink, m − 1)(8)
=
√χ2
maximaler Wert
d) Bei der Vierfeldertafel (k = m = 2) gilt
V =
√χ2
n · (mink, m − 1)=
√χ2
n.
Hierfur ist auch die Bezeichnung Phi-Koeffizient Φ ublich.
Mit (5) ergibt sich also
Φ =
∣∣∣∣h11h22 − h12h21√
h1•h2•h•1h•2
∣∣∣∣ . (9)
Lasst man die Betragsstriche weg, so erhalt man den signierten Phi-Koeffizienten oderPunkt-Korrelationskoeffizienten
Φs =h11h22 − h12h21√
h1•h2•h•1h•2,
der haufig ebenfalls als Phi-Koeffizient bezeichnet wird.
Korrekturverfahren fur Φ
1. Bilde die Extremtabelle mit Eintragen h′ij, d.h.
i. Ersetze die Zelle mit der kleinsten absoluten Haufigkeit durch 0
ii. Fulle die Tafel entsprechend der Randverteilung auf!
2. Berechne den zugehorigen Phi-Koeffizienten Φextrem .
3. Berechne den korrigierten Phi-Koeffizienten
Φkorr :=Φ
Φextrem
bzw. den zugehorigen korrigierten signierten Phi-Koeffizienten
Φs,korr :=Φs
Φextrem
.
5. Analyse von Zusammenhangen 19
5.2.7 Weitere Methoden fur Vierfeldertafeln
Relative Risiko : Fur eine Vierfelder-Tafel heißt
RR(b1) :=f(b1|a1)
f(b1|a2)=
h11/h1•h21/h2•
relatives Risiko
Prozentsatzdifferenz: Die Große
d%(bj) :=(f(bj|a1)− f(bj|a2)
) · 100, i = 1, 2
heißt Prozentsatzdifferenz fur bj.
Odds: Die Große
O(b1|ai) :=R(b1|ai)
1−R(b1|ai)i = 1, 2
heißt Odds (engl. plural) oder Chance von ai.
Odds Ratio: Die Große
OR(b1) :=O(b1|a1)
O(b1|a2)=
h11 · h22
h21 · h12
heißt Odds Ratio oder Kreuzproduktverhaltnis.
Yules Q: Die Große
Q :=h11 · h22 − h12 · h21
h11 · h22 + h12 · h21
heißt Yules Q.
5.2.8 PRE-Maße (Pradiktionsmaße)
Definition: PRE = Proportional Reduction in E rror
PRE =E1 − E2
E1
= 1− E2
E1
wobei
E1 : Vorhersagefehler bei Modell 1
E2 : Vorhersagefehler bei Modell 2
5. Analyse von Zusammenhangen 20
Guttmans Lambda
λY =
(k∑
i=1
maxj
(hij)
)−max
j(h•j)
n−maxj
(h•j)
λX =
(m∑
j=1
maxi
(hij)
)−max
i(hi•)
n−maxi(hi•)
λ =
k∑i=1
maxj
(hij) +m∑
j=1
maxi
(hij)−maxj
(h•j)−maxi
(hi•)
2n−maxj(h•j)−maxi(hi•).
Goodmans und Kruskals Tau
τY =
m∑j=1
k∑i=1
f 2ij
fi•−
m∑j=1
f 2•j
1−m∑
j=1
f 2•j
τX =
k∑i=1
m∑j=1
f 2ij
f•j−
k∑i=1
f 2i•
1−k∑
i=1
f 2i•
τ =
m∑j=1
k∑i=1
f 2ij
fi•+
k∑i=1
m∑j=1
f 2ij
f•j−
m∑j=1
f 2•j −
k∑i=1
f 2i•
2−m∑
j=1
f 2•j −
k∑i=1
f 2i•
5.3 Zusammenhangsanalyse bivariater ordinaler Merkmale
Definition: Gegeben sei die Urliste eines bivariaten Merkmals (X,Y ), wobei X undY jeweils ordinales Skalenniveau besitzen. Ein Paar (i, j), i 6= j, von Einheiten mit denAuspragungen (xi, yi) und (xj, yj) heißt
a) konkordant (gleichlaufig), falls entweder
xi > xj und yi > yj
oderxi < xj und yi < yj
gilt.
5. Analyse von Zusammenhangen 21
b) diskordant (gegenlaufig), falls entweder
xi > xj und yi < yj
oderxi < xj und yi > yj
gilt.
c) ausschließlich in X gebunden, falls
xi = xj und yi 6= yj
d) ausschließlich in Y gebunden, falls
xi 6= xj und yi = yj
e) in X und Y gebunden, fallsxi = xj und yi = yj
Ferner bezeichne
• C die Anzahl der konkordanten Paare,
• D die Anzahl der diskordanten Paare,
• TX die Anzahl der Paare mit Bindungen ausschließlich in X,
• TY die Anzahl der Paare mit Bindungen ausschließlich in Y ,
• TXY die Anzahl der Paare mit Bindungen in X und Y .
Definition: Zusammenhangsmaße fur ordinale Daten
τa :=C −Dn·(n−1)
2
heißt Kendalls Taua,
τb :=C −D√
(C + D + TX) · (C + D + TY )
heißt Kendalls Taub und
γ :=C −D
C + D
heißt Goodmans und Kruskals Gamma.
5. Analyse von Zusammenhangen 22
5.4 Zusammenhangsanalyse bivariater quasi-stetiger Merkmale
5.4.1 Streudiagramme (Scatterplots)
5.4.2 Kovarianz und Korrelation
Definition: Gegeben sei ein bivariates Merkmal (X, Y ) mit metrisch skalierten VariablenX und Y mit s2
X > 0 unds2Y > 0. Dann heißen
Cov(X, Y ) :=1
n
n∑i=1
(xi − x) · (yi − y)
(empirische) Kovarianz von X und Y ,
%(X,Y ) :=
n∑i=1
(xi − x) · (yi − y)
√√√√n∑
i=1
(xi − x)2 ·√√√√
n∑i=1
(yi − y)2
(empirischer) Korrelationskoeffizient nach Bravais und Pearson von X und Y , und
R2XY := (%(X,Y ))2 (10)
Bestimmtheitsmaß von X und Y .
Ist % = 0 (und aquivalent dazu Cov(X, Y )), so nennt man X und Y unkorreliert.
Verschiebungssatz:
Cov(X, Y ) =1
n
n∑i=1
xiyi − xy
und damit
%(X, Y ) =
n∑i=1
xiyi − n x y
√√√√n∑
i=1
x2i − n x2 ·
√√√√n∑
i=1
y2i − n y2
.
Transformation: %(X, Y ) und R2XY sind invariant gegenuber streng monoton steigenden
linearen Transformationen. Genauer gilt mit X := a ·X + b und Y := c · Y + d
%(X, Y ) = %(X,Y )
falls a · c > 0 und%(X, Y ) = −%(X,Y )
falls a · c < 0.
5. Analyse von Zusammenhangen 23
5.4.3 Weitere Korrelationskoeffizienten
Anwendung des Korrelationskoeffizienten nach Bravais-Pearson auf dichotome no-minale Merkmale Liegen dichotome nominale Merkmale vor und kodiert man die Aus-pragung mit 0 und 1, so erhalt man den sogenannten Punkt-Korrelationskoeffizienten, deridentisch zu Φ aus (9) ist.
Im Fall einer dichotomen und einer metrischen Variablen ergibt sich bei Anwendung desKorrelationskoeffizienten nach Bravais-Pearson die sogenannte Punkt-biseriale Korrelati-on.
Rangkorrelationskoeffizient nach Spearman
• Wir betrachten ein bivariates Merkmal (X,Y ), wobei X und Y nur ordinalskaliertsind, aber viele unterschiedlichen Auspragungen besitzen.
• Liegen keine Bindungen vor, dann rechnet man statt mit (xi, yi)i=1,...,n mit denRangen (rg(xi), rg(yi)) i = 1, . . . , n. Dabei ist
rg(xi) = j :⇐⇒ xi = x(j).
• Liegen Bindungen vor, so verwendet man den Durchschnittswert der in Frage kom-menden Range.
Definition:
%S,XY :=
n∑i=1
rg(xi) · rg(yi)− n
(n + 1
2
)2
√√√√n∑
i=1
(rg(xi))2 − n
(n + 1
2
)2
√√√√n∑
i=1
(rg(yi))2 − n
(n + 1
2
)2
heißt (empirischer) Rangkorrelationskoeffizient nach Spearman.
Liegen keine Bindungen vor, so gilt
%S,XY = 1−6 ·
n∑i=1
d2i
n(n2 − 1).
wobei di := rg(xi)− rg(yi).
6. Regression 24
6 Regression
6.1 Lineare Einfachregression: Grundmodell und Kleinste-Quadrate-Prinzip
Gegeben seien zwei metrische Merkmale X und Y und das Modell der linearen Einfach-regression
yi = a + bxi + εi, i = 1, . . . , n.
Dann bestimme man a und b so, dass mit
εi := yi − yi
= yi − (a + bxi)
das Kleinste-Quadrate-Kriteriumn∑
i=1
ε2i
minimal wird. Die optimalen Werte a und b heißen KQ-Schatzungen, εi bezeichnet dasi-te (geschatzte) Residuum.
Satz: Fur die KQ-Schatzer gilt
i) b =
n∑i=1
(xi − x)(yi − y)
n∑i=1
(xi − x)2
=Cov(X, Y )
s2X
= %X,YsY
sX
,
ii) a = y − b · x,
iii)∑n
i=1 εi = 0.
6.2 Modellanpassung: Bestimmtheitsmaß und Residualplots
Streuungszerlegung:SQT = SQR + SQE
mit
SQT :=n∑
i=1
(yi − y)2
(Gesamtstreuung / Gesamtvariation der yi: ”sum of squares total“)
SQR :=n∑
i=1
(yi − yi)2
6. Regression 25
(Residualstreuung / Residualvariation:”sum of squared residuals“)
SQE := SQT − SQR =n∑
i=1
(yi − y)2
(durch das Regressionsmodel erklarte Streuung:”sum of squares explained“).
Bestimmtheitsmaß:SQT − SQR
SQT=
SQE
SQT.
Es giltSQE
SQT= R2
XY
6.3 Multiple lineare Regression
Modellgleichung:yi = a + b1x1i + b2x2i + . . . + bpxpi + εi.
Dabei bezeichnet xi1 den fur die i-te Beobachtung beobachteten Wert der Variablen X1,xi2 den Wert der Variablen X2, usw.
KQ-Prinzip: Bestimme β0, β1, β2, . . . , βp so, dass mit
εi = yi − yi := yi − (β0 + β1x1i + β2x2i + . . . + βpxpi)
der Ausdruckn∑
i=1
ε2i
minimal wird.
Bestimmtheitsmaß:
R2 =SQE
SQT
Korrigiertes Bestimmtheitsmaß
R2 := 1− n− 1
n− p− 1(1−R2)
6. Regression 26
SPSS-Output einer multiplen Regression:Coefficientsa
Unstandardized CoefficientsModel B Std. Error t Sig.
1 (Constant) β0 σ0 T0 p-Wert
X1 β1 σ1 T1 ”
X2 β2 σ2 T2 ”...
......
... ”
Xp βp σp Tp ”a Dependent Variable: Y
6.4 Nominale Einflussgroßen
6.4.1 Dichotome Kovariable
Dichotome Variablen konnen, sofern sie mit 0 und 1 kodiert sind, ebenfalls als Einfluss-großen zugelassen werden.
6.4.2 Interaktionseffekte
Wechselwirkung zwischen Kovariablen lassen sich durch den Einbezug des Produkts alszusatzliche Kovariable modellieren.
6.4.3 Dummykodierung
Mache aus einer kategorialen Variablen mit k Auspragungen k − 1 Variablen mit denAuspragungen 0 und 1. Diese k − 1 Dummyvariablen durfen dann in der Regressionverwendet werden.
6.5 Varianzanalyse
Ist ein nominales Merkmal X mit insgesamt k verschiedenen Auspragungen die einzigeunabhangige Variable, so fuhrt die Regressionsanalyse mit den entsprechenden k − 1Dummyvariablen auf die sogenannte (einfaktorielle) Varianzanalyse.
Das zugehorige Bestimmtheitsmaß wird ublicherweise mit η2 bezeichnet:
η2 =SQE
SQT=
k∑j=1
nj(yj − y)2
k∑j=1
nj∑i=1
(yij − yj)2
.
η2 und η =√
η2 werden als Maße fur Zusammenhang zwischen einer metrischen Variableund einer nominalen Variable verwendet.