52
GRITASKRIPT, September 2003 1 KOMPLEXE STATISTISCHE VERFAHREN 1. THEORETISCHES : Wofür braucht man komplexe statistische Verfahren? um objektivere Antworten auf Fragen (z.B. Schadet Rauen?) geben zu können Im Alltag hier oft Heranziehung von Einzelfällen (z.B. Opa = Kettenraucher, wurde 100, daher Rauchen schadet nicht) ABER: Einzelfall kann höchstens zeigen, dass etwas existiert kann hilfreich sein, ist aber nicht beweiskräftig („anekdotisches Niveau“) aufgrund Einzelfalls Entscheidung nicht möglich Frage kann nicht global beantwortet werden (z.B. nie, immer,...), sondern immer mit bestimmter Wahrscheinlichkeit (eher, wahrscheinlich,...) Wofür braucht man komplexe statistische Verfahren? (= multivariate Verfahren) Variablen, die in Psychologie interessieren, sind kaum isolierbar, sondern meist Teil eines komplexen Ganzen (z.B. Sympathie, Leistung,...) komplexe Bedingungsgefüge, d.h. ob Vorhersage zutrifft oder nicht, hängt von X Bedingungen ab. Für Feststellung eines Zusammenhanges muss man daher viele Variablen miterhaben, um ihre Effekte auf den Zusammenhang ausschließen zu können (Beispiel: Kaiser Joseph II – Mozart – Salieri) Aufgaben statistischer Betrachtung: 1) Überblicksgewinnung : BEISPIEL: Was trägt zum Gelingen einer OP bei? aus vielen Daten Errechnung eines Durchschnitts, ABER: dabei kommt es zur Informationsreduktion! - ist gut, wenn aufs Wesentliche reduziert wird - ist schlechte, wenn Wichtiges übersehen wird BEISPIEL: Durchschnittsgehalt einer Minderheit kann durchschnittlich gleich hoch sein wie Durchschnittsgehalt der Mehrheit; ABER: Minderheit sehr inhomogen -> große Streuung; extreme Werte oben und unten, Mehrheit sehr homogen. 2) Objektivität : BEISPIEL: Gibt es Erdstrahlen? Zahlen sind Zahlen (viele Personen spüren an gleicher Stelle Erdstrahlen; DAHER: es gib sie eventuell)

KOMPLEXE STATISTISCHE VERFAHREN - … · Wofür braucht man komplexe statistische Verfahren? (= multivariate Verfahren)

Embed Size (px)

Citation preview

GRITASKRIPT, September 2003 1

KOMPLEXE STATISTISCHE VERFAHREN

1. THEORETISCHES: Wofür braucht man komplexe statistische Verfahren?

um objektivere Antworten auf Fragen (z.B. Schadet Rauen?) geben zu können

Im Alltag hier oft Heranziehung von Einzelfällen (z.B. Opa = Kettenraucher, wurde 100, daher Rauchen schadet nicht)

ABER: • Einzelfall kann höchstens zeigen, dass etwas existiert • kann hilfreich sein, ist aber nicht beweiskräftig („anekdotisches

Niveau“) • aufgrund Einzelfalls Entscheidung nicht möglich

Frage kann nicht global beantwortet werden (z.B. nie, immer,...), sondern immer mit bestimmter Wahrscheinlichkeit (eher, wahrscheinlich,...)

Wofür braucht man komplexe statistische Verfahren? (= multivariate Verfahren)

Variablen, die in Psychologie interessieren, sind kaum isolierbar, sondern meist Teil eines komplexen Ganzen (z.B. Sympathie, Leistung,...)

komplexe Bedingungsgefüge, d.h. ob Vorhersage zutrifft oder nicht, hängt von X Bedingungen ab. Für Feststellung eines Zusammenhanges muss man daher viele Variablen miterhaben, um ihre Effekte auf den Zusammenhang ausschließen zu können (Beispiel: Kaiser Joseph II – Mozart – Salieri)

Aufgaben statistischer Betrachtung:

1) Überblicksgewinnung:

BEISPIEL: Was trägt zum Gelingen einer OP bei?

aus vielen Daten Errechnung eines Durchschnitts, ABER: dabei kommt es zur Informationsreduktion! - ist gut, wenn aufs Wesentliche reduziert wird - ist schlechte, wenn Wichtiges übersehen wird

BEISPIEL: Durchschnittsgehalt einer Minderheit kann durchschnittlich gleich hoch sein wie Durchschnittsgehalt der Mehrheit; ABER: Minderheit sehr inhomogen -> große Streuung;

extreme Werte oben und unten, Mehrheit sehr homogen. 2) Objektivität:

BEISPIEL: Gibt es Erdstrahlen?

Zahlen sind Zahlen (viele Personen spüren an gleicher Stelle Erdstrahlen; DAHER: es gib sie eventuell)

GRITASKRIPT, September 2003 2

3) Hypothesentesten:

BEISPIEL: Parken Frauen schlechter als Männer ein?

Qualitative vs. quantitative Verfahren:

1) quantitative Verfahren:

• hypothesentestend • verwenden „Statistik“ (z.B. t-Test, VA, MW, SD,...) • geschlossenes Antwortformat

2) qualitative Verfahren:

• hypothesenerkundend • verwenden Interviews, Tagebücher,... • offenes Antwortformat

ideal = Kombination der beiden

BEISPIEL: Ist Einkommen schuld an Straffälligkeit?

- quantitatives Vorgehen: Korrelationen zwischen Einkommenshöhe und Anzahl der Straftaten

ausrechen

- qualitatives Vorgehen: Befragung der Leute (hier kriegt man andere Info [Meinungen,...]!)

Ausrichtung statistischer Verfahren:

1) deskriptiv:

• = beschreibend • arbeitet mit Häufigkeiten, MW, SD, Korrel,...

2) explorativ:

• = erforschend, strukturierend • arbeitet mit FA, Clusteranalyse,...

3) inferenzstatistisch:

• = hypothesentestend • arbeitet mit t-Test, VA, Chi-Quadrat-Test,...

GRITASKRIPT, September 2003 3

@ Inferenzstatistik: Wie funktioniert ein statistischer Test? BEISPIEL: Parkschaden: 6 x von Frauen, 5 x von Männern

Frage: Sind Männer bessere Einparker oder ist das Zufall? D.h. Gibt es einen stochastischen Zusammenhang oder ist dieses Ergebnis ein „Störrauschen“ in den Daten.

Nullhypothese: Es gibt keinen Zusammenhang zwischen Geschlecht und Einparkfähigkeiten

Alternativhypothese: Es gibt einen Zusammenhang; Frauen sind besser

wissenschaftliches Prinzip: Hypothese bestätigt sich, solange sie richtige Vorhersagen trifft; ABER: dadurch ist sie NICHT bewiesen!

BEISPIEL: These: 0 = 1 Obwohl richtiges Ergebnis Antithese: 1 = 0 herauskommt, sind die Thesen

Synthese: 1 = 1 trotzdem falsch!

Merke: 1) Hypothesen sind nicht beweisbar, sondern nur falsifizierbar (Grund: Um Hypothese verifizieren zu können, müssten ALLE Fälle, also gesamte Population untersucht werden -> ist unmöglich!)

2) Verschiedene Hypothesen können gleiche Vorhersagen treffen [können dann aber nicht H0 und dazugehörige H1 sein!]

BEISPIEL: Turiner Grabtuch: - Flecken sind Blut (enthalten Eisen) - Flecken sind rote Farbe (enthält Eisen)

3) Hellseher – Beispiel: - Hellseher behauptet, von 10 Münzwürfen 9x richtig

„vorherzusehen“ (p = 0.9) - ich behaupte, er kann maximal 5 Würfe vorhersehen (p = 0.5)

dann 1 Münzwurf.... BEIDE haben recht!

4) Hypothese „Es gibt Unterschiede“ ist erst belegt, wenn Hypothese „Es gibt keine Unterschiede“ falsifiziert. ABER: H0 ist nicht wirklich falsifizierbar, sondern kann nur unwahrscheinlicher gemacht werden.

GRITASKRIPT, September 2003 4

H0 und H1: Ho: kein Unterschied, kein Zusammenhang, keine Abweichung von bestimmter

Verteilung (= immer EINE Wahrscheinlichkeitsverteilung) H1: viele Möglichkeiten (z.B. Kreuztabelle)

Frage: Wie wahrscheinlich / unwahrscheinlich ist Ho angesichts der erhobenen Daten? ABER: ist nicht direkt beobachtbar!

Beim Hypothesentesten schaue ich, wie wahrscheinlich / unwahrscheinlich meine Ho ist

• Dabei indirekte Argumentation:

Meine Annahme A = wohl falsch, wenn unter Annahme von A das beobachtete Ereignis (also meine Daten) sehr unwahrscheinlich ist. BEISPIEL: Ho: Es gibt keinen Unterschied zwischen Männern und Frauen

hinsichtlich der Körpergröße Datenerhebung (= beobachtetes Ereignis) ergibt: - durchschnittliche Größe Männer = 1,85 cm - durchschnittliche Größe Frauen = 1,65 cm

Angesichts dieser Daten ist es unwahrscheinlich, dass es keinen Unterschied zwischen Männern und Frauen hinsichtlich der Körpergröße gibt; DAHER: Ho ist wahrscheinlich falsch

• Aus dem „Ereignisraum“ [= alle beobachteten Ereignisse] wählt man einen

Verwerfungsbereich aus. Grenze dafür: Alpha = 5% oder Alpha = 1%

Verwerfungsbereich hat unter Ho eine Wahrscheinlichkeit von maximal Alpha = 5% (oder 1%)

H1 sagt ein Ereignis im Verwerfungsbereich vorher, was unter Ho

zu unwahrscheinlich ist.

Unter SPSS muss man keinen Verwerfungsbereich konstruieren, SPSS gibt automatisch p-Wert an.

BEISPIEL: Hat Herr P. hellseherische Fähigkeiten?

10 Münzwürfe -> wie viele ist wahrscheinlich, dass er errät? Man beginnt mit extremsten Ereignissen (d.h. den höchsten Testgrößen) - bei 10 Würfen hat er 10 richtige: p = 0.001 Summe = 0.051 - bei 10 Würfen hat er 9 richtige: p = 0.01 -> größer als Alpha - bei 10 Würfen hat er 8 richtige: p = 0.4 (0.05), daher: - bei 10 Würfen hat er 7 richtige, usw. Ho gilt

GRITASKRIPT, September 2003 5

Berechnung: Binomialtest

1) Ratewahrscheinlichkeit bei 2 Möglichkeiten: p = günstige (z.B. Adler) / mögliche (Kopf + Adler) =

0.05 2) Binomialtest rechnen:

Formel: (n über k) mal p hoch x mal q hoch 1-X

n über k = n faktorielle durch x faktorielle mal (n – X) faktorielle

für 8 richtige: 10

* 0.58 * 0.52 = 45 * 0.0039 * 0.25 = 0.044 8

10 über 8 = 10 * 9 * 8! / 8! * 2! = 90/2 = 45

p –Wert (Signifikanz) = Wahrscheinlichkeit, zufällig (also unter Ho) eingleich großes oder noch größeres Ergebnis zu erhalten. Grenze dafür = Alpha (ab da Verwerfungsbereich) Für Testung = Ho wichtig -> bestimmte Wahrscheinlichkeitsverteilung (oft NV) • Alpha berechnet sich NUR nach Ho (aufpassen, wenn Verteilung falsch ist ->

z.B. ich glaub, es ist NV, in Wirklichkeit ist es aber keine) • Macht (= Wahrscheinlichkeit, mit der Test richtig vorhersagt) hängt ab

von Ho UND H1 (bzw. von der Anzahl der n) Statistische Fehlurteile:

Verwerfung der Ho, obwohl sie gilt (= Alpha – Fehler)

Beibehaltung der Ho, obwohl H1 gilt (= Beta – Fehler)

Kann zustande kommen bei:

1) Zufallsfehler: z.B. in meiner Stichprobe sind mehr Frauen, die schlecht einparken als in Population

2) Asymptotik schlecht / falsch gewählt: vor allem bei kleinen Stichproben bzw. bei komplexen Modellen)

3) Modellfehler: z.B. NV wurde angenommen, Variable ist aber NICHT normalverteilt

4) Modell = inhaltlich falsch

GRITASKRIPT, September 2003 6

Modelltests (= Goodness for fit; Anpassung): • z.B. Kolmogorow – Smirnow – Test (auf NV); NICHT SIGNIFIKANT!!!

Levene – Test (auf homogene Varianzen) (d.h. p > 0.05) • Modelltest = signifikant (p kleiner als 0.05); das bedeutet:

Modell gilt NICHT [d.h. keine NV, keine homogenen Varianzen, etc.]

D.h. es gibt überzufällige Abweichungen vom Modell; daher ist bestimmtes Verfahren (z.B. VA) NICHT zulässig. Mach ich es trotzdem, dann riesiger Alpha – Fehler. Gewählter Test kann Alpha – Risiko nicht unter 5% kontrollieren.

• ACHTUNG: Nicht sagen: „Es gilt NV“, sondern „Es kann näherungsweise NV angenommen werden“. Grund: Modell kann nicht bewiesen werden, sondern nur widerlegt [vgl. Falsifizierbarkeit]

• Modelle = relativ robust, d.h. Abweichungen werden bis zu einem bestimmten Grad toleriert; ABER: Probleme wenn - Gruppengröße unter 10 - bei ungleichen Stichproben

Problem des multiplen Testens: In Praxis meist viele Variablen erhoben (z.B. Geschlecht, Einkommen, Alter, ...); ABER: wenn ich ALLE teste -> großer Alpha – Fehler! (gilt für alle Tests, die Signifikanzniveau vorgeben, z.B. t-Test, VA, U-Test,...). Bei k Tests: p = k mal Alpha (= Alpha – Akkumulation). Außerdem bei vielen Tests mehr Gefahr, dass irgendwo ein Alpha – Fehler. DAHER: 1) Hypothesenreduktion:

- möglichst wenige Hypothesentests pro Untersuchung (nur sinnvolle Hypothesen testen!)

- einzelne Variablen zusammenfassen zu Summenscores; FA zur Gewinnung von Subskalen

- vorher überlegen, WAS man eigentlich wissen will [das testen, wo man sich einseitig testen trauen würde, weil man Richtung z.B. schon aus Theorie kennt; möglichst kein komplizierteres Verfahren für Haupthypothese als einfache VA-> Design überlegen!]

2) Kreuzvalidierung

(d.h. ist das, was ich Stichprobe 1 signifikant ist, auch in Stichprobe 2 signifikant? vgl. Jackknife)

3) Alpha – Adjustierung durchführen; ABER: Macht leidet darunter!

GRITASKRIPT, September 2003 7

Alpha – Adjustierung nach Bonferoni:

Bei k Einzeltests prüfe Einzeltest nicht nach p kleiner als Alpha, sondern nach p kleiner Alpha durch k (p < α/k)

BEISPIEL: 10 Einzeltests (z.B. Korrelationen), jeder davon getestet mit p = 0.05 /

10 = 0.005. Das ergibt insgesamt Alpha = 5% (= Wahrscheinlichkeit für mindestens 1 Alpha – Fehler bei allen Einzeltests gemeinsam betrachtet)

ungünstig dabei: Macht wird sehr klein, daher nur sehr große Unterschiede nachweisbar!

Alpha – Adjustierung nach Bonferoni – Holm:

= „serielle Korrektur“ des Alpha

kleinstes Testergebnis wird verglichen mit α/k, zweitkleinstes mit α/k-1, drittkleinstes mit α/k-2, usw. Solange diese Alpha kleiner als 0.05 sind -> alle Tests unter 0.05

weniger streng als Bonferoni – Korrektur

BEISPIEL: Gibt es Geschlechtsunterschiede beim Autofahren?

UV = Geschlecht (Männer, Frauen) AV = Autofahren (6 Ausprägungen: Rasen, Auffahren, Rechtsüberholen,

Falschparken, Einstellung zum Benzinverbrauch, Einstellung zum Rauchen im Auto)

1. AV (Rasen): p = 0.001 2. AV (Auffahren): p = 0.01 3. AV (Rechtsüberholen): p = 0.04 4. AV (Falschparken): p = 0.04 5. Einstellung Benzinverbrauch: p = 0.26 6. Einstellung Rauchen: p = 0.2

Fall 1: ohne Alpha – Adjustierung

• alle p – Werte der Einzeltests mit p = 0.05 vergleichen -> bei Test 1 – 4 ist p jeweils kleiner als 0.05, daher sind diese Tests signifikant.

ABER: D.h. für die globale Ho gilt Folgendes: Alpha – Akkumulierung, d.h. sehr großer Alpha – Fehler, und zwar: α = p = 1 – (1 – α)m = 1 – (1 – 0.05)6 = 1 – 0.956 = 0.26 D.h. Mit 26% Wahrscheinlichkeit wird Ho verworfen, obwohl sie gilt.

GRITASKRIPT, September 2003 8

Fall 2: mit Alpha – Adjustierung nach Bonferoni

• p – Werte der Einzeltests vom kleinsten zum größten aufschreiben:

0.001 0.01 0.015 0.04 0.2 0.26

• korrigiertes Alpha ausrechnen: α/m = 0.05/6 = 0.0083

• jetzt p – Werte der Einzeltests damit vergleichen

nur Test 1 = signifikant, da p = 0.001 < 0.0083; ABER: Gesamttest hat geringe Macht!

Fall 3: mit Alpha – Adjustierung nach Bonferoni – Holm

• Testwerte vom kleinsten zum größten aufschreiben

0.001 0.01 0.015 0.04 0.2 0.26

• korrigiertes Alpha für jeden Test ausrechnen, und zwar: - Test 1: p = α/m = 0.05/6 = 0.0083 - Test 2: p = α/m-1 = 0.05/5 = 0.01 - Test 3: p = α/m-2 = 0.0125 - Test 4: p = α/m-3 = 0.0167 - Test 5: p = α/m-4 = 0.025 - Test 6: p = α/m-5 = 0.05

• jetzt jedes dieser korrigierten Alpha mit dem unkorrigierten vergleichen - Test 1: p = 0.001 < 0.0083 -> signifikant - Test 2: p = 0.01 = 0.01 -> signifikant - Test 3: p = 0.015 > 0.0125 -> nicht signifikant

Test 1 + Test 2 = signifikant, alle andren nicht

Fall 4: Nur einen Teil der Tests prüfen (mit Bonferoni – Korrektur), z.B. Tests 1 - 3 0.001 0.01 0.015

• Alpha korr = 0.05/3 = 0.017

alle 3 Tests = signifikant [ABER Alpha insgesamt = 14%!]

Hätte man die Ausprägungen der AV (= Test 4, 5, 6) NICHT erhoben, wäre globale Ho zu verwerfen gewesen...

GRITASKRIPT, September 2003 9

2. LINEARE MODELLE:

Folgende Verfahren bauen auf linearen Modellen auf: • t – Test • VA (Xiv = µ + αi + εv) • Regression (Y = ax + b) • multiple Regression (Z = ax + by+ ….. + c) • Kovarianzanalyse • Diskriminationsanalyse • lineare Regression • partielle Regression • multivariate VA • kanonische Korrelation

lineare Modelle bestehen aus unabhängigen Variablen, die mit

Gewichtung zusammengezählt werden und eine AV erklären sollen

Verteilungsannahme = NV

sind vereinfachendere Annahmen (zu allgemeine Strukturen sind kaum untersuchbar)

In Daten gibt es potentiell ALLE Zusammenhänge, aber:

- linearer Zusammenhang ist am einfachsten; - NV in Natur sehr häufig; - robuste Verfahren; - Zusammenhänge zumindest annäherungsweise gerechtfertigt

@ mögliche Zusammenhänge in den Daten:

- linearer Zusammenhang - quadratischer, kubischer, polynomialer, exponentieller, log-linearer

Zusammenhang - Clusterbildung - „Loch“ in der Mitte - Dreieckszusammenhang (z.B. bei Intelligenz und Kreativität) - Streifen, Muster, usw.

In Praxis können sehr viele davon Sinn machen und Unterschiede erklären!

GRITASKRIPT, September 2003 10

1) Einfache Varianzanalyse: => wird verwendet bei: 1 UV mit mehr als 2 Ausprägungen 1 AV

BEISPIEL: Test eines Medikaments: UV: Dosierung (Placebo / einfache Dosis / doppelte Dosis) AV: Befindlichkeit

Hypothesen: Ho: Es gibt keine Unterschiede zwischen den Gruppen H1: Es gibt einen Unterschied zwischen den Gruppen

Varianz der Mittelwerte der Gruppen ist zu groß, daher muss irgendwo ein signifikanter Unterschied sein!

MERKE: Beim Verwerfen der Ho verwirft das gesamte Modell; Grund für Verwerfen können sein Mittelwertsunterschiede oder Modellfehler! Ob Modell passt, testet man, wenn man schaut, ob Voraussetzungen für VA erfüllt sind. Trotzdem kann es zu Modellfehlern kommen, weil Modelltest nur jede Gruppe einzeln prüft! [d.h. innerhalb der Gruppen kann zwar NV sein, insgesamt aber nicht...]

=> Modellannahme:

X = µ + αi + ε

D.h. Vorhergesagter Wert setzt sich zusammen aus allgemeinem Mittelwert, Effekt der Gruppe und Messfehler.

• Werte innerhalb jeder Gruppe = NV (d.h. Fehler streut zufällig um Gruppenmittelwert)

• Jede Gruppe hat dieselbe Varianz -> Streuung 1 wird angenommen, die bei allen Gruppen gleich sein muss [homogene Varianzen]

• Verwerfungsbereich bei allen Gruppen derselbe. D.h. Jede Gruppe ist eine Gauß’sche Glocke (-> NV); Position auf der X – Achse kann unterschiedlich sein (-> Mittelwertsunterschiede), aber Schiefe und Wölbung der Kurve muss gleich sein (-> gleiche Streuung!)

=> Voraussetzungen für VA: (überprüft durch Modelltests)

• NV innerhalb jeder Gruppe -> Kolmogorow – Smirnow – Test

• Homogenität der Varianzen -> Levene – Test, Cochran – Test, Bartlett – Test

• wenn alles signifikant (also jeweiliges p > 0.05), dann KEINE NV, KEINE homogenen Varianzen -> parameterfreie Verfahren verwenden (z.B. Kruskal – Wallis – Test = Rangvarianzanalyse)

GRITASKRIPT, September 2003 11

Merke: Modell = relativ robust, Probleme gibt’s aber, wenn: - Gruppengröße unter 10 - ungleich große Stichproben

=> Mathematik der VA:

• Quadrierte Abweichungen vom Mittelwert werden in voneinander statistisch unabhängige Bestandteile zerlegt (= Quadratsummenzerlegung), und zwar:

1) in Abweichungen der Messwerte innerhalb der Gruppen vom jeweiligen Gruppenmittelwert (F – Test prüft, ob Abweichungen zu groß) und

2) in Abweichungen der Gruppenmittelwerte vom Gesamtmittelwert

• Quadratsummenzerlegung führt zu Chi - Quadrat-verteilter Größe; mit ihr sind Vergleiche auf F – Test – Basis möglich

• Varianz der Gruppenmittelwerte sollte: - unter Ho ca. so groß sein, wie die Varianz der Messwerte innerhalb der

Gruppe, aber dividiert durch den Faktor Wurzel n - unter H1: eine Varianz größer, daher immer einseitige Testung

=> Interpretation der Unterschiede der VA:

Signifikanz im F – Test bedeutet: Es gibt irgendwo einen signifikanten Unterschied. Jetzt Frage: WO? Welche Gruppen unterscheiden sich?

würde ich jetzt paarweise t – Tests machen -> Alpha – Kumulierung! DAHER:

Lösung 1: A posteriori – Test (post hoc)

Nach der VA über die Daten laufen lassen; wird gemacht, wenn man noch nichts über die Unterschiede weiß (PC sucht sie mir), und zwar:

Scheffé – Test:

• adjustiert Daten so, dass Paarvergleich mit größtmöglichem F (und damit auch mit allen anderen!) auf demselben Niveau verwirft wie die VA

• macht Paarvergleiche (jede Gruppe mit jeder); ABER: bei zu vielen Vergleichen -> Verringerung der Macht!

GRITASKRIPT, September 2003 12

Lösung 2: A priori – Test = Kontraste:

• wenn man gezielte Hypothese, wo die Unterschiede liegen könnten, machen kann

• dafür weniger Paarvergleiche notwendig -> größere

Macht

• ABER: Ich muss vorher „richtig geraten“ haben, wo die Unterschiede liegen = Trendhypothese (z.B. Gruppe 1 ist besser als Gruppe 2 und 3)

SPSS – Output dazu:

1) Prüfen auf NV (Kolmogorow – Smirnow – Test):

jede Gruppe 1x testen asymptotische Sign. (2 – tailed) größer als 0.05 => Ho bleibt, d.h. NV

darf angenommen werden.

2) Test auf Homogenität der Varianzen (Levene – Test): detto

3) Varianzanalyse (ANOVA):

Sign. < 0.05 => Ho verwerfen, d.h. es gibt einen Unterschied zwischen den Gruppen

4) Deskriptivstatistik:

- schauen, wo MW am höchsten, niedrigsten, usw. - Stichprobengröße anschauen! (unter 10 schlecht, ungleiche n detto)

5) multiple comparisons (Scheffé – Test):

prüft, welche der Unterschiede signifikant sind (Paarvergleiche) -> Wert unter 0.05 = sign., d.h. dort sind Unterschiede

6) Kontraste (Contrast Test):

jetzt Vergleich Gruppe 1 mit Gruppe 2 und 3; einmal mit, einmal ohne homogene Varianzen. Da Levene – Test nicht signifikant war, Zeile mit homogenen Varianzen anschauen; wenn dort p < 0.05 ->sign. D.h. Gruppe 2 + 3 ist wirksamer als Gruppe 1 allein

7) ANOVA – Trendhypothese:

• between groups: linear term (bei unterschiedlichen Gruppengrößen „weighted“ anschauen!)

• Deviation bei linear term: wenn hier sign, d.h. es gibt nicht nur einen linearen Zusammenhang

• quadrativ term / weighted: wenn hier sign., schauen wo. Hier: Wirkung des Medikaments am besten bei schwacher Dosis.

GRITASKRIPT, September 2003 13

8) Inhaltliche Bewertung:

Signifikanz allein ist KEINE Aussage! (Merke: Bei großen Stichproben ist kleiner Unterschied bald signifikant...)

wichtig = erklärter Varianzanteil (η2):

gibt an den Anteil der durch die Gruppenunterschiede erklärten Varianz an der Gesamtvarianz (der AV) = „Bestimmtheitsmaß“ der VA (Eta-Quadrat)

anderer Varianzanteil bleibt unerklärt

Eta liegt zwischen 0 – 1: - Eta = 0 heißt: keine Gruppenunterschiede - Eta = 1 heißt: Gruppenunterschiede erklären Gesamtvarianz

2) Kovarianzanalyse => wird verwendet: wenn zusätzlich zur Gruppenzugehörigkeit noch

quantitativ mögliche Einflussgrößen existieren (vor allem Alter)

BEISPIEL: UV = Geschlecht

AV = Glaube an Teufel Kovariate = Glaube an Gott

=> Kovariate = mögliche Einflussgröße, die linearen Effekt auf AV oder

UV hat. Dieser wird analog zur linearen Regression herausgerechnet.

BEISPIEL: UV = Bildungsstand (niedrig / hoch)

AV = Antisemitismus (stark / schwach) Ergebnis: je höher Bildung, desto geringer Antisemitismus

ABER: Bildung hängt auch zusammen mit Alter,

Alter hängt zusammen mit Antisemitismus (= Kohorteneffekt!)

DAHER: Rechne ich Alter heraus -> kein Zusammenhang zwischen Bildung und Anitsemitismus

=> Modellannahme: Y (AV) = Gesamtmittelwert + Gruppeneffekt (UV) + Einfluss der Kovariate (bx + a) + Messfehler

GRITASKRIPT, September 2003 14

=> Mathematische Erklärung:

Kovarianzanalyse = VA über die Residuen bei der Vorhersage der aus Kontrollvariable.

1) Residuen berechnen (= alles, was nach Abzug des Effekts der Kovariate übrigbleibt)

BEISPIEL: X’ = a (Alter) + b X (Messwert) – X’ = (Residuen)

Regression der Kovariate auf AV (X) ergibt vorhergesagtes X’

dann pro Person Differenzen (X – X’) bilden = Residuen was da übrigbleibt, kann durch Kovariate nicht vorhergesagt werden, geht über deren Vorhersage hinaus (= das was eigentlich interessiert, wenn Kovariate kontrolliert wird). D.h. Einfluss des Alters ist bereinigt

2) Mit Residuen macht man eine normale VA

=> Voraussetzungen für Kovarianz – Analyse:

• homogene Varianzen wie bei VA • NV • homogene Steigerung der Regressionsgeraden der einzelnen Gruppen

SPSS – Output dazu:

Frage: Gibt es einen Zusammenhang zwischen Teufelsglauben und Geschlecht? UV = Geschlecht AV = Glaube an Teufel Kovariate = Glaube an Gott

Effekt des Glaubens an Gott wird herausgerechnet, mit dem Rest VA

korrigiertes Modell [= Kovarianzanalyse] (setzt sich aus allen Einflüssen zusammen). Hier sign. Unterschied zwischen den Gruppen (p = 0.00)

1) Frage: WO ist dieser?

sign. Unterschied zwischen Teufelglauben und Gottglauben (p = 0.00). D.h. aus dem Glauben an den Teufel lässt sich den Glaube an Gott vorhersagen.

kein sign. Unterschied zwischen Teufelsglauben und Geschlecht (p = 0.076). D.h. keine Unterschiede zwischen Männern und Frauen hinsichtlich des Glaubens an den Teufel

GRITASKRIPT, September 2003 15

2) Einfluss der Kovariate (Gottglauben) auf das Resultat:

VA OHNE Kovariate noch einmal rechnen und die beiden Ergebnisse vergleichen

Geschlecht hier nicht sign. (p = 0.102), d.h. Geschlecht hat noch immer keinen Einfluss auf Teufelsglauben!

ABER: Modell insgesamt ist NICHT mehr signifikant (korr. Modell jetzt p = 0.102), d.h. Glaube an Gott beeinflusst den Glauben an den Teufel kaum.

3) Mehrfache Varianzanalyse: => verwendet bei: mehr als 1 UV und 1 AV

BEISPIEL: UV = Dosis von Medikament (Placebo / schwach / stark) UV = Art des Medikaments (A, B) AV = Befinden

= 2faktorielle VA ( 2*3 Design -> 6 Zellen) D.h. es geht um Abhängigkeit einer Variablen von mehreren Effekten.

=> Untersucht werden:

* Effekte von A [= 1. UV], Effekte von B [= 2. UV] (= Haupteffekte) und * Wechselwirkungen A x B (= Interaktionen)

BEISPIEL: Haupteffekt: Medikament A ist bei gleicher Dosierung um 3 Punkte besser auf Befindlichkeitsskala [= Haupteffekt von 2. UV]

=> @ Wechselwirkung:

• Ww ja: je nach Dosis ändert sich, um wie viel Medikament A durchschnittlich besser ist als Medikament B

• keine Wechselwirkung heißt: mittlere Dosis ist bei jedem Medikament um durchschnittlich 3 Punkte besser.

• mögliche Wechselwirkungen in Bezug auf eine Zelle: => kombinierter Effekt auf AV ist:

- noch höher als vorhergesagt (= multiplikativer Effekt) - nicht so hoch wie vorhergesagt (= Deckeneffekt) - Effekt verschwindet überhaupt (z.B. bei hohen Dosen kein

Unterschied, bei niedrigen schon) - Effekt kehrt sich um (z.B. Medikament A in kleinen Dosen

wirksamer, Medikament B in großen Dosen)

• bei mehr als 2 Faktoren kann es auch drei-, vierfache WW geben (hängt von Faktoranzahl ab)

GRITASKRIPT, September 2003 16

=> Modell: xij = µ + αi + βj + αβij + εijm D.h. vorausgesagter Testwert setzt sich zusammen aus Gesamtmittelwert + Haupteffekt A + Haupteffekt B + WW AxB + Fehler

=> Voraussetzungen:

• Normalverteilung pro ZELLE ! • homogene Varianzen • Intervallskalierte Daten, da Berechnung auf Unterschiede angelegt ist.

=> Problem:

Bei 5 Variablen braucht man 25 = 32 VB, d.h. 32 Zellen (mit ca. 30 Personen wegen NV; bei weniger Personen -> hohe Zufallsschwankungen!)

-> sehr hohe VPn - Zahlen!

• gesättigtes Modell: mit allen Haupteffekten und Wechselwirkungen

• „Anpassung“: Vergleich der WW wird unterdrückt (z.B. nur 2fache WW anschauen; 3-, 4-, 5fache nicht)

Merke: Je größer die Stichprobe, umso mehr WW kann man zulassen.

=> ACHTUNG: Passt Modell nicht zu den Daten -> parameterfreie Verfahren; ABER: im SPSS gibt es keine...

Lösung:

Daten rangreihen und als 2-fache VA rechnen -> schwierige Interpretation (WW werden betrachtet als „Differenzen von Differenzen“; geht aber NUR bei Intervallskala!) = „rating after alignment: 1) für Berechnung der WW werden von Ursprungswerten, die durch

die Haupteffekte erwarteten MW abgezogen, 2) dann rangreihen, 3) Kruksal-Wallis –Test über die verschiedenen Zellen rechnen

GRITASKRIPT, September 2003 17

SPSS – Output dazu: UV1 = Geschlecht (M/W) UV2 = Religiosität AV = Glaube an Psy (erhoben mittels entsprechender Skala)

1) VA:

• korrigiertes Modell: p = 0.000 -> d.h. es gibt einen signifikanten Einfluss der UVs auf die AVs.

• als Kovariate dabei = Alter: p = 0.787 -> kein erkennbarere Einfluss auf AV

• WW zwischen Geschlecht und Religiosität wirken sich nicht aus (p = 0.085)

2) Interaktionsdiagramm dazu:

deutet an, dass wenig – religiöse Männer wenig an Psy glauben (weniger als wenig – religiöse Frauen) [darf ich aber SO nicht behaupten, da WW nicht signifikant!]

@ Interaktionsdiagramm: Was sehe ich an den Linien?

• parallele Linien = keine WW • „Scheren“ = z.B. Unterschiede zwischen Medikament 1 und

Medikament 2 werden mit zunehmender Dosis größer / kleiner (Anstieg in 1 Gruppe kleiner / größer; Effekt verschiebt sich in einer Gruppe)

• Überkreuzungen = Umkehr der Effekte in Untergruppen Merke: Wenn es WW gibt, kann man nicht von Haupteffekten sprechen,

besser = „bedingte Haupteffekte“.

@ R2 = erklärte Varianz [steht unter der Tabelle mit der VA]

= Anteil der Änderungen der AV durch Änderungen der UV Merke: Durch Quadratsummenzerlegung in voneinander

unabhängige Teile passiert folgendes: -> unabhängige Tests werden durchgeführt, OHNE Alphaadjustierung.

@ Post hoc Test bei mehrfachen VA:

im SPSS einzeln pro Faktor durchgeführt (nur zwischen Subjektfaktoren) ebenso bei Kontrasten -> einzelne Haupteffekte bzw. WW des gesättigten Modells können so

ausgeschlossen werden.

GRITASKRIPT, September 2003 18

4) Einfache Varianzanalyse mit Messwiederholung: => wird verwendet bei: 1UV in mehr als 2 Zeitpunkten / Faktorstufen

(bei 2 Ausprägungen der UV -> t – Test für unabhängige Stichproben)

1AV

BEISPIEL: UV = Therapieeffekt (vor / während / nach) bei jeweils EINER VP (d.h. hier wird jede VP 3x getestet) AV = Befindlichkeit

=> Vorteil:

- man braucht weniger Personen - Fehlervarianz durch Zufallsunterschiede zwischen den Stichproben

wird vermieden (= zufällige Unterschiede, die dadurch entstehen, welche VPn bei Randomisierung in welcher VG gelandet sind)

Merke: • unabhängige Stichproben:

unterschiedliche Ausgangslage bei den Gruppen, je nachdem, welche VPn bei Randomisierung in welcher VG gelandet sind. Verfahren berücksichtigen dies durch vorsichtigeres Vorgehen beim Verwerfen der Ho.

• abhängige Stichproben (bei Messwiederholung!):

gleiche Ausgangslage zwischen den Gruppen, weil ja immer dieselbe Person getestet wird. Höhere Macht.

=> Nachteil:

- Reihenfolgeneffekte (Lösung = ausbalanciertes Design) - Lerneffekte - manches kann man so nicht testen (z.B. Person soll sich 2X Film mit

derselben Ausgangserwartung ansehen)

=> Modell: Y= µ + αi + πm + απim + s D.h. vorhergesagter Wert = globaler Erwartungswert + Effekt des Zeitpunkts + Person (Ausgangslage) + WW Zeit x Person + Fehler Annahme: Zeitpunkt wirkt auf jede Person gleich. = in Praxis unrealistisch (Person kann sich zwischen Zeitpunkten verbessern; Tagesverfassung schlecht -> Person kann normale Ausgangslage nicht erbringen) JEDE Person verbessert sich bei Vergleich 1. Testung mit 2. Testung und 3. Testung, in Wirklichkeit aber eine Person mehr, eine andere weniger...

GRITASKRIPT, September 2003 19

=> Mathematik:

• Varianzzerlegung

1) „within subjects“ (innerhalb der Personen [also zwischen den Testzeitpunkten! = VA zwischen] = eigentlich interessante Varianz

2) „between subjects“ (innerhalb der zu einem Zeitpunkt jeweils getesteten Gruppe [= VA innen]

• Gerechnet wird mit Messwertdifferenzen -> NV dieser Differenzen = Voraussetzung!

• Sphärizität:

Bei mehr als 2 Zeitpunkten müssen Varianzen der Messwertdifferenzen zwischen den Zeitpunkten [also Zeitpunkt 1 – Zeitpunkt 2, Zeitpunkt 1 – Zeitpunkt 3, Zeitpunkt 2 – Zeitpunkt 3] homogen sein.

Wenn das nicht so ist, wird Verfahren „progressiv“, d.h. Alpha – Fehler wird größer (Ho wird leicht verworfen!)

Prüfung der Spärizität:

3) Mauchly – Test:

- wenn NICHT signifikant (p < 0.05) -> Varianzen der Messwertdifferenzen sind homogen

- wenn signifikant (p > 0.05) -> Varianzen der Messwertdifferenzen sind nicht homogen. D.h. Werte korrelieren zu stark miteinander -> Folge: statistische Info wird weniger (redundant); F – Test (Mauchly ist so einer) geht von unabhängigen Werten aus. Bei nicht homogenen Varianzen der Messwertdifferenzen: Verlust an „Personen“, an Freiheitsgraden.

Ist Mauchly – Test signifikant, dann:

4) Greenhouse – Geisser Korrektur:

- Freiheitsgrade werden beim F – Test mit passendem Wert ε (zwischen 0 – 1; wird aus den Daten geschätzt) multipliziert.

- Folge: o Freiheitsgrade werden kleiner o Progressivität wird verhindert

- Nachteil: Bei kleinen Stichproben wird Korrektur

konservativ (= schlecht)

GRITASKRIPT, September 2003 20

DAHER bei kleinen Stichproben statt Greenhouse – Giesser:

5) Huynh – Feldt Korrektur: - wenn Stichprobe klein - immer wenn ε > 0.75

6) dann Scheffé – Test (geht aber mit SPSS nicht...)

=> Sind Voraussetzungen für VA nicht erfüllt -> parameterfreies Verfahren:

Friedmann – Test [ABER weniger Macht als Kruskal – Wallis im Verhältnis zu VA!!!]:

2. Messwiederholungen werden wie Faktoren behandelt. Nur sinnvoll, wenn jede Stufe des einen Faktors mit jeder Stufe des anderen kombiniert bei jeder VP beobachtet werden kann (dann werden WW geprüft).

• Voraussetzungen für Friedmann – Test:

- abhängige Daten - mehr als 2 Stichproben (Messzeitpunkte) - mindestens 5 Fälle pro Gruppe (Messzeitpunkt)

SPSS – Output dazu:

UV = Zeitpunkte AV = Beschwerden

1) Mauchly – Test auf Sphärizität:

Intersubjekteffekt nicht signifikant (p = 0.25) -> Sphärizität ist gegeben, ε nahe 1. Korrektur mit Greenhouse – Gneisser / Huyndt – Feldt nicht notwendig (schadet aber auch nix)

2) Test der Intersubjekteffekte [= VA mit Messwiederholung]

Da Sphärizität angenommen werden kann, bleiben Freiheitsgrade gleich (df = 2 bei 3 Gruppen). Darunter stehen die df bei den jeweiligen Korrekturen (wird ε korrigiert -> df werden kleiner).

p = 0.000 -> signifikant; DAHER: Effekt ist signifikant (Beschwerden ändern sich während der Messzeitpunkte)

3) Intersubjekteffekte Kontraste:

- bei linearem Trend: p = 0.000 -> signifikant; d.h. es gibt Trend zu einem linearen Zusammenhang

- bei quadratischem Zusammenhang p = 0.588 nicht signifikant

4) Profildiagramm: hier sieht man auch den linearen Trend

GRITASKRIPT, September 2003 21

5) Mehrfache Varianzanalyse mit Messwiederholung: => wird verwendet: mehr als 1 UV + mehr Zeitpunkte

BEISPIEL: UV1 = Zeitpunkt (vor / während / nach)

UV2 = Geschlecht (M / W) UV3 = Alter (jung / mittel / alt) AV = Befindlichkeit

Merke: dieselben Personen werden hier 3x getestet -> abhängige Stichproben

=> Modell:

Verbindung von Intersubjektfaktoren und Zwischensubjektfaktoren (eventuell mit Kovariaten); getestet werden:

- Haupteffekte und - WW – Effekte der UV und - Messwiederholungsvarianz

Nachteil: je komplexer alles wir, umso größere Stichprobe braucht man, um Modell zuverlässig schätzen zu können!

=> Voraussetzungen:

• NV pro Zelle

• homogene Varianzen pro Zelle

• Sphärizität

• Homogenität der Kovarianzmatrix

d.h. Kovarianzmatrizen der abhängigen Variable über die Gruppen müssen gleich sein -> schwierig bei kleinen Stichproben!

wird geprüft mit:

Box’s M – Test: ist er NICHT signifikant, so kann angenommen werden, dass die Strukturen in den Gruppen gleich sind.

GRITASKRIPT, September 2003 22

SPSS – Output dazu:

1) Box’s Test:

-> Überprüfung der Homogenität der Kovarianzmatrix: p = 0.592 -> nicht signifikant; daher: Kovarianzmatrix = homogen.

2) Jetzt wird geprüft: a) Intersubjekteffekte [VA zwischen] b) Intersubjektkontraste c) Zwischensubjekteffekt [VA innen] d) Profildiagramm

ad a) Intersubjekteffekte:

- geprüft wird, ob sich zwischen den Zeitpunkten Veränderung der AV ergeben = Faktor 1 (hier Sphärizität OK, daher entsprechende Zeile anschauen): p = 0.035 -> signifikant, d.h. ja, es ergeben sich Veränderungen der Befindlichkeit bei jeder Person im Laufe der Zeit.

- WW Faktor 1 und Alter: p = 0.08 -> nicht signifikant - WW Faktor 1 und Geschlecht: p = 0.127 -> nicht signifikant

D.h. Veränderungen zwischen Personen unterscheiden sich aufgrund von Alter und Geschlecht nur zufällig (d.h. Alter und Geschlecht hat keinen Zusammenhang mit Faktor 1)

ad b) Intersubjekteffekte Kontraste:

Zusammenhang zwischen UV und AV ist nicht linear, sondern eher quadratisch (hier fast signifikant p = 0.051); d.h. Veränderungen finden nicht linear, sondern in anderer Kurvenform statt.

ad c) Zwischensubjekteffekte:

= Unterschiede innerhalb der Testzeitpunkte zwischen den Personen = Vergleich von Mittelwert über die AV zwischen den Gruppen (daher steht oben „transformierte Variable – Mittel“)

Gruppen Messzeitpunkte 1 2 3 4 ... Medikament within subjects Alter Geschlecht

between subjects

GRITASKRIPT, September 2003 23

hier:

- bei Alter: p = 0.035 -> signifikant, d.h. Zusammenhang zwischen Alter und Befindlichkeit [UNTERSCHIED zu Intersubjekteffekte!]

- bei Geschlecht: p = 0.275 -> nicht signifikant, d.h. kein Zusammenhang zwischen Befindlichkeit und Geschlecht

- bei Intercept: p = 0.000 -> signifikant, d.h. Zusammenhang zwischen Befindlichkeit und Medikament

[oben, wo „Maß“ steht -> das ist die AV]

ad d) Profilverlauf:

Profil des Intersubjektfaktors nach Gruppen ausgeben lassen. p = 0.275 (Medikament x Geschlecht) nicht signifikant, daher bräuchte ich das nicht interpretieren, weil ja nicht überzufällig.

Merke: In diesem Beispiel ist vieles signifikant;

ABER: wir haben KEINE Alpha – Adjustierung gemacht!! (das immer bedenken und nicht alles interpretieren!) daher zu empfehlen:

- nur das testen, wo man wirklich einen Effekt vermutet (alles andere nur deskriptiv!), hier z.B. WW Befindlichkeit und Alter

- nur hochsignifikante Ergebnisse interpretieren oder Alpha – Adjustierung vornehmen, sonst wird das Ergebnis nur wenig stabil (gilt für alle multivariaten Verfahren bei kleinen Stichproben!)

Wie kann man prüfen, ob Ergebnisse stabil sind?

Stichprobe verkleinern und prüfen, ob Schlussfolgerungen ähnlich bleiben; Methode dazu = Jackknife: zufällig z.B. 20 Personen rausnehmen (d.h.

„systematisch wegschneiden“)

optimal: Stichprobe in 2 Hälften teilen (Voraussetzung = genügend groß) und Resultate vergleichen (= Kreuzvalidierung)

Bootstrap – Algorithmus:

prüft Stabilität von Resultaten in Bezug auf beobachtete Stichprobe. Aus Stichprobe werden mit Zurücklegen viele Stichproben der Größe n gezogen. Beobachtete Schwankungen der Ergebnisse werden beurteilt -> deutliche Effekte sind halbwegs stabil. Sehr aufwändiges Verfahren.

GRITASKRIPT, September 2003 24

multivariate VA:

• VA mit Messwiederholung arbeitet mit Differenzen; mulitvariate VA optimiert die Verknüpfungen der AV (es wird hier versucht, irgendeine lineare Verknüpfung zu erstellen, anstatt mit Messwertdifferenzen zu rechnen, damit Varianzerklärung möglichst hoch ist)

• SPSS rechnet multivariate VA automatisch, ABER: wenn kein unabhängiger Faktor definiert wird, prüft

multivariate VA NUR Effekt der Konstanten (d.h. ob die Daten um 0 streuen), das ist sinnlos! Sehr viele Tests, aufwändig.

6) Multivariate Varianzanalyse:

=> verwendet bei: mehr als 1 AV

BEISPIEL: UV = Geschlecht (M/W) AV1 = Einstellung zum Rauchen (+/-) AV2 = Einstellung zum Trinken (+/-)

BEISPIEL Messwiederholung: UV = Geschlecht AV1 = Befinden vor der Intervention

(gut / mittel / schlecht) AV2 = Befinden nach Intervention (gut / mittel / schlecht)

Merke: In Praxis meist mehr als 1 AV. Man könnte mehrere univariate VA rechnen; ABER:

Alpha – Fehler steigt

Zusammenwirken der AVs kann nicht geprüft werden (d.h. es könnte zwischen ihnen Korrel bestehen -> damit würden sie zu EINEM Faktor gehören!); multivariate VA berücksichtigt das!

=> Voraussetzungen:

• Varianz – Kovarianz – Matrizen über Faktorenstufen / Zellen hinweg homogen

• multivariate NV:

d.h. Varianzen in EINER Variablen dürfen sich nicht abhängig von der Ausprägung in einer anderen ändern (in bivariater NV -> Homoskedastizität; vgl. Signifikanzprüfung der Produkt – Moment Korrelation). D.h. ich habe hier unabhängige Variablen bzw. unkorrelierte Variablen [bzw. unabhängige AVs]

Verfahren robust für: - n > 40 und - bei unter 10 Variablen (= mildere Voraussetzungen als bei VA mit

Messwiederholung!)

GRITASKRIPT, September 2003 25

Merke: Bei Anwendung eines „großen“ Modells -> große Stichprobe,

sonst wenig stabile Ergebnisse! => Mathematik:

• multivariate VA findet Linearkombinationen (= kanonische Variablen) der AV, und zwar so, dass Varianz der Linearkombinationen zwischen den Gruppen (gebrochen durch Varianz „innerhalb“) möglichst groß wird.

• D.h. multivariate VA „optimiert“ die erklärte Varianz.

Merke: Gute Vorhersage = Varianz zwischen Gruppen möglichst groß Varianz innerhalb der Gruppen möglichst klein

BEISPIEL: Wie kann man am besten Unterschied zwischen BWL-,

Psychologie- und Informatikstudenten erklären? UV = Student (k = 3) AV1 = Interesse an Menschen AV2 = Forschungsinteresse AV3 = Einstiegsgehalt AV4 = Status AV5 = technische Begabung

aus mehreren AVs werden Faktoren gebildet, und zwar so, dass Unterschiede zwischen den Gruppen möglichst groß sind. D.h. jene Variablen suchen, die gut erklären, diese gewichten; andere fallen weg.

hier: 1. kanonische Variable = „Interesse“ (AV1, AV2)

2. kanonische Variable = „Status“ (AV3, AV4)

• wie in FA charakterisiert der Eigenwert den Anteil der durch Linearkombination erklärten Varianz

• Mehr als 2 Gruppen (Faktorstufen im unabhängigen Faktor; z.B. Bezirke

1,2, 3, usw.)

Datenraum wird von mehr als 1 kanonischen Variable aufgespannt. DAHER: es gibt mehrere unabhängige varianzerklärende

Teile jeweils mit Eigenwerten (vgl. Diskriminanzanalyse)

GRITASKRIPT, September 2003 26

=> Prüfstatistiken dazu: (SPSS gibt 4 aus, man muss sich für 1 entscheiden)

• größter Eigenwert nach Roy (= erklärte Varianz der 1. kanonischen Variablen; bei 2 Gruppen ident mit Pillai, ABER: nur Schätzungen der Untergrenze auf dem Signifikanzniveau)

• Spurkriterium nach Pillai (= Summe der erklärten Varianzanteile in ALLEN kanonischen Variablen; am unproblematischsten!)

• Hotteling – Spur (= ebenfalls eigenwertbasiert; hat eher historischen Wert; nicht verwenden!)

• Wilks – Lambda (= Gesamterklärung wie Pillai, ABER: Werte sind umgedreht, d.h. kleine Werte bedeuten, dass das Modell gilt; nicht verwenden!)

@ Pillai – Spur:

wenn p < 0.05, d.h. es gibt irgendeinen erklärten Varianzanteil für diese UV

Pillai – Spur kann zur Kontrolle der Alpha – Kumulierung verwendet werden: wenn signifikant, d.h. p < 0.05 kann man univariate Tests wie gehabt durchführen (SPSS gibt sie automatisch aus)

Merke: - Bei signifikanter multivariater VA muss KEIN univariater Wert signifikant sein! (Kombination ist hier ausschlaggebend!!!)

- Analyse der Kombinationen mit Diskriminanzanalyse. SPSS – Output dazu: UV1 = Geschlecht UV2 = Bezirk AV1 = Anzahl der Zigaretten pro Woche AV2 = Einstiegsalter 1) multivariate Tests (Summe der erklärten Varianzen) multivariate VA gibt pro UV (bzw. WW) getrennt 1 Signifikanzniveau an; 4 Testgrößen -> Pillai nehmen! [Intercept = Gesamtmodell]

- Intercept: p = 0.000 (alles Pillai) - Bezirk: p = 0.001 - Geschlecht: p = 0.021 - WW: p = 0.308 D.h. sowohl Effekt des Bezirks als auch Effekt des Geschlechts = signifikant

GRITASKRIPT, September 2003 27

2) Test der Zwischensubjekteffekt:

hier: univariate VA am Beispiel Geschlecht:

-> Zeile „Geschlecht“ anschauen: - Alter bei 1. Zigarette (AV2): p = 0.00 - Anzahl Zigaretten / Wochen (AV1): P = 0.091 D.h. Einstiegsalter hängt signifikant mit Geschlecht zusammen; kein Zusammenhang zwischen Geschlecht und Anzahl der Zigaretten.

-> jetzt in Deskriptivstatistik schauen [haben wir nicht]: hier Mittelwerte anschauen, dann sieht man, dass Männer früher zu rauchen anfangen als Frauen.

Merke: Unterschied zwischen VA mit Messwiederholung und

multivariater VA:

• Resultate der multivariaten VA und der VA mit Messwiederholung müssen NICHT gleich sein! Grund: unterschiedliche Zugangsweise: - VA mit Messwiederholung: arbeitet mit Differenzen - multivariate VA: arbeitet mit freien Kombinationen der AVs

• je bedeutungsloser die Differenzen zwischen den Zeitpunkten (also bei kleinen Veränderungen), umso überlegener ist die multivariate VA (und umgekehrt)

7) Diskriminanzanalyse:

• in gewisser Weise Umkehrung der multivariaten VA: - bei multivariater VA: Es interessiert Effekt der UV auf AV - bei Diskriminanzanalyse: man will jene AVs finden, die die UV gut vorhersagen

D. h. Diskriminanzanalyse untersucht, - inwieweit Variablen (AVs) zwischen Personengruppen (UVs)

diskriminieren und - welche AVs das am besten tun.

• wird oft NACH multivariater VA zur Detailanalyse empfohlen:

sucht eine Linearkombination der AVs, die zwischen Gruppen möglichst gut trennt (d.h. wo Varianz zwischen Gruppen dividiert durch Varianz innerhalb möglichst groß ist)

Gewichte in Linarkombination zeigen Bedeutung der AV für Trennung an

Variablen, die durch die Linearkobination entstehen = kanonische Variablen [= Diskriminanzfunktion] (können interpretiert werden als Achsen wie in einer FA)

GRITASKRIPT, September 2003 28

Diskriminanzpotential wird durch EINE Funktion (= kanonische Variable) NICHT ausgeschöpft.

BEISPIEL: 1. Diskriminanzfunktion (kanonische Variable) = Umweltmotiv (kann gut trennen zwischen Gruppe 1 [SPÖ] und Gruppe 2 [Grüne])

2. Diskriminanzfunktion (kanonische Variable) = EU-Einstellung (kann gut trennen zwischen Gruppe 3 [ÖVP] und Gruppe 4 [FPÖ])

Daher: jeweils andere Gewichtung = optimal, und zwar: AV1: Mülltrennung

AV2: Einkauf in Bioladen -> großes Gewicht bei Umweltmotiv

-> kleines Gewicht bei EU-Einstellung

• Voraussetzungen für Diskriminanzanalyse: wie bei multivariater VA; Box’s M – Test

Diskriminanzanalyse – Ablauf:

1) Prüfgröße für Diskriminanzfunktionen = Wilks - Lambda

prüft, ob Funktionen 1 bis k – 1 signifikant sind; wenn ja: akzeptiere Funktion1, prüfe Funktionen 2 bis k – 1, usw. (k = Anzahl der Gruppen der UV [Faktorstufen])

BEISPIEL: UV = Religiosität (nicht / mittel / hoch) AV1 = traditioneller Glaube (Himmel, Hölle, etc.) AV2 = Glaube an Hexen AV3 = Aberglaube

3 Gruppen (UV – Abstufungen: nicht / mittel / hoch), daher k –1 = 2 Diskriminanzfunktionen

vgl. SPSS – Output dazu:

„Wilks – Lambda Test der Funktionen“:

- 1 – 2 -> p = 0.000 => signifikant - 2 -> p = 0.118 => nicht signifikant

D.h. Funktion 1 leistet signifikanten Beitrag (= Kombination von Gruppe 1 + Gruppe 2); Funktion 2 nicht [Varianz = 100% bezieht sich auf die Gesamtvarianz, die durch alle Funktionen erklärt werden]

„Eigenwerte“:

hier sehe ich relative Wichtigkeit der Funktion 1 Varianz, die durch diese Kombination (also Funktion 1) erklärt wird ist 96.9% der durch beide Funktionen erklärten Varianz (100%)

GRITASKRIPT, September 2003 29

2) Strukturmatrix:

standardisierte Koeffizienten werden verwendet, um reine Skaleneffekte auszuschalten (z.B. Gewicht in kg statt in g würde Koeffizienten vertausendfachen)

analog zur FA zu interpretieren (Korrelation zwischen Variabler und kanonischer Variable)

vgl. SPSS - Output dazu:

Standardisierte kanonische Diskriminanzfunktionskoeffizienten:

Werte hier = Korrelationen, und zwar = Korrelation zwischen kanonischer Variable und AV - im 1. Faktor: -> traditioneller Glaube = wichtig (r = 0.932) - im 2. Faktor: -> Hexenglaube am wichtigsten (r = 0.985); Aberglaube

auch wichtig, aber nicht sehr (r = 0.424) - ABER: Faktor 2 nicht geeignet für Vorhersage, da nicht signifikant (siehe

Wilks – Lambda) Merke: Gewicht in Faktor 1 = - 0.5

Gewicht in Faktor 2 = + 0.4 => in Diskriminanzfunktion geht ihre Differenz ein = 0

3) Zentroide:

sind Mittelwerte der Diskriminanzfunktionen pro Gruppe

geben Antwort auf die Frage Welche Gruppe wird von welcher Funktion am besten unterschieden?

vgl. SPSS - Output dazu:

Funktionen bei den Gruppen – Zentroiden:

UV = Religiosität (nicht / mittel / sehr) [REL_U3] -> F 1: steigt im Mittel von Gruppe 1 bis 3 linear mit Religiosität an -> F 2: würde mehr zwischen Gruppe 2 und Gruppe 3 diskriminieren D.h. F 1 unterscheidet am besten zwischen Religiosität (nicht / mittel / hoch)

4) Klassifikation / Kontingenztafeln / Güte der Vorhersage:

zusätzlich zur globalen Beurteilung erklärter Varianzanteile können auch vorhergesagte Gruppenzugehörigkeiten für jede VP betrachtet werden

vorhergesagte Zuordnung erfolgt z.B. über Distanzen (= Zuordnung einer VP zur Gruppe mit minimaler Distanz der Werte in den Funktionen zu den Zentroiden)

GRITASKRIPT, September 2003 30

vgl. SPSS - Output dazu:

Klassifizierungsergebnisse:

unter der Tabelle steht: 59,3 % der ursprünglich gruppierten Fälle wurden korrekt klassifiziert. D.h. schlechte Vorhersage, denn es wurden z.B. 47 Personen, die nicht religiös sind, der Gruppe sehr religiöse zugeordnet (siehe 1. Zeile bei Original Anzahl)

Hit – Rate = korrekte Vorhersage der Zugehörigkeit

nicht direkt über Kontingenztafeln, da Zugehörigkeit ja optimiert, sondern:

1) Teilung der Stichprobe (hold out sample – Methode) in: - Teil zur Konstruktion der Funktionen - Teil zur Überprüfung (hier erst Kontingenztafel sinnvoll)

2) leave one out oder Jackknife – Methode: man klassifiziert jeden Fall nach der Bayes Zuordnung, die ohne diesen Fall konstruiert ist und vergleicht mit der Bayes – Vorhersage.

vgl. SPSS - Output dazu: (Folie S 69) * original = echte Gruppenzugehörigkeit * kreuzvalidiert = nach leave out => kleine Verbesserung: jetzt 58,1 % richtig zugeordnet 5) fallweise Aufstellung von Fehlzuordnungen:

vor allem bei kleinen Stichproben interessant

hier sehe ich für jede Person, welcher VG sie zugeordnet wurde und welche für sie vorhergesagt wurde -> falsche Zuordnungen einzelner Personen werden sichtbar

jetzt Frage: WARUM könnte Person falsch zugeordnet gewesen sein

6) Grafiken: Territorialkarten (territorial maps):

grenzen ein, welche Werte in den Funktionen zu welchen Zuordnungen führen. Darstellung des Diskriminanzraumes gibt Überblick, wie gut die Funktionen diskriminieren bzw. wie viel überlappend auftritt.

ideal = getrennte Knödel (erlauben gute Vorhersage!)

GRITASKRIPT, September 2003 31

8) Multiple lineare Regression: => verwendet bei: viele UV (Prädiktoren) 1 AV (Kriterium)

• Variablen = intervallskaliert (beliebig feindifferenziert; keine Kategorien; Gruppen)

• Man sagt eine Variable Y (= Kriterium) aus vielen anderen

Variablen X (= Prädiktoren) voraus. BEISPIEL: AV = Ausländerfeindlichkeit UV1 = elterliches Milieu UV2 = letztes Wahlergebnis UV3 = Konjunktur

=> Modellannahme: Yi = β0 + β1X1 + ..... βkXk + εi

Y = additive Konstante + multiplikative Konstante 1 mal X1 + multiplikative Konstante 2 mal X2 + ..... + Fehlerterm • Aus Linearkombination der UV soll AV vorhergesagt werden

• Korrelation zwischen AV und der Linearkombination = multiple Regression

• Multiple Korrelation = Produkt – Moment Korrelation zwischen vorgesehenen und tatsächlichen Werten

• εi = NV mit Erwartungswert 0 und Varianz σ2 => Voraussetzungen:

• Linearität der Zusammenhänge • NV • homogene Varianzen der Residuen • Unabhängigkeit der Residuen

=> Vorgehen:

• multivariate NV (Verfahren robust bei über 40 Personen und unter 10 Variablen)

• Schätzung der Qzuadratsummenminimierung (wie bei bivariater Regression) • Quadratsummenzerlegung wie bei VA • erklärte Varianzanteile und F – Tests

GRITASKRIPT, September 2003 32

=> Ziel:

prüft - Überzufälligkeit der globalen Vorhersage (wichtig zur Alpha –

Kontrolle) und - Einfluss einzelner Variablen;

ABER: Test der einzelnen Variablen ist NICHT α – adjustiert! SPSS - Output dazu: BEISPIEL: Kriterium (AV) = Anzahl Zigaretten / Woche

Prädiktor 1 (UV1) = Wieviele Zigaretten raucht Mutter Prädiktor 2 (UV2) = Einstellung Freunde zum Rauchen Prädiktor 3 (UV3) = Wieviele Freunde rauchen?

1) Modelltest: NV der Residuen

a) über Histogramm der standardisierten Residuen (mit NV – Kurve):

Im Beispiel sind Daten gar nicht normalverteilt, was SEHR ernstgenommen werden muss, weil Stichprobe sehr groß (n = 900); ABER: sehr robustes Verfahren, daher kann man Daten verwerten...

b) PP – Plot der standardiserten Residuen:

= Gegenüberstellung von beobachteten kumulierten Häufigkeiten und erwarteten Häufigkeiten; schlecht = Abweichungen von der Geraden.

c) partielle Diagrammme:

zur Prüfung der Linearität der einzelnen Prädiktoren. Einfluss des Prädiktors = linear, wenn „Kurve“ ablesbar; hier: Prädiktor scheint linear zu sein 2) Globale Modellprüfung / multiple Regession:

EIN signifikanter Prädiktor reicht, damit globales Modell signifikant ist. Man sagt dann: „Der durch die Regression erklärte Varianzanteil ist global gesehen signifikant.“ (siehe ANOVA – Tabelle -> p = 0.000)

ist globaler Test nicht signifikant, so darf Signifikanz einzelner Prädiktoren NICHT interpretiert werden!!!, da α – Kumulierung sehr wahrscheinlich

GRITASKRIPT, September 2003 33

AD BEISPIEL: ANOVA – Tabelle:

- Regression: p = 0.000 -> signifikant - Multiple Korrelation (siehe Modellzusammenfassung): R = 0.462 -> zufriedenstellend R2 = 0.214 (= erklärter Varianzanteil) korrigiertes R2 = 0.210 -> gut, wenn ähnlich hoch wie R2

@ korrigiertes R2:

unkorrigiertes R2 überschätzt den Populationsanteil

nähert sich die Anzahl der Prädiktoren n (d.h. wenn Stichprobe sehr klein ist), dann automatisch hohe Korrelation

capitalizing on chance: Verfahren nimmt jene Variablen, die zufällig besser passen, und gibt ihnen höheres Gewicht; Fazit: scheinbar gutes Ergebnis; DAHER: correction for shrinkage (= Schrumpfungskorrektur)

3) Koeffizienten:

für jeden Prädiktor berechnen; Frage: welcher ist wichtig?

AD BEISPIEL: - fast jeder signifikant (außer Rauchen Vater) - wichtigster Faktor = rauchende Freunde

Hier: rauchender Vater ist nicht signifikant. Wie kann ich das signifikant machen?

einseitig testen und p – Wert halbieren, dann wird aus p = 0.067 -> p = 0.0335 und das ist signifikant! ;-)))

D.h. ich habe aus einer zweiseitigen Hypothese (Wenn Vater viel raucht, raucht Kind entweder sehr wenig oder sehr viel) eine einseitige Hypothese (Wenn Vater viel raucht, raucht Kind auch viel) gemacht.

ABER: einseitige Hypothese muss a – priori (VOR der Auswertung) festgelegt werden und auch theoretisch gut begründet sein!

Trifft Vorhersage ein (Vergleich der Mittelwerte, Vorzeichen der Korrelation), dann darf man p – Wert halbieren.

Das geht bei: t – Test; U – Test, Wilcoxon, Korrelation

[einseitig heißt, dass Vorzeichen richtig erraten werden kann]

Geht NIEMALS bei VA!!!

Legt man Hypothese erst im Nachhinein einseitig fest α – Niveau steigt auf 0.075 [0.05 durch 2 – seitige – Testung + 0.025 auf einer Seite durch nachträgliche einseitige Testung]

GRITASKRIPT, September 2003 34

@ Alpha – Kumulierung:

p – Werte der Prädiktoren sind NICHT alpha - adjustiert!

wenn globaler Test signifikant (p < 0.05 in ANOVA), dann ist irgendwo im Modell 1 Prädiktor signifikant.

ABER: Vorsicht bei der Interpretation der einzelnen Prädiktoren! Bei vielen Prädiktoren (und daher vielen Tests) könnte globaler Test irrtümlich signifikant sein, daher unbedingt Alpha – Adjustierung machen (geschieht aber in Praxis selten...)

Merke:

• Haupthypothese der Diplomarbeit besser mit einfachem Verfahren prüfen (höchstens einfache VA!), da hier Voraussetzungen nicht so zweifelhaft sind.

• komplexe Verfahren haben eher hypothesenerkundenden und deskriptiven Charakter als hypothesentestenden.

• Linearkombination mit 6 Prädiktoren erklärt IMMER mehr Varianz als mit 3 (egal, ob inhaltlich richtig oder nicht!), trotzdem: wenige Prädiktoren nehmen!!! Grund: - korrigiertes R2 wird mit Zahl der Prädiktoren kle ner i- Verfahren tut sich schwer bei zu vielen Prädiktoren, die sinnvollen

herauszufinden. Fazit: weniger Macht!

Multikollinearität: = lineare Abhängigkeiten (Korrelationen) zwischen den Prädiktoren (z.B. Prädiktor 1 = Summe aus 3 anderen) BEISPIEL: paarweise Abhängigkeit:

Gewicht = X1 (Größe) + X2 (Hüftumfang); X1 und X2 hängen voneinander ab.

Bei abhängigen Prädiktoren hat Reihenfolge keinen Einfluss auf die Größe

der Korrelation; ABER: Reihenfolge hat einen Einfluss auf die Interpretation!

Mit Statistik habe ich KEINE Möglichkeit herauszufinden, WELCHER der inhaltlich wichtigere Prädiktor ist! D.h. Wert eines Prädiktors hängt davon ab, was bereits durch andere Prädiktoren erklärt wird -> kann dieser Prädiktor noch darüber hinaus Varianzanteile erklären, dann ist er „nützlich“, wenn nicht, ist er wertlos, da überflüssig... ACHTUNG: Prädiktor kann sehr hoch mit Kriterium korrelieren, aber im

Vergleich mit anderen, schon betrachteten keinen neuen Beitrag zur Varianzerklärung mehr leisten, dann ist er sinnlos!

GRITASKRIPT, September 2003 35

quadrierte multiple Korrelation (= erklärter Varianzanteil) lässt sich bei

vorgegebener Reihenfolge zerlegen in Summe der Quadrate der Semipartialkorrelationen (= Nützlichkeit) zwischen Prädiktor und Kriterium, wo die bereits aufgetretenen Prädiktoren bereinigt sind.

Semipartialkorrelation = Bereinigung NUR im Prädiktor, nicht im Kriterium!

Suppression:

• Suppressor – Variable leistet Varianzerklärung dadurch, dass sie irrelevante Varianzen in anderen Prädiktoren unterdrückt.

D.h. ihre Hinzunahme erhöht erklärten Varianz – Anteil, obwohl sie selbst gar nicht mit dem Kriterium korreliert.

BEISPIEL: AV / Kriterium = zukünftiges Fachwissen UV / Prädiktor = Prüfungsleistung Suppressor – Variable = Prüfungsangst

• Suppressor – Variable zeichnet sich aus dadurch, dass ihre Nützlichkeit größer ist als die eigentliche quadratische Korrelation mit dem Kriterium (Validität)

sie wirkt mehr durch eine andere Variable als durch sich selbst (ist nix anderes wie eine bekannte Störvariable!)

SPSS – „Einschluss“:

Bei Verdacht auf Multikollinearität:

stepwise: damit schrittweise Beurteilung der Variablen:

sukzessive Dazunahme der Varianz mit größter Aufklärung (forward) und schrittweise Wegnahme der Varianz mit kleinster Aufklärung (backward)

Sinn: Beurteilung wird erleichtert; Struktur wird geordnet; ABER: man erkennt nicht notwendigerweise, WAS

inhaltlich wichtig ist! Daher:

@ Kausaldeutung: Man darf KEINE Aussagen über Ursache – Wirkungszusammenhänge machen (Ausnahme = Experiment!)

BEISPIEL: Arbeitslosigkeit bewirkt Depressionen = unprofessionell! Denn: Depressionen könnten auch Arbeitslosigkeit bewirken, oder es gibt eine 3. Variable. DAHER: Man kann NUR sagen, dass es einen

Zusammenhang zwischen Arbeitslosigkeit und Depressionen gibt.

GRITASKRIPT, September 2003 36

9) Kanonische Korrelation: => verwendet bei: mehrere intervallskalierte AVs (Gruppen) und

mehrere intervallskalierte UVs

kanonische Korrelation untersucht Zusammenhang zwischen denen, d.h. sie berechnet den Zusammenhang zwischen 2 Gruppen von mehreren Variablen

BEISPIEL: UV1 = Einstellung zu Alkohol UV2 = Einstellung zu Drogen AV1 = Menge Alkoholkonsum AV2 = Menge Drogenkonsum

kanonische Korrelation sucht nach Teilen von X (AVs; = Linearkombinationen, Faktoren), die Y (UV) vorhersagen.

=> Modell:

• aus X1, X2, ... Xk -> Linearkombination X* gebildet • aus Y1, Y2, … Yk -> Linearkombination Y* gebildet • beide so, dass Korrelation zwischen X* und Y* möglichst hoch ist

=> Voraussetzung: multivariate NV

=> Unterschied zwischen kanonischer Korrelation und multivariater VA:

• multivariater VA sucht EINE Linearkombination für ALLE AVs, die so ist, dass Gruppenunterschiede möglichst hoch sind.

• kanonische Korrelat on sucht Linearkombinationen für AVs UND UVs, die möglichst hoch korrelieren

i

=> Vorgang:

• schrittweises Vorgehen

• Nach Extraktion des 1. Faktors in beiden Gruppen meist noch Restvarianz, daher 2. Faktor extrahieren = 2. kanonische Korrelation; usw.

• Wichtig: Faktoren müssen unabhängig sein!

• Merke: Es gibt maximal so viele Korrelationen wie Anzahl der Variablen in kleinerer Gruppe [also: bei 6 AVs und 3 UVs -> maximal 3 kanonische Korrelationen]

• Schrumpfungskorrektur: wird immer durchgeführt, um zufällige Korrelationen zu korrigieren. Grund: durch Optimierungsprozess werden Variablen, die zufällig

miteinander korrelieren in Linearkombinationen höher gewichtet -> dadurch wäre kanonische Korrelation immer höher als inhaltlich gerechtfertigt

GRITASKRIPT, September 2003 37

SPSS – Output dazu:

1) „Eigenvalues and Canonical Correlations“:

Root 1 = 1. kanonische Korrelation Root 2 = 2. kanonische Korrelation dann Eigenwerte um Null, daher Abbruch

2) „Variance in dependant variables explained by canonical

correlation“: zeigt erklärte Varianzen der Avs (4) durch kanonische Variablen Y1*, Y2*,…

=> Interpretation der kanonischen Korrelation:

• kanonische Korrelation sucht jene X raus, die Y am bestmöglichen vorhersagen (hier: 1. Tabelle / SPSS: r = 0.504 = 1. kanonische Korrelation).

• berücksichtigt dabei alle einzelnen Korrelationen -> KEINE kann

höher sein als hier die 0.504

• Kanonische Korrelation = dann praktisch, wenn man wissen will, wie viel man theoretisch aus den Daten rausholen kann (z.B. ist die kanonische Korrelation 0.1 -> zwischen allen Einzelkorrelationen gibt es KEINE höheren Werte, daher erspart man sich das Suchen von Korrelationen

• Ist kanonische Korrelation hoch, dann Interpretation von

Strukturkoeffizienten (= Korrelation zwischen Variable und kanonischer Korrelation) -> damit erfährt man, welche Bedeutung die einzelnen Variablen haben.

Redundanzmaß: Frage: Wieviel Varianz der Y erklären die gefundenen Faktoren (=

Linearkombinationen)? ABER: quadrierte Korrelationen sind hier NICHT geeignet als Maß für

die erklärte Varianz. Grund: korreliert von vielen AVs auch nur EINE hoch mit irgendeiner

UV -> ganze kanonische Korrelation = hoch!

GRITASKRIPT, September 2003 38

SPSS – Output dazu: gegeben sind 4 kanonische Korrelationen:

• Tabelle 1: Quadrate der Korrelation von X1* und Y1* = 0.254 (= SQ. Cor) • Tabelle 2: 1. Faktor Y1* erklärt 61.3% der Kriteriumsvarianz Y (Zeile 1 Var

DE: 61.303). Davon erklärt der 1. Prädiktorfaktor 25.4 % (= Tabelle 1 / Zeile 1 / SQ Cor)

• jetzt rechnen 0.613 mal 0.254 = 0.1557 [VAR CO in Tabelle 2???], d.h. die 1. kanonische Korrelation erklärt 15.57 % Kriteriumsvarianz. D.h. bei Kenntnis der Prädiktoren (X) sind 15.57% der Kriteriumsvarianz redundant.

Merke: * Redundanzen sind NICHT notwendigerweise symmetrisch

zwischen X und Y (d.h. wenn Y fast völlig durch X erklärt wird, muss es NICHT umgekehrt auch so sein, dass X fast völlig durch Y erklärt wird).

* KEINE Kausalinterpretationen vornehmen!

10) Allgemeines lineares Modell (ALM / GLM): ALLE bisher beschriebenen Verfahren kann man mit dem ALM / GLM (= multiple Korrelation) rechnen. BEISPIEL: * t – Test = äquivalent der Korrelation zwischen UV (Gruppenvariable)

und AV (Messwertvariable) * 2 – fache VA wird im SPSS mit GLM gerechnet -> darum braucht man additive Konstante (= Intercept -> ist in VA aber egal!!!) und „korrigiertes Modell“ (Konstante wird ignoriert)

unproblematisch bei 2 nominalen Ausprägungen (z.B. Geschlecht: männlich = 0, weiblich = 1) problematisch bei nominalen Variablen mit 3 Ausprägungen (man kann nicht steigend ordnen!) (z.B. UV = Religion: Christ / Moslem / Hindu) daher: Dummy – Codierung [Dummy – Variablen verwenden]:

ersetzt 3 – kategorielle Variable X durch 2 Indikatorvariablen I1 und I2

Beispiel: X = 1: I1 = 1 I2 = 0 X = 2: I1 = 0 I2 = 1 X = 3: I1 = 0 I2 = 0

Merke: Bei Verwendung von Dummy – Variablen gehen multiple

Regression und varianzanalytische Verfahren ineinander über.

GRITASKRIPT, September 2003 39

3. LINEARE STRUKTURGLEICHUNGSMODELLE: => Dazu gehören:

• Pfadanalyse • Lisrel • Amos (zeichnet ein Pfaddiagramm)

=> braucht man: wenn man direkte und indirekte Zusammenhänge zwischen verschiedensten Variablen sucht.

Ergebnis = Korrelationen => Unterschied zur linearen Regression:

Bei Strukturgleichungsmodelle erstellt man A PRIORI ein Modell, in dem man festlegt, welche Variablen welche anderen Variablen beeinflussen (z.B. Risikofaktoren für Alkoholismus)

=> Modell:

Einzelne Variablen lassen sich als Linearkombinationen anderer Variablen zusammenfassen + Fehler (den braucht man, weil man ja keinen perfekten Zusammenhang erwartet; z.B. X1 + X2 wirken auf X3 = reine Vermutung!)

1) Strukturmodell: => hier können NUR manifeste (beobachtete) Variablen auftreten => Mathematik:

• verschiedene Variablen können verschiedene Skalenbreiten haben (z.B. Einstellung zu Alkohol: - 3 bis + 3, Anzahl der Freunde: 0 – 5) daher: Standardisierung der Variablen notwendig, und zwar:

z = X – µ / σ (additive Konstante verschwindet dadurch!)

• standardisierte Koeffizienten: Z2 = p21*z1 + e2; Z3 = p31 * Z + p 32 * Z2 + e3.

- P = Pfadkoeffizienten. - Korrelation zwischen X1 und X2 (= r12) = Pfadkoeffizient p21 - Korrelation zwischen X1 und X3 (= r 13) = p31 + p32.r12.

• D.h. jede Korrelation lässt sich zerlegen in direkte und indirekte Effekte. Indirekte Effekte ergeben sich als Produkte über die Pfadkoeffizienten der entsprechenden Pfade.

GRITASKRIPT, September 2003 40

SPSS – Output dazu: Basis = Korrelationsmatrix wie bei FA

1) Lisrel: a priori Modell entwerfen (Variablen anklicken, Namen vergeben, mit Pfeilen verbinden -> sehr leicht!)

2) Korrelationen berechnen

-> Lisrel schreibt zu jedem Pfad eine Zahl -> je größer, desto wichtiger ist der Pfad. Man sieht hier auch - direkte Pfade (z.B. Anzahl der Freunde -> Alter) - indirekte Pfade (z.B. Alter über Anzahl der Freunde -> Alkoholkonsum)

3) Signifikanzen stehen in eigenem Output:

C.R = critical ration (= Schätzwert des Standardfehlers) signifikant ist alles, was kleiner als –1.96 oder größer als +1.96 [wegen der z-Werte] ist.

=> Vorteil:

- sehr populär, oft verwendet - sehr anschaulich, leicht kommunizierbar - gibt guten Einblick über Korrelationen und Partialkorrelationen

=> Nachteil:

• Einflüsse NUR innerhalb vorgegebener Modellstruktur überprüfbar (wenn ich wichtige Variable vergessen haben (z.B. die Kovariate), können andere Variablen dadurch fälschlicherweise signifikant sein; ebenso durch falsch gesetzten Pfad)

• Einiges muss VORHER bekannt sein (hat man keine Ahnung über

Zusammenhang, dann besser kanonische Korrelation oder lineares Modell verwenden)

• problematisch, wenn Zusammenhang der Variablen nicht linear (z.B.

wenn mittlere Dosis größten Effekt hat)

• KEINE Kausalinterpretation möglich!

GRITASKRIPT, September 2003 41

2) Messmodell:

=> hier können manifeste und latente Variablen auftreten

=> Im Lisrel kann man Pfadanalyse machen (siehe bei Strukturmodell) UND latente Variablen vorsehen, die einer oder mehrerer manifesten Variable zugrunde liegen (so was heißt Messmodell)

=> Messmodell = eng verwandt mit FA

(FA als Spezialfall von Lisrel: es wird a priori angenommen, welche Variablen zu welchen Faktoren gehören. So kann man FA inferenzstatistisch prüfen = konfirmatorische FA)

Merke: Für Messmodelle kann man wieder erklärbare Varianzen berechnen.

SPSS-Output dazu:

• Kästchen: = direkt beobachtbare Variablen (z.B. Summenscore im HAWIE)

= exogene Variablen (d.h. sie werden nicht von anderen Variablen kausal beeinflusst)

• Ovale: = nicht direkt beobachtbare Variablen (z.B. Intelligenz)

= endogene Variablen (d.h. werden von mindestens einer Variablen beeinflusst,

DAHER: diese Variablen brauchen eine Fehlervariable, weil Vorhersage nicht perfekt sein kann. Gibt es keine Kovarianzen, so ist die Fehlervariable Null.

=> Voraussetzungen:

• multivariate NV

• nicht mehr Pfeile als beobachtete Korrelationen

• Stichprobengröße mindestens 200 (-> Korrelationen und Varianzen brauchen viel Stichprobeninfo, um schätzbar zu sein)

=> Mathematik:

Schätzung der Parameter mit Maximum – Likelihood – Methode d.h. Parameter werden solange herumgedreht, bis beobachtete Daten möglichst hohe Wahrscheinlichkeit haben.

GRITASKRIPT, September 2003 42

=> Modellprüfung:

• Übereinstimmung zwischen vorhergesagter und beobachteter Korrelationsmatrix wird geprüft (Chi – Quadrat – Wert)

• Vorhergesagtes Modell gilt, wenn p > 0.05, d.h. bei NICHT –

Signifikanz (d.h. es gibt KEINE Unterschiede zwischen dem Modell und meinen Daten -> Modell passt also!) Ist Modelltest signifkant -> Verwerfung des Modells

• Merke: Bei großen n Signifikanz schon bei kleinen Abweichungen,

daher: Chi – Quadrat dividieren durch df.

• korrekte Vorgangsweise:

Modell aufstellen, Daten erheben, prüfen ob Modell auf Daten passt; wenn nicht -> Änderung des Modells -> Überprüfung an neuer Stichprobe ABER: oft „snooping in the data“, d.h. es wird solange

herumgedreht, bis Modell auf die Daten passt -> hat dann höchstens deskriptiven Wert, erlaubt aber KEINE Modelltestung!

(capitalizing on chance: wenn man lange genug herum-

probiert, dann passt schließlich irgendwas)

=> keine Kausalinterpretation:

Ist ein Pfadkoeffizient signifikant, d.h. es gibt eine Korrelation zwischen diesen Variablen ABER: Lisrel zeigt NICHT an, ob Pfeil eventuell in die falsche Richtung

geht -> Pfeil, der in die falsche Richtung geht, kann NICHT aufgedeckt werden. DAHER: Lisrel – Grafiken NICHT kausal interpretieren und

überinterpretieren! => Sonstiges:

• Je mehr Pfade, desto besser • Problem: Cluster und Ausreißer sind NICHT erlaubt (daher: prüfen mit

Box – Plots, Streudiagramm, etc.) Merke: Ergebnisse sind nur nach erfolgreicher Validierung an neuer

Stichprobe bzw. über Stichprobenteilung zulässig.

Deutliche Effekte sind halbwegs stabil, alle anderen = wenig verlässlich

GRITASKRIPT, September 2003 43

4. EFFEKTGRÖßEN: => verwendet bei: t –Test, Korrelation, VA, etc.;

wenn man nur an bestimmten (=relevanten) Unterschieden und Effekten interessiert ist

1) A priori Festsetzung der Größe des Effekts, den man nachweisen will (=

gewählte Effektgröße) Vorteil: ist man nur an großen Effekten interessiert, darf Stichprobe

kleiner sein

2) Im Nachhinein wird die Macht des Tests bestimmt. => Bei Interpretation von Ergebnissen schauen wir immer auf die Signifikanz (p – Wert): Bei großer Stichprobe sind auch kleine Unterschiede signifkant; ABER: Ist so ein Ergebnis auch „praktisch signifikant“?

(Das sehe ich an der erklärten Varianz und am Bestimmtheitsmaß -> in Praxis blöd, denn die hab ich erst NACH der sündteuren Datenerhebung...)

=> Zusammenhang Macht, Stichprobengröße, Hypothesenabstand: a) Macht (= Power, Teststärke): = Wahrscheinlichkeit bei falscher Ho, diese auch wirklich zu verwerfen. Macht wird größer, wenn:

- Stichprobe groß - Hypothesenabstand groß

Hypothesenabstand wird größer bei:

einseitiger Testung kleiner Varianz beim t – Test größerem Alpha

Merke: standardmäßig sollte Test Macht von 80% haben

(d.h. β – Fehler = 20% -> jedes 5. Mal wird die Nullhypothese fälschlicherweise beibehalten)

GRITASKRIPT, September 2003 44

b) Hypothesenabstand:

beschreibt, wie weit Ho (kein Effekt) von Wirklichkeit entfernt ist

bei hohen Effektgrößen: Test wird nur bei großem Hypothesenabstand signifikant

c) Effektgrößen als normierte Größen:

kleiner Effekt

mittlerer E. großer Effekt

t – Test

Differenz der Mittelwerte dividiert durch Streuung

0.2

0.5

0.8

Korrelation

normiert

0.1

0.3

0.5

VA

erklärte Varianz dividiert durch nicht – erklärte Varianz (Eta-Quadrat durch 1 minus Eta-Quadrat)

0.1

0.25

0.4

multiple Korrelation

erklärte Varianz dividiert durch nicht – erklärte Varianz (R2 / 1 – R2)

0.02

0.15

0.35

Kontingenz- tafel

normiert

0.1

0.3

0.5

d) optimale Stichprobengröße:

=> Vorgangsweise:

Alpha = 0 5 dann Effektgröße wählen => optimale Stichprobengröße ..Macht = 0 8 ausrechnen (dazu spezielle

Programme, z.B. G – Power von Erdfelder)

SEHR wichtig für die Projektplanung!

GRITASKRIPT, September 2003 45

Interessiere ich mich nur für große Effekte, dann reichen 20 VPn für ein gültiges Ergebnis. Daumenregel:

t - Test

kleine Effekte

310 VPn

mittlere Effekte

50 VPn

große Effekte

20 VPn

kleine Effekte

618 VPn

mittlere Effekte

68 VPn

Produkt – Moment - Korrelation

große Effekte

22 VPn

e) Poweranalyse:

• z.B. bei klinischen Untersuchungen oft nur sehr kleine Stichprobe (z.B. 25 Schizophrene vs. 25 „Normalos“)

• mit Poweranalyse rechne ich mir aus, mit welcher Macht ich bei

bestimmter Stichprobengröße rechnen kann.

• Ist Macht nur 40% -> mehr VPn! (in ALLEN Gruppen; eine Gruppe allein aufstocken bringt nicht viel)

• Poweranalyse kann auch durchgeführt werden, wenn Untersuchung schon

durchgeführt wurde, Ergebnis aber nicht signifikant war. Nicht – Signifikanz kann bedeuten: - es gibt tatsächlich keinen Unterschied - die Stichprobe war zu klein

GRITASKRIPT, September 2003 46

f) ROC – Kurven:

bei klinischen Untersuchungen oft die Frage: Soll Test eher sensitiv oder eher spezifisch sein?

• Sensitivität: = Anteil der korrekt klassifizierten Kranken

Sensitivität hoch: man nimmt in Kauf, dass auch Gesunde als Kranke diagnostiziert werden

= günstig, wenn Diagnose vor allem positive Folgen hat (z. B. Adipositas)

• Spezifität: = Anteil der korrekt klassifizierten Gesunden

Spezifität hoch: auch Kranke werden als Gesunde diagnostiziert

= günstig, wenn Diagnose massive und negative Folgen hat (z.B. Chemotherapie, Psychiatrie)

ROC – Kurve (= Receiver Operation Characteristic) stellt Spezifität und Sensitivität einander gegenüber, macht ablesbar, welche Sensitivität mit welcher Spezifität erkauft wurde.

Cut – Off – Point: = Schwellenwert des Scores, ab dem man als krank diagnostiziert.

Je höher Cut – Off – Point: - umso höher wird Spezifität (d.h. man ist vorsichtiger), - umso geringer wird Sensitivität

Sensitivität schlecht gut schlecht Spezifität

GRITASKRIPT, September 2003 47

g) Wozu braucht man Effektgrößen?

1) Man braucht sie

- zur Poweranalyse - um Stichprobe zu planen - um nicht – signifikante Ergebnisse im Nachhinein zu beurteilen

(wie groß war meine theoretische Chance auf Signifikanz? -> welche Unterschiede hätte man mit dieser Stichprobe nachweisen können. Merke: Bei sehr kleinen Stichproben sind nur sehr große Unterschiede nachweisbar)

2) Um Ergebnisse verschiedener Studien vergleichbar zu machen:

• Signifikanz dafür schlecht geeignet, weil sie ja nicht nur vom „wahren“ Zusammenhang abhängt, sondern auch von Stichprobenumfang, Streuung, etc.

• Bei Effektgröße wird Wert so umgewandelt, dass er möglichst nicht von wandelbaren Größen beeinflusst wird.

5. METAANALYSEN: => verwendet, um alle bisher durchgeführten Studien zum aktuellen

Forschungsstand zusammen zu führen, d.h. Ziel = Widerspiegelung des aktuellen Forschungsstandes

=> Vorgehen:

• alle relevanten Studien zu einem Thema suchen (mindestens 10 – 20)

• kritische Sichtung und methodische Kritik der Studien -> oft sieht man dabei, dass Metaanalyse sinnlos ist (z.B. nur 1 von 10 = brauchbar, und die prüft was anderes...)

• Resultate statistisch zusammenfassen, und zwar:

1) Resultate der Studien in Korrelationsäquivalent (Delta) überführen, das geht bei Korrelationen, t – Test, 4 – Felder – Tafeln, VA.

- t – Test = vergleichbar mit punkt-biserialer Korrelation

- VA: hier oft nominale Gruppen -> Korrelation nicht möglich, Umrechnung in Delta hier über e klärte Varianz r(= vergleichbar mit Bestimmtheitsmaß). Maß = Wurzel aus Eta – Quadrat, also Eta.

- rangskalierte Daten: schwierig bis unmöglich

GRITASKRIPT, September 2003 48

2) Bei mehreren Korrelationen -> Homogenitätstest (sind Werte gleich?)

BEISPIEL: gegeben = 5 Untersuchung 3 davon zeigen Effekt eines neuen Verfahrens 2 zeigen keinen Effekt dieses Verfahrens -> Moderatorvariablen feststellen, die dafür verantwortlich sein könnten

3) Gewichtetes, mittleres Delta extrahieren und auf Signifikanz prüfen.

Alternative: p – Werte verknüpfen (dafür gibt’s spezielle Formeln); ABER: Stichprobengröße bleibt hier unberücksichtigt.

=> Probleme:

• Garbage in – garbage out:

d.h. Qualität der Metaanalyse = abhängig von Qualtät der Einzelstudien (z.B. Rosenthal – Effekt bei Einzelstudien -> Rsoenthal – Effekt bei Metastudie!)

ABER: Betrachtung von VIELEN schlechten Untersuchungen = besser als Betrachtung EINER EINZIGEN schlechten

BEISPIEL: wenn 1000 Ärzte schlechte Ergebnisse erzielen, sagt das wesentlich mehr aus, als wenn nur 1 Arzt ein schlechtes Ergebnis erzielt.

DAHER: Metastudie erhebt sich immer über das Ausgangsniveau!

• Äpfel – Birnen – Argument:

Variablen in verschiedenen Untersuchungen oft nur schlecht vergleichbar (gilt für UVs und AVs)

BEISPIEL: UV: Therapie an mehreren Kliniken -> kann die wirklich GLEICH durchgeführt werden (Problem der Multi – Center – Studien!)

AV: Effekt wird geprüft mit Röntgenbild vs. Fragebogen -> ist das wirklich vergleichbar?

• Publikationsbias:

Untersuchungen mit signifikanten Ergebnissen werden - eher eingereicht und - eher publiziert D.h. bei Metaanalysen schaut es oft so aus, als wäre z.B. eine Therapie perfekt...

GRITASKRIPT, September 2003 49

Lösung: „Safe N“ bzw. „File Drawer“: man versucht zu schätzen, wie viele Studien in Schubladen geblieben sind, damit Gesamtergebnis NICHT mehr signifikant ist (bei Alpha = 0.05 -> 5 von 100 Studien signifikant, daher publiziert) -> überlegen, inwiefern diese Zahl realistisch sein kann

• Abhängigkeit von Studien:

Autoren stehen unter Publikationsdruck, daher kann es sein, dass dieselben Stichprobendaten auch für eine 2. Studie verwendet wurden -> sehr schwierig festzustellen

• oft mangelhafte Qualität der Publikaton:

- Effektgrößen, Unterschiede nicht ausreichend dokumentiert - p – Wert fehlen (nur angegeben ob signifikant oder nicht) - Mittelwerte, Streuungen fehlen

ABER: für Metaanalyse braucht man das alles!

6. CLUSTERANALYSE:

=> Verwendung: sucht in Daten nach möglichst unterscheidbaren Gruppen bzw. Typen oder nach Variablen, die man noch nicht kennt

=> Theorie dahinter:

• dimensionaler Ansatz

:

Eigenschaft wird verstanden als Kontinuum -> beliebig oft unterteilbar (z.B. jemand ist ein bisschen grün und ein bisschen schwarz)

• Typologie [bei Clusteranalyse]

Es gibt bestimmte Typen, die sich um bestimmte Werte gruppieren -> solche Typen überschneiden sich nicht (z.B. jemand ist entweder NUR grün oder NUR schwarz)

D.h. - es gibt nur wenige Ausprägungen - Typen = klar voneinander getrennt

Vorteil hier: „typologischer Mehrwert“

d.h. wenn ich EINE Variable kenne, kenne ich auch die anderen (z.B. Körpertyp = pyknisch -> Charakter = gemütlich)

BEISPIEL: gegeben = 3 Gruppen: A: Zufriedenheit gering, Hoffnung gering B: Zufriedenheit mittel, Hoffnung hoch C: Zufriedenheit hoch, Hoffnung gering

dazwischen Leerbereiche (an ihnen erkenne ich die Cluster!)

GRITASKRIPT, September 2003 50

Merke: Abgrenzungen zwischen den Gruppen sind recht deutlich!

=> Berechnung von Clustern:

• Streudiagramm anschauen -> sagt mehr aus als alle Korrelationen! ABER: bei mehr als 2 Variablen schwierig (weil wir uns das nimmer

vorstellen können -> mehrdimensionaler Raum!)

• Clusteranalyse sucht Gruppierung, und zwar so, dass - Unterschiede innerhalb der Gruppen sehr klein und - Unterschiede zwischen den Gruppen sehr groß sind

für Messung der Unterschiede brauche ich ein geeignetes Distanzmaß. Anzahl der Cluster = zunächst unbekannt, muss erst bestimmt werden

a) wie messe ich den Abstand?

hierzu gibt’s Distanz- bzw. Ähnlichkeitsmaße:

EUKLIDISCHE DISTANZ: = Distanz zweier Vektoren (= Wurzel aus Summe der Quadrate der

Koordinaten) X [c2= a2 + b2] X

CITY – BLOCK – METRIK: man bewegt sich entlang von “Straßen” und nicht quer durch die Häuser (-> Beträge statt Quadrate)

X X was richtig ist, kann man nicht sagen, ABER: man muss sich VOR Datenauswertung festlegen, nicht mit

den Daten solange herumspielen, bis man schöne Cluster hat!

GRITASKRIPT, September 2003 51

Merke: Clusteranalyse = nur sinnvoll bei intervallskalierten Daten (Grund: es geht um Differenzen!)

- bei binären Daten: (0 / 1) -> 4 - Felder – Tafel, Distanz mit Jaccard-Index berechnen

- bei Häufigkeiten (= counts): Chi – Quadrat – Abstand)

- bei gemischten Typen (z.B. intervallskaliert, dichotomisiert) -> Dichotomisierung der intervallskalierten Daten (z.B. Geschlecht = 0 / 1, Reise-Kilometer: weit / nicht weit)

b) wie viele Cluster sollen gesucht werden?

A – PRIORI FESTLEGUNG: Anzahl vor Datenauswertung festgelegt (basierend auf Theorie oder auf Bedarf)

BEISPIEL: unter Studenten gibt es bezüglich des Arbeitsverhaltens

5 Typen: in SPSS k-Means verwenden (d.h. ICH gebe die Anzahl der Cluster vor, Programm versucht, Abstände zwischen Personen bestmöglich zu minimieren

A – POSTERIORI FESTLEGUNG:

aufgrund der erhobenen Daten mit hierarchischen Verfahren:

Fehlersprungdiagramm: fängt an mit Extremlösung (d.h. jede Person = 1 Cluster), dann schrittweise Zusammenfassung bis zu 1 – Cluster – Lösung siehe SPSS – Output „Zuordnungsübersicht“: Koeffizienten geben an, welche Distanz überbrückt werden musste. Irgendwann sprunghaftes Ansteigen des Koeffizienten -> VOR diesem Sprung abbrechen (hier zwischen 7 und 8, also zwischen 43.00 und 152.07; Anzahl der Cluster = hier 3); funktioniert ähnlich wie Screeplot bei der FA

Eiszapfendiagramm (icicle – plot)

Dendrogramm (Baumdiagramm)

GRITASKRIPT, September 2003 52

=> Probleme:

• wenn hierarchische Verfahren 2 Personen, die zu verschiedenen Gruppen gehören, zufällig zu EINEM Cluster zusammenfassen, kann dieser Cluster nicht mehr aufgeteilt werden

• je nach Methode unterschiedliche Resultate

• Clusteranalyse findet IMMER eine Lösung, egal ob inhaltlich sinnvoll oder

nicht

• Clusteranalyse kann durch Zusammenfassung zu Clustern Verlust an Informationen bedeuten

DAHER: - nur sinnvoll, wenn es WIRKLICH Gruppen gibt

- nicht zuviel von der Clusteranalyse erwarten!

=> Überprüfung:

a) graphisch durch Streudiagramm (wichtigste Variablen hier paarweise anschauen)

b) Kreuzvalidierung

c) externe Variable (Variable suchen, die NICHT an Clusteranalyse beteiligt

ist [z.B. Dauer der Therapie, Behandlungserfolg])

d) ANOVA: berechneten Typ als Variable speichern und nachrechnen, welche der Variablen sich zwischen den Clustern signifikant unterscheiden.

Merke: * ist KEIN wirklicher Hypothesentest, da Hypothese und Test in

derselben Stichprobe! * Clusteranalyse ist eher ein exploratives Verfahren

(zur Hypothesenerkundung, weniger zur Hypothesenprüfung)