3
Gollwitzer Jäger: Evaluation. Workbook. Weinheim: Beltz PVU, 2007 1 11 Auswertungsfragen: Deskriptiv- und inferenzstatistische Methoden Was ist Evaluation? Kapitel 1 Aufgaben, Standards und Modelle Kapitel 2 Fragestellungen Zustände Kapitel 3 Veränderungen Kapitel 4 Wirkungen Kapitel 5 Formative Evaluation Kapitel 8 Prospektive Evaluation Kapitel 7 Effizienzanalyse Kapitel 6 Messfragen Kapitel 9 Designfragen Kapitel 10 Auswertungsfragen Kapitel 11 Methodik Teil I: „Was“ und „wozu“? Teil II: „Wann“ und „warum“? Teil III: „Wie“ und „womit“? Hauptfrage- stellungen Nebenfrage- stellungen Die statistische Auswertung von Daten, die im Rahmen von Evaluationsunter- suchungen gewonnen wurden, ist kein leichtes Geschäft. Das beginnt bereits auf deskriptiver Ebene. Ausreißer und Extremwerte. Wie soll bspw. mit Ausreißern oder extremen Werten in der Stichprobe umgegangen werden? Eine Möglichkeit der Ausreißerdiagnose stellen so genannte grafische Tests dar, bspw. das Box-Whisker-Diagramm. Ist das Merkmal annähernd normalverteilt, kann man Werte größer als z = +3 oder niedri- ger als z = 3 als Ausreißer klassifizieren. Verteilungsform. Eine zweite Frage betrifft die Verteilungsform der Rohdaten: Da- tenanalytische Verfahren, die davon ausgehen, dass das gemessene Merkmal in der Population normalverteilt ist, können zumindest bei kleinen Stichproben zu fehlerhaften Ergebnissen führen, wenn die Rohwerte stark von einer Normalvertei- lung abweichen. Mit dem Kolmogorov-Smirnov- oder dem Shapiro-Wilk-Test kann die Normalverteiltheit der Rohdaten inferenzstatistisch geprüft werden. Ist die Ver- teilung eingipflig, aber schief (bzw. steil), so helfen gegebenenfalls Transformatio- nen der Rohwerte, um eine Normalverteilung zu approximieren. Fehlende Werte. Eine dritte Frage betrifft den Umgang mit fehlenden Werten. Un- problematisch sind fehlende Werte nur dann, wenn die Stichprobe groß ist und die Missings unsystematisch über die Datenpunkte hinweg verteilt sind. Wie mit feh- lenden Personen bzw. mit fehlenden Datenpunkten auf einzelnen Variablen umzu- gehen ist, sollte im Einzelfall entschieden werden.

Auswertungsfragen: Deskriptiv und inferenzstatistische ... · 11 Auswertungsfragen: Deskriptiv-und inferenzstatistische Methoden Was ist Evaluation? Kapitel1 Aufgaben, Standards und

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Auswertungsfragen: Deskriptiv und inferenzstatistische ... · 11 Auswertungsfragen: Deskriptiv-und inferenzstatistische Methoden Was ist Evaluation? Kapitel1 Aufgaben, Standards und

Gollwitzer⋅

Jäger: Evaluation. Workbook. Weinheim: Beltz PVU, 2007 1

11 Auswertungsfragen: Deskriptiv-und inferenzstatistische Methoden

Was ist Evaluation?Kapitel 1

Aufgaben, Standards und ModelleKapitel 2

Fragestellungen

ZuständeKapitel 3

VeränderungenKapitel 4

WirkungenKapitel 5

FormativeEvaluationKapitel 8

ProspektiveEvaluationKapitel 7

EffizienzanalyseKapitel 6

MessfragenKapitel 9

DesignfragenKapitel 10

AuswertungsfragenKapitel 11

Methodik

Teil I: „Was“und „wozu“?

Teil II: „Wann“und „warum“?

Teil III: „Wie“und „womit“?

Hauptfrage-stellungen

Nebenfrage-stellungen

Die statistische Auswertung von Daten, die im Rahmen von Evaluationsunter-

suchungen gewonnen wurden, ist kein leichtes Geschäft. Das beginnt bereits auf

deskriptiver Ebene.

Ausreißer und Extremwerte. Wie soll bspw. mit Ausreißern oder extremen Werten

in der Stichprobe umgegangen werden? Eine Möglichkeit der Ausreißerdiagnose

stellen so genannte grafische Tests dar, bspw. das Box-Whisker-Diagramm. Ist das

Merkmal annähernd normalverteilt, kann man Werte größer als z = +3 oder niedri-

ger als z = –3 als Ausreißer klassifizieren.

Verteilungsform. Eine zweite Frage betrifft die Verteilungsform der Rohdaten: Da-

tenanalytische Verfahren, die davon ausgehen, dass das gemessene Merkmal in der

Population normalverteilt ist, können – zumindest bei kleinen Stichproben – zu

fehlerhaften Ergebnissen führen, wenn die Rohwerte stark von einer Normalvertei-

lung abweichen. Mit dem Kolmogorov-Smirnov- oder dem Shapiro-Wilk-Test kann

die Normalverteiltheit der Rohdaten inferenzstatistisch geprüft werden. Ist die Ver-

teilung eingipflig, aber schief (bzw. steil), so helfen gegebenenfalls Transformatio-

nen der Rohwerte, um eine Normalverteilung zu approximieren.

Fehlende Werte. Eine dritte Frage betrifft den Umgang mit fehlenden Werten. Un-

problematisch sind fehlende Werte nur dann, wenn die Stichprobe groß ist und die

Missings unsystematisch über die Datenpunkte hinweg verteilt sind. Wie mit feh-

lenden Personen bzw. mit fehlenden Datenpunkten auf einzelnen Variablen umzu-

gehen ist, sollte im Einzelfall entschieden werden.

Page 2: Auswertungsfragen: Deskriptiv und inferenzstatistische ... · 11 Auswertungsfragen: Deskriptiv-und inferenzstatistische Methoden Was ist Evaluation? Kapitel1 Aufgaben, Standards und

Gollwitzer⋅

Jäger: Evaluation. Workbook. Weinheim: Beltz PVU, 2007 2

Inferenzstatistische Verfahren. Bei der Behandlung inferenzstatistischer Verfahren

sind wir zunächst auf einige Grundbegriffe (statistischer Kennwert, statistisches

Hypothesenpaar, Irrtumswahrscheinlichkeiten) eingegangen. Die Wahl eines geeig-

neten inferenzstatistischen Verfahrens hängt

l von dem statistischen Kennwert,

l dem Skalenniveau des zu messenden Merkmals sowie

l der Fragestellung (Abweichung von einer Konstanten, Unterschied zwischen

Bedingungen/Gruppen, intraindividuelle Veränderung) ab.

Voraussetzungen. Parametrische Verfahren setzen voraus, dass

l das Merkmal in der Population normalverteilt ist, wobei die meisten Tests auch

bei Verletzung dieser Annahme zu robusten Ergebnissen führen,

l das Merkmal intervallskaliert ist, da ansonsten die Berechnung von Mittelwert

und Streuung nicht zulässig wäre,

l die Varianzen zwischen den Stichproben (Bedingungen, Gruppen usw.) homo-

gen sind, wobei auch eine Verletzung dieser Bedingung meist nicht gravierend ist,

und dass

l die Messwerte (bzw. etwaige Fehler und Residualeinflüsse) zwischen den geteste-

ten Untersuchungseinheiten voneinander unabhängig sind.

Insbesondere die letzte Voraussetzung ist zentral: Eine Verletzung dieser Bedingung

führt unweigerlich zu einer Erhöhung der statistischen Irrtumswahrscheinlichkeiten

um ein Vielfaches!

Im Falle messwiederholter Analysen ist eine weitere Voraussetzung, dass die Mat-

rix der Varianzen und Kovarianzen zwischen den Messzeitpunktpaaren zirkulär ist

(Sphärizitätsannahme). Ist diese Bedingung nicht erfüllt, können die Freiheitsgrade

des entsprechenden Tests mit einem Korrekturfaktor (z. B. dem Greenhouse-

Geisser-Epsilon) gewichtet werden.

Teststärke. Die Teststärke ist definiert als die Wahrscheinlichkeit, mit der ein sta-

tistischer Test (bei gegebenem α-Niveau und gegebener Stichprobengröße) signifi-

kant wird, wenn ein Effekt der spezifizierten Größe existiert. Die Teststärke kann

über

l eine Erhöhung des α-Fehlerniveaus,

l eine Erhöhung der Stichprobengröße (n) sowie

l Maßnahmen, die zur Steigerung der Reliabilität der Messung beitragen, erhöht

werden.

Fehlerkumulierung. Ein Problem bei der multiplen Testung der gleichen inhalt-

lichen Hypothese über mehrere Tests ist die Kumulierung der Fehlerwahrschein-

lichkeiten α und β (Fehlerkumulierung). Dieser kann mit

l Kontrastanalysen,

l multivariaten Analyseverfahren oder

l einer Reduzierung der Fehlerwahrscheinlichkeiten für die einzelnen Tests begeg-

net werden.

Auspartialisierung. Zur Erhöhung der internen Validität eines Designs, aber auch

zur Erhöhung der Reliabilität der AV, können Störvariablen auspartialisiert werden.

Störvariablen können dabei entweder vorab erfasste weitere Variablen sein (Kovari-

anzanalysen); bei messwiederholten Analysen kann auch der Prä-Test wie eine Stör-

Page 3: Auswertungsfragen: Deskriptiv und inferenzstatistische ... · 11 Auswertungsfragen: Deskriptiv-und inferenzstatistische Methoden Was ist Evaluation? Kapitel1 Aufgaben, Standards und

Gollwitzer⋅

Jäger: Evaluation. Workbook. Weinheim: Beltz PVU, 2007 3

variable behandelt und auspartialisiert werden. Dadurch wird die Messung um all

jene Effekte bereinigt, die mit Unterschieden im Prä-Test in Verbindung stehen.

Man spricht dann von einem Autoregressor-Modell. Werte späterer Messzeitpunk-

te, welche um ihre jeweiligen Prä-Testwerte bereinigt wurden, nennt man auto-

residualisierte Werte. Dabei handelt es sich jedoch nicht, wie bisweilen behauptet

wird, um Indikatoren der intraindividuellen Veränderung.