Diagnostik und Evaluation
Seminar Nr.: 3134 L 305 Raum FR 4061
Dozentin: Rebecca Lazarides Dozentin: Rebecca Lazarides Adresse: Franklinstraße 28/29 Tel.: 030/ 314-73656Raum FR 4060 Sprechzeiten: Di 10-12 Uhr (oder nach Vereinbarung)Mail: [email protected]
Pädagogische Psychologie SE Pädagogische Diagnostik und Evaluation Rebecca Lazarides
Thema 2: Methodenfragen pädagogischer Diagnostik
Ø Wie kann man Wissen und Können von Schülern angemessen untersuchen?
Ø Wie kann man dabei zu einem einigermaßen objektiven Urteil kommen?Urteil kommen?
Ø Woher nimmt man den Maßstab für Bestanden oder Durchgefallen?
Ø Welche Orientierungshilfe bietet ein Notenmittelwert?
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
Aspekte diagnostischen Handelns
Vergleich - dient der Beschreibung eines Verhaltens- zu Grunde liegen Informationen zu Art, Häufigkeit, Dauer, Intensität, Latenz oder Distanz des zu beurteilenden Verhaltens
- in der pädagogischen Diagnostik wird v.a. verglichen:à mit früherem Verhalten des gleichen Menschenà mit dem Verhalten anderer Menschenà mit Verhaltensbeschreibungen & Standards
- als Vergleichsmaßstäbe dienen in der pädagogischen Diagnostik individuelle, soziale und sachliche Bezugsnormen
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
Analyse - geht über die vergleichende Einordnung neuer Beobachtungen hinaus & fragt, warum ein Verhalten vom Standard abweicht
- betrachtet dabei nicht nur die Gesamtleistung, sondern vor allem auch Stärken und Schwächen der Leistung
Prognose - Lehrer ist im Bereich der Pädagogischen Diagnostik ständig gezwungen, auf Verhalten in anderen Situationen oder in der Zukunft zu extrapolieren
Bsp. Prognose: Ein Schüler hat im Förderunterricht die Multiplikation mit einstelligen Zahlen gelernt, der Lehrer muss nun anhand des beobachteten Verhaltens folgern, ob der Lernerfolg in der Klassensituation wiederholt werden kann, ob der Schüler auch sicher genug für die Multiplikation mit zweistelligen Ziffern ist.
Interpretation - gesammelte Informationen werden geordnet, kritisch beurteilt, gewichtet & zu einer wertenden Stellungnahme bzw. zu einem
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
gewichtet & zu einer wertenden Stellungnahme bzw. zu einem Gesamtbild zusammengefasst = Interpretation
Mitteilung & - Verhaltensbeurteilung wird anderen (Lernende, Wirkungskontrolle Erziehungsberechtigte) mitgeteilt-Wirkung der Mitteilung
sollte kontrolliert werden, um zu wissen, ob der gewünschte Erfolg erreicht wird
Zusammenfassend-Schritte des Diagnostizierens
1. Informationen sammeln2. Informationen in geeigneter Weise gewichten und kombinieren, so dass eine
möglichst objektive, zuverlässige & letztendlich gültige Prognose über das zukünftige Verhalten und Erleben der Person unter den zur Diskussion stehenden Entscheidungsoptionen möglich wird
3. Empfehlung
„Diagnostizieren ist ein Urteilsprozess, der unter Einsatz wissenschaftlicher Methoden erfolgen sollte, die gewährleisten, dass andere Personen beim Einsatz derselben Methoden zu denselben
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
andere Personen beim Einsatz derselben Methoden zu denselben Empfehlungen hinsichtlich der Auswahl der geeigneten pädagogischen Intervention kommen“ (Leutner 2001 in Rost)
Liegen für die Erhebung und Kombination diagnostischer Daten detaillierte und überprüfte Verfahrensregeln vor, die einem methodischen Rechenverfahren folgen, spricht man von statistischer Urteilsbildung
Ø Wozu nutzt das Wissen um sozialwissenschaftliche Methoden und standardisierte Forschungsinstrumente in der pädagogischen Diagnostik bzw. im Lehrerberuf?
- Aktuelle Forschungen (Spinath 2005) zur diagnostischen Kompetenz von Lehrern zeigen, dass allgemeine Lehrereinschätzungen von Schüllerleistungen unterschiedlich akkurat sind-> diagnostische Kompetenz von Lehrern ist eher gering, sofern Lehrer dafür nicht die geeigneten objektiven Messinstrumente nutzen (z.B. standardisierte Tests)
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
Tests)
- Geringe Akkuratheit von Lehrerurteilen rührt davon, dass Lehrer ohne direkte Aufforderung kaum von validen Verfahren zur Messung von Schülermerkmalen Gebrauch machen
à Notwendigkeit Lehrer bei der Auswahl und fachgerechten Anwendung geeigneter Testverfahren zu schulen
Grundfragen des Messens und
Skalierens in den
Sozialwissenschaften
ØWelche Messinstrumente werden im pädagogisch
diagnostizierenden Handeln unterschieden?
ØWie konstruiert man pädagogisch-diagnostische Messinstrumente?
ØWelche Qualitätskriterien sollten solche Messinstrumente
erfüllen?
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
„Messen ist die Bestimmung der Ausprägung einer Eigenschaft eines (Mess-) Objektes (Gegenstand, Ereignis, Person, Situation, Beurteilungssachverhalt) und erfolgt durch eine Zuordnung von Zahlen zu Messobjekten.“
Orth 1995
Ø Messwerte sind immer eine Vergröberung und Vereinfachung einer differenzierten Beobachtung, die eine Vergleichbarkeit von Beobachtungen erst ermöglicht
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
ermöglicht
Methoden des Messens: - Tests- Verhaltensbeobachtung- Gespräch und Interview
Pädagogische Tests
Ø diagnostische Informationen werden häufig über den Einsatz von Tests und Fragebögen erhoben
Ø dabei handelt es sich um eine besonders standardisierte Form der Informationsgewinnung, bei der der Proband Fragen oder Aufgaben schriftlich bearbeitet
Ø Standardisierung: Erhöhung der Objektivität eines Leistungstests & Minimierung der Fehleranfälligkeit beim Feststellen eines individuellen
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
Minimierung der Fehleranfälligkeit beim Feststellen eines individuellen Leistungsstandes
„Ein Test ist ein systematisches und routinemäßig einsetzbares Verfahren zur Messung definierter Ausschnitte menschlichen Verhaltens. Die Messung wird verwendet, um den Grad der Ausprägung einer sogenannten Eigenschaft, Fähigkeit oder Fertigkeit festzustellen oder/und um zukünftiges Verhalten vorherzusagen.“ (Hasselhorn & Gold 2006)
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
Ø Eine gute Übersicht standardisierter pädagogischer Tests findet man im „Brickenkamp Handbuch psychologischer und pädagogischer Tests“ (Brähler,Holling,Leutner & Petermann 2002) sowie in der Reihe „Tests und Trends der pädagogisch-psychologischen Diagnostik“
Was bedeutet Standardisierung ?
v bei Entwicklung & Anwendung der Tests werden spezielle Standards eingehalten, um die Gefahr eines Messfehlers möglichst gering zu halten
v minimale Voraussetzung, um von Standardisierung sprechen zu können, besteht in der formellen Festlegung der Art der Testdurchführung
v Festlegung von Bewertungsnormen, auf deren Basis die individuellen Leistungen eingeordnet werden können (Hasselhorn & Gold 2006)
Was sind Bezugs-/Bewertungsnormen
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
v Unter Bezugsnorm ( engl. reference norm) versteht man einen Standard, mit dem ein Resultat verglichen wird, wenn man es als Leistung wahrnehmen und bewerten will (Heckhausen 1974)
v Soziale Bezugsnorm, Individuelle bezugsnorm, kriteriale Bezugsnorm
Gütekriterien von Tests
Objektivität
- Durchführung, Auswertung & Interpretation sind unabhängig vom Testanwender
- unter Einsatz desselben Tests kommen andere Personen zu derselben Aussage
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
Aussage- Bsp.: alle Schüler haben bei ähnlichem Leistungsniveau ähnliche Testergebnisse, unabhängig von der Einstellung des Lehrers zu den einzelnen Schülern
- Durchführungsobjektivität, Auswertungsobjektivität, Interpretationsobjektivität
Reliabilität-Zuverlässigkeit
Validität-Gültigkeit
-Im Idealfall führt dasselbe Instrument zur - Test misst das, was er soll selben Zeit wiederholt angewendet auf -Testitems stellen eine Zufallsstich-
dieselbe Person zu identischen Aussagen probe von Fragen dar, die in ihrer- Messinstrumente sind messfehlerfrei Grundgesamtheit die zu-Messfehler sind z.B. Ungenauigkeiten messende Eigenschaft repräsentieren
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
-Messfehler sind z.B. Ungenauigkeiten messende Eigenschaft repräsentierendes Messinstrumentes (Kontentvalidität)(uneindeutige Formulierungen im Test) - Test korreliert hoch mit anderen
-Bsp.: der Schüler schreibt zweimal die selbe Instrumenten, die dieselbe Eigen-Mathematikklausur & kommt jedes Mal zum schaft messen (Kriteriumsvalidität)selben Punktestand & niedrig mit Instrumenten, die
-Test-Retest-Reliabilität; Paralleltest- andere Eigenschaften messenReliabilität; Split-Half-Reliabilität (diskriminante Validierung)
Wie konstruiert man einen „standardisierten“ pädagogischen Test?
1. Lehrzielanalyse:
Was soll durch den Test geprüft werden?
à Im schulischen Lernen: Prüfung von Kenntnis, Verständnis und Anwendung spezifischer Lehrinhalte
2. Generieren von Testitems:
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
Welche Aufgaben stellen eine repräsentative Auswahl des im Unterricht behandelten Inhalts dar?
Um Standardisierung im engeren Sinne zu gewährleisten:
LUKESCH 1998: 5 Schritte der Testkonstruktion
à VorerprobungIst der Test durchführbar? Sind die Aufgaben verständlich & eindeutig formuliert?
à Testdurchführung an einer kleinen StichprobeSind die Aufgaben angemessen?
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
Sind die Aufgaben angemessen?Ist der Schwierigkeitsgrad realistisch?
à Aufgaben- und TestanalyseWie streuen sich die Aufgabenschwierigkeiten?(-> empfehlenswert sind Tests, bei denen die Aufgabenschwierigkeit
zwischen 0,20 –jeder 5. kennt die richtige Lösung- und 0,8 -4 von 5 Personen kennen die richtige Lösung- liegt)
Wie gut stimmt die Lösung eines einzelnen Items mit dem Abschneiden eines Probanden im Gesamttest überein-> wie trennscharf ist eine einzelne Aufgabe? (Trennschärfe-Korrelationskoeffizient)
à Testvalidierung Misst der Test, was er messen soll? (Validität) =>Stimmt das Testergebnis mit der sonstigen Leistung des Schülers im getesteten Fach überein?
Bsp.: DEMAT 3+ ergab einen statistischen Zusammenhang von r= -0,61 zwischen Testleistung in Punkten und Mathematiknote = Schüler, die hohen Punktwert im Test erreichen (gut abschneiden), haben numerisch kleinere Noten in Mathematik
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
Test erreichen (gut abschneiden), haben numerisch kleinere Noten in Mathematik
à Testeichung/ NormierungWie ist die erreichte Einzelleistung in einer vergleichbaren Gruppe einzuordnen?
-Testdurchführung an großer & repräsentativer Stichprobe, um Vergleichs-maßstab zu generieren, der Grundlage für spätere Bewertung von Einzel-leistungen bildet (Bsp.: IQ-Normierung: mittlere Leistung = Punktwert 100)
Und wie konstruiere ich als Lehrer ein formelles Testverfahren?
1. Definition des Curriculums- Curriculum ist ein Entwurf, das Aussagen über die
angestrebten Ziele, Inhalte sowie über die Lernbedingungen,Medien, Methoden & Evaluationsverfahren macht
- Evaluationsverfahren beziehen sich dabei auf die Verfahren,mit deren Hilfe Lehr-Lern-Prozesse überprüft werden
- Curricula sind zumeist von Ministerien vorgegeben
2. Operationalisierung
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
2. Operationalisierung- Wie kann eine Erfassung der Lehr-Lern-Ziele erreicht werden?- Ausdruck-> mdl. Ausdruck; schriftl. Ausdruck; Zeichnung; Mimik; Gestik-Spiel, Gespräch, Fragebogen, Test, Beobachtung…- Soll ein Testverfahren für den gesamten Inhalt des Curriculums entwickelt
werden oder sollen für Teilaspekte spezifische Verfahren entwickelt werden?à Global- vs. Skalenebene- Bsp.: ermittelt man mit nur einem Verfahren die Ausprägung eines Merkmals
(Rechtschreibfähigkeit) & nicht mit einzelnen Skalen, kann man keine Rückschlüsse auf Stärken & Schwächen des Schülers ziehen
3. Ableitung einer geeigneten Aufgabenform
Welches ist die geeigneteste Form der Überprüfung?-> Möglichkeiten: Lückentest, Multiple-Choice-Test, Ergänzungsaufgaben …
4. Ableitung von Items
Welche Regeln & Konstruktionsschritte werden angewendet, um aus allgemeinen Überlegungen heraus, Items abzuleiten?
à Operationale Definition: bezieht sich auf den Vorgang, dass eine Sache
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
à Operationale Definition: bezieht sich auf den Vorgang, dass eine Sache dadurch definiert werden kann, dass eine Prozedur angegeben wird, mit deren Hilfe die Sache erfasst werden kann (Jäger 2000)
- Bsp.: mit Hilfe eines Intelligenztests wird Intelligenz operationalisiert
à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen - Finden übergeordneter Kategorien zur Grobklassifizierung der Lehrinhalte - aus Grobkategorien kann abgeleitet werden, wie ein Item konstruiert sein muss, dass Lehrinhalte erfasst
Bsp.: Rechtschreibfähigkeit-Konjugation von Verben
Wissen à Konjugieren Verben (Wortschatz)Verstehen
Grammatikalische Regeln
Ø Item: Suche für den folgenden Lückentext passende Verben und setze die richtig konjugierte Form ein. Erkläre zuletzt in 3 Sätzen den Unterschied zwischen regelmäßigen & unregelmäßigen Verben!
à Generative Regeln: Explizite Regeln, aus denen einzelne Aufgaben (Items) unter
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
à Generative Regeln: Explizite Regeln, aus denen einzelne Aufgaben (Items) unter Hinzuziehen des Lehrinhaltes abgeleitet werden.
Bsp.: Lehrziel: Subtrahieren & Addieren im Zahlenraum von 1 bis 10
- d.h. alle Operationen der Art + und - sind möglich, sofern die Rechengrößen den Zahlenraum von 1 überschreiten und den von 10 unterschreiten
Ø Item: 3 + 7 = ? Oder ? – 3 = 7
5. Empirische Überprüfung an Analysestichprobe
6. Itemrevision (wenn Items zu schwer)
7. Erhebung von Vergleichsdaten (Wie viele Schüler haben eine vergleichbare Leistung erreicht?)
8. Gewinnung von Daten zur Objektivität, Reliabilität & Validität
Bsp.: Inhalts-Validität: Wenn z.B. bei Schüler und Schülerinnen der 7. Klassenstufe mit Hilfe eines Geometrietests die Fähigkeit erfasst
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
Klassenstufe mit Hilfe eines Geometrietests die Fähigkeit erfasst werden soll, Spiegelungen zu erfassen, muss gefragt werden, ob Spiegelungen Teil des Curriculums dieser Klassenstufe sind.
Verschiedene Arten pädagogischer Tests werden unterschieden nach
• zu erfassender Eigenschaft …
à Leistungs- & Fähigkeitstests : Erfassung von Lernvoraussetzungen und Lernergebnissen, z.B. Konzentration
à Persönlichkeits- & Einstellungsfragebogen :Erfassung nicht leistungs- bzw. fähigkeitsbezogener Eigenschaften, z.B.
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
Erfassung nicht leistungs- bzw. fähigkeitsbezogener Eigenschaften, z.B. Interesse an einzelnen Fächern
• Ausmaß der Standardisierung…
à Formelle Tests - basieren auf spezifischer Testtheorie- hohes Maß an Standardisierung bei Testdurchführung, Testauswertung &
Interpretation - an umfangreichen Stichproben geeicht (normiert), um Vergleichbarkeit der
Position eines Individuums zu sichern
à Informelle Tests - für aktuelle Testzwecke zusammengestellte Instrumente
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
- für aktuelle Testzwecke zusammengestellte Instrumente- nicht geeicht, können aber dennoch auf einer Testtheorie basieren - Sonderform: Lernzielorientierte Tests (Klauer 1987)
• Bezug beim Vergleich von Testergebnissen…
àààà Normorientierte Tests - verwenden eine soziale Bezugsnorm- dienen dem Vergleich einer getesteten Person mit einer Gruppe vergleichbarer
Personen- z.B. klassische Intelligenztests
Vorteile: - mit Hilfe der sozialen Bezugsnorm lassen sich zeitlich stabile Leistungsunterschiede von Lernenden identifizieren, die als Hinweise für überdauernde Kompetenzunterschiede gelten
- ist sinnvoll, wenn es darum geht, den/die dauerhaft Beste(n) oder Schlechte(n) in einer Klasse zu ermitteln
Nachteile: - soziale Bezugsnormorientierung bezieht sich auf enges Bezugssystem
- dies kann zur Folge haben, dass Kinder mit „objektiv gleichen“ Leistungen je nach der Leistungsstärke ihrer
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
gleichen“ Leistungen je nach der Leistungsstärke ihrer Bezugsgruppe einmal als gut und ein anderes Mal als schwach eingestuft werden
- kann zu Stagnationen bzw. Rückentwicklungen der gesamten Klasse im Hinblick auf objektive Zielvorgaben führen
- verdeckt interindividuelle Unterschiede Einzelner in Bezug auf ihren Lernfortschritt -> werden erst dann als „besser“ wahrgenommen, wenn sie andere „überholen“
à Kriteriumsorientierte Tests -verwenden kriteriale Bezugsnorm- dienen dem Vergleich einer getesteten Person mit einem zuvor & unabhängig
von anderen Personen festgelegten Kriterium- zu testende Personen sollen möglichst gut in der Umgebung des Kriteriums
(z.B. Lernziel) voneinander unterscheidbar sein
à Lerntests- verwenden individuelle Bezugsnorm- dienen dem Vergleich einer getesteten Person mit einem Testergebnis
derselben Person zu einem früheren Zeitpunkt- bergen die Gefahr, dass stabile Leistungsunterschiede zwischen Schülern
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
- bergen die Gefahr, dass stabile Leistungsunterschiede zwischen Schülern ausgeblendet werden
• Art der zugrunde liegenden Testtheorie…
à Klassisch konstruierte Tests -basieren auf klassischer Testtheorie-> Antwort des Probanden spiegelt wahren Wert (tatsächliche Ausprägung der zu erfassenden Eigenschaft) & Messfehler wider-Ziel der Testkonstruktion ist hohe Trennschärfe/Reduzierung des Messfehlers
à Probalistisch konstruierte Tests
-basieren auf Testmodell der probalistischen Testtheorie (Bsp.: Rasch Modell)
- Wahrscheinlichkeit einer richtigen Itemlösung ergibt sich aus Funktion zweier Modellparameter Personenfähigkeit & Itemschwierigkeit
- p~ 0,5 wenn Fähigkeit = Schwierigkeit; - p~ 0 wenn Fähigkeit < Schwierigkeit; - p~1 wenn Fähigkeit > Schwierigkeit
- wenn Modell gilt, dann hat der Test die Eigenschaft der sog. Spezifischen Objektivität = geschätzte Fähigkeitswerte sind unabhängig von den
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
Spezifischen Objektivität = geschätzte Fähigkeitswerte sind unabhängig von den Schwierigkeitswerten der verwendeten Items -> den Personen können dann Items vorgelegt werden, die möglichst gut auf ihre individuell unterschiedlichen Fähigkeiten abgestimmt sind =adaptiver Test
- VORTEIL: Adaptive Tests benötigen um eine vorher festgelegte Messgenauigkeit zu erreichen weniger Items als ein Test auf Basis der klassischen Testtheorie
Wie interpretiere ich erhaltene Testwerte?
Grundbegriffe:
à Rohwert = Anzahl richtig gelöster Aufgaben im Test
à Normwert- Rohwerte allein geben das Leistungsvermögen einer Person nicht
wirklich wider- Normwerte stehen bei standardisierten Tests durch die Eichung des
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
- Normwerte stehen bei standardisierten Tests durch die Eichung des Tests zur Verfügung: auf Grund der mittleren Leistung & der Verteilung einer Eichstichprobe lässt sich jedem Rohwert ein Normwert zuordnen
à Bestimmung der Position einer getesteten Person im Hinblick auf den Maßstab der Eichstichprobe wird möglich
à Normwerte = T-Werte, Z-Werte und IQ-Wertediesen Testnormwerten liegt die Annahme einer Normalverteilung zugrunde
à Prozentrangnormen:
- um zu Prozentrangnormen zu gelangen, fasst man die Rohwerte zu Rohwertklassen zusammen, die jeweils gleiche Prozentanteile in der Gesamtverteilung der Rohwerte ausmachen
- Jedem Rohwert im Test ist dann ein bestimmter Prozentrang zuordenbar
- der Prozentrang gibt an, wie viel Prozent der Eichstichprobe genau so viele oder noch weniger Testitems richtig gelöst haben
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
viele oder noch weniger Testitems richtig gelöst haben- Bsp.: PR=60 à 60 % der Personen der Eichstichprobe haben genau
so viele oder weniger Testitems richtig gelöst- Normalverteilungsannahme fehlt, Prozentrangnormierung ist aber
beliebt in der diagnostischen Praxis, da sie eine rasche Bestimmung der relativen Position einer getesteten Person zulassen (gehört sie zu den Besten oder Schlechtesten ?)
Beispielaufgabe:
Ø Wenn von 300 Schülern die Ergebnisse eines Rechentests mit 80 Aufgaben vorliegen, dann kann man auf einer Skala von 0-80 eintragen, wie oft jeder Rohwertpunkt von wie vielen Schülern erreicht wurde.
Rohwert Häufigkeitdieses Rohwertes
KumulierteHäufigkeitRohwert
Cum f% PR
80 … …
… … …
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
… … …
… … …
5 25 98
4 18 73 24,3 24
3 19 55 18,3 18
2 15 36 12,0 12
1 12 21 7,0 7
0 9 9 3,0 3
Dabei gilt:
Cum f%= 100 * cum fN
à Ergebnisse: - Rohwert 3 (3 Aufgaben richtig) kann Prozentrangplatz 18 zugeordnet werdenà die Rechenleistung eines Schülers mit 3 Rohwertpunkten
entspricht der von 18% aller Schüler der Stichprobeoder à 18% der anderen Schüler haben gleich gut oder schlechter
abgeschnitten
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
abgeschnitten
- Für algebraische Operationen müssen die Prozentränge in T-Werte umgerechnet werden
- dafür liegen in den meisten Statistikbüchern Tabellen vor- sorgfältig entwickelte Schultests beziehen mittlerweile auch Messfehler
in die Normenskala mit einà „Prozentrangband“ oder „T-Wert Band“
Bsp.: Ausschnitt aus der Normentabelle des Allgemeinen Schulleistungstestsfür 2. Klassen (AST 2+)
Rohwert Prozentrangband Mittlerer T-Wert T-Wert-Band Rohwert
50-52 31-49 47 45-50 50-52
53-55 35-54 49 46-51 53-55
56-58 41-59 50 48-52 56-58
59-61 47-65 51 49-54 59-61
62-64 52-69 53 51-55 62-64
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
62-64 52-69 53 51-55 62-64
65-67 57-75 54 52-57 65-67
68-70 63-80 56 53-58 68-70
71-73 68-85 57 55-60 71-73
74-76 73-89 59 56-63 74-76
à Ein Lehrer kann daran sehen, dass ein Schüler bzw. eine Schülerin mit einem Testrohwert von 75 Punkten im Prozentrangband 73-89 liegt. Das heißt, die Testleistung ist mindestens gleich gut oder besser als die von 73% der Gruppe der Zweitklässler und höchstens gleich gut oder schlechter als die von 89%.
à In diesem Bereich liegt der „wahre Wert“ des Schülers
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
Wie komme ich von validierten Testwerten zu Noten?
1. Es liegen Daten vor: Haufigkeitsverteilung
Bsp. Testergebnisse eines standardisierten Mathematiktests
810121416
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
02468
Ordinate (senkrecht): absolute HäufigkeitenAbszisse (waagerecht): alle möglichen Ausprägungen der Testwerte
2. Es ist bekannt, wie diese Daten zustande gekommen sind & wie sie hinsichtlich ihrer Gütekriterien zu beurteilen sind.
3. Die Verteilung der Daten ist bekannt.- Wie viele Personen von einer Anzahl N haben insgesamt einen bestimmten
Punktwert erreicht?
4. Es wird eine Normorientierung gewählt
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
- soziale Bezugsnorm, individuelle Bezugsnorm, kriteriale Bezugsnorm …- dabei geht man von einer Normalverteilung aus
(Glockenkurve- Gaussche Normalverteilung)- bei schulischen Leistungstests geht man zumeist von
Prozentrangnormierungen aus
5. Die bestehenden Daten werden bestimmten Voraussetzungen angepasst
- wenn Verteilung der Daten nicht einer Normalverteilung entspricht, wird eine Anpassung der Daten vorgenommen
- d.h. Rohwerte werden in Normwerte umgerechnet
Übergang zwischen Prozentwerten und Noten in einer Normalverteilung:
Prozentwert 100- 97,72- 84,11- 49,99- 15,86-0,12 < 0,12
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
à Mit diesem Vorgehen wird eine Transformation der ursprünglichen Daten (Punkte, Rohwerte), welche nicht normalverteilt sind, in eine Normalverteilung erreicht.
Prozentwert 100-
97,73
97,72-
84,11
84,11-
50,00
49,99-
15,87
15,86-0,12 < 0,12
Note 1 2 3 4 5 6
Verhaltensbeobachtungen
„Beobachtung ist das grundlegende Verfahren der empirisch forschenden Sozialwissenschaften und der Erziehungswissenschaften.“ (Roth 2001)
- umfasst jegliche Form der Beobachtung einer Person in realen und simulierten Situationen (Bsp. Reale Situation- Unterricht; Bsp. Simulierte Situation-Rollenspiel)
Bsp.: Ein Lehrer geht über den Schulhof. Er schaut eher zu, als das er beobachtet.
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
Bsp.: Ein Lehrer geht über den Schulhof. Er schaut eher zu, als das er beobachtet. Das heißt, würde man ihn nach seinem Spaziergang nach Häufigkeit & Schwere aggressiver Handlungen, Gesprächskontakten zwischen Mädchen & Jungen der 5. & 6. Klassenstufe o.Ä. fragen, wäre er überfragt.
à Die Qualität einer Verhaltensbeobachtung ist abhängig vom Kategoriensystem zur Protokollierung des beobachteten Verhaltens & vom Training des Beobachters, damit grundlegende Beobachtungsfehler vermieden werden können
Naive Beobachtung ß à systematische/wissenschaftliche Beobachtung
à Die Lehrkraft sollte in Beobachtungsbögen, Gutachten usw. nicht nur zum Verhalten des Schülers Stellung nehmen, sondern auch Rückschlüsse auf Charaktermerkmale ziehen & Prognosen über die künftige Entwicklung stellen
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
à Dabei hat sie folgende Möglichkeiten der wissenschaftlichen Beobachtung:
• unsystematische & systematische Beobachtung• nicht-teilnehmende & teilnehmende Beobachtung• Beobachtung von Ereignis- & Zeitstichproben• Beobachtung nach Art der Ergebnisfixierung
Gefahr von Beobachtungsfehlern
- Beobachtungsfehler = Fehler, die mit begrenztem Vermögen bzw. fehlendem Willen des Beobachters zu tun haben (geringe Sorgfalt, Langeweile, Müdigkeit, Unvertrautheit mit der Situation der Leistungsbeurteilung)
-Nicht alle für das Urteil relevanten Verhaltensweisen werden wahrgenommen
Gefahr von Beurteilungsfehlern
Typische Beurteilungsfehler (Hasselhorn & Gold 2006):
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
Ø Mildeeffekt: Voreingenommenheit führt zu positiverer Beurteilung einer Person
Ø Großzügigkeitsfehler: Alle Personen werden günstiger beurteilt als angemessen-Bezug zur sachlichen Norm (kriteriale Norm) ist verlorengegangen
Ø Halo- oder Hofeffekte: Urteil wird von einer markanten Eigenschaft der zu beurteilenden Person (Aussehen, Mundart) beeinflusst. Verzerrung des Urteils kann sich zu Gunsten als auch zu Ungunsten der zu beurteilenden Person auswirken.
Ø Logischer Fehler:Fälschliche Annahme über Zusammenhang zweier Merkmale beeinflusst das Urteil à Lehrer glaubt, dass viele Rechtschreibfehler die Folge geringer Intelligenz seien & kommt daher gar nicht erst auf die Idee, dass eine Lese-Rechtschreib-Störung vorliegt
Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009
eine Lese-Rechtschreib-Störung vorliegt
Ø Tendenz zur Mitte:Manche Urteiler meiden extreme Urteile, was zur Folge hat, dass sie nur mittlere Bewertungen (z.B. nur Zensuren zwischen 2 und 4) abgeben.
Ø Tendenz zu extremen UrteilenAndere überhöhen gern in ihrer Bewertung Unterschiede zwischen Personen. Sie sind von einer Leistung entweder begeistert oder enttäuscht. Die Folge ist eine Tendenz zu extremen Urteilen & die Vermeidung mittlerer Bewertungen.