Download pdf - Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

Diagnostik und Evaluation

Seminar Nr.: 3134 L 305 Raum FR 4061

Dozentin: Rebecca Lazarides Dozentin: Rebecca Lazarides Adresse: Franklinstraße 28/29 Tel.: 030/ 314-73656Raum FR 4060 Sprechzeiten: Di 10-12 Uhr (oder nach Vereinbarung)Mail: [email protected]

Pädagogische Psychologie SE Pädagogische Diagnostik und Evaluation Rebecca Lazarides

Thema 2: Methodenfragen pädagogischer Diagnostik

Ø Wie kann man Wissen und Können von Schülern angemessen untersuchen?

Ø Wie kann man dabei zu einem einigermaßen objektiven Urteil kommen?Urteil kommen?

Ø Woher nimmt man den Maßstab für Bestanden oder Durchgefallen?

Ø Welche Orientierungshilfe bietet ein Notenmittelwert?

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

Aspekte diagnostischen Handelns

Vergleich - dient der Beschreibung eines Verhaltens- zu Grunde liegen Informationen zu Art, Häufigkeit, Dauer, Intensität, Latenz oder Distanz des zu beurteilenden Verhaltens

- in der pädagogischen Diagnostik wird v.a. verglichen:à mit früherem Verhalten des gleichen Menschenà mit dem Verhalten anderer Menschenà mit Verhaltensbeschreibungen & Standards

- als Vergleichsmaßstäbe dienen in der pädagogischen Diagnostik individuelle, soziale und sachliche Bezugsnormen


Analyse - geht über die vergleichende Einordnung neuer Beobachtungen hinaus & fragt, warum ein Verhalten vom Standard abweicht

- betrachtet dabei nicht nur die Gesamtleistung, sondern vor allem auch Stärken und Schwächen der Leistung

Prognose - Lehrer ist im Bereich der Pädagogischen Diagnostik ständig gezwungen, auf Verhalten in anderen Situationen oder in der Zukunft zu extrapolieren

Bsp. Prognose: Ein Schüler hat im Förderunterricht die Multiplikation mit einstelligen Zahlen gelernt, der Lehrer muss nun anhand des beobachteten Verhaltens folgern, ob der Lernerfolg in der Klassensituation wiederholt werden kann, ob der Schüler auch sicher genug für die Multiplikation mit zweistelligen Ziffern ist.

Interpretation - gesammelte Informationen werden geordnet, kritisch beurteilt, gewichtet & zu einer wertenden Stellungnahme bzw. zu einem


gewichtet & zu einer wertenden Stellungnahme bzw. zu einem Gesamtbild zusammengefasst = Interpretation

Mitteilung & - Verhaltensbeurteilung wird anderen (Lernende, Wirkungskontrolle Erziehungsberechtigte) mitgeteilt-Wirkung der Mitteilung

sollte kontrolliert werden, um zu wissen, ob der gewünschte Erfolg erreicht wird

Zusammenfassend-Schritte des Diagnostizierens

1. Informationen sammeln2. Informationen in geeigneter Weise gewichten und kombinieren, so dass eine

möglichst objektive, zuverlässige & letztendlich gültige Prognose über das zukünftige Verhalten und Erleben der Person unter den zur Diskussion stehenden Entscheidungsoptionen möglich wird

3. Empfehlung

„Diagnostizieren ist ein Urteilsprozess, der unter Einsatz wissenschaftlicher Methoden erfolgen sollte, die gewährleisten, dass andere Personen beim Einsatz derselben Methoden zu denselben


andere Personen beim Einsatz derselben Methoden zu denselben Empfehlungen hinsichtlich der Auswahl der geeigneten pädagogischen Intervention kommen“ (Leutner 2001 in Rost)

Liegen für die Erhebung und Kombination diagnostischer Daten detaillierte und überprüfte Verfahrensregeln vor, die einem methodischen Rechenverfahren folgen, spricht man von statistischer Urteilsbildung

Ø Wozu nutzt das Wissen um sozialwissenschaftliche Methoden und standardisierte Forschungsinstrumente in der pädagogischen Diagnostik bzw. im Lehrerberuf?

- Aktuelle Forschungen (Spinath 2005) zur diagnostischen Kompetenz von Lehrern zeigen, dass allgemeine Lehrereinschätzungen von Schüllerleistungen unterschiedlich akkurat sind-> diagnostische Kompetenz von Lehrern ist eher gering, sofern Lehrer dafür nicht die geeigneten objektiven Messinstrumente nutzen (z.B. standardisierte Tests)


Tests)

- Geringe Akkuratheit von Lehrerurteilen rührt davon, dass Lehrer ohne direkte Aufforderung kaum von validen Verfahren zur Messung von Schülermerkmalen Gebrauch machen

à Notwendigkeit Lehrer bei der Auswahl und fachgerechten Anwendung geeigneter Testverfahren zu schulen

Grundfragen des Messens und

Skalierens in den

Sozialwissenschaften

ØWelche Messinstrumente werden im pädagogisch

diagnostizierenden Handeln unterschieden?

ØWie konstruiert man pädagogisch-diagnostische Messinstrumente?

ØWelche Qualitätskriterien sollten solche Messinstrumente

erfüllen?


„Messen ist die Bestimmung der Ausprägung einer Eigenschaft eines (Mess-) Objektes (Gegenstand, Ereignis, Person, Situation, Beurteilungssachverhalt) und erfolgt durch eine Zuordnung von Zahlen zu Messobjekten.“

Orth 1995

Ø Messwerte sind immer eine Vergröberung und Vereinfachung einer differenzierten Beobachtung, die eine Vergleichbarkeit von Beobachtungen erst ermöglicht


ermöglicht

Methoden des Messens: - Tests- Verhaltensbeobachtung- Gespräch und Interview

Pädagogische Tests

Ø diagnostische Informationen werden häufig über den Einsatz von Tests und Fragebögen erhoben

Ø dabei handelt es sich um eine besonders standardisierte Form der Informationsgewinnung, bei der der Proband Fragen oder Aufgaben schriftlich bearbeitet

Ø Standardisierung: Erhöhung der Objektivität eines Leistungstests & Minimierung der Fehleranfälligkeit beim Feststellen eines individuellen


Minimierung der Fehleranfälligkeit beim Feststellen eines individuellen Leistungsstandes

„Ein Test ist ein systematisches und routinemäßig einsetzbares Verfahren zur Messung definierter Ausschnitte menschlichen Verhaltens. Die Messung wird verwendet, um den Grad der Ausprägung einer sogenannten Eigenschaft, Fähigkeit oder Fertigkeit festzustellen oder/und um zukünftiges Verhalten vorherzusagen.“ (Hasselhorn & Gold 2006)


Ø Eine gute Übersicht standardisierter pädagogischer Tests findet man im „Brickenkamp Handbuch psychologischer und pädagogischer Tests“ (Brähler,Holling,Leutner & Petermann 2002) sowie in der Reihe „Tests und Trends der pädagogisch-psychologischen Diagnostik“

Was bedeutet Standardisierung ?

v bei Entwicklung & Anwendung der Tests werden spezielle Standards eingehalten, um die Gefahr eines Messfehlers möglichst gering zu halten

v minimale Voraussetzung, um von Standardisierung sprechen zu können, besteht in der formellen Festlegung der Art der Testdurchführung

v Festlegung von Bewertungsnormen, auf deren Basis die individuellen Leistungen eingeordnet werden können (Hasselhorn & Gold 2006)

Was sind Bezugs-/Bewertungsnormen


v Unter Bezugsnorm ( engl. reference norm) versteht man einen Standard, mit dem ein Resultat verglichen wird, wenn man es als Leistung wahrnehmen und bewerten will (Heckhausen 1974)

v Soziale Bezugsnorm, Individuelle bezugsnorm, kriteriale Bezugsnorm

Gütekriterien von Tests

Objektivität

- Durchführung, Auswertung & Interpretation sind unabhängig vom Testanwender

- unter Einsatz desselben Tests kommen andere Personen zu derselben Aussage


Aussage- Bsp.: alle Schüler haben bei ähnlichem Leistungsniveau ähnliche Testergebnisse, unabhängig von der Einstellung des Lehrers zu den einzelnen Schülern

- Durchführungsobjektivität, Auswertungsobjektivität, Interpretationsobjektivität

Reliabilität-Zuverlässigkeit

Validität-Gültigkeit

-Im Idealfall führt dasselbe Instrument zur - Test misst das, was er soll selben Zeit wiederholt angewendet auf -Testitems stellen eine Zufallsstich-

dieselbe Person zu identischen Aussagen probe von Fragen dar, die in ihrer- Messinstrumente sind messfehlerfrei Grundgesamtheit die zu-Messfehler sind z.B. Ungenauigkeiten messende Eigenschaft repräsentieren


-Messfehler sind z.B. Ungenauigkeiten messende Eigenschaft repräsentierendes Messinstrumentes (Kontentvalidität)(uneindeutige Formulierungen im Test) - Test korreliert hoch mit anderen

-Bsp.: der Schüler schreibt zweimal die selbe Instrumenten, die dieselbe Eigen-Mathematikklausur & kommt jedes Mal zum schaft messen (Kriteriumsvalidität)selben Punktestand & niedrig mit Instrumenten, die

-Test-Retest-Reliabilität; Paralleltest- andere Eigenschaften messenReliabilität; Split-Half-Reliabilität (diskriminante Validierung)

Wie konstruiert man einen „standardisierten“ pädagogischen Test?

1. Lehrzielanalyse:

Was soll durch den Test geprüft werden?

à Im schulischen Lernen: Prüfung von Kenntnis, Verständnis und Anwendung spezifischer Lehrinhalte

2. Generieren von Testitems:


Welche Aufgaben stellen eine repräsentative Auswahl des im Unterricht behandelten Inhalts dar?

Um Standardisierung im engeren Sinne zu gewährleisten:

LUKESCH 1998: 5 Schritte der Testkonstruktion

à VorerprobungIst der Test durchführbar? Sind die Aufgaben verständlich & eindeutig formuliert?

à Testdurchführung an einer kleinen StichprobeSind die Aufgaben angemessen?


Sind die Aufgaben angemessen?Ist der Schwierigkeitsgrad realistisch?

à Aufgaben- und TestanalyseWie streuen sich die Aufgabenschwierigkeiten?(-> empfehlenswert sind Tests, bei denen die Aufgabenschwierigkeit

zwischen 0,20 –jeder 5. kennt die richtige Lösung- und 0,8 -4 von 5 Personen kennen die richtige Lösung- liegt)

Wie gut stimmt die Lösung eines einzelnen Items mit dem Abschneiden eines Probanden im Gesamttest überein-> wie trennscharf ist eine einzelne Aufgabe? (Trennschärfe-Korrelationskoeffizient)

à Testvalidierung Misst der Test, was er messen soll? (Validität) =>Stimmt das Testergebnis mit der sonstigen Leistung des Schülers im getesteten Fach überein?

Bsp.: DEMAT 3+ ergab einen statistischen Zusammenhang von r= -0,61 zwischen Testleistung in Punkten und Mathematiknote = Schüler, die hohen Punktwert im Test erreichen (gut abschneiden), haben numerisch kleinere Noten in Mathematik


Test erreichen (gut abschneiden), haben numerisch kleinere Noten in Mathematik

à Testeichung/ NormierungWie ist die erreichte Einzelleistung in einer vergleichbaren Gruppe einzuordnen?

-Testdurchführung an großer & repräsentativer Stichprobe, um Vergleichs-maßstab zu generieren, der Grundlage für spätere Bewertung von Einzel-leistungen bildet (Bsp.: IQ-Normierung: mittlere Leistung = Punktwert 100)

Und wie konstruiere ich als Lehrer ein formelles Testverfahren?

1. Definition des Curriculums- Curriculum ist ein Entwurf, das Aussagen über die

angestrebten Ziele, Inhalte sowie über die Lernbedingungen,Medien, Methoden & Evaluationsverfahren macht

- Evaluationsverfahren beziehen sich dabei auf die Verfahren,mit deren Hilfe Lehr-Lern-Prozesse überprüft werden

- Curricula sind zumeist von Ministerien vorgegeben

2. Operationalisierung


2. Operationalisierung- Wie kann eine Erfassung der Lehr-Lern-Ziele erreicht werden?- Ausdruck-> mdl. Ausdruck; schriftl. Ausdruck; Zeichnung; Mimik; Gestik-Spiel, Gespräch, Fragebogen, Test, Beobachtung…- Soll ein Testverfahren für den gesamten Inhalt des Curriculums entwickelt

werden oder sollen für Teilaspekte spezifische Verfahren entwickelt werden?à Global- vs. Skalenebene- Bsp.: ermittelt man mit nur einem Verfahren die Ausprägung eines Merkmals

(Rechtschreibfähigkeit) & nicht mit einzelnen Skalen, kann man keine Rückschlüsse auf Stärken & Schwächen des Schülers ziehen

3. Ableitung einer geeigneten Aufgabenform

Welches ist die geeigneteste Form der Überprüfung?-> Möglichkeiten: Lückentest, Multiple-Choice-Test, Ergänzungsaufgaben …

4. Ableitung von Items

Welche Regeln & Konstruktionsschritte werden angewendet, um aus allgemeinen Überlegungen heraus, Items abzuleiten?

à Operationale Definition: bezieht sich auf den Vorgang, dass eine Sache


à Operationale Definition: bezieht sich auf den Vorgang, dass eine Sache dadurch definiert werden kann, dass eine Prozedur angegeben wird, mit deren Hilfe die Sache erfasst werden kann (Jäger 2000)

- Bsp.: mit Hilfe eines Intelligenztests wird Intelligenz operationalisiert

à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen - Finden übergeordneter Kategorien zur Grobklassifizierung der Lehrinhalte - aus Grobkategorien kann abgeleitet werden, wie ein Item konstruiert sein muss, dass Lehrinhalte erfasst

Bsp.: Rechtschreibfähigkeit-Konjugation von Verben

Wissen à Konjugieren Verben (Wortschatz)Verstehen

Grammatikalische Regeln

Ø Item: Suche für den folgenden Lückentext passende Verben und setze die richtig konjugierte Form ein. Erkläre zuletzt in 3 Sätzen den Unterschied zwischen regelmäßigen & unregelmäßigen Verben!

à Generative Regeln: Explizite Regeln, aus denen einzelne Aufgaben (Items) unter


à Generative Regeln: Explizite Regeln, aus denen einzelne Aufgaben (Items) unter Hinzuziehen des Lehrinhaltes abgeleitet werden.

Bsp.: Lehrziel: Subtrahieren & Addieren im Zahlenraum von 1 bis 10

- d.h. alle Operationen der Art + und - sind möglich, sofern die Rechengrößen den Zahlenraum von 1 überschreiten und den von 10 unterschreiten

Ø Item: 3 + 7 = ? Oder ? – 3 = 7

5. Empirische Überprüfung an Analysestichprobe

6. Itemrevision (wenn Items zu schwer)

7. Erhebung von Vergleichsdaten (Wie viele Schüler haben eine vergleichbare Leistung erreicht?)

8. Gewinnung von Daten zur Objektivität, Reliabilität & Validität

Bsp.: Inhalts-Validität: Wenn z.B. bei Schüler und Schülerinnen der 7. Klassenstufe mit Hilfe eines Geometrietests die Fähigkeit erfasst


Klassenstufe mit Hilfe eines Geometrietests die Fähigkeit erfasst werden soll, Spiegelungen zu erfassen, muss gefragt werden, ob Spiegelungen Teil des Curriculums dieser Klassenstufe sind.

Verschiedene Arten pädagogischer Tests werden unterschieden nach

• zu erfassender Eigenschaft …

à Leistungs- & Fähigkeitstests : Erfassung von Lernvoraussetzungen und Lernergebnissen, z.B. Konzentration

à Persönlichkeits- & Einstellungsfragebogen :Erfassung nicht leistungs- bzw. fähigkeitsbezogener Eigenschaften, z.B.


Erfassung nicht leistungs- bzw. fähigkeitsbezogener Eigenschaften, z.B. Interesse an einzelnen Fächern

• Ausmaß der Standardisierung…

à Formelle Tests - basieren auf spezifischer Testtheorie- hohes Maß an Standardisierung bei Testdurchführung, Testauswertung &

Interpretation - an umfangreichen Stichproben geeicht (normiert), um Vergleichbarkeit der

Position eines Individuums zu sichern

à Informelle Tests - für aktuelle Testzwecke zusammengestellte Instrumente


- für aktuelle Testzwecke zusammengestellte Instrumente- nicht geeicht, können aber dennoch auf einer Testtheorie basieren - Sonderform: Lernzielorientierte Tests (Klauer 1987)

• Bezug beim Vergleich von Testergebnissen…

àààà Normorientierte Tests - verwenden eine soziale Bezugsnorm- dienen dem Vergleich einer getesteten Person mit einer Gruppe vergleichbarer

Personen- z.B. klassische Intelligenztests

Vorteile: - mit Hilfe der sozialen Bezugsnorm lassen sich zeitlich stabile Leistungsunterschiede von Lernenden identifizieren, die als Hinweise für überdauernde Kompetenzunterschiede gelten

- ist sinnvoll, wenn es darum geht, den/die dauerhaft Beste(n) oder Schlechte(n) in einer Klasse zu ermitteln

Nachteile: - soziale Bezugsnormorientierung bezieht sich auf enges Bezugssystem

- dies kann zur Folge haben, dass Kinder mit „objektiv gleichen“ Leistungen je nach der Leistungsstärke ihrer


gleichen“ Leistungen je nach der Leistungsstärke ihrer Bezugsgruppe einmal als gut und ein anderes Mal als schwach eingestuft werden

- kann zu Stagnationen bzw. Rückentwicklungen der gesamten Klasse im Hinblick auf objektive Zielvorgaben führen

- verdeckt interindividuelle Unterschiede Einzelner in Bezug auf ihren Lernfortschritt -> werden erst dann als „besser“ wahrgenommen, wenn sie andere „überholen“

à Kriteriumsorientierte Tests -verwenden kriteriale Bezugsnorm- dienen dem Vergleich einer getesteten Person mit einem zuvor & unabhängig

von anderen Personen festgelegten Kriterium- zu testende Personen sollen möglichst gut in der Umgebung des Kriteriums

(z.B. Lernziel) voneinander unterscheidbar sein

à Lerntests- verwenden individuelle Bezugsnorm- dienen dem Vergleich einer getesteten Person mit einem Testergebnis

derselben Person zu einem früheren Zeitpunkt- bergen die Gefahr, dass stabile Leistungsunterschiede zwischen Schülern


- bergen die Gefahr, dass stabile Leistungsunterschiede zwischen Schülern ausgeblendet werden

• Art der zugrunde liegenden Testtheorie…

à Klassisch konstruierte Tests -basieren auf klassischer Testtheorie-> Antwort des Probanden spiegelt wahren Wert (tatsächliche Ausprägung der zu erfassenden Eigenschaft) & Messfehler wider-Ziel der Testkonstruktion ist hohe Trennschärfe/Reduzierung des Messfehlers

à Probalistisch konstruierte Tests

-basieren auf Testmodell der probalistischen Testtheorie (Bsp.: Rasch Modell)

- Wahrscheinlichkeit einer richtigen Itemlösung ergibt sich aus Funktion zweier Modellparameter Personenfähigkeit & Itemschwierigkeit

- p~ 0,5 wenn Fähigkeit = Schwierigkeit; - p~ 0 wenn Fähigkeit < Schwierigkeit; - p~1 wenn Fähigkeit > Schwierigkeit

- wenn Modell gilt, dann hat der Test die Eigenschaft der sog. Spezifischen Objektivität = geschätzte Fähigkeitswerte sind unabhängig von den


Spezifischen Objektivität = geschätzte Fähigkeitswerte sind unabhängig von den Schwierigkeitswerten der verwendeten Items -> den Personen können dann Items vorgelegt werden, die möglichst gut auf ihre individuell unterschiedlichen Fähigkeiten abgestimmt sind =adaptiver Test

- VORTEIL: Adaptive Tests benötigen um eine vorher festgelegte Messgenauigkeit zu erreichen weniger Items als ein Test auf Basis der klassischen Testtheorie

Wie interpretiere ich erhaltene Testwerte?

Grundbegriffe:

à Rohwert = Anzahl richtig gelöster Aufgaben im Test

à Normwert- Rohwerte allein geben das Leistungsvermögen einer Person nicht

wirklich wider- Normwerte stehen bei standardisierten Tests durch die Eichung des


- Normwerte stehen bei standardisierten Tests durch die Eichung des Tests zur Verfügung: auf Grund der mittleren Leistung & der Verteilung einer Eichstichprobe lässt sich jedem Rohwert ein Normwert zuordnen

à Bestimmung der Position einer getesteten Person im Hinblick auf den Maßstab der Eichstichprobe wird möglich

à Normwerte = T-Werte, Z-Werte und IQ-Wertediesen Testnormwerten liegt die Annahme einer Normalverteilung zugrunde

à Prozentrangnormen:

- um zu Prozentrangnormen zu gelangen, fasst man die Rohwerte zu Rohwertklassen zusammen, die jeweils gleiche Prozentanteile in der Gesamtverteilung der Rohwerte ausmachen

- Jedem Rohwert im Test ist dann ein bestimmter Prozentrang zuordenbar

- der Prozentrang gibt an, wie viel Prozent der Eichstichprobe genau so viele oder noch weniger Testitems richtig gelöst haben


viele oder noch weniger Testitems richtig gelöst haben- Bsp.: PR=60 à 60 % der Personen der Eichstichprobe haben genau

so viele oder weniger Testitems richtig gelöst- Normalverteilungsannahme fehlt, Prozentrangnormierung ist aber

beliebt in der diagnostischen Praxis, da sie eine rasche Bestimmung der relativen Position einer getesteten Person zulassen (gehört sie zu den Besten oder Schlechtesten ?)

Beispielaufgabe:

Ø Wenn von 300 Schülern die Ergebnisse eines Rechentests mit 80 Aufgaben vorliegen, dann kann man auf einer Skala von 0-80 eintragen, wie oft jeder Rohwertpunkt von wie vielen Schülern erreicht wurde.

Rohwert Häufigkeitdieses Rohwertes

KumulierteHäufigkeitRohwert

Cum f% PR

80 … …

… … …


… … …

… … …

5 25 98

4 18 73 24,3 24

3 19 55 18,3 18

2 15 36 12,0 12

1 12 21 7,0 7

0 9 9 3,0 3

Dabei gilt:

Cum f%= 100 * cum fN

à Ergebnisse: - Rohwert 3 (3 Aufgaben richtig) kann Prozentrangplatz 18 zugeordnet werdenà die Rechenleistung eines Schülers mit 3 Rohwertpunkten

entspricht der von 18% aller Schüler der Stichprobeoder à 18% der anderen Schüler haben gleich gut oder schlechter

abgeschnitten


abgeschnitten

- Für algebraische Operationen müssen die Prozentränge in T-Werte umgerechnet werden

- dafür liegen in den meisten Statistikbüchern Tabellen vor- sorgfältig entwickelte Schultests beziehen mittlerweile auch Messfehler

in die Normenskala mit einà „Prozentrangband“ oder „T-Wert Band“

Bsp.: Ausschnitt aus der Normentabelle des Allgemeinen Schulleistungstestsfür 2. Klassen (AST 2+)

Rohwert Prozentrangband Mittlerer T-Wert T-Wert-Band Rohwert

50-52 31-49 47 45-50 50-52

53-55 35-54 49 46-51 53-55

56-58 41-59 50 48-52 56-58

59-61 47-65 51 49-54 59-61

62-64 52-69 53 51-55 62-64


62-64 52-69 53 51-55 62-64

65-67 57-75 54 52-57 65-67

68-70 63-80 56 53-58 68-70

71-73 68-85 57 55-60 71-73

74-76 73-89 59 56-63 74-76

à Ein Lehrer kann daran sehen, dass ein Schüler bzw. eine Schülerin mit einem Testrohwert von 75 Punkten im Prozentrangband 73-89 liegt. Das heißt, die Testleistung ist mindestens gleich gut oder besser als die von 73% der Gruppe der Zweitklässler und höchstens gleich gut oder schlechter als die von 89%.

à In diesem Bereich liegt der „wahre Wert“ des Schülers


Wie komme ich von validierten Testwerten zu Noten?

1. Es liegen Daten vor: Haufigkeitsverteilung

Bsp. Testergebnisse eines standardisierten Mathematiktests

810121416


02468

Ordinate (senkrecht): absolute HäufigkeitenAbszisse (waagerecht): alle möglichen Ausprägungen der Testwerte

2. Es ist bekannt, wie diese Daten zustande gekommen sind & wie sie hinsichtlich ihrer Gütekriterien zu beurteilen sind.

3. Die Verteilung der Daten ist bekannt.- Wie viele Personen von einer Anzahl N haben insgesamt einen bestimmten

Punktwert erreicht?

4. Es wird eine Normorientierung gewählt


- soziale Bezugsnorm, individuelle Bezugsnorm, kriteriale Bezugsnorm …- dabei geht man von einer Normalverteilung aus

(Glockenkurve- Gaussche Normalverteilung)- bei schulischen Leistungstests geht man zumeist von

Prozentrangnormierungen aus

5. Die bestehenden Daten werden bestimmten Voraussetzungen angepasst

- wenn Verteilung der Daten nicht einer Normalverteilung entspricht, wird eine Anpassung der Daten vorgenommen

- d.h. Rohwerte werden in Normwerte umgerechnet

Übergang zwischen Prozentwerten und Noten in einer Normalverteilung:

Prozentwert 100- 97,72- 84,11- 49,99- 15,86-0,12 < 0,12


à Mit diesem Vorgehen wird eine Transformation der ursprünglichen Daten (Punkte, Rohwerte), welche nicht normalverteilt sind, in eine Normalverteilung erreicht.

Prozentwert 100-

97,73

97,72-

84,11

84,11-

50,00

49,99-

15,87

15,86-0,12 < 0,12

Note 1 2 3 4 5 6

Verhaltensbeobachtungen

„Beobachtung ist das grundlegende Verfahren der empirisch forschenden Sozialwissenschaften und der Erziehungswissenschaften.“ (Roth 2001)

- umfasst jegliche Form der Beobachtung einer Person in realen und simulierten Situationen (Bsp. Reale Situation- Unterricht; Bsp. Simulierte Situation-Rollenspiel)

Bsp.: Ein Lehrer geht über den Schulhof. Er schaut eher zu, als das er beobachtet.


Bsp.: Ein Lehrer geht über den Schulhof. Er schaut eher zu, als das er beobachtet. Das heißt, würde man ihn nach seinem Spaziergang nach Häufigkeit & Schwere aggressiver Handlungen, Gesprächskontakten zwischen Mädchen & Jungen der 5. & 6. Klassenstufe o.Ä. fragen, wäre er überfragt.

à Die Qualität einer Verhaltensbeobachtung ist abhängig vom Kategoriensystem zur Protokollierung des beobachteten Verhaltens & vom Training des Beobachters, damit grundlegende Beobachtungsfehler vermieden werden können

Naive Beobachtung ß à systematische/wissenschaftliche Beobachtung

à Die Lehrkraft sollte in Beobachtungsbögen, Gutachten usw. nicht nur zum Verhalten des Schülers Stellung nehmen, sondern auch Rückschlüsse auf Charaktermerkmale ziehen & Prognosen über die künftige Entwicklung stellen


à Dabei hat sie folgende Möglichkeiten der wissenschaftlichen Beobachtung:

• unsystematische & systematische Beobachtung• nicht-teilnehmende & teilnehmende Beobachtung• Beobachtung von Ereignis- & Zeitstichproben• Beobachtung nach Art der Ergebnisfixierung

Gefahr von Beobachtungsfehlern

- Beobachtungsfehler = Fehler, die mit begrenztem Vermögen bzw. fehlendem Willen des Beobachters zu tun haben (geringe Sorgfalt, Langeweile, Müdigkeit, Unvertrautheit mit der Situation der Leistungsbeurteilung)

-Nicht alle für das Urteil relevanten Verhaltensweisen werden wahrgenommen

Gefahr von Beurteilungsfehlern

Typische Beurteilungsfehler (Hasselhorn & Gold 2006):


Ø Mildeeffekt: Voreingenommenheit führt zu positiverer Beurteilung einer Person

Ø Großzügigkeitsfehler: Alle Personen werden günstiger beurteilt als angemessen-Bezug zur sachlichen Norm (kriteriale Norm) ist verlorengegangen

Ø Halo- oder Hofeffekte: Urteil wird von einer markanten Eigenschaft der zu beurteilenden Person (Aussehen, Mundart) beeinflusst. Verzerrung des Urteils kann sich zu Gunsten als auch zu Ungunsten der zu beurteilenden Person auswirken.

Ø Logischer Fehler:Fälschliche Annahme über Zusammenhang zweier Merkmale beeinflusst das Urteil à Lehrer glaubt, dass viele Rechtschreibfehler die Folge geringer Intelligenz seien & kommt daher gar nicht erst auf die Idee, dass eine Lese-Rechtschreib-Störung vorliegt


eine Lese-Rechtschreib-Störung vorliegt

Ø Tendenz zur Mitte:Manche Urteiler meiden extreme Urteile, was zur Folge hat, dass sie nur mittlere Bewertungen (z.B. nur Zensuren zwischen 2 und 4) abgeben.

Ø Tendenz zu extremen UrteilenAndere überhöhen gern in ihrer Bewertung Unterschiede zwischen Personen. Sie sind von einer Leistung entweder begeistert oder enttäuscht. Die Folge ist eine Tendenz zu extremen Urteilen & die Vermeidung mittlerer Bewertungen.